JP4412504B2 - 音声認識装置、音声認識方法、及び音声認識用プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識用プログラム Download PDF

Info

Publication number
JP4412504B2
JP4412504B2 JP2007108037A JP2007108037A JP4412504B2 JP 4412504 B2 JP4412504 B2 JP 4412504B2 JP 2007108037 A JP2007108037 A JP 2007108037A JP 2007108037 A JP2007108037 A JP 2007108037A JP 4412504 B2 JP4412504 B2 JP 4412504B2
Authority
JP
Japan
Prior art keywords
text
candidate group
target
speech recognition
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007108037A
Other languages
English (en)
Other versions
JP2008268340A (ja
Inventor
久幸 長島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2007108037A priority Critical patent/JP4412504B2/ja
Priority to US12/104,982 priority patent/US8005673B2/en
Publication of JP2008268340A publication Critical patent/JP2008268340A/ja
Application granted granted Critical
Publication of JP4412504B2 publication Critical patent/JP4412504B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Description

本発明は、使用者により入力される音声を認識し、認識した結果に基づいて操作対象と操作内容を決定する音声認識装置、音声認識方法、及び音声認識プログラムに関する。
近年、例えば、使用者が機器の操作等を行うシステムにおいて、使用者により入力される音声を認識して、機器の操作等に必要な情報(操作対象や操作内容を指すコマンド)を取得する音声認識装置が用いられている。このような音声認識装置では、使用者により入力される音声(発話)を認識し、認識した結果に基づいて使用者に応答して使用者の次の発話を促すことで、使用者との対話が行われる。そして、使用者との対話を認識した結果から、機器の操作等を行うために必要な情報が取得される。
この音声認識装置は、例えば車両に装備されて、車両に搭載されたオーディオ、ナビゲーションシステム、エアコンディショナ等の複数の機器が使用者により操作される。さらに、これらの機器は高機能化しており、例えば、ナビゲーションシステムには、地図表示やPOI(Point of Interest)検索等の複数の機能が備えられ、これらの機能が使用者により操作される。しかし、このように多数の操作対象(例えばナビゲーションシステムにインストールされたアプリケーション)があると、使用者が操作したいアプリケーションが複数ある場合に、各アプリケーションを操作するためのコマンドを発話毎にそれぞれ音声入力して認識させるのでは、操作が冗長で使用者にとって利便性が良くない。これに対して、1つのコマンドに複数のアプリケーションを予め対応付けておき、使用者がこのコマンドを音声入力することで、1回の発話で複数のアプリケーションを操作することができる技術が提案されている(例えば、特許文献1参照)。
この特許文献1の音声認識装置(対話型端末装置)では、認識対象であるコマンドとして、使用者が対話中のアプリケーションを操作するためのローカルコマンドと、対話中のアプリケーション以外の他のアプリケーションを操作するためのグローバルコマンドとを備える。そして、入力された発話がローカルコマンドであるか否かを判定し、ローカルコマンドであると判定した場合は、ローカルコマンドとして音声認識処理を行い、ローカルコマンドでないと判定した場合には、グローバルコマンドとして音声認識処理を行う。このとき、グローバルコマンドには、1つ以上のアプリケーションが対応付けられており、この装置では、グローバルコマンドの入力に対して、グローバルコマンドに対応付けられたすべてのアプリケーションそれぞれにおいて、認識されたグローバルコマンドに対応付けられた処理が実行される。
特開2004−234273号公報
しかしながら、特許文献1の装置では、複数のアプリケーションに対応付けられたコマンドを予め用意し、このコマンドを使用者が用いる必要がある。従って、使用者が複数のアプリケーションを任意に組み合わせて1回の発話で操作する場合に対応するためには、組み合わせに応じた多数のコマンドを用意し、このコマンドを使用者が用いることが必要となってしまい、利便性が良くない。
これに対して、使用者が複数のアプリケーションを操作したい場合に、各アプリケーションを操作するためのコマンドを1回の発話で認識させようとすることが想定される。すなわち、1回の発話で複数のコマンドを音声入力して認識させることで、複数のアプリケーションに対応付けられたコマンドを予め用意することなく、複数のアプリケーションを任意に組み合わせて操作可能とするものである。しかしながら、特許文献1の装置では、1回の発話から認識されるのは1つのコマンドのみであるため、このような1つの発話に複数のコマンドが含まれる場合には対応することができない。
本発明は、上記事情に鑑み、使用者の1回の発話から複数のコマンドを認識して複数の操作対象を操作可能な音声認識装置、音声認識方法、及び音声認識用プログラムを提供することを目的とする。
[1]本発明の音声認識装置は、音声入力手段により入力された音声についての認識結果に基づいて、予め定められた種類の操作対象及びその操作内容から、操作対象及びその操作内容を決定する音声認識装置において、
前記入力された音声を認識することにより、該音声を単語列で表現されるテキストに変換する音声認識手段と、
認識対象である単語の出現確率や接続確率を示すデータが当該単語のテキスト及び操作対象や操作内容を表すカテゴリに応じたクラスと共に記録された構文モデルを用いて、前記音声認識手段により変換されたテキストから、当該認識されたテキストの尤度を表わす構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第1の操作候補群を特定する処理を実行する第1の構文解析手段と、
前記構文モデルのうち前記第1の操作候補群に含まれない操作対象のデータを用いて、前記予め定められた種類の操作対象のうち前記第1の操作候補群に含まれない操作対象に対して、前記音声認識手段により変換されたテキストから、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第2の操作候補群を特定する処理を実行する第2の構文解析手段と、
前記第1の操作候補群及び前記第2の操作候補群から、前記操作対象及びその操作内容を決定するための最終的な操作候補群を特定する操作候補特定手段と
を備えることを特徴とする(第1発明)。
第1発明の音声認識装置では、使用者から対象を操作するための発話が音声入力されて、当該音声が音声認識手段により認識され、単語列で表現されるテキストに変換される。ここで、「テキスト」とは、単語の列で表現された、所定の意味を有する有意構文である。このように、入力された発話をテキストとして書き起こす手法(ディクテーション)を用いることで、予め決められた言い回しの発話に限定されない、使用者の自然な発話の認識が可能となる。
そして、第1の構文解析手段により、例えばテキストに含まれる単語や単語列の特徴に基づいて該テキストが構文解析される。これにより、例えばテキスト全体から尤度の高い操作候補が第1の操作候補群として特定される。すなわち、第1の構文解析手段は、認識対象である単語の出現確率や接続確率を示すデータが当該単語のテキスト及び操作対象や操作内容を表すカテゴリに応じたクラスと共に記録された構文モデルを用いて、前記音声認識手段により変換されたテキストから、当該認識されたテキストの尤度を表わす構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第1の操作候補群を特定する。
このとき、使用者が複数の対象を操作するために、操作対象及びその操作内容を指す複数のコマンドを1回の発話で音声入力する場合が想定される。この場合、第1の構文解析手段により、使用者が音声入力した複数のコマンドのうち、単語や単語列の特徴がより顕著なコマンドが第1の操作候補群として特定されていると考えられる。
そこで、第2の構文解析手段は、予め定められた種類の操作対象のうち、第1の操作候補群に含まれない操作対象に対して、テキストを構文解析する。これにより、第1の操作候補群として特定されたコマンドが排除された状態でテキストが構文解析されるので、使用者が音声入力した他のコマンドの特徴が適切に抽出され、第2の操作候補群として特定される。すなわち、第2の構文解析手段は、前記構文モデルのうち前記第1の操作候補群に含まれない操作対象のデータを用いて、前記予め定められた種類の操作対象のうち前記第1の操作候補群に含まれない操作対象に対して、前記音声認識手段により変換されたテキストから、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第2の操作候補群を特定する処理を実行する。
そして、操作候補特定手段により、第1及び第2の操作候補群から、操作対象及びその操作内容を決定するための最終的な操作候補群が特定されるので、使用者が1回の発話で複数のコマンドを音声入力した場合でも、各コマンドを最終的な操作候補群に含ませることが可能となる。従って、本発明によれば、使用者の1回の発話から複数のコマンドを認識して複数の対象を操作することができる。
[2]上記第1発明の音声認識装置において、前記音声認識手段により変換されたテキストから、該テキストに含まれる単語が各操作対象に関連する度合を示す指標となる単語スコアを算出する手段を備え、前記第1の操作候補群に含まれない操作対象のうち各操作対象毎の単語スコアについて前記テキストに含まれる該操作対象毎の単語当りの平均値を算出し、該平均値が所定閾値以上である操作対象のみに対して、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として前記第2の操作候補群を特定することが好ましい(第2発明)。このとき、前記平均値として、例えば、前記各操作対象毎の前記単語スコアの総和を、前記テキストに含まれる該各操作対象毎の単語数で除算した値を用いることが好ましい。
ここで、「スコア」とは、入力音声の認識結果として得られたテキストに含まれる単語又は単語列が、音響的観点や言語的観点等のさまざまな観点から入力音声に該当するもっともらしさ(尤度、確信度)を表す指数を意味する。
また、「単語スコア」は、例えば、認識対象である単語について予め定められた、単語毎の出現確率等に基づいて算出される。すなわち、各操作対象毎の単語スコアは、テキストに含まれる単語が各操作対象に関連する度合を示す指標となる。よって、この各操作対象毎の単語スコアに基づいて、その操作対象に関するコマンドがテキストに残されているか否かを把握することが可能である。
従って、前記第1の操作候補群に含まれない操作対象のうち各操作対象毎の単語スコアについて前記テキストに含まれる該操作対象毎の単語当りの平均値を算出し、該平均値が所定閾値以上である操作対象のみに対して、テキストを構文解析することにより、第2の操作候補群をより精度良く特定することができる。
この場合、各操作対象毎の単語スコアの、テキストに含まれる該各操作対象毎の単語当りの平均値は、テキストに含まれる単語が各操作対象に関連する度合を平均的に示す指標であり、該テキスト全体が各操作対象に関連する度合を顕著に示す。よって、この算出された値が大きい場合には、その操作対象に関するコマンドがテキストに残されている可能性が高い。従って、予め定められた種類の操作対象のうち前記第1の操作候補群に含まれない操作対象のうち該平均値が所定閾値以上である操作対象のみに対して、テキストを構文解析することにより、第2の操作候補群をより精度良く特定することができる。
[3]上記第1又は第2発明の音声認識装置において、前記所定の条件は、前記構文解析スコアの値が最も高いテキスト、その値が上位から所定順位までのテキスト、又はその値が所定値以上のテキストであることが好ましい(第3発明)。
[4]上記第1〜第3発明の音声認識装置において、前記第2の操作候補群の各操作候補が、前記第1の操作候補群に対して、操作対象及びその操作内容について矛盾が生じるか否かを判断する矛盾判断手段を備え、前記第2の構文解析手段は、前記第2の操作候補群から、前記矛盾判断手段により前記第1の操作候補群に対して操作対象及びその操作内容について矛盾が生じると判断された操作候補を除外することが好ましい(第4発明)。
すなわち、矛盾判断手段により、第2の操作候補群の各操作候補が、第1の操作候補群に対して、操作対象及びその操作内容について矛盾が生じると判断された場合には、この第2の操作候補は、誤って特定された可能性が高い。よって、この第2の操作候補を、第2の操作候補群から除外することにより、第2の操作候補群をより精度良く特定することができる。
[5]上記第1〜第3発明の音声認識装置において、前記第2の構文解析手段は、前記第2の操作候補群を特定する処理を実行した結果、操作対象が特定できない操作候補を、前記第2の操作候補群から除外することが好ましい(第5発明)。
すなわち、第2の構文解析手段により、第2の操作候補群を特定する処理を実行した結果、操作対象が特定できない場合は、この第2の操作候補は内容が不明瞭なので、誤って特定された可能性が高い。よって、この第2の操作候補を、第2の操作候補群から除外することにより、第2の操作候補群をより精度良く特定することができる。
[6]本発明の音声認識方法は、入力された音声についての認識結果に基づいて、予め定められた種類の操作対象及びその操作内容から、操作対象及びその操作内容を決定する音声認識方法であって、音声入力手段により入力された音声を認識することにより、該音声を単語列で表現されるテキストに変換する音声認識ステップと、認識対象である単語の出現確率や接続確率を示すデータが当該単語のテキスト及び操作対象や操作内容を表すカテゴリに応じたクラスと共に記録された構文モデルを用いて、前記音声認識手段により変換されたテキストから、当該認識されたテキストの尤度を表わす構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第1の操作候補群を特定する処理を実行する第1の構文解析ステップと、前記構文モデルのうち前記第1の操作候補群に含まれない操作対象のデータを用いて、前記予め定められた種類の操作対象のうち前記第1の操作候補群に含まれない操作対象に対して、前記音声認識手段により変換されたテキストから、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第2の操作候補群を特定する処理を実行する第2の構文解析ステップと、前記第1の操作候補群及び前記第2の操作候補群から、前記操作対象及びその操作内容を決定するための最終的な操作候補群を特定する音声候補特定ステップとを備えたことを特徴とする(第6発明)。
第6発明の音声認識方法によれば、第1発明の音声認識装置に関して説明したように、第1の構文解析手段によりテキストが構文解析され、テキスト全体から尤度の高い操作候補が第1の操作候補群として特定されると共に、第2の構文解析手段により、第1の操作候補群として特定されたコマンドが排除された状態でテキストが構文解析される。これにより、使用者が音声入力した他のコマンドの特徴が適切に抽出され、第2の操作候補群として特定される。従って、使用者が1回の発話で複数のコマンドを音声入力した場合に、各コマンドを最終的な操作候補群に含ませることが可能となる。よって、この音声認識方法によれば、使用者の1回の発話から複数のコマンドを認識して複数の対象を操作することができる。
[7]本発明の音声認識プログラムは、入力された音声についての認識結果に基づいて、予め定められた種類の操作対象及びその操作内容から、操作対象及びその操作内容を決定する処理をコンピュータに実行させる音声認識用プログラムであって、音声入力手段により入力された音声を認識することにより、該音声を単語列で表現されるテキストに変換する音声認識処理と、認識対象である単語の出現確率や接続確率を示すデータが当該単語のテキスト及び操作対象や操作内容を表すカテゴリに応じたクラスと共に記録された構文モデルを用いて、前記音声認識手段により変換されたテキストから、当該認識されたテキストの尤度を表わす構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第1の操作候補群を特定する第1の構文解析処理と、前記構文モデルのうち前記第1の操作候補群に含まれない操作対象のデータを用いて、前記予め定められた種類の操作対象のうち前記第1の操作候補群に含まれない操作対象に対して、前記音声認識手段により変換されたテキストから、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第2の操作候補群を特定する第2の構文解析処理と、前記第1の操作候補群及び前記第2の操作候補群から、前記操作対象及びその操作内容を決定するための最終的な操作候補群を特定する操作候補特定処理とを前記コンピュータに実行させる機能を有することを特徴とする(第7発明)。
第7発明の音声認識用プログラムによれば、第1発明の音声認識装置に関して説明した効果を奏し得る処理をコンピュータに実行させることができる。
[第1実施形態]
本発明の一実施形態を添付の図面を参照して説明する。まず、第1実施形態について図1〜図8を用いて説明する。図1は、本実施形態による音声認識装置の機能ブロック図であり、図2は、図1の音声認識装置の言語モデル、構文モデルの構成を示す説明図である。また、図3は、図1の音声認識装置の全体的な作動(音声対話処理)を示すフローチャートであり、図4は、図3の音声対話処理における言語モデルを用いた音声認識処理を示す説明図である。また、図5,図6は、図3の音声対話処理における第1の構文解析処理を示す説明図であり、図7は、図3の音声対話処理の第2の構文解析処理における構文解析を行う操作対象を特定する処理を示す説明図であり、図8は、図3の音声対話処理における第2の構文解析処理を示す説明図である。
図1に示すように、本発明の実施形態である音声認識装置は音声対話ユニット1から成り、車両10に搭載されている。この音声対話ユニット1には、車両10の運転者から発話が入力されるマイク2が接続されると共に、車両10の状態を検出する車両状態検出部3が接続されている。また、音声対話ユニット1には、運転者への応答を出力するスピーカ4と、運転者への表示を行うディスプレイ5とが接続されている。さらに、音声対話ユニット1には、運転者が音声等で操作可能な複数の機器6a〜6cが接続されている。
マイク2は、車両10の運転者の音声が入力されるものであり、車内の所定位置に設置されている。マイク2は、例えば、トークスイッチにより音声の入力開始が指令されると、入力される音声を運転者の発話として取得する。トークスイッチは、車両10の運転者により操作されるON・OFFスイッチであり、押下してON操作されることによって音声の入力開始が指令される。
車両状態検出部3は、車両10の状態を検出するセンサ等である。車両10の状態とは、例えば、車両10の速度や加減速等の走行状態、車両10の位置や走行道路等の走行環境情報、車両10に装備された機器(ワイパー、ウィンカー、ナビゲーションシステム6a、オーディオ6b等)の動作状態、或いは車両10の車内温度等の車内の状態をいう。具体的には、例えば、車両10の走行状態を検出するセンサとして、車両10の走行速度(車速)を検出する車速センサ、車両10のヨーレートを検出するヨーレートセンサ、車両10のブレーキ操作(ブレーキペダルが操作されているか否か)を検出するブレーキセンサ等が挙げられる。さらに、車両10の状態として、車両10の運転者の状態(運転者の手掌部の発汗、運転負荷等)を検出してもよい。
スピーカ4は、車両10の運転者への応答(音声ガイド)を出力するものである。なお、このスピーカ4としては、後述のオーディオ6aが有するスピーカを用いることができる。
ディスプレイ5は、例えば、車両10のフロントウィンドウに画像等の情報を表示するHUD(ヘッドアップディスプレイ)、車両10の車速などの走行状態を表示するメータに一体的に設けられたディスプレイ、或いは後述のナビゲーションシステム6bに備えられたディスプレイ等である。なお、ナビゲーションシステム6bのディスプレイは、タッチスイッチが組み込まれたタッチパネルとなっている。
機器6a〜6cは、具体的には、車両10に装備されたオーディオ6a、ナビゲーションシステム6b、エアコンディショナ6cである。各機器6a〜6cには、制御可能な構成要素(デバイス,コンテンツ等)、機能、動作等が予め定められている。
例えば、オーディオ6aには、デバイスとして「CD」「MP3」「ラジオ」「スピーカ」等がある。また、オーディオ6aの機能として「音量」等がある。また、オーディオ6aの動作として「変更」「オン」「オフ」等がある。さらに、「CD」「MP3」の動作として、「再生」「停止」等がある。また、「ラジオ」の機能として「選局」等がある。また、「音量」の動作として「上げる」「下げる」等がある。
また、例えば、ナビゲーションシステム6bには、コンテンツとして「画面表示」「経路誘導」「POI検索」等がある。さらに、「画面表示」の動作として「変更」「拡大」「縮小」等がある。なお、「経路誘導」は音声ガイド等により目的地へ誘導する機能であり、「POI検索」は、例えばレストラン、ホテル等の目的地を検索する機能である。
また、例えば、エアコンディショナ6cには、その機能として「風量」「設定温度」等がある。また、エアコンディショナ6cの動作として「オン」「オフ」等がある。さらに、「風量」「設定温度」の動作として「変更」「上げる」「下げる」等がある。
これらの機器6a〜6cは、対象を制御するための情報(機器や機能の種別、動作の内容等)を指定することにより制御される。操作対象となる各機器6a〜6cのデバイス、コンテンツ、機能は複数のドメインに分類されている。「ドメイン」とは認識対象のカテゴリに応じた分類を意味し、具体的には、操作対象である機器や機能を表す。ドメインは、例えば「オーディオ」のドメインが、その下位で「CD」「ラジオ」のドメインに分類されるといったように、階層的に指定することができる。
音声対話ユニット1は、詳細の図示は省略するが、入力アナログ信号をデジタル信号に変換するA/D変換回路と、音声のデータを記憶するメモリと、該メモリに記憶されたデータにアクセス(読み出し及び書き込み)するためのインタフェース回路を有して、該音声のデータに対して各種の演算処理を行うコンピュータ(CPU,メモリ,入出力回路等からなる演算処理回路、或いはこれらの機能を集約したマイクロコンピュータ)等により構成された電子ユニットである。なお、音声のデータを記憶するメモリとしては、当該コンピュータの内部メモリ又は外部の記憶媒体を用いることができる。
そして、音声対話ユニット1は、マイク2の出力(アナログ信号)がA/D変換回路を介してデジタル信号に変換されて入力される。そして、音声対話ユニット1は、入力されたデータに基づいて、運転者から入力された発話を認識する処理、この認識結果に基づいて、スピーカ4やディスプレイ5を介して運転者との対話や運転者への情報提示を行う処理、機器6a〜6cを制御する処理等を実行する。
これらの処理は、前記コンピュータのメモリに予め実装されたプログラムを当該コンピュータにより実行することにより実現される。このプログラムは、本発明の音声対話用プログラムを含んでいる。なお、当該プログラムはCD−ROM等の記録媒体を介してメモリに格納されてもよい。或いは、当該プログラムは外部のサーバからネットワークや人工衛星を介して配信または放送され、車両10に搭載された通信機器により受信された上でメモリに格納されてもよい。
より詳しくは、音声対話ユニット1は、上記プログラムにより実現される機能として、入力された音声を音響モデル15と言語モデル16とを用いて認識してテキストとして出力する音声認識部11と、認識されたテキストから構文モデル17を用いて発話の意味を理解する構文解析部12とを備えている。また、音声対話ユニット1は、発話の認識結果から特定される操作候補に基づいてシナリオデータベース18を用いてシナリオを決定し、運転者への応答や機器の制御等を行うシナリオ制御部13と、運転者への音声による応答をスピーカ4を介して出力する音声出力部14とを備えている。なお、「操作候補」は、発話の認識結果に基づいて特定される操作対象や操作内容の候補に相当する。
さらに詳細には、構文解析部12は、その機能として、音声認識部11により変換されたテキストを構文解析して、第1の操作候補群を特定する処理(第1の構文解析処理)を実行する第1の構文解析部31と、予め定められた操作対象の種類のうち、第1の操作候補群に含まれない操作対象に対してテキストを構文解析することによって、第2の操作候補群を特定する処理(第2の構文解析処理)を実行する第2の構文解析部32と、第1及び前記第2の操作候補群から、操作候補を決定するための最終的な操作候補群を特定する操作候補特定部33とを備えている。
なお、音声認識部11、第1の構文解析部31、第2の構文解析部32、及び操作候補特定部33は、それぞれ、本発明の音声認識手段、第1の構文解析手段、第2の構文解析手段、及び操作候補特定手段に相当する。
また、音響モデル15、言語モデル16、構文モデル17、シナリオデータベース18は、それぞれ、データが記録されているCD−ROM、DVD、HDD等の記録媒体(データベース)である。
音声認識部11は、マイク2に入力された発話の音声を示す波形データを周波数分析して特徴ベクトル(周波数特徴量ベクトル)を抽出する。そして、音声認識部11は、抽出された特徴ベクトルに基づいて、入力された音声を認識して、単語列で表現されたテキストとして出力する「音声認識処理」を実行する。ここで、「テキスト」とは、単語の列で表現された、所定の意味を有する有意構文である。この音声認識処理は、次に説明するような確率統計的な手法を用いて、入力音声の音響的な特徴と言語的な特徴とを総合的に判断することにより実行される。
すなわち、音声認識部11は、まず、音響モデル15を用いて、抽出された特徴ベクトルに応じた発音データの尤度(以下、この尤度を適宜「音響スコア」という。)を評価し、当該音響スコアに基づいて発音データを決定する。また、音声認識部11は、言語モデル16を用いて、決定された発音データに応じた単語列で表現されたテキストの尤度(以下、この尤度を適宜「言語スコア」という。)を評価し、当該言語スコアに基づいてテキストを決定する。さらに、音声認識部11は、決定された全てのテキストについて、当該テキストの音響スコアと言語スコアとに基づいて音声認識の確信度(以下、この確信度を適宜「音声認識スコア」という。)を算出する。そして、音声認識部11は、この音声認識スコアが所定の条件を満たす単語列で表現されたテキストを、認識されたテキスト(Recognized Text)として出力する。
構文解析部12は、音声認識部11で認識されたテキストから、構文モデル17を用いて、入力された発話の意味を理解する第1及び第2の構文解析処理を実行する。この第1及び第2の構文解析処理は、次に説明するような確率統計的な手法を用いて、
音声認識部11で認識されたテキストにおける単語間の関係(構文)を解析することにより実行される。
すなわち、構文解析部12は、第1及び第2の構文解析処理において、認識されたテキストの尤度(以下、この尤度を適宜「構文解析スコア」という。)を評価し、当該構文解析スコアに基づいて、当該認識されたテキストの意味に対応するクラスに分類されたテキスト(Categorized Text)を決定する。ここで、「クラス」とは、上述したドメインのような、操作対象や操作内容を表すカテゴリに応じた分類に相当する。
詳細には、構文解析部12は、音声認識部11で認識されたテキストから、構文モデル17全体を用いて「第1の構文解析処理」を実行し、構文解析スコアが所定の条件を満たすクラス分類されたテキストを、第1の操作候補群として特定する。さらに、構文解析部12は、音声認識部11で認識されたテキストから、構文モデル17のうちの、第1の操作候補群に含まれず且つ所定条件を満たすドメインに分類された部分のデータのみを用いて「第2の構文解析処理」を実行し、構文解析スコアが所定の条件を満たすクラス分類されたテキストを、第2の操作候補群として特定する。
このとき、構文解析部12は、第2の構文解析処理を実行した結果得られた操作候補のうち、操作対象が特定できない操作候補を、第2の操作候補群から除外する。そして、構文解析部12は、第1及び第2の操作候補群から、操作候補を決定するための最終的な操作候補群を特定し、構文解析スコアと共に出力する。
シナリオ制御部13は、特定された操作候補と、車両状態検出部3から取得される車両10の状態とに基づいて、シナリオデータベース18に記録されたデータを用いて、運転者に対する応答出力や機器制御のシナリオを決定する。シナリオデータベース18には、応答出力や機器制御のための複数のシナリオが、操作候補や車両状態の条件と共に予め記録されている。そして、シナリオ制御部13は、決定されたシナリオに従って、音声や画像表示による応答を制御する処理や、機器を制御する処理を実行する。具体的には、シナリオ制御部13は、例えば、音声による応答では、出力する応答の内容(運転者の次の発話を促すための応答文や、操作の完了等を使用者に報知するための応答文)や、応答を出力する際の速度や音量を決定する。
音声出力部14は、シナリオ制御部13で決定された応答文を、その速度や音量に応じてスピーカ4から音声として出力させる。このとき、音声出力部14は、例えば、TTS(Text to Speech)等の処理を用いて音声を合成する手法を用いることができる。
音響モデル(Acoustic Model)15には、音声と周波数特徴量ベクトル列との確率的な対応を示すデータが記録されている。詳細には、音響モデル15には、認識単位(音素等)毎に、複数のモデルが用意されている。音声のモデル化には、HMM(Hidden Markov Model、隠れマルコフモデル)が一般的に知られている。HMMは、音声を定常信号源(状態)の変動であるとみなし、各状態と状態間の遷移確率とで表現する統計的信号源モデルである。HMMにより、時系列で変動する音声の音響的な特徴量を簡易な確率モデルで表現することができる。HMMの遷移確率等のパラメータは、対応する学習用の音声データを与えて学習させることにより予め決定される。
言語モデル(Language Model)16には、認識対象である単語の出現確率や接続確率を示すデータが、この単語の発音データ及びテキストと共に記録されている。認識対象である単語とは、対象を制御するための発話で使用される可能性のある単語として予め定められるものである。単語の出現確率や接続確率等のデータは、大量の学習テキストコーパスを解析することにより統計的に作成される。また、単語の出現確率は、例えば、学習テキストコーパスにおけるその単語の出現頻度等に基づいて算出される。
この言語モデル16には、例えば、特定のN個の単語が連続して出現する確率により表現されるNグラム(N-gram)の言語モデルが用いられる。本実施形態では、言語モデル16には、入力された発話に含まれる単語数に応じたNグラムが用いられる。具体的には、言語モデル16では、Nの値が発音データに含まれる単語数以下のNグラムが用いられる。例えば発音データに含まれる単語数が2である場合、1単語の出現確率で表現されるユニグラム(Uni-gram,N=1)、及び2つの単語の列の生起確率(先行する1単語についての条件付き出現確率)で表現されるバイグラム(Bi-gram,N=2)が用いられる。
さらに、言語モデル16では、Nの値を所定の上限値に制限してNグラムを用いることもできる。所定の上限値としては、例えば、予め定められた所定値(例えばN=2)や、入力された発話に対する音声認識処理の処理時間が所定時間以内になるように逐次設定される値等を用いることができる。例えばN=2を上限値としてNグラムを用いる場合、発音データに含まれる単語数が2より大きいときにも、ユニグラム及びバイグラムのみが用いられる。これにより、音声認識処理の演算コストが過大になることを防止して、運転者の発話に対して適切な応答時間で応答を出力することができる。
構文モデル(Parser Model)17には、認識対象である単語の出現確率や接続確率を示すデータが、この単語のテキスト及びクラスと共に記録されている。この構文モデル17には、例えば、言語モデル16と同様にNグラムの言語モデルが用いられる。本実施形態では、具体的には、構文モデル17では、N=3を上限値として、Nの値が認識されたテキストに含まれる単語数以下のNグラムが用いられる。すなわち、構文モデル17では、ユニグラム、バイグラム、及び3つの単語の列の生起確率(先行する2単語についての条件付き出現確率)で表現されるトライグラム(Tri-gram,N=3)が用いられる。なお、上限値は3以外でもよく、任意に設定可能である。また、上限値に制限せずに、Nの値が認識されたテキストに含まれる単語数以下のNグラムを用いるものとしてもよい。
図2に示すように、言語モデル16と構文モデル17とは、それぞれ、ドメインの種類毎に分類されて作成されている。図2の例では、ドメインの種類は、{Audio,Climate,Passenger Climate,POI,Ambiguous,Navigation,Clock,Help}の8種類である。{Audio}は操作対象がオーディオ6aであること、{Climate}は操作対象がエアコンディショナ6cであること、{Passenger Climate}は操作対象が助手席のエアコンディショナ6cであること、{POI}は操作対象がナビゲーションシステム6bのPOI検索機能であること、{Navigation}は操作対象がナビゲーションシステム6bの経路誘導や地図操作等の機能であること、{Clock}は操作対象が時計機能であること、{Help}は操作対象が機器6a〜6cや音声認識装置の操作方法を知るためのヘルプ機能であること、{Ambiguous}は操作対象が不明であることを、それぞれ示している。
次に、本実施形態の音声認識装置の作動(音声対話処理)について説明する。図3に示すように、まず、STEP1で、車両10の運転者から、対象を制御するための発話がマイク2に入力される。具体的には、運転者がトークスイッチをON操作して発話の入力開始を指令し、マイク2に音声を入力する。
次に、STEP2で、音声対話ユニット1は、入力された音声を認識してテキストとして出力する音声認識処理を実行する。
まず、音声対話ユニット1は、マイク2に入力された音声をA/D変換して音声を示す波形データを取得する。次に、音声対話ユニット1は、音声を示す波形データを周波数分析して特徴ベクトルを抽出する。これにより、音声を示す波形データは、例えば短時間スペクトル分析の手法によってフィルタ処理を施され、特徴ベクトルの時系列に変換される。この特徴ベクトルは、各時刻における音声スペクトルの特微量を抽出したもので、一般に10次元〜100次元(例えば39次元)であり、線形予測分析メルケプストラム(Linear Predictive Coding Mel Cepstrum)係数等が用いられる。
次に、音声対話ユニット1は、抽出された特徴ベクトルに対し、音響モデル15に記録された複数のHMMのそれぞれについて、当該特徴ベクトルの尤度(音響スコア)を評価する。そして、音声対話ユニット1は、当該複数のHMMのうちの音響スコアの高いHMMに対応する発音データを決定する。これにより、例えば「千歳」という発話が入力された場合、その音声の波形データから、「ti-to-se」という発音データがその音響スコアと共に得られる。このとき、例えば「マークセット」という発話が入力された場合、「ma-a-ku-se-t-to」という発音データと共に、「ma-a-ku-ri-su-to」のような音響的に類似の度合が高い発音データがそれぞれ音響スコアと共に得られる。
次に、音声対話ユニット1は、決定された発音データから、言語モデル16全体のデータを用いて、単語列で表現されたテキストを当該テキストの言語スコアに基づいて決定する。このとき、複数の発音データが決定されている場合には、各発音データについて、それぞれテキストが決定される。
具体的には、まず、音声対話ユニット1は、決定された発音データと言語モデル16に記録された発音データとを比較して、類似の度合の高い単語を抽出する。次に、音声対話ユニット1は、抽出された単語の言語スコアを、発音データに含まれる単語数に応じたNグラムを用いて算出する。そして、音声対話ユニット1は、発音データにおける各単語について、算出した言語スコアが所定の条件(例えば所定値以上)を満たすテキストを決定する。例えば、図4に示すように、入力された発話が「Set the station ninety nine point three FM.」である場合に、この発話から決定された発音データに応じたテキストとして、「set the station ninety nine point three FM」が決定される。
このとき、ユ二グラムでは、「set」「the」…「FM」のそれぞれの出現確率a1〜a8が与えられる。また、バイグラムでは、「set the」「the station」…「three FM」のそれぞれの2単語の生起確率b1〜b7が与えられる。同様に、N=3〜8について、N単語の生起確率c1〜c6,d1〜d5,e1〜e4,f1〜f3,g1〜g2,h1が与えられる。そして、例えばテキスト「ninety」の言語スコアは、発音データに含まれる単語「ninety」と当該単語に先行する単語とを合わせた単語数4に応じて、N=1〜4のNグラムから得られるa4,b3,c2,d1に基づいて算出される。
このように、入力された発話を、単語毎の確率統計的な言語モデルを用いてテキストとして書き起こす手法(ディクテーション)を用いることで、予め決められた言い回しの発話に限定されない、運転者の自然な発話の認識が可能となる。
次に、音声対話ユニット1は、決定された全てのテキストについて、音響スコアと言語スコアとの重み付き和を、音声認識の確信度(音声認識スコア)として算出する。なお、重み係数としては、例えば実験的に予め定められた値が用いられる。
次に、音声対話ユニット1は、算出した音声認識スコアが所定の条件を満たす単語列で表現されるテキストを、認識されたテキストとして決定して出力する。所定の条件は、例えば、音声認識スコアが最も高いテキスト、音声認識スコアが上位から所定順位までのテキスト、或いは音声認識スコアが所定値以上のテキスト等のように予め定められている。
次に、STEP3〜10で、音声対話ユニット1は、認識されたテキストから発話の意味を理解する構文解析処理を実行する。
まず、STEP3で、音声対話ユニット1は、構文モデル17全体を用いて、認識されたテキストからクラス分類されたテキストを決定する「第1の構文解析処理」を実行する。具体的には、まず、音声対話ユニット1は、構文モデル17全体のデータを用いて、認識されたテキストに含まれる単語について、それぞれ、1単語における各ドメインの尤度を算出する。次に、音声対話ユニット1は、当該尤度に基づいて1単語におけるドメインをそれぞれ決定する。次に、音声対話ユニット1は、構文モデル17のうち決定された種類のドメインに分類された部分のデータを用いて、1単語における各クラスの組(クラス分類されたテキスト)の尤度(単語スコア)を算出する。そして、音声対話ユニット1は、当該単語スコアに基づいて、1単語におけるクラス分類されたテキストを決定する。
同様に、音声対話ユニット1は、認識されたテキストに含まれる2単語列について、それぞれ、2単語における各ドメインの尤度を算出し、当該尤度に基づいて2単語におけるドメインを決定する。さらに、音声対話ユニット1は、2単語における各クラスの組の尤度(2単語スコア)を算出し、当該2単語スコアに基づいて2単語におけるクラスの組(クラス分類されたテキスト)を決定する。また、同様に、音声対話ユニット1は、認識されたテキストに含まれる3単語列について、それぞれ、3単語における各ドメインの尤度を算出し、当該尤度に基づいて3単語におけるドメインを決定する。さらに、音声対話ユニット1は、3単語における各クラスの組の尤度(3単語スコア)を算出し、当該3単語スコアに基づいて3単語におけるクラスの組(クラス分類されたテキスト)を決定する。
次に、音声対話ユニット1は、1単語、2単語、3単語で決定された各クラスの組と当該クラスの組のスコア(1単語スコア、2単語スコア、3単語スコア)とに基づいて、認識されたテキスト全体における各クラスの組の尤度(構文解析スコア)を算出する。そして、音声対話ユニット1は、当該構文解析スコアに基づいて、認識されたテキスト全体におけるクラスの組(クラス分類されたテキスト)を決定する。
ここで、図5に示す例を用いて、構文モデル17を用いてクラス分類されたテキストを決定する処理について説明する。図5の例では、認識されたテキストが「AC on floor to defrost」である。
このとき、構文モデル17全体を用いて、ユニグラムで、「AC」「on」…「defrost」について、それぞれ、1単語における各ドメインの尤度が算出される。そして、当該尤度に基づいて1単語におけるドメインが決定される。例えば、第1位の(尤度の最も高い)ドメインは、「AC」については{Climate}、「on」については{Ambiguous}、「defrost」については{Climate}と決定される。
さらに、構文モデル17のうちの決定されたドメインの種類に分類された部分のデータを用いて、ユニグラムで、「AC」「on」…「defrost」について、1単語における各クラスの組に対する尤度がそれぞれ算出される。そして、当該尤度に基づいて1単語におけるクラスの組が決定される。例えば、「AC」について、第1位の(尤度の最も高い)クラスの組は、{Climate_ACOnOff_On}と決定され、このクラスの組に対する尤度(単語スコア)i1が得られる。同様に、「on」…「defrost」について、クラスの組が決定され、このクラスの組に対する尤度(単語スコア)i2〜i5が得られる。
同様に、バイグラムで、「AC on」「on floor」…「to defrost」について、それぞれ、2単語における各ドメインの尤度が算出され、当該尤度に基づいて2単語におけるドメインが決定される。そして、2単語におけるクラスの組とその尤度(2単語スコア)j1〜j4が決定される。また、同様に、トライグラムで、「AC on floor」「on floor to」「floor to defrost」について、それぞれ、3単語における各ドメインの尤度が算出され、当該尤度に基づいて3単語におけるドメインが決定される。そして、3単語におけるクラスの組とその尤度(3単語スコア)k1〜k3が決定される。
次に、1単語、2単語、3単語で決定された各クラスの組について、例えば、各クラスの組の単語スコアi1〜i5、2単語スコアj1〜j4、3単語スコアk1〜k3の和が、テキスト全体における各クラスの組に対する尤度(構文解析スコア)として算出される。例えば、{Climate_Fan-Vent_Floor}に対する構文解析スコアは、i3+j2+j3+k1+k2となる。また、例えば、{Climate_ACOnOff_On}に対する構文解析スコアは、i1+j1となる。また、例えば、{Climate_Defrost_Front}に対する構文解析スコアは、i5+j4となる。そして、算出された構文解析スコアに基づいて、テキスト全体についてのクラスの組(クラス分類されたテキスト)が決定される。これにより、認識されたテキストから、{Climate_Defrost_Front}{Climate_Fan-Vent_Floor}{Climate_ACOnOff_On}といったクラス分類されたテキストが決定される。
次に、音声対話ユニット1は、算出された構文解析スコアが所定の条件を満たすようなクラス分類されたテキスト(Categorized Text)を、入力された発話の認識結果に基づいて特定される操作候補として、その操作候補の確信度(構文解析スコア)と共に出力する。所定の条件は、例えば、構文解析スコアが最も高いテキスト、構文解析スコアが上位から所定順位までのテキスト、或いは構文解析スコアが所定値以上のテキスト等のように予め定められている。例えば、上述のように「AC on floor to defrost」という発話が入力された場合に、第1の操作候補として、{Climate_Defrost_
Front}が、その構文解析スコアと共に出力される。
さらに、図6に示す例を用いて、第1の構文解析処理について説明する。図6の例では、認識されたテキストが「Turn on the radio and temperature up.」である。すなわち、1回の発話で、「オーディオ6aのラジオをオンする」というコマンドと「エアコンディショナ6cの設定温度を上げる」というコマンドの、2つのコマンドが音声入力されている場合である。
このとき、図5に示した例と同様に、構文モデル17全体を用いて、単語スコア、2単語スコア、3単語スコアが算出され、1単語、2単語、3単語におけるクラスの組が決定される。そして、これらの各クラスの組について、構文解析スコアが算出され、クラス分類されたテキストが決定される。図6の例では、図中に○を付して示した「Audio_Radio_On」が第1の操作候補群として決定されて、その構文解析スコアと共に出力される。このように、1回の発話で音声入力されたコマンドのうち、特徴がより顕著な「オーディオ6aのラジオをオンする」というコマンドが、第1の操作候補として特定される。
次に、STEP4で、音声対話ユニット1は、STEP3で第1の操作候補群が特定されたか否かを判断する。STEP4の判断結果がNO(第1の操作候補が1つも特定されていない)の場合には、音声対話ユニット1は、第2の構文解析処理及び最終的な操作候補群を特定する処理を行わず、そのままSTEP11に進む。
STEP4の判断結果がYES(第1の操作候補群が特定された)の場合には、STEP5に進み、音声対話ユニット1は、第2の構文解析処理で構文解析を行う操作対象を特定する処理を実行する。具体的には、まず、音声対話ユニット1は、予め定められた種類の操作対象のうち、第1の操作候補群に含まれない操作対象を特定する。次に、音声対話ユニット1は、認識されたテキストにおける単語スコアの、操作対象毎の総和を算出する。次に、音声対話ユニット1は、この総和を、認識されたテキストに含まれる各操作対象毎の単語数で除算した値を、操作対象を特定するための指標値(各操作対象毎の単語スコアの、テキストに含まれる各操作対象毎の単語当りの平均値)として算出する。次に、この算出された指標値が予め定めた所定閾値以上である操作対象を、第2の構文解析処理の構文解析を行う操作対象として特定する。
ここで、図7を例にして上述の操作対象を特定する処理について説明する。図7に示すテキストは図6と同様である。このとき、まず、第1の操作候補が「Audio_Radio_On」であるので、操作対象が「Audio」以外の「Ambiguous」「Navigation」「Climate」であると特定される。さらに、これらの操作対象「Ambiguous」「Navigation」「Climate」について、操作対象を特定するための指標値が、「0.127」「0.05」「0.4」と算出される。これにより、例えば、所定閾値を0.2とすると、第2の構文解析を行う操作対象が「Climate」と特定される。
次に、STEP6で、音声対話ユニット1は、STEP5で第2の構文解析処理の構文解析を行う操作対象が特定されたか否かを判断する。STEP6の判断結果がNO(操作対象が1つも特定されていない)の場合には、音声対話ユニット1は、第2の構文解析処理を行わず、そのままSTEP10に進む。
STEP6の判断結果がYES(操作対象が特定された)の場合には、STEP7に進み、音声対話ユニット1は、構文モデル17のうちの、STEP5で特定された操作対象に分類されたデータを用いて、テキストの意味を理解する「第2の構文解析処理」を実行する。なお、このとき、上述の図7に示す例では、「Climate」のドメインに分類されたデータに加えて、操作対象間の共通語を持つ「Ambiguous」のドメインに分類されたデータも用いて、第2の構文解析処理が行われる。第2の構文解析処理の詳細は、STEP3の第1の構文解析処理と同じである。これにより、例えば構文解析スコアが所定閾値以上の操作候補が、第2の操作候補群として特定される。
ここで、図8を例にして、第2の操作候補群を特定する処理について説明する。図8に示すテキストは図6と同様である。このとき、構文モデル17のうちの、「Climate」「Ambiguous」に分類されたデータのみを用いて、操作対象「Climate」に着目して構文解析処理が行われるので、「Climate」に関する操作候補が適切に抽出される。そして、例えば、所定閾値を0.6とすると、第2の操作候補群として、「Climate Temperature Up」が特定される。
次に、STEP8で、音声対話ユニット1は、STEP7で第2の操作候補群が特定されたか否かを判断する。STEP8の判断結果がNO(第2の操作候補が1つも特定されていない)の場合には、音声対話ユニット1は、そのままSTEP10に進む。
STEP8の判断結果がYES(第2の操作候補群が特定された)の場合には、STEP9に進み、音声対話ユニット1は、第2の操作候補群に、操作対象が「Ambiguous」に分類された操作候補が含まれる場合、この操作候補を第2の操作候補群から除外する。
次に、STEP10で、音声対話ユニット1は、第1及び第2の操作候補群から、最終的な操作候補群を特定して出力する。具体的には、例えば、第1の操作候補群のうちの構文解析スコアが最も高い操作候補を1位の操作候補とし、第2の操作候補群のうちの構文解析スコアが最も高い操作候補を2位の操作候補として出力する。例えば、上述の図6〜図8に例示する場合では、1位の操作候補として「Audio_Radio_On」が出力され、2位の操作候補として「Climate_Temperature_Up」が出力される。なお、第2の操作候補群が特定されていない場合には、第1の操作候補群のみから、最終的な操作候補群が特定されて出力される。
次に、STEP11で、音声対話ユニット1は、STEP10で特定された操作候補群に基づいて操作を実行する。このとき、例えば、STEP10で1位の操作候補と2位の操作候補がそれぞれ特定されている場合、2つの操作が実行される。
具体的には、音声対話ユニット1は、STEP10で特定された操作候補群に基づき、シナリオデータベース18に格納されたデータを用いて、運転者への応答や機器の制御を行うためのシナリオを決定する。このとき、音声対話ユニット1は、車両状態検出部3により検出される、車両10の状態(車両10の走行状態、車両10に搭載された機器の状態、車両10の運転者の状態等)の検出値を取得して、この車両10の状態を反映するようにシナリオを決定する。次に、音声対話ユニット1は、発話の認識結果から操作候補が特定されている場合は、決定されたシナリオに基づいて操作を実行する。なお、発話の認識結果から操作候補が特定されていない場合は、運転者に操作対象や操作内容を質問するような応答文を出力するシナリオが決定される。
例えば、上述の図6〜図8に例示するように、STEP10で最終的な操作候補群として「Audio_Radio_On」「Climate_Temperature_Up」の2つの操作候補が特定されている場合、「オーディオ6aのラジオをオンにする」「エアコンディショナ6cの設定温度を上げる」ためのシナリオが決定され、これらの2つの操作が実行される。
次に、STEP12で、音声対話ユニット1は、決定したシナリオに基づいて、運転者との対話が終了したか否かを判断する。STEP12の判断結果がNOの場合には、STEP13に進み、音声対話ユニット1は、決定された応答文の内容や応答文を出力する際の条件に応じて、応答文(運転者の次回の発話を促す応答文等)をスピーカ4から出力させる。
その後、STEP1に戻り、次の発話が運転者から入力される。以下、STEP12の判断結果がYESとなるまで、上述のSTEP1〜13と同様の処理が繰り返される。
最後に、STEP12の判断結果がYESの場合には音声対話処理を終了する。このとき、例えば、機器制御の完了等を使用者に報知するシナリオが決定されている場合には、音声対話ユニット1は、決定された応答文の内容や応答文を出力する際の条件に応じて、応答文(機器制御の完了等を使用者に報知する応答文等)をスピーカ4から出力させる。
以上の処理によって、使用者が1回の発話で複数のコマンドを音声入力した場合でも、各コマンドを認識して複数の操作対象を操作することができる。
[第2実施形態]
次に、本発明の第2実施形態の音声認識装置について説明する。なお、本実施形態は、第1実施形態と、構文解析部12が矛盾判断部を備えること、及び構文解析部12の第2の構文解析部32が行う処理のみが相違する。本実施形態の構成は、第1実施形態と同様であるので、同一の構成には同一の参照符号を付して、以下では説明を省略する。
本実施形態の音声認識装置において、構文解析部12の矛盾判断部は、第2の操作候補群の各操作候補が、第1の操作候補群に対して、操作対象及びその操作内容について矛盾が生じるか否かを判断する。そして、構文解析部12は、矛盾判断部により矛盾が生じると判断された操作候補を、第2の操作候補群から除外する。なお、構文解析部12は、第1実施形態と異なり、第2の構文解析処理を実行した結果得られた操作候補のうち、操作対象が特定できない操作候補を、第2の操作候補群から除外する処理は行わない。他の構成は第1実施形態と同じである。なお、矛盾判断部は、本発明の矛盾判断手段に相当する。
次に、本実施形態の音声認識装置の作動(音声対話処理)について、図9を参照して説明する。なお、本実施形態の音声対話処理は、第1実施形態と比べて図9のSTEP9,10の処理のみが相違する。図9のSTEP1〜8,STEP11〜14は、図3の音声対話処理のSTEP1〜8,STEP10〜13と同じである。
本実施形態の音声対話処理では、STEP9で、音声対話ユニット1は、STEP7で特定された第2の操作候補群の各操作候補が、STEP3で特定された第1の操作候補群と矛盾しないか否かを判断する。具体的には、音声対話ユニット1は、図10に例示するような、予め定められた、矛盾する操作候補を示すデータを用いて、矛盾しないか否かを判断する。
STEP9の判断結果がNO(矛盾する)場合には、STEP10に進み、音声対話ユニット1は、第1の操作候補群と矛盾する操作候補を、第2の操作候補群から除外する。そして、STEP11に進み、第1及び第2の操作候補群から、最終的な操作候補群が特定され出力される。一方、STEP9の判断結果がYES(矛盾しない)場合には、そのままSTEP11に進む。他の作動は第1実施形態と同じである。
本実施形態の音声認識装置によれば、第1実施形態と同様に、使用者が1回の発話で複数のコマンドを音声入力した場合でも、各コマンドを認識して複数の操作対象を操作することができる。
なお、第1及び第2実施形態においては、車両状態検出部3を備え、シナリオ制御部13は、発話の認識結果と検出した車両10の状態とに応じてシナリオを決定するものとしたが、車両状態検出部3を備えず、シナリオ制御部13は認識結果のみからシナリオを決定するものとしてもよい。
また、第1及び第2実施形態においては、音声入力する使用者は、車両10の運転者としたが、運転者以外の乗員としてもよい。
また、第1及び第2実施形態においては、音声認識装置は、車両10に搭載されるものとしたが、車両以外の移動体に搭載されるものとしてもよい。さらに、移動体に限らず、使用者が発話により対象を制御するシステムに適用可能である。
本発明の第1実施形態である音声認識装置の機能ブロック図。 図1の音声認識装置の言語モデル、構文モデルの構成を示す説明図。 図1の音声認識装置の全体的な作動(音声対話処理)を示すフローチャート。 図z3の音声対話処理における言語モデルを用いた音声認識処理を示す説明図。 図3の音声対話処理における第1の構文解析処理を示す説明図。 図5の第1の構文解析処理を示す他の説明図。 図3の音声対話処理の第2の構文解析処理における構文解析を行う操作対象を特定する処理を示す説明図。 図3の音声対話処理における第2の構文解析処理を示す説明図。 本発明の第2実施形態の音声認識装置における全体的な作動(音声対話処理)を示すフローチャート。 図9の音声対話処理における第2の操作候補が第1の操作候補群と矛盾するか否かを判断する処理に関する説明図。
符号の説明
1…音声対話ユニット、2…マイク、3…車両状態検出部、4…スピーカ、5…ディスプレイ、6a〜6c…機器、10…車両、11…音声認識部、12…構文解析部、13…シナリオ制御部、14…音声出力部、15…音響モデル、16…言語モデル、17…構文モデル、18…シナリオデータベース、31…第1の構文解析部、32…第2の構文解析部、33…操作候補特定部。

Claims (7)

  1. 音声入力手段により入力された音声についての認識結果に基づいて、予め定められた種類の操作対象及びその操作内容から、操作対象及びその操作内容を決定する音声認識装置において、
    前記入力された音声を認識することにより、該音声を単語列で表現されるテキストに変換する音声認識手段と、
    認識対象である単語の出現確率や接続確率を示すデータが当該単語のテキスト及び操作対象や操作内容を表すカテゴリに応じたクラスと共に記録された構文モデルを用いて、前記音声認識手段により変換されたテキストから、当該認識されたテキストの尤度を表わす構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第1の操作候補群を特定する処理を実行する第1の構文解析手段と、
    前記構文モデルのうち前記第1の操作候補群に含まれない操作対象のデータを用いて、前記予め定められた種類の操作対象のうち前記第1の操作候補群に含まれない操作対象に対して、前記音声認識手段により変換されたテキストから、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第2の操作候補群を特定する処理を実行する第2の構文解析手段と、
    前記第1の操作候補群及び前記第2の操作候補群から、前記操作対象及びその操作内容を決定するための最終的な操作候補群を特定する操作候補特定手段と
    を備えることを特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置において、
    前記第2の構文解析手段は、前記音声認識手段により変換されたテキストから、該テキストに含まれる単語が各操作対象に関連する度合を示す指標となる単語スコアを算出する手段を備え、前記第1の操作候補群に含まれない操作対象のうち各操作対象毎の単語スコアについて前記テキストに含まれる該操作対象毎の単語当りの平均値を算出し、該平均値が所定閾値以上である操作対象のみに対して、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として前記第2の操作候補群を特定することを特徴とする音声認識装置。
  3. 請求項1又は2に記載の音声認識装置において、
    前記所定の条件は、前記構文解析スコアの値が最も高いテキスト、その値が上位から所定順位までのテキスト、又はその値が所定値以上のテキストであることを特徴とする音声認識装置。
  4. 請求項1〜3のいずれか記載の音声認識装置において、
    前記第2の操作候補群の各操作候補が、前記第1の操作候補群に対して、操作対象及びその操作内容について矛盾が生じるか否かを判断する矛盾判断手段を備え、
    前記第2の構文解析手段は、前記第2の操作候補群から、前記矛盾判断手段により前記第1の操作候補群に対して操作対象及びその操作内容について矛盾が生じると判断された操作候補を除外することを特徴とする音声認識装置。
  5. 請求項1〜3のいずれか記載の音声認識装置において、
    前記第2の構文解析手段は、前記第2の操作候補群を特定する処理を実行した結果、操作対象が特定できない操作候補を、前記第2の操作候補群から除外することを特徴とする音声認識装置。
  6. 入力された音声についての認識結果に基づいて、予め定められた種類の操作対象及びその操作内容から、操作対象及びその操作内容を決定する音声認識方法であって、
    音声入力手段により入力された音声を認識することにより、該音声を単語列で表現されるテキストに変換する音声認識ステップと、
    認識対象である単語の出現確率や接続確率を示すデータが当該単語のテキスト及び操作対象や操作内容を表すカテゴリに応じたクラスと共に記録された構文モデルを用いて、前記音声認識手段により変換されたテキストから、当該認識されたテキストの尤度を表わす構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第1の操作候補群を特定する処理を実行する第1の構文解析ステップと、
    前記構文モデルのうち前記第1の操作候補群に含まれない操作対象のデータを用いて、前記予め定められた種類の操作対象のうち前記第1の操作候補群に含まれない操作対象に対して、前記音声認識手段により変換されたテキストから、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第2の操作候補群を特定する処理を実行する第2の構文解析ステップと、
    前記第1の操作候補群及び前記第2の操作候補群から、前記操作対象及びその操作内容を決定するための最終的な操作候補群を特定する音声候補特定ステップと
    を備えたことを特徴とする音声認識方法。
  7. 入力された音声についての認識結果に基づいて、予め定められた種類の操作対象及びその操作内容から、操作対象及びその操作内容を決定する処理をコンピュータに実行させる音声認識用プログラムであって、
    音声入力手段により入力された音声を認識することにより、該音声を単語列で表現されるテキストに変換する音声認識処理と、
    認識対象である単語の出現確率や接続確率を示すデータが当該単語のテキスト及び操作対象や操作内容を表すカテゴリに応じたクラスと共に記録された構文モデルを用いて、前記音声認識手段により変換されたテキストから、当該認識されたテキストの尤度を表わす構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第1の操作候補群を特定する第1の構文解析処理と、
    前記構文モデルのうち前記第1の操作候補群に含まれない操作対象のデータを用いて、前記予め定められた種類の操作対象のうち前記第1の操作候補群に含まれない操作対象に対して、前記音声認識手段により変換されたテキストから、前記構文解析スコアが所定の条件を満たすテキストを前記操作対象及びその操作内容の候補として、第2の操作候補群を特定する第2の構文解析処理と、
    前記第1の操作候補群及び前記第2の操作候補群から、前記操作対象及びその操作内容を決定するための最終的な操作候補群を特定する操作候補特定処理と
    を前記コンピュータに実行させる機能を有することを特徴とする音声認識用プログラム。
JP2007108037A 2007-04-17 2007-04-17 音声認識装置、音声認識方法、及び音声認識用プログラム Expired - Fee Related JP4412504B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007108037A JP4412504B2 (ja) 2007-04-17 2007-04-17 音声認識装置、音声認識方法、及び音声認識用プログラム
US12/104,982 US8005673B2 (en) 2007-04-17 2008-04-17 Voice recognition device, voice recognition method, and voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007108037A JP4412504B2 (ja) 2007-04-17 2007-04-17 音声認識装置、音声認識方法、及び音声認識用プログラム

Publications (2)

Publication Number Publication Date
JP2008268340A JP2008268340A (ja) 2008-11-06
JP4412504B2 true JP4412504B2 (ja) 2010-02-10

Family

ID=40047967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007108037A Expired - Fee Related JP4412504B2 (ja) 2007-04-17 2007-04-17 音声認識装置、音声認識方法、及び音声認識用プログラム

Country Status (2)

Country Link
US (1) US8005673B2 (ja)
JP (1) JP4412504B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164449A (zh) * 2019-04-26 2019-08-23 安徽美博智能科技有限公司 语音识别的空调机控制方法及装置

Families Citing this family (199)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8532989B2 (en) * 2009-09-03 2013-09-10 Honda Motor Co., Ltd. Command recognition device, command recognition method, and command recognition robot
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8731939B1 (en) * 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US9146122B2 (en) * 2010-09-24 2015-09-29 Telenav Inc. Navigation system with audio monitoring mechanism and method of operation thereof
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9367526B1 (en) * 2011-07-26 2016-06-14 Nuance Communications, Inc. Word classing for language modeling
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
US8756060B2 (en) 2011-12-22 2014-06-17 Ncr Corporation Methods and apparatus for audio input for customization of digital displays
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9798799B2 (en) * 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
US9958176B2 (en) * 2013-02-07 2018-05-01 Trane International Inc. HVAC system with camera and microphone
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
CN105340011B (zh) * 2013-06-28 2020-08-18 哈曼国际工业有限公司 链接设备的无线控制
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
JP6223739B2 (ja) * 2013-07-24 2017-11-01 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US10186262B2 (en) * 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR102301880B1 (ko) * 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
KR102437689B1 (ko) * 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
KR102477489B1 (ko) * 2017-05-16 2022-12-13 애플 인크. 디지털 어시스턴트 서비스의 원거리 확장
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
KR20190088737A (ko) * 2018-01-19 2019-07-29 현대자동차주식회사 음성 인식 장치 및 그 제어 방법
CN108363745B (zh) 2018-01-26 2020-06-30 阿里巴巴集团控股有限公司 机器人客服转人工客服的方法和装置
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020106315A1 (en) * 2018-11-21 2020-05-28 Google Llc Orchestrating execution of a series of actions requested to be performed via an automated assistant
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
JP7178983B2 (ja) * 2019-12-04 2022-11-28 本田技研工業株式会社 エージェント装置、エージェント方法、及びプログラム
KR102364935B1 (ko) * 2019-12-27 2022-02-18 주식회사 포켓메모리 5g 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치
CN112820284A (zh) * 2020-12-28 2021-05-18 恒大新能源汽车投资控股集团有限公司 语音交互方法、装置、电子设备及计算机可读存储介质
US11798549B2 (en) * 2021-03-19 2023-10-24 Mitel Networks Corporation Generating action items during a conferencing session
CN113674742B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质
AU2022380638A1 (en) * 2021-08-19 2024-03-07 Merlin Labs, Inc. Advanced flight processing system and/or method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424357B1 (en) * 1999-03-05 2002-07-23 Touch Controls, Inc. Voice input system and method of using same
US7035805B1 (en) * 2000-07-14 2006-04-25 Miller Stephen S Switching the modes of operation for voice-recognition applications
US20040143440A1 (en) * 2003-01-03 2004-07-22 Venkatesh Prasad Vehicle speech recognition system
JP4107093B2 (ja) 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
US20050125110A1 (en) * 2003-06-27 2005-06-09 Potter Mark J. Method of vehicle component control
US7409344B2 (en) * 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US20070005370A1 (en) * 2005-06-30 2007-01-04 Scott Elshout Voice-activated control system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164449A (zh) * 2019-04-26 2019-08-23 安徽美博智能科技有限公司 语音识别的空调机控制方法及装置

Also Published As

Publication number Publication date
US20090326936A1 (en) 2009-12-31
US8005673B2 (en) 2011-08-23
JP2008268340A (ja) 2008-11-06

Similar Documents

Publication Publication Date Title
JP4412504B2 (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
JP4188989B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4666648B2 (ja) 音声応答システム、音声応答プログラム
JP2008064885A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US20080235017A1 (en) Voice interaction device, voice interaction method, and voice interaction program
US8340958B2 (en) Text and speech recognition system using navigation information
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US8380505B2 (en) System for recognizing speech for searching a database
JP4260788B2 (ja) 音声認識機器制御装置
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
KR101598948B1 (ko) 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
US11443747B2 (en) Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
KR20060097895A (ko) 사용자 적응형 음성 인식 방법 및 장치
KR20100019596A (ko) 음성인식을 이용한 언어 번역 방법 및 장치
US20160111089A1 (en) Vehicle and control method thereof
JP2008089625A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2008076811A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5009037B2 (ja) 音声認識装置、その音声認識方法
US20230315997A9 (en) Dialogue system, a vehicle having the same, and a method of controlling a dialogue system
US11488580B2 (en) Dialogue system and dialogue processing method
JP2008076812A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR102527346B1 (ko) 차량용 음성 인식 장치, 이를 이용한 차량의 주행상태를 고려한 응답 제공 방법 및 컴퓨터 프로그램
US20210303263A1 (en) Dialogue system and vehicle having the same, and method of controlling dialogue system
JP2005070330A (ja) 音声認識装置及びプログラム
CN117275467A (zh) 一种噪音环境下的语音指令识别方法及装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091020

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091110

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131127

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees