JP2008070805A - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP2008070805A
JP2008070805A JP2006251540A JP2006251540A JP2008070805A JP 2008070805 A JP2008070805 A JP 2008070805A JP 2006251540 A JP2006251540 A JP 2006251540A JP 2006251540 A JP2006251540 A JP 2006251540A JP 2008070805 A JP2008070805 A JP 2008070805A
Authority
JP
Japan
Prior art keywords
speech
recognition
score
voice
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006251540A
Other languages
English (en)
Other versions
JP4188989B2 (ja
Inventor
Hisayuki Nagashima
久幸 長島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2006251540A priority Critical patent/JP4188989B2/ja
Priority to US11/898,234 priority patent/US8548806B2/en
Publication of JP2008070805A publication Critical patent/JP2008070805A/ja
Application granted granted Critical
Publication of JP4188989B2 publication Critical patent/JP4188989B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

【課題】使用者から入力された音声に基づいて認識対象を適切に限定して、該入力された音声を精度良く認識することができる音声認識装置、音声認識方法、及び音声認識プログラムを提供する。
【解決手段】音声認識装置1は、入力された音声に対して算出される音響スコアと言語スコアとに、第1の比率の重み付けをし、得られた各スコアを用いて該音声を認識する処理を実行し、該処理の結果に基づいて制御対象を表すドメインの種類を決定する第1の音声認識手段11,12と、決定された種類のドメインを認識対象として、入力された音声に対して算出される音響スコアと言語スコアとに、音響スコアに対する重み付けが第1の比率よりも大きい第2の比率で重み付けをし、得られた各スコアを用いて該音声を認識する処理を実行し、該処理の結果に基づいて該制御対象の制御内容を決定する第2の音声認識手段11,12とを備える。
【選択図】図1

Description

本発明は、使用者により入力される音声を認識し、認識した結果に基づいて対象を制御するための情報を取得する音声認識装置、音声認識方法、及び音声認識プログラムに関する。
近年、例えば、使用者が機器の操作等を行うシステムにおいて、使用者により入力される音声を認識して、機器の操作等に必要な情報を取得する音声認識装置が用いられている。このような音声認識装置では、使用者により入力される音声(発話)を認識し、認識した結果に基づいて使用者に応答して使用者の次の発話を促すことで、使用者との対話が行われる。そして、使用者との対話を認識した結果から、機器の操作等を行うために必要な情報が取得される。このとき、例えば、認識対象である語彙が予め登録された認識辞書を用いて、入力された音声の音響的な特徴と認識辞書に登録された語彙の音響的な特徴との比較により音声が認識される。
この音声認識装置は、例えば車両に装備されて、車両に搭載されたオーディオ、ナビゲーションシステム、エアコンディショナ等の複数の機器が使用者により操作される。さらに、これらの機器は高機能化しており、例えば、ナビゲーションシステムには、地図表示やPOI(Point of Interest)検索等の複数の機能が備えられ、これらの機能が使用者により操作される。しかし、このように多数の制御対象があると、これらを操作するための語彙の数が多くなる。そして、認識対象である語彙が多くなると、例えば語彙間で音響的な特徴が類似する場合が増加し、誤認識の可能性が高くなる。このため、入力された音声に応じて認識辞書を限定して音声認識処理を行うことにより、認識精度を向上する技術が提案されている(例えば、特許文献1参照)。
この特許文献1の音声認識装置(単語列認識装置)では、入力された音声を認識用辞書データと比較することにより1回目の音声認識処理を行い、キーワード(所定の属性を持つ単語)を認識して抽出する。そして、前記音声認識装置では、この抽出されたキーワードに基づいて話題を確定し、その確定した話題に基づく語彙に限定した認識用辞書データを再構成し、この再構成した認識用辞書データに基づいて2回目の音声認識処理を行うことにより、他の単語を認識する。さらに、前記音声認識装置では、上述のように認識した単語から確定された話題に基づいて認識用辞書データを再構成して他の単語を認識する処理を必要なだけ繰り返し実行する多段階処理を行い、使用者から入力された音声を認識する。
特開2001−34292号公報
しかしながら、上記音声認識装置では、1回目の音声認識処理では認識用辞書データは限定されていないため、音響的な特徴が類似する語彙が多く、誤認識の可能性が高いと考えられる。このとき、入力された音声から1回目の音声認識処理で抽出されたキーワードが誤認識されていた場合には、この抽出されたキーワードに基づいて確定された話題は、実際の話題とは乖離したものとなる。このため、実際の話題から乖離した語彙に限定して再構成された認識用辞書データに基づいて2回目の音声認識処理が行われるので、使用者の発話に合致した語彙が認識されず、使用者の発話の正しい認識が困難となる場合がある。また、上記音声認識装置は、1回目の音声認識処理と同様に2回目以降の音声認識処理を行うものであり、入力音声の特徴は各処理で同様に把握される。このため、1回目の音声認識処理でキーワードが正しく抽出されて認識用辞書データが再構成されたとしても、当該再構成された認識用辞書データ内における誤認識は解消されないので、正しい認識結果に到達できない可能性が高いという問題がある。
本発明は、上記事情に鑑み、使用者から入力された音声に基づいて認識対象を適切に限定して、該入力された音声を精度良く認識することができる音声認識装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。
本発明の音声認識装置は、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識装置において、入力された音声に対して、該音声の音響的な特徴に基づいて算出される音響スコアと、該音声の言語的な特徴に基づいて算出される言語スコアとに、第1の比率の重み付けをし、得られた各スコアを用いて該音声を認識する処理を実行し、該処理の結果に基づいて制御対象を表すドメインの種類を決定する第1の音声認識手段と、第1の音声認識手段により決定された種類のドメインを認識対象として、入力された音声に対して算出される音響スコアと言語スコアとに、該音響スコアに対する重み付けが第1の比率よりも大きい第2の比率で重み付けをし、得られた各スコアを用いて該音声を認識する処理を実行し、該処理の結果に基づいて制御対象の制御内容を決定する第2の音声認識手段とを備えることを特徴とする。
本発明の音声認識装置において、第1の音声認識手段による音声を認識する処理では、認識対象が限定されていない状態であり、認識対象には音響的な特徴が類似する語彙が多数含まれることが想定される。このとき、第1の音声認識手段は、音響スコアと言語スコアとを第1の比率で重み付けして用いる。なお、「スコア」とは、入力音声の認識結果の候補とされた単語や単語列が音響的観点や言語的観点等のさまざまな観点から入力音声に該当するもっともらしさ(尤度、確信度)を表す指数を意味する。「言語スコア」は、例えば、単語及び単語列の出現確率等に基づいて算出されるものであり、この言語スコアを用いることにより、言語的な特徴が考慮されて音声を認識する処理が実行される。すなわち、発話が単語列で表現されるテキストとして書き起こされ、テキスト(文)の文脈を考慮して発話の意味が理解される。このように認識された認識結果には、使用者の意図を反映した、使用者の発話の全体的な傾向が示される。よって、この認識結果に基づいて、制御対象を表すドメインの種類が精度良く決定される。なお、「ドメイン」とは認識対象のカテゴリに応じた分類を意味し、具体的には、制御対象である機器や機能を表す。
そして、第2の音声認識手段による音声を認識する処理では、この決定された種類のドメインに認識対象を限定して音声を認識する処理が実行される。このとき、同一の機器や機能を制御対象とする場合、その制御内容は部分的に類似した言い回しとなる可能性がある。これに対し、第2の音声認識手段は、音響スコアと言語スコアとに、音響スコアの重み付けが第1の比率よりも大きい第2の比率で重み付けし、得られた各スコアを用いて音声認識処理を実行するので、入力音声の認識結果の候補とされた単語や単語列の音響的な特徴を詳細に考慮して認識結果を決定することが可能である。よって、例えば同一のドメイン内に部分的に類似した言い回しがある場合でも、認識結果を精度良く決定することができる。
したがって、この音声認識装置によれば、ドメインの種類を精度良く決定して、認識対象を適切に限定することができると共に、この限定された認識対象に対して音響的な特徴を詳細に考慮して認識結果を決定することができるので、入力された音声を精度良く認識することができる。
また、本発明の音声認識装置において、第1の音声認識手段と、第2の音声認識手段とは、同じ音声に対して当該音声を認識する処理を実行することが好ましい。
この場合、入力された音声に対して、第1の音声認識手段により音声を認識する処理が実行されてドメインの種類が決定され、この同じ音声に対して、決定された種類のドメインを対象として、第2の音声認識手段により音声を認識する処理が実行されるので、使用者の1回の入力から、入力された音声を効率良く認識することができる。
また、本発明の音声認識装置において、少なくとも決定された制御対象の制御内容に基づいて、所定の制御処理を実行する制御手段を備えることが好ましい。
この場合、制御手段により、入力音声の認識結果に応じて、例えば予め定められた複数の制御処理(シナリオ)のうちから所定の制御処理が決定されて実行される。所定の制御処理は、例えば、制御対象である機器や機能を、入力音声から取得された情報に基づいて制御する処理や、使用者への音声や画面表示による応答を制御する処理等である。このとき、本発明によれば、使用者から入力された音声が精度良く認識されているので、所定の制御処理を使用者の意図に応じて適切に決定して実行することができる。
なお、制御手段は、入力音声の認識結果と共に、音声認識装置が搭載されたシステム(例えば車両等)の状態や、使用者の状態や、制御対象である機器や機能の状態等を考慮して、所定の制御処理を決定して実行することも可能である。また、使用者の対話履歴や、機器の状態変化等を記憶する記憶手段を備え、制御手段は、発話の認識結果と共にこの対話履歴や状態変化等を考慮して、所定の制御処理を決定することも可能である。
また、本発明の音声認識装置において、音声を入力する使用者への応答を出力する応答出力手段を備え、制御手段の実行する制御処理は、音声の入力を使用者に促すように該使用者への応答を制御する処理を含むことが好ましい。
この場合、例えば、使用者から入力された音声から対象を制御するための情報が十分に取得されない場合には、制御手段は、必要な情報の入力を使用者に促すように、応答出力手段から出力する応答を制御する。これにより、使用者との対話が行われ、この使用者との対話を認識した結果から、対象を制御するために必要な情報が取得される。このとき、本発明によれば、使用者から入力された音声が精度良く認識されているので、効率の良い対話を介して情報を取得することができる。
次に、本発明の音声認識方法は、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識方法であって、入力された音声の音響的な特徴に基づいて算出される音響スコアと、該音声の言語的な特徴に基づいて算出される言語スコアとに、第1の比率の重み付けをし、得られた各スコアを用いて該音声を認識する第1の音声認識ステップと、第1の音声認識ステップの認識結果に基づいて、制御対象を表すドメインの種類を決定するドメイン種類決定ステップと、ドメイン種類決定ステップで決定された種類のドメインを認識対象として、入力された音声に対して算出される音響スコアと言語スコアとに、音響スコアに対する重み付けが第1の比率よりも大きい第2の比率で重み付けをし、得られた各スコアを用いて該音声を認識する第2の音声認識ステップと、第2の音声認識ステップの認識結果に基づいて、制御対象の制御内容を決定する認識結果決定ステップとを備えたことを特徴とする。
本発明の音声認識方法によれば、本発明の音声認識装置に関して説明したように、ドメインの種類を精度良く決定して、認識対象を適切に限定することができると共に、この限定された認識対象について音響的な特徴を詳細に考慮して認識結果を決定することができるので、入力された音声を精度良く認識することができる。
次に、本発明の音声認識プログラムは、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する処理をコンピュータに実行させる音声認識プログラムであって、入力された音声の音響的な特徴に基づいて音響スコアを算出する音響スコア算出処理と、入力された音声の言語的な特徴に基づいて言語スコアを算出する言語スコア算出処理と、入力された音声に対して、音響スコア算出処理で算出された音響スコアと、言語スコア算出処理で算出された言語スコアとに、第1の比率で重み付けをし、得られた各スコアを用いて該音声を認識する第1の音声認識処理と、第1の音声認識処理の認識結果に基づいて、制御対象を表すドメインの種類を決定するドメイン種類決定処理と、入力された音声に対して、ドメイン種類決定処理で決定された種類のドメインを認識対象として、音響スコア算出処理で算出された音響スコアと、言語スコア算出処理で算出された言語スコアとに、該音響スコアに対する重み付けが第1の比率よりも大きい第2の比率で重み付けをし、得られた各スコアを用いて該音声を認識する第2の音声認識処理と、第2の音声認識処理の認識結果に基づいて、制御対象の制御内容を決定する認識結果決定処理とをコンピュータに実行させる機能を有することを特徴とする。
この場合、本発明の音声認識装置に関して説明した効果を奏し得る処理をコンピュータに実行させることができる。
図1に示すように、本発明の音声認識装置は音声対話ユニット1から成り、車両10に搭載されている。この音声対話ユニット1には、車両10の運転者から発話が入力されるマイク2が接続されると共に、車両10の状態を検出する車両状態検出部3が接続されている。また、音声対話ユニット1には、運転者への応答を出力するスピーカ4と、運転者への表示を行うディスプレイ5とが接続されている。さらに、音声対話ユニット1には、運転者が音声等で操作可能な複数の機器6a〜6cが接続されている。
マイク2は、車両10の運転者の音声が入力されるものであり、車内の所定位置に設置されている。マイク2は、例えば、トークスイッチにより音声の入力開始が指令されると、入力される音声を運転者の発話として取得する。トークスイッチは、車両10の運転者により操作されるON・OFFスイッチであり、押下してON操作されることによって音声の入力開始が指令される。
車両状態検出部3は、車両10の状態を検出するセンサ等である。車両10の状態とは、例えば、車両10の速度や加減速等の走行状態、車両10の位置や走行道路等の走行環境情報、車両10に装備された機器(ワイパー、ウィンカー、ナビゲーションシステム6a、オーディオ6b等)の動作状態、或いは車両10の車内温度等の車内の状態をいう。具体的には、例えば、車両10の走行状態を検出するセンサとして、車両10の走行速度(車速)を検出する車速センサ、車両10のヨーレートを検出するヨーレートセンサ、車両10のブレーキ操作(ブレーキペダルが操作されているか否か)を検出するブレーキセンサ等が挙げられる。さらに、車両10の状態として、車両10の運転者の状態(運転者の手掌部の発汗、運転負荷等)を検出してもよい。
スピーカ4は、車両10の運転者への応答(音声ガイド)を出力するものである。なお、このスピーカ4としては、後述のオーディオ6aが有するスピーカを用いることができる。
ディスプレイ5は、例えば、車両10のフロントウィンドウに画像等の情報を表示するHUD(ヘッドアップディスプレイ)、車両10の車速などの走行状態を表示するメータに一体的に設けられたディスプレイ、或いは後述のナビゲーションシステム6bに備えられたディスプレイ等である。なお、ナビゲーションシステム6bのディスプレイは、タッチスイッチが組み込まれたタッチパネルとなっている。
機器6a〜6cは、具体的には、車両10に装備されたオーディオ6a、ナビゲーションシステム6b、エアコンディショナ6cである。各機器6a〜6cには、制御可能な構成要素(デバイス,コンテンツ等)、機能、動作等が予め定められている。
例えば、オーディオ6aには、デバイスとして「CD」「MP3」「ラジオ」「スピーカ」等がある。また、オーディオ6aの機能として「音量」等がある。また、オーディオ6aの動作として「変更」「オン」「オフ」等がある。さらに、「CD」「MP3」の動作として、「再生」「停止」等がある。また、「ラジオ」の機能として「選局」等がある。また、「音量」の動作として「上げる」「下げる」等がある。
また、例えば、ナビゲーションシステム6bには、コンテンツとして「画面表示」「経路誘導」「POI検索」等がある。さらに、「画面表示」の動作として「変更」「拡大」「縮小」等がある。なお、「経路誘導」は音声ガイド等により目的地へ誘導する機能であり、「POI検索」は、例えばレストラン、ホテル等の目的地を検索する機能である。
また、例えば、エアコンディショナ6cには、その機能として「風量」「設定温度」等がある。また、エアコンディショナ6cの動作として「オン」「オフ」等がある。さらに、「風量」「設定温度」の動作として「変更」「上げる」「下げる」等がある。
これらの機器6a〜6cは、対象を制御するための情報(機器や機能の種別、動作の内容等)を指定することにより制御される。制御対象となる各機器6a〜6cのデバイス、コンテンツ、機能は複数のドメインに分類されている。ドメインは、例えば「オーディオ」のドメインが、その下位で「CD」「ラジオ」のドメインに分類されるといったように、階層的に指定することができる。
音声対話ユニット1は、詳細の図示は省略するが、A/D変換回路、マイクロコンピュータ(CPU、RAM、ROM)等を含む電子回路により構成され、マイク2の出力(アナログ信号)がA/D変換回路を介してデジタル信号に変換されて入力される。そして、音声対話ユニット1は、入力されたデータに基づいて、運転者から入力された発話を認識する処理や、その認識結果に基づいて、スピーカ4やディスプレイ5を介して運転者との対話や運転者への情報提示を行う処理や、機器6a〜6cを制御する処理等を実行する。これらの処理は、音声対話ユニット1のメモリに予め実装されたプログラムを音声対話ユニット1により実行することにより実現される。このプログラムは、本発明の音声認識プログラムを含んでいる。なお、当該プログラムはCD−ROM等の記録媒体を介してメモリに格納されてもよく、外部のサーバからネットワークや人工衛星を介して配信または放送され、車両10に搭載された通信機器により受信された上でメモリに格納されてもよい。
より詳しくは、音声対話ユニット1は、上記プログラムにより実現される機能として、入力された音声を音響モデル15と言語モデル16とを用いて認識してテキストとして出力する音声認識部11と、認識されたテキストから構文モデル17を用いて発話の意味を理解する構文解析部12とを備えている。また、音声対話ユニット1は、発話の認識結果に基づいてシナリオデータベース18を用いてシナリオを決定し、運転者への応答や機器の制御等を行うシナリオ制御部13と、運転者に出力する音声による応答を音素モデル21を用いて合成する音声合成部14とを備えている。
なお、音響モデル15、言語モデル16、構文モデル17、シナリオデータベース18、音素モデル19は、それぞれ、データが記録されているCD−ROM、DVD、HDD等の記録媒体(データベース)である。
また、音声認識部11及び構文解析部12が本発明の第1の音声認識手段及び第2の音声認識手段を構成する。また、シナリオ制御部13が本発明の制御手段を構成する。また、シナリオ制御部13及び音声合成部14が本発明の応答出力手段を構成する。
音声認識部11は、マイク2に入力された発話の音声を示す波形データを周波数分析して特徴ベクトルを抽出する。そして、音声認識部11は、抽出された特徴ベクトルに基づいて、入力された音声を認識して、単語列で表現されたテキストとして出力する「音声認識処理」を実行する。この音声認識処理は、次に説明するような確率統計的な手法を用いて、入力音声の音響的な特徴と言語的な特徴とを総合的に判断することにより実行される。
すなわち、音声認識部11は、まず、音響モデル15を用いて、抽出された特徴ベクトルに応じた発音データの尤度(以下、この尤度を適宜「音響スコア」という。)を評価し、当該音響スコアに基づいて発音データを決定する。また、音声認識部11は、言語モデル16を用いて、決定された発音データに応じた単語列で表現されたテキストの尤度(以下、この尤度を適宜「言語スコア」という。)を評価し、当該言語スコアに基づいてテキストを決定する。さらに、音声認識部11は、決定された全てのテキストについて、当該テキストの音響スコアと言語スコアとに基づいて音声認識の確信度(以下、この確信度を適宜「音声認識スコア」という。)を算出する。そして、音声認識部11は、この音声認識スコアが所定の条件を満たす単語列で表現されたテキストを、認識されたテキスト(Recognized Text)として出力する。
このとき、音声認識部11は、後述の構文解析部12によりドメインの種類が決定されている場合には、言語モデル16のうち当該決定された種類のドメインに分類された部分(有効な部分)のデータのみを用いて音声認識処理を行う。
構文解析部12は、音声認識部11で認識されたテキストから、構文モデル17を用いて、入力された発話の意味を理解する「構文解析処理」を実行する。この構文解析処理は、次に説明するような確率統計的な手法を用いて、音声認識部11で認識されたテキストにおける単語間の関係(構文)を解析することにより実行される。
すなわち、構文解析部12は、認識されたテキストの尤度(以下、この尤度を適宜「構文解析スコア」という。)を評価し、当該構文解析スコアに基づいて、当該認識されたテキストの意味に対応するクラスに分類されたテキストを決定する。そして、構文解析部12は、構文解析スコアが所定の条件を満たすクラス分類されたテキスト(Categorized Text)を、入力された発話の認識結果として構文解析スコアと共に出力する。「クラス」とは、上述したドメインのような、制御対象や制御内容を表すカテゴリに応じた分類に相当する。例えば、認識されたテキストが「設定変更」「設定変更する」「設定を変える」「セッティング変更」である場合には、いずれも、クラス分類されたテキストは{Setup}となる。また、構文解析部12は、構文解析スコアに基づいて、入力された発話のドメインの種類を決定して出力する。
シナリオ制御部13は、少なくとも構文解析部12から出力される認識結果と、車両状態検出部3から取得される車両10の状態とに基づいて、シナリオデータベース18に記録されたデータを用いて、運転者に対する応答出力や機器制御のシナリオを決定する。シナリオデータベース18には、応答出力や機器制御のための複数のシナリオが、発話の認識結果や車両状態の条件と共に予め記録されている。そして、シナリオ制御部13は、決定されたシナリオに従って、音声や画像表示による応答を制御する処理や、機器を制御する処理を実行する。具体的には、シナリオ制御部13は、例えば、音声による応答では、出力する応答の内容(運転者の次の発話を促すための応答文や、操作の完了等を使用者に報知するための応答文)や、応答を出力する際の速度や音量を決定する。
音声合成部14は、シナリオ制御部13で決定された応答文に応じて、音素モデル19を用いて音声を合成して、音声を示す波形データとして出力する。音声は、例えばTTS(Text to Speech)等の処理を用いて合成される。具体的には、音声合成部14は、シナリオ制御部13で決定された応答文のテキストを音声出力に適した表現に正規化し、この正規化したテキストの各単語を発音データに変換する。そして、音声合成部14は、音素モデル19を用いて発音データから特徴ベクトルを決定し、この特徴ベクトルにフィルタ処理を施して波形データに変換する。この波形データは、スピーカ4から音声として出力される。
音響モデル(Acoustic Model)15には、特徴ベクトルと発音データとの確率的な対応を示すデータが記録されている。詳細には、音響モデル15には、認識単位(音素、形態素、単語等)毎に用意された複数のHMM(Hidden Markov Model、隠れマルコフモデル)がデータとして記録されている。HMMは、音声を定常信号源(状態)の連結で表し、時系列をある状態から次の状態への遷移確率で表現する統計的信号源モデルである。HMMにより、時系列で変動する音声の音響的な特徴を簡易な確率モデルで表現することができる。HMMの遷移確率等のパラメータは、対応する学習用の音声データを与えて学習させることにより予め決定される。また、音素モデル19にも、発音データから特徴ベクトルを決定するための、音響モデル15と同様のHMMが記録されている。
言語モデル(Language Model)16には、認識対象である単語の出現確率や接続確率を示すデータが、この単語の発音データ及びテキストと共に記録されている。認識対象である単語とは、対象を制御するための発話で使用される可能性のある単語として予め定められるものである。単語の出現確率や接続確率等のデータは、大量の学習テキストコーパスを解析することにより統計的に作成される。また、単語の出現確率は、例えば、学習テキストコーパスにおけるその単語の出現頻度等に基づいて算出される。
この言語モデル16には、例えば、特定のN個の単語が連続して出現する確率により表現されるNグラム(N-gram)の言語モデルが用いられる。本実施形態では、言語モデル16には、入力された発話に含まれる単語数に応じたNグラムが用いられる。具体的には、言語モデル16では、Nの値が発音データに含まれる単語数以下のNグラムが用いられる。例えば発音データに含まれる単語数が2である場合、1単語の出現確率で表現されるユニグラム(Uni-gram,N=1)、及び2つの単語の列の生起確率(先行する1単語についての条件付き出現確率)で表現されるバイグラム(Bi-gram,N=2)が用いられる。
さらに、言語モデル16では、Nの値を所定の上限値に制限してNグラムを用いることもできる。所定の上限値としては、例えば、予め定められた所定値(例えばN=2)や、入力された発話に対する音声認識処理の処理時間が所定時間以内になるように逐次設定される値等を用いることができる。例えばN=2を上限値としてNグラムを用いる場合、発音データに含まれる単語数が2より大きいときにも、ユニグラム及びバイグラムのみが用いられる。これにより、音声認識処理の演算コストが過大になることを防止して、運転者の発話に対して適切な応答時間で応答を出力することができる。
構文モデル(Parser Model)17には、認識対象である単語の出現確率や接続確率を示すデータが、この単語のテキスト及びクラスと共に記録されている。この構文モデル17には、例えば、言語モデル16と同様にNグラムの言語モデルが用いられる。本実施形態では、具体的には、構文モデル17では、N=3を上限値として、Nの値が認識されたテキストに含まれる単語数以下のNグラムが用いられる。すなわち、構文モデル17では、ユニグラム、バイグラム、及び3つの単語の列の生起確率(先行する2単語についての条件付き出現確率)で表現されるトライグラム(Tri-gram,N=3)が用いられる。なお、上限値は3以外でもよく、任意に設定可能である。また、上限値に制限せずに、Nの値が認識されたテキストに含まれる単語数以下のNグラムを用いるものとしてもよい。
図2に示すように、言語モデル16と構文モデル17とは、それぞれ、ドメインの種類毎に分類されて作成されている。図2の例では、ドメインの種類は、{Audio,Climate,Passenger Climate,POI,Ambiguous,Navigation,Clock,Help}の8種類である。{Audio}は制御対象がオーディオ6aであることを示している。{Climate}は制御対象がエアコンディショナ6cであることを示している。{Passenger Climate}は制御対象が助手席のエアコンディショナ6cであることを示している。{POI}は制御対象がナビゲーションシステム6bのPOI検索機能であることを示している。{Navigation}は制御対象がナビゲーションシステム6bの経路誘導や地図操作等の機能であることを示している。{Clock}は制御対象が時計機能であることを示している。{Help}は制御対象が機器6a〜6cや音声認識装置の操作方法を知るためのヘルプ機能であることを示している。また、{Ambiguous}は、制御対象が不明であることを示している。
次に、本実施形態の音声認識装置の作動(音声対話処理)について説明する。図3に示すように、まず、STEP1で、車両10の運転者から、対象を制御するための発話がマイク2に入力される。具体的には、運転者がトークスイッチをON操作して発話の入力開始を指令し、マイク2に音声を入力する。
次に、STEP2で、音声対話ユニット1は、入力された音声を認識してテキストとして出力する音声認識処理(当該処理を「1回目の音声認識処理」とする)を実行する。なお、この1回目の音声認識処理は、本発明の第1の音声認識手段の処理を構成する。
まず、音声対話ユニット1は、マイク2に入力された音声をA/D変換して音声を示す波形データを取得する。次に、音声対話ユニット1は、音声を示す波形データを周波数分析して特徴ベクトルを抽出する。これにより、音声を示す波形データは、例えば短時間スペクトル分析の手法によってフィルタ処理を施され、特徴ベクトルの時系列に変換される。この特徴ベクトルは、各時刻における音声スペクトルの特微量を抽出したもので、一般に10次元〜100次元(例えば39次元)であり、LPCメルケプストラム(Linear Predictive Coding(線形予測分析) Mel Cepstrum)係数等が用いられる。
次に、音声対話ユニット1は、抽出された特徴ベクトルに対し、音響モデル15に記録された複数のHMMのそれぞれについて、当該特徴ベクトルの尤度(音響スコアAS)を評価する。そして、音声対話ユニット1は、当該複数のHMMのうちの音響スコアASの高いHMMに対応する発音データを決定する。これにより、例えば「千歳」という発話が入力された場合、その音声の波形データから、「ti-to-se」という発音データがその音響スコアASと共に得られる。このとき、例えば「マークセット」という発話が入力された場合、「ma-a-ku-se-t-to」という発音データと共に、「ma-a-ku-ri-su-to」ような音響的に類似の度合が高い発音データがそれぞれ音響スコアASと共に得られる。なお、「マークセット」はナビゲーションシステム6bで目的地等の地点を運転者が登録する機能を指し、「ma-a-ku-ri-su-to」に対応する「マークリスト」はナビゲーションシステム6bにおいて予め登録されている目的地等の地点をディスプレイにリスト表示して運転者が選択可能とする機能を指す。
次に、音声対話ユニット1は、決定された発音データから、言語モデル16全体のデータを用いて、単語列で表現されたテキストを当該テキストの言語スコアLSに基づいて決定する。このとき、複数の発音データが決定されている場合には、各発音データについて、それぞれテキストが決定される。
具体的には、まず、音声対話ユニット1は、決定された発音データと言語モデル16に記録された発音データとを比較して、類似の度合が高い単語を抽出する。次に、音声対話ユニット1は、抽出された単語の言語スコアLSを、発音データに含まれる単語数に応じたNグラムを用いて算出する。そして、音声対話ユニット1は、発音データにおける各単語について、算出した言語スコアLSが所定の条件(例えば所定値以上)を満たすテキストを決定する。
例えば、入力された発話が「Set the station ninety nine point three FM.」である場合に、この発話から決定された発音データに応じたテキストとして、図4に示すテキスト候補1「set the station ninety nine point three FM」や図5に示すテキスト候補2「set the station nearly ninth place」が決定される。
このとき、図4に示すように、テキスト候補1については、ユ二グラムでは、「set」「the」…「FM」のそれぞれの出現確率a1〜a8が与えられる。また、バイグラムでは、「set the」「the station」…「three FM」のそれぞれの2単語の生起確率b1〜b7が与えられる。このとき、例えばテキスト候補1に含まれる単語「ninety」の言語スコアLSは、a4とb3とに基づいて与えられる。同様に、N=3〜8について、N単語の生起確率c1〜c6,d1〜d5,e1〜e4,f1〜f3,g1〜g2,h1が与えられる。そして、例えばテキスト候補1に含まれるテキスト「ninety」の言語スコアLSは、発音データに含まれる単語「ninety」と当該単語に先行する単語とを合わせた単語数4に応じて、N=1〜4のNグラムから得られるa4,b3,c2,d1に基づいて算出される。
また、図5に示すように、テキスト候補2については、ユ二グラムでは、「set」「the」…「place」のそれぞれの出現確率a1〜a3,a4’〜a6’が与えられる。また、バイグラムでは、「set the」「the station」…「ninth place」のそれぞれの2単語の生起確率b1〜b2,b3’〜b5’が与えられる。同様に、N=3〜6について、N単語の生起確率c1,c2’〜c4,d1’〜d3,e1’〜e2’,f1’が与えられる。そして、例えばテキスト候補2に含まれるテキスト「nearly」の言語スコアLSは、発音データに含まれる単語「nearly」と当該単語に先行する単語とを合わせた単語数4に応じて、N=1〜4のNグラムから得られるa4’,b3’,c2’,d1’に基づいて算出される。
次に、音声対話ユニット1は、決定された全てのテキストについて、音響スコアASと言語スコアLSとに基づいて音声認識の確信度(音声認識スコアLDD)を算出する。具体的には、まず、音声対話ユニット1は、音響スコアASと言語スコアLSとに、第1の重み係数Wα1,Wβをそれぞれ乗じる(第1の比率(Wα/Wβ)で重み付けをする)。なお、第1の重み係数Wα1,Wβには、例えば実験的に予め定められた値(例えば、Wα=Wβ=1)が用いられる。そして、得られた各スコアWα×AS,Wβ×LSを用いて、音響スコアASと言語スコアLSとの重み付き和として、音声認識スコアLDD=Wα×AS+Wβ×LSを算出する。
次に、音声対話ユニット1は、算出した音声認識スコアLDDが所定の条件を満たす単語列で表現されるテキストを、認識されたテキストとして決定して出力する。所定の条件は、例えば、音声認識スコアLDDが最も高いテキスト、音声認識スコアLDDが上位から所定順位までのテキスト、或いは音声認識スコアLDDが所定値以上のテキスト等のように予め定められている。このように、入力された発話を、単語毎の確率統計的な言語モデルを用いてテキストとして書き起こす手法(ディクテーション)を用いることで、予め決められた言い回しの発話に限定されない、運転者の自然な発話の認識が可能となる。
例えば、入力された発話が「Set the station ninety nine point three FM.」である場合に、上述の図4,図5に示すようなテキストの候補が得られている。そして、図6に示すように、発音データにおける各単語に対して、当該発音データの先頭から「set」「the」「station」が順次決定される。そして、「station」の次の単語に応じたテキストの候補として「ninety」「nearly」が挙げられる。
このとき、「ninety」と「nearly」の発音データは類似の度合が高く、音響スコアASの差は小さい。また、言語モデル16全体としては、「ninety」の出現確率や「station ninety」の生起確率よりも、「nearly」の出現確率や「station nearly」の生起確率の方が高く、言語スコアLSは「nearly」の方が高くなる。図6に示す例では、「ninety」に対する音響スコアASは0.3、言語スコアLSは0.2、音声認識スコアLDDは0.5となる。また、「nearly」に対する音響スコアASは0.2、言語スコアLSは0.4、音声認識スコアLDDは0.6となる。
よって、音声認識スコアLDDは「nearly」の方が高くなり、例えば音声認識スコアLDDが最も高いテキストを出力する場合、「nearly」が認識されたテキストとして決定される。そして、「nearly」の次の単語に応じたテキストとして「ninth」が決定され、「ninth」の次の単語に応じたテキストとして「place」が決定される。
このように、複数のドメインで同じ単語を使用する場合、共通する単語以降を誤認識する可能性が高くなる。図6の例では、「station」という単語は、オーディオ6aのラジオにおいて「放送局」を指す場合と、ナビゲーションシステム6bのPOI検索や経路誘導機能において「駅」を指す場合とがあるため、誤認識の可能性が高くなる。
次に、STEP3で、音声対話ユニット1は、認識されたテキストから発話の意味を理解する構文解析処理(当該処理を「1回目の構文解析処理」とする。)を実行する。この1回目の構文解析処理の結果に基づいて、認識されたテキストから、入力された発話のドメインの種類が決定される。なお、この1回目の構文解析処理は本発明の第1の音声認識手段の処理を構成する。
具体的には、まず、音声対話ユニット1は、構文モデル17全体のデータを用いて、認識されたテキストに含まれる単語について、それぞれ、1単語における各ドメインの尤度を算出する。同様に、音声対話ユニット1は、バイグラムで、認識されたテキストに含まれる2単語について、それぞれ、2単語における各ドメインの尤度を算出する。同様に、音声対話ユニット1は、トライグラムで、認識されたテキストに含まれる3単語について、それぞれ、3単語における各ドメインの尤度を算出する。次に、音声対話ユニット1は、1単語、2単語、3単語における各ドメインの尤度に基づいて、認識されたテキスト全体における各ドメインの尤度を算出する。
次に、STEP4で、音声対話ユニット1は、1回目の構文解析処理の結果に基づいて、制御対象を表すドメインの種類を決定する処理を実行する。当該処理は本発明の第1の音声認識手段の処理を構成する。具体的には、音声対話ユニット1は、STEP3で算出したテキスト全体における各ドメインの尤度に基づいて、例えばテキスト全体における尤度が最も高いドメイン等を、認識されたテキストのドメインとして決定する。なお、STEP3,4の処理については詳細を後述する。この処理により、上述の図6に例示するように、認識されたテキストが「set the station nearly ninth place」である場合に、ドメインの種類が{Audio}と決定される。
次に、STEP5で、音声対話ユニット1は、STEP4で決定されたドメインの種類に応じて、言語モデル16のデータを選択的に有効にする。具体的には、音声対話ユニット1は、言語モデル16のうちSTEP4で決定された種類のドメインに分類された部分のデータのみを有効にする。上述の図6に例示するように認識されたテキストが「set the station nearly ninth place」である場合には、言語モデル16のうち{Audio}ドメインのデータが有効にされる。
次に、STEP6で、音声対話ユニット1は、入力された音声を認識してテキストとして出力する音声認識処理(当該処理を「2回目の音声認識処理」とする。)を実行する。なお、2回目の音声認識処理は本発明の第2の音声認識手段の処理を構成する。
まず、音声対話ユニット1は、STEP2で決定された発音データから、言語モデル16のうちSTEP5で有効にされた部分のデータを用いて、単語列で表現されたテキストを当該テキストの言語スコアLSに基づいて決定する。具体的には、まず、音声対話ユニット1は、決定された発音データと言語モデル16の有効データに記録された発音データとを比較して、類似の度合が高い単語を抽出する。次に、音声対話ユニット1は、STEP2と同様に、抽出された単語の言語スコアLSを、発音データに含まれる単語数に応じたNグラムを用いて算出する。そして、音声対話ユニット1は、発音データにおける各単語について、算出した言語スコアLSが所定の条件(例えば所定値以上)を満たすテキストを決定する。
次に、音声対話ユニット1は、決定された全てのテキストについて、音響スコアASと言語スコアLSとに基づいて音声認識の確信度(音声認識スコア)LDDを算出する。具体的には、まず、音声対話ユニット1は、音響スコアASと言語スコアLSとに、第2の重み係数Wα2,Wβをそれぞれ乗じる(第2の比率(Wα/Wβ)で重み付けをする)。このとき、第2の重み係数Wα,Wβには、第2の比率が、音響的スコアASに対する重み付けが第1の比率よりも大きい値となるような値が用いられる。例えば、第2の重み係数Wα,Wβを、Wα=k×Wα,Wβ=Wβとする(k>1、例えばk=3)。そして、得られた各スコアWα×AS,Wβ×LSを用いて、音響スコアASと言語スコアLSとの重み付き和として、音声認識スコアLDD=Wα×AS+Wβ×LSを算出する。これにより、音響的な特徴をより反映した音声認識スコアLDDが得られる。
次に、音声対話ユニット1は、算出した音声認識スコアLDDが所定の条件を満たす単語列で表現されるテキストを、認識されたテキストとして決定して出力する。所定の条件は、例えば、音声認識スコアLDDが最も高いテキスト、音声認識スコアLDDが上位から所定順位までのテキスト、或いは音声認識スコアLDDが所定値以上のテキスト等のように予め定められている。
例えば、入力された発話が「Set the station ninety nine point three FM.」の場合であるに、図6に示すように、発音データにおける各単語に対して、当該発音データの先頭から「set」「the」「station」が順に決定されていく。そして、「station」の次の単語に応じたテキストの候補として「ninety」「nearly」が挙げられる。
このとき、2回目の音声認識処理では、言語モデル16が{Audio}ドメインに限定されている。そして、{Audio}ドメインでは、「nearly」の出現確率や「station nearly」の生起確率よりも、「ninety」の出現確率や「station ninety」の生起確率の方が高く、言語スコアLSは「ninety」の方が高くなる。また、2回目の音声認識処理では、音響スコアASの重み付けが高くなっている。よって、音声認識スコアLDDは「ninety」の方が高くなり、例えば音声認識スコアLDDが最も高いテキストを出力する場合、「ninety」が認識されたテキストとして決定される。そして、「ninety」の次の単語に応じたテキストとして「nine」「point」「three」「FM」が順次決定される。すなわち、STEP3で発話から認識されたテキスト全体の意味に基づいて、STEP4でドメインの種類が精度良く決定され、STEP5で言語モデル16が適切に選択されているので、2回目の音声認識処理では「ninety」というテキストが認識される可能性が高くなる。
また、例えば、STEP1で「マークセット」という発話が入力された場合、STEP2〜5の処理により、言語モデル16のデータのうち{Navigation}ドメインに分類された部分のデータが選択的に有効にされる。これにより、STEP6の2回目の音声認識処理で、「マークセット」という発話を、{Navigation}ドメイン以外に登録された単語と誤認識する可能性が低減される。これと共に、2回目の音声認識処理では、音響的な特徴がより詳細に考慮されるので、「マークセット」という発話を、同一のドメイン{Navigation}における、音響的な特徴が部分的に類似する「マークリスト」と誤認識する可能性が低減される。
次に、STEP7で、音声対話ユニット1は、認識されたテキストから発話の意味を理解する構文解析処理(当該処理を「2回目の構文解析処理」とする。)を実行する。この2回目の構文解析処理の結果に基づいて、認識されたテキストから、クラス分類されたテキストが決定される。なお、この2回目の構文解析処理は本発明の第2の音声認識手段の処理を構成する。
具体的には、まず、音声対話ユニット1は、構文モデル17全体のデータを用いて、認識されたテキストに含まれる単語について、それぞれ、1単語における各ドメインの尤度を算出する。次に、音声対話ユニット1は、当該尤度に基づいて1単語におけるドメインをそれぞれ決定する。次に、音声対話ユニット1は、構文モデル17のうち決定された種類のドメインに分類された部分のデータを用いて、1単語における各クラスの組(クラス分類されたテキスト)の尤度(単語スコア)を算出する。そして、音声対話ユニット1は、当該単語スコアに基づいて、1単語におけるクラス分類されたテキストを決定する。
同様に、音声対話ユニット1は、認識されたテキストに含まれる2単語列について、それぞれ、2単語における各ドメインの尤度を算出し、当該尤度に基づいて2単語におけるドメインを決定する。さらに、音声対話ユニット1は、2単語における各クラスの組の尤度(2単語スコア)を算出し、当該2単語スコアに基づいて2単語におけるクラスの組(クラス分類されたテキスト)を決定する。また、同様に、音声対話ユニット1は、認識されたテキストに含まれる3単語列について、それぞれ、3単語における各ドメインの尤度を算出し、当該尤度に基づいて3単語におけるドメインを決定する。さらに、音声対話ユニット1は、3単語における各クラスの組の尤度(3単語スコア)を算出し、当該3単語スコアに基づいて3単語におけるクラスの組(クラス分類されたテキスト)を決定する。
次に、音声対話ユニット1は、1単語、2単語、3単語で決定された各クラスの組と当該クラスの組のスコア(1単語スコア、2単語スコア、3単語スコア)とに基づいて、認識されたテキスト全体における各クラスの組の尤度(構文解析スコア)を算出する。そして、音声対話ユニット1は、当該構文解析スコアに基づいて、認識されたテキスト全体におけるクラスの組(クラス分類されたテキスト)を決定する。
ここで、図7に示す例を用いて、構文モデル17を用いてクラス分類されたテキストを決定する処理について説明する。図7の例では、認識されたテキストが「AC on floor to defrost」である。
このとき、構文モデル17全体を用いて、ユニグラムで、「AC」「on」…「defrost」について、それぞれ、1単語における各ドメインの尤度が算出される。そして、当該尤度に基づいて1単語におけるドメインが決定される。例えば、第1位の(尤度の最も高い)ドメインは、「AC」については{Climate}、「on」については{Ambiguous}、「defrost」については{Climate}と決定される。
さらに、構文モデル17のうちの決定されたドメインの種類に分類された部分のデータを用いて、ユニグラムで、「AC」「on」…「defrost」について、1単語における各クラスの組に対する尤度がそれぞれ算出される。そして、当該尤度に基づいて1単語におけるクラスの組が決定される。例えば、「AC」について、第1位の(尤度の最も高い)クラスの組は、{Climate_ACOnOff_On}と決定され、このクラスの組に対する尤度(単語スコア)i1が得られる。同様に、「on」…「defrost」について、クラスの組が決定され、このクラスの組に対する尤度(単語スコア)i2〜i5が得られる。
同様に、バイグラムで、「AC on」「on floor」…「to defrost」について、それぞれ、2単語における各ドメインの尤度が算出され、当該尤度に基づいて2単語におけるドメインが決定される。そして、2単語におけるクラスの組とその尤度(2単語スコア)j1〜j4が決定される。また、同様に、トライグラムで、「AC on floor」「on floor to」「floor to defrost」について、それぞれ、3単語における各ドメインの尤度が算出され、当該尤度に基づいて3単語におけるドメインが決定される。そして、3単語におけるクラスの組とその尤度(3単語スコア)k1〜k3が決定される。
次に、1単語、2単語、3単語で決定された各クラスの組について、例えば、各クラスの組の単語スコアi1〜i5、2単語スコアj1〜j4、3単語スコアk1〜k3の和が、テキスト全体における各クラスの組に対する尤度(構文解析スコア)として算出される。例えば、{Climate_Fan-Vent_Floor}に対する構文解析スコアは、i3+j2+j3+k1+k2となる。また、例えば、{Climate_ACOnOff_On}に対する構文解析スコアは、i1+j1となる。また、例えば、{Climate_Defrost_Front}に対する構文解析スコアは、i5+j4となる。そして、算出された構文解析スコアに基づいて、テキスト全体についてのクラスの組(クラス分類されたテキスト)が決定される。これにより、認識されたテキストから、{Climate_Defrost_Front}{Climate_Fan-Vent_Floor}{Climate_ACOnOff_On}といったクラス分類されたテキストが決定される。
次に、STEP8で、音声対話ユニット1は、算出された構文解析スコアが所定の条件を満たすようなクラス分類されたテキスト(Categorized Text)を、入力された発話の認識結果として決定して、その認識結果の確信度(構文解析スコア)と共に出力する。所定の条件は、例えば、構文解析スコアが最も高いテキスト、構文解析スコアが上位から所定順位までのテキスト、或いは構文解析スコアが所定値以上のテキスト等のように予め定められている。例えば、上述のように「AC on floor to defrost」という発話が入力された場合に、認識結果として、{Climate_Defrost_Front}が、その認識結果の確信度(構文解析スコア)と共に出力される。
次に、STEP9で、音声対話ユニット1は、車両状態検出部3により検出される、車両10の状態(車両10の走行状態、車両10に搭載された機器の状態、車両10の運転者の状態等)の検出値を取得する。
次に、STEP10で、音声対話ユニット1は、STEP8で出力された発話の認識結果と、STEP9で検出された車両10の状態とに基づいて、シナリオデータベース18を用いて、運転者に対する応答出力や機器制御のためのシナリオを決定する。
まず、音声対話ユニット1は、発話の認識結果と車両10の状態から、対象を制御するための情報を取得する。図8に示すように、音声対話ユニット1には、対象を制御するための情報を格納する複数のフォームが備えられている。各フォームには、必要な情報のクラスに対応した所定数のスロットが設けられている。例えば、ナビゲーションシステム6bを制御するための情報を格納するフォームとして、「Plot a route」「Traffic info.」等が備えられ、エアコンディショナ6cを制御するための情報を格納するフォームとして「Climate control」等が備えられている。また、フォーム「Plot a route」には、4つのスロット「From」「To」「Request」「via」が設けられている。
音声対話ユニット1は、運転者との対話における各回の発話の認識結果と、車両10の状態とから、該当するフォームのスロットに値を入力していく。これと共に、各フォームについての確信度(フォームに入力された値の信頼の度合)を算出してフォームに記録する。フォームの確信度は、例えば、各回の発話の認識結果の確信度と、各フォームのスロットの埋まり具合とに基づいて算出される。例えば、図9に示すように、「千歳空港まで最短ルートで案内して」という発話が運転者から入力された場合には、フォーム「Plot a route」の3つのスロット「From」「To」「Request」に値「ここ」「千歳空港」「最短」が入力される。また、フォーム「Plot a route」の「Score」に、算出されたフォームの確信度80が記録される。
次に、音声対話ユニット1は、フォームの確信度と、STEP9で検出された車両10の状態とに基づいて、実際の制御処理に用いるフォームを選択する。そして、選択されたフォームに基づいて、シナリオデータベース18に格納されたデータを用いて、シナリオを決定する。図9に示すように、シナリオデータベース18には、例えば運転者へ出力する応答文等が、スロットの埋まり具合やレベル毎に分類されて格納されている。なお、レベルは、例えばフォームの確信度や車両10の状態(車両10の走行状態、運転者の状態等)等に基づいて設定される値である。
例えば、選択されたフォーム内に空きスロット(値が入力されていないスロット)がある場合には、運転者へフォーム内の空きスロットの入力を促すような応答文を出力するシナリオが決定される。このとき、レベルに応じて、すなわちフォームの確信度や車両10の状態を考慮して、運転者の次回の発話を促す適切な応答文が決定される。例えば、運転者の運転負荷に応じて、運転負荷が高いと考えられる状態では、入力を促すスロットの数が少なめに設定された応答文がが決定される。そして、このように決定された応答文の出力により使用者の次の発話を促すことで、効率の良い対話が行われる。
図9に示す例では、フォーム「Plot a route」の第1〜第3のスロット「From」「To」「Request」には値が入力され、第4のスロット「via」には値が入力されていない。また、レベル=2に設定されている。このとき、シナリオデータベース18から応答文「<To>を<Request>設定します」が選択され、「千歳空港を高速優先設定します」という応答文の内容が決定される。
また、例えば、選択されたフォーム内の全てのスロットが全て埋まっている(値が入力されている)場合には、内容を確認するような応答文(例えば各スロットの入力値を運転者に報知する応答文)を出力するシナリオが決定される。
次に、STEP11で、音声対話ユニット1は、決定したシナリオに基づいて、運転者との対話が終了したか否かを判断する。STEP11の判断結果がNOの場合には、STEP12に進み、音声対話ユニット1は、決定された応答文の内容や応答文を出力する際の条件に応じて音声を合成する。そして、STEP13で、生成された応答文が、スピーカ4から出力される。
次に、STEP1に戻り、2回目の発話が運転者から入力される。そして、1回目の発話と同様に、STEP2〜10の処理が実行され、STEP11で、運転者との対話が終了したか否かが判断される。STEP11の判断結果がNOの場合には、1回目の発話と同様に、STEP12に進み、決定された応答文の音声が合成され、STEP13で、生成された応答文がスピーカ4から出力される。
以下、STEP11の判断結果がYESとなるまで、上述の2回目の発話に対するSTEP1〜10,12,13と同様の処理が繰り返される。
STEP11の判断結果がYESの場合には、STEP14に進み、音声対話ユニット1は、決定された応答文の音声を合成する。次に、STEP15で、応答文がスピーカ4から出力される。次に、STEP16で、音声対話ユニット1は、決定されたシナリオに基づいて機器を制御して、音声対話処理を終了する。
次に、図10を用いて、ドメインの種類を決定する処理(上述のSTEP3,4)について説明する。図10に示す例は、認識されたテキストが「set the station nearly ninth place」の場合である。
このとき、STEP3で、まず、音声対話ユニット1は、認識されたテキストに含まれる単語について、言語モデル16のうち各ドメインのデータに、当該単語がいくつ登録されているかをカウントし、当該カウント値を言語モデル16の当該ドメインのデータに登録された全ての単語数で除算して、1単語における各ドメインの登録頻度を算出する。これにより、図10(a)の表に示すように、1単語におけるドメイン毎の登録頻度が得られる。例えば、図10(a)でハッチングを付して示したように、単語「set」についての、1単語における{Audio}ドメインの登録頻度は、({Audio}ドメインに登録されている「set」の数)/({Audio}ドメインに登録されている全ての単語の数)である。{Audio}ドメインに登録されている「set」の数=10個、{Audio}ドメインに登録されている全ての単語の数=100個とすると、登録頻度は10/100=0.1と算出される。
同様に、音声対話ユニット1は、認識されたテキストに含まれる2単語について、言語モデル16のうち各ドメインのデータに、当該2単語がいくつ登録されているかをカウントし、当該カウント値を言語モデル16の当該ドメインのデータに登録された全ての単語数で除算して、2単語における各ドメインの登録頻度を算出する。これにより、図10(b)の表に示すように、2単語における各ドメインの登録頻度が算得られる。
同様に、音声対話ユニット1は、認識されたテキストに含まれる3単語について、言語モデル16のうち各ドメインのデータに、当該3単語がいくつ登録されているかをカウントし、当該カウント値を言語モデル16の当該ドメインのデータに登録された全ての単語数で除算して、3単語における各ドメインの登録頻度を算出する。これにより、図10(c)の表に示すように、3単語における各ドメインの登録頻度が得られる。
次に、音声対話ユニット1は、1単語、2単語、3単語における各ドメインの登録頻度に基づいて、認識されたテキスト全体における各ドメインの尤度(ドメイン決定用の構文解析スコア)を算出する。具体的には、ドメイン毎に登録頻度の和を取り、当該登録頻度の和を各ドメインのスコアとする。これにより、図10(d)の表に示すように、各ドメインのスコアが算出される。
次に、STEP4で、音声対話ユニット1は、STEP3で算出したドメイン決定用の構文解析スコアに基づいて、例えばスコアが最も高い等の、当該スコアが所定の条件を満たすようなドメインを認識されたテキストのドメインとして決定する。図10(d)の例では、{Audio}ドメインのスコアが2.99となり最も高いので、ドメインの種類が{Audio}と決定される。
このように、認識されたテキストに含まれる単語及び単語列(1単語、2単語、3単語)の登録頻度を用いて構文解析処理を実行することで、テキスト(文)の文脈を考慮してテキスト全体の意味が理解される。このテキスト全体の意味には、運転者の意図を反映した、運転者の発話の全体的な傾向が示される。よって、テキストに含まれる単語列の登録頻度の解析結果に基づいて、運転者の発話のドメインの種類が精度良く決定される。図10に示す例では、単語「station」の登録頻度と共に、「set the station」といった単語列の登録頻度が用いられる。そして、「set the station」といった単語列は、{Audio}ドメインの登録頻度が大きい。よって、運転者の発話のドメインの種類が{Audio}であると決定される。
以上が、ドメインの種類を決定する処理の詳細である。このように決定されたドメインの種類に応じて、STEP5で、言語モデル16を適切に選択的に有効にすることができ、STEP6の2回目の音声認識処理で、テキストの認識精度が向上される。よって、STEP7の2回目の構文解析処理の結果に基づいてSTEP8で決定される認識結果に、運転者の発話に該当する認識結果を高い確率で含ませることができる。よって、STEP10で、運転者の意図に沿ったシナリオを決定することができる。
したがって、本実施形態によれば、言語モデル16が適切に選択されて発話の認識精度が向上するので、効率の良い対話を介して機器の制御が行われる。
[第2実施形態]
次に、本発明の第2実施形態の音声認識装置について説明する。なお、本実施形態は、第1実施形態と、音声対話処理におけるドメインの種類をする処理(上述のSETEP3,4)のみが相違する。本実施形態の構成は、第1実施形態と同様であるので、同一の構成には同一の参照符号を付して、以下では説明を省略する。
図11を用いて、本実施形態の音声認識装置の音声対話処理におけるドメインの種類を決定する処理について説明する。図11に示す例は、認識されたテキストが図10と同様に「set the station nearly ninth place」の場合である。
このとき、STEP3で、第1実施形態と同様に、認識されたテキストに含まれる単語について、言語モデル16のうち各ドメインのデータに、当該単語がいくつ登録されているかをカウントし、当該カウント値を言語モデル16の当該ドメインのデータに登録された全ての単語数で除算して、1単語における各ドメインの登録頻度を算出する。そして、それぞれの単語について、最も高い登録頻度を有するドメインを抽出する。これにより、図11(a)の表に示すように、1単語におけるドメイン毎の登録頻度が得られる。
同様に、音声対話ユニット1は、認識されたテキストに含まれる2単語について、言語モデル16のうち各ドメインのデータに、当該2単語がいくつ登録されているかをカウントし、当該カウント値を言語モデル16の当該ドメインのデータに登録された全ての単語数で除算して、2単語における各ドメインの登録頻度を算出する。そして、それぞれの2単語について、最も高い登録頻度を有するドメインを抽出する。これにより、図11(b)の表に示すように、2単語における各ドメインの登録頻度が得られる。
同様に、音声対話ユニット1は、認識されたテキストに含まれる3単語について、言語モデル16のうち各ドメインのデータに、当該3単語がいくつ登録されているかをカウントし、当該カウント値を言語モデル16の当該ドメインのデータに登録された全ての単語数で除算して、3単語における各ドメインの登録頻度を算出する。そして、それぞれの3単語について、最も高い登録頻度を有するドメインを抽出する。これにより、図10(c)の表に示すように、3単語における各ドメインの登録頻度が得られる。
次に、音声対話ユニット1は、1単語、2単語、3単語における各ドメインの登録頻度に基づいて、認識されたテキスト全体における各ドメインの尤度(ドメイン決定用の構文解析スコア)を算出する。具体的には、ドメイン毎に登録頻度の和を取り、当該登録頻度の和を各ドメインのスコアとする。これにより、図11(d)の表に示すように、各ドメインのスコアが算出される。
次に、STEP4で、音声対話ユニット1は、STEP3で算出したドメイン決定用の構文解析スコアに基づいて、例えばスコアが最も高い等の、当該スコアが所定の条件を満たすようなドメインを認識されたテキストのドメインとして決定する。図10(d)の例では、{Audio}ドメインのスコアが1.5となり最も高いので、ドメインの種類が{Audio}と決定される。他の動作は第1実施形態と同じである。
本実施形態によれば、第1実施形態と同様に、言語モデル16が適切に選択されて発話の認識精度が向上するので、効率の良い対話を介して機器の制御が行われる。
なお、前記第1及び第2実施形態においては、車両状態検出部3を備え、シナリオ制御部13は、発話の認識結果と検出した車両状態とに応じてシナリオを決定するものとしたが、車両状態検出部3を備えず、シナリオ制御部13は発話の認識結果のみから制御処理を決定するものとしてもよい。
また、前記第1及び第2実施形態においては、音声入力する使用者は、車両10の運転者としたが、運転者以外の乗員としてもよい。
また、前記第1及び第2実施形態においては、音声認識装置は、車両10に搭載されるものとしたが、車両以外の移動体に搭載されるものとしてもよい。さらに、移動体に限らず、使用者が発話により対象を制御するシステムに適用可能である。
本発明の第1実施形態である音声認識装置の機能ブロック図。 図1の音声認識装置の言語モデル、構文モデルの構成を示す説明図。 図1の音声認識装置の全体的な作動(音声対話処理)を示すフローチャート。 図3の音声対話処理における言語モデルを用いた音声認識処理におけるテキスト候補を示す説明図。 図3の音声対話処理における言語モデルを用いた音声認識処理における他のテキスト候補を示す説明図。 図3の音声対話処理における言語モデルを用いた音声認識処理におけるテキストを決定する処理を示す説明図。 図3の音声対話処理における構文モデルを用いた構文解析処理を示す説明図。 図3の音声対話処理におけるシナリオを決定する処理で用いるフォームを示す説明図。 図3の音声対話処理におけるシナリオを決定する処理を示す説明図。 図3の音声対話処理におけるドメインを決定する処理を示す説明図。 本発明の第2実施形態の音声対話処理におけるドメインを決定する処理を示す説明図。
符号の説明
1…音声対話ユニット、2…マイク、3…車両状態検出部、4…スピーカ、5…ディスプレイ、6a〜6c…機器、10…車両、11…音声認識部、12…構文解析部、13…シナリオ制御部、14…音声合成部、15…音響モデル、16…言語モデル、17…構文モデル、18…シナリオデータベース、19…音素モデル。

Claims (6)

  1. 入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識装置において、
    入力された音声に対して、該音声の音響的な特徴に基づいて算出される音響スコアと、該音声の言語的な特徴に基づいて算出される言語スコアとに、第1の比率の重み付けをし、得られた各スコアを用いて該音声を認識する処理を実行し、該処理の結果に基づいて前記制御対象を表すドメインの種類を決定する第1の音声認識手段と、
    前記第1の音声認識手段により決定された種類のドメインを認識対象として、入力された音声に対して算出される前記音響スコアと前記言語スコアとに、該音響スコアに対する重み付けが前記第1の比率よりも大きい第2の比率で重み付けをし、得られた各スコアを用いて該音声を認識する処理を実行し、該処理の結果に基づいて前記制御対象の制御内容を決定する第2の音声認識手段と、
    を備えることを特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置において、
    前記第1の音声認識手段と、前記第2の音声認識手段とは、同じ音声に対して当該音声を認識する処理を実行することを特徴とする音声認識装置。
  3. 請求項1又は2記載の音声認識装置において、
    少なくとも前記決定された制御対象の制御内容に基づいて、所定の制御処理を実行する制御手段を備えることを特徴とする音声認識装置。
  4. 請求項3記載の音声認識装置において、
    前記音声を入力する使用者への応答を出力する応答出力手段を備え、前記制御手段の実行する制御処理は、音声の入力を該使用者に促すように該使用者への応答を制御する処理を含むことを特徴とする音声認識装置。
  5. 入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識方法であって、
    入力された音声の音響的な特徴に基づいて算出される音響スコアと、該音声の言語的な特徴に基づいて算出される言語スコアとに、第1の比率の重み付けをし、得られた各スコアを用いて該音声を認識する第1の音声認識ステップと、
    前記第1の音声認識ステップの認識結果に基づいて、前記制御対象を表すドメインの種類を決定するドメイン種類決定ステップと、
    前記ドメイン種類決定ステップで決定された種類のドメインを認識対象として、入力された音声に対して算出される前記音響スコアと前記言語スコアとに、前記音響スコアに対する重み付けが前記第1の比率よりも大きい第2の比率で重み付けをし、得られた各スコアを用いて該音声を認識する第2の音声認識ステップと、
    前記第2の音声認識ステップの認識結果に基づいて、前記制御対象の制御内容を決定する認識結果決定ステップと、
    を備えたことを特徴とする音声認識方法。
  6. 入力された音声についての認識結果に基づいて制御対象の制御内容を決定する処理をコンピュータに実行させる音声認識プログラムであって、
    入力された音声の音響的な特徴に基づいて音響スコアを算出する音響スコア算出処理と、
    入力された音声の言語的な特徴に基づいて言語スコアを算出する言語スコア算出処理と、
    入力された音声に対して、前記音響スコア算出処理で算出された音響スコアと、前記言語スコア算出処理で算出された言語スコアとに、第1の比率で重み付けをし、得られた各スコアを用いて該音声を認識する第1の音声認識処理と、
    前記第1の音声認識処理の認識結果に基づいて、前記制御対象を表すドメインの種類を決定するドメイン種類決定処理と、
    入力された音声に対して、前記ドメイン種類決定処理で決定された種類のドメインを認識対象として、前記音響スコア算出処理で算出された音響スコアと、前記言語スコア算出処理で算出された言語スコアとに、該音響スコアに対する重み付けが前記第1の比率よりも大きい第2の比率で重み付けをし、得られた各スコアを用いて該音声を認識する第2の音声認識処理と、
    前記第2の音声認識処理の認識結果に基づいて、前記制御対象の制御内容を決定する認識結果決定処理と、
    を前記コンピュータに実行させる機能を有することを特徴とする音声認識プログラム。
JP2006251540A 2006-09-15 2006-09-15 音声認識装置、音声認識方法、及び音声認識プログラム Expired - Fee Related JP4188989B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006251540A JP4188989B2 (ja) 2006-09-15 2006-09-15 音声認識装置、音声認識方法、及び音声認識プログラム
US11/898,234 US8548806B2 (en) 2006-09-15 2007-09-11 Voice recognition device, voice recognition method, and voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006251540A JP4188989B2 (ja) 2006-09-15 2006-09-15 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2008070805A true JP2008070805A (ja) 2008-03-27
JP4188989B2 JP4188989B2 (ja) 2008-12-03

Family

ID=39189742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006251540A Expired - Fee Related JP4188989B2 (ja) 2006-09-15 2006-09-15 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (2)

Country Link
US (1) US8548806B2 (ja)
JP (1) JP4188989B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム
JP2015060210A (ja) * 2013-09-20 2015-03-30 株式会社東芝 データ収集装置、音声対話装置、方法およびプログラム
KR20150100322A (ko) * 2014-02-25 2015-09-02 삼성전자주식회사 서버 및 이의 가이드 문장 생성 방법
US9818238B2 (en) 2015-02-02 2017-11-14 Toyota Jidosha Kabushiki Kaisha Vehicle state prediction system
JP2019003677A (ja) * 2012-05-15 2019-01-10 アップル インコーポレイテッドApple Inc. サードパーティサービスをデジタルアシスタントと統合するシステム及び方法
JP2020086437A (ja) * 2018-11-21 2020-06-04 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置
JP2022070017A (ja) * 2020-10-26 2022-05-12 日本電気株式会社 交通手段の運行支援装置、交通手段の運行支援方法、及び、交通手段の運行支援プログラム

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US9423996B2 (en) * 2007-05-03 2016-08-23 Ian Cummings Vehicle navigation user interface customization methods
US8583436B2 (en) * 2007-12-21 2013-11-12 Nec Corporation Word category estimation apparatus, word category estimation method, speech recognition apparatus, speech recognition method, program, and recording medium
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
CN103038818B (zh) 2010-06-24 2016-10-12 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9367526B1 (en) * 2011-07-26 2016-06-14 Nuance Communications, Inc. Word classing for language modeling
US9922334B1 (en) 2012-04-06 2018-03-20 Google Llc Providing an advertisement based on a minimum number of exposures
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US9466286B1 (en) * 2013-01-16 2016-10-11 Amazong Technologies, Inc. Transitioning an electronic device between device states
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US9460715B2 (en) * 2013-03-04 2016-10-04 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US10176167B2 (en) * 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
CN104731854B (zh) 2013-12-18 2020-02-04 哈曼国际工业有限公司 语音识别查询响应系统
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
CN105787005B (zh) * 2016-02-22 2019-09-20 腾讯科技(深圳)有限公司 信息处理方法及移动终端
US10242670B2 (en) * 2016-09-21 2019-03-26 Intel Corporation Syntactic re-ranking of potential transcriptions during automatic speech recognition
KR101934280B1 (ko) * 2016-10-05 2019-01-03 현대자동차주식회사 발화내용 분석 장치 및 방법
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
KR20200072907A (ko) * 2018-12-13 2020-06-23 현대자동차주식회사 대화 시스템이 구비된 차량 및 그 제어 방법
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data
US11790895B2 (en) * 2019-06-26 2023-10-17 Samsung Electronics Co., Ltd. System and method for natural language understanding
KR20210016975A (ko) * 2019-08-06 2021-02-17 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
JP7206167B2 (ja) * 2019-08-13 2023-01-17 Tvs Regza株式会社 受信装置
CN110600028B (zh) * 2019-08-30 2022-03-08 北京梧桐车联科技有限责任公司 车辆油门控制方法及装置、车载设备及存储介质
US11977841B2 (en) * 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4501012A (en) * 1980-11-17 1985-02-19 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
JP2001034292A (ja) 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
EP1215662A4 (en) * 2000-02-28 2005-09-21 Sony Corp SPEECH RECOGNITION DEVICE, SPEECH RECOGNITION METHOD, AND RECORDING MEDIUM
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
US7395205B2 (en) * 2001-02-13 2008-07-01 International Business Machines Corporation Dynamic language model mixtures with history-based buckets
US6985862B2 (en) * 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights
US6901364B2 (en) * 2001-09-13 2005-05-31 Matsushita Electric Industrial Co., Ltd. Focused language models for improved speech input of structured documents
US7006972B2 (en) * 2002-03-20 2006-02-28 Microsoft Corporation Generating a task-adapted acoustic model from one or more different corpora
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP4019904B2 (ja) * 2002-11-13 2007-12-12 日産自動車株式会社 ナビゲーション装置
US20040143440A1 (en) * 2003-01-03 2004-07-22 Venkatesh Prasad Vehicle speech recognition system
US20050125110A1 (en) * 2003-06-27 2005-06-09 Potter Mark J. Method of vehicle component control
US7383172B1 (en) * 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
JP4040573B2 (ja) * 2003-12-12 2008-01-30 キヤノン株式会社 音声認識装置および方法
US7170400B2 (en) * 2004-05-20 2007-01-30 Lear Corporation System for customizing settings and sounds for vehicle
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US7574358B2 (en) * 2005-02-28 2009-08-11 International Business Machines Corporation Natural language system and method based on unisolated performance metric
JP4843987B2 (ja) * 2005-04-05 2011-12-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US7716049B2 (en) * 2006-06-30 2010-05-11 Nokia Corporation Method, apparatus and computer program product for providing adaptive language model scaling
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP2019003677A (ja) * 2012-05-15 2019-01-10 アップル インコーポレイテッドApple Inc. サードパーティサービスをデジタルアシスタントと統合するシステム及び方法
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP2015060210A (ja) * 2013-09-20 2015-03-30 株式会社東芝 データ収集装置、音声対話装置、方法およびプログラム
KR20150100322A (ko) * 2014-02-25 2015-09-02 삼성전자주식회사 서버 및 이의 가이드 문장 생성 방법
KR102297519B1 (ko) * 2014-02-25 2021-09-03 삼성전자주식회사 서버 및 이의 가이드 문장 생성 방법
US9818238B2 (en) 2015-02-02 2017-11-14 Toyota Jidosha Kabushiki Kaisha Vehicle state prediction system
JP2020086437A (ja) * 2018-11-21 2020-06-04 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores
JP7452968B2 (ja) 2018-11-21 2024-03-19 三星電子株式会社 音声認識方法及び音声認識装置
JP2022070017A (ja) * 2020-10-26 2022-05-12 日本電気株式会社 交通手段の運行支援装置、交通手段の運行支援方法、及び、交通手段の運行支援プログラム
JP7259826B2 (ja) 2020-10-26 2023-04-18 日本電気株式会社 交通手段の運行支援装置、交通手段の運行支援方法、及び、交通手段の運行支援プログラム

Also Published As

Publication number Publication date
US20080071536A1 (en) 2008-03-20
US8548806B2 (en) 2013-10-01
JP4188989B2 (ja) 2008-12-03

Similar Documents

Publication Publication Date Title
JP4188989B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4412504B2 (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
JP4666648B2 (ja) 音声応答システム、音声応答プログラム
JP2008064885A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US11170776B1 (en) Speech-processing system
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
JP2008233678A (ja) 音声対話装置、音声対話方法、及び音声対話用プログラム
US8380505B2 (en) System for recognizing speech for searching a database
KR100679044B1 (ko) 사용자 적응형 음성 인식 방법 및 장치
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US11715472B2 (en) Speech-processing system
JP2008089625A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20240071385A1 (en) Speech-processing system
JP2008076811A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5009037B2 (ja) 音声認識装置、その音声認識方法
AbuZeina et al. Cross-word modeling for Arabic speech recognition
JP2008076812A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
Alhumsi et al. The challenges of developing a living Arabic phonetic dictionary for speech recognition system: A literature review
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction
KR102527346B1 (ko) 차량용 음성 인식 장치, 이를 이용한 차량의 주행상태를 고려한 응답 제공 방법 및 컴퓨터 프로그램
JP2005070330A (ja) 音声認識装置及びプログラム
Price et al. Investigating the downstream impact of grapheme-based acoustic modeling on spoken utterance classification

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080911

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110919

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120919

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130919

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140919

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees