JP2008064885A - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP2008064885A
JP2008064885A JP2006240639A JP2006240639A JP2008064885A JP 2008064885 A JP2008064885 A JP 2008064885A JP 2006240639 A JP2006240639 A JP 2006240639A JP 2006240639 A JP2006240639 A JP 2006240639A JP 2008064885 A JP2008064885 A JP 2008064885A
Authority
JP
Japan
Prior art keywords
input
speech recognition
task
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006240639A
Other languages
English (en)
Inventor
Masashi Satomura
昌史 里村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2006240639A priority Critical patent/JP2008064885A/ja
Priority to US11/896,527 priority patent/US20080177541A1/en
Publication of JP2008064885A publication Critical patent/JP2008064885A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】使用者の発話が曖昧な場合にも、使用者の発話を精度良く認識することができる音声認識装置、音声認識方法、及び音声認識プログラムを提供する。
【解決手段】音声認識装置1は、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する。制御内容を表すタスクの種類を所定の決定入力に基づいて決定するタスク種類決定手段23と、タスク種類決定手段23により決定された種類のタスクを認識対象として、入力された音声を認識する音声認識手段11とを備える。
【選択図】図1

Description

本発明は、使用者により入力される音声を認識し、認識した結果に基づいて対象を制御するための情報を取得する音声認識装置、音声認識方法、及び音声認識プログラムに関する。
近年、例えば、使用者が機器の操作等を行うシステムにおいて、使用者により入力される音声を認識して、機器の操作等に必要な情報(コマンド)を取得する音声認識装置が用いられている。このような音声認識装置では、使用者により入力される音声(発話)を認識し、認識した結果に基づいて使用者に応答して使用者の次の発話を促すことで、使用者との対話が行われる。そして、使用者との対話を認識した結果から、機器の操作等を行うために必要な情報が取得される。このとき、例えば、認識対象であるコマンドが予め登録された音声認識辞書を用いて、入力された発話の特徴量と音声認識辞書に登録されたコマンドの特徴量とを比較することにより発話が認識される。
この音声認識装置は、例えば車両に装備されて、車両に搭載されたオーディオ、ナビゲーションシステム、エアコンディショナ等の複数の機器が使用者により操作される。さらに、これらの機器は高機能化しており、例えば、ナビゲーションシステムには、地図表示やPOI(Point of Interest)検索等の複数の機能が備えられ、これらの機能が使用者により操作される。しかし、このように多数の操作対象があると、これらを操作するためのコマンドの数が多くなる。そして、認識対象であるコマンドが多くなると、例えばコマンド間で特徴量が類似する場合が増加し、誤認識の可能性が高くなる。このため、使用者の発話の遷移状態(例えば使用者と装置との対話の履歴)に応じて、対話中の操作対象(例えばナビゲーションシステムにインストールされたアプリケーション)に限定したコマンドのみを認識対象として音声認識処理を行うことにより、コマンドの数を減らして認識精度を向上する技術が提案されている(例えば、特許文献1参照)。
この特許文献1の音声認識装置(対話型端末装置)では、認識対象であるコマンドとして、使用者が対話中のアプリケーションを操作するためのローカルコマンドと、対話中のアプリケーション以外の他のアプリケーションを操作するためのグローバルコマンドとを備える。そして、入力された発話がローカルコマンドであるか否かを判定し、ローカルコマンドであると判定した場合は、ローカルコマンドとして音声認識処理を行い、ローカルコマンドでないと判定した場合には、グローバルコマンドとして音声認識処理を行う。これにより、使用者が対話中のアプリケーションを操作する際の認識精度を向上すると共に、対話中に他のアプリケーションを操作しようとした場合に、例えば対話中のアプリケーションを終了してメニューに戻ってから他のアプリケーションを選択するといった冗長な操作を行わずに、他のアプリケーションとの対話に直接移行する。
特開2004−234273号公報
しかしながら、上記音声認識装置では、例えば、使用者の発話からアプリケーションが特定されなければ、認識対象であるコマンドを限定することができず、認識精度を向上することができない。よって、使用者の発話が曖昧な場合に、アプリケーションが特定されずに誤認識が生じると、例えば何度も使用者に発話の再入力を促すこととなる。また、上記音声認識装置で、例えばグローバルコマンドとローカルコマンドが類似していた場合に、使用者の発話が曖昧で、入力したグローバルコマンドがローカルコマンドと誤認識される可能性がある。この場合、対話中のアプリケーションから他のアプリケーションとの対話に移行することができず、使い勝手が良くないという不都合がある。
本発明は、上記事情に鑑み、使用者の発話が曖昧な場合にも、使用者の発話を精度良く認識することができる音声認識装置を提供することを目的とする。
本発明の音声認識装置は、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識装置において、制御内容を表すタスクの種類を所定の決定入力に基づいて決定するタスク種類決定手段と、タスク種類決定手段により決定された種類のタスクを判断対象として、入力された音声を認識する音声認識手段とを備えることを特徴とする。
本発明の音声認識装置では、例えば使用者から対象を制御するための発話が音声入力されて、当該音声が音声認識手段により認識されることにより、対象を制御するための情報が取得される。このとき、対象を制御するための情報は、制御対象を表すドメインと制御内容を表すタスクとに大別される。
「ドメイン」とは、使用者が発話により「何を」対象として制御するかを示す情報である。詳細には、ドメインは、使用者が発話により制御する対象である機器や機能を表す。例えば、車両における「ナビゲーションシステム」「オーディオ」「エアコンディショナ」といった機器や、ナビゲーションシステムの「画面表示」「POI検索」等のコンテンツや、オーディオの「ラジオ」「CD」等のデバイスである。例えば、ナビゲーションシステムにインストールされたアプリケーション等もドメインに含まれる。また、「タスク」とは、使用者が発話により対象を「どのように」制御するかを示す情報である。詳細には、タスクは、「設定変更」「上げる」「下げる」といった動作を表す。タスクには、複数の機器や機能に共通して行われる可能性のある一般的な動作が含まれる。
このとき、例えば使用者の発話が曖昧である場合に、何を制御するかは特定されないが、少なくともどのように制御するかは特定される状況が想定される。これに対し、本発明によれば、タスク種類決定手段により所定の決定入力に基づいて制御内容を表すタスクが決定されると、決定された種類のタスクに認識対象を限定した音声認識処理が行われる。これにより、何を制御するかが特定されていなくても、どのように制御するかという指標で認識対象を限定して音声認識処理を行うことが可能なので、曖昧な発話に対しても認識精度を向上することができる。
また、本発明の音声認識装置において、制御対象を表すドメインの種類を所定の決定入力に基づいて決定するドメイン種類決定手段を備え、音声認識手段は、タスク種類決定手段により決定された種類のタスクに加えて、ドメイン種類決定手段により決定された種類のドメインを認識対象として、入力された音声を認識することが好ましい。
この場合、制御内容を表すタスクに加えて、制御対象を表すドメインが決定された場合には、決定された種類のタスクとドメインの両方に認識対象を限定して音声認識処理が行われる。これにより、認識対象を効率良く限定して音声認識処理を行うことが可能なので、認識精度をより向上することができる。
また、本発明の音声認識装置において、所定の決定入力は、逐次入力される音声について音声認識手段での前回の認識結果に含まれるタスクを示すデータであることが好ましい。この場合、使用者からの前回の発話に基づいてタスクの種類が決定されるので、使用者との対話において、認識対象を効率良く限定して音声認識処理を行うことができる。なお、所定の決定入力として、タッチパネル、キーボード、或いはボタンやダイヤル等を備えた入力インタフェース等への入力に含まれるタスクを示すデータを用いてもよい。さらに、ドメインの種類を決定する際の決定入力についても、タスクと同様に、前回の認識結果や入力インタフェース等への入力に含まれるドメインを示すデータを用いることができる。
また、本発明の音声認識装置において、音声認識手段により入力された音声を認識する際に用いる、少なくともタスクの種類毎に分類された音声認識用データを備え、音声認識手段は、音声認識用データのうち、少なくともタスク種類決定手段により決定された種類のタスクに分類されたデータに基づいて、入力された音声を認識することが好ましい。
この場合、制御内容を表すタスクが決定されると、決定された種類のタスクに認識対象を限定した音声認識処理として、音声認識用データのうちの決定された種類のタスクに分類された音声認識用データを用いて音声を認識する処理が行われる。これにより、何を制御するかが特定されていなくても、どのように制御するかという指標で認識対象を限定して音声認識処理を行うことが可能なので、曖昧な発話に対しても認識精度を向上することができる。
また、本発明の音声認識装置において、音声認識手段により入力された音声を認識する際に用いる、タスク及びドメインの種類毎に分類された音声認識用データを備え、音声認識手段は、音声認識用データのうちの、タスク決定手段により決定された種類のタスクで、且つドメイン決定手段により決定された種類のドメインに分類されたデータに基づいて、入力された音声を認識することが好ましい。
この場合、制御内容を表すタスクに加えて制御対象を表すドメインが決定されると、決定されたタスクの種類とドメインの種類の両方に認識対象を限定した音声認識処理として、決定された種類のタスクと決定された種類のドメインとの両方に分類された音声認識用データを用いて音声を認識する処理が行われる。これにより、認識対象を効率良く限定して音声認識処理を行うことが可能なので、認識精度をより向上することができる。
また、本発明の音声認識装置において、音声認識用データは、少なくとも認識対象である単語についての確率をデータとして有する言語モデルを含むことが好ましい。
ここで、「言語モデル」とは、認識対象である単語の言語的な特徴を表す、単語列の出現確率等に基づいた統計的言語モデルを意味する。この言語モデルを用いた音声認識では、例えば予め登録されたコマンドだけでなく、言い回しが限定されない使用者の自然な発話も受け付けることができる。このような言い回しが限定されない曖昧な発話では、ドメインの種類が決定されずタスクの種類のみが決定される状況が生じる可能性が高い。よって、タスクの種類だけでも決定された場合に、この種類のタスクに言語モデルのデータを限定して音声認識処理を行うことで、認識精度の向上の効果を顕著に得ることができる。
また、本発明の音声認識装置において、少なくとも音声認識手段の認識結果に基づいて制御対象の制御内容を決定し、所定の制御処理を実行する制御手段を備えることが好ましい。
この場合、制御手段により、音声認識手段の認識結果に応じて、例えば予め定められた複数の制御処理(シナリオ)のうちから所定の制御処理が決定されて実行される。所定の制御処理は、例えば、制御対象である機器や機能を、発話から取得された情報に基づいて制御する処理や、使用者への音声や画面表示による応答を制御する処理等である。このとき、本発明によれば、使用者の曖昧な発話に対しても認識精度が向上されているので、所定の制御処理を使用者の意図に応じて適切に決定して実行することができる。
なお、制御手段は、発話の認識結果と共に、音声認識装置が搭載されたシステム(例えば車両等)の状態や使用者の状態、或いは制御対象である機器や機能の状態等を考慮して、所定の制御処理を決定して実行することも可能である。また、使用者の対話履歴や、機器の状態変化等を記憶する記憶手段を備え、制御手段は、発話の認識結果と共にこの対話履歴や状態変化等を考慮して、所定の制御処理を決定することも可能である。
また、本発明の音声認識装置において、音声を入力する使用者への応答を出力する応答出力手段を備え、制御手段の実行する制御処理は、音声の入力を使用者に促すように該使用者への応答を制御する処理を含むことが好ましい。
この場合、例えば、使用者から入力された発話から対象を制御するための情報が十分に取得されない場合には、制御手段は、必要な情報の入力を使用者に促すように、応答出力手段から出力する応答を制御する。これにより、使用者との対話が行われ、この使用者との対話を認識した結果から、対象を制御するために必要な情報が取得される。このとき、本発明によれば、使用者の曖昧な発話に対しても認識精度が向上されているので、効率の良い対話を介して情報を取得することができる。
次に、本発明の音声認識方法は、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識方法であって、制御内容を表すタスクの種類を所定の決定入力に基づいて決定するタスク種類決定ステップと、タスク種類決定ステップで決定された種類のタスクを認識対象として、入力された音声を認識する音声認識ステップとを備えたことを特徴とする。
本発明の音声認識方法によれば、本発明の音声認識装置に関して説明したように、何を制御するかが特定されていなくとも、少なくともどのように制御するかが特定されれば、認識対象を限定して音声認識処理を行うことができる。よって、この音声認識方法によれば、使用者の曖昧な発話に対しても、音声認識の認識精度を向上することができる。
次に、本発明の音声認識プログラムは、入力された音声についての認識結果に基づいて制御対象の制御内容を決定する処理をコンピュータに実行させる音声認識プログラムであって、制御内容であるタスクの種類を所定の決定入力に基づいて決定するタスク種類決定処理と、タスク種類決定処理で決定された種類のタスクを認識対象として、入力された音声を認識する音声認識処理とをコンピュータに実行させる機能を有することを特徴とする。
この場合、本発明の音声認識装置に関して説明した効果を奏し得る処理をコンピュータに実行させることができる。
図1に示すように、本発明の実施形態の音声認識装置は音声対話ユニット1から成り、車両10に搭載されている。この音声対話ユニット1には、車両10の運転者から発話が入力されるマイク2が接続されると共に、車両10の状態を検出する車両状態検出部3が接続されている。また、音声対話ユニット1には、運転者への応答を出力するスピーカ4と、運転者への表示を行うディスプレイ5とが接続されている。さらに、音声対話ユニット1には、運転者が音声等で操作可能な複数の機器6a〜6cが接続されている。
マイク2は、車両10の運転者の音声が入力されるものであり、車内の所定位置に設置されている。マイク2は、例えば、トークスイッチにより音声の入力開始が指令されると、入力される音声を運転者の発話として取得する。トークスイッチは、車両10の運転者により操作されるON・OFFスイッチであり、押下してON操作されることによって音声の入力開始が指令される。
車両状態検出部3は、車両10の状態を検出するセンサ等である。車両10の状態とは、例えば、車両10の速度や加減速等の走行状態、車両10の位置や走行道路等の走行環境情報、車両10に装備された機器(ワイパー、ウィンカー、ナビゲーションシステム6a、オーディオ6b等)の動作状態、或いは車両10の車内温度等の車内の状態をいう。具体的には、例えば、車両10の走行状態を検出するセンサとして、車両10の走行速度(車速)を検出する車速センサ、車両10のヨーレートを検出するヨーレートセンサ、車両10のブレーキ操作(ブレーキペダルが操作されているか否か)を検出するブレーキセンサ等が挙げられる。さらに、車両10の状態として、車両10の運転者の状態(運転者の手掌部の発汗、運転負荷等)を検出してもよい。
スピーカ4は、車両10の運転者への応答(音声ガイド)を出力するものである。なお、このスピーカ4としては、後述のオーディオ6aが有するスピーカを用いることができる。
ディスプレイ5は、例えば、車両10のフロントウィンドウに画像等の情報を表示するHUD(ヘッドアップディスプレイ)、車両10の車速などの走行状態を表示するメータに一体的に設けられたディスプレイ、或いは後述のナビゲーションシステム6bに備えられたディスプレイ等である。なお、ナビゲーションシステム6bのディスプレイは、タッチスイッチが組み込まれたタッチパネルとなっている。
機器6a〜6cは、具体的には、車両10に装備されたオーディオ6a、ナビゲーションシステム6b、エアコンディショナ6cである。各機器6a〜6cには、制御可能な構成要素(デバイス,コンテンツ等)、機能、動作等が予め定められている。
例えば、オーディオ6aには、デバイスとして「CD」「MP3」「ラジオ」「スピーカ」等がある。また、オーディオ6aの機能として「音量」等がある。また、オーディオ6aの動作として「変更」「オン」「オフ」等がある。さらに、「CD」「MP3」の動作として、「再生」「停止」等がある。また、「ラジオ」の機能として「選局」等がある。また、「音量」の動作として「上げる」「下げる」等がある。
また、例えば、ナビゲーションシステム6bには、コンテンツとして「画面表示」「経路誘導」「POI検索」等がある。さらに、「画面表示」の動作として「変更」「拡大」「縮小」等がある。なお、「経路誘導」は音声ガイド等により目的地へ誘導する機能であり、「POI検索」は、例えばレストラン、ホテル等の目的地を検索する機能である。
また、例えば、エアコンディショナ6cには、その機能として「風量」「設定温度」等がある。また、エアコンディショナ6cの動作として「オン」「オフ」等がある。さらに、「風量」「設定温度」の動作として「変更」「上げる」「下げる」等がある。
これらの機器6a〜6cは、対象を制御するための情報(機器や機能の種別、動作の内容等)を指定することにより制御される。対象を制御するための情報とは、「何を」「どのように」制御するかを示す情報であり、制御対象を表すドメイン(「何を」対象として制御するかを示す情報)と、制御内容を表すタスク(対象を「どのように」制御するかを示す情報)とに大別される。ドメインは、機器6a〜6cの種別や、各機器6a〜6cのデバイス、コンテンツ、機能の種別に相当する。また、タスクは、機器6a〜6cの動作の内容に相当し、例えば「変更」「上げる」「下げる」等の動作のように、複数のドメインに共通して行われるものが含まれる。なお、ドメインとタスクとは、それぞれ、例えば「オーディオ」のドメインが、その下位で「CD」「ラジオ」のドメインに分類されるといったように、階層的に指定することができる。
音声対話ユニット1は、詳細の図示は省略するが、A/D変換回路、マイクロコンピュータ(CPU、RAM、ROM)等を含む電子回路により構成され、マイク2の出力(アナログ信号)がA/D変換回路を介してデジタル信号に変換されて入力される。そして、音声対話ユニット1は、入力されたデータに基づいて、運転者から入力された発話を認識する処理や、その認識結果に基づいて、スピーカ4やディスプレイ5を介して運転者との対話や運転者への情報提示を行う処理や、機器6a〜6cを制御する処理等を実行する。これらの処理は、音声対話ユニット1のメモリに予め実装されたプログラムを音声対話ユニット1により実行することにより実現される。このプログラムは、本発明の音声認識プログラムを含んでいる。なお、当該プログラムはCD−ROM等の記録媒体を介してメモリに格納されてもよく、外部のサーバからネットワークや人工衛星を介して配信または放送され、車両10に搭載された通信機器により受信された上でメモリに格納されてもよい。
より詳しくは、音声対話ユニット1は、上記プログラムにより実現される機能として、入力された音声を音響モデル15と言語モデル16とを用いて認識してテキストとして出力する音声認識部11と、認識されたテキストから構文モデル17を用いて発話の意味を理解する構文解析部12とを備えている。また、音声対話ユニット1は、発話の認識結果に基づいてシナリオデータベース18を用いてシナリオを決定し、運転者への応答や機器の制御等を行うシナリオ制御部13と、運転者に出力する音声による応答を音素モデル21を用いて合成する音声合成部14とを備えている。さらに、シナリオ制御部13は、発話の認識結果からドメインの種類を決定するドメイン種類決定手段22と、発話の認識結果からタスクの種類を決定するタスク種類決定手段23とを備えている。
なお、音響モデル15、言語モデル16、構文モデル17、シナリオデータベース18、音素モデル19、固有名詞辞書20,21は、それぞれ、データが記録されているCD−ROM、DVD、HDD等の記録媒体(データベース)である。
また、言語モデル16及び固有名詞辞書20が本発明の音声認識用データを構成する。また、音声認識部11が本発明の音声認識手段を構成する。また、シナリオ制御部13が本発明の制御手段を構成する。また、シナリオ制御部13及び音声合成部14が本発明の応答出力手段を構成する。
音声認識部11は、マイク2に入力された発話の音声を示す波形データを周波数分析して特徴ベクトルを抽出する。そして、音声認識部11は、抽出された特徴ベクトルに基づいて、入力された音声を認識して、単語列で表現されたテキストとして出力する「音声認識処理」を実行する。この音声認識処理は、次に説明するような確率統計的な手法を用いて、入力音声の音響的な特徴と言語的な特徴とを総合的に判断することにより実行される。
すなわち、音声認識部11は、まず、音響モデル15を用いて、抽出された特徴ベクトルに応じた発音データの尤度(以下、この尤度を適宜「音響スコア」という。)を評価し、当該音響スコアに基づいて発音データを決定する。また、音声認識部11は、言語モデル16と固有名詞辞書20とを用いて、決定された発音データに応じた単語列で表現されたテキストの尤度(以下、この尤度を適宜「言語スコア」という。)を評価し、当該言語スコアに基づいてテキストを決定する。さらに、音声認識部11は、決定された全てのテキストについて、当該テキストの音響スコアと言語スコアとに基づいて音声認識の確信度(以下、この確信度を適宜「音声認識スコア」という。)を算出する。そして、音声認識部11は、この音声認識スコアが所定の条件を満たす単語列で表現されたテキストを、認識されたテキスト(Recognized Text)として出力する。
このとき、音声認識部11は、ドメイン種類決定手段22及びタスク種類決定手段23によりドメインやタスクの種類が決定されている場合には、言語モデル16及び固有名詞辞書20のうち当該決定された種類のドメインやタスクに分類された部分(有効な部分)のデータのみを用いて音声認識処理を行う。
なお、「スコア」とは、認識結果の候補が音響的観点や言語的観点等のさまざまな観点から入力音声に該当するもっともらしさ(尤度、確信度)を表す指数を意味する。
構文解析部12は、音声認識部11で認識されたテキストから、構文モデル17と固有名詞辞書21とを用いて、入力された発話の意味を理解する「構文解析処理」を実行する。この構文解析処理は、次に説明するように確率統計的な手法を用いて、音声認識部11で認識されたテキストにおける単語間の関係(構文)を解析することにより実行される。
すなわち、構文解析部12は、認識されたテキストの尤度(以下、この尤度を適宜「構文解析スコア」という。)を評価し、当該構文解析スコアに基づいて、当該認識されたテキストの意味に対応するクラスに分類されたテキストを決定する。そして、構文解析部12は、構文解析スコアが所定の条件を満たすクラス分類されたテキスト(Categorized Text)を、入力された発話の認識結果として構文解析スコアと共に出力する。「クラス」とは、認識対象のカテゴリに応じた分類に相当し、具体的には、上述のドメインやタスクに相当するものである。例えば、認識されたテキストが「設定変更」「設定変更する」「設定を変える」「セッティング変更」である場合には、いずれも、クラス分類されたテキストは{setup}となる。
シナリオ制御部13は、少なくとも構文解析部12から出力される認識結果と、車両状態検出部3から取得される車両10の状態とに基づいて、シナリオデータベース18に記録されたデータを用いて、運転者に対する応答出力や機器制御のシナリオを決定する。シナリオデータベース18には、応答出力や機器制御のための複数のシナリオが、発話の認識結果や車両状態の条件と共に予め記録されている。そして、シナリオ制御部13は、決定されたシナリオに従って、音声や画像表示による応答を制御する処理や、機器を制御する処理を実行する。具体的には、シナリオ制御部13は、例えば、音声による応答では、出力する応答の内容(運転者の次の発話を促すための応答文や、操作の完了等を使用者に報知するための応答文)や、応答を出力する際の速度や音量を決定する。
音声合成部14は、シナリオ制御部13で決定された応答文に応じて、音素モデル19を用いて音声を合成して、音声を示す波形データとして出力する。音声は、例えばTTS(Text to Speech)等の処理を用いて合成される。具体的には、音声合成部14は、シナリオ制御部13で決定された応答文のテキストを音声出力に適した表現に正規化し、この正規化したテキストの各単語を発音データに変換する。そして、音声合成部14は、音素モデル19を用いて発音データから特徴ベクトルを決定し、この特徴ベクトルにフィルタ処理を施して波形データに変換する。この波形データは、スピーカ4から音声として出力される。
音響モデル(Acoustic Model)15には、特徴ベクトルと発音データとの確率的な対応を示すデータが記録されている。詳細には、音響モデル15には、認識単位(音素、形態素、単語等)毎に用意された複数のHMM(Hidden Markov Model、隠れマルコフモデル)がデータとして記録されている。HMMは、音声を定常信号源(状態)の連結で表し、時系列をある状態から次の状態への遷移確率で表現する統計的信号源モデルである。HMMにより、時系列で変動する音声の音響的な特徴を簡易な確率モデルで表現することができる。HMMの遷移確率等のパラメータは、対応する学習用の音声データを与えて学習させることにより予め決定される。また、音素モデル19にも、発音データから特徴ベクトルを決定するための、音響モデル15と同様のHMMが記録されている。
言語モデル(Language Model)16には、認識対象である単語の出現確率や接続確率を示すデータが、この単語の発音データ及びテキストと共に記録されている。認識対象である単語とは、対象を制御するための発話で使用される可能性のある単語として予め定められるものである。単語の出現確率や接続確率等のデータは、大量の学習テキストコーパスを解析することにより統計的に作成される。また、単語の出現確率は、例えば、学習テキストコーパスにおけるその単語の出現頻度等に基づいて算出される。
この言語モデル16には、例えば、特定のN個の単語が連続して出現する確率により表現されるNグラム(N-gram)の言語モデルが用いられる。本実施形態では、言語モデル16には、入力された発話に含まれる単語数に応じたNグラムが用いられる。具体的には、言語モデル16では、Nの値が発音データに含まれる単語数以下のNグラムが用いられる。例えば発音データに含まれる単語数が2である場合、1単語の出現確率で表現されるユニグラム(Uni-gram,N=1)、及び2つの単語の列の生起確率(先行する1単語についての条件付き出現確率)で表現されるバイグラム(Bi-gram,N=2)が用いられる。
さらに、言語モデル16では、Nの値を所定の上限値に制限してNグラムを用いることもできる。所定の上限値としては、例えば、予め定められた所定値(例えばN=2)や、入力された発話に対する音声認識処理の処理時間が所定時間以内になるように逐次設定される値等を用いることができる。例えばN=2を上限値としてNグラムを用いる場合、発音データに含まれる単語数が2より大きいときにも、ユニグラム及びバイグラムのみが用いられる。これにより、音声認識処理の演算コストが過大になることを防止して、運転者の発話に対して適切な応答時間で応答を出力することができる。
構文モデル(Parser Model)17には、認識対象である単語の出現確率や接続確率を示すデータが、この単語のテキスト及びクラスと共に記録されている。この構文モデル17には、例えば、言語モデル16と同様にNグラムの言語モデルが用いられる。本実施形態では、具体的には、構文モデル17では、N=3を上限値として、Nの値が認識されたテキストに含まれる単語数以下のNグラムが用いられる。すなわち、構文モデル17では、ユニグラム、バイグラム、及び3つの単語の列の生起確率(先行する2単語についての条件付き出現確率)で表現されるトライグラム(Tri-gram,N=3)が用いられる。なお、上限値は3以外でもよく、任意に設定可能である。また、上限値に制限せずに、Nの値が認識されたテキストに含まれる単語数以下のNグラムを用いるものとしてもよい。
固有名詞辞書20,21には、人名、地名、ラジオの放送局の周波数等の、認識対象となる単語のうちの固有名詞の発音データ及びテキストが登録されている。これらのデータは、図2に示すように、<Radio Station><AM>といったタグが付けられて記録されている。このタグの内容が固有名詞辞書20,21に登録された各固有名詞のクラスを示す。
図2に示すように、言語モデル16と構文モデル17とは、それぞれ、ドメインの種類毎に分類されて作成されている。図2の例では、ドメインの種類は、{Audio,Climate,Passenger Climate,POI,Ambiguous,Navigation,Clock,Help}の8種類である。{Audio}は制御対象がオーディオ6aであることを示している。{Climate}は制御対象がエアコンディショナ6cであることを示している。{Passenger Climate}は制御対象が助手席のエアコンディショナ6cであることを示している。{POI}は制御対象がナビゲーションシステム6bのPOI検索機能であることを示している。{Navigation}は制御対象がナビゲーションシステム6bの経路誘導や地図操作等の機能であることを示している。{Clock}は制御対象が時計機能であることを示している。{Help}は制御対象が機器6a〜6cや音声認識装置の操作方法を知るためのヘルプ機能であることを示している。また、{Ambiguous}は、制御対象が不明であることを示している。
また、図3に示すように、言語モデル16は、さらにタスクの種類毎に分類されて作成されている。図3の例では、ドメインが上記の8種類であり、タスクが{Do,Ask,Set,Setup}の4種類である。図3(a)に示すように、例えば、ドメインの種類が{Audio}である単語は、タスクの種類が{Do}{Ask}{Set}{Setup}のいずれかである。また、例えば、ドメインの種類が{Help}である単語は、タスクの種類が{Ask}のみで、{Do}{Set}{Setup}のものは存在しない。図3(b)には、横軸をタスクの種類、縦軸をドメインの種類として、単語が存在する組合せを○で示している。このように、言語モデル16は、ドメインとタスクとを指標としてマトリックス状に分類されている。なお、固有名詞辞書20も、言語モデル16と同様に、ドメインとタスクとを指標としてマトリックス状に分類されている。
次に、本実施形態の音声認識装置の作動(音声対話処理)について説明する。図4に示すように、まず、STEP1で、車両10の運転者から、対象を制御するための発話がマイク2に入力される。具体的には、運転者がトークスイッチをON操作して発話の入力開始を指令し、マイク2に音声を入力する。
次に、STEP2で、音声対話ユニット1は、言語モデル16、固有名詞辞書20のデータを選択的に有効にする。具体的には、音声対話ユニット1は、前回の発話の認識結果から、入力された発話のドメインの種類を決定する処理と、入力された発話のタスクの種類を決定する処理とを実行する。なお、最初の発話なので、ドメイン及びタスクの種類は決定されず、言語モデル16、固有名詞辞書20全体のデータが有効とされる。
次に、STEP3で、音声対話ユニット1は、入力された音声を認識してテキストとして出力する音声認識処理を実行する。
まず、音声対話ユニット1は、マイク2に入力された音声をA/D変換して音声を示す波形データを取得する。次に、音声対話ユニット1は、音声を示す波形データを周波数分析して特徴ベクトルを抽出する。これにより、音声を示す波形データは、例えば短時間スペクトル分析の手法によってフィルタ処理を施され、特徴ベクトルの時系列に変換される。この特徴ベクトルは、各時刻における音声スペクトルの特微量を抽出したもので、一般に10次元〜100次元(例えば39次元)であり、LPCメルケプストラム(Linear Predictive Coding(線形予測分析) Mel Cepstrum)係数等が用いられる。
次に、音声対話ユニット1は、抽出された特徴ベクトルに対し、音響モデル15に記録された複数のHMMのそれぞれについて、当該特徴ベクトルの尤度(音響スコア)を評価する。そして、音声対話ユニット1は、当該複数のHMMのうちの音響スコアの高いHMMに対応する発音データを決定する。これにより、例えば「千歳」という発話が入力された場合、その音声の波形データから、「ti-to-se」という発音データがその音響スコアと共に得られる。このとき、例えば「マークセット」という発話が入力された場合、「ma-a-ku-se-t-to」という発音データと共に、「ma-a-ku-ri-su-to」のような音響的に類似の度合が高い発音データがそれぞれ音響スコアと共に得られる。
次に、音声対話ユニット1は、決定された発音データから、単語列で表現されたテキストを当該テキストの言語スコアに基づいて決定する。このとき、複数の発音データが決定されている場合には、各発音データについて、それぞれテキストが決定される。
まず、音声対話ユニット1は、言語モデル16のうちのSTEP2で有効にされたデータを用いて、発音データからテキストを決定する。具体的には、まず、音声対話ユニット1は、決定された発音データと言語モデル16に記録された発音データとを比較して、類似の度合の高い単語を抽出する。次に、音声対話ユニット1は、抽出された単語の言語スコアを、発音データに含まれる単語数に応じたNグラムを用いて算出する。そして、音声対話ユニット1は、発音データにおける各単語について、算出した言語スコアが所定の条件(例えば所定値以上)を満たすテキストを決定する。例えば、図5に示すように、入力された発話が「Set the station ninety nine point three FM.」である場合に、この発話から決定された発音データに応じたテキストとして、「set the station ninety nine point three FM」が決定される。
このとき、ユ二グラムでは、「set」「the」…「FM」のそれぞれの出現確率a1〜a8が与えられる。また、バイグラムでは、「set the」「the station」…「three FM」のそれぞれの2単語の生起確率b1〜b7が与えられる。同様に、N=3〜8について、N単語の生起確率c1〜c6,d1〜d5,e1〜e4,f1〜f3,g1〜g2,h1が与えられる。そして、例えばテキスト「ninety」の言語スコアは、発音データに含まれる単語「ninety」と当該単語に先行する単語とを合わせた単語数4に応じて、N=1〜4のNグラムから得られるa4,b3,c2,d1に基づいて算出される。
このように、入力された発話を、単語毎の確率統計的な言語モデルを用いてテキストとして書き起こす手法(ディクテーション)を用いることで、予め決められた言い回しの発話に限定されない、運転者の自然な発話の認識が可能となる。
次に、音声対話ユニット1は、固有名詞辞書20のうちのSTEP2で有効にされたデータを用いて、発音データからテキストを決定する。具体的には、まず、音声対話ユニット1は、決定された発音データと、固有名詞辞書20に登録された固有名詞の発音データとの類似の度合を算出する。そして、登録された複数の固有名詞のうちの、類似の度合が所定の条件を満たす固有名詞を決定する。所定の条件は、例えば発音データが明らかに一致すると考えられる所定値以上等のように予め定められている。また、算出された類似の度合に基づいて、決定された固有名詞の尤度(言語スコア)を算出する。
このように、固有名詞辞書20を用いることにより、多様な言い回しがされ易い一般語に比べて、テキストコーパスにおける出現頻度が比較的低く、言い回しが限定されている固有名詞について、精度良くテキストを決定することができる。
次に、音声対話ユニット1は、言語モデル16と固有名詞辞書20とを用いて決定された全てのテキストについて、音響スコアと言語スコアとの重み付き和を、音声認識の確信度(音声認識スコア)として算出する。なお、重み係数としては、例えば実験的に予め定められた値が用いられる。
次に、音声対話ユニット1は、算出した音声認識スコアが所定の条件を満たす単語列で表現されるテキストを、認識されたテキストとして決定して出力する。所定の条件は、例えば、音声認識スコアが最も高いテキスト、音声認識スコアが上位から所定順位までのテキスト、或いは音声認識スコアが所定値以上のテキスト等のように予め定められている。
次に、STEP4で、音声対話ユニット1は、認識されたテキストから発話の意味を理解する構文解析処理を実行する。
まず、音声対話ユニット1は、構文モデル17を用いて、認識されたテキストから、クラス分類されたテキストを決定する。具体的には、まず、音声対話ユニット1は、構文モデル17全体のデータを用いて、認識されたテキストに含まれる単語について、それぞれ、1単語における各ドメインの尤度を算出する。次に、音声対話ユニット1は、当該尤度に基づいて1単語におけるドメインをそれぞれ決定する。次に、音声対話ユニット1は、構文モデル17のうち決定された種類のドメインに分類された部分のデータを用いて、1単語における各クラスの組(クラス分類されたテキスト)の尤度(単語スコア)を算出する。そして、音声対話ユニット1は、当該単語スコアに基づいて、1単語におけるクラス分類されたテキストを決定する。
同様に、音声対話ユニット1は、認識されたテキストに含まれる2単語列について、それぞれ、2単語における各ドメインの尤度を算出し、当該尤度に基づいて2単語におけるドメインを決定する。さらに、音声対話ユニット1は、2単語における各クラスの組の尤度(2単語スコア)を算出し、当該2単語スコアに基づいて2単語におけるクラスの組(クラス分類されたテキスト)を決定する。また、同様に、音声対話ユニット1は、認識されたテキストに含まれる3単語列について、それぞれ、3単語における各ドメインの尤度を算出し、当該尤度に基づいて3単語におけるドメインを決定する。さらに、音声対話ユニット1は、3単語における各クラスの組の尤度(3単語スコア)を算出し、当該3単語スコアに基づいて3単語におけるクラスの組(クラス分類されたテキスト)を決定する。
次に、音声対話ユニット1は、1単語、2単語、3単語で決定された各クラスの組と当該クラスの組のスコア(1単語スコア、2単語スコア、3単語スコア)とに基づいて、認識されたテキスト全体における各クラスの組の尤度(構文解析スコア)を算出する。そして、音声対話ユニット1は、当該構文解析スコアに基づいて、認識されたテキスト全体におけるクラスの組(クラス分類されたテキスト)を決定する。
ここで、図6に示す例を用いて、構文モデル17を用いてクラス分類されたテキストを決定する処理について説明する。図6の例では、認識されたテキストが「AC on floor to defrost」である。
このとき、構文モデル17全体を用いて、ユニグラムで、「AC」「on」…「defrost」について、それぞれ、1単語における各ドメインの尤度が算出される。そして、当該尤度に基づいて1単語におけるドメインが決定される。例えば、第1位の(尤度の最も高い)ドメインは、「AC」については{Climate}、「on」については{Ambiguous}、「defrost」については{Climate}と決定される。
さらに、構文モデル17のうちの決定されたドメインの種類に分類された部分のデータを用いて、ユニグラムで、「AC」「on」…「defrost」について、1単語における各クラスの組に対する尤度がそれぞれ算出される。そして、当該尤度に基づいて1単語におけるクラスの組が決定される。例えば、「AC」について、第1位の(尤度の最も高い)クラスの組は、{Climate_ACOnOff_On}と決定され、このクラスの組に対する尤度(単語スコア)i1が得られる。同様に、「on」…「defrost」について、クラスの組が決定され、このクラスの組に対する尤度(単語スコア)i2〜i5が得られる。
同様に、バイグラムで、「AC on」「on floor」…「to defrost」について、それぞれ、2単語における各ドメインの尤度が算出され、当該尤度に基づいて2単語におけるドメインが決定される。そして、2単語におけるクラスの組とその尤度(2単語スコア)j1〜j4が決定される。また、同様に、トライグラムで、「AC on floor」「on floor to」「floor to defrost」について、それぞれ、3単語における各ドメインの尤度が算出され、当該尤度に基づいて3単語におけるドメインが決定される。そして、3単語におけるクラスの組とその尤度(3単語スコア)k1〜k3が決定される。
次に、1単語、2単語、3単語で決定された各クラスの組について、例えば、各クラスの組の単語スコアi1〜i5、2単語スコアj1〜j4、3単語スコアk1〜k3の和が、テキスト全体における各クラスの組に対する尤度(構文解析スコア)として算出される。例えば、{Climate_Fan-Vent_Floor}に対する構文解析スコアは、i3+j2+j3+k1+k2となる。また、例えば、{Climate_ACOnOff_On}に対する構文解析スコアは、i1+j1となる。また、例えば、{Climate_Defrost_Front}に対する構文解析スコアは、i5+j4となる。そして、算出された構文解析スコアに基づいて、テキスト全体についてのクラスの組(クラス分類されたテキスト)が決定される。これにより、認識されたテキストから、{Climate_Defrost_Front}{Climate_Fan-Vent_Floor}{Climate_ACOnOff_On}といったクラス分類されたテキストが決定される。
次に、音声対話ユニット1は、固有名詞辞書21を用いて、認識されたテキストからクラス分類されたテキストを決定する。具体的には、音声対話ユニット1は、認識されたテキスト内の各単語について、その単語のテキストと、固有名詞辞書21に登録された各固有名詞のテキストとの類似の度合を算出する。そして、音声対話ユニット1は、登録された複数の固有名詞のうちの、類似の度合が所定の条件を満たす固有名詞がテキストに含まれた単語であると決定する。所定の条件は、例えばテキストが明らかに一致すると考えられる所定値以上等のように予め定められている。そして、音声対話ユニット1は、この固有名詞に付けられたタグの内容に基づいて、クラス分類されたテキストを決定する。また、音声対話ユニット1は、算出された類似の度合に基づいて、決定されたクラス分類されたテキストの尤度(構文解析スコア)を算出する。
次に、音声対話ユニット1は、算出された構文解析スコアが所定の条件を満たすようなクラス分類されたテキスト(Categorized Text)を、入力された発話の認識結果として決定して、その認識結果の確信度(構文解析スコア)と共に出力する。所定の条件は、例えば、構文解析スコアが最も高いテキスト、構文解析スコアが上位から所定順位までのテキスト、或いは構文解析スコアが所定値以上のテキスト等のように予め定められている。例えば、上述のように「AC on floor to defrost」という発話が入力された場合に、認識結果として、{Climate_Defrost_Front}が、その構文解析スコアと共に出力される。
次に、STEP5で、音声対話ユニット1は、車両状態検出部3により検出される、車両10の状態(車両10の走行状態、車両10に搭載された機器の状態、車両10の運転者の状態等)の検出値を取得する。
次に、STEP6で、音声対話ユニット1は、STEP4で出力された発話の認識結果と、STEP5で検出された車両10の状態とに基づいて、シナリオデータベース18を用いて、運転者への応答や機器の制御を行うためのシナリオを決定する。
まず、音声対話ユニット1は、発話の認識結果と車両10の状態から、対象を制御するための情報を取得する。図8に示すように、音声対話ユニット1には、対象を制御するための情報を格納する複数のフォームが備えられている。各フォームには、必要な情報のクラスに対応した所定数のスロットが設けられている。例えば、ナビゲーションシステム6bを制御するための情報を格納するフォームとして、「Plot a route」「Traffic info.」等が備えられ、エアコンディショナ6cを制御するための情報を格納するフォームとして「Climate control」等が備えられている。また、フォーム「Plot a route」には、4つのスロット「From」「To」「Request」「via」が設けられている。
音声対話ユニット1は、運転者との対話における各回の発話の認識結果と、車両10の状態とから、該当するフォームのスロットに値を入力していく。これと共に、各フォームについての確信度(フォームに入力された値の信頼の度合)を算出してフォームに記録する。フォームの確信度は、例えば、各回の発話の認識結果の確信度と、各フォームのスロットの埋まり具合とに基づいて算出される。例えば、図9に示すように、「千歳空港まで最短ルートで案内して」という発話が運転者から入力された場合には、フォーム「Plot a route」の3つのスロット「From」「To」「Request」に値「ここ」「千歳空港」「最短」が入力される。また、フォーム「Plot a route」の「Score」に、算出されたフォームの確信度80が記録される。
次に、音声対話ユニット1は、フォームの確信度と、STEP5で検出された車両10の状態とに基づいて、実際の制御処理に用いるフォームを選択する。そして、選択されたフォームに基づいて、シナリオデータベース18に格納されたデータを用いて、シナリオを決定する。図9に示すように、シナリオデータベース18には、例えば運転者へ出力する応答文等が、スロットの埋まり具合やレベル毎に分類されて格納されている。なお、レベルは、例えばフォームの確信度や車両10の状態(車両10の走行状態、運転者の状態等)等に基づいて設定される値である。
例えば、選択されたフォーム内に空きスロット(値が入力されていないスロット)がある場合には、運転者へフォーム内の空きスロットの入力を促すような応答文を出力するシナリオが決定される。このとき、レベルに応じて、すなわちフォームの確信度や車両10の状態を考慮して、運転者の次回の発話を促す適切な応答文が決定される。例えば、運転者の運転負荷に応じて、運転負荷が高いと考えられる状態では、入力を促すスロットの数が少なめに設定された応答文がが決定される。そして、このように決定された応答文の出力により使用者の次の発話を促すことで、効率の良い対話が行われる。
図9に示す例では、フォーム「Plot a route」の第1〜第3のスロット「From」「To」「Request」には値が入力され、第4のスロット「via」には値が入力されていない。また、レベル=2に設定されている。このとき、シナリオデータベース18から応答文「<To>を<Request>設定します」が選択され、「千歳空港を高速優先設定します」という応答文の内容が決定される。
また、例えば、選択されたフォーム内の全てのスロットが全て埋まっている(値が入力されている)場合には、内容を確認するような応答文(例えば各スロットの入力値を運転者に報知する応答文)を出力するシナリオが決定される。
次に、STEP7で、音声対話ユニット1は、決定したシナリオに基づいて、運転者との対話が終了したか否かを判断する。STEP7の判断結果がNOの場合には、STEP8に進み、音声対話ユニット1は、決定された応答文の内容や応答文を出力する際の条件に応じて音声を合成する。そして、STEP8で、生成された応答文が、スピーカ4から出力される。
次に、STEP1に戻り、2回目の発話が運転者から入力される。次に、STEP2で、音声対話ユニット1は、1回目の発話の認識結果から、ドメインの種類を決定する処理と、タスクの種類を決定する処理とを実行する。そして、音声対話ユニット1は、ドメインの種類が決定された場合には、決定されたドメインの種類のデータを有効とする。また、タスクの種類が決定された場合には、音声対話ユニット1は、決定されたタスクの種類のデータを有効とする。
ここで、図7を参照して、言語モデル16を選択的に有効にする処理について示す。図7の例では、言語モデル16は、図3に示したように分類されている。
例えば、図7(a)に示すように、1回目の発話で運転者から「ナビ操作」という発話が入力されると、この発話の認識結果は{Navigation}となる。よって、STEP2で、1回目の発話の認識結果から、ドメインの種類が{Navigation}と決定される。これにより、図7(a)の表でハッチングを付して示したように、言語モデル16のうちの{Navigation}に分類された部分のデータのみが有効とされる。よって、何を制御するかが特定されれば、ドメインの種類という指標で認識対象を限定することができる。
また、例えば、図7(b)に示すように、1回目の発話で運転者から「セットする」という発話が入力されると、この発話の認識結果は{Ambiguous_Set}となる。よって、STEP2で、1回目の発話の認識結果から、「何を」制御するかは不明なので、ドメインの種類は決定されない。一方、この発話に基づいて、タスクの種類が{Set}と決定される。これにより、図6(b)の表でハッチングを付して示したように、言語モデル16のうちの{Set}に分類された部分のデータのみが有効とされる。よって、何を制御するかが特定されていなくても、少なくともどのように制御するかが特定されれば、タスクの種類という指標で認識対象を限定することができる。
さらに、例えば、図7(c)に示すように、1回目の発話で運転者から「ナビのセットする」という発話が入力されると、この発話の認識結果は{Navigation_Set}となる。よって、STEP2で、1回目の発話の認識結果から、ドメインの種類が{Navigation}と決定されると共に、タスクの種類が{Set}と決定される。これにより、図7(c)で示したように、言語モデル16のうちの{Navigation}{Set}の両方に分類された部分のデータのみが有効とされる。よって、ドメインの種類とタスクの種類との両方が決定された場合には、認識対象をより効率良く限定することができる。
次に、STEP3で、音声対話ユニット1は、1回目の発話と同様に、音声認識処理を実行する。ただし、音声対話ユニット1は、言語モデル16のうちのSTEP2で有効とされた部分のデータのみを用いて、運転者からの2回目の発話の音声認識処理を実行する。これにより、認識対象を効率良く限定して音声認識処理を行うことが可能なので、テキストの認識精度を向上することができる。
次に、STEP4で、音声対話ユニット1は、1回目の発話と同様に、認識されたテキストから、構文解析処理を実行する。このとき、STEP3で認識されたテキストの精度が向上しているので、STEP4で出力される発話の認識結果の精度が向上する。
次に、STEP5で、1回目の発話と同様に、音声対話ユニット1は、車両10の状態を検出し、STEP6で、2回目の発話の認識結果と車両10の状態とに基づいて、シナリオを決定する。
次に、STEP7で、音声対話ユニット1は、運転者との対話が終了したか否かを判断する。STEP7の判断結果がNOの場合には、STEP8に進み、音声対話ユニット1は、決定された応答文の内容や出力する際の条件に応じて音声を合成する。そして、STEP9で、生成された応答文が、スピーカ4から出力される。
以下、STEP7の判断結果がYESとなるまで、上述の2回目の発話に対するSTEP1〜6,8,9と同様の処理が繰り返される。
STEP7の判断結果がYESの場合には、STEP10に進み、音声対話ユニット1は、決定された応答文の音声を合成する。次に、STEP11で、応答文がスピーカ4から出力される。次に、STEP12で、音声対話ユニット1は、決定されたシナリオに基づいて機器を制御して、音声対話処理を終了する。
以上の処理によって、言語モデル16、固有名詞辞書20が効率良く選択されて発話の認識精度が向上するので、効率の良い対話を介して機器の制御が行われる。
[対話例]
次に、上述した音声対話処理について、図8(a)(b)に示した対話例を用いて説明する。図8(a)(b)の対話例は、いずれも運転者がラジオの選局を変更する対話例である。図8(a)は、上述の音声対話処理による対話例を示し、図8(b)は、参考例として、上述の音声対話処理において、STEP2でタスクの種類を決定して言語モデル16を選択する処理を行わない場合における対話例を示している。
まず、参考例として、図8(b)の対話例について説明する。図8(b)に示すように、まず、STEP1で、運転者から「設定変更」という最初の発話が入力される。次に、STEP2で、最初の発話であるので、言語モデル16全体のデータが有効とされる。
次に、STEP3で、まず、入力された音声「設定変更」の特徴ベクトルから、発音データ「se-t-te-i」「he-n-ko-u」が音響スコアと共に決定される。次に、言語モデル16全体に記録されたデータを用いて、発音データ「se-t-te-i」「he-n-ko-u」から、単語「設定」「変更」がその言語スコアに基づいて決定される。このとき、「設定」の言語スコアは、文頭であるので、「設定」という単語の出現確率に基づいて算出される。また、「変更」の言語スコアは、「変更」という単語の出現確率と、「設定 変更」という2単語列の生起確率とに基づいて算出される。
次に、発音データ「se-t-te-i」「he-n-ko-u」と、固有名詞辞書20全体に登録された固有名詞の発音データとの類似の度合が算出される。この場合、登録された固有名詞のうちに類似の度合が所定値以上となるような固有名詞はなく、単語は決定されない。
次に、決定された各単語について、音響スコアと言語スコアとから音声認識スコアが算出される。そして、この音声認識スコアに基づいて、入力された発話から認識されたテキスト「設定 変更」が決定される。
次に、STEP4で、構文モデル17を用いて、認識されたテキスト(「設定 変更」)から、クラス分類されたテキスト{Ambiguous_Setup}が、その構文解析スコアに基づいて決定される。次に、認識されたテキスト「設定 変更」の各単語と、固有名詞辞書21全体に登録された固有名詞のテキストとの類似の度合が算出される。この場合、登録された固有名詞のうちに類似の度合が所定値以上となるような固有名詞はなく、クラス分類されたテキストは決定されない。これにより、クラス分類されたテキスト{Ambiguous_Setup}が認識結果として構文解析スコアと共に出力される。
次に、STEP5で、車両10の状態が検出され、STEP6で、シナリオが決定される。このとき、「何を」制御するかという情報が取得されていないので、制御対象の入力を運転者に促すような応答を出力するシナリオが決定される。具体的には、応答として「いかがしましょうか?」という応答文を運転者に出力するシナリオが決定される。次に、STEP7で、対話が終了していないと判断されてSTEP8に進み、決定された応答文の音声が合成され、STEP9で、スピーカ4から応答文が出力される。
STEP1に戻り、運転者から「選局をかえて」という2回目の発話が入力される。次に、STEP2で、1回目の発話の認識結果{Ambiguous_Setup}から、ドメインの種類を決定する処理が実行され、ドメインの種類が{Ambiguous}であると決定される。そして、ドメインの種類が不明であるので、言語モデル16全体のデータが有効とされる。このとき、タスクの種類による言語モデル16の選択は行われない。
次に、STEP3で、まず、入力された音声「選局をかえて」の特徴ベクトルから、発音データ(「se-n-kyo-ku」「wo」「ka-e-te」)が音響スコアと共に決定される。次に、言語モデル16全体のデータを用いて、発音データ(「se-n-kyo-ku」「wo」「ka-e-te」)から認識されたテキストを決定する処理が行われる。
このとき、言語モデル16には、表1に示すように、発音データが「se-n-kyo-ku」である単語「選局」「選曲」「千曲」が記録されているものとする。すなわち、言語モデル16の{Audio}ドメインのデータには、「se-n-kyo-ku」という発音データに対して、単語「選局」「選曲」「千曲」が存在し、それぞれの出現確率が記録されている。また、言語モデル16の{Navigation}{Climate}{Ambiguous}ドメインのデータには、「se-n-kyo-ku」という発音データに対する単語は存在しない。また、「選局」は{Audio}ドメインの下位ドメインである{Radio}のみに存在し、「選曲」「千曲」は{Audio}ドメインの下位ドメインである{CD}のみに存在する。
一方、言語モデル16の{Setup}タスクのデータには、「se-n-kyo-ku」という発音データに対して単語「選局」のみが存在し、その出現確率が記録されている。また、言語モデル16の{Set}ドメインのデータには、「se-n-kyo-ku」という発音データに対して単語「選曲」「千曲」が存在し、それぞれの出現確率が記録されている。
Figure 2008064885
このため、STEP3で、「se-n-kyo-ku」という発音データから、単語「選局」と共に、その同音異義語である単語「選曲」「千曲」も決定される。従って、認識されたテキスト(「選局 を かえて」)(「選曲 を かえて」)(「千曲 を かえて」)が決定される。
次に、STEP4で、認識されたテキスト(「選局 を かえて」)(「選曲 を かえて」)(「千曲 を かえて」)から、同等の構文解析スコアを有するクラス分類されたテキスト{Audio_Setup_Radio_Station}{Audio_Set_CD}が認識結果として決定される。すなわち、STEP3で単語「選局」が決定されているので、クラス{Radio}{Station}が尤度の高いクラスとして決定される。また、STEP3で単語「選曲」「千曲」が決定されているので、クラス{CD}が尤度の高いクラスとして決定される。
次に、STEP5で車両10の状態が検出され、STEP6で発話の認識結果と車両状態とに基づいてシナリオが決定される。このとき、オーディオ6aのラジオを制御するための情報を格納するフォームのスロットと、CDを制御するための情報を格納するフォームのスロットとに、それぞれ値が入力される。そして、{Audio_Setup_Radio_Station}{Audio_Set_CD}は同等の構文解析スコアを有するため、フォームの確信度が同等となり、いずれを運転者が意図したかが決定されない。よって、運転者の意図を確認するための「ラジオでしょうか?」という応答文を出力するシナリオが決定される。
次に、STEP1に戻り、運転者から「そお」という3回目の発話が入力される。次に、STEP2で、2回目の発話の認識結果{Audio_Setup_Radio_Station}からドメインの種類{Audio}が決定され、言語モデル16の{Audio}に分類された部分のデータが有効にされる。次に、STEP3で、入力された発話の音声から発音データ「so-o」が決定され、認識されたテキスト「そお」が決定される。次に、STEP4で、認識されたテキスト「そお」から、クラス分類されたテキスト{Ambiguous_Yes}が決定される。
次に、STEP5で車両10の状態が検出され、STEP6で発話の認識結果と車両状態とに基づいてシナリオが決定される。このとき、認識結果が{Ambiguous_Yes}であることから、オーディオ6aのラジオを制御するための情報を格納するフォームが選択される。そして、必要な情報が全て入力されているので、入力値を確認するような応答文を出力すると共に、オーディオ6aのラジオを制御するシナリオが決定される。具体的には、応答として「受信できるFM局を探します」という応答文を運転者に出力して、オーディオ6aのラジオの受信周波数を変更するシナリオが決定される。そして、STEP7で対話終了と判断され、STEP10に進み、決定された応答文の音声が合成され、STEP11でスピーカ4から出力され、STEP12でオーディオ6aのラジオの受信周波数が変更される。そして、各フォームのスロットが初期化され音声対話処理が終了される。
これに対して、図10(a)の対話例では、運転者からの最初の発話「設定変更」とシステムからの応答「いかがしましょうか?」と、運転者からの2回目の発話「選局をかえて」は、図10(b)の対話例と同じである。しかし、STEP2で、1回目の発話の認識結果{Ambiguous_Setup}から、ドメインの種類とタスクの種類を決定する処理が実行され、ドメインの種類が{Ambiguous}、タスクの種類が{Setup}であると決定される。そして、言語モデル16のうちのタスクの種類が{Setup}に分類された部分のデータが有効とされる。
次に、STEP3で、まず、入力された音声「選局をかえて」の特徴ベクトルから、発音データ(「se-n-kyo-ku」「wo」「ka-e-te」)が音響スコアと共に決定される。次に、言語モデル16の{Setup}に分類された部分のデータを用いて、発音データ(「se-n-kyo-ku」「wo」「ka-e-te」)からテキストを決定する処理が行われる。
このとき、STEP2で言語モデル16のタスクの種類が{Setup}に分類された部分のデータのみが有効とされているので、STEP3で、「se-n-kyo-ku」という発音データに対して、単語「選局」のみが決定され、単語「選曲」「千曲」が決定される可能性はない。これにより、認識されたテキスト(「選局 を かえて」)のみが決定される。
次に、STEP4で、認識されたテキスト(「選局 を かえて」)から、クラス分類されたテキスト{Audio_Setup_Radio_Station}が認識結果として決定される。このように、STEP3で単語「選局」のみが決定されているので、認識結果として{Audio_Setup_Radio_Station}のみが決定される。
次に、STEP5で車両10の状態が検出され、STEP6で発話の認識結果と車両状態とに基づいてシナリオが決定される。このとき、オーディオ6aのラジオを制御するための情報を格納するフォームのスロットに値が入力される。そして、必要な情報が全て入力されているので、入力値を確認するような応答文を出力すると共に、オーディオ6aのラジオを制御するシナリオが決定される。具体的には、応答として「受信できるFM局を探します」という応答文を運転者に出力して、オーディオ6aのラジオの受信周波数を変更する処理を実行するシナリオが決定される。
次に、STEP7で対話終了と判断され、STEP10に進み、決定された応答文の音声が合成され、STEP11でスピーカ4から出力され、STEP12でオーディオ6aのラジオの受信周波数が変更される。そして、フォームのスロットが初期化され音声対話処理が終了される。
このように、図10(a)の対話例では、言語モデル16が効率良く選択されて、発話の認識精度が向上している。これにより、図10(b)の参考例のように運転者の意図を確認するための応答が不要となり、効率の良い対話を介して機器の制御が行われる。
なお、本実施形態においては、ドメイン種類決定手段22とタスク種類決定手段23とは、それぞれ、発話の認識結果からドメインの種類、タスクの種類を決定するものとしたが、図1で点線で示した決定入力部24(タッチパネル、キーボード、或いはボタンやダイヤル等を備えた入力インタフェース等)により入力された情報を用いてタスクの種類、ドメインの種類を決定するものとしてもよい。なお、タッチパネルは、ディスプレイにタッチスイッチが組み込まれたものでもよい。
この場合、上述の音声対話処理のSTEP2で、運転者からの最初の発話でも、タッチパネル等から入力された情報を用いてドメインの種類、タスクの種類を決定して、言語モデル16、固有名詞辞書20を選択的に有効にすることが可能となる。そして、この有効な部分のデータを用いてSTEP3で音声認識処理を行うことにより、最初の発話についても、テキストの認識精度が向上され、STEP4の構文認識処理で出力される認識結果の精度が向上するので、より効率の良い対話を介して機器の制御が行われる。
また、本実施形態においては、車両状態検出部3を備え、シナリオ制御部13は、認識結果と検出した車両状態とに応じてシナリオを決定するものとしたが、車両状態検出部3を備えず、シナリオ制御部13は認識結果のみからシナリオを決定するものとしてもよい。
また、本実施形態においては、音声入力する使用者は、車両10の運転者としたが、運転者以外の乗員としてもよい。
また、本実施形態においては、音声認識装置は、車両10に搭載されるものとしたが、車両以外の移動体に搭載されるものとしてもよい。さらに、移動体に限らず、使用者が発話により対象を制御するシステムに適用可能である。
本発明の実施形態である音声認識装置の機能ブロック図。 図1の音声認識装置の言語モデル、構文モデル、固有名詞辞書の構成を示す説明図。 図1の音声認識装置の言語モデルの構成を示す説明図。 図1の音声認識装置の全体的な作動(音声対話処理)を示すフローチャート。 図4の音声対話処理における言語モデルを用いた音声認識処理を示す説明図。 図4の音声対話処理における構文モデルを用いた構文解析処理を示す説明図。 図4の音声対話処理におけるシナリオを決定する処理に用いるフォームを示す説明図。 図4の音声対話処理におけるシナリオを決定する処理を示す説明図。 図4の音声対話処理における言語モデル選択処理を示す説明図。 図4の音声対話処理における対話例。
符号の説明
1…音声対話ユニット、2…マイク、3…車両状態検出部、4…スピーカ、5…ディスプレイ、6a〜6c…機器、10…車両、11…音声認識部、12…構文解析部、13…シナリオ制御部、14…音声合成部、15…音響モデル、16…言語モデル、17…構文モデル、18…シナリオデータベース、19…音素モデル、20,21…固有名詞辞書、22…ドメイン種類決定手段、23…タスク種類決定手段、24…決定入力部。

Claims (10)

  1. 入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識装置において、
    前記制御内容を表すタスクの種類を所定の決定入力に基づいて決定するタスク種類決定手段と、
    前記タスク種類決定手段により決定された種類のタスクを認識対象として、入力された音声を認識する音声認識手段とを備えることを特徴とする音声認識装置。
  2. 請求項1記載の音声認識装置において、
    前記所定の決定入力は、逐次入力される音声について前記音声認識手段での前回の認識結果に含まれるタスクを示すデータであることを特徴とする音声認識装置。
  3. 請求項1又は2記載の音声認識装置において、
    前記制御対象を表すドメインの種類を所定の決定入力に基づいて決定するドメイン種類決定手段を備え、
    前記音声認識手段は、前記タスク種類決定手段により決定された種類のタスクに加えて、前記ドメイン種類決定手段により決定された種類のドメインを認識対象として、入力された音声を認識することを特徴とする音声認識装置。
  4. 請求項1又は2記載の音声認識装置において、
    前記音声認識手段により入力された音声を認識する際に用いる、少なくとも前記タスクの種類毎に分類された音声認識用データを備え、
    前記音声認識手段は、前記音声認識用データのうち、少なくとも前記タスク種類決定手段により決定された種類のタスクに分類されたデータに基づいて、入力された音声を認識することを特徴とする音声認識装置。
  5. 請求項3記載の音声認識装置において、
    前記音声認識手段により入力された音声を認識する際に用いる、前記タスク及びドメインの種類毎に分類された音声認識用データを備え、
    前記音声認識手段は、前記音声認識用データのうちの、前記タスク決定手段により決定された種類のタスクで、且つ前記ドメイン決定手段により決定された種類のドメインに分類されたデータに基づいて、入力された音声を認識することを特徴とする音声認識装置。
  6. 請求項4又は5記載の音声認識装置において、
    前記音声認識用データは、少なくとも認識対象である単語についての確率をデータとして有する言語モデルを含むことを特徴とする音声認識装置。
  7. 請求項1〜6のいずれか記載の音声認識装置において、
    少なくとも前記音声認識手段の認識結果に基づいて制御対象の制御内容を決定し、所定の制御処理を実行する制御手段を備えることを特徴とする音声認識装置。
  8. 請求項7記載の音声認識装置において、
    前記音声を入力する使用者への応答を出力する応答出力手段を備え、前記制御手段の実行する制御処理は、音声の入力を該使用者に促すように該使用者への応答を制御する処理を含むことを特徴とする音声認識装置。
  9. 入力された音声についての認識結果に基づいて制御対象の制御内容を決定する音声認識方法であって、
    前記制御内容を表すタスクの種類を所定の決定入力に基づいて決定するタスク種類決定ステップと、
    前記タスク種類決定ステップで決定された種類のタスクを認識対象として、入力された音声を認識する音声認識ステップとを備えたことを特徴とする音声認識方法。
  10. 入力された音声についての認識結果に基づいて制御対象の制御内容を決定する処理をコンピュータに実行させる音声認識プログラムであって、
    前記制御内容であるタスクの種類を所定の決定入力に基づいて決定するタスク種類決定処理と、
    前記タスク種類決定処理で決定された種類のタスクを認識対象として、入力された音声を認識する音声認識処理とを前記コンピュータに実行させる機能を有することを特徴とする音声認識プログラム。
JP2006240639A 2006-09-05 2006-09-05 音声認識装置、音声認識方法、及び音声認識プログラム Pending JP2008064885A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006240639A JP2008064885A (ja) 2006-09-05 2006-09-05 音声認識装置、音声認識方法、及び音声認識プログラム
US11/896,527 US20080177541A1 (en) 2006-09-05 2007-09-04 Voice recognition device, voice recognition method, and voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006240639A JP2008064885A (ja) 2006-09-05 2006-09-05 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2008064885A true JP2008064885A (ja) 2008-03-21

Family

ID=39287676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006240639A Pending JP2008064885A (ja) 2006-09-05 2006-09-05 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (2)

Country Link
US (1) US20080177541A1 (ja)
JP (1) JP2008064885A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191194A (ja) * 2009-02-18 2010-09-02 Toyota Motor Corp 音声認識装置
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP2015081971A (ja) * 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US9618352B2 (en) 2014-03-27 2017-04-11 Electronics And Telecommunications Research Institute Apparatus and method for controlling navigator via speech dialogue
JP2017161644A (ja) * 2016-03-08 2017-09-14 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
US9886947B2 (en) 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
JP2018116728A (ja) * 2010-01-18 2018-07-26 アップル インコーポレイテッド インテリジェント自動アシスタント
JP2018169624A (ja) * 2013-09-03 2018-11-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話制御方法
CN109389974A (zh) * 2017-08-09 2019-02-26 阿里巴巴集团控股有限公司 一种语音操作的方法及装置
JP2019070957A (ja) * 2017-10-10 2019-05-09 株式会社トヨタIt開発センター 対話システムおよびドメイン決定方法
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
JP2021184290A (ja) * 2018-04-02 2021-12-02 サウンドハウンド,インコーポレイテッド 異なるドメインにおいて潜在的に曖昧な意味を有する表現の解釈
WO2022269760A1 (ja) * 2021-06-22 2022-12-29 ファナック株式会社 音声認識装置
JP2023051952A (ja) * 2018-10-02 2023-04-11 シャープ株式会社 音声操作システム及び音声操作方法

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8965145B2 (en) 2006-07-31 2015-02-24 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8838591B2 (en) * 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9848447B2 (en) * 2007-06-27 2017-12-19 Ford Global Technologies, Llc Method and system for emergency notification
WO2009081861A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
EP2211336B1 (en) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Improved speech input using navigation information
US8903351B2 (en) * 2009-03-06 2014-12-02 Ford Motor Company Method and system for emergency call handling
US9002713B2 (en) * 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
US20110098016A1 (en) * 2009-10-28 2011-04-28 Ford Motor Company Method and system for emergency call placement
US8903354B2 (en) * 2010-02-15 2014-12-02 Ford Global Technologies, Llc Method and system for emergency call arbitration
US20110230159A1 (en) * 2010-03-19 2011-09-22 Ford Global Technologies, Llc System and Method for Automatic Storage and Retrieval of Emergency Information
US9146122B2 (en) * 2010-09-24 2015-09-29 Telenav Inc. Navigation system with audio monitoring mechanism and method of operation thereof
DE102010049869B4 (de) 2010-10-28 2023-03-16 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu
US20120190324A1 (en) 2011-01-25 2012-07-26 Ford Global Technologies, Llc Automatic Emergency Call Language Provisioning
US8818325B2 (en) 2011-02-28 2014-08-26 Ford Global Technologies, Llc Method and system for emergency call placement
JP5709980B2 (ja) * 2011-04-08 2015-04-30 三菱電機株式会社 音声認識装置およびナビゲーション装置
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
WO2013022135A1 (en) * 2011-08-11 2013-02-14 Lg Electronics Inc. Electronic device and method of controlling the same
US9576573B2 (en) * 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
US8594616B2 (en) 2012-03-08 2013-11-26 Ford Global Technologies, Llc Vehicle key fob with emergency assistant service
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
US8996377B2 (en) 2012-07-12 2015-03-31 Microsoft Technology Licensing, Llc Blending recorded speech with text-to-speech output for specific domains
US9049584B2 (en) 2013-01-24 2015-06-02 Ford Global Technologies, Llc Method and system for transmitting data using automated voice when data transmission fails during an emergency call
US9747898B2 (en) * 2013-03-15 2017-08-29 Honda Motor Co., Ltd. Interpretation of ambiguous vehicle instructions
JP2015089697A (ja) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
US9773499B2 (en) * 2014-06-18 2017-09-26 Google Inc. Entity name recognition based on entity type
KR102301880B1 (ko) * 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
US10572810B2 (en) * 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
US10249297B2 (en) 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US9978367B2 (en) * 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9972312B2 (en) * 2016-08-19 2018-05-15 Panasonic Avionics Corporation Digital assistant and associated methods for a transportation vehicle
US10446137B2 (en) 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10546578B2 (en) * 2016-12-26 2020-01-28 Samsung Electronics Co., Ltd. Method and device for transmitting and receiving audio data
KR102458343B1 (ko) * 2016-12-26 2022-10-25 삼성전자주식회사 음성 데이터를 송수신하는 디바이스 및 방법
CN109920429A (zh) * 2017-12-13 2019-06-21 上海擎感智能科技有限公司 一种用于车载的语音识别数据处理方法及系统
KR102479035B1 (ko) * 2018-03-22 2022-12-20 한국전자통신연구원 청각장애인용 언어학습 시스템 및 방법
JP7176228B2 (ja) * 2018-05-21 2022-11-22 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
KR20200072020A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 음성인식시스템의 대화 안내 방법
KR20200072021A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 음성인식시스템의 도메인 관리 방법
CN110990632B (zh) * 2019-12-19 2023-05-02 腾讯科技(深圳)有限公司 一种视频处理方法及装置
US11977841B2 (en) * 2021-12-22 2024-05-07 Bank Of America Corporation Classification of documents
CN115294964B (zh) * 2022-09-26 2023-02-10 广州小鹏汽车科技有限公司 语音识别方法、服务器、语音识别系统和可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置
JP2003223188A (ja) * 2002-01-29 2003-08-08 Toshiba Corp 音声入力システム、音声入力方法及び音声入力プログラム
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2004252121A (ja) * 2003-02-20 2004-09-09 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2004333870A (ja) * 2003-05-08 2004-11-25 Nissan Motor Co Ltd 移動体用音声認識装置
WO2005062296A1 (ja) * 2003-12-05 2005-07-07 Kabushikikaisha Kenwood 機器制御装置及び機器制御方法
WO2005064592A1 (ja) * 2003-12-26 2005-07-14 Kabushikikaisha Kenwood 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5168353A (en) * 1990-12-21 1992-12-01 Gte Laboratories Incorporated Video distribution system allowing viewer access to time staggered indentical prerecorded programs
JPH0781498A (ja) * 1993-09-20 1995-03-28 Mitsubishi Electric Corp 車両用走行制御装置
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US20020110246A1 (en) * 2001-02-14 2002-08-15 Jason Gosior Wireless audio system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置
JP2003223188A (ja) * 2002-01-29 2003-08-08 Toshiba Corp 音声入力システム、音声入力方法及び音声入力プログラム
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2004252121A (ja) * 2003-02-20 2004-09-09 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2004333870A (ja) * 2003-05-08 2004-11-25 Nissan Motor Co Ltd 移動体用音声認識装置
WO2005062296A1 (ja) * 2003-12-05 2005-07-07 Kabushikikaisha Kenwood 機器制御装置及び機器制御方法
WO2005064592A1 (ja) * 2003-12-26 2005-07-14 Kabushikikaisha Kenwood 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191194A (ja) * 2009-02-18 2010-09-02 Toyota Motor Corp 音声認識装置
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
US12087308B2 (en) 2010-01-18 2024-09-10 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
JP2018116728A (ja) * 2010-01-18 2018-07-26 アップル インコーポレイテッド インテリジェント自動アシスタント
US9886947B2 (en) 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
JP2018169624A (ja) * 2013-09-03 2018-11-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話制御方法
JP2015081971A (ja) * 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
KR101770187B1 (ko) * 2014-03-27 2017-09-06 한국전자통신연구원 음성 대화를 통한 네비게이션 제어 장치 및 방법
US9618352B2 (en) 2014-03-27 2017-04-11 Electronics And Telecommunications Research Institute Apparatus and method for controlling navigator via speech dialogue
JP2017161644A (ja) * 2016-03-08 2017-09-14 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
CN109389974A (zh) * 2017-08-09 2019-02-26 阿里巴巴集团控股有限公司 一种语音操作的方法及装置
JP2019070957A (ja) * 2017-10-10 2019-05-09 株式会社トヨタIt開発センター 対話システムおよびドメイン決定方法
JP7095254B2 (ja) 2017-10-10 2022-07-05 トヨタ自動車株式会社 対話システムおよびドメイン決定方法
JP2021184290A (ja) * 2018-04-02 2021-12-02 サウンドハウンド,インコーポレイテッド 異なるドメインにおいて潜在的に曖昧な意味を有する表現の解釈
JP2023051952A (ja) * 2018-10-02 2023-04-11 シャープ株式会社 音声操作システム及び音声操作方法
WO2022269760A1 (ja) * 2021-06-22 2022-12-29 ファナック株式会社 音声認識装置

Also Published As

Publication number Publication date
US20080177541A1 (en) 2008-07-24

Similar Documents

Publication Publication Date Title
JP4188989B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4412504B2 (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
JP2008064885A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4666648B2 (ja) 音声応答システム、音声応答プログラム
US11170776B1 (en) Speech-processing system
JP2008233678A (ja) 音声対話装置、音声対話方法、及び音声対話用プログラム
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US8340958B2 (en) Text and speech recognition system using navigation information
US8380505B2 (en) System for recognizing speech for searching a database
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
Zweig et al. SCARF: a segmental conditional random field toolkit for speech recognition.
US11715472B2 (en) Speech-processing system
JP2008089625A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20240071385A1 (en) Speech-processing system
JP2008076811A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN111712790B (zh) 计算设备的语音控制
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP2008076812A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction
JP2005070330A (ja) 音声認識装置及びプログラム
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP2001242887A (ja) 音声認識装置および音声認識ナビゲーション装置
JP2006184421A (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101102