JP2006215317A - 音声認識システム、音声認識装置及び音声認識プログラム - Google Patents

音声認識システム、音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP2006215317A
JP2006215317A JP2005028715A JP2005028715A JP2006215317A JP 2006215317 A JP2006215317 A JP 2006215317A JP 2005028715 A JP2005028715 A JP 2005028715A JP 2005028715 A JP2005028715 A JP 2005028715A JP 2006215317 A JP2006215317 A JP 2006215317A
Authority
JP
Japan
Prior art keywords
recognition
voice
data
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005028715A
Other languages
English (en)
Other versions
JP4639094B2 (ja
Inventor
Toshihiro Kujirai
俊宏 鯨井
Takahisa Tomota
孝久 友田
Minoru Togashi
実 冨樫
Takeshi Ono
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Nissan Motor Co Ltd
Faurecia Clarion Electronics Co Ltd
Original Assignee
Hitachi Ltd
Xanavi Informatics Corp
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Xanavi Informatics Corp, Nissan Motor Co Ltd filed Critical Hitachi Ltd
Priority to JP2005028715A priority Critical patent/JP4639094B2/ja
Publication of JP2006215317A publication Critical patent/JP2006215317A/ja
Application granted granted Critical
Publication of JP4639094B2 publication Critical patent/JP4639094B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】
音声認識技術を用いて、ユーザの音声による特定の機能の指示を受け付ける音声認識システム、音声認識装置及び音声認識プログラムを提供する。
【解決手段】
音声データに基づいて算出された信頼度は所定条件を満たさない場合に、音声認識部は、当該音声データを記憶し、応答部は、ユーザの指示が受理できない旨を通知し、通知後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、操作部によって機能を特定する指示がされた場合に、応答部は、音声認識部に記憶された音声データを音声認識対象の語彙データとして認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、音声認識部は、問い合わせに対応するユーザの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする。
【選択図】 図2

Description

本発明は、音声認識技術を用いて、ユーザの音声による特定の機能の指示を受け付ける音声認識システム、音声認識装置及び音声認識プログラムに関するものである。
現在の音声認識技術は、認識対象語彙として登録された語彙の中からユーザの発声に最も類似しているものを選択し認識結果とするとともに、その認識結果の信頼性尺度である信頼度を出力するものが一般的である。
認識結果の信頼度を計算する方法としては、例えば、比較照合部2で、入力音声の特徴ベクトルVと予め登録しておいた複数の標準パターンとの類似度を計算する。このとき、類似度の最大値Sを与える標準パターンを認識結果として求める。並行して、参照類似度計算部4で、特徴ベクトルVと単位標準パターン記憶部3の単位標準パターンを結合した標準パターンと比較照合する。ここで、類似度の最大値を参照類似度Rとして出力する。次に類似度補正部5において、参照類似度Rを用いて類似度Sを補正する音声認識装置がある(例えば、特許文献1参照。)。この類似度によって信頼度が算出できる。
このような音声認識エンジンを利用した音声認識システムは、認識結果の信頼度が高い場合は認識結果を受理し、信頼度が低い場合は誤動作を防ぐために認識結果を棄却するのが一般的である。
認識結果が棄却される場合としては、ユーザの発声は認識対象語彙に対応するものであるが、周囲雑音の影響や、発声様態の変化等により、ユーザの発声と認識対象語彙を表現する標準パターンとの類似度が低くなり、信頼度も低くなる場合がある。また、ユーザの発声そのものが認識対象語彙以外であるために、信頼度が低くなる場合がある。
また、多数の機能を持つシステムにおいては、機能を選択するためのメニュー等を画面上にすべて表示することは困難なため、メニューを階層化することが一般的である。音声認識を用いたシステムにおいては、画面上に表示されていない機能に関しても、ユーザがその機能を直接呼び出すコマンド名を知っていれば、メニュー階層に従わず直接操作ができるという利点がある。一方で、語彙を増やすことで認識率が低下することを防ぐために、すべての機能の直接操作を許さず、一部の直接操作及びメニュー階層に対応した操作を音声で行えるようにする場合もある。
特開平4−255900号公報
前記のようなシステムでは、ユーザの意図する機能の選択を音声で行うためには、機能に対応した認識対象語彙をあらかじめユーザが知っている必要がある。機能が直接操作で選択できる場合は、1つの語彙を知っていれば良く、メニュー階層に従って選択を行う場合は、メニュー階層ごとの語彙を知っている必要がある。メニュー階層に従った語彙の場合、画面上に語彙を表示しておくことでユーザは語彙を知っている必要はなくなるが、運転中など画面を見ることができない場合は、やはり語彙を知っている必要がある。このような語彙はシステムのマニュアルに記載されているのが一般的だが、実際にはマニュアルを読んで認識対象語彙を記憶してから利用するユーザはまれである。
システムの設計者は認識対象語彙を知らないユーザでもシステムが利用できるように、できるだけ一般的な語彙を利用したり、様々な言いまわしを用意したりするのが一般的であるが、システム設計者が想定しない発声がなされる可能性は常にある。また、カーナビゲーションシステムのような組込みシステムでは処理量やメモリ容量の制限により、言い回しを大量に用意することは難しいという問題がある。
さらに重要な問題点として、認識対象語彙を知らないユーザが音声認識システムを利用した場合、上手く操作が行えないことに不満を持ち、システムを利用するのをやめてしまうという問題がある。
本発明は、上記の問題を鑑みてなされたものであり、ユーザが認識対象語彙以外の発声を行った場合、単に認識結果を棄却するのではなく、その後にユーザが行った機能選択操作と棄却したユーザ発声の対応付けることで、ユーザにとって直感的な発声内容を、当該機能に対する語彙として登録することを特徴とする。
本発明は、ユーザが発した音声の入力によって、機能を特定する指示を受け付ける音声認識システムであって、ユーザが発した音声を音声データに変換する音声入力部と、音声データを一時的に記憶する音声記憶部と、音声認識対象の語彙データを記憶する認識辞書記憶部と、音声データに対応する語彙データを認識し、当該音声データの認識の信頼度を算出する音声認識部と、信頼度と所定条件との比較結果に基づいて、認識された語彙データを特定の機能の選択の指示として受理するか否かを判定する判定部と、ユーザに情報を伝達する応答部と、ユーザの操作入力を受け付ける操作部と、を備え、音声データに基づいて算出された信頼度は所定条件を満たさない場合に、音声認識部は、当該音声データを記憶し、応答部は、ユーザの指示が受理できない旨を通知し、通知後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、操作部によって機能を特定する指示がされた場合に、応答部は、音声認識部に記憶された音声データを音声認識対象の語彙データとして認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、音声認識部は、問い合わせに対応するユーザの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする。
本発明によると、ユーザがマニュアル等を参照して認識対象語彙を覚えなくても、ユーザが直感的に思いついたコマンドを発声した後に、リモコンやタッチパネルなどで対応する機能を選択することで、次回からはそのコマンドを利用できるようになり、ユーザの利便性が増す。
以下に本発明の実施の形態の音声認識システムを、図面を参照して説明する。
本発明の実施の形態の音声認識システムは、ユーザの発生した音声による指示又はユーザからのタッチパネルやリモコン等による指示を受け付け、受け付けた指示に対応した処理を実行する。この音声認識システムは、例えばカーナビゲーションシステムのユーザーインターフェース部に用いられる。
図1は、本発明の第1の実施例の音声認識システムの構成のブロック図である。
本発明の第1の実施例の音声認識システムは、音声入力部101、音声認識部102、判定部103、応答部104、音声記憶部105、認識辞書記憶部106及び操作部107によって構成される。
音声入力部101は、ユーザの発声した音声を取り込み、デジタル信号形式の音声データに変換する。音声入力部101は、例えばマイクロフォンとA/Dコンバータで構成されており、マイクロフォンによって入力された音声信号がA/Dコンバータによってデジタル信号に変換される。変換されたデジタル信号(音声データ)は、音声認識部102及び音声記憶部105に送られる。
認識辞書記憶部106は、認識対象語彙のデータが予め記憶されている記憶装置であり、例えばHDDやROMによって構成される。この認識対象語彙のデータは、音声認識部102によって音声認識が行われる際に、音声認識部102に備えられているRAMに読み出される。
認識対象語彙は、音声認識のためのパターンマッチ用の標準データである。この標準データは、読み登録形式と音声登録形式との2つの形式で記録されている。
読み登録形式は、認識対象語彙の読みをテキストデータで登録しておき、そのテキストデータに、その読みに対応した音響モデルをつなぎ合わせた標準データである。なお、音響モデルには、HMM(Hidden Markov Model)によって表現された音素片などが用いられる。
音声登録形式は、人間が発声した音声から変換された音声データを、FFTケプストラム分析などの分析手法を用いて短時間ごとに分析された時系列データを用いて構成された標準データである。
音声認識部102は、音声入力部101から入力された音声データと認識辞書記憶部106から読み出された認識対象語彙(標準データ)とを比較して、類似度を計算する。そして、最も類似度の高い認識対象語彙を認識結果として選択する。なお、最も類似度の高いものだけではなく、類似度の上位の複数の語彙を認識結果として選択することもできる。類似度の計算方法は、認識対象語彙が読み登録形式の場合は、HMMのデコード方式であるViterbiアルゴリズムが用いられる。また、認識対象語彙が音声登録形式の場合は、ダイナミックプログラミングアルゴリズムが用いられる。
また、音声認識部102は、入力された音声データの認識結果に対して信頼度を計算する。信頼度の計算には、例えば、特許文献1に記載の類似度の計算方法を用いることができる。
判定部103は、音声データを受理するか否かを判定する。具体的には、音声認識部102が選択した認識結果の認識対象語彙のうち、信頼度の値が高い語彙を受理し、信頼度の値が低い認識結果を棄却する。この判定部103の受理した認識対象語彙によって、特定の機能が指示される。
応答部104は、ユーザに情報を伝達する。特に、音声認識部102の認識結果や判定部103の判定結果等を受け取って、その結果に基づいてユーザに適切な応答を行う。応答部104は、例えば液晶ディスプレイ、スピーカ等を備え、画面上に表示される文字や画像、スピーカから再生される音声等によって、ユーザに情報を伝達する。
音声記憶部105は、音声入力部101によって変換された音声データを一時的に記憶する。音声記憶部105は、例えば、RAMによって構成される。
操作部107は、ユーザからの音声によらない指示を受け付ける。操作部107は、例えばタッチパネルやリモコン等で構成される。なお、図1に示す音声認識システムが一つの操作部として実現されていてもよい。
なお、図1の各部は、ハードウェアで構成されていてもよいし、ソフトウェアによって各部の機能が実現されるものであってもよい。
図2は、本実施例の音声認識システムの音声認識処理のフローチャートである。
本実施の形態の音声認識システムは、ユーザからの音声入力又はユーザからの操作部107(例えばリモコンやタッチパネル)の操作によって指示が入力される。また、ユーザがシステムの特定の機能を選択するために、階層的なメニュー構成がとられている。ユーザは、音声入力又はリモコンやタッチパネルの操作等いずれかの方法を用いて、メニュー階層を辿る指示を行い、所望の機能を選択する指示を行う。また、ユーザはメニュー階層を辿らずに、直接機能を選択する指示をすることもできる。
これらを実現するために、階層的なメニューを辿るためのコマンド、機能を直接選択するためのコマンドに対応する認識対象語彙のデータが、予め認識辞書記憶部106に記憶されている。
本処理は、音声入力部101によってユーザの発生が検出されたか、操作部107によってユーザの操作が検出されたかによって、ステップ1001とステップ1002が振り分けられる。
まず、ユーザの操作が音声で行われた場合は(S1001)、音声入力部101によって入力された音声が音声データに変換される。そして、音声認識部102によって、音声データに対応する認識対象語彙が認識され、その信頼度が計算される。
次に、判定部103は、計算された信頼度が所定の閾値以上であるか否かを判定する(S1003)。信頼度が閾値以下の場合は、入力された音声データに対応する認識対象語彙がない。例えば、認識対象語彙に対応するコマンドを知らないユーザが、直感的に思いついた言い回しで機能を呼び出そうとした場合などである。
認識結果の信頼度が閾値より低いと判定した場合は、判定部103は、認識失敗フラグが設定されているか否かを判定する(S1004)。認識失敗フラグは、音声認識には失敗したが、その発声がユーザにとって直感的な音声コマンドである可能性を考慮して、音声記憶部105に前記ユーザ発声が記憶されていることを示すフラグである。認識失敗フラグは、判定部103に備えられているメモリ等に設定される。
認識失敗フラグが設定されていないと判定した場合はステップ1005に移行する。認識失敗フラグが設定されていない場合とは、例えば、現在ユーザが選択しようとしている操作において初めの認識失敗であると想定される。この発声は、該当機能を呼び出すのにユーザが直感的に思いついた言葉である可能性が高い。すなわち、この認識に失敗した音声は、ユーザが直感的に思いついた言葉であり、ある程度の具体性を持った音声である。この音声を登録することで、以降は、ユーザがその言葉を利用して指示を行うことが可能となる。
そこで、この音声データを認識対象語彙に登録する候補とする。判定部103は、音声認識部102に音声記憶の指示を出し、音声認識部102は当該音声データを音声記憶部105に記憶する(S1005)。次に、判定部103は認識失敗フラグを設定する(S1006)。次に、応答部104は、ユーザに音声認識が失敗したことを応答音声によって通知する(S1007)。
なお、最初に音声認識部102に入力された音声が周囲の騒音などの場合は、この音声を音声記憶部105に登録しておく利点はない。そのため、音声認識部102は、ユーザの発声したものではないと考えられる音声データは、認識結果と信頼度を出力せず、当該音声データは破棄する。
一方、S1004において、既に認識失敗フラグが設定されていると判定した場合は、ステップ1007に移行する。
既に認識失敗フラグが設定されている場合とは、例えば、現在ユーザが選択しようとしている操作において、二度目以降の認識失敗である。例えば、(1)認識できない同じ言い回しを再度発声した、(2)同じメニュー階層において認識できない別の言いまわしを試した、(3)別のメニュー階層において認識できない別の発声を行った、などが想定される。いずれの場合も、二度目以降の認識失敗は、前述したような初めの認識失敗となったユーザの音声の言い回しよりも、ユーザにとって直感的ではないと考えられる。そこで、当該音声データは、音声記憶部105には記憶せず、ステップ1007に進む。
認識フラグが設定されている場合、認識フラグが設定されていない場合のいずれにおいても、結果として、ユーザによる指示によっては有効な機能が選択されていない。その後、ユーザからの入力の待ち受け処理に移行し(S1008)、音声の入力(S1001)又はリモコン等による操作(S1002)に備える。
ユーザからリモコンやタッチパネル等で指示が入力された場合(S1002)、又は、ユーザの音声による指示の認識結果の信頼度が閾値以上である場合は、入力された指示が特定の機能の選択であるか否かを判定する(S1009)。
入力された指示が、メニュー階層の移動のみであり、特定の機能の選択ではないと判定した場合は、指示された階層に移動する処理をして、次の入力を待ち受ける処理に移行し(S1010)、移動後の階層において、音声の入力(S1001)又はリモコン等による操作(S1002)に備える。
一方、特定の機能が選択されたと判定した場合は、認識失敗フラグが設定されているか否かを判定する(S1011)。
認識失敗フラグが設定されていると判定した場合はステップ1012に移行し、認識フラグが設定されていないと判定した場合はステップ1013に移行する。
認識失敗フラグが設定されている場合は、例えば、初回にユーザが直感的に思い付いた言い回しを用いて指示をして、認識に失敗した場合である。すなわち、一度音声による指示を失敗し、再度別の音声、又はリモコン操作等によって有効な機能の選択が行われた場合である。この場合、前述したステップ1005において、ユーザの音声データが音声記憶部105に記憶されている。そこで、音声記憶部105に記憶されている音声データを、正しい操作の指示音声として登録する。
具体的には、当該音声データを、選択された機能とその音声データの言い回しを対応付けるかどうかをユーザに問い合わせる対応付け処理を行う(S1012)。この処理は図3で後述する。
対応付け処理の終了後、ユーザの指示によって選択された特定の機能が実行される(ステップ1013)。
ステップ1011において、認識失敗フラグが設定されていないと判定した場合は、音声記憶部105には音声データが記憶されていないので、対応付け処理を行うことなく、ユーザによって指示された処理を実行する(ステップ1013)。
図3は、本実施例の音声認識システムの対応付け処理のフローチャートである。
まず、応答部104によって音声記憶部105に記憶された音声データを再生し、選択された機能とその音声データの言い回しを対応付けるかどうかをユーザに問い合わせる(S2001)。
問い合わせの結果、音声認識部102は、ユーザが対応付けることを決定したか否かを判定する(S2002)。すなわち、ユーザが当該音声と機能を対応付ける指示を選択したか否かを判定する。この指示は音声又はリモコン等によって行われる。
ユーザが対応付けることを選択した場合は、音声認識部102は、音声記憶部102に記憶されている音声データの音響特徴量列を認識対象語彙として認識辞書記憶部106に登録する(S2003)。次に、認識失敗フラグを解除して(S2004)、図2のフローチャートに復帰する。
一方、ユーザが対応付けることを選択しなかった場合は、音声認識部102は、音声データを登録することなく認識失敗フラグを解除して(S2004)、図2のフローチャートに復帰する。
この図2及び図3に示す処理によって、ユーザの指示した未登録の音声データが、認識対象語彙として登録される。
以上説明した本発明の第1の実施例の音声認識システムは、特定の機能を呼び出すためにユーザが直感的に思いついた言い回しによる音声データが、認識辞書記憶部106に登録されている認識対象語彙によっては認識できない場合であっても、その音声データを登録することで、ユーザが一度失敗した言い回しが次回から認識対象となる。このようにすることで、ユーザの言い回しが新たに蓄積されてゆき、ユーザの利便性を増すことができる。
次に、第2の実施例の音声認識システムについて説明する。
第2の実施例では、第1の実施例と比較して、対応付け処理の方法が異なる。なお、第1の実施例と同一の構成には同一の符号を付し、その説明は省略する。
図4は、本発明の第2の実施例の音声認識システムの構成ブロック図である。
第2の実施例の音声認識システムは、音声入力部101、音声認識部102、判定部103、応答部104、音声記憶部105、認識辞書記憶部302、操作部107、追加認識辞書記憶部301によって構成される。
追加認識辞書記憶部301は、読み登録形式の追加認識対象語彙が予め記憶されている。この追加認識対処語彙には、機能毎にユーザが発声しうるさまざまな言い回しの音声に対応する語彙データが含まれる。また、認識辞書記憶部302には、追加認識辞書記憶部301に記憶されている追加認識対象語彙を、認識対象語彙として認識辞書記憶部302に追加することができる。音声認識部102は、それらを認識対象語彙とすることができる。
図5は第2の実施例の音声認識システムの対応付け処理のフローチャートである。
なお、音声認識処理は第1の実施例の図2のフローチャートと共通であり、図2のステップ1011において、認識失敗フラグが設定されていると判定した場合に、本フローチャートに移行する。
音声認識部102は、まず、ユーザが選択した機能に対応した言い回しの追加認識対象語彙のリストを追加認識辞書記憶部301から読み出す。そして、読み出した追加対象認識語彙のリストを認識対象とする(S3001)。
音声認識部102は、この読み出した追加認識対象語彙を用いて、ユーザから指示され音声記憶部105に記憶された音声データの認識を行う(S3002)。なお、音声認識部102によって当該音声データの認識結果と信頼度が得られると、認識対象を認識辞書記憶部302の認識対象語彙に戻す(S3003)。
次に、判定部103は、認識結果の信頼度が所定の閾値以上であるか否かを判定する(S3004)。信頼度が閾値以上であると判定した場合はステップ3005に移行し、閾値よりも小さいと判定した場合はステップ3008に移行する。
信頼度が閾値以上である場合は、追加認識辞書記憶部301から読み出された追加認識対象語彙のリストの中に、ユーザの発声した指示に対応したものがある可能性が高い。そこで、認識結果であるユーザの指示に対応する追加認識対象語彙を、ユーザの指示した機能と対応付けるかをユーザに問い合わせる。
具体的には、応答部104によって当該追加認識対象語彙を音声合成してユーザに提示する。そして、当該追加認識対象語彙と選択した機能とを対応付けるかを問い合わせる(S3005)。
問い合わせの結果、ユーザが対応付けることを決定したか否かを判定する(S3006)。すなわち、ユーザが当該追加認識対象語彙と機能を対応付ける指示を選択したか否かを判定する。この指示は音声又はリモコン等によって行われる。
ユーザが対応付けることを選択した場合は、音声認識部102は、ユーザに提示した追加認識対象語彙を認識対象語彙として、読み登録形式で認識辞書記憶部106に登録する(S3007)。次に、認識失敗フラグを解除して(S2004)、図2のフローチャートに復帰する。
一方、ユーザが対応付けることを選択しなかった場合は、音声認識部102は、当該語彙を登録することなく認識失敗フラグを解除して(S2004)、図2のフローチャートに復帰する。
ステップ3004において、信頼度が閾値より低い場合は、追加認識辞書記憶部301から読み出された語彙のリストの中に、ユーザが発声した指示に対応したものがある可能性が低い。そこで、前述した第1の実施の形態の図3と同様に、ユーザの発声した音声データをユーザの選択した機能と対応付けるかを問い合わせる。
具体的には、応答部104によって、音声記憶部105に記憶されているユーザの発声した音声データを再生し、選択された機能とその音声データの言い回しを対応付けるかどうかをユーザに問い合わせる(S2001)。
そして、問い合わせの結果、ユーザが対応付けることを決定したか否かを判定する(S2002)。すなわち、ユーザが当該音声データと機能を対応付ける指示を選択したか否かを判定する。この指示は音声又はリモコン等によって行われる。
ユーザが対応付けることを選択した場合は、音声認識部102は、音声記憶部102に記憶されている音声データの音響特徴量列を認識対象語彙として認識辞書記憶部106に登録する(S2003)。次に、認識失敗フラグを解除して(S2004)、図2のフローチャートに復帰する。
一方、ユーザが対応付けることを選択しなかった場合は、音声認識部102は、音声データを登録することなく認識失敗フラグを解除して(S2004)、図2のフローチャートに復帰する。
なお、ステップ3003の処理は、対応付ける追加認識辞書内の語彙やユーザ発声があった場合、図5のフローチャートが終了した時点で認識対象語彙として追加されているようにするための処理であるため、かならずしもこの時点で行う必要はない。ステップ3007やステップ2003で、認識辞書記憶部への追加を行った後で、認識対象としても良い。
この図5の処理によって、ユーザの指示した未登録の音声データを、システムに登録できる。
一般的に、音声認識率は(1)同じ発声を繰り返す音声登録形式、(2)読み登録形式、(3)1回のみの発声の音声登録形式、の順に認識率が高いことが知られている。従って、ユーザが複数回の発声を厭わないのであれば、例えば、図5のステップ3007の処理の前に、ユーザに複数回同じ発声をさせるように指示することで、ユーザの発声の認識率を向上できる。しかし、ユーザはこのような登録を煩雑として敬遠する傾向があるため、ユーザの1回目の発声の認識率を向上させることが望ましい。
そこで、予め追加認識辞書記憶部301に考えられ得るさまざまな言い回しの認識対象語彙をあらかじめ登録しておく。そして、ユーザが機能を選択した後で、機能に対応した言い回しの中から対応する語彙を選択して、当該語彙を読み登録形式として認識辞書記憶部302に登録する。当然、最初から考えられ得るさまざまな言い回しの語彙を、予め認識辞書記憶部302に登録し、認識対象としておく方法も考えられる。が、認識対象の語彙が増えると認識の処理量が大きくなるため、カーナビゲーションシステムなどの組込みシステムには本実施例の方が望ましい。さらに、ユーザが発声する可能性が極めて小さい言い回しまで音声認識対象としてしまうと、認識率が低下し得ることに対しても本実施例の構成は効果を奏する。
このように、本発明の第2の実施例では、ユーザの指示の音声認識を、初めは、認識対象語彙を限定して、高い認識率が達成できるようにしておき、ユーザの選択し機能が判明してから、その機能に対応する認識対象語彙を認識対象として追加することで、ユーザの言い回しが新たに蓄積されてゆき、ユーザの利便性が増すと共に、音声認識率を高く維持できる。
なお、認識に失敗し、当該音声データが音声記憶部105に記憶された場合(図2のステップ1005)、ユーザがその音声を発したのはメニュー階層の最上層であったときは、そのユーザの発声は状況にかかわらず直接該当する機能を呼び出すことを意図した発声である可能性が高い。一方、ユーザがその音声を発したのはメニュー階層の中間層であったときは、ユーザは、そのメニュー階層の位置におけるコンテキストを認識し、所望する機能を呼び出すことを意図した発声、又は、状況にかかわらず直接所望する機能を呼び出すことを意図した発声、の何れかである可能性が高い。
例えば、メニュー階層の最上層で、ユーザが、「目的地の周辺でレストランを検索」と発声した場合を考える。なお、この指示は、メニュー階層の「検索」→「施設」→「レストラン」→「範囲限定」→「目的地周辺」と機能選択したことに対応する。この場合、このメニュー階層の何れかの中間層を選択した時点で発声されたとしても、「目的地周辺」という機能を呼び出すことを意図していることが想定される。
また、前述のメニュー階層において、「検索」→「施設」→「レストラン」までメニュー階層を選択したときに、ユーザが「目的地周辺」と発声した場合は、そのメニュー位置では、前述の機能を呼び出すことを意図している可能性が高い。
一方、メニュー階層の最上層で「目的地周辺」という発声した場合は、前述の「目的地周辺でのレストランを検索」という機能を呼び出すことを意図している可能性は低い。従って、メニュー階層の中間層や最下層で発声された音声を認識対象語彙として追加する場合は、その階層で用いられる機能に限定した方が良い場合、最上層で呼び出される認識対象語彙として追加した方が良い場合、の二通りが考えられる。
そこで、第2の実施例において、読み登録形式の追加認識対象語彙の登録(図5、S3007)は、追加認識辞書記憶部301に登録されているさまざまな言い回しに対して、どのメニュー階層に登録すべきかといった情報をあらかじめ付与してもよい。
なお、第1の実施例及び第2の実施例において、ユーザの発声した音声データの音声特徴量列の登録(図3又は図5の、S2003)は、ユーザの発声した内容は、メニュー階層の位置に依存しているかどうかを判断できない。従って、対応付けの問い合わせ時に、ユーザに、メニュー階層のどの位置での認識対象語彙として登録するかを問い合わせることが好ましい。この問い合わせの方法としては、「『ユーザの発声した音声データの再生』を、トップメニューから利用できるようにしますか?それともこのコマンドを発声したメニュー階層だけで利用できるようにしますか?」とユーザに問い合わせてもよい。
本発明の第1の実施例の音声認識システムの構成ブロック図である。 本発明の第1の実施例の音声認識処理のフローチャートである。 本発明の第1の実施例の対応付け処理のフローチャートである。 本発明の第2の実施例の音声認識システムの構成ブロック図である。 本発明の第2の実施例の対応付け処理のフローチャートである。
符号の説明
101 音声入力部
102 音声認識部
103 判定部
104 応答部
105 音声記憶部
106、302 認識辞書記憶部
107 操作部
301 追加認識辞書記憶部

Claims (7)

  1. ユーザが発した音声の入力によって、機能を特定する指示を受け付ける音声認識システムであって、
    ユーザが発した音声を音声データに変換する音声入力部と、
    前記音声データを一時的に記憶する音声記憶部と、
    音声認識対象の語彙データを記憶する認識辞書記憶部と、
    前記音声データに対応する前記語彙データを認識し、当該音声データの認識の信頼度を算出する音声認識部と、
    前記信頼度と所定条件との比較結果に基づいて、前記認識された語彙データを特定の機能の選択の指示として受理するか否かを判定する判定部と、
    ユーザに情報を伝達する応答部と、
    ユーザの操作入力を受け付ける操作部と、を備え、
    前記音声データに基づいて算出された信頼度は所定条件を満たさない場合に、
    前記音声認識部は、当該音声データを記憶し、
    前記応答部は、ユーザの指示が受理できない旨を通知し、
    前記通知後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、前記操作部によって機能を特定する指示がされた場合に、
    前記応答部は、前記音声認識部に記憶された音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、
    前記音声認識部は、前記問い合わせに対応するユーザの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする音声認識システム。
  2. 前記語彙データは、音声の発音を表す識別子、及び/又は、人の発声から得られた音声特徴量列によって構成されることを特徴とする請求項1に記載の音声認識システム。
  3. 初期設定では音声認識対象としない第2の語彙データを記憶する追加音声認識辞書記憶部を備え、
    前記音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、前記操作部によって機能を特定する指示がされた場合に、
    前記音声認識部は、前記追加音声認識辞書記憶部から、ユーザによって指示された機能に関する第2の語彙データを抽出し、
    前記応答部は、
    前記音声認識部に記憶された音声データと当該抽出された第2の語彙データとの信頼度を算出し、
    当該信頼度が所定条件を満たす場合に、当該抽出された第2の語彙データを前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、
    前記音声認識部は、ユーザの指示に基づいて、当該抽出された第2の語彙データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする請求項1に記載の音声認識システム。
  4. 前記特定の機能は、階層的に構成されたメニューによって選択され、
    前記認識辞書記憶部は、前記階層毎の語彙データを記憶しており、
    前記音声認識部は、指示された階層の語彙データを用いて前記音声データを認識し、
    前記音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、前記操作部によって機能を特定する指示がされた場合に、
    前記応答部は、前記音声記憶部に記憶された音声が発声された時点での階層が最上層でなかった場合に、前記音声認識部に記憶された音声データを、どの階層の音声認識対象の語彙データとして前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせることを特徴とする請求項1から3の何れか一つに記載の音声認識システム。
  5. ユーザが発した音声を認識する音声認識装置であって、
    ユーザが発した音声を音声データに変換する音声入力部と、
    前記音声データを一時的に記憶する音声記憶部と、
    音声認識対象の語彙データを記憶する認識辞書記憶部と、
    前記音声データに対応する前記語彙データを認識し、当該音声データの認識の信頼度を算出する音声認識部と、
    前記信頼度と所定条件の比較結果に基づいて、前記認識された語彙データを特定の機能の選択の指示として受理するか否かを判定する判定部と、を備え、
    前記音声データに基づいて算出された信頼度は所定条件を満たさない場合に、前記音声認識部は、当該音声データを記憶し、
    前記音声データの記憶後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合に、前記音声認識部は、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする音声認識装置。
  6. ユーザに情報を伝達する応答部を備え、
    前記応答部は、前記音声認識部に記憶された音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、
    前記音声認識部は、前記問い合わせに対応するユーザからの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶することを特徴とする請求項5に記載の音声認識装置。
  7. ユーザが発した音声を音声データに変換する音声入力部と、前記音声データを一時的に記憶する音声記憶部と、音声認識対象の語彙データを記憶する認識辞書記憶部と、前記音声データに対応する前記語彙データを認識し、当該音声データの認識の信頼度を算出する音声認識部と、前記信頼度と所定条件の比較結果に基づいて、前記認識された語彙データを特定の機能の選択の指示として受理するか否かを判定する判定部と、ユーザに情報を伝達する応答部と、ユーザの操作入力を受け付ける操作部と、を備えた音声認識システムに以下の手順を実行させて、ユーザが発した音声によって、機能を特定する指示を受け付ける音声認識プログラムであって、
    前記音声データに基づいて算出された信頼度は所定条件を満たさない場合に、当該音声データを記憶し、ユーザに認識結果が受理できなかった旨を通知する第1のステップと、
    前記通知後に入力された音声データに基づいて算出された信頼度が所定条件を満たす場合、又は、前記操作部によって機能を特定する指示がされた場合に、前記音声認識部に記憶された音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶させるか否かをユーザに問い合わせ、前記問い合わせに対応するユーザの指示に基づいて、当該音声データを音声認識対象の語彙データとして前記認識辞書記憶部に記憶する第2のステップと、を含むことを特徴とする音声認識プログラム。
JP2005028715A 2005-02-04 2005-02-04 音声認識システム、音声認識装置及び音声認識プログラム Expired - Fee Related JP4639094B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005028715A JP4639094B2 (ja) 2005-02-04 2005-02-04 音声認識システム、音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005028715A JP4639094B2 (ja) 2005-02-04 2005-02-04 音声認識システム、音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2006215317A true JP2006215317A (ja) 2006-08-17
JP4639094B2 JP4639094B2 (ja) 2011-02-23

Family

ID=36978596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005028715A Expired - Fee Related JP4639094B2 (ja) 2005-02-04 2005-02-04 音声認識システム、音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4639094B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072081A (ja) * 2008-09-16 2010-04-02 Denso Corp 音声認識用辞書作成装置
JP2010091962A (ja) * 2008-10-10 2010-04-22 Denso Corp 情報処理装置,インタフェース提供方法およびプログラム
WO2016151698A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 対話装置、方法及びプログラム
WO2019142427A1 (ja) * 2018-01-16 2019-07-25 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019163247A1 (ja) * 2018-02-22 2019-08-29 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04204700A (ja) * 1990-11-30 1992-07-27 Fujitsu Ten Ltd 音声認識装置
JPH0749697A (ja) * 1994-06-03 1995-02-21 Fujitsu Ten Ltd 音声認識装置
WO2004086360A1 (de) * 2003-03-25 2004-10-07 Siemens Aktiengesellschaft Verfahren zur sprecherabhängigen spracherkennung und spracherkennungssystem
JP2004294872A (ja) * 2003-03-27 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識を利用した電子機器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04204700A (ja) * 1990-11-30 1992-07-27 Fujitsu Ten Ltd 音声認識装置
JPH0749697A (ja) * 1994-06-03 1995-02-21 Fujitsu Ten Ltd 音声認識装置
WO2004086360A1 (de) * 2003-03-25 2004-10-07 Siemens Aktiengesellschaft Verfahren zur sprecherabhängigen spracherkennung und spracherkennungssystem
JP2004294872A (ja) * 2003-03-27 2004-10-21 Matsushita Electric Ind Co Ltd 音声認識を利用した電子機器

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072081A (ja) * 2008-09-16 2010-04-02 Denso Corp 音声認識用辞書作成装置
JP2010091962A (ja) * 2008-10-10 2010-04-22 Denso Corp 情報処理装置,インタフェース提供方法およびプログラム
WO2016151698A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 対話装置、方法及びプログラム
JPWO2016151698A1 (ja) * 2015-03-20 2017-05-25 株式会社東芝 対話装置、方法及びプログラム
WO2019142427A1 (ja) * 2018-01-16 2019-07-25 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JPWO2019142427A1 (ja) * 2018-01-16 2020-11-19 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP7234926B2 (ja) 2018-01-16 2023-03-08 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2019163247A1 (ja) * 2018-02-22 2019-08-29 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
JPWO2019163247A1 (ja) * 2018-02-22 2021-02-04 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
US11398221B2 (en) 2018-02-22 2022-07-26 Sony Corporation Information processing apparatus, information processing method, and program
JP7375741B2 (ja) 2018-02-22 2023-11-08 ソニーグループ株式会社 情報処理装置、情報処理方法、および、プログラム

Also Published As

Publication number Publication date
JP4639094B2 (ja) 2011-02-23

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
JP3935844B2 (ja) 入力された音声のトランスクリプションおよび表示
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
JP4304952B2 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
US7826945B2 (en) Automobile speech-recognition interface
US20070016421A1 (en) Correcting a pronunciation of a synthetically generated speech object
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
KR101836430B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP2008009153A (ja) 音声対話システム
JP4639094B2 (ja) 音声認識システム、音声認識装置及び音声認識プログラム
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2006208486A (ja) 音声入力装置
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP2006208905A (ja) 音声対話装置及び音声対話方法
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP4951422B2 (ja) 音声認識装置、および音声認識方法
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP3797003B2 (ja) 音声出力装置
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP4946358B2 (ja) 音声対話装置及び音声理解結果生成方法
JP2007286198A (ja) 音声合成出力装置
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070907

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101129

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4639094

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees