JP4539313B2 - 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット - Google Patents

音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット Download PDF

Info

Publication number
JP4539313B2
JP4539313B2 JP2004348828A JP2004348828A JP4539313B2 JP 4539313 B2 JP4539313 B2 JP 4539313B2 JP 2004348828 A JP2004348828 A JP 2004348828A JP 2004348828 A JP2004348828 A JP 2004348828A JP 4539313 B2 JP4539313 B2 JP 4539313B2
Authority
JP
Japan
Prior art keywords
speech recognition
word
unit
speech
dictionary creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004348828A
Other languages
English (en)
Other versions
JP2006154658A (ja
Inventor
透 岩沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004348828A priority Critical patent/JP4539313B2/ja
Publication of JP2006154658A publication Critical patent/JP2006154658A/ja
Application granted granted Critical
Publication of JP4539313B2 publication Critical patent/JP4539313B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識辞書作成システム、音声認識辞書作成方法、ならびにそれらにより作成された音声認識辞書を含む音声認識システムおよびロボットに関する。
特許文献1には、ひとつまたは複数の単語を入力し、入力された単語と他の単語の類似度を算出し、算出された単語の類似度に基づいて、上記入力された単語とは異なる単語を生成する音声認識用疑似単語生成方法が開示されている。また、他の単語に対する類似度が付された疑似単語とキーワードを認識候補辞書として保持する辞書部と、発声された音声と前記辞書部に保持されている認識候補辞書に含まれる単語との類似度を出力する照合部と、前記照合部によって出力される類似度が最も高い単語が、前記疑似単語である場合に認識結果を棄却する棄却部を有する音声認識装置が開示されている。これにより、与えられた認識候補から自動的に棄却用疑似単語を生成し、さらに認識候補の順位情報を利用することで、容易に安定した候補外発声棄却機能を実現することができると記載されている。
特開2001−147698号公報
しかし、従来の音声認識用疑似単語生成方法では、音声認識の精度を高めるためには、キーワードに対して生成される疑似単語の数を多くする必要があるが、一方、疑似単語の数を多くすると、音声認識処理に時間がかかるという課題があった。
本発明は上記事情を踏まえてなされたものであり、本発明の目的は、音声認識の精度を高めるとともに、音声認識を迅速に行う技術を提供することにある。
本発明によれば、音声認識の対象とする音声認識単語を記憶する音声認識単語記憶部と、前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定部と、前記音声認識単語に対して、前記必要数決定部が決定した必要数の前記棄却単語を生成する棄却単語生成部と、前記棄却単語生成部が生成した前記棄却単語を記憶する棄却単語記憶部と、を含むことを特徴とする音声認識辞書作成システムが提供される。
ここで、音声認識辞書は、音声認識単語記憶部と棄却単語記憶部とにより構成することができる。音声認識単語の特性とは、音声認識単語自体の誤認識のされやすさや、音声認識単語が誤認識された場合の不都合の生じ具合等とすることができる。
本発明の音声認識辞書作成システムによれば、音声認識単語の特性に応じて、その音声認識単語に対する棄却単語の生成数を異ならせるので、誤認識がされやすい単語や誤認識された場合に不都合が生じる単語については、多くの棄却単語を生成することにより音声認識精度を高めることができる。一方、誤認識がされにくい単語や誤認識された場合の不都合の度合いが低い単語については、棄却単語の数を少なくすることにより、全体としての音声認識処理の時間を短縮することができる。
本発明の音声認識辞書作成システムは、前記音声認識単語と、当該音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理と、を対応付けて記憶する処理記憶部をさらに含むことができ、前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記応答処理に応じて前記必要数を決定することができる。
このようにすれば、たとえば、音声認識単語に対応づけられたシステムの応答処理がシステムの危険な動作やユーザの不利益に関わるような処理の場合、多くの棄却単語を生成することにより誤認識を生じにくくすることができる。
本発明の音声認識辞書作成システムにおいて、前記処理記憶部は、前記応答処理に、当該応答処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータを対応付けて記憶することができ、前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することができる。
本発明によれば、応答処理がシステムの危険な動作やユーザの不利益に関わるような処理の場合、予め誤認識を抑制すべきパラメータを高く設定するようにしておくことにより、その応答処理に対応づけられた音声認識単語の棄却単語を多く生成することができ、誤認識を生じにくくすることができる。
本発明の音声認識辞書作成システムは、前記音声認識単語に対する前記システムの応答処理の変更を受け付ける変更受付部と、前記変更受付部が受け付けた変更に基づき前記処理記憶部を更新する更新処理部と、をさらに含むことができ、前記必要数決定部は、前記更新処理部が前記処理記憶部を更新すると、更新後の前記処理記憶部を参照して、該当する前記音声認識単語の前記必要数を決定することができ、前記更新処理部は、前記必要数決定部が決定した前記必要数に応じて、前記棄却単語記憶部を更新することができる。
このようにすれば、音声認識単語に対応づけられた応答処理に変更があった場合に、新たに対応づけられた応答処理に応じて音声認識単語に対し生成される棄却単語の数を変更することができるので、音声認識処理が行われるシステムの実際の動作に適合する音声認識辞書を提供することができる。また、本発明の音声認識辞書作成システムによれば、不要音声による誤認識可能性が高い音声認識単語、または誤認識を避けたい音声認識単語に対する棄却単語の数を動的に制御することができる。
本発明の音声認識辞書作成システムは、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部をさらに含むことができ、前記必要数決定部は、前記誤認識度合い算出部が算出した前記誤認識度合いと、該当する前記音声認識単語に対応付けられた前記応答処理とに応じて、前記必要数を決定することができる。
このようにすれば、たとえば、音声認識単語に対応づけられたシステムの応答処理を考慮すると、より多くの棄却単語を生成すべきであっても、その音声認識単語が誤認識の生じにくいものである場合、生成する棄却単語の数をある程度抑えることができ、音声認識処理の時間を短縮することができる。
本発明の音声認識辞書作成システムにおいて、前記必要数決定部は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部を含むことができ、前記誤認識度合い算出部が算出した誤認識度合いに応じて、前記必要数を決定することができる。
このようにすれば、音声認識単語に応じて、誤認識されやすい単語については多くの棄却単語を生成することにより音声認識精度を高めることができる。一方、誤認識がされにくい単語については、棄却単語の数を少なくすることにより、全体としての音声認識処理の時間を短縮することができる。
本発明の音声認識辞書作成システムは、雑音を出力する雑音出力部と、前記音声認識単語記憶部に記憶された前記音声認識単語とのマッチングにより、前記雑音出力部から出力された雑音の音声認識処理を行い、音声認識結果を出力する音声認識部と、をさらに含むことができ、前記誤認識度合い算出部は、前記音声認識部の音声認識結果に基づき、前記誤認識度合いを算出することができる。
このようにすれば、実際に誤認識されやすい単語を検出することができ、その検出結果に応じて棄却単語の数が決定される。そのため、音声認識の精度を高めることができる。
本発明によれば、音声認識の対象とする音声認識単語を取得するステップと、前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定するステップと、前記音声認識単語に対して、前記必要数の前記棄却単語を生成するステップと、を含むことを特徴とする音声認識辞書作成方法が提供される。
本発明の音声認識辞書作成方法において、前記棄却単語の必要数を決定するステップにおいて、前記音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理に応じて、前記必要数を決定することができる。
本発明の音声認識辞書作成方法において、前記棄却単語の必要数を決定するステップは、前記応答処理と、当該処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータとを取得するステップを含むことができ、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することができる。
本発明の音声認識辞書作成方法は、前記音声認識単語に対する前記システムの応答処理の変更を受け付けるステップをさらに含むことができ、前記棄却単語の必要数を決定するステップにおいて、前記変更を受け付けるステップが受け付けた前記処理に応じて、前記必要数を再決定することができ、前記棄却単語を生成するステップにおいて、前記棄却単語の必要数を決定するステップで再決定された前記必要数の前記棄却単語を再生成することができる。
本発明の音声認識辞書作成方法は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含むことができ、前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いと、前記応答処理とに応じて、前記必要数を決定することができる。
本発明の音声認識辞書作成方法は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含むことができ、前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いに応じて、前記必要数を決定することができる。
本発明の音声認識辞書作成方法は、雑音を出力するステップと、前記雑音を入力し、前記音声認識単語とのマッチングにより、前記雑音の音声認識処理を行い、音声認識結果を出力するステップと、をさらに含むことができ、前記誤認識度合いを算出するステップにおいて、前記音声認識結果を出力するステップにおける前記音声認識結果に基づき、前記誤認識度合いを算出することができる。
本発明によれば、上記いずれかに記載の音声認識辞書作成システムと、音声を入力する音声入力部と、前記音声認識単語記憶部に記憶された前記音声認識単語および前記棄却単語記憶部に記憶された前記棄却単語とのマッチングにより、前記音声入力部が入力した音声の音声認識処理を行う音声認識部と、前記音声認識部が認識した音声認識結果に基づき、応答処理を行う制御部と、を含むことを特徴とする音声認識システムが提供される。
本発明によれば、上記音声認識システムを含むことを特徴とするロボットが提供される。
上記のような音声認識システムを、移動したりユーザと対話したりするロボットに適用することにより、ロボットが音声を誤認識することによる誤動作等を防ぐことができる。
本発明によれば、コンピュータを、音声認識の対象とする音声認識単語を記憶する音声認識単語記憶手段、前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定手段、前記音声認識単語に対して、前記必要数決定手段が決定した必要数の前記棄却単語を生成する棄却単語生成手段、前記棄却単語生成手段が生成した前記棄却単語を記憶する棄却単語記憶手段、として機能させることを特徴とするプログラムが提供される。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、音声認識の精度を高めるとともに、音声認識を迅速に行う技術を提供することができる。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
以下の実施の形態において、音声認識辞書作成システムが、ロボットに組み込まれる例を説明する。まず、ロボットの構成を説明する。
図1は、実施の形態におけるロボットの一例を示す外観構成図である。ロボット200は、たとえば、胴体部1および頭部2が連結されることにより構成される。胴体部1の下部には左右にそれぞれ車輪3Aおよび車輪3Bが取り付けられており、これらの車輪は、独立に前後に回転することができる。
頭部2は、胴体部1に垂直に取り付けられた垂直軸とその垂直軸に対して90度の角度で設置された水平軸に関して決められた範囲で回転することができる。垂直軸は頭部2の中心を通るように設置されており、水平軸は胴体1と頭部2が正面を向いた状態で頭部2の中心を通りかつ左右方向に水平に設置されている。つまり、頭部2は左右と上下の2自由度で、決められた範囲内で回転することができる。
胴体部1の表面には、スピーカ12およびマイクロフォン13が設けられる。また、頭部2の表面には、CCDカメラ21AおよびCCDカメラ21B、ならびにタッチセンサ23が設けられる。
図2は、ロボット200の電気的構成の一例を示すブロック図である。
胴体部1には、ロボット全体の制御を行うコントローラ10、ロボットの動力源となるバッテリ11、スピーカ12、マイクロフォン13、2つの車輪を動かすためのアクチュエータ14Aおよびアクチュエータ14B等が収納されている。
マイクロフォン13は、特定の対話相手からの発話を含む周囲の音声を集音し、得られた音声信号をコントローラ10に送出する。また、ここではマイクロフォン13を一つしか図示してないが、ロボット200には複数のマイクロフォン13を設けることができる。これらの一部を用いて対話相手の音声を取得し、他の一部を用いて、対話相手以外の周囲の音声を取得するようにすることができる。
コントローラ10は、CPU10Aやメモリ10Bを内蔵しており、CPU10Aにおいて、メモリ10Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。
頭部2には、CCDカメラ21AおよびCCDカメラ21B、頭部2を回転するためのアクチュエータ22Aおよびアクチュエータ22B、ならびにタッチセンサ23等が収納されている。
CCDカメラ21AおよびCCDカメラ21Bは、周囲の状況を撮像し、得られた画像信号を、コントローラ10に送出する。タッチセンサ23は、たとえば人が触れたことを感知する。アクチュエータ22Aおよびアクチュエータ22Bは、ロボット200の頭部2を上下左右に回転させる。
コントローラ10は、マイクロフォン13、CCDカメラ21A、およびCCDカメラ21Bから得られる音声信号や画像信号に基づいて、メモリ10Bから適宜情報を読み出し、周囲の状況や、人間からの指令を解析し、行動を行うか、合成音を生成するかを判断する。
行動を行う場合、コントローラ10は、続く行動を決定し、その決定結果に基づいて、アクチュエータ14A、アクチュエータ14B、アクチュエータ22A、およびアクチュエータ22Bを制御して頭部2を上下左右に回転させたり、ロボット200を移動または回転させる等の行動を行わせる。
合成音を生成する場合、コントローラ10は、合成音を生成し、スピーカ12に供給して出力させる。
図3は、ロボット200の動作を示すフローチャートである。
マイクロフォン13は、ユーザからの発話を含む周囲の音声を集音し、得られた音声信号をコントローラ10に送出する(S1)。また、CCDカメラ21AおよびCCDカメラ21Bは、周囲の状況を撮像し、得られた画像信号を、コントローラ10に送出する(S2)。コントローラ10は、マイクロフォン13、CCDカメラ21A、およびCCDカメラ21Bから送出された音声信号および画像信号に基づいて、適宜メモリ10Bを読み出し、周囲の状況や、人間からの指令を解析し、それらに応じてロボット200の動作を決定する(S3)。
ステップS3で決定された動作に音声出力が含まれる場合(S4のYES)、コントローラ10は、必要に応じて、合成音を生成し、スピーカ12に供給して音声を出力させる(S5)。
また、ステップS3で決定された動作にロボット200の行動が含まれる場合(S6のYES)、コントローラ10は、アクチュエータ14A、アクチュエータ14B、アクチュエータ22A、およびアクチュエータ22B等を駆動させる(S7)。これによりロボット200の頭部2を上下左右に回転させたり、ロボット200を移動または回転させる等の行動が行われる。
以上のような構成および動作により、ロボット200は、周囲の状況等に基づいて、自律的に行動をとることができる。
図4は、図2に示したコントローラ10の機能的構成例を示すブロック図である。なお、図4に示す機能的構成は、CPU10Aが、メモリ10Bに記憶された制御プログラムを実行することで実現される。
コントローラ10は、特定の外部状態を認識するセンサ入力処理部51、シナリオが格納されているシナリオ記憶部52、特定の状況におけるロボットの発話データおよび動作データが格納されているロボット言動データベース53、ロボット200の行動を決定する全体制御部54、全体制御部54の決定結果に基づいて、アクチュエータ14A、アクチュエータ14B、アクチュエータ22A、およびアクチュエータ22Bを制御するメカ制御部55、合成音を生成する音声合成部56、および音声合成部56において合成された合成音の出力を制御する出力部57を含む。また、コントローラ10は、音声認識辞書作成システム100を含む。音声認識辞書作成システム100の詳細は、各実施の形態において後述する。
センサ入力処理部51は、音声認識部51aおよび状況認識部51bを含む。音声認識部51aは、マイクロフォン13から送出される情報を用いて、ユーザからの発話を含む周囲の音声を認識する。状況認識部51bは、ユーザの行動を認識したり、周囲の状況を認識する。音声認識部51aおよび状況認識部51bは、認識結果を全体制御部54に通知する。
全体制御部54は、センサ入力処理部51からの通知、シナリオ記憶部52に格納されているシナリオ情報、およびロボット言動データベース53に格納されている発話動作情報に基づいて、ロボット200の次の動作を決定し、決定された動作の内容を、メカ制御部55と音声合成部56に送出する。
メカ制御部55は、全体制御部54から送出された行動指令に基づいて、アクチュエータ14A、アクチュエータ14B、アクチュエータ22A、およびアクチュエータ22Bを駆動するための制御信号を生成し、これをアクチュエータ14A、14B、22A、および22Bへ送出する。これにより、アクチュエータ14A、14B、22A、および22Bは、制御信号にしたがって駆動する。
出力部57には、音声合成部56からの合成音のディジタルデータが供給されるようになっており、出力部57は、それらのディジタルデータを、アナログの音声信号にD/A変換し、スピーカ12に供給して出力させる。
次に、音声認識辞書作成システム100の構成を実施の形態毎に説明する。
(第一の実施の形態)
図5は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、音声認識単語記憶部104、特性判断部108、必要数決定部110、棄却単語生成部112、および棄却単語記憶部114を含む。音声認識単語記憶部104および棄却単語記憶部114により音声認識辞書106が構成される。
音声認識単語記憶部104は、音声認識単語の集合である音声認識語彙を記憶する。
特性判断部108は、音声認識単語記憶部104に記憶された各音声認識単語の特性に基づき、その音声認識単語に対する棄却単語生成必要度を判断する。本実施の形態において、特性判断部108は、たとえば、音声認識単語自体の誤認識のされやすさを判断する。
特性判断部108は、処理対象の音声認識単語を解析し、その単語の誤認識のされやすさをパラメータで示す。ここでは、「誤認識されやすい」、「標準」、「誤認識されにくい」のいずれかのパラメータで示す。ここで、「誤認識されやすい」とは、不要音声により誤って出現しやすい音声認識単語のことである。誤認識のされやすさは、たとえば、音声認識単語の音節数、音声認識単語に含まれる特定音素の数、特定音素の音声認識単語全体に対する出現比率、音声認識単語に含まれる特定トライフォンの出現検出等に基づき判断することができる。誤認識のされやすさの判断に影響する特定音素や特定トライフォンは音声認識エンジンや音響モデルに依存するが、たとえば、有声子音を誤認識されやすい特定音素と仮定したり、無声子音を誤認識されにくい特定音素と仮定することができる。誤認識のされやすさの判定手法としてはさまざまな方法が考えられ、本発明はこの点でとくに限定されないが、一例として、有声子音を誤認識しやすい音素、無声子音を誤認識しづらい音素と仮定して誤認識のされやすさを推定する手法を示す。
図6は、特性判断部108が各音声認識単語の誤認識のされやすさを判断する手順を示すフローチャートである。ここでは、無声子音の出現比率に基づき、誤認識のされやすさを判断する例を示す。
特性判断部108は、音声認識単語記憶部104から音声認識単語を取得する(S100)。つづいて、特性判断部108は、その音声認識単語の音節数を算出する(S102)。次いで、特性判断部108は、その音声認識単語の無声子音数を算出する(S104)。その後、特性判断部108は、無声子音の出現比率R=無声子音数/音節数を算出する(S106)。
つづいて、特性判断部108は、無声子音の出現比率Rが第一の閾値Th1以上か否かを判断し(S108)、第一の閾値Th1以上の場合に(S108のYES)、判断結果として「誤認識されにくい」を出力する(S114)。一方、ステップS108で無声子音の出現比率Rが第一の閾値Th1よりも小さい場合(S108のNO)、特性判断部108は、無声子音の出現比率Rが第二の閾値Th2(1>Th1>Th2>0)以上か否かを判断し(S110)、第二の閾値Th2以上の場合に(S110のNO)、判断結果として「標準」を出力する(S112)。また、ステップS110において、無声子音の出現比率Rが第二の閾値Th2より小さい場合(S110のYES)、特性判断部108は、判断結果として「誤認識されやすい」を出力する(S116)。
図5に戻り、必要数決定部110は、特性判断部108が判断した各音声認識単語の特性に応じて、その音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する。必要数決定部110は、棄却単語生成必要度の高い音声認識単語に対し多くの棄却単語を、棄却単語生成必要度の低い音声認識単語に対し少ない棄却単語を生成するように棄却単語の必要数を決定する。たとえば、棄却単語生成必要度が標準的な音声認識単語に対する棄却単語の必要数を「5」とした場合、棄却単語生成必要度が高い音声認識単語に対しては棄却単語の必要数を「10」に、棄却単語生成必要度の低い音声認識単語に対しては棄却単語の必要数を「1」とすることができる。
本実施の形態において、必要数決定部110は、特性判断部108が出力した判断結果に基づき、棄却単語の必要数を決定する。たとえば、特性判断部108から出力された判断結果が「誤認識しやすい」の場合、必要数決定部110は、判断結果が「標準」や「誤認識しにくい」の音声認識単語よりも棄却単語の必要数が多くなるように決定する。また、たとえば、特性判断部108から出力された判断結果が「誤認識しにくい」の場合、必要数決定部110は、判断結果が「標準」の音声認識単語よりも棄却単語の必要数が少なくなるように決定する。
棄却単語生成部112は、各音声認識単語に対して、必要数決定部110が決定した必要数の棄却単語を生成する。棄却単語は、種々の方法により生成することができる。たとえば、音声認識単語の特徴を残したまま音節変換した擬似単語を生成し、その中から音声認識単語の正解発話を誤棄却する可能性のある類似単語を除去する方法、またはランダムに生成された音節列と音声認識単語の類似度を計算し、類似度がある閾値以下になるものを棄却単語とする方法等により生成することができる。棄却単語記憶部114は、棄却単語生成部112が生成した棄却単語を記憶する。
図4に戻り、音声認識部51aは、音声認識辞書作成システム100の音声認識辞書106を参照して、ユーザからの発話を含む周囲の音声を認識する。
本実施の形態における音声認識辞書作成システム100によれば、音声認識単語自体の誤認識のされやすさに応じてその単語の棄却単語の生成数が決定される。そのため、誤認識されやすい単語に対してはより多くの棄却単語を生成することにより、音声認識の精度を高めることができる。一方、誤認識されにくい単語に対しては、棄却単語の生成数を抑制することにより、音声認識速度を高めることができる。
(第二の実施の形態)
図7は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、第一の実施の形態において図5を参照して説明した構成に加えて、雑音データベース130、雑音出力部132、音声認識部134、および誤認識結果記憶部136をさらに含む。ここで、音声認識部134としては、ロボット200の音声認識部51a(図4参照)を用いることができる。
雑音データベース130は、音声認識単語記憶部104に記憶された音声認識単語以外の雑音や周囲会話等の雑音声データを格納する。雑音出力部132は、雑音データベース130に記憶された雑音声データを順次音声認識部134に出力する。雑音出力部132は、スピーカで音声を物理的に出力してマイクロフォン等を介して音声認識部134に音声データを入力させるようにすることができる。また、雑音出力部132は、雑音データベース130に記憶された雑音声データをWAVE等の音声ファイル形式で直接音声認識部134に入力させるようにすることもできる。
音声認識部134は、雑音出力部132から出力された雑音声データを入力データとして、音声認識単語記憶部104を参照して音声認識を行う。音声認識部134の認識結果は、誤認識結果記憶部136に記憶される。
音声認識部134は、音声認識した結果を特性判断部108に出力する。音声認識部134は、音声認識単語記憶部104に記憶された音声認識単語のうち、雑音声データにより誤認識されたスコアが高いものをスコアに対応付けて出力することができる。また、音声認識部134は、スコアが所定の閾値を超えるものを誤認識されやすい単語として出力することができる。
特性判断部108は、音声認識部134から出力された誤認識結果のスコアに応じて、各音声認識単語の特性を判断する。具体的には、特性判断部108は、たとえば、複数の音声区間の雑音声データに対して、誤認識されたスコアが所定の閾値を超えた回数に応じて、各音声認識単語の特性を判断することができる。特性判断部108は、たとえば、音声認識部134から出力されたスコアに応じて、各音声認識単語を「誤認識されやすい」、「標準」等と判断することができる。また、特性判断部108は、音声認識部134により一度も誤認識されなかった音声認識単語については、「誤認識されにくい」と判断することができる。また、特性判断部108は、音声認識部134から出力されたスコアに応じて、各音声認識単語のご認識のされやすさをパラメータで表すこともできる。必要数決定部110は、特性判断部108が出力した判断結果に基づき、棄却単語の必要数を決定する。
この後、棄却単語生成部112は、各音声認識単語に対して、必要数決定部110が決定した必要数の棄却単語を生成する。棄却単語記憶部114は、棄却単語生成部112が生成した棄却単語を記憶する。
図4に戻り、音声認識部51aは、音声認識辞書作成システム100の音声認識辞書106を参照して、ユーザからの発話を含む周囲の音声を認識する。
本実施の形態においても、第一の実施の形態における音声認識辞書作成システム100と同様の効果が得られる。また、本実施の形態における音声認識辞書作成システム100によれば、雑音声データを用いて、各音声認識単語が実際に誤認識が生じやすいか否かに基づき、その音声認識単語の棄却単語の生成数が決定される。そのため、音声認識の精度をより高めることができる。
(第三の実施の形態)
図8は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、第一の実施の形態において図5を参照して説明した構成に加えて、処理記憶部116をさらに含む。処理記憶部116は、音声認識単語とその音声認識単語に対するロボット200の処理とを対応付けて記憶する。ここで、処理記憶部116は、ロボット200のシナリオ記憶部52やロボット言動データベース53とすることができる。
図9は、処理記憶部116の内部構成の一部を示す図である。ここで、処理記憶部116は、音声認識単語とその音声認識単語に対する動作コマンドおよび引数を対応付けて記憶する動作記憶部116aと、危険コマンドを記憶する危険コマンド記憶部116bとを含む。
動作記憶部116aは、音声認識単語欄と、動作コマンド欄と、動作引数欄とを含む。たとえば、音声認識単語が「おはよう」の場合、ロボット200の動作コマンドは「発話」で、動作引数は「おはようございます」である。ロボット200は、「おはよう」という単語を認識すると、「おはようございます」という発話を行う。また、たとえば、音声認識単語が「前進して」の場合、ロボット200の動作コマンドは「前進」で、動作引数は「1m」である。ロボット200は、「前進して」という単語を認識すると、1m前進する動作を行う。
危険コマンド記憶部116bは、動作記憶部116aの音声認識単語に対応付けられた動作コマンドが音声の誤認識により実行されると危険なコマンドを記憶する。ここでは、危険コマンド記憶部116bには、危険コマンドとして、「前進」、「後退」が記憶されている。たとえば、ロボット200が階段の上に配置されている場合に、ユーザが発した他の言葉が「前進して」や「後退して」と誤認識されると、ロボット200が前進したり後退したりして、階段から落ちてしまう等の危険が生じる。そのため、このような動作コマンドに対応付けられた音声認識単語の棄却単語生成必要度が高くなるようにする必要がある。
なお、図9では、危険コマンド記憶部116bには、動作コマンドのみを設定した例を示したが、動作コマンドとともに、動作引数についても設定することができる。たとえば、危険コマンドとして、「動作コマンド「前進」+動作引数「2m以上」」、「動作コマンド「後退」+動作引数「2m以上」」と設定することもできる。
図8に戻り、特性判断部108は、処理記憶部116を参照して、危険コマンドとして設定された動作コマンドに対応付けられた音声認識単語について、棄却単語生成必要度が高いと判断する。必要数決定部110は、特性判断部108が出力した判断結果に基づき、棄却単語の必要数を決定する。
図10は、特性判断部108が、棄却単語生成必要度を判断する手順を示すフローチャートである。
特性判断部108は、音声認識単語記憶部104から音声認識単語を取得する(S130)。つづいて、特性判断部108は、処理記憶部116の動作記憶部116aを参照してその音声認識単語に対応付けられた動作コマンドを取得する(S132)。次いで、特性判断部108は、処理記憶部116の危険コマンド記憶部116bを参照して、ステップS132で取得した動作コマンドが危険コマンドか否かを判断する(S134)。特性判断部108は、動作コマンドが危険コマンドの場合(S134のYES)、その音声認識単語について、「棄却単語生成必要度=高」を出力する(S138)。一方、動作コマンドが危険コマンドでない場合(S134のNO)、特性判断部108は、その音声認識単語について、「棄却単語生成必要度=低」を出力する(S136)。
たとえば、図9に示した例では、音声認識単語「前進して」および「バックして」の棄却単語生成必要度は高となり、それ以外の「おはよう」、「こんにちわ」、「右むいて」、「左むいて」の棄却単語生成必要度は低となる。
また、ここでは図示していないが、たとえば「移動して」や「ジグザグに進んで」等の音声認識単語が、「前進」や「後退」等の動作コマンドに対応付けられている場合、これらの音声認識単語についても、棄却単語生成必要度が高とされる。
また、危険コマンド記憶部116bにおいて、危険コマンド名に、その危険コマンドの危険度を示すパラメータを対応づけて記憶することもできる。この場合、必要数決定部110は、危険コマンド名に対応づけられたパラメータに応じて、棄却単語の必要数を決定する。
この後、棄却単語生成部112は、各音声認識単語に対して、必要数決定部110が決定した必要数の棄却単語を生成する。棄却単語記憶部114は、棄却単語生成部112が生成した棄却単語を記憶する。
図4に戻り、音声認識部51aは、音声認識辞書作成システム100の音声認識辞書106を参照して、ユーザからの発話を含む周囲の音声を認識する。
本実施の形態においても、第一の実施の形態における音声認識辞書作成システム100と同様の効果が得られる。また、本実施の形態における音声認識辞書作成システム100によれば、ロボット200の動作に応じて、音声認識単語の棄却単語の生成数が決定されるため、ロボット200が誤動作を行うことを効果的に防ぐことができる。また、ロボット200の動作に対して、当該動作に対応付けられた音声認識単語に対し生成される棄却単語の数を決定するので、音声認識単語毎に棄却単語の数を多くするか否かを設定する必要がなく、簡易な処理で棄却単語の数を設定することができる。
(第四の実施の形態)
図11は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、第三の実施の形態において図8を参照して説明した構成に加えて、設定受付部120および更新処理部122をさらに含む。設定受付部120は、ユーザから、誤認識されると不具合がある音声認識単語の設定を受け付ける。更新処理部122は、設定受付部120が受け付けた設定に基づき、処理記憶部116を更新する。
図12は、本実施の形態における処理記憶部116の内部構成を示す図である。ここで、処理記憶部116は、音声認識単語とその音声認識単語に対する動作コマンドおよび引数を対応付けて記憶する動作記憶部116aと、誤認識されると不具合がある重要単語を記憶する重要単語記憶部116cとを含む。ここでは、「ゴマプリン」という単語が重要単語として重要単語記憶部116cに記憶されている。
ここで、重要単語とは、たとえばユーザがパスワードとして設定した単語とすることができる。たとえば、ユーザが、パスワードとして「ゴマプリン」と設定した場合、他人が発した他の言葉が「ゴマプリン」と誤認識されると、パスワードが解除されてしまうおそれがある。そのため、このような音声認識単語の棄却単語生成必要度が高くなるようにする必要がある。
図13は、特性判断部108が、棄却単語生成必要度を判断する手順を示すフローチャートである。
特性判断部108は、音声認識単語記憶部104から音声認識単語を取得する(S150)。つづいて、特性判断部108は、重要単語記憶部116cを参照して、その音声認識単語が重要単語か否かを判断する(S152)。特性判断部108は、音声認識単語が重要単語の場合(S152のYES)、その音声認識単語について、「棄却単語生成必要度=高」を出力する(S156)。一方、音声認識単語が重要単語でない場合(S152のNO)、特性判断部108は、その音声認識単語について、「棄却単語生成必要度=低」を出力する(S154)。
たとえば、図12に示した例では、音声認識単語「ゴマプリン」の棄却単語生成必要度は高となり、それ以外の「おはよう」、「こんにちわ」、「前進して」、「バックして」、「右むいて」、および「左むいて」の棄却単語生成必要度は低となる。
また、重要単語記憶部116cにおいて、重要単語に、その重要単語の重要度を示すパラメータを対応づけて記憶することもできる。この場合、必要数決定部110は、重要単語に対応づけられたパラメータに応じて、棄却単語の必要数を決定する。
この後、棄却単語生成部112は、各音声認識単語に対して、必要数決定部110が決定した必要数の棄却単語を生成する。棄却単語記憶部114は、棄却単語生成部112が生成した棄却単語を記憶する。
図4に戻り、音声認識部51aは、音声認識辞書作成システム100の音声認識辞書106を参照して、ユーザからの発話を含む周囲の音声を認識する。
本実施の形態においても、第一の実施の形態における音声認識辞書作成システム100と同様の効果が得られる。また、本実施の形態における音声認識辞書作成システム100によれば、ロボット200が音声の誤認識をしたために誤動作が生じると不都合が生じる音声認識単語に対し生成される棄却単語の数を多くするように設定することができる。これにより、ロボット200が不都合な動作を行うことを防ぐことができる。
(第五の実施の形態)
図14は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、第四の実施の形態において図11を参照して説明した構成に加えて、判断結果記憶部124をさらに含む。本実施の形態において、特性判断部108は、第一〜第四の実施の形態でそれぞれ説明したのと同様に、音声認識単語自体の誤認識のされやすさ、音声認識単語が重要単語か否か、音声認識単語に対応付けられた動作コマンドが危険コマンドか否かをそれぞれ判断する。判断結果記憶部124は、特性判断部108の各判断結果を記憶する。必要数決定部110は、判断結果記憶部124を参照して、すべての判断結果を統合して各音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する。
図15は、特性判断部108が、棄却単語生成必要度を判断する手順を示すフローチャートである。
特性判断部108は、音声認識単語記憶部104から音声認識単語を取得する(S170)。つづいて、特性判断部108は、第一の実施の形態で説明したのと同様にして、その音声認識単語の誤認識のされやすさを判断する(S172)。特性判断部108は、その結果を音声認識単語に対応付けて判断結果記憶部124に記憶する。次いで、特性判断部108は、処理記憶部116を参照して、その音声認識単語が重要単語か否かを判断する(S174)。重要単語の場合(S174のYES)、棄却単語生成必要度を高として判断結果記憶部124に記憶する(S176)。次いで、特性判断部108は、処理記憶部116を参照して、その音声認識単語に対応付けられた動作コマンドが危険コマンドか否かを判断する(S178)。危険コマンドの場合(S178のYES)、棄却単語生成必要度を高として判断結果記憶部124に記憶する(S180)。次いで、特性判断部108は、必要数決定部110に、判断終了を通知する(S182)。
図16は、判断結果記憶部124の内部構成の一例を示す図である。
判断結果記憶部124には、音声認識単語毎に、誤認識のされやすさ、重要単語か否か、危険コマンドか否かが対応付けて記憶される。
必要数決定部110は、これらの判断結果を統合して、生成する棄却単語数を決定する。たとえば、重要単語や危険コマンドに対応付けられていても、誤認識がされにくい音声認識単語であれば、棄却単語数を多くする必要がない。一方、重要単語や危険コマンドに対応付けられていなくても、誤認識されやすい音声認識単語であれば、ある程度棄却単語数を多くする必要がある。
この後、棄却単語生成部112は、各音声認識単語に対して、必要数決定部110が決定した必要数の棄却単語を生成する。棄却単語記憶部114は、棄却単語生成部112が生成した棄却単語を記憶する。
図4に戻り、音声認識部51aは、音声認識辞書作成システム100の音声認識辞書106を参照して、ユーザからの発話を含む周囲の音声を認識する。
本実施の形態において、以上の実施の形態で説明した音声認識辞書作成システム100と同様の効果が得られる。さらに、本実施の形態における音声認識辞書作成システム100によれば、複数の要素を考慮して各音声認識単語に対し生成される棄却単語の数が決定されるので、音声認識をより精度よく行うことができる。また、棄却単語数を最適に保つ
ことにより、音声認識速度を高く保つことができる。
以上の実施の形態で説明したロボット200および音声認識辞書作成システム100の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インターフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。実施の形態で説明した各図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
以上の実施の形態においては、音声認識辞書作成システム100がロボット200に含まれる形態を説明したが、音声認識辞書作成システム100は、ロボット200外部に設けられ、ロボット200から必要な情報を読み出して、棄却単語を生成する処理を行い、生成した棄却単語をロボット200に送出する構成とすることもできる。
また、以上の実施の形態においては、音声認識辞書作成システム100がロボット200に組み込まれた形態を説明したが、音声認識辞書作成システム100は、ロボット200以外の音声認識機能を有する種々のシステムに組み込まれた構成とすることができる。
図17は、音声認識辞書作成システム100が、音声認識辞書106とは別に構成され、音声認識辞書106が外部の端末152に組み込まれた形態を示すブロック図である。
音声認識単語取得部102は、たとえばネットワーク150を介して外部の端末152から、音声認識単語を取得する。音声認識単語記憶部104、特性判断部108、必要数決定部110、棄却単語生成部112、および棄却単語記憶部114は以上の実施の形態で説明したのと同様の処理を行う。棄却単語送出部140は、たとえばネットワーク150を介して棄却単語記憶部114に記憶された棄却単語を外部の端末152に送出する。ここでは、音声認識辞書作成システム100として第一の実施の形態で説明した構成を示したが、他の実施の形態で説明した音声認識辞書作成システム100についても同様にすることができる。
図18は、図17に示した外部の端末152がロボット200である場合の例を示すブロック図である。
ロボット200は、実施の形態において図4に示したロボット200の音声認識辞書作成システム100にかえて音声認識辞書106と、通信制御部60とを有する。音声認識辞書106には、予め音声認識単語の集合を格納した音声認識単語記憶部が含まれる。通信制御部60は、図17に示したネットワーク150を介して、音声認識辞書作成システム100とデータの送受信を行い、音声認識辞書作成システム100に音声認識単語を送出し、それに基づき音声認識辞書作成システム100が生成した棄却単語を受信して音声認識辞書106に記憶する。通信制御部60は、必要に応じて、シナリオ記憶部52やロボット言動データベース53の情報も音声認識辞書作成システム100に送出する。音声認識辞書作成システム100は、これらの情報に基づき、ロボット200の動作に応じて音声認識単語に対する棄却単語の数を決定する。
また、図17に示した外部の端末152の変形例として、棄却単語送出部を含まないようにするとともに、音声認識部を含む構成とすることもできる。この場合、音声認識単語取得部102は、外部の音声認識辞書106の音声認識単語記憶部から音声認識単語の集合である音声認識語彙を取得して音声認識単語記憶部104に記憶する。また、棄却単語生成部112は、取得された音声認識語彙に基づいて棄却単語を生成し、棄却単語記憶部114に記憶する。音声認識部(不図示)は、音声認識辞書作成システム100内の音声認識単語記憶部104および棄却単語記憶部114により構成される音声認識辞書を用いて音声認識を行う。
本発明の実施の形態におけるロボットの一例を示す外観構成図である。 ロボットの電気的構成の一例を示すブロック図である。 ロボットの動作を示すフローチャートである。 図2に示したコントローラの機能的構成例を示すブロック図である。 実施の形態における音声認識辞書作成システムの構成を示すブロック図である。 特性判断部が各音声認識単語の誤認識のされやすさを判断する手順を示すフローチャートである。 実施の形態における音声認識辞書作成システムの構成を示すブロック図である。 実施の形態における音声認識辞書作成システムの構成を示すブロック図である。 処理記憶部の内部構成を示す図である。 特性判断部が、棄却単語生成必要度を判断する手順を示すフローチャートである。 実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。 実施の形態における処理記憶部の内部構成を示す図である。 特性判断部が、棄却単語生成必要度を判断する手順を示すフローチャートである。 実施の形態における音声認識辞書作成システムの構成を示すブロック図である。 特性判断部が、棄却単語生成必要度を判断する手順を示すフローチャートである。 判断結果記憶部の内部構成の一例を示す図である。 音声認識辞書作成システムが、外部の端末に組み込まれる音声認識辞書を作成する形態を示すブロック図である。 図17に示した外部の端末がロボットである場合の例を示すブロック図である。
符号の説明
1 胴体部
2 頭部
3A、3B 車輪
10 コントローラ
10A CPU
10B メモリ
11 バッテリ
12 スピーカ
13 マイクロフォン
14A、14B アクチュエータ
21A、21B CCDカメラ
22A、22B アクチュエータ
23 タッチセンサ
51 センサ入力処理部
51a 音声認識部
51b 状況認識部
52 シナリオ記憶部
53 ロボット言動データベース
54 全体制御部
55 メカ制御部
56 音声合成部
57 出力部
60 通信制御部
100 音声認識辞書作成システム
102 音声認識単語取得部
104 音声認識単語記憶部
106 音声認識辞書
108 特性判断部
110 必要数決定部
112 棄却単語生成部
114 棄却単語記憶部
116 処理記憶部
116a 動作記憶部
116b 危険コマンド記憶部
116c 重要単語記憶部
120 設定受付部
122 更新処理部
124 判断結果記憶部
130 雑音データベース
132 雑音出力部
134 音声認識部
136 誤認識結果記憶部
140 棄却単語送出部
150 ネットワーク
152 外部の端末
200 ロボット

Claims (17)

  1. 音声認識の対象とする音声認識単語を記憶する音声認識単語記憶部と、
    前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定部と、
    前記音声認識単語に対して、前記必要数決定部が決定した必要数の前記棄却単語を生成する棄却単語生成部と、
    前記棄却単語生成部が生成した前記棄却単語を記憶する棄却単語記憶部と、
    を含むことを特徴とする音声認識辞書作成システム。
  2. 請求項1に記載の音声認識辞書作成システムにおいて、
    前記音声認識単語と、当該音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理と、を対応付けて記憶する処理記憶部をさらに含み、
    前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記応答処理に応じて前記必要数を決定することを特徴とする音声認識辞書作成システム。
  3. 請求項2に記載の音声認識辞書作成システムにおいて、
    前記処理記憶部は、前記応答処理に、当該応答処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータを対応付けて記憶し、
    前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することを特徴とする音声認識辞書作成システム。
  4. 請求項2または3に記載の音声認識辞書作成システムにおいて、
    前記音声認識単語に対する前記システムの応答処理の変更を受け付ける変更受付部と、
    前記変更受付部が受け付けた変更に基づき前記処理記憶部を更新する更新処理部と、
    をさらに含み、
    前記必要数決定部は、前記更新処理部が前記処理記憶部を更新すると、更新後の前記処理記憶部を参照して、該当する前記音声認識単語の前記必要数を決定し、
    前記更新処理部は、前記必要数決定部が決定した前記必要数に応じて、前記棄却単語記憶部を更新することを特徴とする音声認識辞書作成システム。
  5. 請求項2乃至4いずれかに記載の音声認識辞書作成システムにおいて、
    前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部をさらに含み、
    前記必要数決定部は、前記誤認識度合い算出部が算出した前記誤認識度合いと、該当する前記音声認識単語に対応付けられた前記応答処理とに応じて、前記必要数を決定することを特徴とする音声認識辞書作成システム。
  6. 請求項1に記載の音声認識辞書作成システムにおいて、
    前記必要数決定部は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部を含み、前記誤認識度合い算出部が算出した誤認識度合いに応じて、前記必要数を決定することを特徴とする音声認識辞書作成システム。
  7. 請求項5または6に記載の音声認識辞書作成システムにおいて、
    雑音を出力する雑音出力部と、
    前記音声認識単語記憶部に記憶された前記音声認識単語とのマッチングにより、前記雑音出力部から出力された雑音の音声認識処理を行い、音声認識結果を出力する音声認識部と、
    をさらに含み、
    前記誤認識度合い算出部は、前記音声認識部の音声認識結果に基づき、前記誤認識度合いを算出することを特徴とする音声認識辞書作成システム。
  8. 音声認識の対象とする音声認識単語を取得するステップと、
    前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定するステップと、
    前記音声認識単語に対して、前記必要数の前記棄却単語を生成するステップと、
    を含むことを特徴とする音声認識辞書作成方法。
  9. 請求項8に記載の音声認識辞書作成方法において、
    前記棄却単語の必要数を決定するステップにおいて、前記音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理に応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。
  10. 請求項9に記載の音声認識辞書作成方法において、
    前記棄却単語の必要数を決定するステップは、前記応答処理と、当該処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータとを取得するステップを含み、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することを特徴とする音声認識辞書作成方法。
  11. 請求項9または10に記載の音声認識辞書作成方法において、
    前記音声認識単語に対する前記システムの応答処理の変更を受け付けるステップをさらに含み、
    前記棄却単語の必要数を決定するステップにおいて、前記変更を受け付けるステップが受け付けた前記処理に応じて、前記必要数を再決定し、
    前記棄却単語を生成するステップにおいて、前記棄却単語の必要数を決定するステップで再決定された前記必要数の前記棄却単語を再生成することを特徴とする音声認識辞書作成方法。
  12. 請求項9乃至11いずれかに記載の音声認識辞書作成方法において、
    前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含み、
    前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いと、前記応答処理とに応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。
  13. 請求項8に記載の音声認識辞書作成方法において、
    前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含み、
    前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いに応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。
  14. 請求項12または13に記載の音声認識辞書作成方法において、
    雑音を出力するステップと、
    前記雑音を入力し、前記音声認識単語とのマッチングにより、前記雑音の音声認識処理を行い、音声認識結果を出力するステップと、
    をさらに含み、
    前記誤認識度合いを算出するステップにおいて、前記音声認識結果を出力するステップにおける前記音声認識結果に基づき、前記誤認識度合いを算出することを特徴とする音声認識辞書作成方法。
  15. 請求項1乃至7いずれかに記載の音声認識辞書作成システムと、
    音声を入力する音声入力部と、
    前記音声認識単語記憶部に記憶された前記音声認識単語および前記棄却単語記憶部に記憶された前記棄却単語とのマッチングにより、前記音声入力部が入力した音声の音声認識処理を行う音声認識部と、
    前記音声認識部が認識した音声認識結果に基づき、応答処理を行う制御部と、
    を含むことを特徴とする音声認識システム。
  16. 請求項15に記載の音声認識システムを含むことを特徴とするロボット。
  17. コンピュータを、
    音声認識の対象とする音声認識単語を記憶する音声認識単語記憶手段、
    前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定手段、
    前記音声認識単語に対して、前記必要数決定手段が決定した必要数の前記棄却単語を生成する棄却単語生成手段、
    前記棄却単語生成手段が生成した前記棄却単語を記憶する棄却単語記憶手段、
    として機能させることを特徴とするプログラム。
JP2004348828A 2004-12-01 2004-12-01 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット Active JP4539313B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004348828A JP4539313B2 (ja) 2004-12-01 2004-12-01 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004348828A JP4539313B2 (ja) 2004-12-01 2004-12-01 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Publications (2)

Publication Number Publication Date
JP2006154658A JP2006154658A (ja) 2006-06-15
JP4539313B2 true JP4539313B2 (ja) 2010-09-08

Family

ID=36633014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004348828A Active JP4539313B2 (ja) 2004-12-01 2004-12-01 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Country Status (1)

Country Link
JP (1) JP4539313B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008033198A (ja) * 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
JP5200712B2 (ja) 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
JP5476760B2 (ja) * 2009-03-26 2014-04-23 ヤマハ株式会社 コマンド認識装置
JP5824829B2 (ja) 2011-03-15 2015-12-02 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001147698A (ja) * 1999-11-22 2001-05-29 Hitachi Ltd 音声認識用疑似単語生成方法及び音声認識装置
JP2002372988A (ja) * 2001-06-14 2002-12-26 Nec Corp 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP2004005103A (ja) * 2002-05-31 2004-01-08 Toshiba Corp 類似文書検索装置および類似文書検索方法
JP2004325936A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259515A (ja) * 1998-03-12 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001147698A (ja) * 1999-11-22 2001-05-29 Hitachi Ltd 音声認識用疑似単語生成方法及び音声認識装置
JP2002372988A (ja) * 2001-06-14 2002-12-26 Nec Corp 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP2004005103A (ja) * 2002-05-31 2004-01-08 Toshiba Corp 類似文書検索装置および類似文書検索方法
JP2004325936A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体

Also Published As

Publication number Publication date
JP2006154658A (ja) 2006-06-15

Similar Documents

Publication Publication Date Title
US10515623B1 (en) Non-speech input to speech processing system
JP6574169B2 (ja) 多方向の復号をする音声認識
US11990120B2 (en) Non-speech input to speech processing system
US10692489B1 (en) Non-speech input to speech processing system
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
Novoa et al. DNN-HMM based automatic speech recognition for HRI scenarios
JP6654611B2 (ja) 成長型対話装置
JP5494468B2 (ja) 状態検出装置、状態検出方法および状態検出のためのプログラム
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
KR101579533B1 (ko) 차량 및 그 제어 방법
JP6705410B2 (ja) 音声認識装置、音声認識方法、プログラム及びロボット
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP6696803B2 (ja) 音声処理装置および音声処理方法
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
JP4539313B2 (ja) 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット
Nakadai et al. A robot referee for rock-paper-scissors sound games
JP4600736B2 (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP4706893B2 (ja) 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
US20090254335A1 (en) Multilingual weighted codebooks
JP4919282B2 (ja) 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100614

R150 Certificate of patent or registration of utility model

Ref document number: 4539313

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3