JP2006154658A

JP2006154658A - 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Info

Publication number: JP2006154658A
Application number: JP2004348828A
Authority: JP
Inventors: Toru Iwazawa; 透岩沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-12-01
Filing date: 2004-12-01
Publication date: 2006-06-15
Anticipated expiration: 2024-12-01
Also published as: JP4539313B2

Abstract

【課題】音声認識の精度を高めるとともに、音声認識を迅速に行う。
【解決手段】音声認識辞書作成システム１００は、音声認識の対象とする音声認識単語を記憶する音声認識単語記憶部１０４と、音声認識単語の特性を判断する特性判断部１０８と、音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定部１１０と、音声認識単語に対して、必要数決定部が決定した必要数の棄却単語を生成する棄却単語生成部１１２と、棄却単語生成部が生成した棄却単語を記憶する棄却単語記憶部１１４と、を含む。
【選択図】図５

Description

本発明は、音声認識辞書作成システム、音声認識辞書作成方法、ならびにそれらにより作成された音声認識辞書を含む音声認識システムおよびロボットに関する。

特許文献１には、ひとつまたは複数の単語を入力し、入力された単語と他の単語の類似度を算出し、算出された単語の類似度に基づいて、上記入力された単語とは異なる単語を生成する音声認識用疑似単語生成方法が開示されている。また、他の単語に対する類似度が付された疑似単語とキーワードを認識候補辞書として保持する辞書部と、発声された音声と前記辞書部に保持されている認識候補辞書に含まれる単語との類似度を出力する照合部と、前記照合部によって出力される類似度が最も高い単語が、前記疑似単語である場合に認識結果を棄却する棄却部を有する音声認識装置が開示されている。これにより、与えられた認識候補から自動的に棄却用疑似単語を生成し、さらに認識候補の順位情報を利用することで、容易に安定した候補外発声棄却機能を実現することができると記載されている。
特開２００１−１４７６９８号公報

しかし、従来の音声認識用疑似単語生成方法では、音声認識の精度を高めるためには、キーワードに対して生成される疑似単語の数を多くする必要があるが、一方、疑似単語の数を多くすると、音声認識処理に時間がかかるという課題があった。

本発明は上記事情を踏まえてなされたものであり、本発明の目的は、音声認識の精度を高めるとともに、音声認識を迅速に行う技術を提供することにある。

本発明によれば、音声認識の対象とする音声認識単語を記憶する音声認識単語記憶部と、前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定部と、前記音声認識単語に対して、前記必要数決定部が決定した必要数の前記棄却単語を生成する棄却単語生成部と、前記棄却単語生成部が生成した前記棄却単語を記憶する棄却単語記憶部と、を含むことを特徴とする音声認識辞書作成システムが提供される。

ここで、音声認識辞書は、音声認識単語記憶部と棄却単語記憶部とにより構成することができる。音声認識単語の特性とは、音声認識単語自体の誤認識のされやすさや、音声認識単語が誤認識された場合の不都合の生じ具合等とすることができる。

本発明の音声認識辞書作成システムによれば、音声認識単語の特性に応じて、その音声認識単語に対する棄却単語の生成数を異ならせるので、誤認識がされやすい単語や誤認識された場合に不都合が生じる単語については、多くの棄却単語を生成することにより音声認識精度を高めることができる。一方、誤認識がされにくい単語や誤認識された場合の不都合の度合いが低い単語については、棄却単語の数を少なくすることにより、全体としての音声認識処理の時間を短縮することができる。

本発明の音声認識辞書作成システムは、前記音声認識単語と、当該音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理と、を対応付けて記憶する処理記憶部をさらに含むことができ、前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記応答処理に応じて前記必要数を決定することができる。

このようにすれば、たとえば、音声認識単語に対応づけられたシステムの応答処理がシステムの危険な動作やユーザの不利益に関わるような処理の場合、多くの棄却単語を生成することにより誤認識を生じにくくすることができる。

本発明の音声認識辞書作成システムにおいて、前記処理記憶部は、前記応答処理に、当該応答処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータを対応付けて記憶することができ、前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することができる。

本発明によれば、応答処理がシステムの危険な動作やユーザの不利益に関わるような処理の場合、予め誤認識を抑制すべきパラメータを高く設定するようにしておくことにより、その応答処理に対応づけられた音声認識単語の棄却単語を多く生成することができ、誤認識を生じにくくすることができる。

本発明の音声認識辞書作成システムは、前記音声認識単語に対する前記システムの応答処理の変更を受け付ける変更受付部と、前記変更受付部が受け付けた変更に基づき前記処理記憶部を更新する更新処理部と、をさらに含むことができ、前記必要数決定部は、前記更新処理部が前記処理記憶部を更新すると、更新後の前記処理記憶部を参照して、該当する前記音声認識単語の前記必要数を決定することができ、前記更新処理部は、前記必要数決定部が決定した前記必要数に応じて、前記棄却単語記憶部を更新することができる。

このようにすれば、音声認識単語に対応づけられた応答処理に変更があった場合に、新たに対応づけられた応答処理に応じて音声認識単語に対し生成される棄却単語の数を変更することができるので、音声認識処理が行われるシステムの実際の動作に適合する音声認識辞書を提供することができる。また、本発明の音声認識辞書作成システムによれば、不要音声による誤認識可能性が高い音声認識単語、または誤認識を避けたい音声認識単語に対する棄却単語の数を動的に制御することができる。

本発明の音声認識辞書作成システムは、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部をさらに含むことができ、前記必要数決定部は、前記誤認識度合い算出部が算出した前記誤認識度合いと、該当する前記音声認識単語に対応付けられた前記応答処理とに応じて、前記必要数を決定することができる。

このようにすれば、たとえば、音声認識単語に対応づけられたシステムの応答処理を考慮すると、より多くの棄却単語を生成すべきであっても、その音声認識単語が誤認識の生じにくいものである場合、生成する棄却単語の数をある程度抑えることができ、音声認識処理の時間を短縮することができる。

本発明の音声認識辞書作成システムにおいて、前記必要数決定部は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部を含むことができ、前記誤認識度合い算出部が算出した誤認識度合いに応じて、前記必要数を決定することができる。

このようにすれば、音声認識単語に応じて、誤認識されやすい単語については多くの棄却単語を生成することにより音声認識精度を高めることができる。一方、誤認識がされにくい単語については、棄却単語の数を少なくすることにより、全体としての音声認識処理の時間を短縮することができる。

本発明の音声認識辞書作成システムは、雑音を出力する雑音出力部と、前記音声認識単語記憶部に記憶された前記音声認識単語とのマッチングにより、前記雑音出力部から出力された雑音の音声認識処理を行い、音声認識結果を出力する音声認識部と、をさらに含むことができ、前記誤認識度合い算出部は、前記音声認識部の音声認識結果に基づき、前記誤認識度合いを算出することができる。

このようにすれば、実際に誤認識されやすい単語を検出することができ、その検出結果に応じて棄却単語の数が決定される。そのため、音声認識の精度を高めることができる。

本発明によれば、音声認識の対象とする音声認識単語を取得するステップと、前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定するステップと、前記音声認識単語に対して、前記必要数の前記棄却単語を生成するステップと、を含むことを特徴とする音声認識辞書作成方法が提供される。

本発明の音声認識辞書作成方法において、前記棄却単語の必要数を決定するステップにおいて、前記音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理に応じて、前記必要数を決定することができる。

本発明の音声認識辞書作成方法において、前記棄却単語の必要数を決定するステップは、前記応答処理と、当該処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータとを取得するステップを含むことができ、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することができる。

本発明の音声認識辞書作成方法は、前記音声認識単語に対する前記システムの応答処理の変更を受け付けるステップをさらに含むことができ、前記棄却単語の必要数を決定するステップにおいて、前記変更を受け付けるステップが受け付けた前記処理に応じて、前記必要数を再決定することができ、前記棄却単語を生成するステップにおいて、前記棄却単語の必要数を決定するステップで再決定された前記必要数の前記棄却単語を再生成することができる。

本発明の音声認識辞書作成方法は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含むことができ、前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いと、前記応答処理とに応じて、前記必要数を決定することができる。

本発明の音声認識辞書作成方法は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含むことができ、前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いに応じて、前記必要数を決定することができる。

本発明の音声認識辞書作成方法は、雑音を出力するステップと、前記雑音を入力し、前記音声認識単語とのマッチングにより、前記雑音の音声認識処理を行い、音声認識結果を出力するステップと、をさらに含むことができ、前記誤認識度合いを算出するステップにおいて、前記音声認識結果を出力するステップにおける前記音声認識結果に基づき、前記誤認識度合いを算出することができる。

本発明によれば、上記いずれかに記載の音声認識辞書作成システムと、音声を入力する音声入力部と、前記音声認識単語記憶部に記憶された前記音声認識単語および前記棄却単語記憶部に記憶された前記棄却単語とのマッチングにより、前記音声入力部が入力した音声の音声認識処理を行う音声認識部と、前記音声認識部が認識した音声認識結果に基づき、応答処理を行う制御部と、を含むことを特徴とする音声認識システムが提供される。

本発明によれば、上記音声認識システムを含むことを特徴とするロボットが提供される。

上記のような音声認識システムを、移動したりユーザと対話したりするロボットに適用することにより、ロボットが音声を誤認識することによる誤動作等を防ぐことができる。

本発明によれば、コンピュータを、音声認識の対象とする音声認識単語を記憶する音声認識単語記憶手段、前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定手段、前記音声認識単語に対して、前記必要数決定手段が決定した必要数の前記棄却単語を生成する棄却単語生成手段、前記棄却単語生成手段が生成した前記棄却単語を記憶する棄却単語記憶手段、として機能させることを特徴とするプログラムが提供される。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、音声認識の精度を高めるとともに、音声認識を迅速に行う技術を提供することができる。

次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

以下の実施の形態において、音声認識辞書作成システムが、ロボットに組み込まれる例を説明する。まず、ロボットの構成を説明する。

図１は、実施の形態におけるロボットの一例を示す外観構成図である。ロボット２００は、たとえば、胴体部１および頭部２が連結されることにより構成される。胴体部１の下部には左右にそれぞれ車輪３Ａおよび車輪３Ｂが取り付けられており、これらの車輪は、独立に前後に回転することができる。

頭部２は、胴体部１に垂直に取り付けられた垂直軸とその垂直軸に対して９０度の角度で設置された水平軸に関して決められた範囲で回転することができる。垂直軸は頭部２の中心を通るように設置されており、水平軸は胴体１と頭部２が正面を向いた状態で頭部２の中心を通りかつ左右方向に水平に設置されている。つまり、頭部２は左右と上下の２自由度で、決められた範囲内で回転することができる。

胴体部１の表面には、スピーカ１２およびマイクロフォン１３が設けられる。また、頭部２の表面には、ＣＣＤカメラ２１ＡおよびＣＣＤカメラ２１Ｂ、ならびにタッチセンサ２３が設けられる。

図２は、ロボット２００の電気的構成の一例を示すブロック図である。
胴体部１には、ロボット全体の制御を行うコントローラ１０、ロボットの動力源となるバッテリ１１、スピーカ１２、マイクロフォン１３、２つの車輪を動かすためのアクチュエータ１４Ａおよびアクチュエータ１４Ｂ等が収納されている。

マイクロフォン１３は、特定の対話相手からの発話を含む周囲の音声を集音し、得られた音声信号をコントローラ１０に送出する。また、ここではマイクロフォン１３を一つしか図示してないが、ロボット２００には複数のマイクロフォン１３を設けることができる。これらの一部を用いて対話相手の音声を取得し、他の一部を用いて、対話相手以外の周囲の音声を取得するようにすることができる。

コントローラ１０は、ＣＰＵ１０Ａやメモリ１０Ｂを内蔵しており、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された制御プログラムが実行されることにより、各種の処理を行う。

頭部２には、ＣＣＤカメラ２１ＡおよびＣＣＤカメラ２１Ｂ、頭部２を回転するためのアクチュエータ２２Ａおよびアクチュエータ２２Ｂ、ならびにタッチセンサ２３等が収納されている。

ＣＣＤカメラ２１ＡおよびＣＣＤカメラ２１Ｂは、周囲の状況を撮像し、得られた画像信号を、コントローラ１０に送出する。タッチセンサ２３は、たとえば人が触れたことを感知する。アクチュエータ２２Ａおよびアクチュエータ２２Ｂは、ロボット２００の頭部２を上下左右に回転させる。

コントローラ１０は、マイクロフォン１３、ＣＣＤカメラ２１Ａ、およびＣＣＤカメラ２１Ｂから得られる音声信号や画像信号に基づいて、メモリ１０Ｂから適宜情報を読み出し、周囲の状況や、人間からの指令を解析し、行動を行うか、合成音を生成するかを判断する。

行動を行う場合、コントローラ１０は、続く行動を決定し、その決定結果に基づいて、アクチュエータ１４Ａ、アクチュエータ１４Ｂ、アクチュエータ２２Ａ、およびアクチュエータ２２Ｂを制御して頭部２を上下左右に回転させたり、ロボット２００を移動または回転させる等の行動を行わせる。

合成音を生成する場合、コントローラ１０は、合成音を生成し、スピーカ１２に供給して出力させる。

図３は、ロボット２００の動作を示すフローチャートである。
マイクロフォン１３は、ユーザからの発話を含む周囲の音声を集音し、得られた音声信号をコントローラ１０に送出する（Ｓ１）。また、ＣＣＤカメラ２１ＡおよびＣＣＤカメラ２１Ｂは、周囲の状況を撮像し、得られた画像信号を、コントローラ１０に送出する（Ｓ２）。コントローラ１０は、マイクロフォン１３、ＣＣＤカメラ２１Ａ、およびＣＣＤカメラ２１Ｂから送出された音声信号および画像信号に基づいて、適宜メモリ１０Ｂを読み出し、周囲の状況や、人間からの指令を解析し、それらに応じてロボット２００の動作を決定する（Ｓ３）。

ステップＳ３で決定された動作に音声出力が含まれる場合（Ｓ４のＹＥＳ）、コントローラ１０は、必要に応じて、合成音を生成し、スピーカ１２に供給して音声を出力させる（Ｓ５）。

また、ステップＳ３で決定された動作にロボット２００の行動が含まれる場合（Ｓ６のＹＥＳ）、コントローラ１０は、アクチュエータ１４Ａ、アクチュエータ１４Ｂ、アクチュエータ２２Ａ、およびアクチュエータ２２Ｂ等を駆動させる（Ｓ７）。これによりロボット２００の頭部２を上下左右に回転させたり、ロボット２００を移動または回転させる等の行動が行われる。

以上のような構成および動作により、ロボット２００は、周囲の状況等に基づいて、自律的に行動をとることができる。

図４は、図２に示したコントローラ１０の機能的構成例を示すブロック図である。なお、図４に示す機能的構成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御プログラムを実行することで実現される。

コントローラ１０は、特定の外部状態を認識するセンサ入力処理部５１、シナリオが格納されているシナリオ記憶部５２、特定の状況におけるロボットの発話データおよび動作データが格納されているロボット言動データベース５３、ロボット２００の行動を決定する全体制御部５４、全体制御部５４の決定結果に基づいて、アクチュエータ１４Ａ、アクチュエータ１４Ｂ、アクチュエータ２２Ａ、およびアクチュエータ２２Ｂを制御するメカ制御部５５、合成音を生成する音声合成部５６、および音声合成部５６において合成された合成音の出力を制御する出力部５７を含む。また、コントローラ１０は、音声認識辞書作成システム１００を含む。音声認識辞書作成システム１００の詳細は、各実施の形態において後述する。

センサ入力処理部５１は、音声認識部５１ａおよび状況認識部５１ｂを含む。音声認識部５１ａは、マイクロフォン１３から送出される情報を用いて、ユーザからの発話を含む周囲の音声を認識する。状況認識部５１ｂは、ユーザの行動を認識したり、周囲の状況を認識する。音声認識部５１ａおよび状況認識部５１ｂは、認識結果を全体制御部５４に通知する。

全体制御部５４は、センサ入力処理部５１からの通知、シナリオ記憶部５２に格納されているシナリオ情報、およびロボット言動データベース５３に格納されている発話動作情報に基づいて、ロボット２００の次の動作を決定し、決定された動作の内容を、メカ制御部５５と音声合成部５６に送出する。

メカ制御部５５は、全体制御部５４から送出された行動指令に基づいて、アクチュエータ１４Ａ、アクチュエータ１４Ｂ、アクチュエータ２２Ａ、およびアクチュエータ２２Ｂを駆動するための制御信号を生成し、これをアクチュエータ１４Ａ、１４Ｂ、２２Ａ、および２２Ｂへ送出する。これにより、アクチュエータ１４Ａ、１４Ｂ、２２Ａ、および２２Ｂは、制御信号にしたがって駆動する。

出力部５７には、音声合成部５６からの合成音のディジタルデータが供給されるようになっており、出力部５７は、それらのディジタルデータを、アナログの音声信号にＤ／Ａ変換し、スピーカ１２に供給して出力させる。

次に、音声認識辞書作成システム１００の構成を実施の形態毎に説明する。

（第一の実施の形態）
図５は、本実施の形態における音声認識辞書作成システム１００の構成を示すブロック図である。
音声認識辞書作成システム１００は、音声認識単語記憶部１０４、特性判断部１０８、必要数決定部１１０、棄却単語生成部１１２、および棄却単語記憶部１１４を含む。音声認識単語記憶部１０４および棄却単語記憶部１１４により音声認識辞書１０６が構成される。

音声認識単語記憶部１０４は、音声認識単語の集合である音声認識語彙を記憶する。

特性判断部１０８は、音声認識単語記憶部１０４に記憶された各音声認識単語の特性に基づき、その音声認識単語に対する棄却単語生成必要度を判断する。本実施の形態において、特性判断部１０８は、たとえば、音声認識単語自体の誤認識のされやすさを判断する。

特性判断部１０８は、処理対象の音声認識単語を解析し、その単語の誤認識のされやすさをパラメータで示す。ここでは、「誤認識されやすい」、「標準」、「誤認識されにくい」のいずれかのパラメータで示す。ここで、「誤認識されやすい」とは、不要音声により誤って出現しやすい音声認識単語のことである。誤認識のされやすさは、たとえば、音声認識単語の音節数、音声認識単語に含まれる特定音素の数、特定音素の音声認識単語全体に対する出現比率、音声認識単語に含まれる特定トライフォンの出現検出等に基づき判断することができる。誤認識のされやすさの判断に影響する特定音素や特定トライフォンは音声認識エンジンや音響モデルに依存するが、たとえば、有声子音を誤認識されやすい特定音素と仮定したり、無声子音を誤認識されにくい特定音素と仮定することができる。誤認識のされやすさの判定手法としてはさまざまな方法が考えられ、本発明はこの点でとくに限定されないが、一例として、有声子音を誤認識しやすい音素、無声子音を誤認識しづらい音素と仮定して誤認識のされやすさを推定する手法を示す。

図６は、特性判断部１０８が各音声認識単語の誤認識のされやすさを判断する手順を示すフローチャートである。ここでは、無声子音の出現比率に基づき、誤認識のされやすさを判断する例を示す。

特性判断部１０８は、音声認識単語記憶部１０４から音声認識単語を取得する（Ｓ１００）。つづいて、特性判断部１０８は、その音声認識単語の音節数を算出する（Ｓ１０２）。次いで、特性判断部１０８は、その音声認識単語の無声子音数を算出する（Ｓ１０４）。その後、特性判断部１０８は、無声子音の出現比率Ｒ＝無声子音数／音節数を算出する（Ｓ１０６）。

つづいて、特性判断部１０８は、無声子音の出現比率Ｒが第一の閾値Ｔｈ１以上か否かを判断し（Ｓ１０８）、第一の閾値Ｔｈ１以上の場合に（Ｓ１０８のＹＥＳ）、判断結果として「誤認識されにくい」を出力する（Ｓ１１４）。一方、ステップＳ１０８で無声子音の出現比率Ｒが第一の閾値Ｔｈ１よりも小さい場合（Ｓ１０８のＮＯ）、特性判断部１０８は、無声子音の出現比率Ｒが第二の閾値Ｔｈ２（１＞Ｔｈ１＞Ｔｈ２＞０）以上か否かを判断し（Ｓ１１０）、第二の閾値Ｔｈ２以上の場合に（Ｓ１１０のＮＯ）、判断結果として「標準」を出力する（Ｓ１１２）。また、ステップＳ１１０において、無声子音の出現比率Ｒが第二の閾値Ｔｈ２より小さい場合（Ｓ１１０のＹＥＳ）、特性判断部１０８は、判断結果として「誤認識されやすい」を出力する（Ｓ１１６）。

図５に戻り、必要数決定部１１０は、特性判断部１０８が判断した各音声認識単語の特性に応じて、その音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する。必要数決定部１１０は、棄却単語生成必要度の高い音声認識単語に対し多くの棄却単語を、棄却単語生成必要度の低い音声認識単語に対し少ない棄却単語を生成するように棄却単語の必要数を決定する。たとえば、棄却単語生成必要度が標準的な音声認識単語に対する棄却単語の必要数を「５」とした場合、棄却単語生成必要度が高い音声認識単語に対しては棄却単語の必要数を「１０」に、棄却単語生成必要度の低い音声認識単語に対しては棄却単語の必要数を「１」とすることができる。

本実施の形態において、必要数決定部１１０は、特性判断部１０８が出力した判断結果に基づき、棄却単語の必要数を決定する。たとえば、特性判断部１０８から出力された判断結果が「誤認識しやすい」の場合、必要数決定部１１０は、判断結果が「標準」や「誤認識しにくい」の音声認識単語よりも棄却単語の必要数が多くなるように決定する。また、たとえば、特性判断部１０８から出力された判断結果が「誤認識しにくい」の場合、必要数決定部１１０は、判断結果が「標準」の音声認識単語よりも棄却単語の必要数が少なくなるように決定する。

棄却単語生成部１１２は、各音声認識単語に対して、必要数決定部１１０が決定した必要数の棄却単語を生成する。棄却単語は、種々の方法により生成することができる。たとえば、音声認識単語の特徴を残したまま音節変換した擬似単語を生成し、その中から音声認識単語の正解発話を誤棄却する可能性のある類似単語を除去する方法、またはランダムに生成された音節列と音声認識単語の類似度を計算し、類似度がある閾値以下になるものを棄却単語とする方法等により生成することができる。棄却単語記憶部１１４は、棄却単語生成部１１２が生成した棄却単語を記憶する。

図４に戻り、音声認識部５１ａは、音声認識辞書作成システム１００の音声認識辞書１０６を参照して、ユーザからの発話を含む周囲の音声を認識する。

本実施の形態における音声認識辞書作成システム１００によれば、音声認識単語自体の誤認識のされやすさに応じてその単語の棄却単語の生成数が決定される。そのため、誤認識されやすい単語に対してはより多くの棄却単語を生成することにより、音声認識の精度を高めることができる。一方、誤認識されにくい単語に対しては、棄却単語の生成数を抑制することにより、音声認識速度を高めることができる。

（第二の実施の形態）
図７は、本実施の形態における音声認識辞書作成システム１００の構成を示すブロック図である。
音声認識辞書作成システム１００は、第一の実施の形態において図５を参照して説明した構成に加えて、雑音データベース１３０、雑音出力部１３２、音声認識部１３４、および誤認識結果記憶部１３６をさらに含む。ここで、音声認識部１３４としては、ロボット２００の音声認識部５１ａ（図４参照）を用いることができる。

雑音データベース１３０は、音声認識単語記憶部１０４に記憶された音声認識単語以外の雑音や周囲会話等の雑音声データを格納する。雑音出力部１３２は、雑音データベース１３０に記憶された雑音声データを順次音声認識部１３４に出力する。雑音出力部１３２は、スピーカで音声を物理的に出力してマイクロフォン等を介して音声認識部１３４に音声データを入力させるようにすることができる。また、雑音出力部１３２は、雑音データベース１３０に記憶された雑音声データをＷＡＶＥ等の音声ファイル形式で直接音声認識部１３４に入力させるようにすることもできる。

音声認識部１３４は、雑音出力部１３２から出力された雑音声データを入力データとして、音声認識単語記憶部１０４を参照して音声認識を行う。音声認識部１３４の認識結果は、誤認識結果記憶部１３６に記憶される。

音声認識部１３４は、音声認識した結果を特性判断部１０８に出力する。音声認識部１３４は、音声認識単語記憶部１０４に記憶された音声認識単語のうち、雑音声データにより誤認識されたスコアが高いものをスコアに対応付けて出力することができる。また、音声認識部１３４は、スコアが所定の閾値を超えるものを誤認識されやすい単語として出力することができる。

特性判断部１０８は、音声認識部１３４から出力された誤認識結果のスコアに応じて、各音声認識単語の特性を判断する。具体的には、特性判断部１０８は、たとえば、複数の音声区間の雑音声データに対して、誤認識されたスコアが所定の閾値を超えた回数に応じて、各音声認識単語の特性を判断することができる。特性判断部１０８は、たとえば、音声認識部１３４から出力されたスコアに応じて、各音声認識単語を「誤認識されやすい」、「標準」等と判断することができる。また、特性判断部１０８は、音声認識部１３４により一度も誤認識されなかった音声認識単語については、「誤認識されにくい」と判断することができる。また、特性判断部１０８は、音声認識部１３４から出力されたスコアに応じて、各音声認識単語のご認識のされやすさをパラメータで表すこともできる。必要数決定部１１０は、特性判断部１０８が出力した判断結果に基づき、棄却単語の必要数を決定する。

この後、棄却単語生成部１１２は、各音声認識単語に対して、必要数決定部１１０が決定した必要数の棄却単語を生成する。棄却単語記憶部１１４は、棄却単語生成部１１２が生成した棄却単語を記憶する。

本実施の形態においても、第一の実施の形態における音声認識辞書作成システム１００と同様の効果が得られる。また、本実施の形態における音声認識辞書作成システム１００によれば、雑音声データを用いて、各音声認識単語が実際に誤認識が生じやすいか否かに基づき、その音声認識単語の棄却単語の生成数が決定される。そのため、音声認識の精度をより高めることができる。

（第三の実施の形態）
図８は、本実施の形態における音声認識辞書作成システム１００の構成を示すブロック図である。
音声認識辞書作成システム１００は、第一の実施の形態において図５を参照して説明した構成に加えて、処理記憶部１１６をさらに含む。処理記憶部１１６は、音声認識単語とその音声認識単語に対するロボット２００の処理とを対応付けて記憶する。ここで、処理記憶部１１６は、ロボット２００のシナリオ記憶部５２やロボット言動データベース５３とすることができる。

図９は、処理記憶部１１６の内部構成の一部を示す図である。ここで、処理記憶部１１６は、音声認識単語とその音声認識単語に対する動作コマンドおよび引数を対応付けて記憶する動作記憶部１１６ａと、危険コマンドを記憶する危険コマンド記憶部１１６ｂとを含む。

動作記憶部１１６ａは、音声認識単語欄と、動作コマンド欄と、動作引数欄とを含む。たとえば、音声認識単語が「おはよう」の場合、ロボット２００の動作コマンドは「発話」で、動作引数は「おはようございます」である。ロボット２００は、「おはよう」という単語を認識すると、「おはようございます」という発話を行う。また、たとえば、音声認識単語が「前進して」の場合、ロボット２００の動作コマンドは「前進」で、動作引数は「１ｍ」である。ロボット２００は、「前進して」という単語を認識すると、１ｍ前進する動作を行う。

危険コマンド記憶部１１６ｂは、動作記憶部１１６ａの音声認識単語に対応付けられた動作コマンドが音声の誤認識により実行されると危険なコマンドを記憶する。ここでは、危険コマンド記憶部１１６ｂには、危険コマンドとして、「前進」、「後退」が記憶されている。たとえば、ロボット２００が階段の上に配置されている場合に、ユーザが発した他の言葉が「前進して」や「後退して」と誤認識されると、ロボット２００が前進したり後退したりして、階段から落ちてしまう等の危険が生じる。そのため、このような動作コマンドに対応付けられた音声認識単語の棄却単語生成必要度が高くなるようにする必要がある。

なお、図９では、危険コマンド記憶部１１６ｂには、動作コマンドのみを設定した例を示したが、動作コマンドとともに、動作引数についても設定することができる。たとえば、危険コマンドとして、「動作コマンド「前進」＋動作引数「２ｍ以上」」、「動作コマンド「後退」＋動作引数「２ｍ以上」」と設定することもできる。

図８に戻り、特性判断部１０８は、処理記憶部１１６を参照して、危険コマンドとして設定された動作コマンドに対応付けられた音声認識単語について、棄却単語生成必要度が高いと判断する。必要数決定部１１０は、特性判断部１０８が出力した判断結果に基づき、棄却単語の必要数を決定する。

図１０は、特性判断部１０８が、棄却単語生成必要度を判断する手順を示すフローチャートである。

特性判断部１０８は、音声認識単語記憶部１０４から音声認識単語を取得する（Ｓ１３０）。つづいて、特性判断部１０８は、処理記憶部１１６の動作記憶部１１６ａを参照してその音声認識単語に対応付けられた動作コマンドを取得する（Ｓ１３２）。次いで、特性判断部１０８は、処理記憶部１１６の危険コマンド記憶部１１６ｂを参照して、ステップＳ１３２で取得した動作コマンドが危険コマンドか否かを判断する（Ｓ１３４）。特性判断部１０８は、動作コマンドが危険コマンドの場合（Ｓ１３４のＹＥＳ）、その音声認識単語について、「棄却単語生成必要度＝高」を出力する（Ｓ１３８）。一方、動作コマンドが危険コマンドでない場合（Ｓ１３４のＮＯ）、特性判断部１０８は、その音声認識単語について、「棄却単語生成必要度＝低」を出力する（Ｓ１３６）。

たとえば、図９に示した例では、音声認識単語「前進して」および「バックして」の棄却単語生成必要度は高となり、それ以外の「おはよう」、「こんにちわ」、「右むいて」、「左むいて」の棄却単語生成必要度は低となる。

また、ここでは図示していないが、たとえば「移動して」や「ジグザグに進んで」等の音声認識単語が、「前進」や「後退」等の動作コマンドに対応付けられている場合、これらの音声認識単語についても、棄却単語生成必要度が高とされる。

また、危険コマンド記憶部１１６ｂにおいて、危険コマンド名に、その危険コマンドの危険度を示すパラメータを対応づけて記憶することもできる。この場合、必要数決定部１１０は、危険コマンド名に対応づけられたパラメータに応じて、棄却単語の必要数を決定する。

本実施の形態においても、第一の実施の形態における音声認識辞書作成システム１００と同様の効果が得られる。また、本実施の形態における音声認識辞書作成システム１００によれば、ロボット２００の動作に応じて、音声認識単語の棄却単語の生成数が決定されるため、ロボット２００が誤動作を行うことを効果的に防ぐことができる。また、ロボット２００の動作に対して、当該動作に対応付けられた音声認識単語に対し生成される棄却単語の数を決定するので、音声認識単語毎に棄却単語の数を多くするか否かを設定する必要がなく、簡易な処理で棄却単語の数を設定することができる。

（第四の実施の形態）
図１１は、本実施の形態における音声認識辞書作成システム１００の構成を示すブロック図である。
音声認識辞書作成システム１００は、第三の実施の形態において図８を参照して説明した構成に加えて、設定受付部１２０および更新処理部１２２をさらに含む。設定受付部１２０は、ユーザから、誤認識されると不具合がある音声認識単語の設定を受け付ける。更新処理部１２２は、設定受付部１２０が受け付けた設定に基づき、処理記憶部１１６を更新する。

図１２は、本実施の形態における処理記憶部１１６の内部構成を示す図である。ここで、処理記憶部１１６は、音声認識単語とその音声認識単語に対する動作コマンドおよび引数を対応付けて記憶する動作記憶部１１６ａと、誤認識されると不具合がある重要単語を記憶する重要単語記憶部１１６ｃとを含む。ここでは、「ゴマプリン」という単語が重要単語として重要単語記憶部１１６ｃに記憶されている。

ここで、重要単語とは、たとえばユーザがパスワードとして設定した単語とすることができる。たとえば、ユーザが、パスワードとして「ゴマプリン」と設定した場合、他人が発した他の言葉が「ゴマプリン」と誤認識されると、パスワードが解除されてしまうおそれがある。そのため、このような音声認識単語の棄却単語生成必要度が高くなるようにする必要がある。

図１３は、特性判断部１０８が、棄却単語生成必要度を判断する手順を示すフローチャートである。

特性判断部１０８は、音声認識単語記憶部１０４から音声認識単語を取得する（Ｓ１５０）。つづいて、特性判断部１０８は、重要単語記憶部１１６ｃを参照して、その音声認識単語が重要単語か否かを判断する（Ｓ１５２）。特性判断部１０８は、音声認識単語が重要単語の場合（Ｓ１５２のＹＥＳ）、その音声認識単語について、「棄却単語生成必要度＝高」を出力する（Ｓ１５６）。一方、音声認識単語が重要単語でない場合（Ｓ１５２のＮＯ）、特性判断部１０８は、その音声認識単語について、「棄却単語生成必要度＝低」を出力する（Ｓ１５４）。

たとえば、図１２に示した例では、音声認識単語「ゴマプリン」の棄却単語生成必要度は高となり、それ以外の「おはよう」、「こんにちわ」、「前進して」、「バックして」、「右むいて」、および「左むいて」の棄却単語生成必要度は低となる。

また、重要単語記憶部１１６ｃにおいて、重要単語に、その重要単語の重要度を示すパラメータを対応づけて記憶することもできる。この場合、必要数決定部１１０は、重要単語に対応づけられたパラメータに応じて、棄却単語の必要数を決定する。

本実施の形態においても、第一の実施の形態における音声認識辞書作成システム１００と同様の効果が得られる。また、本実施の形態における音声認識辞書作成システム１００によれば、ロボット２００が音声の誤認識をしたために誤動作が生じると不都合が生じる音声認識単語に対し生成される棄却単語の数を多くするように設定することができる。これにより、ロボット２００が不都合な動作を行うことを防ぐことができる。

（第五の実施の形態）
図１４は、本実施の形態における音声認識辞書作成システム１００の構成を示すブロック図である。
音声認識辞書作成システム１００は、第四の実施の形態において図１１を参照して説明した構成に加えて、判断結果記憶部１２４をさらに含む。本実施の形態において、特性判断部１０８は、第一〜第四の実施の形態でそれぞれ説明したのと同様に、音声認識単語自体の誤認識のされやすさ、音声認識単語が重要単語か否か、音声認識単語に対応付けられた動作コマンドが危険コマンドか否かをそれぞれ判断する。判断結果記憶部１２４は、特性判断部１０８の各判断結果を記憶する。必要数決定部１１０は、判断結果記憶部１２４を参照して、すべての判断結果を統合して各音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する。

図１５は、特性判断部１０８が、棄却単語生成必要度を判断する手順を示すフローチャートである。

特性判断部１０８は、音声認識単語記憶部１０４から音声認識単語を取得する（Ｓ１７０）。つづいて、特性判断部１０８は、第一の実施の形態で説明したのと同様にして、その音声認識単語の誤認識のされやすさを判断する（Ｓ１７２）。特性判断部１０８は、その結果を音声認識単語に対応付けて判断結果記憶部１２４に記憶する。次いで、特性判断部１０８は、処理記憶部１１６を参照して、その音声認識単語が重要単語か否かを判断する（Ｓ１７４）。重要単語の場合（Ｓ１７４のＹＥＳ）、棄却単語生成必要度を高として判断結果記憶部１２４に記憶する（Ｓ１７６）。次いで、特性判断部１０８は、処理記憶部１１６を参照して、その音声認識単語に対応付けられた動作コマンドが危険コマンドか否かを判断する（Ｓ１７８）。危険コマンドの場合（Ｓ１７８のＹＥＳ）、棄却単語生成必要度を高として判断結果記憶部１２４に記憶する（Ｓ１８０）。次いで、特性判断部１０８は、必要数決定部１１０に、判断終了を通知する（Ｓ１８２）。

図１６は、判断結果記憶部１２４の内部構成の一例を示す図である。
判断結果記憶部１２４には、音声認識単語毎に、誤認識のされやすさ、重要単語か否か、危険コマンドか否かが対応付けて記憶される。

必要数決定部１１０は、これらの判断結果を統合して、生成する棄却単語数を決定する。たとえば、重要単語や危険コマンドに対応付けられていても、誤認識がされにくい音声認識単語であれば、棄却単語数を多くする必要がない。一方、重要単語や危険コマンドに対応付けられていなくても、誤認識されやすい音声認識単語であれば、ある程度棄却単語数を多くする必要がある。

本実施の形態において、以上の実施の形態で説明した音声認識辞書作成システム１００と同様の効果が得られる。さらに、本実施の形態における音声認識辞書作成システム１００によれば、複数の要素を考慮して各音声認識単語に対し生成される棄却単語の数が決定されるので、音声認識をより精度よく行うことができる。また、棄却単語数を最適に保つ
ことにより、音声認識速度を高く保つことができる。

以上の実施の形態で説明したロボット２００および音声認識辞書作成システム１００の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インターフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。実施の形態で説明した各図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

以上の実施の形態においては、音声認識辞書作成システム１００がロボット２００に含まれる形態を説明したが、音声認識辞書作成システム１００は、ロボット２００外部に設けられ、ロボット２００から必要な情報を読み出して、棄却単語を生成する処理を行い、生成した棄却単語をロボット２００に送出する構成とすることもできる。

また、以上の実施の形態においては、音声認識辞書作成システム１００がロボット２００に組み込まれた形態を説明したが、音声認識辞書作成システム１００は、ロボット２００以外の音声認識機能を有する種々のシステムに組み込まれた構成とすることができる。

図１７は、音声認識辞書作成システム１００が、音声認識辞書１０６とは別に構成され、音声認識辞書１０６が外部の端末１５２に組み込まれた形態を示すブロック図である。

音声認識単語取得部１０２は、たとえばネットワーク１５０を介して外部の端末１５２から、音声認識単語を取得する。音声認識単語記憶部１０４、特性判断部１０８、必要数決定部１１０、棄却単語生成部１１２、および棄却単語記憶部１１４は以上の実施の形態で説明したのと同様の処理を行う。棄却単語送出部１４０は、たとえばネットワーク１５０を介して棄却単語記憶部１１４に記憶された棄却単語を外部の端末１５２に送出する。ここでは、音声認識辞書作成システム１００として第一の実施の形態で説明した構成を示したが、他の実施の形態で説明した音声認識辞書作成システム１００についても同様にすることができる。

図１８は、図１７に示した外部の端末１５２がロボット２００である場合の例を示すブロック図である。
ロボット２００は、実施の形態において図４に示したロボット２００の音声認識辞書作成システム１００にかえて音声認識辞書１０６と、通信制御部６０とを有する。音声認識辞書１０６には、予め音声認識単語の集合を格納した音声認識単語記憶部が含まれる。通信制御部６０は、図１７に示したネットワーク１５０を介して、音声認識辞書作成システム１００とデータの送受信を行い、音声認識辞書作成システム１００に音声認識単語を送出し、それに基づき音声認識辞書作成システム１００が生成した棄却単語を受信して音声認識辞書１０６に記憶する。通信制御部６０は、必要に応じて、シナリオ記憶部５２やロボット言動データベース５３の情報も音声認識辞書作成システム１００に送出する。音声認識辞書作成システム１００は、これらの情報に基づき、ロボット２００の動作に応じて音声認識単語に対する棄却単語の数を決定する。

また、図１７に示した外部の端末１５２の変形例として、棄却単語送出部を含まないようにするとともに、音声認識部を含む構成とすることもできる。この場合、音声認識単語取得部１０２は、外部の音声認識辞書１０６の音声認識単語記憶部から音声認識単語の集合である音声認識語彙を取得して音声認識単語記憶部１０４に記憶する。また、棄却単語生成部１１２は、取得された音声認識語彙に基づいて棄却単語を生成し、棄却単語記憶部１１４に記憶する。音声認識部（不図示）は、音声認識辞書作成システム１００内の音声認識単語記憶部１０４および棄却単語記憶部１１４により構成される音声認識辞書を用いて音声認識を行う。

本発明の実施の形態におけるロボットの一例を示す外観構成図である。ロボットの電気的構成の一例を示すブロック図である。ロボットの動作を示すフローチャートである。図２に示したコントローラの機能的構成例を示すブロック図である。実施の形態における音声認識辞書作成システムの構成を示すブロック図である。特性判断部が各音声認識単語の誤認識のされやすさを判断する手順を示すフローチャートである。実施の形態における音声認識辞書作成システムの構成を示すブロック図である。実施の形態における音声認識辞書作成システムの構成を示すブロック図である。処理記憶部の内部構成を示す図である。特性判断部が、棄却単語生成必要度を判断する手順を示すフローチャートである。実施の形態における音声認識辞書作成システム１００の構成を示すブロック図である。実施の形態における処理記憶部の内部構成を示す図である。特性判断部が、棄却単語生成必要度を判断する手順を示すフローチャートである。実施の形態における音声認識辞書作成システムの構成を示すブロック図である。特性判断部が、棄却単語生成必要度を判断する手順を示すフローチャートである。判断結果記憶部の内部構成の一例を示す図である。音声認識辞書作成システムが、外部の端末に組み込まれる音声認識辞書を作成する形態を示すブロック図である。図１７に示した外部の端末がロボットである場合の例を示すブロック図である。

符号の説明

１胴体部
２頭部
３Ａ、３Ｂ車輪
１０コントローラ
１０ＡＣＰＵ
１０Ｂメモリ
１１バッテリ
１２スピーカ
１３マイクロフォン
１４Ａ、１４Ｂアクチュエータ
２１Ａ、２１ＢＣＣＤカメラ
２２Ａ、２２Ｂアクチュエータ
２３タッチセンサ
５１センサ入力処理部
５１ａ音声認識部
５１ｂ状況認識部
５２シナリオ記憶部
５３ロボット言動データベース
５４全体制御部
５５メカ制御部
５６音声合成部
５７出力部
６０通信制御部
１００音声認識辞書作成システム
１０２音声認識単語取得部
１０４音声認識単語記憶部
１０６音声認識辞書
１０８特性判断部
１１０必要数決定部
１１２棄却単語生成部
１１４棄却単語記憶部
１１６処理記憶部
１１６ａ動作記憶部
１１６ｂ危険コマンド記憶部
１１６ｃ重要単語記憶部
１２０設定受付部
１２２更新処理部
１２４判断結果記憶部
１３０雑音データベース
１３２雑音出力部
１３４音声認識部
１３６誤認識結果記憶部
１４０棄却単語送出部
１５０ネットワーク
１５２外部の端末
２００ロボット

Claims

音声認識の対象とする音声認識単語を記憶する音声認識単語記憶部と、
前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定部と、
前記音声認識単語に対して、前記必要数決定部が決定した必要数の前記棄却単語を生成する棄却単語生成部と、
前記棄却単語生成部が生成した前記棄却単語を記憶する棄却単語記憶部と、
を含むことを特徴とする音声認識辞書作成システム。
請求項１に記載の音声認識辞書作成システムにおいて、
前記音声認識単語と、当該音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理と、を対応付けて記憶する処理記憶部をさらに含み、
前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記応答処理に応じて前記必要数を決定することを特徴とする音声認識辞書作成システム。
請求項２に記載の音声認識辞書作成システムにおいて、
前記処理記憶部は、前記応答処理に、当該応答処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータを対応付けて記憶し、
前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することを特徴とする音声認識辞書作成システム。
請求項２または３に記載の音声認識辞書作成システムにおいて、
前記音声認識単語に対する前記システムの応答処理の変更を受け付ける変更受付部と、
前記変更受付部が受け付けた変更に基づき前記処理記憶部を更新する更新処理部と、
をさらに含み、
前記必要数決定部は、前記更新処理部が前記処理記憶部を更新すると、更新後の前記処理記憶部を参照して、該当する前記音声認識単語の前記必要数を決定し、
前記更新処理部は、前記必要数決定部が決定した前記必要数に応じて、前記棄却単語記憶部を更新することを特徴とする音声認識辞書作成システム。
請求項２乃至４いずれかに記載の音声認識辞書作成システムにおいて、
前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部をさらに含み、
前記必要数決定部は、前記誤認識度合い算出部が算出した前記誤認識度合いと、該当する前記音声認識単語に対応付けられた前記応答処理とに応じて、前記必要数を決定することを特徴とする音声認識辞書作成システム。
請求項１に記載の音声認識辞書作成システムにおいて、
前記必要数決定部は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部を含み、前記誤認識度合い算出部が算出した誤認識度合いに応じて、前記必要数を決定することを特徴とする音声認識辞書作成システム。
請求項５または６に記載の音声認識辞書作成システムにおいて、
雑音を出力する雑音出力部と、
前記音声認識単語記憶部に記憶された前記音声認識単語とのマッチングにより、前記雑音出力部から出力された雑音の音声認識処理を行い、音声認識結果を出力する音声認識部と、
をさらに含み、
前記誤認識度合い算出部は、前記音声認識部の音声認識結果に基づき、前記誤認識度合いを算出することを特徴とする音声認識辞書作成システム。
音声認識の対象とする音声認識単語を取得するステップと、
前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定するステップと、
前記音声認識単語に対して、前記必要数の前記棄却単語を生成するステップと、
を含むことを特徴とする音声認識辞書作成方法。
請求項８に記載の音声認識辞書作成方法において、
前記棄却単語の必要数を決定するステップにおいて、前記音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理に応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。
請求項９に記載の音声認識辞書作成方法において、
前記棄却単語の必要数を決定するステップは、前記応答処理と、当該処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータとを取得するステップを含み、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することを特徴とする音声認識辞書作成方法。
請求項９または１０に記載の音声認識辞書作成方法において、
前記音声認識単語に対する前記システムの応答処理の変更を受け付けるステップをさらに含み、
前記棄却単語の必要数を決定するステップにおいて、前記変更を受け付けるステップが受け付けた前記処理に応じて、前記必要数を再決定し、
前記棄却単語を生成するステップにおいて、前記棄却単語の必要数を決定するステップで再決定された前記必要数の前記棄却単語を再生成することを特徴とする音声認識辞書作成方法。
請求項９乃至１１いずれかに記載の音声認識辞書作成方法において、
前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含み、
前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いと、前記応答処理とに応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。
請求項８に記載の音声認識辞書作成方法において、
前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含み、
前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いに応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。
請求項１２または１３に記載の音声認識辞書作成方法において、
雑音を出力するステップと、
前記雑音を入力し、前記音声認識単語とのマッチングにより、前記雑音の音声認識処理を行い、音声認識結果を出力するステップと、
をさらに含み、
前記誤認識度合いを算出するステップにおいて、前記音声認識結果を出力するステップにおける前記音声認識結果に基づき、前記誤認識度合いを算出することを特徴とする音声認識辞書作成方法。
請求項１乃至７いずれかに記載の音声認識辞書作成システムと、
音声を入力する音声入力部と、
前記音声認識単語記憶部に記憶された前記音声認識単語および前記棄却単語記憶部に記憶された前記棄却単語とのマッチングにより、前記音声入力部が入力した音声の音声認識処理を行う音声認識部と、
前記音声認識部が認識した音声認識結果に基づき、応答処理を行う制御部と、
を含むことを特徴とする音声認識システム。
請求項１５に記載の音声認識システムを含むことを特徴とするロボット。
コンピュータを、
音声認識の対象とする音声認識単語を記憶する音声認識単語記憶手段、
前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定手段、
前記音声認識単語に対して、前記必要数決定手段が決定した必要数の前記棄却単語を生成する棄却単語生成手段、
前記棄却単語生成手段が生成した前記棄却単語を記憶する棄却単語記憶手段、
として機能させることを特徴とするプログラム。