JP4539313B2 - 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット - Google Patents
音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット Download PDFInfo
- Publication number
- JP4539313B2 JP4539313B2 JP2004348828A JP2004348828A JP4539313B2 JP 4539313 B2 JP4539313 B2 JP 4539313B2 JP 2004348828 A JP2004348828 A JP 2004348828A JP 2004348828 A JP2004348828 A JP 2004348828A JP 4539313 B2 JP4539313 B2 JP 4539313B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- word
- unit
- speech
- dictionary creation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
胴体部1には、ロボット全体の制御を行うコントローラ10、ロボットの動力源となるバッテリ11、スピーカ12、マイクロフォン13、2つの車輪を動かすためのアクチュエータ14Aおよびアクチュエータ14B等が収納されている。
マイクロフォン13は、ユーザからの発話を含む周囲の音声を集音し、得られた音声信号をコントローラ10に送出する(S1)。また、CCDカメラ21AおよびCCDカメラ21Bは、周囲の状況を撮像し、得られた画像信号を、コントローラ10に送出する(S2)。コントローラ10は、マイクロフォン13、CCDカメラ21A、およびCCDカメラ21Bから送出された音声信号および画像信号に基づいて、適宜メモリ10Bを読み出し、周囲の状況や、人間からの指令を解析し、それらに応じてロボット200の動作を決定する(S3)。
図5は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、音声認識単語記憶部104、特性判断部108、必要数決定部110、棄却単語生成部112、および棄却単語記憶部114を含む。音声認識単語記憶部104および棄却単語記憶部114により音声認識辞書106が構成される。
図7は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、第一の実施の形態において図5を参照して説明した構成に加えて、雑音データベース130、雑音出力部132、音声認識部134、および誤認識結果記憶部136をさらに含む。ここで、音声認識部134としては、ロボット200の音声認識部51a(図4参照)を用いることができる。
図8は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、第一の実施の形態において図5を参照して説明した構成に加えて、処理記憶部116をさらに含む。処理記憶部116は、音声認識単語とその音声認識単語に対するロボット200の処理とを対応付けて記憶する。ここで、処理記憶部116は、ロボット200のシナリオ記憶部52やロボット言動データベース53とすることができる。
図11は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、第三の実施の形態において図8を参照して説明した構成に加えて、設定受付部120および更新処理部122をさらに含む。設定受付部120は、ユーザから、誤認識されると不具合がある音声認識単語の設定を受け付ける。更新処理部122は、設定受付部120が受け付けた設定に基づき、処理記憶部116を更新する。
図14は、本実施の形態における音声認識辞書作成システム100の構成を示すブロック図である。
音声認識辞書作成システム100は、第四の実施の形態において図11を参照して説明した構成に加えて、判断結果記憶部124をさらに含む。本実施の形態において、特性判断部108は、第一〜第四の実施の形態でそれぞれ説明したのと同様に、音声認識単語自体の誤認識のされやすさ、音声認識単語が重要単語か否か、音声認識単語に対応付けられた動作コマンドが危険コマンドか否かをそれぞれ判断する。判断結果記憶部124は、特性判断部108の各判断結果を記憶する。必要数決定部110は、判断結果記憶部124を参照して、すべての判断結果を統合して各音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する。
判断結果記憶部124には、音声認識単語毎に、誤認識のされやすさ、重要単語か否か、危険コマンドか否かが対応付けて記憶される。
ことにより、音声認識速度を高く保つことができる。
ロボット200は、実施の形態において図4に示したロボット200の音声認識辞書作成システム100にかえて音声認識辞書106と、通信制御部60とを有する。音声認識辞書106には、予め音声認識単語の集合を格納した音声認識単語記憶部が含まれる。通信制御部60は、図17に示したネットワーク150を介して、音声認識辞書作成システム100とデータの送受信を行い、音声認識辞書作成システム100に音声認識単語を送出し、それに基づき音声認識辞書作成システム100が生成した棄却単語を受信して音声認識辞書106に記憶する。通信制御部60は、必要に応じて、シナリオ記憶部52やロボット言動データベース53の情報も音声認識辞書作成システム100に送出する。音声認識辞書作成システム100は、これらの情報に基づき、ロボット200の動作に応じて音声認識単語に対する棄却単語の数を決定する。
2 頭部
3A、3B 車輪
10 コントローラ
10A CPU
10B メモリ
11 バッテリ
12 スピーカ
13 マイクロフォン
14A、14B アクチュエータ
21A、21B CCDカメラ
22A、22B アクチュエータ
23 タッチセンサ
51 センサ入力処理部
51a 音声認識部
51b 状況認識部
52 シナリオ記憶部
53 ロボット言動データベース
54 全体制御部
55 メカ制御部
56 音声合成部
57 出力部
60 通信制御部
100 音声認識辞書作成システム
102 音声認識単語取得部
104 音声認識単語記憶部
106 音声認識辞書
108 特性判断部
110 必要数決定部
112 棄却単語生成部
114 棄却単語記憶部
116 処理記憶部
116a 動作記憶部
116b 危険コマンド記憶部
116c 重要単語記憶部
120 設定受付部
122 更新処理部
124 判断結果記憶部
130 雑音データベース
132 雑音出力部
134 音声認識部
136 誤認識結果記憶部
140 棄却単語送出部
150 ネットワーク
152 外部の端末
200 ロボット
Claims (17)
- 音声認識の対象とする音声認識単語を記憶する音声認識単語記憶部と、
前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定部と、
前記音声認識単語に対して、前記必要数決定部が決定した必要数の前記棄却単語を生成する棄却単語生成部と、
前記棄却単語生成部が生成した前記棄却単語を記憶する棄却単語記憶部と、
を含むことを特徴とする音声認識辞書作成システム。 - 請求項1に記載の音声認識辞書作成システムにおいて、
前記音声認識単語と、当該音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理と、を対応付けて記憶する処理記憶部をさらに含み、
前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記応答処理に応じて前記必要数を決定することを特徴とする音声認識辞書作成システム。 - 請求項2に記載の音声認識辞書作成システムにおいて、
前記処理記憶部は、前記応答処理に、当該応答処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータを対応付けて記憶し、
前記必要数決定部は、前記処理記憶部を参照して、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することを特徴とする音声認識辞書作成システム。 - 請求項2または3に記載の音声認識辞書作成システムにおいて、
前記音声認識単語に対する前記システムの応答処理の変更を受け付ける変更受付部と、
前記変更受付部が受け付けた変更に基づき前記処理記憶部を更新する更新処理部と、
をさらに含み、
前記必要数決定部は、前記更新処理部が前記処理記憶部を更新すると、更新後の前記処理記憶部を参照して、該当する前記音声認識単語の前記必要数を決定し、
前記更新処理部は、前記必要数決定部が決定した前記必要数に応じて、前記棄却単語記憶部を更新することを特徴とする音声認識辞書作成システム。 - 請求項2乃至4いずれかに記載の音声認識辞書作成システムにおいて、
前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部をさらに含み、
前記必要数決定部は、前記誤認識度合い算出部が算出した前記誤認識度合いと、該当する前記音声認識単語に対応付けられた前記応答処理とに応じて、前記必要数を決定することを特徴とする音声認識辞書作成システム。 - 請求項1に記載の音声認識辞書作成システムにおいて、
前記必要数決定部は、前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出する誤認識度合い算出部を含み、前記誤認識度合い算出部が算出した誤認識度合いに応じて、前記必要数を決定することを特徴とする音声認識辞書作成システム。 - 請求項5または6に記載の音声認識辞書作成システムにおいて、
雑音を出力する雑音出力部と、
前記音声認識単語記憶部に記憶された前記音声認識単語とのマッチングにより、前記雑音出力部から出力された雑音の音声認識処理を行い、音声認識結果を出力する音声認識部と、
をさらに含み、
前記誤認識度合い算出部は、前記音声認識部の音声認識結果に基づき、前記誤認識度合いを算出することを特徴とする音声認識辞書作成システム。 - 音声認識の対象とする音声認識単語を取得するステップと、
前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定するステップと、
前記音声認識単語に対して、前記必要数の前記棄却単語を生成するステップと、
を含むことを特徴とする音声認識辞書作成方法。 - 請求項8に記載の音声認識辞書作成方法において、
前記棄却単語の必要数を決定するステップにおいて、前記音声認識単語に対する音声認識辞書の組み込み対象のシステムの応答処理に応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。 - 請求項9に記載の音声認識辞書作成方法において、
前記棄却単語の必要数を決定するステップは、前記応答処理と、当該処理に対応付けられた前記音声認識単語の不要音声による誤認識を抑制すべきパラメータとを取得するステップを含み、該当する前記音声認識単語に対応付けられた前記パラメータに応じて前記必要数を決定することを特徴とする音声認識辞書作成方法。 - 請求項9または10に記載の音声認識辞書作成方法において、
前記音声認識単語に対する前記システムの応答処理の変更を受け付けるステップをさらに含み、
前記棄却単語の必要数を決定するステップにおいて、前記変更を受け付けるステップが受け付けた前記処理に応じて、前記必要数を再決定し、
前記棄却単語を生成するステップにおいて、前記棄却単語の必要数を決定するステップで再決定された前記必要数の前記棄却単語を再生成することを特徴とする音声認識辞書作成方法。 - 請求項9乃至11いずれかに記載の音声認識辞書作成方法において、
前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含み、
前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いと、前記応答処理とに応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。 - 請求項8に記載の音声認識辞書作成方法において、
前記音声認識単語自体の誤認識のされやすさを示す誤認識度合いを算出するステップをさらに含み、
前記棄却単語の必要数を決定するステップにおいて、前記誤認識度合いを算出するステップで算出された前記誤認識度合いに応じて、前記必要数を決定することを特徴とする音声認識辞書作成方法。 - 請求項12または13に記載の音声認識辞書作成方法において、
雑音を出力するステップと、
前記雑音を入力し、前記音声認識単語とのマッチングにより、前記雑音の音声認識処理を行い、音声認識結果を出力するステップと、
をさらに含み、
前記誤認識度合いを算出するステップにおいて、前記音声認識結果を出力するステップにおける前記音声認識結果に基づき、前記誤認識度合いを算出することを特徴とする音声認識辞書作成方法。 - 請求項1乃至7いずれかに記載の音声認識辞書作成システムと、
音声を入力する音声入力部と、
前記音声認識単語記憶部に記憶された前記音声認識単語および前記棄却単語記憶部に記憶された前記棄却単語とのマッチングにより、前記音声入力部が入力した音声の音声認識処理を行う音声認識部と、
前記音声認識部が認識した音声認識結果に基づき、応答処理を行う制御部と、
を含むことを特徴とする音声認識システム。 - 請求項15に記載の音声認識システムを含むことを特徴とするロボット。
- コンピュータを、
音声認識の対象とする音声認識単語を記憶する音声認識単語記憶手段、
前記音声認識単語の特性に応じて、当該音声認識単語の不要音声として棄却すべき棄却単語の必要数を決定する必要数決定手段、
前記音声認識単語に対して、前記必要数決定手段が決定した必要数の前記棄却単語を生成する棄却単語生成手段、
前記棄却単語生成手段が生成した前記棄却単語を記憶する棄却単語記憶手段、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004348828A JP4539313B2 (ja) | 2004-12-01 | 2004-12-01 | 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004348828A JP4539313B2 (ja) | 2004-12-01 | 2004-12-01 | 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006154658A JP2006154658A (ja) | 2006-06-15 |
JP4539313B2 true JP4539313B2 (ja) | 2010-09-08 |
Family
ID=36633014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004348828A Active JP4539313B2 (ja) | 2004-12-01 | 2004-12-01 | 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4539313B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008033198A (ja) * | 2006-08-01 | 2008-02-14 | Nec System Technologies Ltd | 音声対話システム、音声対話方法、音声入力装置、プログラム |
JP5200712B2 (ja) | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
JP5476760B2 (ja) * | 2009-03-26 | 2014-04-23 | ヤマハ株式会社 | コマンド認識装置 |
JP5824829B2 (ja) | 2011-03-15 | 2015-12-02 | 富士通株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001147698A (ja) * | 1999-11-22 | 2001-05-29 | Hitachi Ltd | 音声認識用疑似単語生成方法及び音声認識装置 |
JP2002372988A (ja) * | 2001-06-14 | 2002-12-26 | Nec Corp | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 |
JP2004005103A (ja) * | 2002-05-31 | 2004-01-08 | Toshiba Corp | 類似文書検索装置および類似文書検索方法 |
JP2004325936A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
JP2004325979A (ja) * | 2003-04-28 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259515A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
-
2004
- 2004-12-01 JP JP2004348828A patent/JP4539313B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001147698A (ja) * | 1999-11-22 | 2001-05-29 | Hitachi Ltd | 音声認識用疑似単語生成方法及び音声認識装置 |
JP2002372988A (ja) * | 2001-06-14 | 2002-12-26 | Nec Corp | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 |
JP2004005103A (ja) * | 2002-05-31 | 2004-01-08 | Toshiba Corp | 類似文書検索装置および類似文書検索方法 |
JP2004325936A (ja) * | 2003-04-25 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
JP2004325979A (ja) * | 2003-04-28 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2006154658A (ja) | 2006-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10515623B1 (en) | Non-speech input to speech processing system | |
JP6574169B2 (ja) | 多方向の復号をする音声認識 | |
US11990120B2 (en) | Non-speech input to speech processing system | |
US10692489B1 (en) | Non-speech input to speech processing system | |
US8275616B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
Novoa et al. | DNN-HMM based automatic speech recognition for HRI scenarios | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP5494468B2 (ja) | 状態検出装置、状態検出方法および状態検出のためのプログラム | |
US11495235B2 (en) | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks | |
KR101579533B1 (ko) | 차량 및 그 제어 방법 | |
JP6705410B2 (ja) | 音声認識装置、音声認識方法、プログラム及びロボット | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
JP6696803B2 (ja) | 音声処理装置および音声処理方法 | |
JP2001188779A (ja) | 情報処理装置および方法、並びに記録媒体 | |
JP4539313B2 (ja) | 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット | |
Nakadai et al. | A robot referee for rock-paper-scissors sound games | |
JP4600736B2 (ja) | ロボット制御装置および方法、記録媒体、並びにプログラム | |
JP4706893B2 (ja) | 音声認識装置および方法、並びに、プログラムおよび記録媒体 | |
JP2019132997A (ja) | 音声処理装置、方法およびプログラム | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP2004318026A (ja) | セキュリティペットロボット及びその装置に関する信号処理方法 | |
JP2002372988A (ja) | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 | |
US20090254335A1 (en) | Multilingual weighted codebooks | |
JP4919282B2 (ja) | 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4539313 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130702 Year of fee payment: 3 |