JP4236597B2 - 音声認識装置、音声認識プログラムおよび記録媒体。 - Google Patents
音声認識装置、音声認識プログラムおよび記録媒体。 Download PDFInfo
- Publication number
- JP4236597B2 JP4236597B2 JP2004038339A JP2004038339A JP4236597B2 JP 4236597 B2 JP4236597 B2 JP 4236597B2 JP 2004038339 A JP2004038339 A JP 2004038339A JP 2004038339 A JP2004038339 A JP 2004038339A JP 4236597 B2 JP4236597 B2 JP 4236597B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- dictionary
- recognition
- similarity
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
さらに、認識辞書に登録された単語とは、実際に入力音声との照合に用いられる単語に限られず、キーボードから入力し、一般辞書に格納された単語との類似度を計算する単語をも含む。
次に、本実施の形態の音声認識装置について図2を用いて説明する。図2は、実施の形態1の音声認識装置における新たな認識語の登録処理と音声認識処理を示すフローチャートである。
[ステップS204〜ステップS206]
ステップS204では、一般辞書から一語抽出される。ステップS205において、入力された語と、一般辞書から抽出された一語との間で、類似度が計算される。ステップS205で類似度が高いと判断された場合は、ステップS213に進み、一般辞書から抽出された一語をバッファに格納し、ステップS206に進む。ステップS206で類似度が小さいと判断された場合は、そのままステップS206に進む。ステップS206では、一般辞書中に類似度を計算する別の単語があるかどうかを判断し、別の単語が存在する場合にはステップS204に戻り、別の単語が存在しない場合には一般辞書の一単語との類似度の計算を終了し、ステップS207に進む。
ステップS207では、一般辞書に格納されている単語を組み合わせて、1つの文字列を生成する。例えば、入力された語が「とります」の場合に、「とり」を含む「やりとり」と、「ます」を含む「ますだ」とを組み合わせて、「やりとりますだ」というような文字列を作成する。ステップS208では、入力された語と、生成された文字列との間で、類似度を計算する。例えば、「とります」と、「やりとりますだ」との類似度を計算する。ステップS208で、「とります」と、「やりとりますだ」との間の類似度が十分に高いと判断された場合には、ステップS214に進み、生成された文字列をバッファに格納し、ステップS215に進む。ステップS215では、入力された語彙に対してフラグを立てて、ステップS209に進む。具体的には、「とります」に対して、フラグを立てる。ステップS208で類似度が小さいと判断された場合は、そのままステップS209に進む。ステップS209では、文字列生成が終了したか否かを判断し、終了していなければステップSS207に戻り、終了していればステップS210に進む。
ステップS210では、バッファに格納された類似度の高い言葉をユーザに提示する。ステップS211において、ユーザは、その言葉の認識辞書への登録を維持するか否かを選択する。認識辞書への登録を維持する場合には、認識語の登録処理は終了する。登録語を変更する場合には、ステップS212において登録の取消を行い、認識語の登録処理が終了する。
ステップS202において、ユーザの入力が音声入力であると判断された場合は、ステップS251に進む。ステップS251では、入力された音声と認識辞書に登録された単語との認識処理を行う。ステップS252では、入力音声が、認識辞書中に登録されたどの認識語とも照合できず、照合結果が得られなかった場合には、音声認識処理を終了し、ステップS202に戻り、ユーザからの入力を待機する。照合結果が得られた場合は、ステップS253に進み、入力音声の前後にある無音区間の長さを調査し、単独発声か連続発声の一部かを判断する。単独発声であれば、ステップS255に進み、連続発声の一部であれば、ステップS254に進む。ステップS254では、認識語にフラグが立っているかどうかを判断する。認識語にフラグが立っている場合には、誤認識を起こす可能性があるとして音声認識処理を終了し、ステップS202に戻り、ユーザからの入力を待機する。認識語にフラグが立っていない場合には、ステップS255に進む。ステップS255では、認識結果に基づいて制御対象を制御する制御動作を行う。制御動作が終わると、ステップS202に戻り、ユーザからの入力を待機する。
図3は、実施の形態2における音声認識装置を実現するためのシステム構成を示すブロック図である。上記実施の形態1の音声認識装置においては、騒音下で、無音区間が検出できない場合に、認識性能が劣化する可能性がある。本実施の形態では、かかる条件下でも、認識性能が劣化しにくい音声認識装置を提供する。すなわち、本実施の形態の音声認識装置は、リジェクト辞書を有する。リジェクト辞書には、認識語と類似度が高いと判断された一般辞書の単語を登録する。音声認識時に、入力された音声を、認識辞書とリジェクト辞書とを用いて照合する。リジェクト辞書に登録された言葉が上位に認識された場合には、入力音声をリジェクトし、制御動作を行わないこととする。このような構成にすることで、一般辞書に誤認識を生じやすい類似の言葉が存在する言葉についても、認識語彙として使用することができる。
次に、本実施の形態の音声認識装置について図5を用いて説明する。図5は、実施の形態2の音声認識装置における新たな認識語およびリジェクト語の登録処理と音声認識処理を示すフローチャートである。
[ステップS204〜ステップS206]
ステップS204〜ステップS206においても、基本的には、実施の形態1と同様の動作をする。ただし、ステップS205で認識語と一般時書中の単語との類似度が高いと判断された場合は、ステップS223に進み、一般辞書から抽出された一語をリジェクト辞書に登録し、ステップS206に進む。
ステップS207〜ステップS209においても、基本的には、実施の形態1と同様の動作をする。ただし、本実施の形態においては、ステップS208で認識語と生成文字列の一部との類似度が高いと判断された場合は、ステップS224に進み、生成された文字列をリジェクト辞書に登録し、ステップS206に進む。
ステップS210では、リジェクト辞書の内容をユーザに提示する。ステップS221において、ユーザが、リジェクト辞書に登録された言葉が有効か無効かを判断して、リジェクト辞書を編集することを選択する場合は、ステップS222に進み、リジェクト辞書を編集する。ステップS221では、実施の形態1の場合と異なり、リジェクト辞書に登録された言葉を登録するか、キャンセルするかの判断は行わない。リジェクト辞書を編集した場合には、再度編集後の内容をユーザに提示するために、ステップS210に進む。ユーザが、リジェクト辞書を編集しない場合には、リジェクト辞書の内容を確認して、リジェクト語の登録が終了する。
ステップS201〜ステップS202は、実施の形態1と同様である。ステップS202において、ユーザの入力が音声入力であると判断された場合は、ステップS251に進む。ステップS251では、入力された音声と認識辞書に登録された単語およびリジェクト辞書に登録されたリジェクト語との認識処理を行う。ステップS252では、入力音声が、認識辞書中に登録されたどの認識語とも照合できず、照合結果が得られなかった場合には、音声認識処理を終了し、ステップS202に戻り、ユーザからの入力を待機する。照合結果が得られた場合は、ステップS261に進み、認識結果の上位の候補が、認識辞書中の認識語か、リジェクト辞書中のリジェクト語であるかを判断する。認識結果の上位の候補がリジェクト語である場合には、誤認識を起こす可能性があるとして音声認識処理を終了し、ステップS202に戻り、ユーザからの入力を待機する。認識結果の上位の候補が認識語である場合には、ステップS262に進む。ステップS262では、認識結果に基づいて制御対象を制御する制御動作を行う。制御動作が終わると、ステップS202に戻り、ユーザからの入力を待機する。
ところで、上記各実施の形態における音声認識装置としての機能は、プログラム記録媒体に記録された情報処理プログラムによって実現される。上記各実施の形態における上記プログラム記録媒体は、RAM(ランダム・アクセル・メモリ)とは別体に設けられたROM(リード・オンリー・メモリ)でなるプログラムメディアである。または、外部補助記録装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから情報処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAMに設けられたプログラム記憶エリアにダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからRAMの上記プログラム記録エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているもとする。
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フレキシブルディスク、ハードディクス等の磁気ディスクやCD(コンパクトディスク)−ROM、MO(光磁気)ディスク、MD(ミニディスク)、DVD(デジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM、EPROM(紫外線消去型ROM)、EEPROM(電気的消去型ROM)、フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
また、上記実施の形態における音声認識装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
101 マイクロホン
102 音声分析部
103 照合部
104 リジェクト判定部
105 制御部
106 文字入力部
107 辞書作成部
108 認識辞書部
109 外部接続部
110 一般辞書
111 文字列生成部
112 類似度計算部
113 表示部
114 リジェクト辞書
301 CPU
302 ROM
303 RAM
304 表示部
305 入力部
306 プログラム読み取り部
307 バス
Claims (12)
- ユーザが発声した音声の音声信号から抽出した特徴量を、あらかじめ認識辞書に登録されている単語の特徴量と照合して、音声を認識する音声認識装置であって、
前記音声認識装置は、大語彙の一般辞書を有し、
前記認識辞書に登録された単語に対して、所定のアルゴリズムを用いて、前記一般辞書に含まれる単語との類似度を求める類似度計算手段と、
前記一般辞書に含まれる単語と類似度が大きい認識辞書に登録された単語について、類似度が高い旨をユーザに提示する類似度提示手段とを備え、
前記音声認識装置は、前記一般辞書に含まれる複数の単語を組み合わせて文字列を生成する文字列生成手段を有し、
前記類似度計算手段では、前記認識辞書に登録された単語と、前記生成された文字列の一部の文字列との間で、類似度を求めることを特徴とする音声認識装置。 - 認識された単語が、前記生成された文字列の一部の文字列と類似度が高いと判断された単語である場合に、この認識された単語が、単独発声との照合であるか、連続発声の一部との照合であるかを識別する照合部分識別手段を有し、
連続発声の一部との照合であると識別された場合に、前記認識された単語の入力をリジェクトすることを特徴とする請求項1に記載の音声認識装置。 - 前記文字列生成手段では、単語の連結情報を用いて、文字列を生成することを特徴とする請求項1に記載の音声認識装置。
- 前記一般辞書は、単語の品詞情報を備え、前記文字列生成手段では、文法に従って文字列を生成することを特徴とする請求項1に記載の音声認識装置。
- 前記一般辞書は、ユーザが無意識に発声する不要語、または口語表現を含むことを特徴とする請求項1に記載の音声認識装置。
- 前記類似度提示手段は、前記一般辞書に含まれる単語と、この単語と類似度が高いと判断された認識辞書に登録された単語とのうち、少なくとも一方を提示することを特徴とする請求項1に記載の音声認識装置。
- 前記音声認識装置は、認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語を登録するリジェクト辞書を有し、
入力音声を前記リジェクト辞書に登録されている単語と照合した結果が、入力音声を前記認識辞書に登録されている単語と照合した結果より上位にある音声の入力を、リジェクトすることを特徴とする請求項1に記載の音声認識装置。 - 認識辞書に登録された単語が、前記一般辞書に含まれる単語と類似度が大きい単語であれば、前記一般辞書に含まれる単語のうち、認識辞書に登録された単語と意味が近似する単語を認識辞書に追加登録することを特徴とする請求項1に記載の音声認識装置。
- 前記リジェクト辞書に登録されている単語は、それぞれが、入力音声をリジェクトするかどうかを示すフラグを有し、そのフラグをユーザに提示することを特徴とする請求項8に記載の音声認識装置。
- 前記一般辞書と、類似度計算手段とが、外部機器に設けられており、外部機器において求められた前記認識辞書に登録する単語に対する、前記一般辞書に含まれる単語との類似度を、通信手段を用いて、音声認識装置に送ることを特徴とする請求項1に記載の音声認識装置。
- ユーザが発声した音声の音声信号から抽出した特徴量を、あらかじめ認識辞書に登録されている単語の特徴量と照合して、音声を認識することを、コンピュータシステムにおいて実現するためのプログラムであって、
前記認識辞書に登録された単語に対して、所定のアルゴリズムを用いて、大語彙の一般辞書に含まれる単語との類似度を求める類似度計算ステップと、
前記一般辞書に含まれる単語と類似度が大きい認識辞書に登録された単語について、類似度が高い旨をユーザに提示する類似度提示ステップとを備え、
さらに、前記一般辞書に含まれる複数の単語を組み合わせて文字列を生成する文字列生成ステップを有し、
前記類似度計算ステップでは、前記認識辞書に登録された単語と、前記生成された文字列の一部の文字列との間で、類似度を求めることを特徴とする、音声認識プログラム。 - 請求項11に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004038339A JP4236597B2 (ja) | 2004-02-16 | 2004-02-16 | 音声認識装置、音声認識プログラムおよび記録媒体。 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004038339A JP4236597B2 (ja) | 2004-02-16 | 2004-02-16 | 音声認識装置、音声認識プログラムおよび記録媒体。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005227686A JP2005227686A (ja) | 2005-08-25 |
JP4236597B2 true JP4236597B2 (ja) | 2009-03-11 |
Family
ID=35002428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004038339A Expired - Fee Related JP4236597B2 (ja) | 2004-02-16 | 2004-02-16 | 音声認識装置、音声認識プログラムおよび記録媒体。 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4236597B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4878471B2 (ja) * | 2005-11-02 | 2012-02-15 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
JP5066668B2 (ja) * | 2005-11-08 | 2012-11-07 | 株式会社国際電気通信基礎技術研究所 | 音声認識装置、およびプログラム |
JP5037041B2 (ja) * | 2006-06-23 | 2012-09-26 | アルパイン株式会社 | 車載用音声認識装置及び音声コマンド登録方法 |
JP2008033198A (ja) * | 2006-08-01 | 2008-02-14 | Nec System Technologies Ltd | 音声対話システム、音声対話方法、音声入力装置、プログラム |
JP4845118B2 (ja) * | 2006-11-20 | 2011-12-28 | 富士通株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP2008309865A (ja) * | 2007-06-12 | 2008-12-25 | Fujitsu Ten Ltd | 音声認識装置および音声認識方法 |
JP4839291B2 (ja) * | 2007-09-28 | 2011-12-21 | Kddi株式会社 | 音声認識装置およびコンピュータプログラム |
JP4941495B2 (ja) * | 2009-03-31 | 2012-05-30 | 日本電気株式会社 | ユーザ辞書作成システム、方法、及び、プログラム |
WO2011045846A1 (ja) * | 2009-10-16 | 2011-04-21 | 三菱電機株式会社 | 音声認識装置 |
JP5703491B2 (ja) * | 2010-01-26 | 2015-04-22 | 国立大学法人山梨大学 | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 |
US8560318B2 (en) | 2010-05-14 | 2013-10-15 | Sony Computer Entertainment Inc. | Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
NZ700273A (en) * | 2012-04-27 | 2016-10-28 | Interactive Intelligence Inc | Negative example (anti-word) based performance improvement for speech recognition |
JP6115202B2 (ja) * | 2013-03-12 | 2017-04-19 | アイシン・エィ・ダブリュ株式会社 | 音声認識システム、方法およびプログラム |
EP3089158B1 (en) * | 2013-12-26 | 2018-08-08 | Panasonic Intellectual Property Management Co., Ltd. | Speech recognition processing |
WO2016157782A1 (ja) * | 2015-03-27 | 2016-10-06 | パナソニックIpマネジメント株式会社 | 音声認識システム、音声認識装置、音声認識方法、および制御プログラム |
JP6703177B1 (ja) * | 2019-11-11 | 2020-06-03 | 株式会社ブイキューブ | 情報処理装置、情報処理方法及びプログラム |
CN111105799B (zh) * | 2019-12-09 | 2023-07-07 | 国网浙江省电力有限公司杭州供电公司 | 基于发音量化和电力专用词库的离线语音识别装置及方法 |
-
2004
- 2004-02-16 JP JP2004038339A patent/JP4236597B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005227686A (ja) | 2005-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4236597B2 (ja) | 音声認識装置、音声認識プログラムおよび記録媒体。 | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US20060100871A1 (en) | Speech recognition method, apparatus and navigation system | |
JP3967952B2 (ja) | 文法更新システム及び方法 | |
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
JP5089955B2 (ja) | 音声対話装置 | |
US20050091054A1 (en) | Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system | |
JP2001005488A (ja) | 音声対話システム | |
JP5098613B2 (ja) | 音声認識装置及びコンピュータプログラム | |
JP4129989B2 (ja) | テキスト音声合成を支援するシステム | |
JP2008058813A (ja) | 音声応答システム、音声応答プログラム | |
JP2007256482A (ja) | 音声認識装置、音声認識方法、及びコンピュータプログラム | |
JP2008233229A (ja) | 音声認識システム、および、音声認識プログラム | |
JP2008129263A (ja) | 音声認識装置、音声認識方法、および、音声認識プログラム | |
US6591236B2 (en) | Method and system for determining available and alternative speech commands | |
US8566091B2 (en) | Speech recognition system | |
JP5152588B2 (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP2006208905A (ja) | 音声対話装置及び音声対話方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080909 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081216 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111226 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |