JP2009025411A - 音声認識装置およびプログラム - Google Patents
音声認識装置およびプログラム Download PDFInfo
- Publication number
- JP2009025411A JP2009025411A JP2007186184A JP2007186184A JP2009025411A JP 2009025411 A JP2009025411 A JP 2009025411A JP 2007186184 A JP2007186184 A JP 2007186184A JP 2007186184 A JP2007186184 A JP 2007186184A JP 2009025411 A JP2009025411 A JP 2009025411A
- Authority
- JP
- Japan
- Prior art keywords
- word
- related word
- words
- appearance probability
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】関連語特定部12は、利用者が入力装置42から入力した指定単語KWについて複数の関連語RWを特定する。記憶装置30は、複数の単語の各々について出現確率Pを記憶する。確率調整部14は、複数の単語のうち関連語特定部12が特定した各関連語RWの出現確率Pを関連語RW以外の単語の出現確率Pに対して相対的に上昇させる。音声認識部16は、音声信号Sが表わす音声に対応した単語を、確率調整部14による調整後の出現確率Pに基づいて特定する。
【選択図】図1
Description
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
以上の形態においては音声認識部16が選択部162を含む構成を例示したが、表示制御部24が選択部162を含む構成も採用される。例えば、音声認識部16は、音声信号Sから認識した総ての単語(関連語RWおよび関連語RW以外の単語)の各々について文字列DBと時刻T1と信頼度A1とを表示制御部24に出力する。表示制御部24の選択部162は、音声認識部16から通知された単語のなかから関連語RWを選択して文字列DBを表示装置44に表示させる。なお、図1の構成によれば、文字列DBと時刻T1と信頼度A1との特定前に音声認識の結果から関連語RWが抽出されるから、関連語RWのみについて文字列DBと時刻T1と信頼度A1とを特定すれば足りる(したがって処理量が削減される)という利点がある。
確率調整部14を音声認識部16とは別個の要素とした構成を便宜的に例示したが、確率調整部14の機能を音声認識部16に持たせてもよい。例えば、複数の単語の各々を順次に選択して当該単語の評価値SCを算定するときに、音声認識部16は、選択した単語が関連語RWであれば当該単語の出現確率Pを上昇させたうえで評価値SCを算定する一方、選択した単語が関連語RW以外であれば当該単語の出現確率Pを初期値に維持したまま評価値SCを算定する。
音声認識部16が認識した複数の単語のうち各関連語RWを選択的に出力(検索)する構成は本発明において必須ではない。例えば、音声認識部16が音声信号Sから特定した各単語(関連語RWおよび関連語RW以外の単語)の文字列DBを、表示制御部24が表示装置44から順次に出力する構成も採用される。指定単語KWに対応した各関連語RWの出現確率Pが初期値から上昇するから、音声信号Sから特定された各単語の文字列DBを出力する構成であっても、誤認識の可能性を抑制しながら各関連語RWを効率的に認識するという所期の効果は確かに奏される。以上のように、音声認識部16が認識した複数の単語から関連語RWを選択する選択部162(音声信号Sから関連語RWを検索する要素)は適宜に省略される。また、音声信号Sを発声者毎に区分する話者識別部22を省略してもよい。話者識別部22を省略した構成においては、音声認識部16の認識した各単語の文字列DBが時系列に表示される(発声者毎に区別されない)。
以上の形態においては話者識別部22が音声信号Sを発声者毎に区分する構成を例示したが、話者識別部22が各発声者の特定まで実行する構成も好適である。例えば、発声音から抽出された特徴量のモデル(例えばガウス混合モデル)と各発声者の氏名とを発声者毎に事前に記憶装置30に格納しておく。話者識別部22は、音声信号Sから抽出された特徴量と記憶装置30に格納された特徴量のモデルとを対比することで音声信号Sの各発声区間における発声者の氏名を特定し、検索結果表示画面442の各領域Rの近傍に発声者の氏名を表示する。以上の構成によれば、音声信号Sの再生音を聴取しなくても、利用者は各関連語RWの発声者を特定することが可能である。
以上の形態においては確率調整部14が各関連語RWの出現確率Pを上昇させたが、関連語RW以外の単語の出現確率Pを確率調整部14が低下させる構成(各関連語RWの出現確率Pは初期値のまま維持される構成)も採用される。もっとも、関連語RW以外の単語は関連語RWと比較して充分に多いから、関連語RWの出現確率Pを調整する形態によれば、関連語RW以外の単語の出現確率Pを調整する構成と比較して、確率調整部14による処理量が軽減されるという利点がある。
信頼度A0(A1,A2)を算定する構成は本発明において必須ではない。したがって、各関連語RWの文字列DBの態様を可変に制御する構成は本発明において省略され得る。また、表示制御部24が信頼度A1のみに基づいて文字列DBの態様を制御する構成(信頼度A2の算定を省略した構成)や、表示制御部24が信頼度A2のみに基づいて文字列DBの態様を制御する構成(信頼度A1の算定を省略した構成)も採用される。
Claims (7)
- 利用者が指定した単語について複数の関連語を特定する関連語特定手段と、
複数の単語の各々について出現確率を記憶する記憶手段と、
前記複数の単語のうち前記関連語特定手段が特定した前記各関連語の出現確率を前記複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整手段と、
音声信号が表わす音声に対応した単語を前記確率調整手段による調整後の出現確率に基づいて特定する音声認識手段と
を具備する音声認識装置。 - 前記音声認識手段が特定した複数の単語から前記関連語を選択する選択手段と、
前記選択手段が選択した関連語の文字列を表示装置に表示させる表示制御手段と
を具備する請求項1の音声認識装置。 - 前記表示装置に表示された関連語を利用者が指定した場合に、前記音声信号のうち当該関連語に対応した部分の音声を放音装置から出力する再生制御手段
を具備する請求項2の音声認識装置。 - 前記音声認識手段は、前記選択手段が選択した各関連語について当該音声認識手段による特定の結果の信頼度を算定し、
前記表示制御手段は、前記各関連語の文字列を、当該関連語について前記音声認識手段が算定した信頼度に応じた態様で前記表示装置に表示させる
請求項2または請求項3の音声認識装置。 - 前記音声信号を発声者毎の発声区間に区分する話者識別手段を具備し、
前記表示制御手段は、前記話者識別手段が区分した複数の発声区間のうち前記各関連語が発声された発声区間を特定することで、前記各関連語の文字列を発声者毎に前記表示装置に表示させる
請求項2から請求項4の何れかの音声認識装置。 - 前記話者識別手段は、当該話者識別手段による区分の結果の信頼度を発声区間毎に算定し、
前記表示制御手段は、前記各関連語の文字列を、当該関連語が発声された発声区間について前記話者識別手段が算定した信頼度に応じた態様で前記表示装置に表示させる
請求項5の音声認識装置。 - 複数の単語の各々について出現確率を記憶する記憶手段を具備するコンピュータに、
利用者が指定した単語について複数の関連語を特定する関連語特定処理と、
前記複数の単語のうち前記関連語特定手段が特定した前記各関連語の出現確率を前記複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整処理と、
音声信号が表わす音声に対応した単語を前記確率調整処理後の出現確率に基づいて特定する音声認識処理と
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007186184A JP5196114B2 (ja) | 2007-07-17 | 2007-07-17 | 音声認識装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007186184A JP5196114B2 (ja) | 2007-07-17 | 2007-07-17 | 音声認識装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009025411A true JP2009025411A (ja) | 2009-02-05 |
JP5196114B2 JP5196114B2 (ja) | 2013-05-15 |
Family
ID=40397288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007186184A Expired - Fee Related JP5196114B2 (ja) | 2007-07-17 | 2007-07-17 | 音声認識装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5196114B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010238050A (ja) * | 2009-03-31 | 2010-10-21 | Nec Corp | 閲覧システム、方法、およびプログラム |
JP2017058483A (ja) * | 2015-09-15 | 2017-03-23 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
JP6953597B1 (ja) * | 2020-09-17 | 2021-10-27 | ベルフェイス株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001290496A (ja) * | 2000-04-07 | 2001-10-19 | Ricoh Co Ltd | 音声検索装置および音声検索方法および記録媒体 |
JP2001325250A (ja) * | 2000-05-15 | 2001-11-22 | Ricoh Co Ltd | 議事録作成装置および議事録作成方法および記録媒体 |
JP2003167600A (ja) * | 2001-12-04 | 2003-06-13 | Canon Inc | 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム |
JP2004030623A (ja) * | 1993-02-04 | 2004-01-29 | Matsushita Electric Ind Co Ltd | 作業状況管理装置 |
JP2005025571A (ja) * | 2003-07-03 | 2005-01-27 | Ns Solutions Corp | 業務支援装置、業務支援方法およびそのプログラム |
JP2005165066A (ja) * | 2003-12-03 | 2005-06-23 | Internatl Business Mach Corp <Ibm> | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
WO2006059451A1 (ja) * | 2004-11-30 | 2006-06-08 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置 |
JP2007017839A (ja) * | 2005-07-11 | 2007-01-25 | Nissan Motor Co Ltd | 音声認識装置 |
JP2007171809A (ja) * | 2005-12-26 | 2007-07-05 | Canon Inc | 情報処理装置及び情報処理方法 |
JP2007178927A (ja) * | 2005-12-28 | 2007-07-12 | Canon Inc | 情報検索装置および方法 |
-
2007
- 2007-07-17 JP JP2007186184A patent/JP5196114B2/ja not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004030623A (ja) * | 1993-02-04 | 2004-01-29 | Matsushita Electric Ind Co Ltd | 作業状況管理装置 |
JP2001290496A (ja) * | 2000-04-07 | 2001-10-19 | Ricoh Co Ltd | 音声検索装置および音声検索方法および記録媒体 |
JP2001325250A (ja) * | 2000-05-15 | 2001-11-22 | Ricoh Co Ltd | 議事録作成装置および議事録作成方法および記録媒体 |
JP2003167600A (ja) * | 2001-12-04 | 2003-06-13 | Canon Inc | 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム |
JP2005025571A (ja) * | 2003-07-03 | 2005-01-27 | Ns Solutions Corp | 業務支援装置、業務支援方法およびそのプログラム |
JP2005165066A (ja) * | 2003-12-03 | 2005-06-23 | Internatl Business Mach Corp <Ibm> | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
WO2006059451A1 (ja) * | 2004-11-30 | 2006-06-08 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置 |
JP2007017839A (ja) * | 2005-07-11 | 2007-01-25 | Nissan Motor Co Ltd | 音声認識装置 |
JP2007171809A (ja) * | 2005-12-26 | 2007-07-05 | Canon Inc | 情報処理装置及び情報処理方法 |
JP2007178927A (ja) * | 2005-12-28 | 2007-07-12 | Canon Inc | 情報検索装置および方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010238050A (ja) * | 2009-03-31 | 2010-10-21 | Nec Corp | 閲覧システム、方法、およびプログラム |
JP2017058483A (ja) * | 2015-09-15 | 2017-03-23 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
US10832685B2 (en) | 2015-09-15 | 2020-11-10 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product |
JP6953597B1 (ja) * | 2020-09-17 | 2021-10-27 | ベルフェイス株式会社 | 情報処理装置、プログラム及び情報処理方法 |
WO2022059446A1 (ja) * | 2020-09-17 | 2022-03-24 | ベルフェイス株式会社 | 情報処理装置、プログラム及び情報処理方法 |
JP2022049784A (ja) * | 2020-09-17 | 2022-03-30 | ベルフェイス株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5196114B2 (ja) | 2013-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887590B2 (en) | Voice enablement and disablement of speech processing functionality | |
US20220156039A1 (en) | Voice Control of Computing Devices | |
US11545142B2 (en) | Using context information with end-to-end models for speech recognition | |
US10056078B1 (en) | Output of content based on speech-based searching and browsing requests | |
US10884701B2 (en) | Voice enabling applications | |
US11594215B2 (en) | Contextual voice user interface | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
US11823678B2 (en) | Proactive command framework | |
US7842873B2 (en) | Speech-driven selection of an audio file | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
US8566091B2 (en) | Speech recognition system | |
JP2008046538A (ja) | テキスト音声合成を支援するシステム | |
JP2002062891A (ja) | 音素割当て方法 | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
US11328713B1 (en) | On-device contextual understanding | |
US11551666B1 (en) | Natural language processing | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
US11935533B1 (en) | Content-related actions based on context | |
WO2019113516A1 (en) | Voice control of computing devices | |
Balchandran et al. | Techniques for topic detection based processing in spoken dialog systems. | |
JP2010175869A (ja) | 音声認識用辞書作成装置及び音声認識用辞書作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130122 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160215 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5196114 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |