JP2009025411A - 音声認識装置およびプログラム - Google Patents

音声認識装置およびプログラム Download PDF

Info

Publication number
JP2009025411A
JP2009025411A JP2007186184A JP2007186184A JP2009025411A JP 2009025411 A JP2009025411 A JP 2009025411A JP 2007186184 A JP2007186184 A JP 2007186184A JP 2007186184 A JP2007186184 A JP 2007186184A JP 2009025411 A JP2009025411 A JP 2009025411A
Authority
JP
Japan
Prior art keywords
word
related word
words
appearance probability
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007186184A
Other languages
English (en)
Other versions
JP5196114B2 (ja
Inventor
Yuji Hisaminato
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007186184A priority Critical patent/JP5196114B2/ja
Publication of JP2009025411A publication Critical patent/JP2009025411A/ja
Application granted granted Critical
Publication of JP5196114B2 publication Critical patent/JP5196114B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】指定単語に関連する単語を高精度に認識する。
【解決手段】関連語特定部12は、利用者が入力装置42から入力した指定単語KWについて複数の関連語RWを特定する。記憶装置30は、複数の単語の各々について出現確率Pを記憶する。確率調整部14は、複数の単語のうち関連語特定部12が特定した各関連語RWの出現確率Pを関連語RW以外の単語の出現確率Pに対して相対的に上昇させる。音声認識部16は、音声信号Sが表わす音声に対応した単語を、確率調整部14による調整後の出現確率Pに基づいて特定する。
【選択図】図1

Description

本発明は、音声を認識する技術に関する。
音声信号から特定の単語(キーワード)を検索する技術が従来から提案されている。例えば特許文献1に開示された音声認識装置は、利用者が指定した単語(以下「指定単語」という)に対応した音響モデルと事前に収録された音声信号とを照合することで音声信号から指定単語を検索する。
特開2001−290496号公報
音声認識の誤認識を完全に回避することは技術的に困難であるから、特許文献1の技術においては、指定単語以外の単語が検索される場合や指定単語が検索されない場合がある。複数の参加者が発声する会議での収録音から特定の指定単語を検索できれば、例えば議事録の作成に便利であるが、指定単語以外の単語が誤検出された場合には当該単語を利用者が除外する必要があり、指定単語が検索されない場合には議事録上での発言の欠落といった重大な問題が発生し得る。
また、特許文献1の構成においては、音声信号のうちひとつの指定単語と完全に合致する部分のみが検索され、指定単語と同様の意味で使用された別個の単語や指定単語に関連する単語は検索されない。したがって、所定の指定単語に関連する総ての単語を検出するためには各単語を指定単語に設定したうえで検索を反復する必要がある。以上の事情を考慮して、本発明は、誤認識の可能性を抑制しながら、指定単語に関連する単語を効率的に認識するという課題の解決をひとつの目的としている。
以上の課題を解決するために、本発明に係る音声認識装置は、利用者が指定した単語について複数の関連語を特定する関連語特定手段と、複数の単語の各々について出現確率を記憶する記憶手段と、複数の単語のうち関連語特定手段が特定した各関連語の出現確率を複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整手段と、音声信号が表わす音声に対応した単語を確率調整手段による調整後の出現確率に基づいて特定する音声認識手段とを具備する。
以上の構成においては、指定単語に応じた複数の関連語の各々の出現確率を相対的に上昇させたうえで音声信号の認識が実行されるから、各単語の出現確率が初期値に維持されたまま音声認識が実行される構成と比較して、誤認識の可能性を抑制しながら各関連語を効率的に認識することが可能である。なお、「各関連語の出現確率を複数の関連語以外の単語の出現確率に対して相対的に上昇させる」とは、各関連語の出現確率を上昇させる処理(関連語以外の各単語の出現確率は変化させない)や、関連語以外の各単語の出現確率を低下させる処理(各関連語の出現確率は変化させない)を少なくとも包含する。また、関連語特定手段の特定する複数の関連語に指定単語(利用者の指定した単語)が含まれるか否かは本発明において不問である。
本発明の好適な態様に係る音声認識装置は、音声認識手段が特定した複数の単語から関連語を選択する選択手段と、選択手段が選択した関連語の文字列を表示装置に表示させる表示制御手段とを具備する。音声信号から特定された各関連語を利用者が容易に確認することが可能である。さらに好適な態様に係る音声認識装置は、表示装置に表示された関連語を利用者が指定した場合に、音声信号のうち当該関連語に対応した部分の音声を放音装置から出力する再生制御手段を具備する。本態様によれば、各関連語に対応した部分の音声が再生されるから、各関連語に対応した部分の発声の内容を利用者が容易に確認できるという利点がある。
本発明の好適な態様において、音声認識手段は、選択手段が選択した各関連語について当該音声認識手段による特定の結果の信頼度(例えば図1の信頼度A1)を算定し、表示制御手段は、各関連語の文字列を、当該関連語について音声認識手段が算定した信頼度に応じた態様(サイズや表示色(色相,明度,彩度)や文字種)で表示装置に表示させる。以上の態様によれば、表示装置に表示された各関連語の音声認識の信頼度を利用者が直感的に認識できるという利点がある。
本発明の好適な態様に係る音声認識装置は、音声信号を発声者毎の発声区間に区分する話者識別手段を具備し、表示制御手段は、話者識別手段が区分した複数の発声区間のうち各関連語が発声された発声区間を特定することで、各関連語の文字列を発声者毎に表示装置に表示させる。以上の態様によれば、各発声者が発声した関連語を発声者毎に確認することが可能である。さらに好適な態様において、話者識別手段は、当該話者識別手段による区分の結果の信頼度(例えば図1の信頼度A2)を発声区間毎に算定し、表示制御手段は、各関連語の文字列を、当該関連語が発声された発声区間について話者識別手段が算定した信頼度に応じた態様(サイズや表示色(色相,明度,彩度)や文字種)で表示装置に表示させる。以上の態様によれば、表示装置に表示された各関連語の音声認識の信頼度を利用者が直感的に認識できるという利点がある。
本発明に係る音声認識装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数の単語の各々について出現確率を記憶する記憶手段を具備するコンピュータに、利用者が指定した単語について複数の関連語を特定する関連語特定処理と、複数の単語のうち関連語特定手段が特定した各関連語の出現確率を複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整処理と、音声信号が表わす音声に対応した単語を確率調整処理後の出現確率に基づいて特定する音声認識処理とを実行させる。以上のプログラムによっても、本発明に係る音声認識装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明は、音声を認識する方法としても特定される。具体的な態様に係る音声認識方法は、利用者が指定した単語について複数の関連語を特定する関連語特定過程と、複数の単語のうち関連語特定過程にて特定した各関連語の出現確率を初期値から上昇させる確率調整過程と、音声信号が表わす音声に対応した単語を確率調整過程による処理後の出現確率に基づいて特定する音声認識過程とを含む。以上の方法によれば、本発明に係る音声認識装置と同様の作用および効果が奏される。
図1は、本発明の実施の形態に係る音声認識装置100の構成を示すブロック図である。同図に示すように、音声認識装置100は、制御装置10と記憶装置30とを具備するコンピュータシステムである。制御装置10には入力装置42と表示装置44と放音装置46とが接続される。入力装置42は、音声認識装置100に対する指示を利用者が入力するための機器(キーボードやマウス)である。例えば、入力装置42を適宜に操作することで利用者は所望の単語(キーワード)KWを入力する。表示装置44は、制御装置10による制御のもとに各種の画像を表示する。放音装置46は、制御装置10から供給される信号に応じた音声を放音する機器(例えばスピーカやヘッドホン)である。
記憶装置30は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置30として任意に採用される。図1に示すように、記憶装置30には、音声信号Sと共起データベース(DB)Cと認識辞書Dと音素モデル群Gとが格納される。なお、以上の各情報は別個の記憶装置に分散して記憶されてもよい。
音声信号Sは、収音機器(図示略)を利用して事前に採取された音声の波形を表わす。音声信号Sが表わす音声は、例えば、会議室などの空間内にて複数の参加者が随時に発声する会議にて収録された音声である。
共起データベースCは、多数の単語の各々に複数の別の単語を対応させたデータベースである。ひとつの単語には、当該単語の同義語や意味的に連関する単語(同じ文脈にて出現する可能性が高い単語)が対応づけられる。
認識辞書Dは、音声信号Sの認識に使用されるデータベースである。図2は、認識辞書Dの内容を模式的に示す概念図である。同図に示すように、認識辞書Dは、複数(N個)の単語の各々について音素列DAと文字列DBと出現確率Pとを含む。音素列DAは、単語を構成する音素の配列である。文字列DBは、単語を表記したときの文字(例えば漢字)の配列である。出現確率Pは、単語が出現する確率である。出現確率Pは、新聞記事などの一般的な文章のなかで当該単語が使用される頻度を統計的に処理することで単語毎に事前に決定される。
図1の音素モデル群Gは、平均的な音声の音響的な特性を音素毎にモデル化する複数の音素モデルで構成される。音素モデルには、隠れマルコフモデルに代表される公知の確率モデルが任意に採用される。
制御装置10は、記憶装置30に格納されたプログラムを実行することで複数の要素(関連語特定部12,確率調整部14,音声認識部16,話者識別部22,表示制御部24,再生制御部26)として機能する。制御装置10が実現する各要素の機能を以下に詳述する。なお、制御装置10の各要素は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。
関連語特定部12は、指定単語KWについて複数の関連語RWを特定する。関連語特定部12が特定する複数の関連語RWは、共起データベースCにて指定単語KWに対応づけられた単語と、利用者が入力装置42から入力した指定単語KWとを含む。
確率調整部14は、認識辞書Dに登録された複数の単語のなかから各関連語RW(指定単語KWを含む)を検索し、当該関連語RWに対応する出現確率Pを初期値から上昇させる。例えば、確率調整部14は、初期的な出現確率Pに所定の係数を乗算または加算することで更新後の出現確率Pを算定する。一方、関連語RW以外の各単語の出現確率Pは初期値のまま維持される。
音声認識部16は、記憶装置30に格納された音声信号Sを認識する手段である。さらに詳述すると、音声認識部16は、音声信号Sの音声に対応した単語(関連語RWおよび関連語RW以外の単語)の時系列と各単語が発声された時刻とを、認識辞書Dと音素モデル群Gとに基づいて順次に特定する。認識辞書Dに登録された複数の単語のうち評価値(スコア)SCの高い単語が選択される。評価値SCは、音響的評価値(音響スコア)ASと言語的評価値(言語スコア)LSとの加算値や加重和として算定される。
音響的評価値ASは、音声信号Sからフレーム毎に抽出された音響的な特徴量(例えばMFCC(Mel Frequency Cepstral Coefficients))の時系列と複数の単語の各々の音響モデルとの相関の指標となる数値(例えば両者の距離)である。各単語の音響モデルは、当該単語の音素列DAを構成する各音素の音素モデルを音素モデル群Gから選択して組合わせた確率モデルである。したがって、音響モデルが音声信号Sの特徴量の時系列に近似する単語ほど音響的評価値ASは高い数値となる。一方、言語的評価値LSは、確率調整部14による調整後に認識辞書Dで各単語に設定されている出現確率Pに応じた数値である。本形態においては出現確率Pを言語的評価値LSとして採用する。評価値SCは音響的評価値ASと言語的評価値LSとの加算に基づいて算定されるから、音響的評価値ASまたは言語的評価値LSが増加するほど評価値SCも増加する。
確率調整部14が関連語RWの出現確率Pを増加させることで関連語RWの評価値SC(言語的評価値LS)は上昇するから、音声認識部16が関連語RWを認識する確率は、当該単語が関連語RWとして特定されない場合と比較して上昇する。すなわち、各関連語RWは音声認識部16に認識され易くなる。
図1に示すように、音声認識部16は選択部162を含む。選択部162は、音声認識部16が以上の処理で認識した複数の単語の時系列から各関連語RWを選択する。さらに、音声認識部16は、選択部162が選択した関連語RWを音声認識部16が認識した結果の確度(以下「信頼度」という)A1を関連語RW毎に算定する。評価値SCが高いほど音声認識の結果の妥当性は高いと言えるから、本形態においては、音声認識にて複数の単語について算定した評価値SCの総和に対する関連語RWの評価値SCの相対比(関連語RWの評価値SC/評価値SCの総和)を信頼度A1として算定する。音声認識部16は、選択部162が選択した関連語RWの文字列DBと当該関連語RWの発声の時刻T1と信頼度A1とを関連語RW毎に順次に出力する。以上が音声認識部16による処理の内容である。
話者識別部22は、音声信号Sを発声者毎に時間軸上で複数の区間(以下「発声区間」という)に区分する。例えば、話者識別部22は、音声信号Sのフレーム毎に抽出された音響的な特徴量(例えばMFCC)を複数の集合(クラスタ)に分類する。すなわち、発声者毎に別のクラスタが設定される。さらに、話者識別部22は、音声信号Sの複数のフレームの各々を、複数のクラスタのうち当該フレームの特徴量が最も類似する(距離が最小となる)中心ベクトルで規定されるクラスタに分類することで、音声信号Sを発声者毎(クラスタ毎)の発声区間に区分する。
また、話者識別部22は、話者識別部22による区分の結果の確度(以下「信頼度」という)A2を発声区間毎に算定する。例えば、ひとつのクラスタに所属する発声区間の信頼度A2は、発声区間内の各フレームから抽出された特徴量と当該クラスタの中心ベクトルとの距離の平均値の逆数として算定される。話者識別部22は、各発声区間の発声者(各クラスタ)に固有に付与された識別符号Iと当該発声区間の始点および終点の時刻T2と当該発声区間の信頼度A2とを発声区間毎に順次に出力する。
表示制御部24は、音声認識部16が特定した各関連語RWの文字列DBを表示装置44に表示させる。図3は、表示装置44に表示される画面(以下「検索結果表示画面」という)442を例示する模式図である。同図に示すように、検索結果表示画面442には、話者識別部22が識別した発声者毎の領域R(R1〜R3)が画定される。また、各領域Rに対応した発声者の識別符号I(I1〜I3)が当該領域Rの近傍に配置されるとともに、音声信号Sの始点を基準(0:00)とした時刻が上方から下方に向かって等間隔に配置される。
表示制御部24は、音声認識部16が特定した各関連語RWの文字列DBを、当該関連語RWの発声者に対応した領域R内に配置する。すなわち、各関連語RWの文字列DBが発声者毎に区別して表示される。さらに詳述すると、表示制御部24は、話者識別部22が特定した時刻T2で特定される複数の発声区間のうち各関連語RWの時刻T1を含む発声区間(すなわち関連語RWが発声された区間)を特定し、当該発声区間の発声者の領域Rのうち時刻T1に対応した位置に関連語RWの文字列DBを配置する。例えば、図3においては、「コスト」という指定単語KWに対して特定された「削減」という関連語RWを、識別符号I1の発声者が時刻“0:30”から“1:00”までの区間内に発声した場合が例示されている。表示制御部24は、領域R毎(発声者毎)に別色で関連語RWの文字列DBを表示させる。
また、表示制御部24は、音声認識部16が特定した関連語RW毎に信頼度A0を算定する。信頼度A0は、関連語RWについて音声認識部16が特定した信頼度A1と、当該関連語RWの時刻T1を含む発声区間について話者識別部22が特定した信頼度A2との加算値(または加重和)である。表示制御部24は、各関連語RWの文字列DBを、当該関連語RWの信頼度A0に応じた態様で表示装置44に表示させる。例えば、表示制御部24は、信頼度A0に応じたサイズで関連語RWの文字列DBを表示する。図3の例示において、識別符号I2の発声者が時刻“1:00”から“1:15”までの区間内で発声した「価格」という関連語RWの信頼度A0は、識別符号I2の発声者および識別符号I3の発声者の各々が時刻“0:15”から“0:30”までの区間内で発声した「価格」という関連語RWの信頼度A0と比較して高い(したがって文字列DBのサイズが大きい)。
利用者は、検索結果表示画面442に配置された何れかの関連語RWを入力装置42から指定することが可能である。図1の再生制御部26は、記憶装置30が記憶する音声信号Sのうち利用者が指定した関連語RWの時刻T1に対応した時点以後の区間(関連語RWに対応した部分)を順次に放音装置46に出力する。したがって、関連語RWを含む部分の音声が放音装置46から出力される。なお、関連語RWの時刻T1から所定の時間長だけ手前の時点を再生制御部26による再生の開始点に設定してもよい。
以上に説明したように、本形態においては、複数の単語のうち各関連語RWの出現確率Pが上昇するから、各関連語RWの出現確率Pが初期値のまま音声認識に使用される構成と比較して、音声信号Sの誤認識の可能性が低減される。しかも、指定単語KWに対応した複数の関連語RWが特定されるから、指定単語KWのみが音声信号Sから検索される構成と比較して、利用者の意図を反映した広範囲の単語(関連語RW)が効率的に検索されるという利点もある。
また、音声信号Sが発声者毎に区分されるとともに関連語RWの文字列DBが発声者毎に区別して表示されるから、関連語RWの発声者を利用者が容易に把握できるという利点がある。さらに、領域Rのうち時刻T1に応じた位置に関連語RWの文字列DBが配置されるから、各発声者が関連語RWを発声した時刻や各発声者による発声の先後を利用者が直感的に把握できるという利点もある。また、各関連語RWの認識の信頼度A0(A1,A2)に応じた態様で当該関連語RWの文字列DBが表示されるから、各関連語RWの信頼度A0を利用者が直感的に把握することができ、さらには信頼度A0の高い関連語RWから順番に再生するといった効率的な利用が可能となる。
<変形例>
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
以上の形態においては音声認識部16が選択部162を含む構成を例示したが、表示制御部24が選択部162を含む構成も採用される。例えば、音声認識部16は、音声信号Sから認識した総ての単語(関連語RWおよび関連語RW以外の単語)の各々について文字列DBと時刻T1と信頼度A1とを表示制御部24に出力する。表示制御部24の選択部162は、音声認識部16から通知された単語のなかから関連語RWを選択して文字列DBを表示装置44に表示させる。なお、図1の構成によれば、文字列DBと時刻T1と信頼度A1との特定前に音声認識の結果から関連語RWが抽出されるから、関連語RWのみについて文字列DBと時刻T1と信頼度A1とを特定すれば足りる(したがって処理量が削減される)という利点がある。
(2)変形例2
確率調整部14を音声認識部16とは別個の要素とした構成を便宜的に例示したが、確率調整部14の機能を音声認識部16に持たせてもよい。例えば、複数の単語の各々を順次に選択して当該単語の評価値SCを算定するときに、音声認識部16は、選択した単語が関連語RWであれば当該単語の出現確率Pを上昇させたうえで評価値SCを算定する一方、選択した単語が関連語RW以外であれば当該単語の出現確率Pを初期値に維持したまま評価値SCを算定する。
(3)変形例3
音声認識部16が認識した複数の単語のうち各関連語RWを選択的に出力(検索)する構成は本発明において必須ではない。例えば、音声認識部16が音声信号Sから特定した各単語(関連語RWおよび関連語RW以外の単語)の文字列DBを、表示制御部24が表示装置44から順次に出力する構成も採用される。指定単語KWに対応した各関連語RWの出現確率Pが初期値から上昇するから、音声信号Sから特定された各単語の文字列DBを出力する構成であっても、誤認識の可能性を抑制しながら各関連語RWを効率的に認識するという所期の効果は確かに奏される。以上のように、音声認識部16が認識した複数の単語から関連語RWを選択する選択部162(音声信号Sから関連語RWを検索する要素)は適宜に省略される。また、音声信号Sを発声者毎に区分する話者識別部22を省略してもよい。話者識別部22を省略した構成においては、音声認識部16の認識した各単語の文字列DBが時系列に表示される(発声者毎に区別されない)。
また、再生制御部26も省略される。ただし、再生制御部26を含む図1の構成によれば、所望の時点(音声信号Sのうち所望の発声者が特定の単語を発声した時点)の音声を利用者が容易に確認できるという利点がある。なお、以上の形態における話者識別部22は音声信号Sを単に発声者毎に区別するのみである(各発声者の特定まではしない)から、利用者は、検索結果表示画面442を視認しただけでは各領域Rの発声者が誰であるかまでは特定できない。しかし、再生制御部26を具備する構成によれば、音声信号Sの再生音を聴取することで、利用者は、各領域Rの関連語RWの発声者を具体的に特定できる。
(4)変形例4
以上の形態においては話者識別部22が音声信号Sを発声者毎に区分する構成を例示したが、話者識別部22が各発声者の特定まで実行する構成も好適である。例えば、発声音から抽出された特徴量のモデル(例えばガウス混合モデル)と各発声者の氏名とを発声者毎に事前に記憶装置30に格納しておく。話者識別部22は、音声信号Sから抽出された特徴量と記憶装置30に格納された特徴量のモデルとを対比することで音声信号Sの各発声区間における発声者の氏名を特定し、検索結果表示画面442の各領域Rの近傍に発声者の氏名を表示する。以上の構成によれば、音声信号Sの再生音を聴取しなくても、利用者は各関連語RWの発声者を特定することが可能である。
(5)変形例5
以上の形態においては確率調整部14が各関連語RWの出現確率Pを上昇させたが、関連語RW以外の単語の出現確率Pを確率調整部14が低下させる構成(各関連語RWの出現確率Pは初期値のまま維持される構成)も採用される。もっとも、関連語RW以外の単語は関連語RWと比較して充分に多いから、関連語RWの出現確率Pを調整する形態によれば、関連語RW以外の単語の出現確率Pを調整する構成と比較して、確率調整部14による処理量が軽減されるという利点がある。
(6)変形例6
信頼度A0(A1,A2)を算定する構成は本発明において必須ではない。したがって、各関連語RWの文字列DBの態様を可変に制御する構成は本発明において省略され得る。また、表示制御部24が信頼度A1のみに基づいて文字列DBの態様を制御する構成(信頼度A2の算定を省略した構成)や、表示制御部24が信頼度A2のみに基づいて文字列DBの態様を制御する構成(信頼度A1の算定を省略した構成)も採用される。
本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。 認識辞書の構成を模式的に示す概念図である。 検索結果表示画面の内容を示す概念図である。
符号の説明
100……音声認識装置、10……制御装置、12……関連語特定部、14……確率調整部、16……音声認識部、162……選択部、22……話者識別部、24……表示制御部、26……再生制御部、30……記憶装置、42……入力装置、44……表示装置、46……放音装置、KW……指定単語、RW……関連語、S……音声信号、C……共起データベース、D……認識辞書、DA……音素列、DB……文字列、P……出現確率、G……音素モデル群。

Claims (7)

  1. 利用者が指定した単語について複数の関連語を特定する関連語特定手段と、
    複数の単語の各々について出現確率を記憶する記憶手段と、
    前記複数の単語のうち前記関連語特定手段が特定した前記各関連語の出現確率を前記複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整手段と、
    音声信号が表わす音声に対応した単語を前記確率調整手段による調整後の出現確率に基づいて特定する音声認識手段と
    を具備する音声認識装置。
  2. 前記音声認識手段が特定した複数の単語から前記関連語を選択する選択手段と、
    前記選択手段が選択した関連語の文字列を表示装置に表示させる表示制御手段と
    を具備する請求項1の音声認識装置。
  3. 前記表示装置に表示された関連語を利用者が指定した場合に、前記音声信号のうち当該関連語に対応した部分の音声を放音装置から出力する再生制御手段
    を具備する請求項2の音声認識装置。
  4. 前記音声認識手段は、前記選択手段が選択した各関連語について当該音声認識手段による特定の結果の信頼度を算定し、
    前記表示制御手段は、前記各関連語の文字列を、当該関連語について前記音声認識手段が算定した信頼度に応じた態様で前記表示装置に表示させる
    請求項2または請求項3の音声認識装置。
  5. 前記音声信号を発声者毎の発声区間に区分する話者識別手段を具備し、
    前記表示制御手段は、前記話者識別手段が区分した複数の発声区間のうち前記各関連語が発声された発声区間を特定することで、前記各関連語の文字列を発声者毎に前記表示装置に表示させる
    請求項2から請求項4の何れかの音声認識装置。
  6. 前記話者識別手段は、当該話者識別手段による区分の結果の信頼度を発声区間毎に算定し、
    前記表示制御手段は、前記各関連語の文字列を、当該関連語が発声された発声区間について前記話者識別手段が算定した信頼度に応じた態様で前記表示装置に表示させる
    請求項5の音声認識装置。
  7. 複数の単語の各々について出現確率を記憶する記憶手段を具備するコンピュータに、
    利用者が指定した単語について複数の関連語を特定する関連語特定処理と、
    前記複数の単語のうち前記関連語特定手段が特定した前記各関連語の出現確率を前記複数の関連語以外の単語の出現確率に対して相対的に上昇させる確率調整処理と、
    音声信号が表わす音声に対応した単語を前記確率調整処理後の出現確率に基づいて特定する音声認識処理と
    を実行させるプログラム。
JP2007186184A 2007-07-17 2007-07-17 音声認識装置およびプログラム Expired - Fee Related JP5196114B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007186184A JP5196114B2 (ja) 2007-07-17 2007-07-17 音声認識装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007186184A JP5196114B2 (ja) 2007-07-17 2007-07-17 音声認識装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009025411A true JP2009025411A (ja) 2009-02-05
JP5196114B2 JP5196114B2 (ja) 2013-05-15

Family

ID=40397288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007186184A Expired - Fee Related JP5196114B2 (ja) 2007-07-17 2007-07-17 音声認識装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5196114B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010238050A (ja) * 2009-03-31 2010-10-21 Nec Corp 閲覧システム、方法、およびプログラム
JP2017058483A (ja) * 2015-09-15 2017-03-23 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
JP6953597B1 (ja) * 2020-09-17 2021-10-27 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290496A (ja) * 2000-04-07 2001-10-19 Ricoh Co Ltd 音声検索装置および音声検索方法および記録媒体
JP2001325250A (ja) * 2000-05-15 2001-11-22 Ricoh Co Ltd 議事録作成装置および議事録作成方法および記録媒体
JP2003167600A (ja) * 2001-12-04 2003-06-13 Canon Inc 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム
JP2004030623A (ja) * 1993-02-04 2004-01-29 Matsushita Electric Ind Co Ltd 作業状況管理装置
JP2005025571A (ja) * 2003-07-03 2005-01-27 Ns Solutions Corp 業務支援装置、業務支援方法およびそのプログラム
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
WO2006059451A1 (ja) * 2004-11-30 2006-06-08 Matsushita Electric Industrial Co., Ltd. 音声認識装置
JP2007017839A (ja) * 2005-07-11 2007-01-25 Nissan Motor Co Ltd 音声認識装置
JP2007171809A (ja) * 2005-12-26 2007-07-05 Canon Inc 情報処理装置及び情報処理方法
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004030623A (ja) * 1993-02-04 2004-01-29 Matsushita Electric Ind Co Ltd 作業状況管理装置
JP2001290496A (ja) * 2000-04-07 2001-10-19 Ricoh Co Ltd 音声検索装置および音声検索方法および記録媒体
JP2001325250A (ja) * 2000-05-15 2001-11-22 Ricoh Co Ltd 議事録作成装置および議事録作成方法および記録媒体
JP2003167600A (ja) * 2001-12-04 2003-06-13 Canon Inc 音声認識装置及び方法、ページ記述言語表示装置及びその制御方法、並びにコンピュータ・プログラム
JP2005025571A (ja) * 2003-07-03 2005-01-27 Ns Solutions Corp 業務支援装置、業務支援方法およびそのプログラム
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
WO2006059451A1 (ja) * 2004-11-30 2006-06-08 Matsushita Electric Industrial Co., Ltd. 音声認識装置
JP2007017839A (ja) * 2005-07-11 2007-01-25 Nissan Motor Co Ltd 音声認識装置
JP2007171809A (ja) * 2005-12-26 2007-07-05 Canon Inc 情報処理装置及び情報処理方法
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010238050A (ja) * 2009-03-31 2010-10-21 Nec Corp 閲覧システム、方法、およびプログラム
JP2017058483A (ja) * 2015-09-15 2017-03-23 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
JP6953597B1 (ja) * 2020-09-17 2021-10-27 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
WO2022059446A1 (ja) * 2020-09-17 2022-03-24 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
JP2022049784A (ja) * 2020-09-17 2022-03-30 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法

Also Published As

Publication number Publication date
JP5196114B2 (ja) 2013-05-15

Similar Documents

Publication Publication Date Title
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US20220156039A1 (en) Voice Control of Computing Devices
US11545142B2 (en) Using context information with end-to-end models for speech recognition
US10056078B1 (en) Output of content based on speech-based searching and browsing requests
US10884701B2 (en) Voice enabling applications
US11594215B2 (en) Contextual voice user interface
US10140973B1 (en) Text-to-speech processing using previously speech processed data
JP6550068B2 (ja) 音声認識における発音予測
US11823678B2 (en) Proactive command framework
US7842873B2 (en) Speech-driven selection of an audio file
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
US8566091B2 (en) Speech recognition system
JP2008046538A (ja) テキスト音声合成を支援するシステム
JP2002062891A (ja) 音素割当て方法
JP5196114B2 (ja) 音声認識装置およびプログラム
US11328713B1 (en) On-device contextual understanding
US11551666B1 (en) Natural language processing
JP4877112B2 (ja) 音声処理装置およびプログラム
US11935533B1 (en) Content-related actions based on context
WO2019113516A1 (en) Voice control of computing devices
Balchandran et al. Techniques for topic detection based processing in spoken dialog systems.
JP2010175869A (ja) 音声認識用辞書作成装置及び音声認識用辞書作成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5196114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees