JP5752488B2 - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP5752488B2
JP5752488B2 JP2011122054A JP2011122054A JP5752488B2 JP 5752488 B2 JP5752488 B2 JP 5752488B2 JP 2011122054 A JP2011122054 A JP 2011122054A JP 2011122054 A JP2011122054 A JP 2011122054A JP 5752488 B2 JP5752488 B2 JP 5752488B2
Authority
JP
Japan
Prior art keywords
word
speaker
speech recognition
score
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011122054A
Other languages
English (en)
Other versions
JP2012252026A (ja
Inventor
悠輔 中島
悠輔 中島
孝輔 辻野
孝輔 辻野
真也 飯塚
真也 飯塚
正幸 田邉
正幸 田邉
壯 中坊
壯 中坊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2011122054A priority Critical patent/JP5752488B2/ja
Publication of JP2012252026A publication Critical patent/JP2012252026A/ja
Application granted granted Critical
Publication of JP5752488B2 publication Critical patent/JP5752488B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置、音声認識方法、及び音声認識プログラムに関する。
従来より、人の音声の音響モデルと言語モデルとを用いた統計的手法により、音声認識を行う技術が提案されている(例えば、特許文献1参照)。
特開2008−58503号公報
しかしながら、上記特許文献に記載された技術では、発話者の音声ではない雑音に人の音声が含まれているときに、雑音に含まれる人の音声から抽出した単語を音声認識結果として誤採用してしまう場合がある。このため、音声認識精度が低下してしまうという問題がある。
本発明は、上記のような課題を解決するために成されたものであり、音声認識精度を向上させることができる音声認識装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。
本発明に係る音声認識装置は、音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理手段と、各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出手段と、音声処理手段により出力された各単語の信頼度、及び発話者度算出手段により算出された各単語の発話者度に基づいて、各単語のスコアを算出するスコア算出手段と、各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定手段とを備える、ことを特徴とする。
また、本発明に係る音声認識方法は、音声認識装置により実行される音声認識方法であって、音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理ステップと、各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出ステップと、音声処理ステップにより出力された各単語の信頼度、及び発話者度算出ステップにより算出された各単語の発話者度に基づいて、各単語のスコアを算出するスコア算出ステップと、各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定ステップとを備える、ことを特徴とする。
また、本発明に係る音声認識プログラムは、コンピュータを、音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理手段と、各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出手段と、音声処理手段により出力された各単語の信頼度、及び発話者度算出手段により算出された各単語の発話者度に基づいて、各単語のスコアを算出するスコア算出手段と、各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定手段、として機能させることを特徴とする。
上記音声認識装置、音声認識方法、及び音声認識プログラムでは、音データに含まれる単語が抽出され、各単語の信頼度が出力され、各単語に対応する音データの発話者の音声らしさを示す発話者度が算出される。そして、各単語の信頼度及び各単語の発話者度に基づいて各単語のスコアが算出され、各単語のスコアと所定の閾値とに基づいて音声認識結果として採用する単語が選定される。このように、各単語の信頼度に加え、各単語の発話者度に基づいて各単語のスコアを算出することで、発話者の音声から抽出された単語のスコアと、雑音から抽出された単語のスコアとの差異を明確にすることができ、音声認識精度を向上させることができる。また、各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語が音声認識結果として採用されるため、雑音から抽出された単語の誤採用をより低減させることができ、音声認識精度をより向上させることができる。
また、発話者度算出手段は、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、の少なくとも一つを用いて各単語の発話者度を算出してもよい。この場合、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、の少なくとも一つによって、発話者の音声から抽出された単語の発話者度と、雑音から抽出された単語の発話者度との差異がより明確となるため、音声認識精度をより向上させることができる。
また、発話者度算出手段は、人の音声の周波数帯域における各単語の音量を用いて各単語の発話者度を算出してもよい。この場合、発話者の音声から抽出された単語と、人の音声以外の周波数帯域の音を多く含む雑音から抽出された単語とで、音量の差異がより明確となり、発話者度の差異がより明確となる。このため、音声認識精度をより向上させることができる。
また、音声認識装置は、スコア算出手段により算出されたスコアの最大値に基づいて、所定の閾値を設定する閾値設定手段を更に備え、単語選定手段は、閾値設定手段により設定された所定の閾値を用いて音声認識結果として採用する単語を選定してもよい。この場合、集音環境による全単語のスコアの増減に柔軟に対応して、音声認識結果として採用する単語を選定することができ、集音環境による音声認識結果のばらつきを抑制することができる。
また、音声処理手段は、各単語の信頼度の最大値を基準として、各単語の相対的な信頼度を出力し、スコア算出手段は、音声処理手段により出力された各単語の相対的な信頼度を用いて各単語のスコアを算出してもよい。この場合、集音環境による全単語の信頼度の増減に柔軟に対応してスコアを算出し、音声認識結果として採用する単語を選定することができる。従って、集音環境による音声認識結果のばらつきをより抑制することができる。
また、発話者度算出手段は、各単語の発話者度の最大値を基準として、各単語の相対的な発話者度を算出し、スコア算出手段は、発話者度算出手段により算出された各単語の相対的な発話者度を用いて各単語のスコアを算出してもよい。この場合、集音環境による全単語の発話者度の増減に柔軟に対応してスコアを算出し、音声認識結果として採用する単語を選定することができる。このため、集音環境による音声認識結果のばらつきをより抑制することができる。
本発明に係る音声認識装置、音声認識方法、及び音声認識プログラムによれば、音声認識精度を向上させることができる。
本発明に係る音声認識方法を採用した音声認識装置の一実施形態の機能を示すブロック図である。 図1の音声認識装置のハードウェア構成を示すブロック図である。 図1の音声認識装置による音声認識手順を示すフローチャートである。 図1の音声認識装置による音声認識結果の一例を示す図である。 図1の音声認識装置による音声認識結果の他の例を示す図である。 図1の音声認識装置の他のハードウェア構成を示すブロック図である。 本発明に係る音声認識方法を採用した音声認識プログラムの一実施形態の構成を示すブロック図である。
以下、本発明に係る音声認識方法を採用した音声認識装置及び音声認識プログラムの実施形態を説明する。
図1は、本発明に係る音声認識方法を採用した音声認識装置100の機能を示すブロック図である。音声認識装置100は、例えば、音声によるアプリケーションへのデータ入力を可能とするために用いられる装置である。
図1に示すように、音声認識装置100は、音データ入力部110と、特徴量算出部120と、音声処理部130と、音響モデル保持部131と、言語モデル保持部132と、辞書データ保持部133と、発話者度算出部140と、スコア算出部150と、閾値設定部160と、閾値保持部161と、単語選定部170と、音声認識結果出力部180と、を備えている。
音データ入力部110は、例えばマイクロホンにより音データを取得する部分である。
特徴量算出部120は、例えば10msの時間区間(フレーム)ごとに、音データから音響特徴を示す特徴量データを算出する部分である。音響特徴を示す特徴量データは、音声認識スペクトルであって、例えば、MFCC(Mel Frequency Cepstrum Coefficient)のような周波数で表されるデータである。
音声処理部130は、特徴量算出部120により算出された特徴量データと、音響モデル保持部131、言語モデル保持部132、及び辞書データ保持部133に記憶されているデータとを参照し、音データ入力部110で取得された音データに含まれる単語を抽出し、各単語の信頼度を出力する部分である。
音響モデル保持部131は、音素とそのスペクトルとを対応付けて記憶する部分である。言語モデル保持部132は、単語、文字などの連鎖確率を示す統計的情報を記憶する部分である。辞書データ保持部133は、単語のデータとして、例えば単語とその発音を表記する音素や発音記号を記憶する部分である。
発話者度算出部140は、各単語に対応する音データ又は特徴量データから、各単語に対応する音データの発話者の音声らしさを示す発話者度を算出する部分である。
スコア算出部150は、音声処理部130により出力された各単語の信頼度と、発話者度算出部140により算出された各単語の発話者度とに基づいて、各単語のスコアを算出する部分である。本実施形態では、信頼度及び発話者度が高くなるのに応じ高いスコアが算出される例を説明する。なお、信頼度及び発話者度が高くなるのに応じ低いスコアが算出されてもよい。
閾値設定部160は、スコア算出部150によって算出されたスコアの最高値と、閾値保持部161に記憶されているデータとを参照し、音声認識結果として採用する単語を選定するための閾値を設定する部分である。閾値保持部161は、相対閾値データとして、例えば、上記閾値とスコアの最高値との差分を記憶する部分である。閾値設定部160は、スコア算出部150によって算出されたスコアの最高値と、閾値保持部161に記憶された差分とを加算して閾値を設定する。これにより、音声認識結果として採用する単語を選定するための閾値は、スコア算出部150によって算出されたスコアの最高値に応じて変わるようになっている。
単語選定部170は、スコア算出部150によって算出された各単語のスコアと、閾値設定部160によって設定された閾値とに基づいて、音声認識結果として採用する単語を選定する部分である。本実施形態では、閾値設定部160によって設定された閾値よりも高いスコアの単語が選定される。
音声認識結果出力部180は、単語選定部170によって選定された単語を出力し、例えばアプリケーションの表示画面等に表示する部分である。
図2は、音声認識装置100のハードウェア構成を示すブロック図である。音声認識装置100は、ハードウェア構成として、CPU11と、RAM12と、ROM13と、入力装置14と、補助記憶装置15と、通信装置16と、出力装置17と、記憶媒体18aの読取装置18と、を備えている。上述した音声認識装置100の各部分の機能は、RAM12等に補助記憶装置15や読取装置18等からプログラムやデータ等を読み込ませ、CPU11によりプログラムを実行させることで実現される。入力装置14は、例えば、音データ入力部110を構成するマイクロホン等であり、出力装置17は、例えば、音声認識結果出力部180を構成するモニタ等である。
図3は、音声認識装置100により実行される音声認識手順を示すフローチャートである。音声認識装置100では、まず、音データ入力部110によって音データが取得され(ステップS10)、特徴量算出部120によって、音データからフレームごとに特徴量データが算出される(ステップS20)。
続いて、音声処理部130により、特徴量データに対して統計的手法を用いた処理が行われ、音データに含まれる単語が抽出され、各単語の信頼度が出力される(ステップS30)。具体例として、まず単語列(以下、仮説という)の複数の候補(Nベスト)が挙げられ、各仮説をなす単語の信頼度が算出される。更に、各単語の信頼度から各仮説の信頼度が算出され、信頼度が最上位となる仮説が選定される。選定された仮説をなす単語が、音データに含まれる単語の抽出結果となる。そして、選定された仮説について、単語区切り、各単語の音素列、各単語の表記、各単語の読み、各単語の品詞情報、各単語の時間情報、及び各単語の係り受け情報等のデータと共に、各単語の信頼度が出力される。各単語の時間情報は、例えば、単語に対応する音データの開始フレーム番号と終了フレーム番号とによって表される。各単語の信頼度は、各単語の正答確度を示す情報であり、各単語の音響モデルの尤度や、各単語の言語モデルの尤度等に基づいて算出される。本実施形態では、各単語の信頼度として、例えばGWPP(一般化単語事後確率:Generalized Word Posterior Probability)が算出される。
続いて、発話者度算出部140により、音声処理部130により抽出された各単語の発話者度が算出される(ステップS40)。本実施形態では、各単語の発話者度は、各単語の音量を用いて算出される。具体例として、各単語ごとに、各単語の時間情報に対応する音データが切り出される。更に、人の音声の周波数帯域の音データが切り出される。人の音声の周波数帯域とは、人の音声の振幅が高くなる周波数帯域であり、例えば300Hz〜3.4kHzである。そして、切り出された音データから音量が算出され、
発話者度=音量
とされる。例えば、音量は、音データの振幅の時間平均値として算出されてもよいし、音データの振幅の最大値として算出されてもよい。また、本実施形態では、各単語の発話者度の最大値を基準として、各単語の相対発話者度が算出される。具体例として、各単語の発話者度と、各単語の発話者度の最大値との差分が算出される。なお、音量の算出には、音データではなく特徴量データが用いられてもよいし、音データ及び特徴量データの両方が用いられてもよい。
続いて、スコア算出部150により、各単語のスコアが算出される(ステップS50)。本実施形態では、スコアは、各単語のGWPPと、各単語の相対発話者度とに基づき、例えば
スコア=10Log10(GWPP)+相対発話者度
により算出される。
続いて、閾値設定部160により、音声認識結果として採用する単語を選定するための閾値が設定される(ステップS60)。本実施形態では、閾値は、例えば
閾値=スコアの最大値+相対閾値
により算出される。
続いて、単語選定部170により、閾値よりも高いスコアの単語が選定され(ステップS70)、選定された単語が音声認識結果出力部180によって出力される(ステップS80)。
図4は、雑音に人の音声が含まれている環境において、発話者が、上記音データ入力部110を構成するマイクロホン等に向って「広島、お好み焼き」と発話した場合の音声認識結果を示している。この例において、閾値保持部161には、相対閾値データとして−4が記憶されている。図4に示す例では、「恋」、「待って」、「ます」、「広島」、「お好み焼き」、「ジュエリー」、「書房」、「株主」が抽出されている。これらの単語に対して、GWPPの算出結果は、0.008,0.059,0.03,0.554,0.708,0.049,0.014,0.57となっている。発話者度の算出結果は、−10,−7,−20,−5,−8,−2,−7,−11となっている。相対発話者度の算出結果は、発話者度の最大値が−2であることから、−8,−5,−18,−3,−6,0,−5,−9となっている。そして、スコアの算出結果は、−29,−17.3,−33.2,−5.6,−7.5,−13.1,−23.5,−11.4となっている。スコアの最大値が−5.6であることから、閾値は
−5.6−4=−9.6
となり、この閾値よりも高いスコアの「広島、お好み焼き」が音声認識結果として採用され、他の単語は不採用とされている。
図4の例では、雑音から抽出された単語である「株主」のGWPPは0.57であり、発話者の音声から抽出された単語である「広島」のGWPPは0.554である。即ち、雑音から抽出された単語の信頼度が、発話者の音声から抽出された単語の信頼度よりも高くなっている。これに対し、「株主」のスコアは−11.4であり、「広島」のスコアは−5.6である。即ち、雑音から抽出された単語のスコアは、発話者の音声から抽出された単語のスコアよりも低くなっている。これにより、「広島」よりも信頼度が高かった「株主」が、音声認識結果として採用されることなく、発話者の音声から抽出された「広島」及び「お好み焼き」のみが音声認識結果として採用されている。このように、音声認識装置100によれば、各単語の信頼度に加え、各単語の発話者度に基づいて各単語のスコアを算出することで、発話者の音声から抽出された単語のスコアと、雑音から抽出された単語のスコアとの差異を明確にすることができ、音声認識精度を向上させることができる。特に、発話者度算出部140は、各単語に対応する音データの音量を用いて発話者度を算出しているため、発話者の音声から抽出された単語の発話者度と、雑音から抽出された単語の発話者度との差異がより明確となり、音声認識精度をより向上させることができる。
また、発話者度算出部140は、人の音声の周波数帯域における各単語の音量を用いて発話者度を算出している。これにより、発話者の音声から抽出された単語と、人の音声以外の周波数帯域の音を多く含む雑音から抽出された単語とで、音量の差異がより明確となり、発話者度の差異がより明確となる。このため、音声認識精度をより向上させることができる。
また、音声認識装置100は、スコア算出部150により算出されたスコアの最大値に基づいて閾値を設定する閾値設定部160を更に備え、単語選定部170は、閾値設定部160により設定された閾値を用いて単語を選定している。このため、集音環境による全単語のスコアの増減に柔軟に対応して単語を選定することができ、集音環境による音声認識結果のばらつきを抑制することができる。
また、発話者度算出部140は、各単語の発話者度の最大値を基準として、各単語の相対発話者度を算出し、スコア算出部150は、発話者度算出部140により算出された各単語の相対発話者度を用いて各単語のスコアを算出している。このため、集音環境による全単語の発話者度の増減に柔軟に対応してスコアを算出し、単語を選定することができる。従って、集音環境による音声認識結果のばらつきをより抑制することができる。
以上、本発明に係る音声認識方法を採用した音声認識装置の好適な実施形態について説明してきたが、本発明は上述した実施形態に限られるものではなく、その要旨を逸脱しない範囲で様々な変更が可能である。
発話者度算出部140は、各単語の音量を用いて発話者度を算出しているが、各単語の音量に代えて、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、のいずれかを用いて発話者度を算出しても、発話者の音声から抽出された単語の発話者度と、雑音から抽出された単語の発話者度との差異を明確にすることができる。また、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、のうち2つ以上を組み合わせて用い、発話者度を算出してもよい。この場合の発話者度は、例えば、音量と、音声モデルの尤度及び雑音モデルの尤度に基づいて算出される雑音尤度比と、空間伝達特性、基本周波数及び声質から算出される発話者度調整値とを用いて、
発話者度=音量−α×10Log10(雑音尤度比)+β×(発話者度調整値)
により算出される。α,βは所定の重み係数である。
音声モデルの尤度は、音声から学習したGMM(Gaussian mixture model)に基づいてフレームごとに算出される。雑音モデルの尤度は、雑音から学習したGMMに基づいてフレームごとに算出される。各単語の音声モデルの尤度及び各単語の雑音モデルの尤度は、各単語に対応するフレームについて算出された尤度の総和として算出される。また、各単語の雑音尤度比は、
雑音尤度比=雑音モデルの尤度/音声モデルの尤度
により算出される。発話者の音声は、音データ入力部110を構成するマイクロホン等の近くで発せられることから、発話者の音声を含む音データの雑音尤度比は、発話者の音声を含まない音データの雑音尤度比よりも低くなる。このため、発話者の音声を含む音データから抽出された単語と、発話者の音声を含まない音データから抽出された単語との間では、雑音尤度比の差異が大きくなり易い。
各単語の空間伝達特性は、例えば線形予測分析により得られる線形予測係数や、残響時間として算出される。残響時間は、各単語の終端において、音量が所定値まで減衰するのに要する時間である。各単語の空間伝達特性は、音声の残響の程度に応じて変動する。発話者の音声は、音データ入力部110を構成するマイクロホン等の近くで発せられることから、発話者の音声を含む音データの残響は、発話者の音声を含まない音データの残響と比べて少ない。このため、発話者の音声を含む音データから抽出された単語と、発話者の音声を含まない音データから抽出された単語との間では、空間伝達特性の差異が大きくなり易い。
各単語の基本周波数は、例えば、フーリエ変換により得られる周波数パワー特性に対して、音声の基本周波数F0の倍音を透過させるくし形フィルタを適用し、フィルタ通過後のパワーが最大となっている成分の周波数として算出される。或いは、各単語の基本周波数は、音声波形の時間領域での自己相関が最大となる値を1周期とする周波数として算出される。各単語の基本周波数により、各単語の音声らしさを把握することができる。発話者の音声は、音データ入力部110を構成するマイクロホン等の近くで発せられることから、発話者の音声を含む音データの基本周波数は、発話者の音声を含まない音データの基本周波数と比べてより音声らしい値となる。このため、発話者の音声を含む音データから抽出された単語と、発話者の音声を含まない音データから抽出された単語との間では、基本周波数の差異が大きくなり易い。
各単語の声質は、例えば、音声のスペクトル傾斜係数として算出される。各単語の声質により、発声方法の傾向が示される。このため、発話者の音声を含む音データから抽出された単語と、発話者の音声を含まない音データから抽出された単語との間では、声質の差異が大きくなり易い。
図5は、図4に示す例と同じ条件において、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、の全てを組み合わせて用い、スコアを算出した場合の音声認識結果を示している。この例において、閾値保持部161には、相対閾値データとして−6が記憶されている。また、上記重み係数αは0.2に設定され、係数βは0.2に設定されている。この場合、スコアの算出結果は、−33,−17.5,−33.4,−2.2,−2.5,−13.1,−23.3,−13となっている。スコアの最大値が−2.2であることから、閾値は
−2.2−6=−8.2
となり、この閾値よりも高いスコアの「広島、お好み焼き」が音声認識結果として採用され、他の単語は不採用とされている。
図5の例では、雑音から抽出された単語である「株主」のスコアは−13であり、発話者の音声から抽出された単語である「広島」のスコアは−2.2であり、これらの単語のスコアの差は−10.8である。一方、図4の例では、「株主」のスコアは−11.4であり、広島のスコアは−5.6であり、これらの単語のスコアの差は−5.8であった。即ち、図5の例では、雑音から抽出された単語のスコアと、発話者の音声から抽出されたスコアとの差異がより大きくなっている。このように、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、のうち2つ以上を組み合わせて用いることによって、発話者の音声から抽出された単語の発話者度と、雑音から抽出された単語の発話者度との差異をより明確にすることができ、音声認識精度をより向上させることができる。
また、音声処理部130は、各単語の信頼度の最大値を基準として、各単語の相対的な信頼度を出力し、スコア算出部150は、音声処理部130により出力された各単語の相対的な信頼度を用いて各単語のスコアを算出してもよい。この場合、集音環境による全単語の信頼度の増減に柔軟に対応してスコアを算出し、単語を選定することができる。従って、集音環境による音声認識結果のばらつきをより抑制することができる。
また、単語選定部170は、各単語のスコアと閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用してもよい。この場合、図4の例において、第3位のスコアである「株主」までが閾値を上回っていたとしても、「株主」は、最大スコアの「広島」を含む単語列「広島、お好み焼き」と不連続であるために削除される。このように、雑音から抽出された単語の誤採用をより低減させることができ、音声認識精度をより向上させることができる。
また、音声認識装置100のハードウェア構成の一例として、図2の構成を示したが、これに限られない。例えば、音声認識装置100のハードウェア構成は、図6に示すように、ネットワークを介して接続されたクライアント装置210及びサーバ装置220に機能が分散された構成であってもよい。例えば、音データ入力部110、特徴量算出部120、単語選定部170、及び音声認識結果出力部180をクライアント装置210に構成し、残りの部分をサーバ装置220に構成することで、クライアント装置210の演算負荷を軽減することができる。この場合、クライアント装置210とサーバ装置220との間では、特徴量データ、スコア算出結果、閾値設定結果等が送受信されるため、これらのデータを圧縮し、ネットワークの負荷を軽減することができる。クライアント装置210とサーバ装置220との機能の分担は上述した例に限られない。更に、クライアント装置210又はサーバ装置220が更に複数の装置に分かれていてもよい。
なお、音声認識装置100に係る発明は、コンピュータを音声認識装置として機能させるための音声認識プログラムに係る発明として捉えることができる。
図7は、コンピュータを音声認識装置100として機能させるための音声認識プログラムP100のモジュールを示すブロック図である。図7の音声認識プログラムP100は、音データ入力モジュールP110と、特徴量算出モジュールP120と、音声処理モジュールP130と、発話者度算出モジュールP140と、スコア算出モジュールP150と、閾値設定モジュールP160と、単語選定モジュールP170と、音声認識結果出力モジュールP180と、を備えている。各モジュールP110〜P180が実行されることにより実現される機能は、図1の各部110〜180の機能とそれぞれ同様である。音声認識プログラムP100は、例えば、図2に示す記憶媒体18aに格納されて音声認識装置100に提供される。記憶媒体18aとしては、フレキシブルディスク、CD、DVD等の記憶媒体が挙げられる。また、音声認識プログラムP100は、搬送波に重畳されたコンピュータデータ信号として、有線ネットワーク又は無線ネットワークを介して音声認識装置100に提供されるものであってもよい。
100…音声認識装置、130…音声処理部、140…発話者度算出部、150…スコア算出部、160…閾値設定部、170…単語選定部、P100…音声認識プログラム、P130…音声処理モジュール、P140…発話者度算出モジュール、P150…スコア算出モジュール、P160…閾値設定モジュール、P170…単語選定モジュール。

Claims (8)

  1. 音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理手段と、
    前記各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出手段と、
    前記音声処理手段により出力された前記各単語の信頼度、及び前記発話者度算出手段により算出された前記各単語の発話者度に基づいて、前記各単語のスコアを算出するスコア算出手段と、
    前記各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定手段とを備える、
    ことを特徴とする音声認識装置。
  2. 前記発話者度算出手段は、前記各単語の音量、前記各単語の音声モデルの尤度、前記各単語の雑音モデルの尤度、前記各単語の空間伝達特性、前記各単語の基本周波数、及び前記各単語の声質、の少なくとも一つを用いて前記各単語の発話者度を算出する、
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記発話者度算出手段は、人の音声の周波数帯域における前記各単語の音量を用いて前記各単語の発話者度を算出する、
    ことを特徴とする請求項2記載の音声認識装置。
  4. 前記音声認識装置は、前記スコア算出手段により算出されたスコアの最大値に基づいて、前記所定の閾値を設定する閾値設定手段を更に備え、
    前記単語選定手段は、前記閾値設定手段により設定された前記所定の閾値を用いて音声認識結果として採用する単語を選定する、
    ことを特徴とする請求項1〜3のいずれか一項記載の音声認識装置。
  5. 前記音声処理手段は、前記各単語の信頼度の最大値を基準として、前記各単語の相対的な信頼度を出力し、
    前記スコア算出手段は、前記音声処理手段により出力された前記各単語の相対的な信頼度を用いて前記各単語のスコアを算出する、
    ことを特徴とする請求項1〜4のいずれか一項記載の音声認識装置。
  6. 前記発話者度算出手段は、前記各単語の発話者度の最大値を基準として、前記各単語の相対的な発話者度を算出し、
    前記スコア算出手段は、前記発話者度算出手段により算出された前記各単語の相対的な発話者度を用いて前記各単語のスコアを算出する、
    ことを特徴とする請求項1〜5のいずれか一項記載の音声認識装置。
  7. 音声認識装置により実行される音声認識方法であって、
    音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理ステップと、
    前記各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出ステップと、
    前記音声処理ステップにより出力された前記各単語の信頼度、及び前記発話者度算出ステップにより算出された前記各単語の発話者度に基づいて、前記各単語のスコアを算出するスコア算出ステップと、
    前記各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定ステップとを備える、
    ことを特徴とする音声認識方法。
  8. コンピュータを、
    音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理手段と、
    前記各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出手段と、
    前記音声処理手段により出力された前記各単語の信頼度、及び前記発話者度算出手段により算出された前記各単語の発話者度に基づいて、前記各単語のスコアを算出するスコア算出手段と、
    前記各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定手段、
    として機能させることを特徴とする音声認識プログラム。
JP2011122054A 2011-05-31 2011-05-31 音声認識装置、音声認識方法、及び音声認識プログラム Active JP5752488B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011122054A JP5752488B2 (ja) 2011-05-31 2011-05-31 音声認識装置、音声認識方法、及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011122054A JP5752488B2 (ja) 2011-05-31 2011-05-31 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2012252026A JP2012252026A (ja) 2012-12-20
JP5752488B2 true JP5752488B2 (ja) 2015-07-22

Family

ID=47524932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011122054A Active JP5752488B2 (ja) 2011-05-31 2011-05-31 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP5752488B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
WO2018173270A1 (ja) * 2017-03-24 2018-09-27 三菱電機株式会社 音声認識装置および音声認識方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06105400B2 (ja) * 1988-11-04 1994-12-21 日本電気株式会社 音声認識方式
JP3090204B2 (ja) * 1998-06-17 2000-09-18 日本電気株式会社 音声モデル学習装置及び音声認識装置
JP2002132293A (ja) * 2000-10-27 2002-05-09 Ricoh Co Ltd 音声認識装置
JP2006030915A (ja) * 2004-07-22 2006-02-02 Iwatsu Electric Co Ltd 音声認識方法と装置。
JP2009288630A (ja) * 2008-05-30 2009-12-10 Denso Corp 車両用音声認識システム
JP4779000B2 (ja) * 2008-09-26 2011-09-21 株式会社日立製作所 音声認識による機器制御装置
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム

Also Published As

Publication number Publication date
JP2012252026A (ja) 2012-12-20

Similar Documents

Publication Publication Date Title
Zhang et al. Analysis and classification of speech mode: whispered through shouted.
US9196247B2 (en) Voice recognition method and voice recognition apparatus
US10074384B2 (en) State estimating apparatus, state estimating method, and state estimating computer program
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US20140149117A1 (en) Method and system for identification of speech segments
EP2363852B1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
Yadav et al. Addressing noise and pitch sensitivity of speech recognition system through variational mode decomposition based spectral smoothing
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
KR20180098806A (ko) 자연어 인식 성능 개선 방법 및 장치
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP2016180839A (ja) 雑音抑圧音声認識装置およびそのプログラム
Costa et al. Speech and phoneme segmentation under noisy environment through spectrogram image analysis
US9058820B1 (en) Identifying speech portions of a sound model using various statistics thereof
Revathy et al. Performance comparison of speaker and emotion recognition
JP5752488B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR102198597B1 (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
WO2020235089A1 (ja) 評価装置、訓練装置、それらの方法、およびプログラム
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
WO2021152786A1 (ja) 訓練装置、その方法、およびプログラム
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Wani et al. Automatic speech recognition of isolated words in Hindi language
JP2011180308A (ja) 音声認識装置及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150520

R150 Certificate of patent or registration of utility model

Ref document number: 5752488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250