JP5752488B2

JP5752488B2 - 音声認識装置、音声認識方法、及び音声認識プログラム

Info

Publication number: JP5752488B2
Application number: JP2011122054A
Authority: JP
Inventors: 悠輔中島; 孝輔辻野; 真也飯塚; 正幸田邉; 壯中坊
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-05-31
Filing date: 2011-05-31
Publication date: 2015-07-22
Anticipated expiration: 2031-05-31
Also published as: JP2012252026A

Description

本発明は、音声認識装置、音声認識方法、及び音声認識プログラムに関する。

従来より、人の音声の音響モデルと言語モデルとを用いた統計的手法により、音声認識を行う技術が提案されている（例えば、特許文献１参照）。

特開２００８−５８５０３号公報

しかしながら、上記特許文献に記載された技術では、発話者の音声ではない雑音に人の音声が含まれているときに、雑音に含まれる人の音声から抽出した単語を音声認識結果として誤採用してしまう場合がある。このため、音声認識精度が低下してしまうという問題がある。

本発明は、上記のような課題を解決するために成されたものであり、音声認識精度を向上させることができる音声認識装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。

本発明に係る音声認識装置は、音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理手段と、各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出手段と、音声処理手段により出力された各単語の信頼度、及び発話者度算出手段により算出された各単語の発話者度に基づいて、各単語のスコアを算出するスコア算出手段と、各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定手段とを備える、ことを特徴とする。

また、本発明に係る音声認識方法は、音声認識装置により実行される音声認識方法であって、音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理ステップと、各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出ステップと、音声処理ステップにより出力された各単語の信頼度、及び発話者度算出ステップにより算出された各単語の発話者度に基づいて、各単語のスコアを算出するスコア算出ステップと、各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定ステップとを備える、ことを特徴とする。

また、本発明に係る音声認識プログラムは、コンピュータを、音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理手段と、各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出手段と、音声処理手段により出力された各単語の信頼度、及び発話者度算出手段により算出された各単語の発話者度に基づいて、各単語のスコアを算出するスコア算出手段と、各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定手段、として機能させることを特徴とする。

上記音声認識装置、音声認識方法、及び音声認識プログラムでは、音データに含まれる単語が抽出され、各単語の信頼度が出力され、各単語に対応する音データの発話者の音声らしさを示す発話者度が算出される。そして、各単語の信頼度及び各単語の発話者度に基づいて各単語のスコアが算出され、各単語のスコアと所定の閾値とに基づいて音声認識結果として採用する単語が選定される。このように、各単語の信頼度に加え、各単語の発話者度に基づいて各単語のスコアを算出することで、発話者の音声から抽出された単語のスコアと、雑音から抽出された単語のスコアとの差異を明確にすることができ、音声認識精度を向上させることができる。また、各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語が音声認識結果として採用されるため、雑音から抽出された単語の誤採用をより低減させることができ、音声認識精度をより向上させることができる。

また、発話者度算出手段は、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、の少なくとも一つを用いて各単語の発話者度を算出してもよい。この場合、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、の少なくとも一つによって、発話者の音声から抽出された単語の発話者度と、雑音から抽出された単語の発話者度との差異がより明確となるため、音声認識精度をより向上させることができる。

また、発話者度算出手段は、人の音声の周波数帯域における各単語の音量を用いて各単語の発話者度を算出してもよい。この場合、発話者の音声から抽出された単語と、人の音声以外の周波数帯域の音を多く含む雑音から抽出された単語とで、音量の差異がより明確となり、発話者度の差異がより明確となる。このため、音声認識精度をより向上させることができる。

また、音声認識装置は、スコア算出手段により算出されたスコアの最大値に基づいて、所定の閾値を設定する閾値設定手段を更に備え、単語選定手段は、閾値設定手段により設定された所定の閾値を用いて音声認識結果として採用する単語を選定してもよい。この場合、集音環境による全単語のスコアの増減に柔軟に対応して、音声認識結果として採用する単語を選定することができ、集音環境による音声認識結果のばらつきを抑制することができる。

また、音声処理手段は、各単語の信頼度の最大値を基準として、各単語の相対的な信頼度を出力し、スコア算出手段は、音声処理手段により出力された各単語の相対的な信頼度を用いて各単語のスコアを算出してもよい。この場合、集音環境による全単語の信頼度の増減に柔軟に対応してスコアを算出し、音声認識結果として採用する単語を選定することができる。従って、集音環境による音声認識結果のばらつきをより抑制することができる。

また、発話者度算出手段は、各単語の発話者度の最大値を基準として、各単語の相対的な発話者度を算出し、スコア算出手段は、発話者度算出手段により算出された各単語の相対的な発話者度を用いて各単語のスコアを算出してもよい。この場合、集音環境による全単語の発話者度の増減に柔軟に対応してスコアを算出し、音声認識結果として採用する単語を選定することができる。このため、集音環境による音声認識結果のばらつきをより抑制することができる。

本発明に係る音声認識装置、音声認識方法、及び音声認識プログラムによれば、音声認識精度を向上させることができる。

本発明に係る音声認識方法を採用した音声認識装置の一実施形態の機能を示すブロック図である。図１の音声認識装置のハードウェア構成を示すブロック図である。図１の音声認識装置による音声認識手順を示すフローチャートである。図１の音声認識装置による音声認識結果の一例を示す図である。図１の音声認識装置による音声認識結果の他の例を示す図である。図１の音声認識装置の他のハードウェア構成を示すブロック図である。本発明に係る音声認識方法を採用した音声認識プログラムの一実施形態の構成を示すブロック図である。

以下、本発明に係る音声認識方法を採用した音声認識装置及び音声認識プログラムの実施形態を説明する。

図１は、本発明に係る音声認識方法を採用した音声認識装置１００の機能を示すブロック図である。音声認識装置１００は、例えば、音声によるアプリケーションへのデータ入力を可能とするために用いられる装置である。

図１に示すように、音声認識装置１００は、音データ入力部１１０と、特徴量算出部１２０と、音声処理部１３０と、音響モデル保持部１３１と、言語モデル保持部１３２と、辞書データ保持部１３３と、発話者度算出部１４０と、スコア算出部１５０と、閾値設定部１６０と、閾値保持部１６１と、単語選定部１７０と、音声認識結果出力部１８０と、を備えている。

音データ入力部１１０は、例えばマイクロホンにより音データを取得する部分である。

特徴量算出部１２０は、例えば１０ｍｓの時間区間（フレーム）ごとに、音データから音響特徴を示す特徴量データを算出する部分である。音響特徴を示す特徴量データは、音声認識スペクトルであって、例えば、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）のような周波数で表されるデータである。

音声処理部１３０は、特徴量算出部１２０により算出された特徴量データと、音響モデル保持部１３１、言語モデル保持部１３２、及び辞書データ保持部１３３に記憶されているデータとを参照し、音データ入力部１１０で取得された音データに含まれる単語を抽出し、各単語の信頼度を出力する部分である。

音響モデル保持部１３１は、音素とそのスペクトルとを対応付けて記憶する部分である。言語モデル保持部１３２は、単語、文字などの連鎖確率を示す統計的情報を記憶する部分である。辞書データ保持部１３３は、単語のデータとして、例えば単語とその発音を表記する音素や発音記号を記憶する部分である。

発話者度算出部１４０は、各単語に対応する音データ又は特徴量データから、各単語に対応する音データの発話者の音声らしさを示す発話者度を算出する部分である。

スコア算出部１５０は、音声処理部１３０により出力された各単語の信頼度と、発話者度算出部１４０により算出された各単語の発話者度とに基づいて、各単語のスコアを算出する部分である。本実施形態では、信頼度及び発話者度が高くなるのに応じ高いスコアが算出される例を説明する。なお、信頼度及び発話者度が高くなるのに応じ低いスコアが算出されてもよい。

閾値設定部１６０は、スコア算出部１５０によって算出されたスコアの最高値と、閾値保持部１６１に記憶されているデータとを参照し、音声認識結果として採用する単語を選定するための閾値を設定する部分である。閾値保持部１６１は、相対閾値データとして、例えば、上記閾値とスコアの最高値との差分を記憶する部分である。閾値設定部１６０は、スコア算出部１５０によって算出されたスコアの最高値と、閾値保持部１６１に記憶された差分とを加算して閾値を設定する。これにより、音声認識結果として採用する単語を選定するための閾値は、スコア算出部１５０によって算出されたスコアの最高値に応じて変わるようになっている。

単語選定部１７０は、スコア算出部１５０によって算出された各単語のスコアと、閾値設定部１６０によって設定された閾値とに基づいて、音声認識結果として採用する単語を選定する部分である。本実施形態では、閾値設定部１６０によって設定された閾値よりも高いスコアの単語が選定される。

音声認識結果出力部１８０は、単語選定部１７０によって選定された単語を出力し、例えばアプリケーションの表示画面等に表示する部分である。

図２は、音声認識装置１００のハードウェア構成を示すブロック図である。音声認識装置１００は、ハードウェア構成として、ＣＰＵ１１と、ＲＡＭ１２と、ＲＯＭ１３と、入力装置１４と、補助記憶装置１５と、通信装置１６と、出力装置１７と、記憶媒体１８ａの読取装置１８と、を備えている。上述した音声認識装置１００の各部分の機能は、ＲＡＭ１２等に補助記憶装置１５や読取装置１８等からプログラムやデータ等を読み込ませ、ＣＰＵ１１によりプログラムを実行させることで実現される。入力装置１４は、例えば、音データ入力部１１０を構成するマイクロホン等であり、出力装置１７は、例えば、音声認識結果出力部１８０を構成するモニタ等である。

図３は、音声認識装置１００により実行される音声認識手順を示すフローチャートである。音声認識装置１００では、まず、音データ入力部１１０によって音データが取得され（ステップＳ１０）、特徴量算出部１２０によって、音データからフレームごとに特徴量データが算出される（ステップＳ２０）。

続いて、音声処理部１３０により、特徴量データに対して統計的手法を用いた処理が行われ、音データに含まれる単語が抽出され、各単語の信頼度が出力される（ステップＳ３０）。具体例として、まず単語列（以下、仮説という）の複数の候補（Ｎベスト）が挙げられ、各仮説をなす単語の信頼度が算出される。更に、各単語の信頼度から各仮説の信頼度が算出され、信頼度が最上位となる仮説が選定される。選定された仮説をなす単語が、音データに含まれる単語の抽出結果となる。そして、選定された仮説について、単語区切り、各単語の音素列、各単語の表記、各単語の読み、各単語の品詞情報、各単語の時間情報、及び各単語の係り受け情報等のデータと共に、各単語の信頼度が出力される。各単語の時間情報は、例えば、単語に対応する音データの開始フレーム番号と終了フレーム番号とによって表される。各単語の信頼度は、各単語の正答確度を示す情報であり、各単語の音響モデルの尤度や、各単語の言語モデルの尤度等に基づいて算出される。本実施形態では、各単語の信頼度として、例えばＧＷＰＰ（一般化単語事後確率：Generalized Word Posterior Probability）が算出される。

続いて、発話者度算出部１４０により、音声処理部１３０により抽出された各単語の発話者度が算出される（ステップＳ４０）。本実施形態では、各単語の発話者度は、各単語の音量を用いて算出される。具体例として、各単語ごとに、各単語の時間情報に対応する音データが切り出される。更に、人の音声の周波数帯域の音データが切り出される。人の音声の周波数帯域とは、人の音声の振幅が高くなる周波数帯域であり、例えば３００Ｈｚ〜３．４ｋＨｚである。そして、切り出された音データから音量が算出され、
発話者度＝音量
とされる。例えば、音量は、音データの振幅の時間平均値として算出されてもよいし、音データの振幅の最大値として算出されてもよい。また、本実施形態では、各単語の発話者度の最大値を基準として、各単語の相対発話者度が算出される。具体例として、各単語の発話者度と、各単語の発話者度の最大値との差分が算出される。なお、音量の算出には、音データではなく特徴量データが用いられてもよいし、音データ及び特徴量データの両方が用いられてもよい。

続いて、スコア算出部１５０により、各単語のスコアが算出される（ステップＳ５０）。本実施形態では、スコアは、各単語のＧＷＰＰと、各単語の相対発話者度とに基づき、例えば
スコア＝１０Ｌｏｇ_１０（ＧＷＰＰ）＋相対発話者度
により算出される。

続いて、閾値設定部１６０により、音声認識結果として採用する単語を選定するための閾値が設定される（ステップＳ６０）。本実施形態では、閾値は、例えば
閾値＝スコアの最大値＋相対閾値
により算出される。

続いて、単語選定部１７０により、閾値よりも高いスコアの単語が選定され（ステップＳ７０）、選定された単語が音声認識結果出力部１８０によって出力される（ステップＳ８０）。

図４は、雑音に人の音声が含まれている環境において、発話者が、上記音データ入力部１１０を構成するマイクロホン等に向って「広島、お好み焼き」と発話した場合の音声認識結果を示している。この例において、閾値保持部１６１には、相対閾値データとして−４が記憶されている。図４に示す例では、「恋」、「待って」、「ます」、「広島」、「お好み焼き」、「ジュエリー」、「書房」、「株主」が抽出されている。これらの単語に対して、ＧＷＰＰの算出結果は、０．００８，０．０５９，０．０３，０．５５４，０．７０８，０．０４９，０．０１４，０．５７となっている。発話者度の算出結果は、−１０，−７，−２０，−５，−８，−２，−７，−１１となっている。相対発話者度の算出結果は、発話者度の最大値が−２であることから、−８，−５，−１８，−３，−６，０，−５，−９となっている。そして、スコアの算出結果は、−２９，−１７．３，−３３．２，−５．６，−７．５，−１３．１，−２３．５，−１１．４となっている。スコアの最大値が−５．６であることから、閾値は
−５．６−４＝−９．６
となり、この閾値よりも高いスコアの「広島、お好み焼き」が音声認識結果として採用され、他の単語は不採用とされている。

図４の例では、雑音から抽出された単語である「株主」のＧＷＰＰは０．５７であり、発話者の音声から抽出された単語である「広島」のＧＷＰＰは０．５５４である。即ち、雑音から抽出された単語の信頼度が、発話者の音声から抽出された単語の信頼度よりも高くなっている。これに対し、「株主」のスコアは−１１．４であり、「広島」のスコアは−５．６である。即ち、雑音から抽出された単語のスコアは、発話者の音声から抽出された単語のスコアよりも低くなっている。これにより、「広島」よりも信頼度が高かった「株主」が、音声認識結果として採用されることなく、発話者の音声から抽出された「広島」及び「お好み焼き」のみが音声認識結果として採用されている。このように、音声認識装置１００によれば、各単語の信頼度に加え、各単語の発話者度に基づいて各単語のスコアを算出することで、発話者の音声から抽出された単語のスコアと、雑音から抽出された単語のスコアとの差異を明確にすることができ、音声認識精度を向上させることができる。特に、発話者度算出部１４０は、各単語に対応する音データの音量を用いて発話者度を算出しているため、発話者の音声から抽出された単語の発話者度と、雑音から抽出された単語の発話者度との差異がより明確となり、音声認識精度をより向上させることができる。

また、発話者度算出部１４０は、人の音声の周波数帯域における各単語の音量を用いて発話者度を算出している。これにより、発話者の音声から抽出された単語と、人の音声以外の周波数帯域の音を多く含む雑音から抽出された単語とで、音量の差異がより明確となり、発話者度の差異がより明確となる。このため、音声認識精度をより向上させることができる。

また、音声認識装置１００は、スコア算出部１５０により算出されたスコアの最大値に基づいて閾値を設定する閾値設定部１６０を更に備え、単語選定部１７０は、閾値設定部１６０により設定された閾値を用いて単語を選定している。このため、集音環境による全単語のスコアの増減に柔軟に対応して単語を選定することができ、集音環境による音声認識結果のばらつきを抑制することができる。

また、発話者度算出部１４０は、各単語の発話者度の最大値を基準として、各単語の相対発話者度を算出し、スコア算出部１５０は、発話者度算出部１４０により算出された各単語の相対発話者度を用いて各単語のスコアを算出している。このため、集音環境による全単語の発話者度の増減に柔軟に対応してスコアを算出し、単語を選定することができる。従って、集音環境による音声認識結果のばらつきをより抑制することができる。

以上、本発明に係る音声認識方法を採用した音声認識装置の好適な実施形態について説明してきたが、本発明は上述した実施形態に限られるものではなく、その要旨を逸脱しない範囲で様々な変更が可能である。

発話者度算出部１４０は、各単語の音量を用いて発話者度を算出しているが、各単語の音量に代えて、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、のいずれかを用いて発話者度を算出しても、発話者の音声から抽出された単語の発話者度と、雑音から抽出された単語の発話者度との差異を明確にすることができる。また、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、のうち２つ以上を組み合わせて用い、発話者度を算出してもよい。この場合の発話者度は、例えば、音量と、音声モデルの尤度及び雑音モデルの尤度に基づいて算出される雑音尤度比と、空間伝達特性、基本周波数及び声質から算出される発話者度調整値とを用いて、
発話者度＝音量−α×１０Ｌｏｇ_１０（雑音尤度比）＋β×（発話者度調整値）
により算出される。α，βは所定の重み係数である。

音声モデルの尤度は、音声から学習したＧＭＭ（Gaussian mixture model）に基づいてフレームごとに算出される。雑音モデルの尤度は、雑音から学習したＧＭＭに基づいてフレームごとに算出される。各単語の音声モデルの尤度及び各単語の雑音モデルの尤度は、各単語に対応するフレームについて算出された尤度の総和として算出される。また、各単語の雑音尤度比は、
雑音尤度比＝雑音モデルの尤度／音声モデルの尤度
により算出される。発話者の音声は、音データ入力部１１０を構成するマイクロホン等の近くで発せられることから、発話者の音声を含む音データの雑音尤度比は、発話者の音声を含まない音データの雑音尤度比よりも低くなる。このため、発話者の音声を含む音データから抽出された単語と、発話者の音声を含まない音データから抽出された単語との間では、雑音尤度比の差異が大きくなり易い。

各単語の空間伝達特性は、例えば線形予測分析により得られる線形予測係数や、残響時間として算出される。残響時間は、各単語の終端において、音量が所定値まで減衰するのに要する時間である。各単語の空間伝達特性は、音声の残響の程度に応じて変動する。発話者の音声は、音データ入力部１１０を構成するマイクロホン等の近くで発せられることから、発話者の音声を含む音データの残響は、発話者の音声を含まない音データの残響と比べて少ない。このため、発話者の音声を含む音データから抽出された単語と、発話者の音声を含まない音データから抽出された単語との間では、空間伝達特性の差異が大きくなり易い。

各単語の基本周波数は、例えば、フーリエ変換により得られる周波数パワー特性に対して、音声の基本周波数Ｆ０の倍音を透過させるくし形フィルタを適用し、フィルタ通過後のパワーが最大となっている成分の周波数として算出される。或いは、各単語の基本周波数は、音声波形の時間領域での自己相関が最大となる値を１周期とする周波数として算出される。各単語の基本周波数により、各単語の音声らしさを把握することができる。発話者の音声は、音データ入力部１１０を構成するマイクロホン等の近くで発せられることから、発話者の音声を含む音データの基本周波数は、発話者の音声を含まない音データの基本周波数と比べてより音声らしい値となる。このため、発話者の音声を含む音データから抽出された単語と、発話者の音声を含まない音データから抽出された単語との間では、基本周波数の差異が大きくなり易い。

各単語の声質は、例えば、音声のスペクトル傾斜係数として算出される。各単語の声質により、発声方法の傾向が示される。このため、発話者の音声を含む音データから抽出された単語と、発話者の音声を含まない音データから抽出された単語との間では、声質の差異が大きくなり易い。

図５は、図４に示す例と同じ条件において、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、の全てを組み合わせて用い、スコアを算出した場合の音声認識結果を示している。この例において、閾値保持部１６１には、相対閾値データとして−６が記憶されている。また、上記重み係数αは０．２に設定され、係数βは０．２に設定されている。この場合、スコアの算出結果は、−３３，−１７．５，−３３．４，−２．２，−２．５，−１３．１，−２３．３，−１３となっている。スコアの最大値が−２．２であることから、閾値は
−２．２−６＝−８．２
となり、この閾値よりも高いスコアの「広島、お好み焼き」が音声認識結果として採用され、他の単語は不採用とされている。

図５の例では、雑音から抽出された単語である「株主」のスコアは−１３であり、発話者の音声から抽出された単語である「広島」のスコアは−２．２であり、これらの単語のスコアの差は−１０．８である。一方、図４の例では、「株主」のスコアは−１１．４であり、広島のスコアは−５．６であり、これらの単語のスコアの差は−５．８であった。即ち、図５の例では、雑音から抽出された単語のスコアと、発話者の音声から抽出されたスコアとの差異がより大きくなっている。このように、各単語の音量、各単語の音声モデルの尤度、各単語の雑音モデルの尤度、各単語の空間伝達特性、各単語の基本周波数、及び各単語の声質、のうち２つ以上を組み合わせて用いることによって、発話者の音声から抽出された単語の発話者度と、雑音から抽出された単語の発話者度との差異をより明確にすることができ、音声認識精度をより向上させることができる。

また、音声処理部１３０は、各単語の信頼度の最大値を基準として、各単語の相対的な信頼度を出力し、スコア算出部１５０は、音声処理部１３０により出力された各単語の相対的な信頼度を用いて各単語のスコアを算出してもよい。この場合、集音環境による全単語の信頼度の増減に柔軟に対応してスコアを算出し、単語を選定することができる。従って、集音環境による音声認識結果のばらつきをより抑制することができる。

また、単語選定部１７０は、各単語のスコアと閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用してもよい。この場合、図４の例において、第３位のスコアである「株主」までが閾値を上回っていたとしても、「株主」は、最大スコアの「広島」を含む単語列「広島、お好み焼き」と不連続であるために削除される。このように、雑音から抽出された単語の誤採用をより低減させることができ、音声認識精度をより向上させることができる。

また、音声認識装置１００のハードウェア構成の一例として、図２の構成を示したが、これに限られない。例えば、音声認識装置１００のハードウェア構成は、図６に示すように、ネットワークを介して接続されたクライアント装置２１０及びサーバ装置２２０に機能が分散された構成であってもよい。例えば、音データ入力部１１０、特徴量算出部１２０、単語選定部１７０、及び音声認識結果出力部１８０をクライアント装置２１０に構成し、残りの部分をサーバ装置２２０に構成することで、クライアント装置２１０の演算負荷を軽減することができる。この場合、クライアント装置２１０とサーバ装置２２０との間では、特徴量データ、スコア算出結果、閾値設定結果等が送受信されるため、これらのデータを圧縮し、ネットワークの負荷を軽減することができる。クライアント装置２１０とサーバ装置２２０との機能の分担は上述した例に限られない。更に、クライアント装置２１０又はサーバ装置２２０が更に複数の装置に分かれていてもよい。

なお、音声認識装置１００に係る発明は、コンピュータを音声認識装置として機能させるための音声認識プログラムに係る発明として捉えることができる。

図７は、コンピュータを音声認識装置１００として機能させるための音声認識プログラムＰ１００のモジュールを示すブロック図である。図７の音声認識プログラムＰ１００は、音データ入力モジュールＰ１１０と、特徴量算出モジュールＰ１２０と、音声処理モジュールＰ１３０と、発話者度算出モジュールＰ１４０と、スコア算出モジュールＰ１５０と、閾値設定モジュールＰ１６０と、単語選定モジュールＰ１７０と、音声認識結果出力モジュールＰ１８０と、を備えている。各モジュールＰ１１０〜Ｐ１８０が実行されることにより実現される機能は、図１の各部１１０〜１８０の機能とそれぞれ同様である。音声認識プログラムＰ１００は、例えば、図２に示す記憶媒体１８ａに格納されて音声認識装置１００に提供される。記憶媒体１８ａとしては、フレキシブルディスク、ＣＤ、ＤＶＤ等の記憶媒体が挙げられる。また、音声認識プログラムＰ１００は、搬送波に重畳されたコンピュータデータ信号として、有線ネットワーク又は無線ネットワークを介して音声認識装置１００に提供されるものであってもよい。

１００…音声認識装置、１３０…音声処理部、１４０…発話者度算出部、１５０…スコア算出部、１６０…閾値設定部、１７０…単語選定部、Ｐ１００…音声認識プログラム、Ｐ１３０…音声処理モジュール、Ｐ１４０…発話者度算出モジュール、Ｐ１５０…スコア算出モジュール、Ｐ１６０…閾値設定モジュール、Ｐ１７０…単語選定モジュール。

Claims

音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理手段と、
前記各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出手段と、
前記音声処理手段により出力された前記各単語の信頼度、及び前記発話者度算出手段により算出された前記各単語の発話者度に基づいて、前記各単語のスコアを算出するスコア算出手段と、
前記各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定手段とを備える、
ことを特徴とする音声認識装置。
前記発話者度算出手段は、前記各単語の音量、前記各単語の音声モデルの尤度、前記各単語の雑音モデルの尤度、前記各単語の空間伝達特性、前記各単語の基本周波数、及び前記各単語の声質、の少なくとも一つを用いて前記各単語の発話者度を算出する、
ことを特徴とする請求項１記載の音声認識装置。
前記発話者度算出手段は、人の音声の周波数帯域における前記各単語の音量を用いて前記各単語の発話者度を算出する、
ことを特徴とする請求項２記載の音声認識装置。
前記音声認識装置は、前記スコア算出手段により算出されたスコアの最大値に基づいて、前記所定の閾値を設定する閾値設定手段を更に備え、
前記単語選定手段は、前記閾値設定手段により設定された前記所定の閾値を用いて音声認識結果として採用する単語を選定する、
ことを特徴とする請求項１〜３のいずれか一項記載の音声認識装置。
前記音声処理手段は、前記各単語の信頼度の最大値を基準として、前記各単語の相対的な信頼度を出力し、
前記スコア算出手段は、前記音声処理手段により出力された前記各単語の相対的な信頼度を用いて前記各単語のスコアを算出する、
ことを特徴とする請求項１〜４のいずれか一項記載の音声認識装置。
前記発話者度算出手段は、前記各単語の発話者度の最大値を基準として、前記各単語の相対的な発話者度を算出し、
前記スコア算出手段は、前記発話者度算出手段により算出された前記各単語の相対的な発話者度を用いて前記各単語のスコアを算出する、
ことを特徴とする請求項１〜５のいずれか一項記載の音声認識装置。
音声認識装置により実行される音声認識方法であって、
音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理ステップと、
前記各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出ステップと、
前記音声処理ステップにより出力された前記各単語の信頼度、及び前記発話者度算出ステップにより算出された前記各単語の発話者度に基づいて、前記各単語のスコアを算出するスコア算出ステップと、
前記各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定ステップとを備える、
ことを特徴とする音声認識方法。
コンピュータを、
音データに含まれる単語を抽出し、各単語の信頼度を出力する音声処理手段と、
前記各単語に対応する音データの発話者の音声らしさを示す各単語の発話者度を算出する発話者度算出手段と、
前記音声処理手段により出力された前記各単語の信頼度、及び前記発話者度算出手段により算出された前記各単語の発話者度に基づいて、前記各単語のスコアを算出するスコア算出手段と、
前記各単語のスコアと所定の閾値とに基づいて、音声認識結果として採用しない単語を削除した後に、スコアが最大である単語を含む単語列と不連続となる単語を更に削除し、残った単語を音声認識結果として採用する単語選定手段、
として機能させることを特徴とする音声認識プログラム。