JP5772219B2 - 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム - Google Patents

音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム Download PDF

Info

Publication number
JP5772219B2
JP5772219B2 JP2011118113A JP2011118113A JP5772219B2 JP 5772219 B2 JP5772219 B2 JP 5772219B2 JP 2011118113 A JP2011118113 A JP 2011118113A JP 2011118113 A JP2011118113 A JP 2011118113A JP 5772219 B2 JP5772219 B2 JP 5772219B2
Authority
JP
Japan
Prior art keywords
pronunciation
unit
acoustic model
sound
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011118113A
Other languages
English (en)
Other versions
JP2012247553A (ja
Inventor
原田 将治
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011118113A priority Critical patent/JP5772219B2/ja
Publication of JP2012247553A publication Critical patent/JP2012247553A/ja
Application granted granted Critical
Publication of JP5772219B2 publication Critical patent/JP5772219B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、例えば、単語辞書を用いて音声データ中の単語などのキーワードを認識する音声認識装置において利用される音響モデルを生成する音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラムに関する。
従来より、音声データ中に含まれる個々の単語を認識する技術が開発されている。このような技術の一例では、認識する単語の音声に関する特徴を表す音響モデルが作成される。そして音声認識装置は、音響モデルが表す単語の音声に相当する特徴量に対する、音声データを解析することにより得られた特徴量の類似度に基づいて単語を認識する。
実際の会話において、その会話を行っている人の滑舌が良くないことがある。このような場合、その会話の音声が音声認識装置に入力されると、音声認識装置による音声認識の精度が低下してしまうことがある。例えば、人によっては、「教えて」という単語を「おしぇて」のように、怠けた発音にすることがある。そこで、単語の発音が、本来の発音と異なる場合でも、音声認識装置がその単語を認識できるように、単語の正しい発音に対応する音響モデルとは別に、その単語について想定し得る発音に対応した音響モデルを用いて、音声を認識する技術が開発されている(例えば、特許文献1〜4を参照)。
特開平01−042699号公報 特開平11−282486号公報 特開2004−012883号公報 特開2004−138914号公報
しかしながら、特定の読みが含まれる複数の単語について、何れかの単語では、その読みが本来の発音とは異なって発音されることがあっても、他の単語では、その読み本来の発音でしか発音されないことがある。このような、異なる発音がなされる可能性が低い単語まで、一律にその異なる発音に対応する音響モデルが音声認識に用いられると、それらの音響モデルによって他の単語が誤認識されてしまう可能性が高くなってしまう。例えば、上記の「教えて」に含まれる読み「しえ」は、「パティシエ」、「市営」、「古(いにしえ)」、「挿絵」、「刺し枝」といった単語にも含まれる。しかし、「パティシエ」及び「古(いにしえ)」といった単語が、「ぱてぃしぇ」、「いにしぇ」と発音される可能性は低い。したがって、「ぱてぃしぇ」、「いにしぇ」という発音に対応する音響モデルは不要である。
そこで本明細書は、同一の読みを含む複数の単語のうち、その読みについて異なる発音がなされる可能性のある単語についてのみ、その異なる発音に対応する音響モデルを生成可能な音響モデル生成装置を提供することを目的とする。
一つの実施形態によれば、音響モデル生成装置が提供される。この音響モデル生成装置は、少なくとも一つの単語の読みを表す発音列と、読み替えがなされる可能性のある少なくとも一つの変換候補の変換前の読みと変換後の読みの組とを記憶する記憶部と、発音列から変換候補列を抽出する変換候補列抽出部と、変換候補列に含まれる単位音ごとの発音明瞭度に応じた変換候補列明瞭度が異なる発音がなされるレベルである場合、発音列中のその変換候補列の読みを対応する変換後の読みに置換することにより、修正発音列を生成する発音列修正部と、発音列及び修正発音列に対応する音響モデルをそれぞれ生成する音響モデル生成部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音響モデル生成装置は、同一の読みを含む複数の単語のうち、その読みについて異なる発音がなされる可能性のある単語についてのみ、その異なる発音に対応する音響モデルを生成できる。
第1の実施形態による音響モデル生成装置が組み込まれた音声認識装置の概略構成図である。 第1の実施形態による音声認識装置が有する処理部の概略構成図である。 単語辞書の一例を示す模式図である。 発音変換ルールを表す参照テーブルの一例を示す模式図である。 第1の実施形態による音響モデル生成処理の動作フローチャートを示す図である。 音声認識処理の動作フローチャートを示す図である。 第2の実施形態による処理部の概略構成図である。 単語辞書の他の一例を示す模式図である。 単位音数と単語の明瞭度との関係を表す参照テーブルの一例を示す模式図である。 単位音と音節明瞭度との関係を表す参照テーブルの一例を示す模式図である。 第2の実施形態による音響モデル生成処理の動作フローチャートを示す図である。 発音変換ルールを表す参照テーブルの他の一例を示す模式図である。 第3の実施形態による処理部の概略構成図である。 第3の実施形態による音響モデル生成処理の動作フローチャートを示す図である。 第4の実施形態による処理部の概略構成図である。 第4の実施形態による音響モデル生成処理の動作フローチャートを示す図である。
以下、図を参照しつつ、様々な実施形態による音響モデル生成装置について説明する。この音響モデル生成装置は、単語の読みを表す発音列中で、他の発音がなされる可能性のある部分に含まれる各単位音の発音の明瞭度が低い場合に限り、その部分を想定し得る他の発音に相当する読みに置換する。これにより、この音響モデル生成装置は、その単語の想定し得る他の読みを表す修正発音列を生成する。そしてこの音響モデル生成装置は、元の発音列及び修正発音列に対応する音響モデルをそれぞれ生成する。
図1は、一つの実施形態による、音響モデル生成装置が組み込まれた音声認識装置の概略構成図である。本実施形態では、音声認識装置1は、音声入力部2と、記憶部3と、処理部4と、出力部5とを有する。
音声入力部2は、音声認識処理の対象となる音声データを取得する。そのために、音声入力部2は、例えば、少なくとも1本のマイクロホン(図示せず)とマイクロホンに接続されたアナログ−デジタル変換器(図示せず)とを有する。この場合、マイクロホンは、マイクロホン周囲の音を集音してアナログ音声信号を生成し、そのアナログ音声信号をアナログ−デジタル変換器へ出力する。アナログ−デジタル変換器は、アナログ音声信号をデジタル化することにより音声データを生成する。そしてアナログ−デジタル変換器は、その音声データをアナログ−デジタル変換器と接続された処理部4へ出力する。
あるいは、音声入力部2は、音声認識装置1を通信ネットワークに接続するためのインターフェース回路を有してもよい。この場合、音声入力部2は、通信ネットワークに接続されたファイルサーバなどの他の機器から、その通信ネットワークを介して音声データを取得し、取得した音声データを処理部4へ出力する。
さらにまた、音声入力部2は、ユニバーサル・シリアル・バス(Universal Serial Bus、USB)といったシリアスバス規格に従ったインターフェース回路を有してもよい。この場合、音声入力部2は、例えば、ハードディスクなどの磁気記憶装置、光記憶装置あるいは半導体メモリ回路と接続され、それらの記憶装置から音声データを読み込み、その音声データを処理部4へ出力する。
記憶部3は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部3は、処理部4で用いられる各種コンピュータプログラム及び音響モデル生成処理及び音声認識処理に用いられる各種のデータを記憶する。さらに記憶部3は、音声入力部2を介して取得された音声データを記憶してもよい。
記憶部3に記憶される、音響モデル生成処理及び音声認識処理に用いられるデータには、検出対象となる少なくとも一つの単語を表す単語辞書、特定の読みについての発音変換ルールを表すルール参照テーブル及び単位音ごとの音響モデルが含まれる。さらに、記憶部3は、各単語について生成される音響モデルも記憶する。単語辞書及び発音変換ルールの詳細は後述する。
出力部5は、処理部4から受け取った、音声データから検出された単語のテキストを含む検出結果情報を、液晶ディスプレイといった表示装置6へ出力する。そのために、出力部5は、例えば、表示装置6を音声認識装置1と接続するためのビデオインターフェース回路を有する。
また出力部5は、検出結果情報を、通信ネットワークを介して音声認識装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声認識装置1と接続するためのインターフェース回路を有する。なお、音声入力部2も通信ネットワークを介して音声データを取得する場合、音声入力部2と出力部5は同一の回路であってもよい。
処理部4は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部4は、単語辞書に登録された各単語の音響モデルを生成し、その音響モデルを用いて、音声データに含まれる単語を認識する。
図2は、処理部4の概略構成図である。処理部4は、変換候補列抽出部11と、発音列修正部12と、音響モデル生成部13と、特徴量抽出部14と、照合部15とを有する。処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、それぞれ、別個の回路として、音声認識装置1に実装されてもよい。
変換候補列抽出部11は、記憶部3に記憶されている単語辞書に登録されている各単語について、その単語の発音列から、予め設定された発音変換ルールを参照することにより、他の読みに変換される候補となる変換候補列を抽出する。そして変換候補列抽出部11は、変換候補列に含まれる単位音ごとに設定された発音の明瞭度のうちの最大値を変換候補列明瞭度として求める。
なお、単位音は、例えば、音節、音素、あるいは前後の音素環境情報を含むtriphoneであってもよい。あるいは、複数の音節が一つの単位音であってもよく、または複数の音素が一つの単位音であってもよい。
本実施形態において、発音列は、対応する単語の読みを表すテキスト情報であり、例えば、単語の読みを表すひらがなまたはカタカナの文字列で表記される。また、発音の明瞭度とは、その明瞭度に対応する単位音を人が発声するときに、本来の読み通りに発音される程度を表す指標である。本実施形態では、発音の明瞭度は'0'または'1'で表され、発音の明瞭度が高いほど、その明瞭度に対応する単位音は本来の読み通りに発音される可能性が高い。言い換えれば、発音の明瞭度が低いほど、その明瞭度に対応する単位音は、本来の読みとは異なる読みで発音される可能性が高い。また、本実施形態では、各単語の発音列に含まれる単位音ごとの発音の明瞭度は予め設定される。
図3は、単語辞書の一例を示す模式図である。単語辞書300の各行には、それぞれ、一つの単語に関するデータが格納されている。そして単語辞書300の左端の欄には単語の表記が示され、中央の欄には発音列が示され、右端の列には発音列に含まれる単位音ごとの発音の明瞭度が示されている。この例では、発音の明瞭度は音節単位で示されている。例えば、行310には、表記が「教えて」である単語について、その単語の発音列が「おしえて」であり、お/し/え/ての4個の音節に対して、発音の明瞭度がそれぞれ'0'、'0'、'0'、'1'であることが示されている。
発音変換ルールは、例えば、発音列中で他の読みに読み替えがなされる可能性のある部分である変換候補列を表すテキストと変換候補列が変換される可能性のある他の読みを表すテキストとの関係を表すルール参照テーブルとして表される。ルール参照テーブルは、予め記憶部3に記憶される。
図4は、発音変換ルールを表すルール参照テーブルの一例を示す模式図である。図4に示されるように、ルール参照テーブル400の各行には、それぞれ、変換候補列が一つ示される。そして参照テーブル400の左側の各欄には、変換候補列の読みが表され、一方、参照テーブル400の右側の各欄には、変換後の変換候補列の読みが表される。例えば、行410には、変換候補列「しえ」が「しぇ」に変換されることが示されている。
変換候補列抽出部11は、単語ごとに、発音列からルール参照テーブル内に登録されている変換候補列と一致する部分を全て抽出する。そして発音列修正部12は、単語辞書を参照して、抽出された変換候補列に対応する部分の単位音の発音の明瞭度のうちの最大値Cmaxを、その変換候補列に対する変換候補列明瞭度とする。
変換候補列抽出部11は、単語ごとに、抽出された変換候補列及び変換候補列明瞭度Cmaxを発音列修正部12に渡す。
発音列修正部12は、各単語の発音列について、変換候補列抽出部11によって抽出された変換候補列に対する変換候補列明瞭度Cmaxに基づいて、その変換候補列を発音変換ルールに従って変換するか否か判定する。これにより、発音列修正部12は、各単語の発音列について、発音が明瞭でない可能性があり、かつ異なる読みで発音される可能性がある場合に限り、修正発音列を生成する。
本実施形態では、発音列修正部12は、変換候補列明瞭度Cmaxが'0'である場合、すなわち、変換候補列に含まれる全ての単位音の発音の明瞭度が異なる発音がなされるレベルである場合に限り、その変換候補列を、発音変換ルールに従って変換する。
例えば、単語辞書300に登録された単語「教えて」では、その発音列に発音変換ルールに登録された「しえ」が含まれているので、変換候補列として「しえ」が抽出される。そして、単語辞書300を参照すると、音節「し」と音節「え」の何れについても対応する発音の明瞭度が'0'である。そのため、変換候補列「しえ」についての発音の明瞭度の最大値Cmaxは'0'となる。したがって、「しえ」は、参照テーブル400に示された発音変換ルールに従って、「しぇ」に変換され、その結果として修正発音列「おしぇて」が生成される。
一方、単語辞書300に登録された単語「挿絵」、「パティシエ」の発音列も、発音変換ルールに登録された変換候補列「しえ」を含む。しかし、単語辞書300を参照すると、単位音「し」に対応する発音の明瞭度は'0'であるものの、単位音「え」に対応する発音の明瞭度は'1'である。そのため、変換候補列「しえ」についての変換候補列明瞭度Cmaxは'1'となる。したがって、単語「挿絵」、「パティシエ」に関しては、変換候補列「しえ」は変換されない。そのため、単語「挿絵」、「パティシエ」に対しては修正発音列は生成されない。
また、一つの単語の発音列に変換候補列が複数含まれることがある。このような場合、発音列修正部12は、それら複数の変換候補列のそれぞれに対応する部分を変換した修正発音列と、それら複数の変換候補列のうちの何れかに対応する部分を変換した修正発音列をそれぞれ生成してもよい。
さらに、単語辞書は、一つの単語の発音列に対して、互いに異なる複数の発音の明瞭度の組を定義してもよい。例えば、単語「教えて」の発音列「おしえて」に対して、"0001"という発音明瞭度の組と、"0010"という発音明瞭度の組とが定義されてもよい。この場合、変換候補列抽出部11は、一つの単語について発音明瞭度の組ごとに変換候補列を抽出して、その変換候補列に対する変換候補列明瞭度を求め、発音列修正部12は、発音明瞭度の組ごとに求められた変換候補列について、その変換候補列明瞭度に基づいて発音列中のその変換候補列に対応する部分を置換するか否か判定する。
発音列修正部12は、単語ごとに、オリジナルの発音列と、修正発音列とを音響モデル生成部13へ渡す。
音響モデル生成部13は、オリジナルの発音列と修正発音列のそれぞれについて、音響モデルを生成する。
音響モデル生成部13は、発音列に含まれる単位音の順序に従って、その単位音に対応する単位音響モデルを連結することにより音響モデル列を生成し、その音響モデル列を発音列に対応する音響モデルとする。同様に、音響モデル生成部13は、修正発音列に含まれる単位音の順序に従って単位音響モデルを連結することにより音響モデル列を生成し、その音響モデル列を修正発音列に対応する音響モデルとする。
本実施形態では、単位音響モデル及び音響モデルは、それぞれ、隠れマルコフモデル(Hidden Markov Model, HMM)により表される。単位音響モデルを表すHMMは、音声データの所定の区間から抽出される1以上の特徴量に基づいて、特定の単位音に対するその所定の区間の確率または尤度を類似度として出力する。なお、特徴量については、特徴量抽出部14とともに後述する。そのために、それぞれの単位音に対応する単位音響モデルを表すHMMは、既知の単位音を含む複数の音声データを用いて予め学習され、記憶部3に、対応する単位音と関連付けて記憶される。
なお、単位音響モデル及び音響モデルは、他のモデル、例えば、混合ガウス分布により表されてもよい。
特徴量抽出部14は、認識対象となる、音声入力部2を介して取得した音声データから、音声認識に用いられる特徴量を抽出する。そのために、特徴量抽出部14は、例えば、音声データを所定のフレーム長を持つフレームごとに高速フーリエ変換といった周波数変換を行ってフレームごとのスペクトルを求める。なお、フレーム長は、例えば、10ミリ秒〜100ミリ秒程度に設定される。そして特徴量抽出部14は、そのスペクトルに基づいて、特徴量として、フレームごとに、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、MFCC)またはフレーム間のパワーの差分値を求める。特徴量抽出部14は、特徴量としてMFCCを算出する場合、例えば、各フレームのスペクトルをメル尺度のパワー値に変換した後、そのパワー値の対数に対して再度離散コサイン変換などの周波数変換を行うことによりMFCCを算出する。また特徴量抽出部14は、特徴量としてフレーム間のパワーの差分値を求める場合、例えば、各フレームの周波数帯域ごとのスペクトルの2乗の和をパワーとして求め、連続する二つのフレーム間でパワーの差を求めることによりその差分値を求める。
なお、特徴量抽出部14は、特徴量として、例えば、基本周波数といった、音響モデルを用いた音声認識に用いられる他の様々な特徴量の何れかを抽出してもよい。また特徴量抽出部14は、音声データから、複数の種類の特徴量を抽出してもよい。
特徴量抽出部14は、特徴量を抽出する度に、その特徴量を照合部15へ出力する。
照合部15は、単語辞書に登録された各単語の発音列または修正発音列に対応するそれぞれの音響モデルと、1以上のフレームから得られた特徴量の組とを照合することによって、音響モデルに対応する単語に対する、得られた特徴量の組の類似度を求める。そして照合部15は、最も高い類似度が所定の照合閾値以上となる場合、その最も高い類似度に対応する単語を検出する。なお、照合閾値は、例えば、あらゆる単位音に対する確率を出力するように学習された単位音響モデルを複数個連結させた音響モデル列が出力する最も高い確率に、1以上の所定の係数αを乗じた値とすることができる。この単位音響モデルは、HMMであってもよく、あるいは混合ガウス分布モデルであってもよい。あるいは、照合閾値は、例えば、0.6〜0.9程度の予め設定された値であってもよい。
照合部15は、単語が検出される度に、単語辞書を参照して、検出された単語のテキスト情報を特定し、そのテキスト情報を検出結果情報に含める。そして照合部15は、音声データについての解析が終了すると、その検出結果情報を出力部5へ出力する。
図5は、音声認識装置1の処理部4により実行される、音響モデル生成処理の動作フローチャートを示す。なお、処理部4は、以下に示す音響モデル生成処理を、単語辞書に含まれる各単語についてそれぞれ実行する。
処理部4の変換候補列抽出部11は、注目する単語について、その単語の発音列に、未検出の変換候補列が存在するか否か判定する(ステップS101)。未検出の変換候補列が存在する場合(ステップS101−Yes)、変換候補列抽出部11は、変換候補列に含まれる単位音ごとの発音の明瞭度の最大値Cmaxを変換候補列明瞭度として算出する(ステップS102)。変換候補列抽出部11は、変換候補列と対応する変換候補列明瞭度を処理部4の発音列修正部12に渡す。
発音列修正部12は、変換候補列明瞭度Cmaxが'0'か否か判定する(ステップS103)。
変換候補列明瞭度が'0'である場合(ステップS103−Yes)、発音列修正部12は、発音列中の変換候補列に対応する部分を発音変換ルールに従って変換することで修正発音列を生成する(ステップS104)。
一方、ステップS103にて変換候補列明瞭度Cmaxが'1'である場合(ステップS103−No)、発音列修正部12は、変換候補列を修正しない。
ステップS104の後、あるいは、ステップS103にて変換候補列明瞭度Cmaxが'1'であると判定された後、処理部4は、その変換候補列が検出済みであることを表すフラグを記憶部3に記憶する。その後、処理部4は、ステップS101の手順を再度実行する。
また、ステップS101にて、未検出の変換候補列が存在しない場合(ステップS101−No)、処理部4の音響モデル生成部13は、オリジナルの発音列及び修正発音列のそれぞれについて音響モデルを生成する(ステップS105)。なお、記憶部3に修正発音列が記憶されていなければ、オリジナルの発音列に対応する音響モデルのみが生成される。
その後、処理部4は、音響モデル生成処理を終了する。なお、処理部4は、ステップS104にて修正発音列が生成される度に、その修正発音列に対応する音響モデルを生成し、ステップS105では、発音列に対する音響モデルのみを生成してもよい。
図6は、音声認識装置1の処理部4により実行される、音声認識処理の動作フローチャートを示す。
処理部4は、音声入力部2を介して音声データを取得する(ステップS201)。そして処理部4は、音声データを処理部4の特徴量抽出部14へ渡す。
また処理部4の変換候補列抽出部11、発音列修正部12及び音響モデル生成部13は、音響モデル生成処理を実行し、単語辞書に登録されている各単語についての発音列及び修正発音列に対応する音響モデルを生成する(ステップS202)。
一方、特徴量抽出部14は、音声データから、例えば、フレームごとに特徴量を抽出する(ステップS203)。そして特徴量抽出部14は、抽出した特徴量を処理部4の照合部15へ出力する。
照合部15は、フレームごとの特徴量を時系列順に並べた組の、各音響モデルが表す発音列又は修正発音列に対する類似度に基づいて音声データ中に含まれる単語を検出する(ステップS204)。そして処理部4は、音声認識処理を終了する。
なお、処理部4は、ステップS201よりも先にステップS202を実行してもよい。
以上に説明してきたように、この音声認識装置は、単語辞書に登録された各単語について、発音列中で他の読みで発音される可能性のある部分に含まれる各単位音の明瞭度に応じて、修正発音列を生成するか否かを決定する。そのため、この音声認識装置は、場合によっては異なる発音がなされる可能性がある読みを含む単語であっても、その読みが明瞭に発音される単語については、修正発音列を生成しない。その結果、実際に異なる発音がなされる可能性がある単語についてのみ、修正発音列に基づく音響モデルが生成されるので、この音声認識装置は、音声データからの単語の誤認識を抑制できる。
次に、第2の実施形態による音響モデル生成装置が組み込まれた音声認識装置について説明する。
この第2の実施形態による音声認識装置は、単語辞書に登録された各単語について、発音列中の単位音ごとに、その発音列に含まれる単位音数とその単位音の種類に基づいて発音の明瞭度を算出する。
図7は、第2の実施形態による音声認識装置の処理部の概略構成図である。処理部21は、変換候補列抽出部11と、発音列修正部12と、音響モデル生成部13と、特徴量抽出部14と、照合部15と、発音明瞭度算出部16とを有する。
図7において、処理部21の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第2の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部21が発音明瞭度算出部16を有する点、及び、発音明瞭度が多値で表される点で異なる。
そこで以下では、処理部21のうちの第1の実施形態による処理部4と異なる点について説明する。第2の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
発音明瞭度算出部16は、単語辞書に登録されている単語の発音列ごとに、その発音列に含まれる単位音ごとの発音の明瞭度を算出する。その際、発音明瞭度算出部16は、発音列に含まれる単位音の数に応じて、単位音ごとに予め設定される単語の明瞭度に、各単位音が表す音の種類に応じて予め設定される音の明瞭度を加算することにより、発音列中の単位音ごとの発音の明瞭度を算出する。なお、この実施形態においても、単位音は、例えば、音節、音素、triphone、複数音節あるいは複数音素とすることができる。また、単語の明瞭度及び音の明瞭度の何れも、高くなるほど、その明瞭度に対応する単位音は本来の読み通りに発音される可能性が高いことを表す。
図8は、第2の実施形態において使用される単語辞書の他の一例を示す模式図である。単語辞書800の各行には、それぞれ、一つの単語に関するデータが格納されている。そして単語辞書800の左側の欄には単語の表記が示され、右側の欄には発音列が示される。この実施形態では、発音の明瞭度は別途算出されるので、単語辞書800には、発音の明瞭度は含まれない。
図9は、単位音数と単語の明瞭度との関係を表す単語明瞭度参照テーブルの一例を示す模式図である。単語明瞭度参照テーブル900の各行には、それぞれ、発音列に含まれる単位音の数と、その数に対応する、各単位音の単語の明瞭度が示されている。この例では、単位音は音節である。例えば、行910には、単位音の数が'3'である場合、各単位音の単語の明瞭度が、先頭から順に'2'、'1'、'3'であることが示されている。例えば、単語「挿絵」の発音列は、3個の単位音「さ」「し」「え」を含んでいる。したがって、「さ」「し」「え」のそれぞれに対する単語の明瞭度は、'2'、'1'、'3'となる。同様に、行920には、単位音の数が'4'である場合、各単位音の単語の明瞭度が、先頭から順に'1'、'0'、'0'、'3'であることが示されている。例えば、単語「教えて」の発音列は、4個の単位音「お」「し」「え」「て」を含んでいる。したがって、単位音「お」「し」「え」「て」のそれぞれに対する単語の明瞭度は、'1'、'0'、'0'、'3'となる。この例では、発音列の先頭及び終端の単位音に対する単語の明瞭度は相対的に高い値となり、一方、発音列の中間の単位音に対する単語の明瞭度は相対的に低く設定されている。これは、単語の語頭と語末は、日本語では明瞭に発音され易く、特に、発声の最後の音節は発声長も長く、明瞭に発生され易いという知見に基づいている。またこの例では、発音列に含まれる単位音の数が増えるほど、それぞれの単位音に対する単語の明瞭度が低くなるように設定されている。これは、発音列に含まれる単位音の数が多い単語については、その発音列に含まれる音の種類も増えるので、音声認識の際に誤検出され難く、むしろ様々な修正発音列に対応する音響モデルが生成された方が結果として認識精度が向上することによる。
図10は、単位音の種類と音明瞭度との関係を表す音明瞭度参照テーブルの一例を示す模式図である。またこの例でも、単位音は音節である。音明瞭度参照テーブル1000の各行には、それぞれ、音の種類と、その種類に対応する、音の明瞭度が示されている。例えば、行1001に示されるように、口を大きく動かさないと発音が不明瞭になり易いア行、イ行の音に対しては、低い音の明瞭度'1'が設定されている。また、行1002に示されるように、相対的に発音が明瞭となるウ行〜オ行の音に対しては、ア行、イ行の音に対する音の明瞭度よりも高い音の明瞭度'2'が設定されている。
なお、音の明瞭度の設定方法はこの例に限られない。例えば、音の種類の出現頻度に応じて、その音の種類に対する音の明瞭度が設定されてもよい。この場合、出現頻度の低い単位音、例えば、「ぺ」、「ぬ」、「ぞ」、「ぐ」、「ゆ」に対しては、明瞭に発音される可能性が高いので、高い音の明瞭度、例えば、'5'が設定されてもよい。一方、出現頻度の高い単位音、例えば、「う」、「ん」、「い」、「か」、「し」に対しては、明瞭に発音されないことがあるので、低い音の明瞭度、例えば、'1'が設定されてもよい。
発音明瞭度算出部16は、単語辞書を参照して、注目する単語の発音列に含まれる単位音の数を求める。そして発音明瞭度算出部16は、単語明瞭度参照テーブルを参照することにより、その発音列に含まれる単位音の数に対応する、単位音毎の単語の明瞭度を求める。さらに発音明瞭度算出部16は、音明瞭度参照テーブルを参照することにより、その発音列に含まれる単位音ごとに、対応する音の明瞭度を求め、その音の明瞭度を対応する単語の明瞭度に加算することにより、単位音ごとの発音の明瞭度を求める。
例えば、単語「教えて」について、発音列「おしえて」の各単位音に対する単語の明瞭度は、参照テーブル900を参照すると、'1'、'0'、'0'、'3'である。また、発音列「おしえて」の各音に対する音の明瞭度は、参照テーブル1000を参照すると、'2'、'1'、'2'、'2'である。したがって、単語「教えて」の発音列「おしえて」に対する単位音ごとの発音の明瞭度は'3'、'1'、'2'、'5'となる。同様に、単語「パティシエ」の発音列「ぱてぃしえ」に対する単位音ごとの発音の明瞭度は'2'、'1'、'1'、'5'となる。
変形例によれば、発音明瞭度算出部16は、注目する単語の発音列と所定数の単位音が一致する発音列を持つ単語について既に発音の明瞭度が算出されている場合、算出済みの単語の発音の明瞭度に基づいて注目する単語の発音の明瞭度を算出してもよい。所定数は、例えば、3といった固定数、あるいは、注目する単語の発音列に含まれる単位音の数の1/2〜3/4といった数に設定される。
例えば、注目する単語「教えて」について発音の明瞭度が算出される際、その単語の発音列に含まれる単位音のうちの3個が一致する単語「教える」について既に発音の明瞭度が'2'、'3'、'1'、'4'と算出されているとする。この場合、発音明瞭度算出部16は、単語「教えて」の発音列「おしえて」のうち、単語「教える」の発音列と一致する部分である「おしえ」についての発音の明瞭度を、単語「教える」と同様に'2'、'3'、'1'とする。そして発音明瞭度算出部16は、単語「教えて」の発音列「おしえて」のうち、単語「教える」の発音列と一致しない「て」については、上記の例と同様に、単語の明瞭度と音の明瞭度に基づいて発音の明瞭度を算出する。
発音明瞭度算出部16は、各単語について算出された発音の明瞭度を、その単語の発音列と関連付けて記憶部3に記憶する。
図11は、第2の実施形態による音響モデル生成処理の動作フローチャートを示す図である。処理部21は、単語辞書に登録された単語ごとに、以下の音響モデル生成処理を実行する。
処理部21の発音明瞭度算出部16は、単語の発音列に含まれる単位音の数により設定される単語の明瞭度に音の種類により設定される音の明瞭度を加算することにより発音列中の単位音ごとの発音の明瞭度を算出する(ステップS301)。そして発音明瞭度算出部16は、発音列に対応付けて発音の明瞭度を記憶部3に記憶する。
処理部21の変換候補列抽出部11は、注目する単語について、その単語の発音列に、未検出の変換候補列が存在するか否か判定する(ステップS302)。未検出の変換候補列が存在する場合(ステップS302−Yes)、変換候補列抽出部11は、変換候補列に含まれる単位音ごとの発音の明瞭度の合計Ctotalを変換候補列明瞭度として算出する(ステップS303)。変換候補列抽出部11は、変換候補列と変換候補列明瞭度を処理部21の発音列修正部12に渡す。
発音列修正部12は、変換候補列明瞭度Ctotalが、その変換候補列に対応する閾値以下か否か判定する(ステップS304)。なお、閾値は、例えば、ルール参照テーブルに、変換候補列とともに表される。
図12は、発音変換ルールを表すルール参照テーブルの他の一例を示す模式図である。図12に示されるように、ルール参照テーブル1200の各行には、それぞれ、変換候補列が一つ示される。そしてルール参照テーブル1200の左側の各欄には、変換候補列の読みが表され、一方、ルール参照テーブル1200の中央の各欄には、変換候補列が変換された後の読みが表される。そしてルール参照テーブル1200の右側の各欄には、その行に示された変換候補列に対して適用される、その変換候補列を変換するか否かを判定するために使用される閾値が示される。例えば、行1201には、変換候補列「しえ」が「しぇ」に変換されること、及び、閾値が'3'であることが示されている。
変換候補列明瞭度Ctotalが閾値以下である場合(ステップS304−Yes)、変換候補列明瞭度Ctotalは異なる発音がなされるレベルに相当する。そこで発音列修正部12は、発音列中の変換候補列に対応する部分を発音変換ルールに従って変換することで修正発音列を生成する(ステップS305)。
一方、ステップS304にて変換候補列明瞭度Ctotalが閾値より大きい場合(ステップS304−No)、変換候補列明瞭度Ctotalは異なる発音がなされるレベルではない。そこで発音列修正部12は、変換候補列を修正しない。
ステップS305の後、あるいは、ステップS304にて発音の明瞭度の合計Ctotalが閾値より大きいと判定された後、処理部21は、変換候補列が検出済みであることを表すフラグを記憶部3に記憶する。その後、処理部21は、ステップS302以降の手順を再度実行する。
例えば、上記のように、単語「教えて」の発音列に含まれるそれぞれの単位音に対する発音の明瞭度が'3'、'1'、'2'、'5'であれば、変換候補列「しえ」についての発音の明瞭度の合計Ctotalは'3'となる。そこで再度図12を参照すると、その合計Ctotalは、変換候補列「しえ」についての閾値'3'以下であるため、「しえ」は「しぇ」に変換される。一方、単語「パティシエ」の発音列「ぱてぃしえ」に含まれるそれぞれの単位音ごとの発音の明瞭度は'2'、'1'、'1'、'5'であれば、発音の明瞭度の合計Ctotalは'6'となる。そのため、その合計Ctotalは、変換候補列「しえ」についての閾値'3'より大きいので、単語「パティシエ」に関しては、その発音列に含まれる変換候補列「しえ」は変換されない。一方、変換候補列「てぃ」についての発音の明瞭度の合計Ctotalは'1'となる。そこで再度図12を参照すると、その合計Ctotalは、変換候補列「てぃ」についての閾値'4'以下であるため、「てぃ」は「ち」に変換される。その結果、単語「パティシエ」に関して、修正発音列「ぱちしえ」が生成される。
また、ステップS302にて、未検出の変換候補列が存在しない場合(ステップS302−No)、処理部21の音響モデル生成部13は、オリジナルの発音列及び修正発音列のそれぞれについて音響モデルを生成する(ステップS306)。
その後、処理部21は、音響モデル生成処理を終了する。
以上に説明してきたように、第2の実施形態による音響モデル生成装置を含む音声認識装置は、単語の発音列の構造に応じて単位音ごとに発音の明瞭度を求め、その発音の明瞭度に基づいて修正発音列を生成するか否かを決定する。そのため、この音声認識装置は、実際に発音される可能性の低い修正発音列及び対応する音響モデルをより生成し難くできるので、単語の誤認識をより抑制できる。
変形例によれば、変換候補列抽出部11は、変換候補列に含まれる単位音毎の発音明瞭度の合計を算出する代わりに、発音明瞭度の平均値、あるいは最小値といった統計的代表値を算出してもよい。この場合、変換候補列に対して設定される閾値も、算出される発音の明瞭度の統計的代表値に応じた値に設定される。また、閾値は、全ての変換候補列に対して同一の値に設定されてもよい。
次に、第3の実施形態による音響モデル生成装置が組み込まれた音声認識装置について説明する。
この第3の実施形態による音声認識装置は、単語辞書に登録された各単語について、発音列及び修正発音列に対応する音響モデルのうち、発声された単語が分かっている学習用音声データに対して正答となる確率が高い音響モデルだけを選択する。
図13は、第3の実施形態による音声認識装置の処理部の概略構成図である。処理部31は、変換候補列抽出部11と、発音列修正部12と、音響モデル生成部13と、特徴量抽出部14と、照合部15と、発音列選択部17とを有する。
図13において、処理部31の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第3の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部31が発音列選択部17を有する点、及び、記憶部が複数の学習用音声データを記憶している点で異なる。
そこで以下では、処理部31のうちの第1の実施形態による処理部4と異なる点について説明する。第3の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
学習用音声データは、単語辞書に登録されている単語を、例えば、音声認識装置の使用者、あるいは不特定の話者が発声した音声を録音したデータである。本実施形態では、単語辞書に登録されている単語ごとに、複数個、例えば、100個の学習用音声データが予め用意される。各学習用音声データは、それぞれ、対応する単語と関連付けられて記憶部3に記憶される。
先ず、第1の実施形態と同様に、音響モデル生成部13にて各単語の発音列及び修正発音列に対応する音響モデルが生成される。その後、照合部15は、それら音響モデルに対応する単語の各学習用音声データから特徴量抽出部14で抽出された特徴量に対する、それら音響モデルが表す音の類似度を求める。照合部15は、単語の発音列及び修正発音列に対応する音響モデルごとに、得られた類似度が照合閾値以上である学習用音声データの数を求め、その数を単語に対応する学習用データの総数で割ることにより、正解率を算出する。
照合部15は、音響モデルごとの正解率を発音列選択部17へ出力する。
発音列選択部17は、単語辞書に登録された単語ごとに、その単語の発音列及び修正発音列に対応する1以上の音響モデルから、上記の正解率が所定の基準を満たす音響モデルを選択する。例えば、発音列選択部17は、1以上の音響モデルのうち正解率が所定の基準値以上となる音響モデルを選択する。あるいは、発音列選択部17は、1以上の音響モデルのうち、正解率が高い方から順にN個(Nは1以上の整数)の音響モデルを選択してもよい。なお、発音列選択部17は、各単語について、少なくとも一つの音響モデルを選択することが好ましい。
例えば、発音列選択部17は、各単語について、正解率が高い方から順に2個の音響モデルを選択する。この場合において、例えば、単語「教えて」の発音列「おしえて」に対して、修正発音列「おしぇて」、「おせーて」、「おせて」が生成されているとする。そして、発音列及び修正発音列それぞれの音響モデルに対して、100個の学習用音声データのうち正解となった学習用音声データの数が、それぞれ、85個、50個、90個、80個であれば、各音響モデルに対する正解率は0.85、0.5、0.9、0.8となる。そこで発音列選択部17は、発音列「おしえて」及び修正発音列「おせーて」に対する音響モデルを選択する。
また、発音列選択部17が、正解率0.7以上の発音列または修正発音列に対応する音響モデルを選択する場合、発音列選択部17は、上記の例では、発音列「おしえて」及び修正発音列「おせーて」及び「おせて」に対する音響モデルを選択する。
発音列選択部17は、選択された音響モデルを記憶部3に記憶し、未選択の音響モデルを消去する。そして照合部15は、音声認識の対象となる音声データに対して、選択された音響モデルのみを用いて音声認識処理を実行する。
なお、発音列選択部17は、選択された発音列または修正発音列を単語辞書の対応する単語に関連付けるように、単語辞書を更新してもよい。この場合において、発音列選択部17は、単語辞書に、発音列または修正発音列に含まれる各単位音の発音の明瞭度をさらに追加するようにしてもよい。その際、発音の明瞭度を全て'1'とすることにより、次回以降の音響モデルの生成時において、さらに修正発音列が生成されないようにしてもよい。
図14は、処理部31により実行される、音響モデル生成処理の動作フローチャートを示す。なお、処理部31は、以下に示す音響モデル生成処理を、単語辞書に含まれる各単語についてそれぞれ実行する。
また、ステップS401〜S405の手順は、図5に示した、第1の実施形態による音響モデル生成処理のステップS101〜S105の手順と同一であるため、ステップS401〜S405の詳細な説明については省略する。
処理部31の照合部15は、ステップ405にて発音列及び修正発音列のそれぞれについて生成された音響モデルごとに、複数の学習用音声データに対する正解率を算出する(ステップS406)。そして照合部15は、音響モデルごとの正解率を発音列選択部17へ通知する。
処理部31の発音列選択部17は、音響モデルごとの正解率に基づいて、正解率が高い1個以上の音響モデルを選択する(ステップS407)。そして発音列選択部17は、選択した音響モデル及び対応する発音列又は修正発音列を記憶部3に記憶し、選択されなかった音響モデル及び対応する発音列又は修正発音列を消去する。
その後、処理部31は、音響モデル生成処理を終了する。
以上に説明したきたように、第3の実施形態による音響モデル生成装置が組み込まれた音声認識装置は、学習用音声データを用いることで、正解率の高い音響モデルのみを選択し、その正解率の高い音響モデルのみを用いて音声認識処理を実行できる。そのため、この音声認識装置は、音声認識の精度を向上できる。
次に、第4の実施形態による音響モデル生成装置が組み込まれた音声認識装置について説明する。
この第4の実施形態による音声認識装置は、単語辞書に登録された各単語について、その単語の発音列に含まれる単位音ごとの発音の明瞭度を、学習用音声データに対する発音列の音響モデルを用いて正答となる確率に基づいて決定する。
図15は、第4の実施形態による音声認識装置の処理部の概略構成図である。処理部41は、変換候補列抽出部11と、発音列修正部12と、音響モデル生成部13と、特徴量抽出部14と、照合部15と、発音明瞭度算出部18とを有する。
図15において、処理部41の各構成要素には、図7に示された第2の実施形態による処理部21の対応する構成要素の参照番号と同じ参照番号を付した。この第4の実施形態による音声認識装置は、第2の実施形態による音声認識装置と比較して、処理部41が有する発音明瞭度算出部18による処理が処理部21が有する発音明瞭度算出部16と異なる点と、記憶部が複数の学習用音声データを記憶している点で異なる。
そこで以下では、処理部41のうちの第2の実施形態による処理部21と異なる点について説明する。第4の実施形態による音声認識装置の処理部以外の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
学習用音声データは、第3の実施形態による音声認識装置にて利用される学習用音声データと同様のデータであり、単語辞書に登録されている単語ごとに、複数個の学習用音声データが対応する単語と関連付けられて記憶部3に記憶される。
音響モデル生成部13は、単語辞書に登録されている各単語について、先ず、その単語の発音列に対応する音響モデルを生成する。この音響モデルも、その発音列に含まれる単位音に対応する単位音響モデルを、その単位音の順序に従って連結することにより生成される。そして音響モデル生成部13は、その音響モデルを発音列と関連付けて記憶部3に記憶する。
発音明瞭度算出部18は、各単語の発音列の音響モデルに含まれる各単位音に対応する単位音響モデルに対する、その単語に対応する複数の学習用音声データから特徴量抽出部14により抽出された特徴量の類似度の平均値を算出する。類似度は、例えば、発音列の音響モデルが、単位音ごとのHMMを連結することにより形成されている場合、その単位音である確率または尤度となる。
類似度の平均値が高い単位音ほど、その単位音の読み通りに発音される確率が高い。そこで発音明瞭度算出部18は、その単語の発音列に含まれる各単位音についての類似度の平均値に所定の係数を乗じた値を、その単位音に対する発音の明瞭度とする。例えば、所定の係数は、発音の明瞭度の取り得る最大値とすることができる。
例えば、単語「教えて」の発音列「おしえて」について、単位音「お」、「し」、「え」、「て」のそれぞれに対する類似度の平均値が0.85、0.75、0.65、0.8であったとする。そして所定の係数が5であったとすると、「お」、「し」、「え」、「て」のそれぞれに対する発音の明瞭度は、それぞれ、5、3、2、4となる。なお、小数点以下の数値は切り上げている。
単語辞書に登録されている各単語について、上記のように単位音ごとの発音の明瞭度が決定されると、処理部41は、第2の実施形態と同様に、その発音の明瞭度及び発音変換ルールに基づいて、修正発音列を生成する。そして処理部41は、修正発音列に対応する音響モデルを生成する。
図16は、第4の実施形態による音響モデル生成処理の動作フローチャートを示す図である。処理部41は、単語辞書に登録された単語ごとに、以下の音響モデル生成処理を実行する。
処理部41の音響モデル生成部13は、単語の発音列に対応する音響モデルを生成する(ステップS501)。そして処理部41の発音明瞭度算出部18は、その音響モデルを用いて、その単語に対応する複数の学習用音声データに対する、発音列中の各単位音の類似度の平均値を算出する(ステップS502)。そして発音明瞭度算出部18は、類似度の平均値に所定の係数を乗じることにより、発音列中の単位音ごとの発音の明瞭度を算出する(ステップS503)。そして発音明瞭度算出部18は、発音列に対応付けて発音の明瞭度を記憶部3に記憶する。
その後、処理部41は、ステップS504以降の処理を実行することにより、修正発音列及び修正発音列に対応する音響モデルを生成する。なお、ステップS504〜S508の手順は、それぞれ、図11に示された、第2の実施形態による音響モデル生成処理のステップS302〜S306の手順と同様である。そのため、ステップS504〜S508の手順の詳細な説明は省略する。
以上に説明したきたように、第4の実施形態による音響モデル生成装置が組み込まれた音声認識装置は、学習用音声データを用いて単語の発音列に含まれる単位音ごとに算出される類似度の平均値により発音の明瞭度を決定する。そのため、この音声認識装置は、各単位音について発音の明瞭度を適切に設定できるので、発音変換ルールに従って変換すべき単位音を適切に決定できる。その結果、この音声認識装置は、不必要な修正発音列及びその修正発音列に対応する音響モデルを生成しなくて済むので、音声認識の精度を向上できる。
なお、本発明は上記の実施形態に限定されるものではない。一つの変形例によれば、音響モデル生成装置は、音声認識装置とは別個の装置であってもよい。この場合、音響モデル生成装置が有する処理部は、上記の第1及び第2の実施形態については、音声認識装置が有する処理部の機能のうち、特徴量抽出部及び照合部の機能を省略したものとすることができる。また音声認識装置が有する処理部は、上記の各実施形態における処理部の機能のうち、特徴量抽出部及び照合部の機能のみを有するものとすることができる。この場合、音声認識装置の記憶部には、予め、音響モデル生成装置により生成された、単語辞書に登録された各単語の発音列及び修正発音列に対応する音響モデルが対応する単語と関連付けて記憶される。
さらに、上記の各実施形態による音声認識装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体、あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
少なくとも一つの単語の読みを表す発音列と、読み替えがなされる可能性のある少なくとも一つの変換候補の変換前の読みと変換後の読みの組とを記憶する記憶部と、
前記発音列から前記変換候補列を抽出する変換候補列抽出部と、
前記変換候補列に含まれる単位音ごとの発音明瞭度に応じた変換候補列明瞭度が異なる発音がなされるレベルである場合、前記発音列中の当該変換候補列の読みを対応する前記変換後の読みに置換することにより、修正発音列を生成する発音列修正部と、
前記発音列及び前記修正発音列に対応する音響モデルをそれぞれ生成する音響モデル生成部と、
を有する音響モデル生成装置。
(付記2)
前記記憶部は、単語ごとに、前記発音列に含まれる前記単位音ごとの発音明瞭度をさらに記憶し、
前記発音列修正部は、前記変換候補列に含まれる、前記単位音ごとの前記発音明瞭度の最大値を前記変換候補列明瞭度とし、当該変換候補列明瞭度が所定の閾値未満である場合に当該変換候補列明瞭度が異なる発音がなされるレベルであると判定する、付記1に記載の音響モデル生成装置。
(付記3)
単語ごとに、前記発音列に含まれる各単位音の前記発音明瞭度を決定する発音明瞭度決定部をさらに有し、
前記発音列修正部は、前記変換候補列に含まれる、前記単位音ごとの前記発音明瞭度の統計的代表値を前記変換候補列明瞭度とし、当該変換候補列明瞭度が所定の閾値未満である場合に当該変換候補列明瞭度が異なる発音がなされるレベルであると判定する、付記1に記載の音響モデル生成装置。
(付記4)
前記記憶部は、前記単語の前記発音列に含まれる前記単位音の数に応じて、前記単位音ごとに設定される単語明瞭度と、前記単位音の音の種類に応じて設定される音明瞭度とをさらに記憶し、
前記発音明瞭度決定部は、前記単語の前記発音列に含まれる前記単位音ごとに、当該単位音に対応する前記単語明瞭度に当該単位音の音の種類に対応する前記音明瞭度を加算することで前記発音明瞭度を決定する、付記3に記載の音響モデル生成装置。
(付記5)
前記記憶部は、前記単語を発声した音声が録音された学習用音声データを複数記憶し、
前記発音明瞭度決定部は、前記単語の前記発音列に含まれる前記単位音ごとの単位音響モデルが当該単位音の順序に従って連結された音響モデルに基づいて、前記発音列に含まれる前記単位音ごとに、対応する前記単位音響モデルに対する前記複数の学習用音声データの平均類似度を算出し、当該平均類似度が高いほど前記発音明瞭度が高くなるように、前記発音列に含まれる単位音ごとの前記発音明瞭度を決定する、付記3に記載の音響モデル生成装置。
(付記6)
前記記憶部は、前記単語を発声した音声が録音された学習用音声データを複数記憶し、
前記発音列及び前記修正発音列のそれぞれに対応する前記音響モデルに基づいて、前記複数の学習用音声データのうち、前記単語が検出される学習用音声データの割合を求め、前記発音列及び前記修正発音列のそれぞれに対応する前記音響モデルから、当該割合が高い方から順に所定数の音響モデルを選択する発音列選択部をさらに有する、付記1に記載の音響モデル生成装置。
(付記7)
前記記憶部は、前記単語を発声した音声が録音された学習用音声データを複数記憶し、
前記発音列及び前記修正発音列のそれぞれに対応する前記音響モデルに基づいて、前記複数の学習用音声データのうち、前記単語が検出される学習用音声データの割合を求め、前記発音列及び前記修正発音列のそれぞれに対応する前記音響モデルから、当該割合が所定値以上となる音響モデルを選択する発音列選択部をさらに有する、付記1に記載の音響モデル生成装置。
(付記8)
音声データを取得する音声データ入力部と、
前記音声データから所定長のフレームごとに特徴量を抽出する特徴量抽出部と、
前記記憶部に記憶されている各単語の前記発音列に対応する前記音響モデル及び前記修正発音列に対応する前記音響モデルのそれぞれについて、1以上の前記フレームから抽出された1以上の前記特徴量との類似度を求め、当該類似度が最大となる音響モデルに対応する単語を検出する照合部と、
をさらに有する付記1〜7の何れか一項に記載の音響モデル生成装置。
(付記9)
少なくとも一つの単語の読みを表す発音列から読み替えがなされる可能性のある変換候補列を抽出し、
前記変換候補列に含まれる単位音ごとの発音明瞭度に応じた変換候補列明瞭度が異なる発音がなされるレベルである場合、前記発音列中の当該変換候補列の読みを対応する変換後の読みに置換することにより、修正発音列を生成し、
前記発音列及び前記修正発音列に対応する音響モデルをそれぞれ生成する、
ことを含む音響モデル生成方法。
(付記10)
少なくとも一つの単語の読みを表す発音列から読み替えがなされる可能性のある変換候補列を抽出し、
前記変換候補列に含まれる単位音ごとの発音明瞭度に応じた変換候補列明瞭度が異なる発音がなされるレベルである場合、前記発音列中の当該変換候補列の読みを対応する変換後の読みに置換することにより、修正発音列を生成し、
前記発音列及び前記修正発音列に対応する音響モデルをそれぞれ生成する、
ことをコンピュータに実行させる音響モデル生成用コンピュータプログラム。
1 音声認識装置
2 音声入力部
3 記憶部
4、21、31、41 処理部
5 出力部
6 表示装置
11 変換候補列抽出部
12 発音列修正部
13 音響モデル生成部
14 特徴量抽出部
15 照合部
16、18 発音明瞭度算出部
17 発音列選択部

Claims (7)

  1. 少なくとも一つの単語の読みを表す発音列と、読み替えがなされる可能性のある少なくとも一つの変換候補の変換前の読みと変換後の読みの組とを記憶する記憶部と、
    前記発音列から前記変換候補列を抽出する変換候補列抽出部と、
    前記変換候補列に含まれる単位音ごとの発音明瞭度が、異なる発音がなされるレベルか否か判定し、前記単位音ごとの前記発音明瞭度が前記レベルである場合、前記発音列中の当該変換候補列の読みを対応する前記変換後の読みに置換することにより生成される修正発音列に対応する音響モデルを生成する音響モデル生成部と、
    を有する音響モデル生成装置。
  2. 前記記憶部は、単語ごとに、前記発音列に含まれる前記単位音ごとの発音明瞭度をさらに記憶し、
    前記音響モデル生成部は、前記変換候補列に含まれる、前記単位音ごとの前記発音明瞭度の最大値が所定の閾値未満である場合に前記単位音ごとの前記発音明瞭度が異なる発音がなされるレベルであると判定する、請求項1に記載の音響モデル生成装置。
  3. 単語ごとに、前記発音列に含まれる各単位音の前記発音明瞭度を決定する発音明瞭度決定部をさらに有し、
    前記音響モデル生成部は、前記変換候補列に含まれる、前記単位音ごとの前記発音明瞭度の統計的代表値が所定の閾値未満である場合に前記単位音ごとの前記発音明瞭度が異なる発音がなされるレベルであると判定する、請求項1に記載の音響モデル生成装置。
  4. 前記記憶部は、前記単語の前記発音列に含まれる前記単位音の数に応じて、前記単位音ごとに設定される単語明瞭度と、前記単位音の音の種類に応じて設定される音明瞭度とをさらに記憶し、
    前記発音明瞭度決定部は、前記単語の前記発音列に含まれる前記単位音ごとに、当該単位音に対応する前記単語明瞭度に当該単位音の音の種類に対応する前記音明瞭度を加算することで前記発音明瞭度を決定する、請求項3に記載の音響モデル生成装置。
  5. 音声データを取得する音声データ入力部と、
    前記音声データから所定長のフレームごとに特徴量を抽出する特徴量抽出部と、
    前記記憶部に記憶されている各単語の前記発音列に対応する前記音響モデル及び前記修正発音列に対応する前記音響モデルのそれぞれについて、1以上の前記フレームから抽出された1以上の前記特徴量との類似度を求め、当該類似度が最大となる音響モデルに対応する単語を検出する照合部と、
    をさらに有する請求項1〜4の何れか一項に記載の音響モデル生成装置。
  6. 少なくとも一つの単語の読みを表す発音列から読み替えがなされる可能性のある変換候補列を抽出し、
    前記変換候補列に含まれる単位音ごとの発音明瞭度が、異なる発音がなされるレベルか否か判定し、前記単位音ごとの前記発音明瞭度が前記レベルである場合、前記発音列中の当該変換候補列の読みを対応する変換後の読みに置換することにより生成される修正発音列に対応する音響モデルを生成する、
    ことを含む音響モデル生成方法。
  7. 少なくとも一つの単語の読みを表す発音列から読み替えがなされる可能性のある変換候補列を抽出し、
    前記変換候補列に含まれる単位音ごとの発音明瞭度が、異なる発音がなされるレベルか否か判定し、前記単位音ごとの前記発音明瞭度が前記レベルである場合、前記発音列中の当該変換候補列の読みを対応する変換後の読みに置換することにより生成される修正発音列に対応する音響モデルを生成する、
    ことをコンピュータに実行させる音響モデル生成用コンピュータプログラム。
JP2011118113A 2011-05-26 2011-05-26 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム Expired - Fee Related JP5772219B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011118113A JP5772219B2 (ja) 2011-05-26 2011-05-26 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011118113A JP5772219B2 (ja) 2011-05-26 2011-05-26 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012247553A JP2012247553A (ja) 2012-12-13
JP5772219B2 true JP5772219B2 (ja) 2015-09-02

Family

ID=47468050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011118113A Expired - Fee Related JP5772219B2 (ja) 2011-05-26 2011-05-26 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5772219B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705790B (zh) * 2017-09-22 2020-01-21 维沃移动通信有限公司 一种信息处理方法和电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123470A (ja) * 1994-10-25 1996-05-17 Nippon Hoso Kyokai <Nhk> 音声認識装置
US5875426A (en) * 1996-06-12 1999-02-23 International Business Machines Corporation Recognizing speech having word liaisons by adding a phoneme to reference word models
EP1239459A1 (en) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Adaptation of a speech recognizer to a non native speaker pronunciation
JP2004309928A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2009109586A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識制御装置

Also Published As

Publication number Publication date
JP2012247553A (ja) 2012-12-13

Similar Documents

Publication Publication Date Title
JP4769223B2 (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
US9640175B2 (en) Pronunciation learning from user correction
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
CN112397056B (zh) 语音评测方法及计算机存储介质
US10665227B2 (en) Voice recognition device and voice recognition method
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Kurian et al. Speech recognition of Malayalam numbers
JP4966324B2 (ja) 音声翻訳装置、および方法
US20040006469A1 (en) Apparatus and method for updating lexicon
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
CN111640423A (zh) 一种词边界估计方法、装置及电子设备
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP5772219B2 (ja) 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム
JP2017191278A (ja) 音素誤り獲得装置、辞書追加装置、音声認識装置、音素誤り獲得方法、音声認識方法、およびプログラム
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2012255867A (ja) 音声認識装置
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
JP5152020B2 (ja) 音声認識装置及び音声認識方法
JP5596869B2 (ja) 音声認識装置
JP5703747B2 (ja) 音声認識装置,および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150615

R150 Certificate of patent or registration of utility model

Ref document number: 5772219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees