JP5703747B2 - 音声認識装置,および音声認識プログラム - Google Patents

音声認識装置,および音声認識プログラム Download PDF

Info

Publication number
JP5703747B2
JP5703747B2 JP2010289214A JP2010289214A JP5703747B2 JP 5703747 B2 JP5703747 B2 JP 5703747B2 JP 2010289214 A JP2010289214 A JP 2010289214A JP 2010289214 A JP2010289214 A JP 2010289214A JP 5703747 B2 JP5703747 B2 JP 5703747B2
Authority
JP
Japan
Prior art keywords
word dictionary
acoustic model
word
reading information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010289214A
Other languages
English (en)
Other versions
JP2012137580A (ja
Inventor
原田 将治
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010289214A priority Critical patent/JP5703747B2/ja
Publication of JP2012137580A publication Critical patent/JP2012137580A/ja
Application granted granted Critical
Publication of JP5703747B2 publication Critical patent/JP5703747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は,音声を解析してテキストに変換する音声認識素処理技術に関するものであって,人間が発話した音声を対象とする音声認識処理に関する。
人同士が会話中に自然に発話している場合には,アナウンサのように明瞭に発声することはほとんどない。会話中の言葉はすべての音節が完全に発声されることは少なく,一部が脱落・省略されたり,変形されたりしていることが多い。このように音節の一部が脱落・省略,変形されているような発声を「怠けた発声」と,そのように発声された音声を「怠け音声」と呼ぶ。
音声認識装置において,入力される音声が怠け音声であると認識精度が劣化する。しかし,上述のように人同士の自然な会話では,ある程度怠けた発声が含まれるため,従来技術においても,それら怠け音声を認識できるように,別の読み方,すなわち,明瞭な読み方以外の音響モデルを用いて音声認識を行っている。
例えば,単語「教えて」は,明瞭に「おしえて」と発声されるだけでなく,怠けて発声された場合には中間部の「しえ」が不明瞭になり「おして」と発声される場合がある。そこで,単語「教えて」に対して「おしえて」の音響モデルとともに別の読み方「おして」の音響モデルを用意しておき,単語「教えて」を音声と照合する場合に,「おしえて」の音響モデルと照合し,さらに「おして」の音響モデルとも照合するようにして,怠け音声「おして」であっても単語「教えて」と認識できるようにしていた。
特開平11−282486号公報 特開2004−138914号公報
しかし,従来手法のように,音声認識で用いる単語に対する正しい読み方に,怠け音声を認識するための別の読み方を追加すると,別の単語の認識時に誤認識するという問題が生じる。上述の例の場合に,単語「教えて」に読み方「おしえて」,「おして」を対応付けておくと,単語「押して」の意味として発声された音声「おして」を,単語「教えて」と誤認識する可能性がある。
本発明はかかる課題に鑑みてなされてものであり,その目的は,誤認識することなく怠け音声を精度良く認識できる音声認識処理装置およびプログラムを提供することである。
本発明の一態様として開示される音声認識装置は,1)音声データを受け付け,前記音声データの音声特徴量を算出する音声入力部と,2)単語に対応する複数の読み情報,および前記複数の読み情報各々に対応した混合の度合いである混合度を示す単語辞書を記憶する第1単語辞書記憶部と,3)音声の特徴と,読み情報の一部または全部とを対応付けた音響モデルを記憶する音響モデル記憶部と,4)前記音響モデルから,前記単語辞書の複数の読み情報各々に対応する音響モデル列をそれぞれ生成する音響モデル列生成部と,5)前記単語辞書の混合度をもとに,前記複数の読み情報各々に対応する音響モデル列を混合した音響モデル列を生成する音響モデル列混合部と,6)入力された音声データの音声特徴量を求め,前記音声特徴量と前記混合した前記音響モデル列とを照合し,単語辞書から単語を検出する照合部と,7)前記検出された単語を結果として出力する結果出力部とを備える。
上記した音声認識装置によれば,単語の読み方に対応するモデルをもとに怠け音声に対応するモデルを得て音声認識を行うことができるため,誤認識することなく自然に発声された怠け音声を精度良く認識することができる。
本発明の第1実施形態における音声認識装置の構成例を示す図である。 本発明の第1実施形態において用いられる単語辞書の例を示す図である。 本発明の第1実施形態における音声認識装置の処理フロー例を示す図である。 本発明の第1実施形態における,音響モデルとしてテンプレートモデルを用いる場合の音響モデル列の混合例を説明するための図である。 本発明の第1実施形態における,音響モデルとして1つのカテゴリに複数のテンプレートを用いる場合の音響モデル列の混合例を説明するための図である 本発明の第2実施形態における音声認識装置の構成例を示す図である。 本発明の第2実施形態において用いられる単語辞書の例を示す図である。 本発明の第2実施形態における音声認識装置の処理フロー例を示す図である。 本発明の第3実施形態における音声認識装置の構成例を示す図である。 本発明の第3実施形態における音声認識装置の処理フローを示す図である。 本発明の音声認識装置を実現するためのハードウェア構成例を示す図である。
以下,本発明の一態様として開示する音声認識装置の実施形態を図面にもとづいて説明する。
<第1実施形態>
図1は,本発明の第1実施形態における音声認識装置の構成例を示す図である。
音声認識装置1Aは,音声入力部11,単語辞書記憶部12,音響モデル記憶部13,音響モデル列生成部14,音響モデル列混合部15,照合部16,および結果出力部17を備える。
音声入力部11は,音声データ(音声信号)を受け付け,受け付けた音声信号の音声特徴量を算出する。入力される音声信号は,マイクなどからのアナログ信号をA/D変換したものでもよいし,記憶装置に記録されている音声信号ファイルでもよい。
単語辞書記憶部12は,単語に対する複数の読み情報および各読み情報の混合度を,単語に対応付けて記憶された辞書を記憶する。単語辞書記憶部12は,第1単語辞書記憶部の一例である。
図2は,本発明の第1実施形態において単語辞書記憶部12に記憶される単語辞書の例を示す図である。
図2に示す単語辞書では,単語の表記,単語の読み情報とその混合度が,単語ごとに定義されている。例えば,単語「教えて」に対する2つの読み情報として,読み情報1「おしえて」とその混合度1「0.7」と,読み情報2「おして」とその混合度2「0.3」とが定義されている。
混合度は,単語の複数の読み情報に対応する音響モデル列を混合する割合を示す。混合の比率は,どちらの読み方に近い発声が多いかという推測にもとづいて決定してもよい。また,単語ごとの傾向を的確に反映するために,後述の第2実施形態として説明するように,実際の音声データを照合させて選出してもよい。
音響モデル記憶部13は,音声の特徴と,読み情報の一部または全部とを対応付けたモデルを記憶する。モデルは,例えば,音節単位のHMM(Hidden Markov Model)を用いる。モデルの単位は,読み情報と一意に対応付けられればよく,音素単位,前後の音素環境を考慮したトライフォン(triphone)単位などであってもよい。
音響モデル列生成部14は,単語の読み情報に対応する音響モデルを抽出し,抽出した音響モデルを読み情報に従って結合し,単語単位の音響モデル列を生成する。
音響モデル列混合部15は,各読み情報に対応する複数の音響モデル列を,各読み情報に対応する混合度で混合した音響モデル列を生成する。
照合部16は,音声入力部11に入力された音声の音声特徴量と,混合した音響モデル列と照合し,類似度や尤度などの照合スコアが一定基準を満たした単語を検出する。
結果出力部17は,照合部16で検出した単語を認識結果として出力する。出力は,単語の表記をディスプレイなどの画面に出力してもよいし,単語の識別子をファイルや別のソフトウェアに出力してもよい。
図3は,本発明の第1実施形態における音声認識装置の処理フロー例を示す図である。
ステップS101: 音声入力部11は,入力された音声信号を受け付け,音響分析を行い,その音声の特徴量を算出する。音声特徴量としては,例えば,MFCC(Mel Frequency Cepstral Coefficient)やパワー差分などを用いる。
ステップS102: 音響モデル列生成部14は,単語の読み情報に対応する音響モデル列を生成する。
例えば,音響モデル列生成部14は,図2に示す単語辞書記憶部12に記憶された単語情報を参照し,表記が「教えて」となっている単語の読み情報1にある「おしえて」に対応する音響モデルを音響モデル記憶部13から抽出する。音響モデル記憶部13に音節単位の音響モデルが記憶されている場合には,音響モデル列生成部14は,音節単位の「お」,「し」,「え」,「て」の音響モデルを抽出し,読み情報1の順に結合することによって音響モデル列を生成する。さらに,音響モデル列生成部14は,読み情報2にある「おして」に対しても同様に音響モデル列を生成する。
ステップS103: 音響モデル列混合部15は,読み情報に対応する混合度で音響モデル列を混合する。
例えば,音響モデル列混合部15は,図2に示す単語辞書の表記が「教えて」となっている単語に対して,読み情報1「おしえて」の音響モデル列を混合度1「0.7」の割合,読み情報2「おして」の音響モデル列を混合度2「0.3」の割合で混合する。
ここでは,音響モデル列の混合は,読み情報1に対応する音響モデル列(4音節)に,読み情報2の音響モデル列(3音節)が混合され,4音節の音響モデル列が生成されるとする。
音響モデル列混合部15は,各音節がすべて1状態のHMMモデルとした場合に,表記「教えて」の読み情報1に対応する音響モデル列の「お」,「し」,「え」,「て」の4状態に,読み情報2に対応する音響モデル列「お」,「し」,「て」を混合し,出力確率を算出するモデルを生成する。混合する読み情報2の音響モデル列「おして」は3状態であるので,各状態の出現確率を4/3倍して,読み情報1に対応する音響モデル列の各状態と対応付けられる。
具体的には次のようになる。音響モデル列混合部15は,第1状態(第1番目の状態)については「お」と「お*(3/3)」,第2状態(第2番目の状態)については「し」と「お*(1/3)+し*(2/3)」,第3状態(第3番目の状態)については「え」と「し*(2/3)+て*(1/3)」,第4状態(第4番目の状態)については「て」と「て*(3/3)」を,それぞれ対応付ける。
音響モデル列混合部15は,各状態の出力確率を,混合度1「0.7」と混合度2「0.3」の割合で混合して算出する。
第1状態は,「“お”*0.7」+「“お”*(3/3)*0.3」=「“お”*1.0」となるので,“お”の出力確率をそのまま用いる。
第2状態は,「“し”*0.7」+「“お”*(1/3)*0.3+“し”*(2/3)*0.3」=「“お”*0.1」+「“し”*0.9」となる。よって,「お」の出力確率*0.1と「し」の出力確率*0.9とを加算して混合したものを出力確率とする。
第3状態は,「“え”*0.7」+「“し”*(2/3)*0.3+“て”*(1/3)*0.3」=「“え”*0.7+“し”*0.2+“て”*0.1」となる。よって,「え」の出力確率*0.7と「し」の出力確率*0.2と「て」の出力確率*0.1を加算して混合したものを出力確率とする。
第4状態は,「“て”*0.7」+「“て”*(3/3)*0.3」=「“て”*1.0」となるので,「て」の出力確率をそのまま用いる。
音響モデル列混合部15は,以上のようにして出力確率を算出する音響モデル列を生成する。
また,別の混合例として,読み情報2「おして」に読み情報1「おしえて」を混合するようにしてもよい。音響モデル列混合部15は,各状態の出力確率を,以下のように混合して算出する。
第1状態は,「“お”*0.3」+「“お”*(3/4)*0.7+“し”*(1/4)*0.7」=「“お”*(33/40)+“し”*(7/40)」となる。よって,「お」の出力確率*0.825と「し」の出力確率*0.175とを加算して混合したものを出力確率とする。
第2状態は,「“し”*0.3」+「“し”*(2/4)*0.7+“え”*(2/4)*0.7」=「“し”*(26/40)」+「“え”*(14/40)」となる。よって,「し」の出力確率*0.65と「え」の出力確率*0.35とを加算して混合したものを出力確率とする。
第3状態は,「“て”*0.3」+「“え”*(1/4)*0.7+“て”*(3/4)*0.7」=「“え”*(7/40)+“て”*(33/40)」となる。よって,「え」の出力確率*0.175と「て」の出力確率*0.825とを加算して混合したものを出力確率とする。
なお,混合のベースとなる読み情報がどれであるかは,単語辞書で単語ごとに設定してもよい。または,例えば,図2の単語辞書では,読み情報1をベースとするなど,一律に設定してもよい。
さらに別の混合例として,音響モデル列の混合では,HMMの出力確率やテンプレートマッチングの類似度などを算出するために用いられる,音響モデルの平均・分散を混合してもよい。
例えば,音響モデル列混合部15は,音響モデル列において出力確率を算出するための平均または分散の値を,混合度にもとづいて算出して使用する。具体的には,読み情報1に読み情報2を混合する場合の第2状態の出力計算に用いる平均として,「“お”の平均*0.1+“し”の平均*0.9」を用いる。
または,単純に複数の音響モデル列の照合スコアを混合して照合スコアを算出するモデルでもよい。
また,上記の例では,単語全体を混合する処理例を説明したが,読み情報の文字列同士を比較して,一致しない箇所の前後を含む単語の部分同士を混合するようにしてもよい。
例えば,読み情報1「おしえて」に読み情報2「おして」を混合する場合に,先頭の「お」は一致,「し」は一致,「え」が不一致,「て」は一致となる。その場合に,音響モデル列混合部15は,単語の読み情報1の文字列の一部である「しえて」に対応する音響モデル列に対して,読み情報2の文字列の一部である「して」の音響モデル列を混合するようにしてもよい。
ステップS104: 照合部16は,ステップS103の処理で混合された音響モデル列と,入力された音声信号の音声特徴量とを照合し,照合スコアが一定基準を満たした単語を検出する。
例えば,照合部16は,混合した音響モデル列である音節HMMと,音声入力部11から出力された音声特徴量であるMFCCとを照合し,照合スコアとなる確率値を算出する。算出された確率値が最も高い単語が,一定の基準,例えば,音素や音節によらず音声そのものをモデルとしたHMMの確率値の定数α倍以上という基準を満たせば単語を検出する。
ステップS105: 結果出力部17は,ステップS104の処理で検出された単語があれば,認識結果として単語を出力する。検出された単語がなければ結果は「なし」を出力する。
以下に,音響モデル列の混合方法の別の例を説明する。
音響モデル列混合部15は,音響モデルとしてテンプレートモデルを用い,音響特徴量とテンプレートとの類似度を,動的計画法(DP法)で照合する場合の音響モデル列の混合を行うことができる。
図4は,音響モデルとしてテンプレートモデルを用いる場合の音響モデル列の混合例を説明するための図である。
図4では,各音節のテンプレートとして,例えば,該当カテゴリの平均値,または平均値と分散,すなわち,音響特徴量空間上の点が用いられる。ここでは,便宜的に,特徴量x,yとして二次元平面上にテンプレートを表している。テンプレートは,単語の各音節,「おしえて」の場合には「お」,「し」,「え」,「て」の各音節のカテゴリに1または複数のテンプレートが用いられる。
読み情報1「おしえて」に読み情報2「おして」を混合する場合であって,上記の混合処理と同様に行うとすると,音響モデル列混合部15は,第2状態のテンプレートについて,「お」を0.1,「し」を0.9の割合で混合する。このとき,図4(A)に模式的に示すように,第2状態のテンプレートの平均値は,「“お”の平均値*0.1」+「“し”の平均値*0.9」で算出した値を用いる。
また,音響モデル列混合部15は,第3状態のテンプレートについて,図4(B)に模式的に示すように,「え」を0.7,「し」を0.2,「て」を0.1の割合で混合してテンプレートを生成する。
図5は,本発明の第1実施形態における音響モデルとして1つのカテゴリに複数のテンプレートを用いる場合の音響モデル列の混合例を説明するための図である。
各カテゴリのテンプレートが複数存在する場合に,音響モデル列混合部15は,各カテゴリのテンプレートから混合度に応じた比率でテンプレートを選出して,新しいテンプレート群を生成する。
例えば,音響モデル列混合部15は,混合するテンプレートのすべての重心に近いものから算出する。
図5(A)は,「お」のテンプレート(丸印で示す)と「え」のテンプレート(星印で示す)それぞれに5つのテンプレートがある場合に,「お」の混合度を0.8,「え」の混合度を0.2として混合する場合の重心の例を表す。
音響モデル列混合部15は,図5(A)の場合に,重心に近いテンプレートを,「お」のものから4つ(=5*0.8),「え」のものから1つ(=5*0.2)選出する。そして,音響モデル列混合部15は,選出した5つのテンプレート群を,混合されたモデルとする。図5(B)に,混合されたモデルとなる5つのテンプレート群の例を示す。
第1実施形態に示す音声認識装置1Aによれば,音声処理において,誤認識を増加させずに,怠け音声を精度良く認識することができる。
<第2実施形態>
図6は,本発明の第2実施形態における音声認識装置の構成例を示す図である。
音声認識装置1Bは,音声入力部11,音響モデル記憶部13,音響モデル列生成部14,音響モデル列混合部15,照合部16,結果出力部17,単語辞書候補生成部21,単語辞書記憶部22,単語辞書決定部23,および学習用音声データ記憶部24を備える。
音声入力部11,音響モデル記憶部13,音響モデル列生成部14,音響モデル列混合部15,照合部16,結果出力部17は,第1実施形態における音声認識装置1Aが備える同一番号が付与された処理部と同様であるので,ここでは説明を省略する。
単語辞書候補生成部21は,単語辞書記憶部22に記憶された単語辞書の各単語に対する複数の読み情報に対して異なる混合度を付与した単語辞書候補25を生成する。
単語辞書記憶部22は,単語に対応する複数の読み情報の組み合わせをそれぞれ単語に対応付けた単語辞書を記憶する。単語辞書記憶部22は,第2単語辞書記憶部の一例である。
単語辞書決定部23は,異なる混合度が付与された単語辞書候補25ごとに,結果出力部17から出力される,学習用音声データに対する結果が正しいものを集計し,正解数が最大となる場合に用いられた単語辞書候補25を単語辞書26として出力する。
学習用音声データ記憶部24は,音声データと認識すべき単語とを組み合わせた複数の学習用音声データを記憶する。学習用音声データは,例えば,音声データ「おしえて」と認識すべき単語(表記)「教えて」との組み合わせである。
単語辞書候補25は,単語辞書記憶部22の単語辞書の読み情報に対して異なる混合度が付与されたものである。
単語辞書26は,複数の単語辞書候補25のうち,認識処理での正解数が最大となったものである。
図7は,本発明の第2実施形態において用いられる単語辞書の例を示す図である。
単語辞書記憶部22は,1つの単語に対応する複数の読み情報が定義された単語辞書が記憶される。
図7に示す単語辞書では,1つの単語に対して読み情報の組み合わせが複数定義されている。例えば,単語「教えて」に対して,2つの読み情報の組み合わせとして,識別子=001,002の2つの組み合わせが記憶されている。識別子=001の組み合わせは,読み情報1「おしえて」と読み情報2「おして」であり,識別子=002の組み合わせは,読み情報1「おしえて」と読み情報2「おせて」であることを表す。
図8は,本発明の第2実施形態における音声認識装置の処理フロー例を示す図である。
ステップS201: 単語辞書候補生成部21は,単語辞書記憶部22に記憶された複数の読み情報の組み合わせに対して,異なる混合度を付与した単語辞書候補25を生成する。
例えば,単語辞書候補生成部21は,図7に示す単語辞書の識別子=001で定義された読み情報の組み合わせについて,読み情報1の混合度をα,読み情報2の混合度を(1−α)とした単語辞書候補25を生成する。さらに,識別子=002の組み合わせに対応する単語に対しても同様にして単語辞書候補25が生成される。
ここで,混合度α=0.0,0.1,…,0.9,1.0とする場合に,単語辞書候補生成部21は,組み合わせごとに11種類の単語辞書候補を生成する。単語辞書候補生成部21は,読み情報の組み合わせ各々について生成した単語辞書候補(ここでは,全22種類の単語辞書候補)を保持する。
ステップS202: 単語辞書候補生成部21は,生成した単語辞書22のうち,学習用音声データ記憶部24の音声認識を行っていない単語辞書候補25を1つ選択する。
ステップS203: 音響モデル列生成部14,音響モデル列混合部15,照合部16,音声入力部11,結果出力部12により,選択された単語辞書候補25を用い,学習用音声データ記憶部24に記憶されている音声信号について音声認識処理を行う。ステップS203の音声認識処理は,第1実施形態と同じ処理,すなわち図3の処理フローに示すステップS101〜S105の処理である。
ステップS204: 単語辞書決定部23は,ステップS203の音声認識処理の結果と学習用音声データとを比較する。そして,単語辞書決定部23は,正しく認識できた回数と正しく誤認識しなかった数との合計である正解数を集計し,その正解数が最大となる単語辞書候補25を記憶する。
ステップS205: 単語辞書決定部23は,音声認識を行っていない単語辞書候補25があるかを調べる。未処理の単語辞書候補25が存在すれば(Y),ステップS202の処理へ戻り,未処理の単語辞書候補25が存在しなければ(N),ステップS206の処理へ進む。
ステップS206: 単語辞書決定部23は,正解数が最大となった単語辞書候補25を単語辞書26として出力する。単語辞書26は,第1実施例の音声認識装置1Aの単語辞書記憶部12に記憶されてもよい。
第2実施形態において,音声認識装置1Bは,認識の正解数が多い単語辞書を決定することができ,怠け音声の認識精度を改善することができる。
<第3実施形態>
図9は,本発明の第3実施形態における音声認識装置の構成例を示す図である。
音声認識装置1Cは,音声入力部11,音響モデル記憶部13,音響モデル列生成部14,音響モデル列混合部15,照合部16,結果出力部17,単語辞書候補生成部21,単語辞書記憶部22,単語辞書決定部23,学習用音声データ記憶部24,読み列候補生成部31,単語辞書記憶部32,および読み列変形ルール記憶部33を備える。
音声入力部11,音響モデル記憶部13,音響モデル列生成部14,音響モデル列混合部15,照合部16,結果出力部17は,第1実施形態における音声認識装置1Aが備える同一番号が付与された処理部と同様である。単語辞書候補生成部21,単語辞書記憶部22,単語辞書決定部23,学習用音声データ記憶部24は,第2実施形態における音声認識装置1Bが備える同一番号が付与された処理部と同様である。したがって,これらの処理部について,ここでは説明を省略する。
読み列候補生成部31は,単語辞書記憶部32に記憶された読み情報に対して,読み列変形ルール記憶部33に記憶された読み列変形ルールにもとづいて,変形させた読み情報を生成,付与し,複数の読み情報を対応付けた単語辞書を生成して,単語辞書記憶部22に格納する。
単語辞書記憶部32は,単語(表記)に対応する読み情報を,単語に対応付けた単語辞書を記憶する。単語辞書記憶部32は,第3単語辞書記憶部の一例である。
読み列変形ルール記憶部33は,単語の読み列が怠けた発声になったときに,どのような読み列になりやすいかというルールを記憶する。一例として,読み列「しえ」は怠けた発声によって読み列「せ」になりやすいというルールを記憶する。別の例として,読み列「しえて」が怠けた発声により音節が脱落し,読み列「して」に,読み列「あわ」が怠けた発声により音節が変形し,読み列「あー」になりやすいというルールを記憶する。
図10は,本発明の第3実施形態における音声認識装置の処理フローを示す図である。
ステップS301: 読み列候補生成部31は,単語辞書記憶部32に記憶されている読み情報に対して,読み列変形ルール記憶部33に記憶されている読み列変形ルールのうち,適用可能なルールに従って読み情報を変形し,変形した読み情報を付与した単語辞書を生成する。
例えば,読み列候補生成部31は,単語辞書記憶部32に記憶されている,単語(表記)「教えて」と読み列「おしえて」である読み情報に対して,「『しえ』が『せ』になりやすい」という読み列変形ルールを適用して,図7に示す,識別子=002のような単語辞書を生成する。
読み列候補生成部31は,読み列変形ルールのうち適用可能なルールすべてを適用して単語辞書を生成してもよく,または,読み列変形ルールに優先度を設けて一部のルールを適用して単語辞書を限定して生成してもよい。
ステップS301の処理後に,ステップS201〜S206の処理が行なわれるが,ステップS201以降は,第2実施形態における処理フロー(図8参照)の同一付番の処理ステップと同様の処理であるので説明を省略する。
第3実施形態によれば,単語辞書記憶部32に記憶されている,単語に1つの読みが対応する単語辞書から,単語に複数の読みが対応する単語辞書を自動的に生成して,第2実施形態の音声認識装置1Bの単語辞書記憶部22に記憶されている単語辞書を用意することができる。
図11は,本発明の音声認識装置を実現するためのハードウェア構成例を示す図である。
コンピュータ91が,所定のプログラムを実行することにより,音声認識装置1A,1B,1Cが実現される。
開示した音声認識装置1(1A,1B,1C)を実現するためのプログラムは,音声認識装置1が有すべき機能の処理内容を記述したプログラムであり,図11に示すように,CD−ROM,フレキシブルディスクなどの可搬型記憶媒体92だけでなく,ネットワークを介して接続される記憶装置93,コンピュータ91のハードディスクやRAMなどの記憶装置94のいずれに記録されるものであってもよく,プログラム実行時にはコンピュータ91の主メモリ上にロードされて実行される。
以上説明したように,開示した音声認識装置1によれば,次のような効果がある。すなわち,音声認識装置1によれば,既存の音響モデルを混合して,表記できないような怠け音声を対象とした専用の単語のモデルを生成することができるため,他の単語の発声について誤認識せずに,怠け音声を精度良く認識することができる。
また,利用環境に適応したモデルを用いたり,雑音環境モデルをすべての音響モデルに混合したり,音響モデルを選択したりするといった改善技術とは異なり,音声認識装置1によれば,単語別に怠けた発声に対する調整が可能となるため,前記の改善技術と組み合わせることにより,さらなる性能改善が期待できる。
1A,1B,1C 音声認識装置
11 音声入力部
12 単語辞書記憶部
13 音響モデル記憶部
14 音響モデル列生成部
15 音響モデル列混合部
16 照合部
17 結果出力部
21 単語辞書候補生成部
22 単語辞書記憶部
23 単語辞書決定部
24 学習用音声データ記憶部
25 単語辞書候補
26 単語辞書
31 読み列候補生成部
32 単語辞書記憶部
33 読み列変形ルール記憶部

Claims (4)

  1. 音声データを受け付け,前記音声データの音声特徴量を算出する音声入力部と,
    単語に対応する複数の読み情報,および前記複数の読み情報各々に対応した混合の度合いである混合度を示す単語辞書を記憶する第1単語辞書記憶部と,
    音声の特徴と,読み情報の一部または全部とを対応付けた音響モデルを記憶する音響モデル記憶部と,
    前記音響モデルから,前記単語辞書の複数の読み情報各々に対応する音響モデル列をそれぞれ生成する音響モデル列生成部と,
    前記単語辞書の混合度をもとに,前記複数の読み情報各々に対応する音響モデル列を混合した音響モデル列を生成する音響モデル列混合部と,
    入力された音声データの音声特徴量を求め,前記音声特徴量と前記混合した前記音響モデル列とを照合し,単語辞書から単語を検出する照合部と,
    前記検出された単語を結果として出力する結果出力部とを備える
    ことを特徴とする音声認識装置。
  2. 単語に対応する複数の読み情報を含む単語辞書を記憶する第2単語辞書記憶部と,
    前記第2単語辞書記憶部の単語辞書に含まれる複数の読み情報各々に異なる混合度を対応付けた単語辞書候補を複数生成する単語辞書候補生成部と,
    複数の単語辞書候補のうち,音声データと認識するべき単語とを示す学習用音声データに対する単語辞書を選出する単語辞書決定部とを備えて,
    前記音声入力部は,学習用音声データを受け付け,前記受け付けた学習用音声データの音声特徴量を出力し,
    前記音響モデル列生成部は,前記単語辞書の複数の読み情報に対応する音響モデル列をそれぞれ生成し,
    前記音響モデル列混合部は,前記単語辞書候補の混合度をもとに,前記音響モデル列を混合した音響モデル列を生成し,
    前記照合部は,入力された学習用音声データの音声特徴量と,前記混合した音響モデル列とを照合して単語を検出し,
    前記結果出力部は,前記検出された単語を結果として出力し,
    前記単語辞書決定部は,前記複数の単語辞書候補のうち,入力した学習用音声データに対する結果として正しい結果が得られた回数が最も多い処理で使用された単語辞書候補を単語辞書として選出する
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 単語に対応する読み情報を示す単語辞書を記憶する第3単語辞書記憶部と,
    前記第3単語辞書記憶部の単語に対し,前記単語に対応する読み情報を読み列変形ルールにもとづいて変形させた読み情報を対応付けて,前記単語に対する複数の読み情報を含む単語辞書を生成する読み列候補生成部と,
    前記単語辞書に含まれる複数の読み情報に異なる混合度を対応付けて前記単語辞書候補を複数生成する単語辞書候補生成部とを備える
    ことを特徴とする請求項2に記載の音声認識装置。
  4. 第1単語辞書記憶部と音響モデル記憶部とを備えるコンピュータに,
    音声データを受け付け,前記音声データの音声特徴量を算出する処理と,
    単語に対応する複数の読み情報,および前記複数の読み情報各々に対応した混合の度合いである混合度を示す単語辞書を記憶する前記第1単語辞書記憶部と,音声の特徴と読み情報の一部または全部とを対応付けた音響モデルを記憶する前記音響モデル記憶部とを参照し,前記音響モデルから,前記単語辞書の複数の読み情報各々に対応する音響モデル列をそれぞれ生成する処理と,
    前記単語辞書の混合度をもとに,前記複数の読み情報各々に対応する音響モデル列を混合した音響モデル列を生成する処理と,
    入力された音声データの音声特徴量を求め,前記音声特徴量と前記混合した前記音響モデル列とを照合し,単語辞書から単語を検出する処理と,
    前記検出された単語を結果として出力する処理とを,実行させる
    ことを特徴とする音声認識プログラム。
JP2010289214A 2010-12-27 2010-12-27 音声認識装置,および音声認識プログラム Active JP5703747B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010289214A JP5703747B2 (ja) 2010-12-27 2010-12-27 音声認識装置,および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010289214A JP5703747B2 (ja) 2010-12-27 2010-12-27 音声認識装置,および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2012137580A JP2012137580A (ja) 2012-07-19
JP5703747B2 true JP5703747B2 (ja) 2015-04-22

Family

ID=46675047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010289214A Active JP5703747B2 (ja) 2010-12-27 2010-12-27 音声認識装置,および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP5703747B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016145742A (ja) * 2015-02-06 2016-08-12 株式会社国際電気通信基礎技術研究所 識別システム、識別プログラム、識別方法および識別装置
CN113421554B (zh) * 2021-07-05 2024-01-16 平安科技(深圳)有限公司 语音关键词检测模型处理方法、装置及计算机设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPH08123470A (ja) * 1994-10-25 1996-05-17 Nippon Hoso Kyokai <Nhk> 音声認識装置
JP3144341B2 (ja) * 1997-03-26 2001-03-12 日本電気株式会社 音声認識装置
JP2004020969A (ja) * 2002-06-17 2004-01-22 Toyota Central Res & Dev Lab Inc 音響モデル学習方法及びその装置
AU2003277587A1 (en) * 2002-11-11 2004-06-03 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation device and speech recognition device
JP2005249874A (ja) * 2004-03-01 2005-09-15 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
CN101393740B (zh) * 2008-10-31 2011-01-19 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
JP5152020B2 (ja) * 2009-02-02 2013-02-27 富士通株式会社 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
JP2012137580A (ja) 2012-07-19

Similar Documents

Publication Publication Date Title
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
Barnard et al. The NCHLT speech corpus of the South African languages
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
US9640175B2 (en) Pronunciation learning from user correction
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP6189818B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
Liu et al. Dialect identification: Impact of differences between read versus spontaneous speech
WO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
JP5257680B2 (ja) 音声認識装置
Marasek et al. System for automatic transcription of sessions of the Polish senate
JP2001343992A (ja) 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP5703747B2 (ja) 音声認識装置,および音声認識プログラム
Lamel et al. Towards best practice in the development and evaluation of speech recognition components of a spoken language dialog system
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
Iwama et al. Automated testing of basic recognition capability for speech recognition systems
JP2009116075A (ja) 音声認識装置
Qian et al. Automatic speech recognition for automated speech scoring
US11043212B2 (en) Speech signal processing and evaluation
JP5028599B2 (ja) 音声処理装置、およびプログラム
JP4236502B2 (ja) 音声認識装置
JP2005283646A (ja) 音声認識率推定装置
JP5772219B2 (ja) 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150209

R150 Certificate of patent or registration of utility model

Ref document number: 5703747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150