JP2008176202A - 音声認識装置及び音声認識プログラム - Google Patents

音声認識装置及び音声認識プログラム Download PDF

Info

Publication number
JP2008176202A
JP2008176202A JP2007011422A JP2007011422A JP2008176202A JP 2008176202 A JP2008176202 A JP 2008176202A JP 2007011422 A JP2007011422 A JP 2007011422A JP 2007011422 A JP2007011422 A JP 2007011422A JP 2008176202 A JP2008176202 A JP 2008176202A
Authority
JP
Japan
Prior art keywords
speech
word
learning
speech recognition
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007011422A
Other languages
English (en)
Other versions
JP4758919B2 (ja
Inventor
Kazuho Onoe
和穂 尾上
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007011422A priority Critical patent/JP4758919B2/ja
Publication of JP2008176202A publication Critical patent/JP2008176202A/ja
Application granted granted Critical
Publication of JP4758919B2 publication Critical patent/JP4758919B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】高精度な音声認識を実現する。
【解決手段】学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、前記テキストに対して形態素解析を行う形態素解析手段と、前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することにより、上記課題を解決する。
【選択図】図1

Description

本発明は、音声認識装置及び音声認識プログラムに係り、特に高精度な音声認識を実現するための音声認識装置及び音声認識プログラムに関する。
従来の音声認識手法において、音声及び言語に対してそれぞれ独立に確率モデルを学習し、音声認識時にその確率モデル(音響モデル、言語モデル等)を組み合わせて使用する手法が知られている。
なお、音響モデルは、例えば音声信号より各音素と入力信号との尤度を出力するHMM(隠れマルコフモデル)による確率モデルであり、言語モデルは、例えば人手によって作成した文法による確率、又は音声から書き起こした文章の各単語において単語間の意味的な接続のし易さを示す単語連鎖確率等についてn−gramモデル等を用いて学習された確率モデルである。
つまり、従来では、上述した音響モデルと言語モデルは、それぞれ独立しており、音響モデルと言語モデルの関係を直接表現するモデルは存在していなかった。そこで、近年では、認識精度の向上をめざして、音響モデルと言語モデルの関係を表現するような技術が開示されている(例えば、非特許文献1〜3等参照。)。
ここで、非特許文献1に示されている手法では、各単語の音素の発話継続時間長の平均と分散を学習データから学習して確率モデル化し、音声認識に利用する手法を提案している。また、この手法は、発話継続時間長の値を直接用いており、認識音素と学習音素とが常に一定の同じ発話スピードで話している場合に一番高い効果が期待できる。また、この手法では、話速(音素の発話継続時間長)が変化する場合には劣化の可能性もあるが、全ての音素に対して一意に話速の正規化を行うことで上記の課題の解決を試みている。
また、非特許文献2に示されている手法では、言語的情報と音響信号の相関をモデル化することで、認識精度の改善を図っている。また、この手法では、学習用の音声信号とその音声信号から文章を書き起こしたテキストを使用して、パワーや母音継続時間、ピッチに関する統計量を求めてモデル化して使用している。
また、非特許文献3に示されている手法では、講演音声の認識エラーが何の影響を大きく受けているのかについて、決定木を用いて分析を行っている。また、この手法では、エラーに影響するのは話速、音素の出現頻度等が重要であり、認識精度の改善には、話速や単語内に含まれる音素数等を考慮した方がよいことが示されている。
"Modeling Word Duration for Better Speech Recognition,"V.Ramana,R.Gadde,Speech Transcription Workshop,May 16−19,Univ. of Maryland Speech Transcription Workshop 2000. "Lexical Stress Modeling for Improved Speech Recognition of Spontaneous Telephone Speech in the JUPITER Domain",C.Wang,and S.Seneff,EuroSpeech 2001. "Error Analysis Using Decision Trees In Spontaneous Presentation Speech Recognition,"T.Shinozuka and S.Furui,Proc. ASRU2001.
上述した従来の音声認識手法では、音響モデルや言語モデルをそれぞれ独立に学習し、音声認識時に両モデルを用いて正解となる文章を探索している。そのため、単語毎に発話の仕方等の異なる部分についてはモデル化されていない。
また、現状のモデルでは発音辞書に読みを与えるだけであるため、同じ音素列の単語の時間経過に対する評価は同じになってしまう。また、学習データの平均に比べて、発話速度が早口なのか、ゆっくり発話しているのかというような指標がモデル化できておらず、上述した従来手法のような単語単位で継続時間長を扱うだけでは、音声と言語との間にある相関関係のモデル化が不十分である。
上述の例を挙げると、例えば正解単語列の探索中における枝刈り操作は、その時点における最大確率値(最大尤度)を基準として、ある一定の範囲(幅)を持って、それ以下の尤度を有する単語の候補は途中で枝狩り(除外)するビームサーチが多く用いられている。しかしながら、所定時間あたりの単語数や、各単語固有の発声時間長、発話文章の単語出現位置等が考慮されていないため、不要な探索空間が多く、音声認識処理時間が増加してしまう。
また、読みの情報がある場合には、一般的には読み毎に個別のモデルとして処理する場合と、等確率で扱う場合との二通りに分けられる。しかしながら、読み毎に個別のモデルとして取り扱うと、統計データを扱うには学習データ量不足(スパースネス)の問題が生じ、言語モデルの精度が低下する。また、複数の読みを等確率で扱う場合は、単語の読み毎に異なる頻度情報が全く考慮されておらず挿入誤り等の認識精度の劣化を引き起こしてしまう場合がある。
本発明は、上述した問題点に鑑みなされたものであり、高精度な音声認識を実現するための音声認識装置及び音声認識プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、前記テキストに対して形態素解析を行う形態素解析手段と、前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することを特徴とする。
請求項1記載の発明によれば、音声と言語の相関情報を利用することができ、より学習データ中の統計量を音声認識に有効に活用することができる。つまり、相関関係確率モデル用いて高精度な音声認識を実現することができる。
請求項2に記載された発明は、前記音声認識手段は、前記認識対象の音声信号から音響特徴量を抽出し、抽出した音響特徴量と前記相関関係確率モデルと音響モデル・言語モデルとに基づいて、所定処理時間における所定数の単語列候補を選択する第1単語列探索手段を有することを特徴とする。
請求項2記載の発明によれば、相関関係確率モデルにより単語毎に探索中のビームサーチの幅を制御できるため、処理時間を制約し高速化することができる。また、逆に同一処理時間とした場合、効果的に探索空間を広げるといった処理も可能となり、より認識率の精度を向上させることができる。
請求項3に記載された発明は、前記音声認識手段は、前記第1単語列探索手段により得られる単語列候補に対して、前記相関関係確率モデルから得られる情報により単語毎に重み付けを行い、前記単語列候補における重み付けされた確率値に基づいて所定数の単語列を出力する第2単語列探索手段を有することを特徴とする。
請求項3記載の発明によれば、相関関係確率モデルから得られる頻度情報等の情報を用いて単語列の正解確率を高精度に取得することができる。
請求項4に記載された発明は、前記相関関係確率モデルには、前記学習用の音声信号の長さ毎の書き起こしテキストに含まれる平均単語数と分散、もしくは音素数の平均と分散、音素の分布、各音素の頻度平均と分散、品詞の分布と各品詞の頻度平均と分散、前記学習用の音声信号より与えられた各単語内での音素の分布、前記各単語の発話の位置情報、前記単語毎のパワーもしくはゼロクロスの平均と分散、及び前記各単語の発音区間長の平均と分散等の情報のうち、少なくとも1つを有することを特徴とする。
請求項4記載の発明によれば、上述した情報を確率モデルとして学習しておくことにより、認識結果と学習データの相関を取ることができる。これにより、学習データにおける話し方等を含めた文章らしさを数値として表現することができる。
請求項5に記載された発明は、前記第1単語列探索手段は、前記認識対象の音声信号に含まれる時間情報に基づいて、前記認識対象の音声信号に対する経過時間あたりの単語数、音素数による単語列の枝刈り、及び/又は各単語内の経過時間、音素頻度回数、ゼロクロス頻度等による単語の枝刈りを行うことを特徴とする。
請求項5記載の発明によれば、時間情報に基づいて発話の長さあたりの単語の頻度を探索条件に含めることができるため、認識対象の音声が学習データの平均に比べ、早口なのかゆっくり発話しているのかを考慮しながら枝刈り等の処理を行うことができる。
請求項6に記載された発明は、前記第1単語列探索手段は、前記相関関係確率モデルに基づいて同形異音語の確率補正を行うことを特徴とする。
請求項6記載の発明によれば、同形異音語に関して、それぞれの読みの割合(確率)を考慮して確率補正を行うことで、探索精度を向上させることができる。
請求項7に記載された発明は、前記第2単語列探索手段は、前記単語列候補に対して前記相関関係確率モデルにより得られる1文章内の単語総数、1文章内の音素総数、文章内の音素頻度分布、文章内の不要語数、文章内の相づち数、及び文章内の品詞分布のうち、少なくとも1つを用いて1文単位の単語列の探索を行うことを特徴とする。
請求項7記載の発明によれば、1文単位で単語列の探索を行うこともできるため、より認識率の精度を向上させることができる。
請求項8に記載された発明は、学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識をコンピュータに実行させるための音声認識プログラムにおいて、前記学習用の音声信号に対して音響特徴量の分析を行う音響分析処理と、前記テキストに対して形態素解析を行う形態素解析処理と、前記音響分析処理及び前記形態素解析処理の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成処理と、前記アライメント生成処理により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習処理と、前記相関関係確率学習処理により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識処理とをコンピュータに実行させる。
請求項8記載の発明によれば、相関関係確率モデル用いて高精度な音声認識を実現することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に音声認識処理を実現することができる。
本発明によれば、高精度な音声認識を実現することができる。
<本発明の概要>
本発明は、学習データから得られる音声と言語の相関関係に関する統計量を抽出して確率モデル化し、音声認識時に音響モデルと言語モデルとを組み合わせて用いることで、学習データより得られる情報をより有効に活用することができ、これにより、認識精度の向上を図るものである。
これは、今まで提案されている話速(音素の発話継続時間長)等のような物理的な値だけはなく、例えば母音と子音の比による話速の取り扱いや、文章単位の単語数、品詞頻度数、単語位置情報等を組み合わせて用いることで、より言語と音声との相関情報をモデル化して利用し、認識精度の向上を図る。
以下に、上述したような特徴を有する本発明における音声認識装置及び音声認識プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
<音声認識装置:装置構成>
図1は、本発明における音声認識装置の一構成例を示す図である。図1に示す音声認識装置1は、大別すると、学習手段10と、音声認識手段20とを有するよう構成されている。ここで、学習手段10は、音響分析手段11と、形態素解析手段12と、アライメント生成手段13と、相関関係確率モデル学習手段14とを有するよう構成されている。また、音声認識手段20は、第1単語列探索手段21と、第2単語列探索手段22とを有するよう構成されている。
なお、学習手段10による学習ステップと、音声認識手段20による音声ステップとは、別構成であってもよく、またそれぞれが単独で処理されてもよい。
図1に示す音声認識装置1は、学習ステップとして、予め設定された音声信号と、それに対応する書き起こしテキスト31から音声と言語との相関関係を示す音声・言語相関関係確率モデル32を学習する。なお、学習ステップにおける音響分析や形態素解析等を行う場合には、予め従来手法等を用いて設定されたHMM(Hidden Markov Model)等により学習された音響的特徴を有する音響モデル33、言葉のつながりを確率を使って表現された言語モデル(例えば、n−gram言語モデル等)34、単語又は語彙(単語の集合)とその発音を規定した発音辞書35等を用いてもよい。
また、音声認識装置1は、音声認識ステップとして、入力される認識対象音声信号36について、上述の学習ステップにより学習結果として得られる音声・言語相関関係確率モデル32と、予め設定される音響モデル33、言語モデル34、発音辞書35等を用いて音声認識手段20による正解単語列の探索(第1単語列探索手段21)を行い、正解単語列候補37を生成する。更に、音声認識装置1は、正解単語列候補37から確率値のリスコアリングによる単語列探索(第2単語列探索手段22)を行い、音声認識結果38を出力する。次に、学習手段10及び音声認識手段20のそれぞれにおける各処理について、図を用いて説明する。
<学習手段10>
本実施形態における学習手段10において、音響分析手段11は、学習データとして例えばニュース番組等の予め設定された音声信号と、その音声信号に対応して発話内容を文章等により書き起こした書き起こしテキスト31のうち、少なくとも音声信号を入力し、音響分析として音声の継続時間と各分析時刻のパワーを計算したり、ゼロクロス等のカウント等を行う。ここで、上述の内容について具体的に説明する。
ここで、図2は、学習データとしての音声信号の一例を示す図である。なお、図2において縦軸は音声波形の振幅を示し、横軸は時間を示している。ここで、例えば音響分析手段11における対数パワーEは、例えば以下に示す(1)式により計算される。
つまり、処理時間となる音声信号のパワーは、入力された図2に示す音声信号41を分析窓幅Nにおいてサンプリングされた音声信号Snの二乗和の対数になる。
また、音響分析手段11におけるゼロクロスの計算については、通常ゼロクロスは、図2に示す音声信号41の振幅が0レベルの軸を何回クロスするのかをカウントした値になる。つまり、図2の例では、ゼロクロスは0レベルの横軸と音声信号41の波形とが交差した点の数となる。
ここで、カウントされたゼロクロスの数値は、高域の音声(周波数)ほど振動の回数が多くなるため、その分数値が増加し、また低い音声ほど振動の回数が少なくなるため、その分数値が減少する。なお、ゼロクロスの数値については、分析窓幅に比例してカウントする音声波形の長さが異なる。
また、音響分析手段11は、音響分析として、入力した音声信号から通常の音声認識手法で用いられる音響特徴量も抽出する。なお、この音響特徴量としては、例えばMFCC(Mel−Frequency Cepstrum Coefficients)等のような声道の形状を数値化した特徴量や、韻律(ピッチ、抑揚等)等の特徴量、またそれらの特徴量の平均値や分散等の統計的情報を分析する。音響分析手段11は、取得した音響分析結果等をアライメント生成手段13及び相関関係確率モデル学習手段14に出力する。
また、形態素解析手段12は、予め設定された音声信号と、それに対応する書き起こしテキスト31のうち、少なくとも書き起こしテキストを入力し、入力したテキストに対して発音、単語分割、品詞分類等の形態素解析を行う。形態素解析手段12は、取得した形態素解析結果をアライメント生成手段13及び相関関係確率モデル学習手段14に出力する。
アライメント生成手段13は、音響分析手段11により得られる音響分析結果と、形態素解析手段12により得られる形態素解析結果とに基づいて、音声信号と単語又は音素等との対応関係を生成する。なお、対応関係は、音響分析手段11の出力と形態素解析手段12により得られる単語との対応関係を、音響モデル33、言語モデル34、発音辞書35を用いて設定を行う。これにより、発話内容等の音声信号とそれに対応するテキストとの間でアライメントを取ることができる。
つまり、アライメント生成手段13は、音声信号中のどの時間帯(例えば、何秒から何秒まで等といった時間)にどのような単語が音声として出力されているか等、音声、文字、及び時間のそれぞれの対応関係を設定する。アライメント生成手段13は、アライメント結果を相関関係確率モデル学習手段14に出力する。
相関関係確率モデル学習手段14は、音響分析手段11、形態素解析手段12、アライメント生成手段13によりそれぞれ得られた結果を用いて、入力音声信号と言語との相関関係確率モデルを学習する。
なお、本実施形態において学習するモデルにおける音声と言語との相関関係としては、例えば以下に示す(a)〜(i)等のうち、何れか1つの情報を含む。
(a)学習音声(学習用の音声信号)の長さ(1文章)毎の書き起こしテキストに含まれる単語数の平均と分散
(b)学習音声の長さ毎の書き起こしテキストに含まれる音素数の平均と分散
(c)学習音声の長さ毎の音素の分布(ヒストグラム)と各音素の頻度平均と分散
(d)品詞の分布(ヒストグラム)と各品詞の頻度平均と分散
(e)学習音声より与えられた各単語内での音素(頻度)の分布(ヒストグラム)
(f)学習音声より与えられた各単語の発話の位置情報(発話文書中で単語の発話された位置に関する平均と分散、単語出現位置のヒストグラム)
(g)学習音声の単語毎のパワーの平均と分散
(h)学習音声の単語毎のゼロクロスの平均と分散
(i)学習音声より与えられた各単語の発音区間長(発話継続時間長)の平均と分散
また、相関関係確率モデル学習手段14において学習するモデルに含まれる情報としては上述した内容に限定されるものではなく、例えば以下に示す(j)〜(m)等も含めることができる。
(j)相づちの学習音声の長さ毎の分布(ヒストグラム)
(k)不要語の学習音声の長さ毎の分布(ヒストグラム)
(l)発話者の入れ替わりの学習音声の長さ毎の分布(ヒストグラム)
(m)それぞれの単語が含まれる学習音声の長さの分布(ヒストグラム)を含めることもできる。
相関関係確率モデル学習手段14は、上述した情報を含む音声・言語相関確率モデル32を生成して出力する。出力された音声・言語相関確率モデル32は、蓄積手段等に蓄積される。ここで、音声・言語確率相関関係確率モデル32に含まれる項目の幾つかについて、更に具体的に説明する。
図3は、音声・言語相関関係確率モデルの単語・音素の統計量について説明するための一例の図である。なお、図3(A)は所定の書き起こしテキストに含まれる出現単語数の平均と分散についての一例を示す図であり、図3(B)は所定の書き起こしテキストに含まれる音素数の平均と分散についての一例を示す図である。なお、図3は、上述した相関関係の(a),(b)の情報に対応している。
ここで、図3(A)、(B)における左側のグラフは、それぞれ経過時間あたりの単語(図3(A))と音素(図3(B))の平均出現数を示しており、右側のグラフがそれぞれ単語(図3(A))と音素(図3(B))の分散を示している。
図3に示すような、統計量をモデルに含めることで、例えば音声認識における単語接続候補をリストアップする場合に、そのモデルを用いて単語の出現数や音素の出現数より所定処理時間毎の確率値等を求めることで、候補を高精度に選択することができる。
また、図4は、音素分布による話速の比較の一例を示す図である。なお、図4は、上述した相関関係の(c),(d)の情報に対応している。ここで、話速は、単語や音素の頻度情報と相関があるため、認識にとって重要な情報である。
したがって、まず話速が速くなると母音の継続時間長が短くなる特性を利用し、図4(A)に示すように学習データから得られる母音と子音の正規化したヒストグラムにより母音と子音の比(母音/子音)をαとし、そのαを認識対象音声の母音と子音の比と比べることで話速が速いのか遅いのかを表現することができる。
例えば、図4(B)の場合は、認識対象音声の母音対子音の比がαよりも小さい((母音/子音)<α)ため、学習音声に比べて話速が速いことがわかり、また文章内の単語数や音素数が平均より多いことがわかる。同様に、図4(C)の場合は、母音対子音の比がαよりも大きい((母音/子音)>α)ため、学習音声に比べて話速が遅いことがわかり、また文章内の単語数や音素数が平均より少ないことがわかる。
また、図5は、音素頻度分布による単語毎の最もらしさの確率について説明するための図である。なお、図5は、上述した相関関係の(e)の情報に対応している。ここで、単語の最もらしさは、学習データのヒストグラムと認識時のヒストグラムの類似度を数値化することで取得することができる。
例えば、図5に示すように、単語『次』(読み「つぎ」(tugi))について、学習データにより図5(A)に示すような正規化したヒストグラム(音素の頻度分布)が得られたとする。ここで、音声認識時の単語『次』の正規化したヒストグラムが図5(B)のようになった場合、単語独自の確率を図5(A)の頻度分布より計算する。つまり、音素頻度を正規化し、図5(A)に示す音素毎の頻度の差の絶対値を取得する。また、取得した差を単語で足し合わせて1から引くことで、単語の最もらしさを取得することができる。
例えば、図5(B)の場合には、単語の最もらしさは図5(A)の頻度分布を用いて「1−(|i(0.4)−0.4|+|u(0.4)−0.3|+|g(0.1)−0.2|+|t(0.1)−0.1|)=0.8」と算出することができる。
また同様に、図5(C)の場合には、単語の最もらしさは「1−|(i(0.4)−0.4|+|u(0.1)−0.3|+|g(0.1)−0.2|+|t(0.4)−0.1|)=0.4」と算出することができる。このように、単語の最もらしさを確率で表現して音声認識時に利用することで、認識性能を向上させることができる。
また、図6は、同形異音語の確率分配と単語位置確率について説明するための図である。なお、図6は、上述した相関関係の(f)の情報に対応している。ここで、確率分配の例として、単語『今日』(読み「きょう」(kyo:)、「こんにち」(koNnichi))を例にする。
また、図6の例では、単語の音素ヒストグラムを用いて、読み毎に対応する音素のヒストグラム頻度の和を音素数で正規化した値を求める。この読み毎に求めた値の比にしたがって確率値1を分配する。
例えば、図6(A)に示すヒストグラムの場合は、(きょう:こんにち)の確率が1:1であるため、上述した確率値1を分配すると、確率分配は0.5:0.5になる。このとき、例えば30回単語『今日』が出現した時の音素頻度が図6(B)に示すヒストグラムの場合には、(きょう:こんにち)の確率が20:10=2:1であるため、確率分配は0.667:0.333となる。
また、図6(C)に示す単語位置確率の実施例では、『今日』の単語出現位置ヒストグラムより、各出現位置でのヒストグラム頻度の割合を用いる。したがって、図6(C)の例によれば、単語『今日』が文頭から2単語目に出現する確率は、出現回数30回のうち、2回目に出現した回数が8回であるため、単語位置確率は8/30=約0.267と算出することができる。
また、図7は、学習音声の音響分析手段より得られる単語毎の対数パワー及びゼロクロスの頻度分布の一例を示す図である。なお、図7は、上述した相関関係の(g)、(h)の情報に対応している。
まず、図7(A)は、対数パワーの頻度分布を利用した例を示している。学習データより単語『そと』と『そっと』の対数パワーの頻度分布が図7(A)に示すように得られたとする。ここで、単語『そと:soto』及び『そっと:soQto』は共に、音響的にはほぼ同じで小休止の音素『っ:Q』があるかないかの違いだけである。
なお、小休止区間は無音と同等で、信号がなく対数パワーが低いため、単語毎の対数パワーで比較すれば、図7(A)に示すように『そと』と『そっと』の分布は異なる。したがって、この分布をモデルに含めて利用することで『そと』及び『そっと』を対数パワーで比較することができ、認識精度を向上させることができる。
また、図7(B)は、ゼロクロスの頻度分布を利用した例を示している。ここで、一般にゼロクロスは、摩擦性の音素『さ』『し』『す』『せ』『そ』等に多い特徴がある。したがって、ゼロクロスをカウントした情報等をモデルに含めることで、例えば図7(B)に示すように学習データより『来た』と『した』の各単語のゼロクロスの頻度分布が得られた場合、音声認識時に『来た』であるか『した』であるかをゼロクロスの値を使って比較することができる。これにより、認識精度を向上させることができる。
上述したような情報のうち、少なくとも1つを音声・言語相関関係確率モデル32と含めることで、認識時にこのモデルを用いることで高精度且つ迅速に音声認識を実現することができる。
<音声認識手段20>
次に、音声認識手段20についての機能構成について、具体的に説明する。音声認識手段20の第1単語列探索手段21は、上述した音声・言語相関関係確率モデル32、音響モデル33、言語モデル34、及び発音辞書35を入力し、認識対象音声信号36の入力に対して例えば上述した音響分析手段21で行ったような音響特徴量の抽出を行い、抽出した特徴量等から正解単語の探索を行う。
更に具体的に説明すると、第1単語列探索手段21は、音声・言語相関確率モデル32を用いて探索空間の枝刈り、探索中の言語モデルの確率値の補正等を行う。
正解単語探索空間の枝刈りでは、通常の尤度を基にしたビームサーチに加えて、音声・言語相関確率モデル32における所定処理時刻での平均単語数と平均音素数を用いて、標準偏差σを基準に、例えばK(Kは、2、3等の定数)σ以上離れたものを枝刈りする。また、第1単語列探索手段21は、単語毎にそれぞれの対数パワー、ゼロクロス、継続処理時間等の平均等から時間的なプラスの方向にKσ以上離れているアクティブなノードの枝刈りを行う。
つまり、第1単語列探索手段21は、認識対象音声信号36の時間長に基づいて、経過時間あたりの単語数、音素数による単語列の枝刈り、及び/又は各単語内の経過時間、音素頻度回数、ゼロクロス頻度等による単語の枝刈りを行う。
これにより、時間長に基づいて発話の長さあたりの単語の頻度を探索条件に含めることができるため、認識対象の音声が学習データの平均に比べ、早口なのかゆっくり発話しているのかを考慮しながら枝刈り等の処理を行うことができる。
また、探索中の言語モデルの確率値の補正では、まず音声・言語相関確率モデル32を用いて、処理時刻毎に単語位置情報確率と平均単語数確率、平均音素数確率の値の積で補正し、更に対象の単語が同形異音語である場合には、各単語の発音と音素ヒストグラムの割合によって常に確率値を分配する。このように、同形異音語に関して、それぞれの読みの割合(確率)を考慮して確率補正を行うことで、探索精度を向上させることができる。
また、第1単語列探索手段21は、探索の結果として例えば得られる解として尤度の高いものを予め設定される所定数(例えば、上位N位まで)を選択し、得られたNベスト(N−best)探索結果の文章を正解単語列候補37として出力する。
第2単語列探索手段22は、第1単語列探索手段21により得られた正解単語列候補37から言語モデル34と音声・言語相関関係確率モデル32とを用いて正解単語列候補37の各単語毎の確率値に重み付けを行ってリスコアリングした確率値の結果から所定数(0以上)の正解単語列を音声認識結果38として出力する。例えば、正解単語列の確率値が所定値以下の場合は、単語列を出力せず、所定値より大きい場合は、確率値が最大の単語列、上位N位までの単語列、又は確率値が所定値より大きい全ての単語列を出力する。
なお、第2単語列探索手段22は、リスコアリングの際、選択された単語列候補から単語毎に各確率モデル(発音辞書35を含む)等に含まれる処理時間、単語出現位置、読み等により確率値を取得し、音響モデル33との類似性を示す音の類似確率を取得し、取得した値を用いて確率値に重み付けを行いリスコアリングすることもできる。
なお、音声認識時において、音響モデル33は、音素や音節の周波数パターンを保持し、主に入力音声とマッチングを行う。また、言語モデル34は、単語間の連鎖が規定されている。更に、発音辞書35を用いる場合は、認識対象の語彙(=単語の集合)とその発音が規定されているため、ここで規定されているもののみがマッチングの対象となる。
ここで、第2単語列探索手段22は、上述したリスコアリングにあたり、例えば音声・言語相関関係確率モデル32により認識対象音声信号36に対応した1文章内の単語総数、1文章内の音素総数、文章内の音素頻度分布、文章内の不要語数、文章内の相づち数、文章内の品詞分布のそれぞれの確率値等を計算し、同時に各単語単位で例えば単語発話経過時間、対数パワー、ゼロクロス、発話位置、音素頻度分布等の確率を計算し、言語モデル34の確率値と合計して1文単位の確率値を計算して、その値に基づいて正解単語列を選択してもよい。これにより、1文単位で単語列の探索を行うこともできるため、より認識率の精度を向上させることができる。
<音声認識の具体例>
ここで、本実施形態における音声認識の具体例について説明する。なお、以下の説明では、本実施形態における音声認識の一例として『今日』の発話位置統計量を利用した音声認識例について説明する。図8は、単語位置情報の一例を示す図である。
図8では、単語『今日』が100回出現した時の学習データの各文章において、単語『今日』が何単語目に出現したかの割合(出現頻度)を示している。例えば、上述した情報を利用することによって、第1単語列探索手段21における出力単語列が”『ランチ』『の』『カレー』『ニラ』『今日』『は』『かかせ』『ない』”となった場合、単語『今日』の出現位置は5単語目であり、図8に示す出現頻度の確率値は0.04である。
したがって、この出現位置確率を第2単語列探索手段22における計算に加えてリスコアリングすることにより、例えば、第1単語列探索手段21における他の単語列の”『ランチ』『の』『カレー』『に』『ラッキョウ』『は』『かかせ』『ない』”の確率が相対的に上昇することになり、結果として、より高精度な正解単語列を音声認識結果として出力することができる。
また、逆に、例えば”『京』『は』『晴れて』『気温』『も』『上昇』『する』『見込み』『です』”のような単語列の場合は、文頭単語『京』よりも、単語『今日』の方が、文頭での出現頻度が多い。そのため、単語列”『今日』『は』『晴れて』『気温』『も』『上昇』『する』『見込み』『です』”を正解単語列の文章として出力させることができる。
次に、上述した図7に示すように対数パワーやゼロクロスの頻度分布を利用して音声認識を考える。例えば、単語列”『散歩』『に』『来た』『から』『に』『は』”と単語列”『散歩』『に』『した』『から』『に』『は』”とが、第1単語列探索手段21で正解単語列候補として出力されたとする。このとき、どちらの単語列も単語の連鎖性の観点から判断すればあり得る文章であるが、各比較対象単語の対数パワーやゼロクロスの頻度分布を比較し、単語『した』の方がより学習データに近く最もらしい場合には、単語列”『散歩』『に』『した』『から』『に』『は』”を正解として出力することができる。
上述したように、本実施形態を用いることにより、高精度な音声認識を実現することができる。また、処理時間を短縮させた音声認識を実現することができる。つまり、学習手段21により音声・言語相関関係確率モデル32を学習により求めることで、音声と言語の相関情報を利用することができ、より学習データ中の統計量を音声認識に有効に活用することができる。また、音声・言語相関関係確率モデル32によって、認識結果と学習データの相関を取ることができるため、学習データにおける話し方等を含めた文章らしさを数値として表現することができる。
具体的には、第1単語列探索手段21において、単語列候補の数を設定する等の処理により、単語毎に探索中のビームサーチの幅を制御することができるため、認識処理時間を制約し高速化することができ、逆に同一処理時間における探索(対象)空間を広げるといった処理が可能となり、より認識率の精度を向上させることができる。また、第1単語列探索手段21において、発話の長さあたりの単語の頻度を探索条件に含めることができるため、認識対象音声が学習データの平均に比べ、早口なのかゆっくり発話しているのかを考慮しながら、動的に音素による枝刈りや確率値の補正等を行うことができる。
また、第2単語列探索手段22において、品詞の割合を考慮することで、発話が1単語の場合には挨拶や相づち等であることが効果的に表現できる。また、発話が長い文章では、文法的な制約の一部を取り入れることができる。また、第2単語列探索手段22において、1文単位の音素ヒストグラムの母音と子音の比を比較することにより、学習データの平均話速と比べて話速が速いのか遅いのかをある程度表現することができる。
また、第1単語列探索手段21や第2単語列探索手段22において、同形異音語に対して、それぞれの読みの割合(確率)を考慮して確率補正を行うことで、探索精度を向上させることができる。更に、第1単語列探索手段21や第2単語列探索手段22において、学習音声の継続時間を考慮した言語モデルの連鎖確率を表現することができる。また、単語毎の音素の頻度等を用いることで、単語発声の特徴を確率値として反映することができる。したがって、第1単語列探索手段21では単語内での音素の継続時間の割合等で認識誤りを枝狩りすることができる。また、第2単語列探索手段22では、単語の位置情報等を考慮して1文毎の高精度に表現することができる。つまり、1文単位で単語列の探索を行うことで、より認識率の精度を向上させることができる。
<実行プログラム>
ここで、上述した音声認識装置1は、上述した専用の装置構成等を用いて本発明における音声認識処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラム(音声認識プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る音声認識処理を実現することができる。
<ハードウェア構成>
ここで、本発明における音声認識処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図9は、本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。
図9におけるコンピュータ本体には、入力装置51と、出力装置52と、ドライブ装置53と、補助記憶装置54と、メモリ装置55と、各種制御を行うCPU(Central Processing Unit)56と、ネットワーク接続装置57とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置51は、ユーザが操作するキーボード及びマウス等のポインティングデバイスやマイク等の音声入力デバイス等を有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置52は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイや音声を出力するスピーカ等を有し、CPU56が有する制御プログラムによりプログラムの実行経過や結果等を表示又は音声出力することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えばCD−ROM等の記録媒体58等により提供される。プログラムを記録した記録媒体58は、ドライブ装置53にセット可能であり、記録媒体58に含まれる実行プログラムが、記録媒体58からドライブ装置53を介して補助記憶装置54にインストールされる。
補助記憶装置54は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
メモリ装置55は、CPU56により補助記憶装置54から読み出された実行プログラム等を格納する。なお、メモリ装置55は、ROM(Read Only Memory)やRAM(Random Access Memory)等からなる。
CPU56は、OS(Operating System)等の制御プログラム、メモリ装置55に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現することができる。また、CPU56は、プログラムの実行中に必要な各種情報を補助記憶装置54から取得することができ、またCPU56は、処理結果等を格納することもできる。
ネットワーク接続装置57は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで効率的に音声認識処理を実現することができる。また、プログラムをインストールすることにより、音声認識処理を容易に実現することができる。
<音声認識処理手順>
次に、本発明における実行プログラム(音声認識プログラム)を用いた音声認識処理手順についてフローチャートを用いて説明する。図10は、音声認識処理手順の一例を示すフローチャートである。
図10において、まず学習データとして、音声信号と、それに対応する書き起こしテキストを入力する(S01)。次に、S01にて入力した音声信号と、予め設定された音響モデル及び発音辞書等を用いて音響分析を行う(S02)。次に、S01にて入力した書き起こしテキストと、予め設定された言語モデル等を用いて形態素解析を行う(S03)。
更に、S02及びS03にて得られた結果からアライメント生成を行う(S04)。なお、アライメント生成は、例えば音声信号中のどの時間帯(例えば、何秒から何秒まで等といった時間)にどのような単語が音声として出力されているか等の音声、文字、及び時間のそれぞれの対応関係を設定する。
また、S04におけるアライメント結果と、S02における音響分析結果と、S03における形態素解析結果とに基づいて、上述したように相関関係確率モデルの学習を行い(S05)、音声と言語の相関関係確率モデルを蓄積する(S06)。
なお、上述したS01〜S06の処理は学習ステップとして、S07〜S13に示す音声認識ステップの前に処理されるが、音声認識時に必ず行わなくてもよく、それぞれが単独で処理が行われてもよい。
次に、音声認識ステップでは、認識対象の音声信号を入力し(S07)、入力した音声信号に対して音響特徴量を抽出する(S08)。また、抽出された音響特徴量から音声・言語相関関係確率モデルや、言語モデル、音響モデル、発音辞書等の各確率モデル等とマッチング(照合)を行い、所定処理時間(数秒〜数分)における単語列候補を選択する(S09)。
次に、選択された単語列候補から単語毎に音響モデル等の各確率モデルに含まれる処理時間、単語出現位置、読み等により、確率値を取得し(S10)、モデルとの類似性を示す音の類似確率を取得する(S11)。更に、単語の音素分布等を取得し(S12)、音声・言語相関関係確率モデルから得られる単語頻度、音素頻度、話速等の情報により確率値に重みを付加してリスコアリングを行い、その確率値が所定の条件を満たす単語列(例えば、最大となる単語列)を音声認識結果(正解単語列)として出力する(S13)。
このように、音声認識プログラムを用いた音声認識処理により、迅速且つ高精度に音声認識を実現することができる。また、プログラムをインストールすることにより、容易に音声認識処理を実現することができる。
<音声認識処理動作例>
図11は、音声・言語相関関係確率モデルを用いた音声認識の動作例を示す図である。図11では、上述した音声・言語相関関係確率モデルと言語モデルに含まれる単語連鎖確率とを利用してリストアップされた候補単語に対し、入力音声との照合を行い、例えば最も尤度が高い単語列(図11においては、形態素間において確率の積が最大の経路)を正解単語列として出力する音声認識の動作例を示す図である。
具体的に説明すると、まず「つぎのニュースです」という入力音声信号61に対して音響分析62を行い、音響特徴量等を取得する。予め設定される言語モデル(単語出現頻度、単語接続情報等を含む)63と、上述した音声・言語相関関係確率モデル64を用いて音素の出現頻度等を考慮した単語のリストアップを行う。
次に、上述した同形異音語の確率分配や単語出現位置による確率値等を用いて重み付けを行い、確率値のリスコアリングを行う。具体的には、図11において、例えば上述した図6に示す音声・言語相関関係確率モデルの情報を用いて、単語『今日』が文頭から2単語目に出現する単語位置確率0.267、同形異音語の確率分配値『今日(きょう)』=0.667、及び『今日(こんにち)』=0.333を重みとして言語モデル63から得られる正解単語列候補の該当する連鎖確率値に付加(乗算等)する。
また、入力音声信号61中の処理時間の単語と、予め設定される言語モデル(単語出現頻度、単語接続情報等を含む)63から得られる発音情報(例えば、「tsugi」)65とについて、音響モデル66によるHMM等を用いた照合67を行い、音の類似確率(図11では、0.4)を求め、この確率値も重みとして該当する連鎖確率値に付加(乗算等)する。上述したように重み付けを行った後、確率値のリスコアリングを行う。
また、音声認識時には、音声・言語相関関係確率モデル64を用いて枝刈り処理を行うことができる。例えば、上述した図5に示すように単語内の音素頻度分布等を用いて単語の枝刈りをしたり、上述した図3等に示すように所定処理時間あたりの音声の長さと事前に学習した単語・音素の平均と分散等を用いることにより連結する単語の枝刈りをすることができる。このように、音声と言語の相関関係を積極的に利用することで、より音声認識の精度を向上させることができる。
上述したように本発明によれば、高精度な音声認識を実現することができる。具体的には、音声・言語相関関係確率モデルを学習により求めることで、音声と言語の相関情報を利用することができ、より学習データ中の統計量を音声認識に有効に活用することができる。また、音声・言語相関関係確率モデルによって、認識結果と学習データの相関をとることができるため、学習データにおける話し方等を含めた文章らしさを数値として表現することができる。
また、本発明は、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における音声認識装置の一構成例を示す図である。 学習データとしての音声信号の一例を示す図である。 音声・言語相関関係確率モデルの単語・音素の統計量について説明するための一例の図である。 音素分布による話速の比較の一例を示す図である。 音素頻度分布による単語毎の最もらしさの確率について説明するための図である。 同形異音語の確率分配と単語位置確率について説明するための図である。 学習音声の音響分析手段より得られる単語毎の対数パワー及びゼロクロスの頻度分布の一例を示す図である。 単語位置情報の一例を示す図である。 本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。 音声認識処理手順の一例を示すフローチャートである。 音声・言語相関関係確率モデルを用いた音声認識の動作例を示す図である。
符号の説明
1 音声認識装置
10 学習手段
11 音響分析手段
12 形態素解析手段
13 アライメント生成手段
14 相関関係確率モデル学習手段
20 音声認識手段
21 第1単語列探索手段
22 第2単語列探索手段
31 音声信号と、それに対応する書き起こしテキスト
32,64 音声・言語相関関係確率モデル
33,66 音響モデル
34,63 言語モデル
35 発音辞書
36 認識対象音声信号
37 正解単語列候補
38 音声認識結果
41 音声信号
51 入力装置
52 出力装置
53 ドライブ装置
54 補助記憶装置
55 メモリ装置
56 CPU
57 ネットワーク接続装置
58 記録媒体
61 入力音声信号
62 音響分析
65 発音情報
67 照合
68 領域

Claims (8)

  1. 学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、
    前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、
    前記テキストに対して形態素解析を行う形態素解析手段と、
    前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、
    前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、
    前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することを特徴とする音声認識装置。
  2. 前記音声認識手段は、
    前記認識対象の音声信号から音響特徴量を抽出し、抽出した音響特徴量と前記相関関係確率モデルと音響モデル・言語モデルとに基づいて、所定処理時間における所定数の単語列候補を選択する第1単語列探索手段を有することを特徴とする請求項1に記載の音声認識装置。
  3. 前記音声認識手段は、
    前記第1単語列探索手段により得られる単語列候補に対して、前記相関関係確率モデルから得られる情報により単語毎に重み付けを行い、前記単語列候補における重み付けされた確率値に基づいて所定数の単語列を出力する第2単語列探索手段を有することを特徴とする請求項2に記載の音声認識装置。
  4. 前記相関関係確率モデルには、
    前記学習用の音声信号の長さ毎の書き起こしテキストに含まれる平均単語数と分散、もしくは音素数の平均と分散、音素の分布、各音素の頻度平均と分散、品詞の分布と各品詞の頻度平均と分散、前記学習用の音声信号より与えられた各単語内での音素の分布、前記各単語の発話の位置情報、前記単語毎のパワーもしくはゼロクロスの平均と分散、及び前記各単語の発音区間長の平均と分散等の情報のうち、少なくとも1つを有することを特徴とする請求項1乃至3の何れか1項に記載の音声認識装置。
  5. 前記第1単語列探索手段は、
    前記認識対象の音声信号に含まれる時間情報に基づいて、前記認識対象の音声信号に対する経過時間あたりの単語数、音素数による単語列の枝刈り、及び/又は各単語内の経過時間、音素頻度回数、ゼロクロス頻度等による単語の枝刈りを行うことを特徴とする請求項2に記載の音声認識装置。
  6. 前記第1単語列探索手段は、
    前記相関関係確率モデルに基づいて同形異音語の確率補正を行うことを特徴とする請求項2に記載の音声認識装置。
  7. 前記第2単語列探索手段は、
    前記単語列候補に対して前記相関関係確率モデルにより得られる1文章内の単語総数、1文章内の音素総数、文章内の音素頻度分布、文章内の不要語数、文章内の相づち数、及び文章内の品詞分布のうち、少なくとも1つを用いて1文単位の単語列の探索を行うことを特徴とする請求項3に記載の音声認識装置。
  8. 学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識をコンピュータに実行させるための音声認識プログラムにおいて、
    前記学習用の音声信号に対して音響特徴量の分析を行う音響分析処理と、
    前記テキストに対して形態素解析を行う形態素解析処理と、
    前記音響分析処理及び前記形態素解析処理の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成処理と、
    前記アライメント生成処理により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習処理と、
    前記相関関係確率学習処理により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識処理とをコンピュータに実行させるための音声認識プログラム。
JP2007011422A 2007-01-22 2007-01-22 音声認識装置及び音声認識プログラム Expired - Fee Related JP4758919B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007011422A JP4758919B2 (ja) 2007-01-22 2007-01-22 音声認識装置及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007011422A JP4758919B2 (ja) 2007-01-22 2007-01-22 音声認識装置及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2008176202A true JP2008176202A (ja) 2008-07-31
JP4758919B2 JP4758919B2 (ja) 2011-08-31

Family

ID=39703251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007011422A Expired - Fee Related JP4758919B2 (ja) 2007-01-22 2007-01-22 音声認識装置及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4758919B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013125119A (ja) * 2011-12-14 2013-06-24 Mitsubishi Electric Corp 音声認識装置および音声認識方法
JP2014524599A (ja) * 2011-08-24 2014-09-22 センソリー・インコーポレイテッド 音声認識システムにおいて、誤った肯定を低減すること
JP2014215396A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 発音付与方法とその装置とプログラム
JP2014219569A (ja) * 2013-05-08 2014-11-20 日本放送協会 辞書作成装置、及び辞書作成プログラム
CN110164445A (zh) * 2018-02-13 2019-08-23 阿里巴巴集团控股有限公司 语音识别方法、装置、设备及计算机存储介质
CN112397059A (zh) * 2020-11-10 2021-02-23 武汉天有科技有限公司 一种语音流畅度检测方法及装置
WO2023149644A1 (ko) * 2022-02-03 2023-08-10 삼성전자주식회사 전자 장치 및 사용자 언어 모델 생성 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JPH10171806A (ja) * 1996-12-13 1998-06-26 Nec Corp 語義曖昧性解消装置及び方法
JP2000267693A (ja) * 1999-03-12 2000-09-29 Fuji Xerox Co Ltd 音声処理装置及び索引作成装置
JP2003345388A (ja) * 2002-05-23 2003-12-03 Nec Corp 音声認識装置、音声認識方法、および、音声認識プログラム
JP2004198832A (ja) * 2002-12-19 2004-07-15 Nissan Motor Co Ltd 音声認識装置
JP2006011257A (ja) * 2004-06-29 2006-01-12 Canon Inc 音声認識装置および方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JPH10171806A (ja) * 1996-12-13 1998-06-26 Nec Corp 語義曖昧性解消装置及び方法
JP2000267693A (ja) * 1999-03-12 2000-09-29 Fuji Xerox Co Ltd 音声処理装置及び索引作成装置
JP2003345388A (ja) * 2002-05-23 2003-12-03 Nec Corp 音声認識装置、音声認識方法、および、音声認識プログラム
JP2004198832A (ja) * 2002-12-19 2004-07-15 Nissan Motor Co Ltd 音声認識装置
JP2006011257A (ja) * 2004-06-29 2006-01-12 Canon Inc 音声認識装置および方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524599A (ja) * 2011-08-24 2014-09-22 センソリー・インコーポレイテッド 音声認識システムにおいて、誤った肯定を低減すること
JP2013125119A (ja) * 2011-12-14 2013-06-24 Mitsubishi Electric Corp 音声認識装置および音声認識方法
JP2014215396A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 発音付与方法とその装置とプログラム
JP2014219569A (ja) * 2013-05-08 2014-11-20 日本放送協会 辞書作成装置、及び辞書作成プログラム
CN110164445A (zh) * 2018-02-13 2019-08-23 阿里巴巴集团控股有限公司 语音识别方法、装置、设备及计算机存储介质
CN110164445B (zh) * 2018-02-13 2023-06-16 阿里巴巴集团控股有限公司 语音识别方法、装置、设备及计算机存储介质
CN112397059A (zh) * 2020-11-10 2021-02-23 武汉天有科技有限公司 一种语音流畅度检测方法及装置
CN112397059B (zh) * 2020-11-10 2024-02-06 武汉天有科技有限公司 一种语音流畅度检测方法及装置
WO2023149644A1 (ko) * 2022-02-03 2023-08-10 삼성전자주식회사 전자 장치 및 사용자 언어 모델 생성 방법

Also Published As

Publication number Publication date
JP4758919B2 (ja) 2011-08-31

Similar Documents

Publication Publication Date Title
US6212498B1 (en) Enrollment in speech recognition
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones.
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US20090258333A1 (en) Spoken language learning systems
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
US20070239444A1 (en) Voice signal perturbation for speech recognition
US20060129392A1 (en) Method for extracting feature vectors for speech recognition
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Badenhorst et al. Collecting and evaluating speech recognition corpora for 11 South African languages
Mary et al. Searching speech databases: features, techniques and evaluation measures
Zhang et al. Improved mandarin keyword spotting using confusion garbage model
CN111078937B (zh) 语音信息检索方法、装置、设备和计算机可读存储介质
Gruhn et al. Automatic speech recognition
JP2011180308A (ja) 音声認識装置及び記録媒体
Mon et al. Building HMM-SGMM continuous automatic speech recognition on Myanmar Web news
Soe et al. Syllable-based speech recognition system for Myanmar
Mandal et al. Word boundary detection based on suprasegmental features: A case study on Bangla speech
Gabriel Automatic speech recognition in somali
Žgank et al. Slovenian spontaneous speech recognition and acoustic modeling of filled pauses and onomatopoeas

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110603

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees