JP5282737B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP5282737B2
JP5282737B2 JP2009529074A JP2009529074A JP5282737B2 JP 5282737 B2 JP5282737 B2 JP 5282737B2 JP 2009529074 A JP2009529074 A JP 2009529074A JP 2009529074 A JP2009529074 A JP 2009529074A JP 5282737 B2 JP5282737 B2 JP 5282737B2
Authority
JP
Japan
Prior art keywords
word
speech recognition
section
prosodic
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009529074A
Other languages
English (en)
Other versions
JPWO2009025356A1 (ja
Inventor
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009529074A priority Critical patent/JP5282737B2/ja
Publication of JPWO2009025356A1 publication Critical patent/JPWO2009025356A1/ja
Application granted granted Critical
Publication of JP5282737B2 publication Critical patent/JP5282737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、音声認識技術に関し、より具体的には、トーン(声調)などの韻律を用いる言語に対する音声認識技術に関する。
韻律を用いる言語としては、様々な言語があり、例えば、中国語などにおいては、トーンと呼ばれる韻律が用いられる。トーンは、意味の区別のために用いられる音の高低のパターンであり、主に母音において、上昇調、下降調など特有のトーンが存在する。従って、中国語などの音声認識においては、トーンの認識が重要となる。
トーンを利用した音声認識技術としては、特許第3162994号(文献1)に開示された技術が知られている。この文献1に記載されている中国語音声認識技術は、音節を前半部分と後半部分とに分割し、音節の後半部分のみをトーンに対応付け、対応付けたトーンを用いて音声認識を行っている。この技術によれば、トーンを利用して音声認識を行うので、トーンを利用しない場合に比較して声調音声の認識精度を高いものにすることができる。
しかし、文献1の技術では、音節を前半部分と後半部分とに分割するだけであるため、後半部分に子音が存在する可能性がある。従って、声調が存在しない子音に対してもトーン認識が行われる場合があり、このような場合、トーン認識結果が不正確なものとなり、音声認識精度が低下してしまうおそれがある。
本発明の目的は、トーン等の韻律を有する言語に対する音声認識精度を向上させることにある。
本発明にかかる音声認識装置は、入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力すると共に、入力音声の認識結果が単語仮説であるとした場合の、入力音声における韻律区間とその韻律ラベルとを出力する単語サーチ手段と、入力音声の特徴量の内の、単語サーチ手段から出力された韻律区間に対応する特徴量に基づいて、単語サーチ手段から出力された韻律ラベルに対する確からしさを示す第2のスコアを出力する韻律認識手段と、韻律認識手段から出力された第2のスコアを用いて、単語サーチ手段から出力された単語仮説に対する第1のスコアを補正するリスコア手段とを備える。
本発明にかかる音声認識方法は、入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力すると共に、入力音声の認識結果が単語仮説であるとした場合の、入力音声における韻律区間とその韻律ラベルとを出力するステップと、入力音声の特徴量の内の、出力された韻律区間に対応する特徴量に基づいて、出力された韻律ラベルに対する確からしさを示す第2のスコアを出力するステップと、出力された第2のスコアを用いて、出力された単語仮説に対する第1のスコアを補正するステップとを備える。
本発明によれば、トーン等の韻律を有する言語に対する音声認識精度を高いものにすることができる。
図1は、本発明にかかる音声認識装置の第1の実施形態の全体構成例を示すブロック図である。 図2は、第1の実施形態の動作の一例を示すフローチャートである。 図3は、第1の実施形態の実施例を示すブロック図である。 図4Aおよび図4Bは、単語の一例を示す図である。 図5は、単語辞書の内容例を示す図である。 図6は、第1の実施形態の実施例の動作を説明するための図である。 図7は、トーンのモデル化方法を説明するための図である。 図8は、本発明にかかる音声認識装置の第2の実施形態のブロック図である。 図9は、第2の実施形態の実施例の全体構成例を示すブロック図である。 図10Aおよび図10Bは、連続単語の一例を示すブロック図である。 図11は、第2の実施形態の実施例の動作を説明するための図である。 図12は、本発明にかかる音声認識装置の第3の実施形態のブロック図である。
次に、本発明の実施形態について図面を参照して詳細に説明する。
〔本発明の第1の実施形態〕
本発明にかかる音声認識装置の第1の実施形態について説明する。
〔本発明の第1の実施形態の構成の説明〕
図1は本発明にかかる音声認識装置の第1の実施形態の全体構成例を示したブロック図である。
同図を参照すると、音声認識装置1は、音素をモデル化した音素モデルが登録された音素モデル記憶部11と、単語の音素およびトーンラベルを含む言語モデルが登録された言語モデル記憶部12と、トーンの音響的特徴をモデル化したトーンモデルが登録されたトーンモデル記憶部13との3種類のモデル記憶部を備えている。
更に、音声認識装置1は、入力部14と、音響分析部15と、距離計算部16と、単語サーチ部17と、韻律認識手段であるトーン認識部21と、リスコア部22と、出力部23とを備えている。
入力部14は、音声を入力する機能を有する。音響分析部15は、入力部14から入力された音声を音響分析し、入力音声の特徴量を出力する機能を有する。距離計算部16は、音響分析結果である特徴量と音素モデル記憶部11に登録されている各音素モデルとの間の音響距離を計算する機能を有する。
単語サーチ部17は、距離計算部16で求められた音響距離と言語モデル記憶部12に登録されている言語モデルとに基づいて、単語サーチを行い、単語サーチ結果として、複数の単語仮説(認識結果候補)と単語仮説それぞれの確からしさを示す第1のスコアとをリスコア部22に対して出力する機能を有する。更に、本実施形態の単語サーチ部17は、上記複数の単語仮説それぞれについて、その単語仮説が入力音声の認識結果であると仮定した場合の、上記入力音声における母音区間とそのトーンラベルとを出力する機能を有する。
この機能を実現するため、本実施形態の単語サーチ部17は、単語仮説同定部18、音素仮説同定部19および母音区間同定部20を備えている。単語仮説同定部18は、単語サーチされた単語仮説を同定する。音素仮説同定部19は、各単語仮説中の音素を同定する。母音区間同定部19は、単語仮説毎に、同定された音素と、単語サーチ時に使用した音素と入力音声との対応関係とに基づいて入力音声における母音区間を同定し、同定した母音区間とそのトーンラベルとの対をトーン認識部21に対して出力する。
トーン認識部21は、単語仮説毎に、単語サーチ部17から出力された母音区間に対応する特徴量とトーンモデル記憶部13に登録されているトーンモデルとに基づいて、その単語仮説についてのトーンラベルの確からしさを示す第2のスコアを求め、リスコア部22に対して出力する機能を有する。
リスコア部22は、単語サーチ部17から出力された各単語仮説の第1のスコアを、トーン認識部21から出力された対応する単語仮説の第2のスコアを用いて補正する機能を有する。出力部23は、補正された第1のスコアに基づいて、単語サーチされた複数の単語仮説の中から、認識結果とすべきものを選択し、出力する機能を有する。
なお、音声認識装置1は、コンピュータにより実現可能であり、この場合は例えば次のようにする。コンピュータを音声認識装置1として機能させるためのプログラムを記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上に音響分析部15、距離計算部16、単語サーチ部17、トーン認識部21、リスコア部22、および出力部23を実現する。
〔本発明の第1の実施形態の動作の説明〕
次に、図1および図2を用いて本実施形態の動作について詳細に説明する。
ユーザが発声した音声が入力部14から入力されると(図2のステップS100)、音響分析部15は入力音声を音響分析し、その特徴量を求める(ステップS101)。その後、距離計算部16が、ステップS101で求められた特徴量と音素モデル記憶部11に登録されている各音素モデルとの音響距離(音素の音響的な確からしさを示す)を計算する(ステップS102)。
距離計算部16において特徴量と各音素モデルとの間の音響距離が計算されると、単語サーチ部17は、音響距離と言語モデル記憶部12に登録されている言語モデルとに基づいて単語サーチを行い、単語サーチ結果として、複数の単語仮説と単語仮説それぞれの確からしさを示す第1のスコアとをリスコア部22に対して出力する(ステップS103)。
次いで、単語サーチ部17内の単語仮説同定部18が、ステップS103でサーチされた単語仮説を同定し(ステップS104)、更に、音素仮説同定部19が、ステップS104で同定された各単語仮説中の音素を言語モデルに基づいて同定する(ステップS105)。その後、母音区間同定部20が、ステップS104で同定された単語仮説毎に、ステップS105で同定された音素と、ステップS103で単語サーチを行う際に利用した音素と入力音声との対応関係とに基づいて、入力音声における母音区間を同定し、同定した母音区間とそのトーンラベルとの対をトーン認識部21に対して出力する(ステップS106)。
トーン認識部21は、単語サーチ部17から出力された母音区間とトーンラベルとの対それぞれについて、母音区間に対応する特徴量と、トーンモデル記憶部13に登録されているトーンモデルとに基づいてトーン認識を行い、トーンラベルの確からしさを示す第2のスコアをリスコア部22に対して出力する(ステップS107)。
リスコア部22は、各単語仮説についての第1のスコアを、トーン認識部21から出力された対応する単語仮説についての第2のスコアを用いて補正する(ステップS108)。出力部23は、補正された第1のスコアに基づいて複数の単語仮説の中から認識結果を決定し、出力する(ステップS109)。
〔本発明の第1の実施形態の効果〕
本実施形態によれば、声調音声に対する音声認識を高精度で行うことが可能になる。その理由は、トーン認識の対象区間を、音響情報(特徴量)と言語情報とを最適に組み合わせることが可能な単語サーチの情報に基づいて求めた母音区間に限るようにしているからである。つまり、単純に音響情報のみからトーン認識の対象区間(母音区間)を求める場合に比較して母音区間以外の区間がトーン認識区間とされる危険性が少なくなり、トーン認識誤りの発生を抑えることができるので、認識精度を高いものとすることができる。
〔第1の実施形態の実施例〕
次に、第1の実施形態の実施例について説明する。
〔第1の実施形態の実施例の構成の説明〕
図3は本実施例にかかる音声認識装置10の全体構成例を示すブロック図である。
本実施例の音声認識装置10は、音素モデルとしてのHMM(隠れマルコフモデル)が登録されたHMM記憶部110と、認識対象にしている各単語の音素とトーンラベルとを持つ単語辞書が登録された単語辞書記憶部120と、トーンモデルとして四声の音響的特徴を例えばGMM(Gaussian Mixture Model)でモデル化した四声モデルが登録された四声モデル記憶部130との3つの記憶部を備えている。これらの記憶部110、120、130は、それぞれ図1に示した音素モデル記憶部11、言語モデル記憶部12、トーンモデル記憶部13に対応する。
更に、音声認識装置10は、入力部140と、音響分析部150と、距離計算部160と、単語仮説同定部180、音素仮説同定部190および母音区間同定部200を有する単語サーチ部170と、四声認識部210と、リスコア部220と、出力部230とを備えている。これらの各機能部140、150、160、170、210、220、230は、それぞれ図1に示した入力部14、音響分析部15、距離計算部16、単語サーチ部17、トーン認識部21、リスコア部22、出力部23と対応するものであり、それらと同様の機能を有する。
なお、本実施例の音声認識装置10も、第1の実施形態の音声認識装置1と同様に、コンピュータによって実現可能なものである。
〔第1の実施形態の実施例の動作の説明〕
次に、本実施例の動作について詳細に説明する。
今、例えば、ユーザが、図4Aに示す単語を発声したとする。なお、以下の説明においては、図4Aに示す単語を単語A、同図Bに示す単語を単語Bと称す。また、単語辞書記憶部120に登録されている単語辞書には、図5に示すように、単語A、Bなどの単語が、トーンラベルである「i3」の「3(第三声)」や「in2」の「2(第二声)」と共に音素レベルで登録されているとする。
音響分析部150では、入力部140から入力された音声を音響分析し、その特徴量として、例えば、単位時間(フレーム)毎のケプストラムとピッチとを求める。
距離計算部160は、音響分析部150で求められたケプストラムとHMM記憶部110に登録されているHMMとの距離計算をフレーム単位で行い、距離計算結果として、各フレームにおけるケプストラムと各音素との音響距離(確からしさを示すスコア)を出力する。
単語サーチ部170は、距離計算部160から距離計算結果が出力されると、単語辞書中の各単語を順次処理対象にして次のような処理を行う。処理対象にしている単語を構成する各音素と、距離計算部160から渡された距離計算結果とに基づいて、各音素毎に、その音素に対応するフレームと、音響的な確からしさを示す音響距離(スコア)とを求める。例えば、図4Aに示した単語Aを処理対象にした場合は、単語Aを構成する音素が図5に示すように「n i3 h ao3」であるため、距離計算結果の先頭から「n」「i」「h」「ao」と連鎖する音素モデルのスコアをフレーム順に計算し、例えば、{音素モデル「n」がフレーム「5〜11」でスコアが「0.7」、続いて音素モデル「i」がフレーム「12〜19」でスコアが「0.8」、…}や、{音素モデル「n」がフレーム「4〜9」でスコアが「0.5」、続いて音素モデル「i」がフレーム「10〜17」でスコアが「0.6」、…}といった情報が得られる。その後、上記各情報のスコア(例えば、各音素モデルのスコアの合計値)を求め、最も大きなスコアを処理対象にしている単語のスコアとすると共に、スコアが最も大きかった情報を単語サーチを行う際に利用した情報として図示を省略したフレーム情報記憶部に格納しておく。
単語サーチ部170は、単語辞書に登録されている全ての単語について上記した処理を行うと、各単語のスコアに基づいて、単語仮説(認識結果候補)とする単語を決定する。例えば、スコアが大きい方から所定個数の単語を選択し、選択した単語を単語仮説とする。
上記した単語サーチ処理により、図6に示すように、認識結果候補としてスコアが「3.2」の単語Aと、スコアが「3.5」の単語Bとが得られたとする。
単語サーチ処理が完了すると、先ず、単語サーチ部170内の単語仮説同定部180が単語同定を行い、単語A、Bを得る。次いで、音素仮説同定部190が単語辞書を用いて音素同定を行い、単語Aから「n in2 h ao3」を、単語Bから「n i3 h ao3」をそれぞれトーンラベルとともに得る。その後、母音区間同定部200が、音素同定結果と、フレーム情報記憶部に登録されている情報とに基づいて、単語A、Bの母音区間を同定する。
この結果、単語Aの母音部分「in2」「ao3」に対応する母音区間および単語Bの母音部分「i3」「ao3」に対応する母音区間が図6に示すように、時刻(フレーム)情報として得られる。
その後、母音区間同定部200は、単語A、Bの母音区間およびそのトーンラベルを四声認識部210に渡す。これにより、四声認識部210は、各単語の各母音区間を順次処理対象にして、次のような処理を行う。音響分析部150の分析結果であるピッチの内の、処理対象にしている母音区間に対応するピッチを対象にして、四声モデル記憶部130に登録されている四声モデルを適用した四声認識を行うことにより、上記母音区間のトーンラベルの確からしさを示すスコアStを算出する。例えば、単語Bの母音「i3」の母音区間「フレーム12〜19」を処理対象にした場合は、「フレーム12〜19」に対応するピッチを対象にして、四声モデルを適用した四声認識を行うことで、母音「i3」に対する確からしさを示すスコアを算出する。図6の例では、単語Bの母音「i3」に対応する母音区間の、第三声としての確からしさを示すスコアが「0.3」となっている。
四声認識結果のスコアStは、本実施例のようにGMMをモデルとして用いている場合には、入力をN次元の特徴ベクトル x=(x1,x2,...,xN) 、GMMの混合数をMとして、次式のように計算できる。
Figure 0005282737
ここで、μは四声モデルの平均ベクトル、Σiは共分散行列、wは重みである。GMMは、ここでは第一声から第四声までをそれぞれ表す4つのモデルを用意し、例えば認識対象のトーンラベルが第三声であれば第三声を表すGMMを用いてスコアを計算する。同様に、母音「in2」についてはスコア「0.8」、母音「ao3」についてはどちらの単語仮説もスコア「0.9」が得られたとすると、この四声認識の結果を用いて上記単語サーチの結果である単語仮説に対するリスコアをリスコア部220にて行う。元々の単語仮説が持つスコアをSw、単語中に存在する各母音の四声認識結果のスコアをSt1, St2, ...とすると、全てのリスコア後のスコアSは例えば次式のように計算できる。
Figure 0005282737
このとき、四声認識結果のスコアStは、母音の数やフレーム数で正規化されていても良い。リスコアの結果、単語Aに対するスコアが「4.9」、単語Bに対するスコアが「4.7」になって順位の逆転が起こり、出力部230にて最も確からしい認識結果として単語Aを出力する。
ここで、リスコアの実現方法としては、単語サーチにおいて処理中の単語仮説のスコアを補正しながらサーチする方法と、単語サーチが一発声分の処理を終えた段階の中間結果であるNbest候補やワードグラフを対象としてNbest候補やワードグラフ中に含まれる各単語仮説のスコアを補正する方法とが可能である。前者の場合は、すべての単語仮説を対象にできるため、処理量が増加する反面、その分精度向上が期待できる。後者の場合は、一般に中間結果には、生成された単語仮説のうちスコアの高いものしか残さないため、処理量は少なくて済むが、精度向上が充分でないことがある。
GMMによるトーンのモデル化方法としては、例えば図7に示すように対象となる母音区間のピッチ情報を、時間方向および周波数方向に正規化し、その外形をN点でサンプリングすることでN次元の特徴ベクトルとし、学習することでモデル化することが考えられる。このとき、ある時刻tの周波数Ftを正規化したFt~は、対象区間での周波数の最大値、最小値をそれぞれFmax, Fminとして、例えば次式のように計算できる。
Figure 0005282737
このFt~を更に時間方向にN点で正規化すれば良い。
このような構成とすることで、HMM記憶部110に登録するHMMと、四声モデル記憶部130に登録する四声モデルとを独立に学習することが可能となる。例えば、「i」を表すHMMは、「i2」「i3」などその四声に関わらず1つの「i」というモデルとして学習し、逆に、第三声を表す四声モデルは、「i3」「ao3」などその音素に関わらず1つの「第三声」というモデルとして学習することができる。これは、各トーンの外形は音素の種類に関わらず、ほぼ同じ形状を示すことによる。つまり、本実施例によれば、少ない学習量で高精度な音声認識を行うことを可能にするHMMおよび四声モデルを得ることが可能になる。
本実施例では、1単語の認識の例を示したが、同様の方法で、1発声中に複数の単語を含む連続音声認識を行うことも可能である。その場合でも、単語仮説毎にリスコアを行って全体の和をとれば良い。
また、本実施例ではGMMで四声をモデル化するようにしたが、例えばSVMを用いることも可能である。この場合には、SVMは2値識別器であるため、例えば第一声と第二声との識別モデル、第一声と第三声との識別モデルなど、全ての組み合わせについて識別モデルを用意して識別を行い、その結果最も可能性の高い、すなわち識別結果の総和が最も大きい四声が、音素同定されたトーンラベルと同じであるかどうかをスコアとして出力し、リスコアすれば良い。例えば、トーンラベルが第二声のときに、識別結果の総和がもっとも大きい四声が第二声だった場合にはスコア1.0を出力するが、第一声だった場合にはスコア0を出力する。
〔本発明の第2の実施形態〕
次に、本発明にかかる音声認識装置の第2の実施形態について詳細に説明する。本実施形態は、トーン認識を行う際、トーンモデルに加えて、トーンの履歴情報であるコンテクスト情報をモデル化したコンテクストモデルも利用してトーン認識を行うことを特徴とする。
〔本発明の第2の実施形態の構成の説明〕
図8は本実施形態にかかる音声認識装置の全体構成例を示したブロック図である。図8に示した音声認識装置1aと図1に示した音声認識装置1との相違点は、コンテクストモデル記憶部31が追加されている点およびトーン認識部21の代わりにトーン認識部21aを備えている点である。
コンテクストモデル記憶部31には、トーンの履歴情報であるコンテクスト情報をモデル化したコンテクストモデルが登録されている。
トーン認識部21aは、単語仮説毎に、単語サーチ部17内の母音区間同定部20から出力された母音区間に対応する特徴量と、トーンモデル記憶部13に登録されているトーンモデルと、コンテクストモデル記憶部31に登録されているコンテクストモデルとに基づいて、その単語仮説についてのトーンラベルの確からしさを示す第2のスコアを求め、リスコア部22に対して出力する機能を有する。
なお、本実施形態の音声認識装置1aも音声認識装置1と同様にコンピュータによって実現可能である。
〔本発明の第2の実施形態の動作の説明〕
次に、本実施形態の動作について説明する。なお、前述した第1の実施形態との動作上の相違点は、トーン認識部21aの動作だけであるので、ここでは、トーン認識部21aの動作だけを説明する。
トーン認識部21aは、単語サーチ部17から出力された、母音区間とトーンラベルとの対それぞれを対象にして、次のような処理を行う。母音区間に対応する特徴量と、トーンモデル記憶部13に登録されているトーンモデルと、コンテクストモデル記憶部31に登録されているコンテクストモデルとに基づいてトーン認識を行い、トーンラベルの確からしさを示す第2のスコアをリスコア部22に対して出力する。
〔第2の実施形態の効果〕
本実施形態では、トーン認識時、トーンモデルに加えて、コンテクストモデルも利用してトーン認識を行うようにしているので、トーン認識精度を高めることができる。
〔第2の実施形態の実施例〕
次に、第2の実施形態の実施例について説明する。
〔第2の実施形態の実施例の構成の説明〕
図9は本実施例にかかる音声認識装置10aの全体構成例を示すブロック図であり、図3に示した第1の実施形態の実施例との相違点は、四声bigramモデルが登録された四声bigramモデル記憶部310が追加されている点、および四声認識部210の代わりに四声認識部210aを備えている点である。なお、四声bigramモデル記憶部310、四声認識部210aはそれぞれ図8に示したコンテクストモデル記憶部31、トーン認識部21aに対応するものである。
四声bigramモデル記憶部310には、コンテクストモデルとして四声の連鎖確率をモデル化した四声bigramモデルが登録されている。
四声認識部210aは、単語仮説毎に、単語サーチ部170内の母音区間同定部200から出力された母音区間に対応する特徴量と、四声モデル記憶部130に登録されている四声モデルと、四声bigramモデル記憶部310に登録されている四声bigramモデルとに基づいて、その単語仮説についてのトーンラベルの確からしさを示す第2のスコアを求め、リスコア部220に対して出力する機能を有する。
なお、本実施例の音声認識装置10aも音声認識装置1aと同様にコンピュータによって実現可能なものである。
〔第2の実施形態の実施例の動作の説明〕
次に、本実施例の動作について説明する。今、例えば、ユーザが、入力部140に対して図10Aに示す連続単語を発声したとする。なお、以下の説明においては、図10Aに示す連続単語を連続単語A、同図Bに示す連続単語を連続単語Bと称す。
これにより、音響分析部150、距離計算部160および単語サーチ部170において、前述した処理と同様の処理が行われる。これにより、図11に示すように、連続単語A、Bが単語仮説(認識結果候補)として得られたとする。なお、図11の例では、連続単語A、Bのスコアはそれぞれ「24.8」「25.0」となっている。即ち、この時点では、連続単語Bの方が確からしさが高くなっている。
また、単語サーチ部170内の単語仮説同定部180、音素仮説同定部190、母音区間同定部200においても前述した処理と同様の処理が行われ、四声認識部210aに対して、連続単語A、Bの母音区間およびそのトーンラベルが出力される。即ち、音素が「q ue4 r en4 m ei2 w en4 t i2」である連続単語Aについては、母音「ue4」「en4」「ei2」「en4」「i2」の母音区間(フレーム情報)とそのトーンラベルとが出力され、音素が「q ue4 r en4 m ei2 y ou3 w en4 t i2」の連続単語Bについては、母音「ue4」「en4」「ei2」「ou3」「en4」「i2」の母音区間とそのトーンラベルとが出力される。
四声認識部210aでは、単語サーチ部170から渡された連続単語A、Bの各母音区間に対して、四声モデルと四声bigramモデルとを適用した四声認識を行う。
対象となる母音区間のピッチ外形と四声の連鎖確率から、例えば「m ei2 y ou3 w en4」という区間に対しては「ei2」「ou3」「en4」のピッチによるスコアが0.5, 0.3, 0.6、連鎖確率によるスコアが0.4, 0.2, 0.3とそれぞれ得られるとする。ここで、四声bigramモデルを用いた連鎖確率は、対象となる母音の四声Tiの確率を直前の母音の四声Ti-1を用いて次式で計算する。
P(Ti)=P(Ti|Ti-1)
例えば「ei2」については直前の母音が第4声の「en4」であるので、第2声と第4声の連鎖確率として0.4が得られるものとする。同様に「m ei2 w en4」という区間に対しては「ei2」「en4」のピッチによるスコアが0.7, 0.8、連鎖確率によるスコアが0.4, 0.7とそれぞれ得られたとすると、リスコア部220における全区間のリスコア結果として例えば連続単語Aがスコア32.4、連続単語Bがスコア32.3として得られ、出力部230にて例えば最も確からしい結果として連続単語Aを出力する。
このように、母音区間のピッチ情報だけでなく四声のつながりやすさである連鎖確率も併用することで、四声の認識精度を高めることが可能となる。
本実施例では、リスコア時にトーンモデルから得られるスコアとコンテクストモデルから得られるスコアを単純に加算したが、音節数やフレーム数で正規化しても良いし、例えば重み付け和をとっても良い。正規化を行うことで、連続音声認識時に各仮説に含まれる音節数の違いによるスコアのばらつきを抑えることが可能となり、より認識精度が上がる可能性がある。
なお、各実施形態ではトーンの場合を記載したが、辞書に記述可能かつ区間同定可能な韻律であればトーンに限らない。例えば英語のアクセントの場合は、アクセント型を単語ごとに辞書に記述しておき、各アクセント型の短時間音声パワーの時間変化を特徴量としてモデル化し、各単語における当該アクセント区間を認識対象の区間として区間同定すれば良い。
〔本発明の第3の実施形態〕
図12は本発明の第3の実施形態にかかる音声認識装置の全体構成例を示したブロック図である。同図を参照すると、音声認識装置1bは、単語サーチ部17bと、韻律認識部21bと、リスコア部22bとを備えている。
単語サーチ部17bは、入力音声の特徴量と音素モデルとの間の音響距離と、言語モデルにおける単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力する機能を有する。なお、言語モデルは単語の音素および韻律ラベルを含んでいる。単語サーチ部17bはまた、入力音声の認識結果が単語仮説であるとした場合の、入力音声における韻律区間とその韻律ラベルとを出力する。
韻律認識部21bは、入力音声の特徴量の内、単語サーチ部17bから出力された韻律区間に対応する特徴量に基づいて、単語サーチ部17bから出力された韻律ラベルに対する確からしさを示す第2のスコアを出力する機能を有する。リスコア部22bは、韻律認識部21bから出力された第2のスコアを用いて、単語サーチ部17bから出力された単語仮説に対する第1のスコアを補正する機能を有する。
この音声認識装置1bは、図1における音素モデル記憶部11、言語モデル記憶部12、トーンモデル記憶部13、入力部14、音響分析部15、距離計算部16、出力部23、あるいはこれらの機能部に加えて図8におけるコンテクストモデル記憶部31が外部接続されたものであると捉えることもできる。
本実施形態においても、図1および図8に示した音声認識装置1,1aと同様に、声調音声に対する音声認識を高精度で行うことができる。
なお、音声認識装置1bは、コンピュータにより実現可能であり、この場合は例えば次のようにする。コンピュータを音声認識装置1bとして機能させるためのプログラム41を記録したディスク、半導体メモリ、その他の機械読み取り可能な記録媒体4を用意し、コンピュータに上記プログラム41を読み取らせる。コンピュータは、読み取ったプログラム41に従って自身の動作を制御することにより、単語サーチ部17b、韻律認識部21b、リスコア部22bを実現する。
以上、実施形態および実施例を参照して本発明を説明したが、本発明は上記実施形態および上記実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2007年8月22日に出願された日本出願特願2007−215958号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
本発明によれば、中国語等の声調言語の音声認識を用いたヒューマンインタフェースといった用途に適用できる。

Claims (30)

  1. 入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力する単語サーチ手段と、
    前記入力音声の特徴量の内の、前記単語サーチ手段から出力された韻律区間に対応する特徴量に基づいて、前記単語サーチ手段から出力された韻律ラベルに対する確からしさを示す第2のスコアを出力する韻律認識手段と、
    前記韻律認識手段から出力された前記第2のスコアを用いて、前記単語サーチ手段から出力された前記単語仮説に対する第1のスコアを補正するリスコア手段とを備え、
    前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
    前記韻律区間は、母音区間およびアクセント区間のいずれかである音声認識装置。
  2. 請求項1記載の音声認識装置において、
    前記リスコア手段は、単語サーチにおいて処理中の単語仮説のスコアを補正すること、および、単語サーチの結果として得られる中間結果のスコアを補正すること、のいずれかを行う音声認識装置。
  3. 請求項2記載の音声認識装置において、
    前記中間結果は、Nbest候補およびワードグラフのいずれかである音声認識装置。
  4. 請求項1に記載の音声認識装置において、
    前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間である音声認識装置。
  5. 請求項4記載の音声認識装置において、
    前記単語サーチ手段は、
    単語および連続単語の少なくとも一方を同定する単語仮説同定手段と、
    前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定する音素仮説同定手段と、
    前記音素のうちの母音の区間を同定する母音区間同定手段と
    を備える音声認識装置。
  6. 請求項5記載の音声認識装置において、
    前記母音区間同定手段は、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とする音声認識装置。
  7. 請求項4に記載の音声認識装置において、
    前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行う音声認識装置。
  8. 請求項7記載の音声認識装置において、
    前記音響距離の計算に用いられる音素モデルと前記トーンモデルとは独立である音声認識装置。
  9. 請求項4に記載の音声認識装置において、
    前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行う音声認識装置。
  10. 請求項9記載の音声認識装置において、
    前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものである音声認識装置。
  11. 入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力するステップと、
    前記入力音声の特徴量の内の、出力された韻律区間に対応する特徴量に基づいて、出力された韻律ラベルに対する確からしさを示す第2のスコアを出力するステップと、
    出力された前記第2のスコアを用いて、出力された前記単語仮説に対する第1のスコアを補正するステップとを備え、
    前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
    前記韻律区間は、母音区間およびアクセント区間のいずれかである音声認識方法。
  12. 請求項11記載の音声認識方法において、
    補正するステップは、単語サーチにおいて処理中の単語仮説のスコアを補正するステップと、単語サーチの結果として得られる中間結果のスコアを補正するステップとのいずれかを備える音声認識方法。
  13. 請求項12記載の音声認識方法において、
    前記中間結果は、Nbest候補およびワードグラフのいずれかである音声認識方法。
  14. 請求項11に記載の音声認識方法において、
    前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間である音声認識方法。
  15. 請求項14記載の音声認識方法において、
    単語サーチを行うステップは、
    単語および連続単語の少なくとも一方を同定するステップと、
    前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定するステップと、
    前記音素のうちの母音の区間を同定するステップと
    を備える音声認識方法。
  16. 請求項15記載の音声認識方法において、
    区間を同定するステップは、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とするステップを備える音声認識方法。
  17. 請求項14に記載の音声認識方法において、
    第2のスコアを出力するステップは、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行うステップを備える音声認識方法。
  18. 請求項17記載の音声認識方法において、
    前記音響距離の計算に用いる音素モデルと前記トーンモデルとは独立である音声認識方法。
  19. 請求項14に記載の音声認識方法において、
    第2のスコアを出力するステップは、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行うステップを備える音声認識方法。
  20. 請求項19記載の音声認識方法において、
    前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものである音声認識方法。
  21. 入力音声の特徴量と音素モデルとの間の音響距離と、単語の音素および韻律ラベルを含む言語モデルにおける前記単語の音素とに基づいて単語サーチを行い、単語仮説とこの単語仮説の確からしさを示す第1のスコアとを単語サーチ結果として出力すると共に、前記入力音声の認識結果が前記単語仮説であるとした場合の、前記入力音声における韻律区間とその韻律ラベルとを出力する単語サーチ手段、
    前記入力音声の特徴量の内の、前記単語サーチ手段から出力された韻律区間に対応する特徴量に基づいて、前記単語サーチ手段から出力された韻律ラベルに対する確からしさを示す第2のスコアを出力する韻律認識手段、
    前記韻律認識手段から出力された前記第2のスコアを用いて、前記単語サーチ手段から出力された前記単語仮説に対する第1のスコアを補正するリスコア手段
    としてコンピュータを機能させるためのプログラムであって、
    前記韻律ラベルは、トーンラベルおよびアクセント型のいずれかであり、
    前記韻律区間は、母音区間およびアクセント区間のいずれかであるプログラム。
  22. 請求項21記載のプログラムにおいて、
    前記リスコア手段は、単語サーチにおいて処理中の単語仮説のスコアを補正すること、および、単語サーチの結果として得られる中間結果のスコアを補正すること、のいずれかを行うプログラム。
  23. 請求項22記載のプログラムにおいて、
    前記中間結果は、Nbest候補およびワードグラフのいずれかであるプログラム。
  24. 請求項21に記載のプログラムにおいて、
    前記韻律ラベルはトーンラベルであり、前記韻律区間は母音区間であるプログラム。
  25. 請求項24記載のプログラムにおいて、
    前記単語サーチ手段は、
    単語および連続単語の少なくとも一方を同定する単語仮説同定手段と、
    前記言語モデルを用いて前記単語および連続単語の少なくとも一方の中の音素を同定する音素仮説同定手段と、
    前記音素のうちの母音の区間を同定する母音区間同定手段と
    を備えるプログラム。
  26. 請求項25記載のプログラムにおいて、
    前記母音区間同定手段は、単語サーチにおいて前記母音の仮説の始端時刻から終端時刻までを母音区間とするプログラム。
  27. 請求項24に記載のプログラムにおいて、
    前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルを用いて韻律認識を行うプログラム。
  28. 請求項27記載のプログラムにおいて、
    前記音響距離の計算に用いられる音素モデルと前記トーンモデルとは独立であるプログラム。
  29. 請求項24に記載のプログラムにおいて、
    前記韻律認識手段は、母音区間におけるピッチの時間変化を特徴量としてモデル化されたトーンモデルと、韻律の履歴情報であるコンテクスト情報がモデル化されたコンテクストモデルとを用いて、韻律認識を行うプログラム。
  30. 請求項29記載のプログラムにおいて、
    前記コンテクストモデルは母音のトーンの連鎖確率がモデル化されたものであるプログラム。
JP2009529074A 2007-08-22 2008-08-22 音声認識装置および音声認識方法 Active JP5282737B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009529074A JP5282737B2 (ja) 2007-08-22 2008-08-22 音声認識装置および音声認識方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007215958 2007-08-22
JP2007215958 2007-08-22
PCT/JP2008/065008 WO2009025356A1 (ja) 2007-08-22 2008-08-22 音声認識装置および音声認識方法
JP2009529074A JP5282737B2 (ja) 2007-08-22 2008-08-22 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JPWO2009025356A1 JPWO2009025356A1 (ja) 2010-11-25
JP5282737B2 true JP5282737B2 (ja) 2013-09-04

Family

ID=40378256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009529074A Active JP5282737B2 (ja) 2007-08-22 2008-08-22 音声認識装置および音声認識方法

Country Status (4)

Country Link
US (1) US8315870B2 (ja)
JP (1) JP5282737B2 (ja)
CN (1) CN101785051B (ja)
WO (1) WO2009025356A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2233110A1 (en) 2009-03-24 2010-09-29 orangedental GmbH & Co. KG Methods and apparatus to determine distances for use in dentistry
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US8386252B2 (en) * 2010-05-17 2013-02-26 Avaya Inc. Estimating a listener's ability to understand a speaker, based on comparisons of their styles of speech
US10002608B2 (en) * 2010-09-17 2018-06-19 Nuance Communications, Inc. System and method for using prosody for voice-enabled search
US8401853B2 (en) 2010-09-22 2013-03-19 At&T Intellectual Property I, L.P. System and method for enhancing voice-enabled search based on automated demographic identification
JP5179559B2 (ja) * 2010-11-12 2013-04-10 シャープ株式会社 画像処理システムを制御する制御装置、画像形成装置、画像読取装置、制御方法、画像処理プログラム及びコンピュータ読み取り可能な記録媒体
JP5716595B2 (ja) * 2011-01-28 2015-05-13 富士通株式会社 音声補正装置、音声補正方法及び音声補正プログラム
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
CN102938252B (zh) * 2012-11-23 2014-08-13 中国科学院自动化研究所 结合韵律和发音学特征的汉语声调识别系统及方法
WO2014167570A1 (en) * 2013-04-10 2014-10-16 Technologies For Voice Interface System and method for extracting and using prosody features
US9251202B1 (en) * 2013-06-25 2016-02-02 Google Inc. Corpus specific queries for corpora from search query
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
CN103474061A (zh) * 2013-09-12 2013-12-25 河海大学 基于分类器融合的汉语方言自动辨识方法
CN105632499B (zh) * 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
US9824684B2 (en) * 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
CN104464751B (zh) * 2014-11-21 2018-01-16 科大讯飞股份有限公司 发音韵律问题的检测方法及装置
US9953644B2 (en) 2014-12-01 2018-04-24 At&T Intellectual Property I, L.P. Targeted clarification questions in speech recognition with concept presence score and concept correctness score
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US9754580B2 (en) 2015-10-12 2017-09-05 Technologies For Voice Interface System and method for extracting and using prosody features
CN105869624B (zh) 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
US10607601B2 (en) * 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
CN109145281B (zh) * 2017-06-15 2020-12-25 北京嘀嘀无限科技发展有限公司 语音识别方法、装置及存储介质
CN110770819B (zh) * 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别系统和方法
EP3823306B1 (en) 2019-11-15 2022-08-24 Sivantos Pte. Ltd. A hearing system comprising a hearing instrument and a method for operating the hearing instrument
CN111862954B (zh) * 2020-05-29 2024-03-01 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63165900A (ja) * 1986-12-27 1988-07-09 沖電気工業株式会社 会話音声認識方式
JPH04128899A (ja) * 1990-09-20 1992-04-30 Fujitsu Ltd 音声認識装置
JPH07261778A (ja) * 1994-03-22 1995-10-13 Canon Inc 音声情報処理方法及び装置
JP2001282282A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法および装置および記憶媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0758839B2 (ja) 1987-09-05 1995-06-21 ティーディーケイ株式会社 電子部品挿入ヘッド
JP2946219B2 (ja) 1989-11-22 1999-09-06 九州日立マクセル株式会社 スクリーン印刷用印刷版
SE514684C2 (sv) * 1995-06-16 2001-04-02 Telia Ab Metod vid tal-till-textomvandling
US5806031A (en) * 1996-04-25 1998-09-08 Motorola Method and recognizer for recognizing tonal acoustic sound signals
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
US6253178B1 (en) * 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
CN1160699C (zh) * 1999-11-11 2004-08-04 皇家菲利浦电子有限公司 语音识别系统
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
CN1180398C (zh) * 2000-05-26 2004-12-15 封家麒 一种语音辨识方法及系统
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
CN1187693C (zh) * 2000-09-30 2005-02-02 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统
JP4353202B2 (ja) * 2006-05-25 2009-10-28 ソニー株式会社 韻律識別装置及び方法、並びに音声認識装置及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63165900A (ja) * 1986-12-27 1988-07-09 沖電気工業株式会社 会話音声認識方式
JPH04128899A (ja) * 1990-09-20 1992-04-30 Fujitsu Ltd 音声認識装置
JPH07261778A (ja) * 1994-03-22 1995-10-13 Canon Inc 音声情報処理方法及び装置
JP2001282282A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法および装置および記憶媒体

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG199800698002; 胡志平 他: '"音素モデルと音節モデルを用いた中国語連続音声認識システムの作成"' 電子情報通信学会論文誌D-II Vol.J75-D-II,No.3, 19920325, p.459-469 *
CSNG199801269004; 趙力 他: '"3次元Viterbi法を用いた音素情報と音調情報の統合による中国語連続音声認識"' 日本音響学会誌 Vol.54,No.7, 19980701, p.497-505 *
CSNG200600972070; 小野寺栄 他: '"マルチパス方式を用いた雑音環境下での単語音声認識 -アクセント情報の利用-"' 日本音響学会2004年春季研究発表会講演論文集-I- , 20040317, p.161-162 *
JPN6013018833; 小野寺栄 他: '"マルチパス方式を用いた雑音環境下での単語音声認識 -アクセント情報の利用-"' 日本音響学会2004年春季研究発表会講演論文集-I- , 20040317, p.161-162 *
JPN6013018834; 趙力 他: '"3次元Viterbi法を用いた音素情報と音調情報の統合による中国語連続音声認識"' 日本音響学会誌 Vol.54,No.7, 19980701, p.497-505 *
JPN6013018835; 胡志平 他: '"音素モデルと音節モデルを用いた中国語連続音声認識システムの作成"' 電子情報通信学会論文誌D-II Vol.J75-D-II,No.3, 19920325, p.459-469 *

Also Published As

Publication number Publication date
US8315870B2 (en) 2012-11-20
US20110196678A1 (en) 2011-08-11
WO2009025356A1 (ja) 2009-02-26
CN101785051B (zh) 2012-09-05
CN101785051A (zh) 2010-07-21
JPWO2009025356A1 (ja) 2010-11-25

Similar Documents

Publication Publication Date Title
JP5282737B2 (ja) 音声認識装置および音声認識方法
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP6599914B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP4259100B2 (ja) 音声認識用未知発話検出装置及び音声認識装置
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
JP3171107B2 (ja) 音声認識装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP4610451B2 (ja) 音声認識装置及びプログラム
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP3378547B2 (ja) 音声認識方法及び装置
EP0987681B1 (en) Speech recognition method and apparatus
JPH09114482A (ja) 音声認識のための話者適応化方法
JP2975542B2 (ja) 音声認識装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP3277522B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130513

R150 Certificate of patent or registration of utility model

Ref document number: 5282737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350