JP4543294B2 - 音声認識装置および音声認識方法、並びに記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに記録媒体 Download PDF

Info

Publication number
JP4543294B2
JP4543294B2 JP2000069698A JP2000069698A JP4543294B2 JP 4543294 B2 JP4543294 B2 JP 4543294B2 JP 2000069698 A JP2000069698 A JP 2000069698A JP 2000069698 A JP2000069698 A JP 2000069698A JP 4543294 B2 JP4543294 B2 JP 4543294B2
Authority
JP
Japan
Prior art keywords
word
score
acoustic
phoneme
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000069698A
Other languages
English (en)
Other versions
JP2001255889A (ja
Inventor
ルッケ ヘルムート
活樹 南野
康治 浅野
浩明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000069698A priority Critical patent/JP4543294B2/ja
Priority to US09/804,354 priority patent/US20010053974A1/en
Priority to EP01302284A priority patent/EP1134727A3/en
Priority to CNB011192038A priority patent/CN1199148C/zh
Publication of JP2001255889A publication Critical patent/JP2001255889A/ja
Priority to US10/785,246 priority patent/US7249017B2/en
Application granted granted Critical
Publication of JP4543294B2 publication Critical patent/JP4543294B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置および音声認識方法、並びに記録媒体に関し、特に、例えば、発話中に未知語が含まれる場合の音声認識精度の劣化を低減することができるようにする音声認識装置および音声認識方法、並びに記録媒体に関する。
【0002】
【従来の技術】
図1は、従来の、連続音声認識を行う音声認識装置の一例の構成を示している。
【0003】
ユーザが発した音声は、マイク(マイクロフォン)1に入力され、マイク1では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、AD(Analog Digital)変換部2に供給される。AD変換部2では、マイク1からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、特徴抽出部3に供給される。
【0004】
特徴抽出部3は、AD変換部2からの音声データについて、適当なフレームごとに、フーリエ変換やフィルタリング等の音響処理を施し、これにより、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴量を抽出し、マッチング部4に供給する。なお、特徴抽出部3では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴量を抽出することが可能である。
【0005】
マッチング部4は、特徴抽出部3からの特徴量を用いて、音響モデルデータベース5、辞書データベース6、および文法データベース7を必要に応じて参照しながら、マイク1に入力された音声(入力音声)を、例えば、連続分布HMM法等に基づいて音声認識する。
【0006】
即ち、音響モデルデータベース5は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、HMM(Hidden Markov Model)が用いられる。辞書データベース6は、音声認識対象とする各単語(語彙)について、その発音に関する情報(音韻情報)が記述された単語辞書を記憶している。文法データベース7は、辞書データベース6の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則(言語モデル)を記憶している。ここで、文法規則としては、例えば、文脈自由文法(CFG)や、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
【0007】
マッチング部4は、辞書データベース6の単語辞書を参照することにより、音響モデルデータベース5に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、マッチング部4は、幾つかの単語モデルを、文法データベース7に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布HMM法によって、マイク1に入力された音声を認識する。即ち、マッチング部4は、特徴抽出部3が出力する時系列の特徴量が観測されるスコア(尤度)が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【0008】
即ち、マッチング部4は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【0009】
スコア計算は、一般に、音響モデルデータベース5に記憶された音響モデルによって与えられる音響的なスコア(以下、適宜、音響スコアという)と、文法データベース7に記憶された文法規則によって与えられる言語的なスコア(以下、適宜、言語スコアという)とを総合評価することで行われる。
【0010】
即ち、音響スコアは、例えば、HMM法による場合には、単語モデルを構成する音響モデルから、特徴抽出部3が出力する特徴量の系列が観測される確率(出現する確率)に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖(連接)する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア(以下、適宜、最終スコアという)に基づいて、音声認識結果が確定される。
【0011】
具体的には、あるN個の単語からなる単語列におけるk番目の単語をwkとして、その単語wkの音響スコアをA(wk)と、言語スコアをL(wk)と、それぞれ表すとき、その単語列の最終スコアSは、例えば、次式にしたがって計算される。
【0012】
S=Σ(A(wk)+Ck×L(wk))・・・(1)
但し、Σは、kを1からNに変えてのサメーションをとることを表す。また、Ckは、単語wkの言語スコアL(wk)にかける重みを表す。
【0013】
マッチング部4では、例えば、式(1)に示す最終スコアを最も大きくするNと、単語列w1,w2,・・・,wNを求めるマッチング処理が行われ、その単語列w1,w2,・・・,wNが、音声認識結果として出力される。
【0014】
以上のような処理が行われることにより、図1の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューヨーク」、「に」、「行きたい」、「です」といった各単語に、音響スコアおよび言語スコアが与えられ、それらを総合評価して得られる最終スコアが最も大きいと、単語列「ニューヨーク」、「に」、「行きたい」、「です」が、音声認識結果として出力される。
【0015】
ところで、音響スコアの計算を、辞書データベース6の単語辞書に登録されているすべての単語について独立に行うと、その計算量が大きくなることから、複数の単語についての音響スコアの計算の一部を共通化(共有化)する方法がある。即ち、単語辞書の単語のうち、その先頭の音韻が同一のものについて、その先頭の音韻から、同一になっている音韻までは、音響モデルを共通に用い、それ以後の音韻には、音響モデルを個々に用いることにより、全体として1つの木構造のネットワークを構成し、これを用いて、音響スコアを求める方法がある。
【0016】
この場合、単語辞書は、例えば、図2に示すように、ルートノードを始点として、そのルートノードから、音声認識対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語のネットワーク(単語ネットワーク)で構成される。
【0017】
単語ネットワークを構成する際、その先頭の音韻が同一の単語については、上述のように、その先頭の音韻から、同一になっている音韻までに対応するブランチは、共通に用いられる。即ち、図2において、各ブランチに付したスラッシュ(/)で囲むアルファベットは、音韻を表しており、四角形で囲んである部分は、単語を表しているが、例えば、単語"I","ice","icy","up"については、その先頭の音韻/A/が同一であるから、その音韻/A/に対応するブランチが1つに共通化されている。また、単語"I","ice","icy"については、その2番目の音韻/I/も同一であるから、先頭の音韻/A/だけでなく、2番目の音韻/I/に対応するブランチも1つに共通化されている。さらに、単語"ice","icy"については、その3番目の音韻/S/も同一であるから、先頭の音韻/A/と2番目の音韻/I/だけでなく、3番目の音韻/S/に対応するブランチも1つに共通化されている。
【0018】
また、単語"be","beat"については、その先頭の音韻/B/と2番目の音韻/I/が同一であるから、先頭の音韻/B/と2番目の音韻/I/に対応するブランチが1つに共通化されている。
【0019】
図2の単語ネットワークを構成する単語辞書を用いる場合には、マッチング部4は、単語ネットワークのルートノードから延びるブランチの系列に対応する音韻の音響モデルを、音響モデルデータベース5から読み出して接続し、その接続した音響モデルに基づき、特徴抽出部3からの特徴量の系列を用いて、音響スコアを計算する。
【0020】
従って、単語"I","ice","icy","up"の音響スコアは、その先頭の音韻/A/については、兼用で計算される。また、単語"I","ice","icy"の音響スコアは、その先頭から2番目までの音韻/A/,/I/については、兼用で計算される。さらに、単語"ice","icy"の音響スコアは、その先頭からその3番目までの音韻/A/,/I/,/S/については、兼用で計算される。そして、単語"up"の残りの音韻(2番目の音韻)/P/、および単語"icy"の残りの音韻(4番目の音韻)/I/については、単独で、音響スコアが計算される。
【0021】
また、単語"be","beat"の音響スコアは、その先頭から2番目までの音韻/B/,/I/については、兼用で計算される。そして、単語"beat"の残りの音韻(3番目の音韻)/T/については、単独で、音響スコアが計算される。
【0022】
従って、単語ネットワークを構成する単語辞書を用いることにより、音響スコアの計算量を大幅に低減することができる。
【0023】
マッチング部4において、上述のように、単語ネットワークのルートノードから延びるブランチの系列(以下、適宜、パスという)に沿って接続された音響モデルに基づき、特徴量の系列を用いて、音響スコアを計算していくと、最終的には、単語ネットワークの最後のノード(図2において、ルートノードから、ブランチに沿って、右方向に移動していった場合の最後のブランチの終端)に到達する。即ち、例えば、音響モデルとして、HMMを用いる場合には、パスを構成するブランチの系列に沿って接続されたHMMに基づき、特徴量の系列を用いて音響スコアを計算していくと、その接続されたHMMの最後の状態において、音響スコアが、ある程度大きくなる時刻(以下、適宜、極大時刻という)がある。
【0024】
この場合、マッチング部4では、音響スコアの計算に用いた先頭の特徴量の時刻から、極大時刻までが、パスに対応する単語が発話された音声区間であると仮定され、その単語は、音声認識結果としての単語列を構成する単語の候補とされる。そして、その単語の候補の後に接続する単語の候補の音響スコアの計算が、単語ネットワークのルートノードから延びるブランチの系列(パス)に沿って接続された音響モデルに基づき、極大時刻以後の特徴量の系列を用いて、再び行われる。
【0025】
マッチング部4において、以上の処理が繰り返されることにより、多数の音声認識結果の候補としての単語列が得られることとなるが、マッチング部4は、そのような多数の単語列の候補のうち、音響スコアが小さいものを破棄することにより、即ち、音響的な枝刈りを行うことにより、音響スコアが所定の閾値以上の単語列、つまり、音声認識結果として、ある程度、音響的に確からしい単語列だけを選択して(残して)、処理を続行していく。
【0026】
さらに、マッチング部4は、上述のようにして、音響スコアを計算しながら、音声認識結果としての単語列の候補を生成していく過程において、文法データベース7に登録された、例えばN−gram等の文法規則に基づき、音声認識結果としての単語列の候補を構成する単語の言語スコアを計算する。そして、マッチング部4は、その言語スコアが小さい単語を破棄することにより、即ち、言語的な枝刈りを行うことにより、言語スコアが所定の閾値以上の単語列、つまり、音声認識結果として、ある程度、言語的に確からしい単語列だけを選択して、処理を続行していく。
【0027】
以上のように、マッチング部4は、単語の音響スコアおよび言語スコアを計算し、その音響スコアおよび言語スコアに基づいて、音響的および言語的な枝刈りを行うことで、音声認識結果として確からしい1以上の単語列を選択する。そして、その選択された単語列の後に接続する単語の音響スコアおよび言語スコアを計算していくことを繰り返すことで、最終的には、音声認識結果の候補として、ある程度確からしい1以上の単語列を得る。そして、マッチング部4は、そのような単語列の中から、例えば、式(1)で示される最終スコアが最も大きいものを、音声認識結果として確定する。
【0028】
【発明が解決しようとする課題】
ところで、音声認識装置においては、例えば、装置の演算速度や、メモリ容量等に起因して、音声認識の対象として、辞書データベース6の単語辞書に登録する単語の数が制限される。
【0029】
そして、音声認識の対象とする単語が制限されると、対象とされなかった単語(以下、適宜、未知語という)が、ユーザによって発話された場合には、各種の問題が生じる。
【0030】
即ち、マッチング部4では、未知語が発話された場合であっても、その未知語の音声の特徴量を用いて、単語辞書に登録された各単語の音響スコアが計算され、その音響スコアがある程度大きい単語が、未知語の音声認識結果の候補として、誤って選択される。
【0031】
このように、未知語が発話された場合には、その未知語の部分において誤りを生じるが、さらに、この誤りは、他の部分の誤りを引き起こす原因にもなる。
【0032】
即ち、例えば、上述のように、ユーザが、「ニューヨークに行きたいです」と発話した場合において、「ニューヨーク」が未知語であるときには、その「ニューヨーク」の部分において、誤った単語が選択されるため、未知語である「ニューヨーク」と、その後に続く「に」との単語の境界を、正確に決定することが困難となる。その結果、単語の境界に誤りが生じ、その誤りが、他の部分の音響スコアの計算に影響を与える。
【0033】
具体的には、上述のようにして、「ニューヨーク」ではない、誤った単語が選択された後に、その誤った単語の音響スコアの計算に用いられた特徴量の系列の終点を始点とする特徴量の系列を用いて、次の単語の音響スコアが計算される。従って、音響スコアの計算は、例えば、音声「ニューヨーク」の終わりの部分の特徴量を用いて行われたり、「ニューヨーク」の次の音声「に」の最初の部分の特徴量を用いずに行われたりする。その結果、音声認識結果として正しい単語「に」の音響スコアが、他の単語に比較して小さくなることがある。
【0034】
さらに、この場合、音声認識結果として誤った単語の音響スコアが、それほど大きくならなくても、その単語の言語スコアが大きくなり、その結果、音響スコアと言語スコアとを総合評価したスコアが、音声認識結果として正しい単語「に」の音響スコアと言語スコアとを総合評価したスコア(以下、適宜、単語スコアという)よりも大きくなることがある。
【0035】
以上のように、未知語の音声認識を誤ることにより、未知語に近い位置の単語の音声認識も誤ることになる。
【0036】
音声認識装置において音声認識の対象とする単語としては、一般に、例えば、新聞や小説等において出現頻度の高いものが選定されることが多いが、出現頻度の低い単語が、ユーザによって発話されないという保証はない。従って、未知語については、何らかの対処をとる必要がある。
【0037】
未知語の対処方法としては、例えば、音声認識の対象となっていない単語である未知語を、その単語を構成する音素や、幾つかの音素でなる音素列といった断片にし、この断片を、擬似的に単語(いわゆるサブワード)として、音声認識の対象とする方法がある。
【0038】
単語を構成する音素や音素列の種類は、それほど多くはないから、そのような音素や音素列を、擬似的な単語として、音声認識の対象としても、計算量やメモリ容量に、それほど大きな影響は与えない。そして、この場合、未知語は、擬似的な単語(以下、適宜、疑似単語という)の系列として認識され、その結果、見かけ上は、未知語は0になることになる。
【0039】
なお、この場合、未知語のみならず、単語辞書に登録されている単語が発話されても、擬似単語の系列として認識され得ることとなるが、発話された単語が、単語辞書に登録されている単語、または疑似単語の系列としての未知語のうちのいずれに認識されるかは、それぞれについて計算されるスコアに基づいて決定されることになる。
【0040】
しかしながら、疑似単語を用いる場合には、未知語は、疑似単語である音素や音素列の系列として認識されるから、未知語は、その属性を利用して処理することができない。即ち、未知語については、例えば、その属性としての品詞が分からないから、文法規則を適用することができず、これに起因して、音声認識精度が劣化する。
【0041】
また、音声認識装置によっては、辞書データベース6に、複数の言語それぞれについて、その言語の単語辞書を記憶させておき、その単語辞書を、例えば、ユーザの操作に応じて切り替えて、複数の言語の音声認識を可能とするものがある。この場合、いま使用されている単語辞書の言語以外の言語の単語は、未知語となるが、その未知語の属性としての言語が分かれば、その言語の単語辞書に自動的に切り替えることができ、さらに、この場合、その未知語であった単語を正確に認識することが可能となる。
【0042】
具体的には、例えば、辞書データベース6に、英語とフランス語の単語辞書が記憶されている場合において、そのうちの英語の単語辞書が使用されているときに、未知語がフランス語の単語であることが分かれば、発話者がフランス人に変わったとして、単語辞書を、英語のものからフランス語のものに切り替えて、精度の良い音声認識が可能となる。
【0043】
本発明は、このような状況に鑑みてなされたものであり、未知語の属性を得ることができるようにすることにより、音声認識精度を向上させることができるようにするものである。
【0044】
【課題を解決するための手段】
本発明の音声認識装置は、ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた1以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた1以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響的なスコアである音響スコアを算出し、その音響スコアが所定の閾値以上である単語の系列を選択する音響スコア計算手段と、音響スコア計算手段により選択された単語の系列について、所定の文法規則に基づいた言語的なスコアである言語スコアを算出し、その言語スコアが所定の閾値以上である単語の系列を選択する言語スコア計算手段と、音響スコアおよび言語スコアに基づいて、言語スコア計算手段により選択された単語の系列の中から、音声認識結果とする単語の系列を選択する選択手段とを備え、言語スコア計算手段は、音響スコア計算手段により選択された単語の系列に未知語が含まれている場合、その未知語については、音響スコア計算手段が音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する属性ブランチにより分類される品詞に基づいて、言語スコアを算出することを特徴とする。
【0046】
辞書には、接尾語を、未知語構成要素として登録しておくことができる。
【0047】
辞書には、接尾語とともに、未知語を構成する音韻を登録しておくことができる。
【0048】
辞書には、未知語を、その言語ごとに分類するための未知語構成要素を登録しておくことができる。
【0049】
本発明の音声認識装置には、辞書をさらに設けることができる。
【0050】
本発明の音声認識方法は、ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた1以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた1以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響的なスコアである音響スコアを算出し、その音響スコアが所定の閾値以上である単語の系列を選択する音響計算ステップと、音響スコア計算ステップにおいて選択された単語の系列について、所定の文法規則に基づいた言語的なスコアである言語スコアを算出し、その言語スコアが所定の閾値以上である単語の系列を選択する言語スコア計算ステップと、音響スコアおよび言語スコアに基づいて、言語スコア計算ステップにおいて選択された単語の系列の中から、音声認識結果とする単語の系列を選択する選択ステップとを備え、言語スコア計算ステップでは、音響スコア計算ステップにおいて選択された単語の系列に未知語が含まれている場合、その未知語については、音響スコア計算ステップにおいて音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する属性ブランチにより分類される品詞に基づいて、言語スコアを算出することを特徴とする。
【0051】
本発明の記録媒体は、ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた1以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた1以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響的なスコアである音響スコアを算出し、その音響スコアが所定の閾値以上である単語の系列を選択する音響計算ステップと、音響スコア計算ステップにおいて選択された単語の系列について、所定の文法規則に基づいた言語的なスコアである言語スコアを算出し、その言語スコアが所定の閾値以上である単語の系列を選択する言語スコア計算ステップと、音響スコアおよび言語スコアに基づいて、言語スコア計算ステップにおいて選択された単語の系列の中から、音声認識結果とする単語の系列を選択する選択ステップとを備え、言語スコア計算ステップでは、音響スコア計算ステップにおいて選択された単語の系列に未知語が含まれている場合、その未知語については、音響スコア計算ステップにおいて音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する属性ブランチにより分類される品詞に基づいて、言語スコアを算出するプログラムが記録されていることを特徴とする。
【0052】
本発明の音声認識装置および音声認識方法、並びに記録媒体においては、ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた1以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた1以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響的なスコアである音響スコアが算出され、その音響スコアが所定の閾値以上である単語の系列が選択される。また、選択された単語の系列について、所定の文法規則に基づいた言語的なスコアである言語スコアが算出され、その言語スコアが所定の閾値以上である単語の系列が選択される。そして、記音響スコアおよび言語スコアに基づいて、言語スコア計算ステップにおいて選択された単語の系列の中から、音声認識結果とする単語の系列が選択される。このとき、音響スコアに基づいて選択された単語の系列に未知語が含まれている場合、その未知語については、音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する属性ブランチにより分類される品詞に基づいて、言語スコアが算出される。
【0053】
【発明の実施の形態】
図3は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図3の音声認識装置は、図1の音声認識装置と、基本的に同様に構成されている。
【0054】
但し、図3の音声認識装置の辞書データベース6には、図1の辞書データベース6に記憶された、音声認識の対象とする単語が登録された単語辞書(以下、適宜、標準辞書という)の他に、未知語を構成する要素であって、未知語を、その属性ごとに分類するための未知語構成要素が登録された未知語辞書も記憶されている。即ち、図3の実施の形態において、辞書データベース6に記憶された単語辞書は、標準辞書と未知語辞書とから構成されている。
【0055】
そして、図3の辞書データベース6の単語辞書においても、図1の辞書データベース6の単語辞書と同様に、単語ネットワークが構成されている。
【0056】
即ち、図3の辞書データベース6の単語辞書においては、例えば、図4に示すように、前述の図2における場合と同様の単語ネットワークが構成され、これが、標準辞書とされている。さらに、図3の辞書データベース6の単語辞書においては、ルートノードに、未知語を構成する音素や音素列である疑似単語の音韻が対応付けられた1以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その属性ごとに分類するための音韻(列)が対応付けられた1以上のブランチである属性ブランチが接続されることで、未知語に対処するための単語ネットワークが構成され、これが、未知語辞書とされている。
【0057】
即ち、図4の実施の形態において、未知語辞書は、ルートノードに、汎用ブランチと属性ブランチが順次接続されて構成されている。さらに、汎用ブランチには、ループとなるブランチ(以下、適宜、ループブランチという)が接続されている。汎用ブランチは、各種の音素や音素列である疑似単語の音韻が対応付けられた1以上のブランチで構成されるから、汎用ブランチを通り、ループブランチを経由して、再び、汎用ブランチを通ることを繰り返すことにより、すべての単語(標準辞書に登録されている単語、および未知語の両方を含む)は、疑似単語の系列として認識可能である。
【0058】
但し、発話された単語が、標準辞書に登録されている単語、または疑似単語の系列としての未知語のうちのいずれに認識されるかは、それぞれについて計算されるスコアに基づいて決定される。
【0059】
汎用ブランチには、ループブランチの他、上述したように、属性ブランチが接続されている。属性ブランチは、例えば、未知語を、その品詞ごとに分類するための接尾語の音韻(列)が対応付けられた1以上のブランチで構成されている。即ち、いま、音声認識の対象とする言語を、例えば、英語とすると、属性ブランチは、例えば、一般には英語の名詞の接尾語である"tion"や"ing"の音韻が対応付けられたブランチ、一般には英語の動詞の接尾語である"ed"の音韻が対応付けられたブランチ、一般には英語の形容詞の接尾語である"ive"の音韻が対応付けられたブランチ等で構成されている。
【0060】
図3のマッチング部4では、図1のマッチング部4と同様に、図4に示した単語辞書を構成する単語ネットワークのルートノードから延びるブランチの系列(パス)に沿って、音響モデルデータベース5に記憶された音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響スコアが計算される。これにより、最終的には、単語ネットワークの最後のノードに到達し、音響スコアが得られるが、即ち、例えば、音響モデルとして、HMMを用いる場合には、パスを構成するブランチの系列に沿って接続されたHMMに基づき、特徴量の系列を用いて音響スコアが計算され、これにより、その接続されたHMMの最後の状態において、ある時刻(極大時刻)で、音響スコアが、ある程度大きくなるが、その音響スコアが、その計算に用いたパスに対応する単語の音響スコアとされる。
【0061】
この場合、音響スコアの計算に用いられた特徴量の系列が、標準辞書に登録された単語の音声のものであれば、基本的には、標準辞書を構成する単語ネットワークのいずれかの単語に対応するパスに沿って計算された音響スコアが大きくなる。
【0062】
一方、音響スコアの計算に用いられた特徴量の系列が、標準辞書に登録されていない単語、即ち、未知語の音声のものであれば、未知語辞書を構成する単語ネットワークのいずれかのパスに沿って計算された音響スコアが大きくなる。
【0063】
即ち、未知語の接尾語を除いた語幹(または語根、基体、基底部)については、汎用ブランチを通り、ループブランチを経由して、再び、汎用ブランチを通ることを必要に応じて繰り返すことにより、ある程度大きな音響スコアが得られる。そして、未知語の接尾語については、その接尾語の音韻が対応付けられた属性ブランチを通ることにより、やはり、ある程度大きな音響スコアが得られる。従って、未知語については、汎用ブランチを所定回数通り、その後、所定の属性ブランチを通るパスに沿って計算される音響スコアが、他のパスに沿って計算される音響スコアよりも大きくなる。
【0064】
そして、未知語の音響スコアが大きくなるときに用いたパスを構成する属性ブランチによって、その未知語の品詞が得られることになる。即ち、そのパスを構成する属性ブランチが、"tion"や"ing"の音韻が対応付けられたものであれば、未知語の品詞は、名詞であると推定することができる。さらに、その属性ブランチが、"ed"の音韻が対応付けられたものであれば、動詞であると、また、"ive"の音韻が対応付けられたものであれば、形容詞であると、それぞれ推定することができる。
【0065】
次に、図5のフローチャートを参照して、図3の音声認識装置による連続音声認識処理について説明する。
【0066】
ユーザが発話を行うと、その発話としての音声は、マイク1およびAD変換部2を介することにより、ディジタルの音声データとされ、特徴抽出部3に供給される。特徴抽出部3は、ステップS1において、そこに供給される音声データから、音声の特徴量を、フレームごとに順次抽出し、マッチング部4に供給する。
【0067】
マッチング部4は、図示せぬバッファを内蔵しており、特徴抽出部3から供給される特徴量を一時記憶する。そして、マッチング部4は、ステップS2において、バッファに記憶した、必要な特徴量の系列を用いて、スコアの計算を行う。
【0068】
即ち、マッチング部4では、図4に示した単語辞書を構成する単語ネットワークのルートノードから延びるブランチの系列(パス)に沿って、音響モデルデータベース5に記憶された音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響スコアが計算される。これにより、最終的には、単語ネットワークの最後のノードに到達し、音響スコアが得られる。
【0069】
具体的には、例えば、音響モデルとして、HMMを用いる場合には、マッチング部4では、パスを構成するブランチの系列に沿って接続されたHMMに基づき、特徴量の系列を用いて音響スコアが計算されていく。この計算の過程で、接続されたHMMの最後の状態における音響スコアが、ある程度大きくなる時刻(極大時刻)があるが、その極大時刻における音響スコアが、その計算に用いたパスに対応する単語(本実施の形態では、標準辞書に登録された単語の他、未知語も含まれる)の音響スコアとされる。
【0070】
さらに、マッチング部4では、音響スコアの計算に用いた先頭の特徴量の時刻から、極大時刻までが、パスに対応する単語が発話された音声区間であると仮定され、その単語は、音声認識結果としての単語列を構成する単語の候補とされる。そして、その単語の候補の後に接続する単語の候補の音響スコアの計算が、単語ネットワークのルートノードから延びるブランチの系列(パス)に沿って接続されたHMMに基づき、極大時刻以後の特徴量の系列を用いて、再び行われる。
【0071】
マッチング部4において、以上の処理が繰り返されることにより、多数の音声認識結果の候補としての1以上の単語列が得られることとなるが、マッチング部4は、そのような多数の単語列の候補のうち、音響スコアが小さいものを破棄して、音響的な枝刈りを行うことにより、音響スコアが所定の閾値以上の単語列、つまり、音声認識結果として、ある程度、音響的に確からしい単語列だけを選択して、スコアの計算を続行していく。
【0072】
さらに、マッチング部4は、上述のようにして、音響スコアを計算しながら、音声認識結果としての単語列の候補を生成していく過程において、文法データベース7に登録された文法規則である、例えば、バイグラム(直前の単語との関係を考慮した単語の生起確率)やトライグラム(直前の単語およびそのさらに1つ前の単語との関係を考慮した単語の生起確率)等に基づき、音声認識結果の候補としての単語列を構成する単語の言語スコアを計算する。そして、マッチング部4は、その言語スコアが小さい単語を破棄して、言語的な枝刈りを行うことにより、言語スコアが所定の閾値以上の単語列、つまり、音声認識結果の候補として、ある程度、言語的に確からしい単語列だけを選択して、処理を続行していく。
【0073】
ここで、音声認識結果の候補としての単語列が、未知語を含む場合、その未知語については、その音響スコアを計算するときに用いたパスを構成する属性ブランチによって、その未知語の品詞が得られる。従って、未知語については、そのようにして得られた品詞に基づいて、文法規則(言語モデル)を適用することにより、精度の良い言語スコアを得ることができる。
【0074】
以上のように、マッチング部4は、単語の音響スコアおよび言語スコアを計算し、その音響スコアおよび言語スコアに基づいて、音響的および言語的な枝刈りを行うことで、音声認識結果の候補として確からしい単語列を選択し、その単語列の後に接続する単語の音響スコアおよび言語スコアを計算していくことを繰り返すことで、最終的には、音声区間(但し、音声区間は、何らかの手法によって検出するものとする)の全体に亘って、音声認識結果の候補となる1以上の単語列を得る。
【0075】
そして、ステップS3に進み、マッチング部4は、その1以上の単語列それぞれについて、例えば、前述の式(1)によって与えられる最終スコアを計算する。さらに、マッチング部4は、最終スコアが最も大きい単語列を選択し、その単語列を、最終的な音声認識結果として確定、出力して、処理を終了する。
【0076】
なお、特徴抽出部3による特徴量の抽出と、マッチング部4によるスコア計算とは、並列して行われる。
【0077】
また、マッチング部4では、音響的な枝刈りは、音声認識結果の候補となる単語列についてだけでなく、図4の単語ネットワークのパスについても行われる。即ち、マッチング部4は、パスに沿った音響スコアの計算を行っている過程において、ある程度大きな音響スコアを得ることができない見込みがたったときには、その時点で、そのパスに沿った音響スコアの計算を打ち切る。これにより、計算量が低減され、迅速な処理が可能となる。
【0078】
以上のように、ルートノードに、未知語を構成する音素や音素列である疑似単語の音韻が対応付けられた汎用ブランチを接続し、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻(列)が対応付けられた属性ブランチを接続することにより、未知語に対処するための単語ネットワークを構成し、これを用いて、音響スコアを計算するようにしたので、未知語の品詞を推定し、その品詞に基づいて、未知語の言語スコアを精度良く計算することが可能となる。その結果、未知語について、正確な言語スコアが求められないことによる音声認識精度の劣化を防止し、さらには、その改善を図ることが可能となる。
【0079】
なお、図4の実施の形態では、未知語の品詞を、その接尾語によって推定するようにしたが、その他、例えば、未知語の属性として、その意味内容を、その接頭語等によって推定し、言語スコアを適用することも可能である。
【0080】
さらに、未知語の属性として、例えば、その言語を推定することも可能である。
【0081】
即ち、未知語の言語を推定する場合、図3の辞書データベース6の単語辞書においては、例えば、図6に示すような単語ネットワークが構成される。
【0082】
図6においても、図4における場合と同様に、単語辞書は、標準辞書と未知語辞書とから構成されている。
【0083】
但し、図6では、ルートノードに、未知語の言語の音素や音素列である疑似単語の音韻が対応付けられた1以上のブランチである属性ブランチが接続されことで、未知語に対処するための単語ネットワークが構成され、これが、未知語辞書とされている。
【0084】
即ち、図6の実施の形態では、音声認識装置による音声認識の対象の言語が、基本的には、例えば、英語であるとして、その英語の単語によって、標準辞書が構成されている。
【0085】
そして、英語以外の言語L1とL2(例えば、フランス語とドイツ語など)それぞれについて、未知語辞書が構成されている。ここで、以下、適宜、言語L1またはL2についての未知語辞書を、それぞれ、L1語辞書またはL2語辞書という。
【0086】
L1語辞書は、ルートノードに、言語L1の音素や音素列である疑似単語の音韻が対応付けられた1以上の属性ブランチが接続され、さらに、その属性ブランチに、ループブランチが接続されることで構成されている。L2語辞書も、ルートノードに、言語L2の音素や音素列である疑似単語の音韻が対応付けられた1以上の属性ブランチが接続され、さらに、その属性ブランチに、ループブランチが接続されることで構成されている。
【0087】
従って、図6では、言語L1とL2の属性ブランチは、それぞれの言語の各種の音素や音素列である疑似単語の音韻が対応付けられた1以上のブランチで構成されるから、属性ブランチを通り、ループブランチを経由して、再び、属性ブランチを通ることを繰り返すことにより、言語L1とL2それぞれの単語は、疑似単語の系列として認識可能である。
【0088】
但し、この場合、図3の音響モデルデータベース5には、英語の音響モデルの他、言語L1とL2それぞれの各種の音素や音素列の音響モデルも記憶されていることが必要である。
【0089】
図6に示した単語ネットワークを構成する単語辞書を用いる場合には、マッチング部4では、図4の単語辞書を用いる場合と同様に、図6の単語辞書を構成する単語ネットワークのルートノードから延びるブランチの系列(パス)に沿って、音響モデルデータベース5に記憶された音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響スコアが計算される。これにより、最終的には、単語ネットワークの最後のノードに到達し、音響スコアが得られるが、即ち、例えば、音響モデルとして、HMMを用いる場合には、パスを構成するブランチの系列に沿って接続されたHMMに基づき、特徴量の系列を用いて音響スコアが計算され、これにより、その接続されたHMMの最後の状態において、ある時刻(極大時刻)で、音響スコアが、ある程度大きくなるが、その音響スコアが、その計算に用いたパスに対応する単語の音響スコアとされる。
【0090】
この場合、音響スコアの計算に用いられた特徴量の系列が、標準辞書に登録された英語の単語の音声のものであれば、基本的には、標準辞書を構成する単語ネットワークのいずれかの単語に対応するパスに沿って計算された音響スコアが大きくなる。
【0091】
一方、音響スコアの計算に用いられた特徴量の系列が、標準辞書に登録されていない単語、即ち、未知語としての言語L1やL2の単語の音声のものであれば、未知語辞書(ここでは、L1語辞書またはL2語辞書)を構成する単語ネットワークのいずれかのパスに沿って計算された音響スコアが大きくなる。
【0092】
即ち、未知語としての言語L1またはL2の単語の音声については、それぞれ、言語L1またはL2の属性ブランチを通り、ループブランチを経由して、再び、言語L1またはL2の属性ブランチを通ることを必要に応じて繰り返すことにより、他のパスに沿って計算される音響スコアよりも、大きな音響スコアが得られる。
【0093】
そして、未知語の音響スコアが大きくなるときに用いたパスを構成する属性ブランチによって、その未知語の言語が得られることになる。即ち、そのパスを構成する属性ブランチが、言語L1またはL2の属性ブランチであれば、未知語の言語は、言語L1またはL2の単語であると、それぞれ推定することができる。
【0094】
従って、この場合、例えば、辞書データベース6に、図6に示したような単語辞書に加えて、言語L1とL2それぞれについて、図6の標準辞書と同様に構成される単語辞書を記憶しておけば、未知語の言語が、言語L1またはL2であると推定された後に、使用する単語辞書を、その推定された言語の単語辞書に切り替えて、スコアの計算をやり直すことにより、その推定された言語による発話を、精度良く音声認識することが可能となる。
【0095】
なお、上述の場合には、未知語の言語として、2つの言語の推定を行うようにしたが、1つの言語だけや、3以上の言語の推定を行うようにすることも可能である。
【0096】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0097】
そこで、図7は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0098】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
【0099】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
【0100】
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
【0101】
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
【0102】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0103】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0104】
なお、本実施の形態では、音響モデルとして、HMMを用いることとしたが、音響モデルとしては、その他、例えば、ニューラルネットワークに基づくモデル等を用いることも可能である。
【0105】
また、本実施の形態では、マッチング部4で用いる単語辞書に、未知語を構成する要素であって、未知語を、その属性ごとに分類するための未知語構成要素が登録された未知語辞書を含めるようにしたが、未知語辞書は、その他、例えば、マッチング部4でスコア計算の対象とする1以上の単語を予備的に選択する、いわゆる予備選択を行う音声認識装置において、その予備選択に用いる単語辞書に含めるようにすることも可能である。
【0106】
さらに、本実施の形態では、単語の先頭の音韻が同一のものについて、その先頭の音韻から、同一になっている音韻までは、音響モデルを共通に用い、それ以後の音韻には、音響モデルを個々に用いることにより、全体として1つの木構造の単語ネットワークを構成し、これに基づいて、音響スコアを計算するようにしたが、単語の音響スコアの計算は、各単語について、個別に、音響モデルを接続し、単語ごとに独立に行うことも可能である。
【0107】
また、図4の実施の形態では、汎用ブランチに、ループブランチを接続し、未知語の語幹について、汎用ブランチを通り、ループブランチを経由して、再び、汎用ブランチを通ることを必要に応じて繰り返すことにより、その音響スコアを計算することとしたが、未知語の語幹については、その他、例えば、ループブランチを用いずに、汎用ブランチを必要な数だけシリーズに接続して、その音響スコアを、ビタビ法によって計算することが可能である。図6のループブランチが接続された属性ブランチについても、同様である。
【0108】
さらに、本実施の形態では、英語を、音声認識の対象としたが、本発明は、英語以外の言語を対象に音声認識を行う場合にも適用可能である。
【0109】
【発明の効果】
本発明の音声認識装置および音声認識方法、並びに記録媒体によれば、未知語の、例えば、品詞等の属性を推定することが可能となり、その結果、未知語に起因する音声認識精度の劣化を防止することが可能となる。
【図面の簡単な説明】
【図1】従来の音声認識装置の一例の構成を示すブロック図である。
【図2】図1の辞書データベース6に記憶された単語辞書の構成例を示す図である。
【図3】本発明を適用した音声認識装置の一実施の形態の構成例を示すブロック図である。
【図4】図3の辞書データベース6に記憶された単語辞書の構成例を示す図である。
【図5】図3の音声認識装置の処理を説明するためのフローチャートである。
【図6】図3の辞書データベース6に記憶された単語辞書の他の構成例を示す図である。
【図7】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 マイク, 2 AD変換部, 3 特徴抽出部, 4 マッチング部, 5 音響モデルデータベース, 6 辞書データベース, 7 文法データベース, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (7)

  1. 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を連続音声認識する音声認識装置であって、
    前記音声から、その特徴量を抽出する抽出手段と、
    ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた1以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた1以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、前記特徴量の系列を用いて、音響的な前記スコアである音響スコアを算出し、その音響スコアが所定の閾値以上である前記単語の系列を選択する音響スコア計算手段と、
    前記音響スコア計算手段により選択された前記単語の系列について、所定の文法規則に基づいた言語的な前記スコアである言語スコアを算出し、その言語スコアが所定の閾値以上である前記単語の系列を選択する言語スコア計算手段と、
    前記音響スコアおよび前記言語スコアに基づいて、前記言語スコア計算手段により選択された前記単語の系列の中から、音声認識結果とする前記単語の系列を選択する選択手段と
    を備え、
    前記言語スコア計算手段は、前記音響スコア計算手段により選択された前記単語の系列に未知語が含まれている場合、その未知語については、前記音響スコア計算手段が音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する前記属性ブランチにより分類される品詞に基づいて、言語スコアを算出する
    ことを特徴とする音声認識装置。
  2. 前記辞書には、接尾語が、前記属性ブランチとして登録されている
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記辞書には、前記接尾語とともに、未知語を構成する音韻が登録されている
    ことを特徴とする請求項2に記載の音声認識装置。
  4. 前記辞書には、未知語を、その言語ごとに分類するための属性ブランチが登録されている
    ことを特徴とする請求項1に記載の音声認識装置。
  5. 前記辞書をさらに備える
    ことを特徴とする請求項1に記載の音声認識装置。
  6. 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を連続音声認識する音声認識方法であって、
    前記音声から、その特徴量を抽出する抽出ステップと、
    ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた1以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた1以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、前記特徴量の系列を用いて、音響的な前記スコアである音響スコアを算出し、その音響スコアが所定の閾値以上である前記単語の系列を選択する音響計算ステップと、
    前記音響スコア計算ステップにおいて選択された前記単語の系列について、所定の文法規則に基づいた言語的な前記スコアである言語スコアを算出し、その言語スコアが所定の閾値以上である前記単語の系列を選択する言語スコア計算ステップと、
    前記音響スコアおよび前記言語スコアに基づいて、前記言語スコア計算ステップにおいて選択された前記単語の系列の中から、音声認識結果とする前記単語の系列を選択する選択ステップと
    を備え、
    前記言語スコア計算ステップでは、前記音響スコア計算ステップにおいて選択された前記単語の系列に未知語が含まれている場合、その未知語については、前記音響スコア計算ステップにおいて音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する前記属性ブランチにより分類される品詞に基づいて、言語スコアを算出する
    ことを特徴とする音声認識方法。
  7. 入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を連続音声認識する音声認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    前記音声から、その特徴量を抽出する抽出ステップと、
    ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた1以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた1以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、前記特徴量の系列を用いて、音響的な前記スコアである音響スコアを算出し、その音響スコアが所定の閾値以上である前記単語の系列を選択する音響計算ステップと、
    前記音響スコア計算ステップにおいて選択された前記単語の系列について、所定の文法規則に基づいた言語的な前記スコアである言語スコアを算出し、その言語スコアが所定の閾値以上である前記単語の系列を選択する言語スコア計算ステップと、
    前記音響スコアおよび前記言語スコアに基づいて、前記言語スコア計算ステップにおいて選択された前記単語の系列の中から、音声認識結果とする前記単語の系列を選択する選択ステップと
    を備え、
    前記言語スコア計算ステップでは、前記音響スコア計算ステップにおいて選択された前記単語の系列に未知語が含まれている場合、その未知語については、前記音響スコア計算ステップにおいて音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する前記属性ブランチにより分類される品詞に基づいて、言語スコアを算出する
    プログラムが記録されている
    ことを特徴とする記録媒体。
JP2000069698A 2000-03-14 2000-03-14 音声認識装置および音声認識方法、並びに記録媒体 Expired - Fee Related JP4543294B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2000069698A JP4543294B2 (ja) 2000-03-14 2000-03-14 音声認識装置および音声認識方法、並びに記録媒体
US09/804,354 US20010053974A1 (en) 2000-03-14 2001-03-12 Speech recognition apparatus, speech recognition method, and recording medium
EP01302284A EP1134727A3 (en) 2000-03-14 2001-03-13 Sound models for unknown words in speech recognition
CNB011192038A CN1199148C (zh) 2000-03-14 2001-03-14 语音识别装置、语音识别方法
US10/785,246 US7249017B2 (en) 2000-03-14 2004-02-24 Speech recognition with score calculation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000069698A JP4543294B2 (ja) 2000-03-14 2000-03-14 音声認識装置および音声認識方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2001255889A JP2001255889A (ja) 2001-09-21
JP4543294B2 true JP4543294B2 (ja) 2010-09-15

Family

ID=18588531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000069698A Expired - Fee Related JP4543294B2 (ja) 2000-03-14 2000-03-14 音声認識装置および音声認識方法、並びに記録媒体

Country Status (4)

Country Link
US (2) US20010053974A1 (ja)
EP (1) EP1134727A3 (ja)
JP (1) JP4543294B2 (ja)
CN (1) CN1199148C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384730B2 (en) 2013-05-30 2016-07-05 International Business Machines Corporation Pronunciation accuracy in speech recognition
US10410624B2 (en) 2016-03-17 2019-09-10 Kabushiki Kaisha Toshiba Training apparatus, training method, and computer program product
US10964313B2 (en) 2016-03-17 2021-03-30 Kabushiki Kaisha Toshiba Word score calculation device, word score calculation method, and computer program product

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
CN1714390B (zh) * 2002-11-22 2010-12-22 微差通信奥地利有限责任公司 语音识别设备和方法
US7379867B2 (en) * 2003-06-03 2008-05-27 Microsoft Corporation Discriminative training of language models for text and speech classification
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US7529668B2 (en) * 2004-08-03 2009-05-05 Sony Corporation System and method for implementing a refined dictionary for speech recognition
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法
JP4301515B2 (ja) * 2005-01-04 2009-07-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 文章表示方法、情報処理装置、情報処理システム、プログラム
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
JP4741452B2 (ja) * 2006-11-21 2011-08-03 日本放送協会 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP5120749B2 (ja) * 2007-12-25 2013-01-16 株式会社国際電気通信基礎技術研究所 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
CN102572839B (zh) * 2010-12-14 2016-03-02 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US9275636B2 (en) 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
TWI475558B (zh) * 2012-11-08 2015-03-01 Ind Tech Res Inst 詞語驗證的方法及裝置
US9565080B2 (en) 2012-11-15 2017-02-07 Microsoft Technology Licensing, Llc Evaluating electronic network devices in view of cost and service level considerations
US9269352B2 (en) * 2013-05-13 2016-02-23 GM Global Technology Operations LLC Speech recognition with a plurality of microphones
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
JP6453631B2 (ja) * 2014-11-28 2019-01-16 株式会社東芝 認識システム、認識方法およびプログラム
US10402435B2 (en) 2015-06-30 2019-09-03 Microsoft Technology Licensing, Llc Utilizing semantic hierarchies to process free-form text
US9959328B2 (en) * 2015-06-30 2018-05-01 Microsoft Technology Licensing, Llc Analysis of user text
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN106328123B (zh) * 2016-08-25 2020-03-20 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
EP3511931A4 (en) * 2016-09-09 2019-08-21 Sony Corporation SPEECH PROCESSING DEVICE, INFORMATION PROCESSING DEVICE, SPEECH PROCESSING METHOD, AND INFORMATION PROCESSING METHOD
US10311046B2 (en) * 2016-09-12 2019-06-04 Conduent Business Services, Llc System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences
CN106228984A (zh) * 2016-10-18 2016-12-14 江西博瑞彤芸科技有限公司 语音识别信息获取方法
CN106548787B (zh) * 2016-11-01 2019-07-09 云知声(上海)智能科技有限公司 优化生词的评测方法及评测系统
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10679008B2 (en) 2016-12-16 2020-06-09 Microsoft Technology Licensing, Llc Knowledge base for analysis of text
WO2018123139A1 (ja) * 2016-12-27 2018-07-05 シャープ株式会社 応答装置、応答装置の制御方法、および制御プログラム
US10643601B2 (en) 2017-02-09 2020-05-05 Semantic Machines, Inc. Detection mechanism for automated dialog systems
KR102466652B1 (ko) * 2017-03-30 2022-11-15 엔에이치엔 주식회사 메시지 정보 통합 관리 서비스를 위한 모바일 장치, 메시지 정보 통합 관리 제공 방법 및 컴퓨터로 판독 가능한 저장매체
CN110168535B (zh) * 2017-10-31 2021-07-09 腾讯科技(深圳)有限公司 一种信息处理方法及终端、计算机存储介质
CN110797026A (zh) * 2019-09-17 2020-02-14 腾讯科技(深圳)有限公司 一种语音识别方法、装置及存储介质
US11501067B1 (en) * 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置
JP2022082049A (ja) * 2020-11-20 2022-06-01 パナソニックIpマネジメント株式会社 発話評価方法および発話評価装置
GB2603805A (en) * 2021-02-15 2022-08-17 Eaton Intelligent Power Ltd Method, device, computer program and computer readable storage medium for determining a command
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
CN113990293A (zh) * 2021-10-19 2022-01-28 京东科技信息技术有限公司 语音识别方法及装置、存储介质、电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04141771A (ja) * 1990-10-03 1992-05-15 Fujitsu Ltd 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置
JPH075891A (ja) * 1993-06-16 1995-01-10 Canon Inc 音声対話方法および装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5283833A (en) * 1991-09-19 1994-02-01 At&T Bell Laboratories Method and apparatus for speech processing using morphology and rhyming
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
US5832428A (en) * 1995-10-04 1998-11-03 Apple Computer, Inc. Search engine for phrase recognition based on prefix/body/suffix architecture
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
DE19639844A1 (de) * 1996-09-27 1998-04-02 Philips Patentverwaltung Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
JP3992348B2 (ja) * 1997-03-21 2007-10-17 幹雄 山本 形態素解析方法および装置、並びに日本語形態素解析方法および装置
US5956668A (en) * 1997-07-18 1999-09-21 At&T Corp. Method and apparatus for speech translation with unrecognized segments
DE19742054A1 (de) * 1997-09-24 1999-04-01 Philips Patentverwaltung Eingabesystem wenigstens für Orts- und/oder Straßennamen
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
US6195634B1 (en) * 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
EP0982712B1 (en) * 1998-08-28 2007-09-26 International Business Machines Corporation Segmentation technique increasing the active vocabulary of speech recognizers
US6161092A (en) * 1998-09-29 2000-12-12 Etak, Inc. Presenting information using prestored speech
US6598016B1 (en) * 1998-10-20 2003-07-22 Tele Atlas North America, Inc. System for using speech recognition with map data
DE59901575D1 (de) * 1998-10-27 2002-07-04 Siemens Ag Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
US6401068B1 (en) * 1999-06-17 2002-06-04 Navigation Technologies Corp. Method and system using voice commands for collecting data for a geographic database
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6598018B1 (en) * 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US6490521B2 (en) * 2000-12-28 2002-12-03 Intel Corporation Voice-controlled navigation device utilizing wireless data transmission for obtaining maps and real-time overlay information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04141771A (ja) * 1990-10-03 1992-05-15 Fujitsu Ltd 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置
JPH075891A (ja) * 1993-06-16 1995-01-10 Canon Inc 音声対話方法および装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384730B2 (en) 2013-05-30 2016-07-05 International Business Machines Corporation Pronunciation accuracy in speech recognition
US9978364B2 (en) 2013-05-30 2018-05-22 International Business Machines Corporation Pronunciation accuracy in speech recognition
US10410624B2 (en) 2016-03-17 2019-09-10 Kabushiki Kaisha Toshiba Training apparatus, training method, and computer program product
US10964313B2 (en) 2016-03-17 2021-03-30 Kabushiki Kaisha Toshiba Word score calculation device, word score calculation method, and computer program product

Also Published As

Publication number Publication date
CN1320902A (zh) 2001-11-07
EP1134727A2 (en) 2001-09-19
JP2001255889A (ja) 2001-09-21
US20040167779A1 (en) 2004-08-26
EP1134727A3 (en) 2001-11-28
US20010053974A1 (en) 2001-12-20
CN1199148C (zh) 2005-04-27
US7249017B2 (en) 2007-07-24

Similar Documents

Publication Publication Date Title
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US7240002B2 (en) Speech recognition apparatus
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
JP4757936B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
US7181391B1 (en) Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system
CN112435654A (zh) 通过帧插入对语音数据进行数据增强
CN100354929C (zh) 语音处理设备、语言处理方法
JP3535292B2 (ja) 音声認識システム
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
US20040006469A1 (en) Apparatus and method for updating lexicon
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JP2000075885A (ja) 音声認識装置
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2002149188A (ja) 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP4696400B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
Lyu et al. Modeling pronunciation variation for bi-lingual Mandarin/Taiwanese speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100603

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100616

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees