JP4890518B2 - 複数言語モデルによる統合音声認識装置 - Google Patents

複数言語モデルによる統合音声認識装置 Download PDF

Info

Publication number
JP4890518B2
JP4890518B2 JP2008222593A JP2008222593A JP4890518B2 JP 4890518 B2 JP4890518 B2 JP 4890518B2 JP 2008222593 A JP2008222593 A JP 2008222593A JP 2008222593 A JP2008222593 A JP 2008222593A JP 4890518 B2 JP4890518 B2 JP 4890518B2
Authority
JP
Japan
Prior art keywords
speech recognition
recognition
model
utterance
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008222593A
Other languages
English (en)
Other versions
JP2010055020A (ja
Inventor
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008222593A priority Critical patent/JP4890518B2/ja
Publication of JP2010055020A publication Critical patent/JP2010055020A/ja
Application granted granted Critical
Publication of JP4890518B2 publication Critical patent/JP4890518B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は音声認識装置に関し、特に、複数の言語モデルを並列処理して最適な結果を統合する音声認識装置に関する。
近年、インターネット等のコンピュータネットワークを介する情報処理技術分野において、ネットワーク資源に記憶された各種の音声情報に内容索引を付与し、膨大化する音声情報の資源管理及び利用者のアクセスを効率化することが求められている。
従来、音声情報への内容索引の付与に関し、音声認識結果として出力される候補文字列を用いる音声情報検索装置等が知られている(特許文献1)。これによれば、データベースから抽出した索引文字列を用いて、音声認識の出力を利用者が選択できるとしている。
また、複数の話題に対応する音声認識方式として、汎用言語モデルを用いてデコードした結果から、話題混合比率を推定して言語モデルを話題適応化する方式が知られている(非特許文献1〜5)。これらの技法においては、音声認識に先だって話題判定を行い、音声認識の段階においては1つの言語モデルを用いている。
特開平10−49187号公報 R.M.Iyer and M.Ostendorf, "Modeling Long Distance Dependence in Language:Topic Mixtures Versus Dynamic Cache Models", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 7, NO. 1, JANUARY 1999 Langzhou Chen, Jean-Luc Gauvain, Lori Lamel, Gilles Adda and Martine Adda, "USING INFORMATION RETRIEVAL METHODS FOR LANGUAGE MODEL ADAPTATION", EuroSpeech, pp.255-258, 2001 Daniel Gildea and Thomas Hofmann, "TOPIC-BASED LANGUAGE MODELS USING EM", EuroSpeech, pp.2167-2170, 1999. 秋田、河原、「話題と話者に関するPLSAに基づく言語モデル適応」、(社)情報処理学会研究報告、pp67−72、2003年12月18日 Aaron Heidel, Hung-an Chang, and Lin-shan Lee, "Language Model Adaptation Using Latent Dirichlet Allocation and an Efficient Topic Inference Algorithm", pp2361-2364, INTERSPEECH 2007
しかし、従来技術及び従来技術の組み合わせでは、汎用言語モデルを用いることにより多様な音声情報に対する音声認識の精度が十分ではなく、さらに分散計算機への適合性(スケーラビリティ)を確保しにくかった。また、従来技術及び従来技術の組み合わせでは、発話ごとに最適な単語列の選択が可能であっても、発話間の相関を考慮しないため、音声認識の精度に限界があった。
本発明は、1つの講演等に対して複数の話題言語モデルを用意して同時並列に音声認識を実施し、音声認識の後に言語モデルを選択することにより、発話単位で最適な音声認識結果を選択し、高い精度で音声認識を実施可能な音声認識の方法を提供することを目的とする。また、本発明においては、このような構成を用いることにより、言語モデルの選択結果において、1つの講演内での発話間の相関を利用し、発話内の単語列の妥当性を評価しうることにより、さらに高い音声認識の精度を得られることを目的とする。
本発明では、以下のような解決手段を提供する。
(1) 連続する発話を音声認識するための音声認識装置であって、入力された発話から特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識部を少なくとも2つ備えて複数モデル依存認識結果を生成する音声認識部と、前記複数モデル依存認識結果から、前記入力された発話に対応する最適な認識結果を選択する認識結果選択部とを含み、前記モデル依存音声認識部のそれぞれは、他のモデル依存音声認識部と言語モデル又は音響モデルのいずれかが異なる、音声認識装置。
本発明に係る音声認識装置は、特定の言語モデル又は音響モデルに基づいて音声認識を実施するモデル依存音声認識部を少なくとも2つ備え、これらのモデル依存音声認識部は互いに話題の異なる言語モデル又は特徴量の異なる音響モデル等を有し、同じ発話から同時に並列して個別に異なる認識結果を生成しうる。すなわち、1つの発話に対してこれらの少なくとも2つのモデル依存音声認識部が生成する複数モデル依存認識結果から、最適な音声認識結果を選択しうることが本発明の特徴でありうる。
本発明に係る音声認識装置が有するモデル依存音声認識部は、少なくとも1つの言語モデル又は音響モデルを用いて、入力された発話に対する音声認識を実施しうる。この言語モデル又は音響モデルは、当業に公知の任意の言語モデル又は音響モデルを用いうる。言語モデルは、含まれる単語、単語の頻出度、特定の語句の用法、接続の前後関係等の情報等を任意に含んでもよく、また音響モデルは発話区間の長さ、周波数帯域、音圧、特定の発話区間内の周波数変化等の情報を任意に含んでもよい。言語モデル又は音響モデルは、モデル依存音声認識部と独立して相互に接続可能なコンピュータ装置等に記憶されてもよく、モデル依存音声認識部に含まれてもよく、適宜設定しうる。音響モデルを用いる場合に、例えば4つのモデル依存音声認識部を用意し、それぞれ別個に成人男性用、成人女性用、子供用、高齢者用としてもよい。あるいは標準語、方言−1、方言−2等の音響モデルをそれぞれ独立したモデル依存音声認識部に別個に接続してもよい。
少なくとも2つのモデル依存音声認識部が生成する複数モデル依存認識結果は、典型的には入力された発話の数と、モデル依存音声認識部の数との積で表される、音声認識された結果を含みうる。例えば、入力された発話の数が5個であり、これを3つのモデル依存音声認識部に入力する場合には、複数モデル依存認識結果として15個の音声認識された結果が生成される。本発明に係る認識結果選択部は、このようにして得られる発話数とモデル依存音声認識部の数との積で表される結果から、最適な認識結果を選択しうる。また、本発明に係る認識結果選択部により選択される認識結果の数は、入力された発話の数と同一でありうる。前述の例においては、入力された発話の数である5個と同一の個数であって時間的順序が対応する5個の認識結果が、認識結果選択部において選択されうる。
一実施形態において、少なくとも2つのモデル依存音声認識部のそれぞれは独立して言語モデルと接続し、これらの言語モデルの言語は国語及び任意の外国語から選ばれてもよい。あるいは、これらの言語モデルの言語は互いに地域の異なる特定の方言等でもよい。
本発明に係る音声認識装置に入力される発話においては、1つの発話又は複数の発話に含まれる単語又は複数の単語の間に共起性を計算しうる。当該共起性としては当業に公知の共起頻度、Jaccard係数、Simpson係数、コサイン距離等を任意に用いうる。発話は適宜分割してもよく、分割された発話ごとに、当該分割された発話に共起性が計算可能な単語又は複数の単語が含まれればよい。当該分割は、独立語を1つの発話として実施してもよい。
このように構成することにより、本発明に係る音声認識装置においては、1つの発話に対して得られる少なくとも2つの認識結果、すなわち複数モデル依存認識結果をいったん得た後に、これらの中から入力された発話に対応する最適な認識結果を選択しうる。従って、1つの言語モデル又は音響モデルに基づいて音声認識を実施する従来の技法と比較して、高い正解精度を有する認識結果を提供することが可能になる。
(2) さらに、前記複数モデル依存認識結果に対して、発話に対する認識結果のあいだの相関を計算する発話間相関評価部と、前記複数モデル依存認識結果に対して、含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定部とを含み、前記認識結果選択部は、前記発話間相関評価部及び単語連鎖妥当性判定部の計算結果を用いて、前記複数モデル依存認識結果から、前記入力された発話に対応する最適な発話認識結果を選択する、(1)に記載の音声認識装置。
発話間相関評価部においては、複数モデル依存認識結果に含まれる発話に対する認識結果のあいだの相関が計算されうる。本発明に係る発話間相関は、言語モデルや音響モデルの構成要素とは独立して計算されてもよい。すなわち発話間の相関の計算は、言語モデルにおける単語、音響モデルにおける発話の長さ、周波数変化等に限定せず、例えば、音素単位や単語列(フレーズ)単位でも実施しうる。あるいはこれらの構成要素を任意に組み合わせて相関を評価してもよい。相関を計算する単語は隣接でも遠隔でもよい。
一実施形態において、本発明に係る音声認識装置は複数モデル依存認識結果から単語又は単語列の相関を計算し、この相関は発話に含まれるキーワードの共起性等でありうる。すなわち、それぞれのモデル依存音声認識部ごとに音声認識された結果に対して、発話間相関評価は当該結果に含まれる複数の単語の相関を計算しうる。また、必ずしも同じ単語でなくても、一連の発話の中に共起性の高い単語が見出される場合に、本発明に係る発話間相関評価部は共起性に基づいてそのような単語の組が認識結果となるように動作しうる。
別の実施形態において、本発明に係る音声認識装置は、並列動作する複数のモデル依存音声認識部A、同B、…、同Zを含み、それぞれに独立して言語モデルA、同B、…、同Zを接続し、一連の発話の入力を適宜分割し、分割した発話に発話1、発話2、…、発話N等の順序を割り当て、この順番で並列動作する複数のモデル依存音声認識部に入力しうる。例えば、第3番目の発話に対する言語モデルAの認識結果に「銀行」という単語が含まれ、第7番目の発話に対する言語モデルBの認識結果にも「銀行」という単語が含まれているときには、単語の相関に基づいて、第3番目の発話に対しては言語モデルAが、第7番目の発話に対しては言語モデルBの結果が選ばれやすくなりうる。このように、本発明においては、発話ごとに複数の認識結果があり、各発話に対して1つの結果を選択するときに、同じ単語の出現回数が高まるような選択を好むような処理を実施しうる。また、例えば、前述のように第3番目の発話で言語モデルA、第7番目の発話で言語モデルBに高い相関を有する単語が含まれる場合に、第15番目の発話に対して言語モデルEを選ぶと「銀行」が3回出現するならば、そのように言語モデルを選択することが本発明に係る発話間相関評価部の好適な動作(認識結果)でありうる。
さらに別の実施形態において、前述のように第3番目の発話の言語モデルAの認識結果に単語「銀行」が含まれ、第7番目の発話の言語モデルBの認識結果に単語「預金」が含まれている場合に、本発明に係る発話間相関評価部はこれらの単語の共起性が高いことに基づいて、第7番目の発話が第3番目の発話と高い相関を有するという情報を生成しうる。これにより、本発明に係る音声認識装置の第7番目の発話の認識結果には言語モデルBに基づく認識結果が含まれやすくなりうる。
複数モデル依存認識結果に含まれる音響モデルの特徴量についても、入力された発話に対して音響モデルの特徴量の相関を評価しうる。例えば、連続する発話の入力に対して、成人男性用、成人女性用、子供、高齢者用の音響モデル等を個別にモデル依存音声認識部A、同B、…、同Z等に接続し、それぞれの認識結果に含まれる音響モデルの特徴量の間の相関を評価しうる。例えば、入力音声の途中で話者が交代する場合、本発明に係る発話間相関評価部の動作においては、隣接する発話に対しては同じ種類の音響モデルに基づく認識結果が相互に高い相関を有しうるが、話者交代が発生する前後の発話に対してはこれよりも相関の評価は低くなりうる。従って、本発明に係る音声認識装置の認識結果は、隣接する発話に対しては同じ種類の音響モデルに基づく認識結果を含み、話者交代が発生する前後の発話に対しては異なる音響モデルに基づく認識結果を含みうる。
このようにして、種々の言語モデル又は音響モデルを知識源として用いて発話間相関評価部を動作させることにより、発話に含まれる単語又は単語列の共起性、音響モデルの特徴量の相関の高さ等を、認識結果と関連付けることが可能になる。
単語連鎖妥当性判定部においては、複数モデル依存認識結果に含まれる単語の連鎖の妥当性が計算されうる。この連鎖の妥当性は、認識結果の日本語としての妥当性等でありうる。単語連鎖妥当性判定部における判定は、言語モデル又は音響モデルに限定せず、これら以外の知識源を用いて実施してもよい。
一実施形態において、単語連鎖妥当性判定部は、複数モデル依存認識結果に含まれる内容語連鎖等の単語列をクエリとして、インターネット検索サービスを利用しうる。インターネット検索サービスは公知の検索サービスを任意に利用してもよい。検索サービスの結果が得られない場合に、単語連鎖妥当性判定部は、複数モデル依存認識結果に含まれる当該単語列が日本語としての妥当性の低い誤認識であると判定してもよい。さらに、このような誤認識の場合に、単語連鎖妥当性判定部は、当該単語列にペナルティスコアを付与してもよい。このペナルティスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、言語モデル又は音響モデル以外にも、インターネット検索サービス等の知識源を用いて、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。
認識結果選択部の動作は、前述のように最適な認識結果を選択することでありうる。本発明に係る音声認識装置においては、認識結果選択部は、さらに発話間相関評価部及び単語連鎖妥当性判定部がそれぞれ生成した情報を用いて、認識結果の正解精度を高めうる。
具体的には、発話間相関評価部の計算値は、認識結果選択部がより共起性の高い認識結果を優先して選択するために用いうる。単語連鎖妥当性判定部のペナルティスコア等の計算値は、認識結果選択部がより妥当性の高い認識結果を選択するために用いうる。
このようにして、発話間相関評価部及び単語連鎖妥当性判定部と協動することにより、認識結果選択部は認識結果の正解精度を高めうる。
(3) 前記発話間相関評価部は、さらに認識結果の共起性を評価する、(2)に記載の音声認識装置。
本発明に係る音声認識装置の発話間相関評価部においては、前述のように発話に対する認識結果のあいだの相関が計算され、さらに認識結果の共起性が評価されうる。当該認識結果は、言語モデルに基づく単語又は単語列(フレーズ)等を含みうる。
一実施形態において、1つの発話にはそれ自身の範囲内において共起性を計算可能な単語を含み、発話間相関評価部は当該1つの発話内の共起性を計算しうる。本発明に係る音声認識装置の発話間相関評価部は、さらに、一連の発話における単語の共起性を計算しうる。例えば、1つの講演に含まれる複数の単語の共起性が計算される。この一連の発話は、分割された発話でもよい。すなわち、本発明に係る音声認識装置に入力された発話が、1つの発話の範囲内において共起性を計算可能な単語を含む条件の下で適宜分割され、当該分割された一連の発話に対して、発話間相関評価部が共起性を計算してもよい。
一実施形態において、発話間相関評価部は、発言者の異なる一連の発話において単語の共起性を評価しうる。別の実施形態において、発話間相関評価部は、同一の発言者の発話が適宜分割された後に、分割された一連の発話において単語の共起性を評価しうる。これらの動作により、同一の発言者又は複数の異なる発言者の発話に対して、一連の発話に含まれる単語の共起性が計算されうる。後続の認識結果選択部は、認識結果に含まれる単語の共起性の大きさを用いて、認識結果を選択しうる。すなわち、共起性の大きな認識結果を用いるほど正解精度は高くなりうる。
このようにして、本発明に係る音声認識装置の発話間相関評価部は、一連の複数の発話に対して共起性を計算することにより、音声認識の結果の正解精度を高めるための情報を生成しうる。
(4) 前記発話間相関評価部が計算する前記相関は、認識対象の発話に対して、それぞれの前記モデル依存音声認識部ごとに独立したキャッシュを用いる、(2)に記載の音声認識装置。
(5) 前記発話間相関評価部が計算する前記相関は、認識対象の発話に対して、前記少なくとも1つの言語モデル又は音響モデルの全てに基づく最尤仮説のみをキャッシュに含めて用いる、(2)に記載の音声認識装置。
(6) 前記発話間相関評価部が計算する前記相関は、認識対象の発話ごとに全てのモデル依存音声認識部から出力される複数の認識結果候補を用い、前記認識結果候補は全てのモデル依存音声認識部に対して用意される共通のキャッシュに格納される、(2)に記載の音声認識装置。
本発明に係る音声認識装置においては、発話間相関評価部は、特定の言語モデル又は音響モデルを用いて認識した結果(音声認識の仮説)から、最適な音声認識の結果を選択するためのスコアを算出しうる。具体的には当該スコアは、発話間の単語相関等であり、当業に公知の共起頻度、Jaccard係数、Simpson係数、コサイン距離等の計算手法を用いて共起性を計算してもよく、キャッシュモデル(非特許文献6)を用いてスコアリングを実施してもよい。
非特許文献6Kuhn et al., IEEE Trans. PAMI, vol.12, no.6, pp.570-583, 1990.
特定の実施形態において、キャッシュモデルによる音声認識の仮説に対するスコアリングにおいては、第z番目の言語モデルLMによる仮説hのリスコアリングに用いる言語モデルLM’を次式で表しうる。
Figure 0004890518
式中、P(w)はキャッシュC中の単語wの出現確率、λは内挿パラメータである。キャッシュには認識対象音声中の一連の発話(t=1〜T:tは発話の時間的順序、Tは最終の発話)の仮説を含めうる。このキャッシュは、次の態様を含む:
[1]認識対象の発話に対して、少なくとも1つの言語モデル又は音響モデルごとに独立したキャッシュを用いる態様;
[2]認識対象の発話に対して、少なくとも1つの言語モデル又は音響モデルの全てに基づく最尤仮説のみをキャッシュに含めて用いる態様;又は、
[3]認識対象の発話に対して、少なくとも1つの言語モデル又は音響モデルの全てのキャッシュを用いる態様。
認識部ごとに独立したキャッシュを用いる場合は、次式を用いうる。
Figure 0004890518
全ての認識部で共通のキャッシュを用いる場合には、各発話に対して最尤仮説のみをキャッシュに含めるよう、次式を用いてもよい。
Figure 0004890518
式中、zzは、評価関数を最小にする話題列である。さらに、各発話に対する全話題の仮説を含める方法として、次式を用いてもよい。
Figure 0004890518
このように、本発明に係る音声認識装置においては複数のキャッシュから選択して、又は組み合わせて、最適な音声認識の結果を選択するために用いうる。
(7) 前記単語連鎖妥当性判定部は、前記入力された発話に含まれる1つの発話内の単語の連鎖の妥当性を、予め用意したテキストコーパスにおける前記単語の出現頻度を用いて判定する、(2)から(6)のいずれかに記載の音声認識装置。
本発明に係る音声認識装置においては、1つの発話は共起性を計算可能な単語を含めばよく、単語の数はいくつでもよい。この発話は、1つの独立語を含む発話でもよく、少なくとも2つの単語を含む発話でもよく、複数の発話を時間の順序に従って連結した発話でもよい。すなわち、本発明に係る音声認識装置に入力された複数の発話が、時間の順序に従って適宜連結され、当該連結された発話に対して、単語連鎖妥当性判定部が単語の連鎖の妥当性を評価してもよい。
予め用意したテキストコーパスは、当業に公知の大規模テキストコーパス等を任意に用いうる。例えば、ネットワーク資源に記憶され一般公開されたテキストコーパス、特定の分野における文書を蓄積したテキストコーパス、自然言語又は形式言語等の特定の言語形態を蓄積したテキストコーパス等を、任意に用いうる。
一実施形態において、単語連鎖妥当性判定部は、同一の発言者の1つの発話に対して単語の連鎖の妥当性を評価しうる。別の実施形態において、単語連鎖妥当性判定部は、異なる発言者の発話を時間の順序に従って連結して連結した1つの発話とし、当該連結した1つの発話に対して単語の連鎖の妥当性を評価しうる。
単語連鎖妥当性判定部における単語の連鎖の妥当性の判定は、前述のようにインターネット検索サービス等を利用する、日本語としての妥当性等に基づいてもよく、言語モデル又は音響モデルに限定せず、これら以外の知識源を用いて実施してもよい。妥当性の判定は、1つの発話に含まれる単語のいずれか又は全て、あるいは当該1つの発話に対するペナルティスコアとして関連付けられてもよい。このペナルティスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。
(8) 前記予め用意したテキストコーパスはネットワーク資源に記憶される、(7)に記載の音声認識装置。
本発明に係る音声認識装置の単語連鎖妥当性判定部は、ネットワーク資源に記憶されたテキストコーパスを用いて、認識結果に含まれる単語の連鎖の妥当性を判定しうる。ネットワーク資源に記憶されたテキストコーパスの態様は何でもよく、インターネット検索サービス等でもよい。
一実施形態において、単語連鎖妥当性判定部は、認識結果に含まれる単語の連鎖をクエリとしてインターネット検索サービス等に入力し、当該連鎖のヒットの高さ、当該連鎖に含まれる単語単位でのヒットの高さ、あるいは結果が得られないこと等に基づいて、当該単語の連鎖の妥当性を判定しうる。さらに、単語連鎖妥当性判定部は、当該判定に基づいてペナルティスコア等のスコアを付与してもよい。これらのスコアは、認識結果選択部における音声認識の結果の選択のために用いてもよい。
このようにして、ネットワーク資源に記憶されたテキストコーパスを用いて、本発明に係る音声認識装置は認識結果の妥当性を判定するための情報を生成しうる。
(9) 連続する発話を音声認識するための音声認識システムであって、入力された発話から特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識手段を少なくとも2つ備えて複数モデル依存認識結果を生成する音声認識手段と、前記複数モデル依存認識結果に対して、発話に対する認識結果のあいだの相関を計算する発話間相関評価手段と、前記複数モデル依存認識結果に対して、含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定手段と、前記発話間相関評価手段及び単語連鎖妥当性判定手段の計算結果を用いて、前記複数モデル依存認識結果から、前記入力された発話に対応する最適な発話認識結果を選択する認識結果選択手段と、を含み、前記モデル依存音声認識手段のそれぞれは、他のモデル依存音声認識手段と言語モデル又は音響モデルのいずれかが異なる、音声認識システム。
本発明に係る音声認識システムに含まれるそれぞれの手段は、1つの共通の筐体に内蔵してもよく、任意の一部をコンピュータネットワーク等を介して相互に接続するものでもよい。例えば、公知の言語モデル又は音響モデルを記憶するサーバ装置等をモデル依存音声認識手段にネットワーク接続して、本発明に係る音声認識システムを構成してもよい。少なくとも2つのモデル依存音声認識手段は、1つのコンピュータ装置等を用いて複数のプロセスを動作させるものでもよく、複数のコンピュータ装置等を並列動作させるものでもよく、適宜設定しうる。他の手段についても同様であり、それぞれに手段に任意にコンピュータ装置等を割り当ててもよく、全体を1つのコンピュータ装置等により実現してもよい。
(10) コンピュータを用いて連続する発話を音声認識するための音声認識プログラムであって、入力された発話から特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識ステップを少なくとも2つ動作させて複数モデル依存認識結果を生成する音声認識ステップと、複数モデル依存認識結果に対して、発話に対する認識結果のあいだの相関を計算する発話間相関評価ステップと、複数モデル依存認識結果に対して、含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定ステップと、前記発話間相関評価ステップ及び単語連鎖妥当性判定ステップの計算結果を用いて、複数モデル依存認識結果から、前記入力された発話に対応する最適な発話認識結果を選択する認識結果選択ステップと、を含み、前記モデル依存音声認識ステップは、前記少なくとも2つの動作において言語モデル又は音響モデルのいずれかが他の動作と異なる、音声認識プログラム。
このようにすることにより、本発明に係る音声認識の諸段階はコンピュータプログラムとして提供しうる。本発明に係る音声認識の諸段階に係るコンピュータプログラムは、任意のコンピュータ可読媒体に記憶されたプログラム、FPGA(現場でプログラム可能なゲートアレイ)又はASIC(特定用途向け集積回路)等のハードウェアロジック素子に記憶されたプログラム等、任意の形態を含む。
モデル依存音声認識ステップを少なくとも2回動作させることは、例えばマルチタスク環境を備えるパーソナルコンピュータ装置等を用いて、モデル依存音声認識ステップを実施するためのプログラムを、実質的に同時に少なくとも2つ実行することにより実現してもよい。あるいは複数のコンピュータ装置等を並列動作させ、1つの発話の入力に対してモデル依存音声認識ステップを少なくとも2つ動作させてもよい。これらに限らず、コンピュータ装置等の構成は適宜設定しうる。
本発明によれば、複数の話題言語モデルを用意して同時並列に音声認識を実施し、音声認識の後に言語モデルを選択することにより、発話単位で最適な音声認識結果を選択し、高い精度で音声認識を実施可能な音声認識の方法を提供できるという効果がある。
また、本発明においては、言語モデルの選択結果において発話間の相関を利用し、発話内の単語列の妥当性を評価しうることにより、さらに高い音声認識の精度を得られるという効果がある。
さらに、本発明によれば、新しい話題言語モデルの追加が容易であり、さらにこの言語モデルの追加が全体の他の構成部分には波及することなく、複数の発話にまたがる知識を用いて分散計算機への適合性(スケーラビリティ)を高く確保できるという効果がある。
以下、本発明の実施形態について説明する。
[音声認識装置の構成]
図1は、本発明の一実施形態に係る、音声認識装置10の構成を例示する図である。音声認識装置10は、音声認識部20、発話受付部30、認識結果保持部40、認識結果選択部50、認識結果出力部60、発話間相関評価部70、単語連鎖妥当性判定部80等を適宜含む。
図1には、音声認識部20からの出力を認識結果保持部40に保持し、当該保持された認識結果290から認識結果選択部50が選択した出力を発話認識結果300として出力する一形態を示す。
発話受付部30は、音声認識の対象である発話200を受け付ける。このとき発話受付部30は、発話200を個々の発話−1(201)、発話−2(202)、発話−3(203)等に分割してもよい。当該分割は、個々の発話−1(201)等のそれぞれにおいて、共起性を算出しうる単語又は複数の単語を含めばよい。当該共起性には当業に公知の共起頻度、Jaccard係数、Simpson係数、コサイン距離等を適宜用いうる。あるいは、当該分割は、独立語を1つの発話−1(201)等として実施してもよい。
一実施形態において、個々の発話−1(201)等は少なくとも2個の単語を含み、個々の発話−1(201)等のそれ自体の範囲内に含まれる1組の単語ごとに共起性を算出しうる。別の実施形態において、個々の発話−1(201)等は1個の単語を含み、当該単語は特定の意味を有する独立語等でありうる。
発話受付部30は、受け付けた個々の発話−1(201)等に対して、他の個別の発話−2(202)等との識別のために識別子等を付与してもよい。
音声認識部20は、発話受付部30が受け付けた発話に対して音声認識を実施しうる。本発明に係る音声認識部20においては、発話受付部30が受け付けた1つの発話に対して、複数の認識部が並列して音声認識を実施しうる。具体的には、音声認識部20は、認識部−1(210)、認識部−2(220)、…、認識部−N(280)等の複数の音声認識手段を含み、これらはそれぞれ言語モデル−1(21)、言語モデル−2(22)、…、言語モデル−N(28)と接続して、独立に音声認識を実施しうる。これらの言語モデルは任意に音響モデルでもよい。例えば、認識部−1(210)はこれと接続する言語モデル−1(21)を用いて音声認識を実施し、発話200に含まれる発話−1(201)、発話−2(202)、発話−3(203)等のそれぞれに対して、認識結果−1a(211)、認識結果−1b(212)、認識結果1−c(213)等を生成しうる。他の認識部−2(220)、認識部−N(280)等についても同様であり、個々の認識部−1(210)等が生成する認識結果−1a(211)等は、接続した言語モデル又は音響モデルに依存する、モデル依存音声認識結果でありうる。これらは、本発明においては、、後続の評価又は判定を実施する前の段階における音声認識の仮説でもありうる。認識部の個数はいくつでもよく、適宜設定しうる。
認識結果保持部40は、音声認識部20に含まれる個々の認識部が生成した認識結果を、全体として1つの認識結果として保持しうる。当該保持は適宜記憶媒体(図示せず)を用いる情報の記憶を含む。具体的には、認識結果保持部40は、音声認識部20が生成した認識結果に含まれる:認識部−1(210)が生成した認識結果−1a(211)、認識結果−1b(212)、認識結果1−c(213);認識部−2(220)が生成した認識結果−2a(221)、認識結果−2b(222)、認識結果2−c(223);認識部−N(280)が生成した認識結果−Na(281)、認識結果−Nb(282)、認識結果−Nc(283)等を、1つの認識結果290として保持しうる。認識結果保持部40は、認識結果290を発話200と関連付けて保持してもよい。
認識結果選択部50は、前段の認識結果保持部40が保持する1つの認識結果290に含まれる認識結果から、文字正解精度を最大化しうる認識結果の組み合わせを選択しうる。具体的には、発話200に含まれる発話−1(201)に対して、認識部−1が生成した認識結果−1a(211)、認識部−2が生成した認識結果−2a(221)、認識部−N(280)が生成した認識結果−Na(281)等から、文字正解精度を最大化しうる認識結果を選択する。当該選択のために、認識結果選択部50は、発話間相関評価部70及び単語連鎖妥当性判定部80を用い、それぞれの認識部の認識結果ごとにスコアを計算しうる。当該スコアは、例えば発話間相関評価部70においては共起性に基づき、単語連鎖妥当性判定部80においてはペナルティスコアに基づきうる。
(共起性)
発話間相関評価部70は、前段の認識結果保持部40が保持する1つの認識結果290に含まれる認識結果、すなわちモデル依存音声認識結果(音声認識の仮説)から、最適な音声認識の結果を選択するためのスコアを算出しうる。具体的には当該スコアは、発話間の単語相関であり、当業に公知の共起頻度、Jaccard係数、Simpson係数、コサイン距離等の計算手法を用いて共起性を計算してもよく、キャッシュモデルを用いてスコアリングを実施してもよい。以下、キャッシュモデルによる音声認識の仮説に対するスコアリングについて説明する。
(最良仮説キャッシュモデル)
第z番目の言語モデルLMによる仮説hのリスコアリングに用いる言語モデルLM’を次式で表す。
Figure 0004890518
式中、P(w)はキャッシュC中の単語wの出現確率、λは内挿パラメータである。キャッシュには認識対象音声中の一連の発話(t=1〜T:tは発話の時間的順序、Tは最終の発話)の仮説を含めることができる。認識部ごとに独立したキャッシュを用いる場合は、次式を用いる。
Figure 0004890518
全ての認識部で共通のキャッシュを用いる場合には、各発話に対して最尤仮説のみをキャッシュに含めるよう、次式を用いてもよい。
Figure 0004890518
式中、zzは、評価関数を最小にする話題列である。さらに、各発話に対する全話題の仮説を含める方法として、次式を用いてもよい。
Figure 0004890518
(ペナルティスコアを用いる仮説検証)
本発明に係る音声認識装置の単語連鎖妥当性判定部80は、音声認識の仮説の選択前に、各候補仮説の日本語としての妥当性を、言語モデル以外の知識源を用いて検証しうる。一実施形態において、音声認識の仮説中の内容語連鎖等の単語列をクエリとしてWeb検索を行い、検索結果が得られない場合は、誤認識の可能性が高いと考えて仮説スコアにペナルティを加えてもよい。仮説選択時にはこのペナルティを含めたスコアを使用してもよい。
(最良仮説キャッシュモデルと仮説検証の統合)
本発明に係る音声認識装置の認識結果選択部50は、上述の発話間相関評価部70による共起性の計算(例えば最良仮説キャッシュモデル)と、単語連鎖妥当性判定部80によるペナルティスコアとを統合し、最適な音声認識の結果を選択しうる。
一実施形態において、最適な音声認識の結果の選択は、講演等の一連の発話に対する最尤仮説キャッシュモデル(Cbest)によるリスコアリングと、ペナルティスコアによる仮説検証との統合により実施される。
最尤仮説キャッシュモデル(Cbest)によるリスコアリングと、仮説検証を統合して適用する方法としては、例えば次式の評価関数を最小化することにより実施しうる。
Figure 0004890518
式中、zは第t番目の発話の話題、Tは発話総数、右辺第1項はデコーダによる対数尤度、第2項は第t番目の発話に対する仮説hzt中の単語wと、第t’番目の発話に対する仮説hzt’中の単語w’の間の共起スコアである(キャッシュモデルに対応する)。第3項は各発話に対する仮説hztの検証ペナルティである。この評価関数を最小にする話題列をzz・・・zzとおくときに、最終認識結果hzz1・・・hzzTが決定されうる。この最小化は、例えば確率を近似的に求める手法に含まれる公知のMetropolis法による繰り返し計算等を用いて近似的に実行できる。
このように、認識結果選択部50が、前段の認識結果保持部40が保持する1つの認識結果290に含まれる認識結果から、評価関数を最小化するように音声認識の仮説を選択することにより、文字正解精度を最大化しうる認識結果の組み合わせが選択されうる。
認識結果出力部60は、前段の認識結果選択部50が選択した認識結果の組み合わせを、1つの発話認識結果300として出力しうる。出力された発話認識結果300は、本発明に係る音声認識装置10のユーザに対して任意の形態を用いて提供されうる。
[認識部の構成の例]
図2は、本発明の一実施形態に係る、音声認識部の構成を示す図である。図2においては認識部−1(210)を示すが、他の認識部についても同様に構成することが可能である。なお、図1における発話間相関評価部70の機能は図2におけるリスコアリング手段−1(414)に置き換え可能であり、図1における単語連鎖妥当性判定部80は図2における仮説検証手段−1(416)に置き換え可能である。このように、本発明においては、音声認識の最適な結果の選択は、図1のように音声認識部20と独立した手段として設けてもよく、図2のように音声認識部20の内部に取り入れてもよい。
以下、音声認識の最適な結果の選択手段を取り入れた認識部−1(210)の動作について説明する。入力は、図1と同様に、発話受付部30により受け付けられた発話200に含まれる1つの発話の単位である発話−1(201)、発話−2(202)又は発話−3(203)等でありうる。
一実施形態において、認識部−1(210)は、言語モデル−1(21)と接続するデコーダ−1(412)、話題言語モデル−1(418)と接続するリスコアリング手段−1(414)、ネットワーク資源−1(419)と接続する仮説検証手段−1(416)等を適宜含む。
デコーダ−1(412)は、前述のように発話受付部30が受け付けた発話200に対して、言語モデル−1(21)を用いて音声認識を実施しうる。当該言語モデルは音響モデルでもよい。この音声認識により、音声認識の仮説(413)が生成される。音声認識の仮説(413)は、図1における認識結果−1a(211)、認識結果−1b(212)、認識結果1−c(213)等と同等である。
次いで、リスコアリング手段−1(414)は、前述の音声認識の仮説(413)に対して、キャッシュモデルを用いて発話間の単語相関を評価しうる。当該キャッシュモデルのために、例えば言語モデル−1(418)がリスコアリング手段−1(414)に接続されうる。このリスコアリング手段−1(414)からの出力は、例えば、出力仮説−1(415)として後続の仮説検証手段−1(416)に用いられる。リスコアリング手段−1(414)は、認識部−1(210)等の特定の認識部に接続してもよく、複数の認識部に接続してもよい。
次いで、仮説検証手段−1(416)は、出力仮説−1(415)を入力として、言語モデル以外の知識源を用いて音声認識の妥当性を検証しうる。例えば、出力仮説−1(415)に含まれる音声認識の結果の日本語としての妥当性を検証するために、仮説検証手段−1(416)をネットワーク資源(419)に接続し、出力仮説−1(415)に含まれる単語列をクエリとしてWeb検索を行いうる。検索結果が得られない場合は、誤認識の可能性が高いと考えて仮説スコアにペナルティを加えてもよい。これにより、単語の連鎖の妥当性を判定するための情報が生成されうる。後続の音声認識結果の選択において、このペナルティを含めたスコアが使用されてもよい。仮説検証手段−1(416)からの出力は、例えば、出力候補−1(417)として、後続の認識結果保持部40に用いられる。ネットワーク資源(419)の接続は、認識部−1(210)の仮説検証手段−1(416)に限らず、任意の認識部から接続してもよい。
(直列動作及び並列動作)
リスコアリング手段−1(414)及び仮説検証手段−1(416)の動作は、図1に発話間相関評価部70及び単語連鎖妥当性判定部80として示したように、並列動作として、リスコアリング手段−1(414)が生成する出力仮説−1(415)と、仮説検証手段−1(416)が生成する出力候補−1(417)とを、後続の認識結果保持部40への入力としてもよい。また、上述のように直列的に、リスコアリング手段−1(414)を実施して生成される出力仮説−1(415)を仮説検証手段−1(416)に入力して出力候補−1(417)を生成してもよい。
出力仮説−1(415)及び出力候補−1(417)は、認識された単語であってもよく、認識された単語に付随する数値情報等でもよい。本発明に係る音声認識装置の認識結果保持部40は、認識された単語の形態である音声認識の仮説(413)、数値情報等である出力仮説−1(415)及び出力候補−1(417)の全体を保持しうる。
このように、図2に示した構成の音声認識部20は、図1の発話間相関評価部70及び単語連鎖妥当性判定部80を取り入れることにより、発話間の単語相関を評価するための情報と、単語の連鎖の妥当性を判定するための情報とが付与された音声認識の結果を、後続の認識結果保持部40への入力としうる。図1に示したように、認識結果保持部40のさらに後続の認識結果選択部50においては、図2の構成の音声認識部20が生成したこれらの情報を用いて、上述のように最適な音声認識の結果を選択しうる。
[音声認識方法のフロー図]
図3は、本発明の一実施形態に係る、音声認識方法のフロー図である。
本発明に係る音声認識方法においては、発話受付ステップ(S10)において、音声認識の処理対象である発話を受け付ける。一実施形態において、個々の発話は少なくとも2個の単語を含み、個々の発話自体の範囲内に含まれる1組の単語ごとに共起性を算出しうる。別の実施形態において、個々の発話は1の単語を含み、当該単語は特定の意味を有する独立語等でありうる。
発話受付ステップ(S10)は、受け付けた発話200を適宜分割してもよい。当該分割は、分割後の発話のそれぞれにおいて、それ自体に含まれる単語又は複数の単語の間に共起性を計算できればよい。当該共起性の計算には当業に公知の共起頻度、Jaccard係数、Simpson係数、コサイン距離等を適宜用いうる。
次いで、各デコーダによる音声認識ステップ(S12)は、発話受付ステップ(S10)において受け付けた1つの発話に対して、少なくとも2つのデコーダを時間的に並列して独立して動作させ、それぞれのデコーダによる音声認識を実施しうる。従って、入力された1つの発話から、デコーダの数の認識仮説(検証前の認識結果)が生成されうる。例えば、3つの時間的に連続する発話が入力され、4つのデコーダが音声認識のために用いられる場合には、12個の認識仮説が出力されうる。デコーダの数はいくつでもよく、適宜設定しうる。
次いで、キャッシュモデルによるリスコアリングステップ(S14)は、認識仮説から、最適な音声認識の結果を選択するためのスコアを算出しうる。具体的には当該スコアは、キャッシュモデルを用いるスコア等でもよく、当業に公知の共起頻度、Jaccard係数、Simpson係数、コサイン距離等の計算手法を用いて計算される共起性でもよい。これにより、認識仮説に含まれる発話間の単語相関を評価するための情報が生成されうる。
次いで、仮説の検証ステップ(S16)は、認識仮説から、各候補仮説の日本語としての妥当性を検証しうる情報を生成する。具体的には、認識仮説の内容語連鎖等の単語列をクエリとしてWeb検索を行いうる。検索結果が得られない場合は、誤認識の可能性が高いと考えて仮説スコアにペナルティを加えてもよい。仮説選択時にはこのペナルティを含めたスコアを使用してもよい。これにより、認識仮説に含まれる単語連鎖の妥当性を判定するための情報が生成されうる。
次いで、キャッシュモデルと仮説検証の統合ステップ(S18)は、前述のリスコアリングステップ(S14)により生成した発話間の単語相関を評価するための情報と、仮説の検証ステップ(S16)により生成した単語連鎖の妥当性を判定するための情報とを統合する。この統合は、例えば、図1を用いて示した評価関数を最小化することにより実施しうる。
このようにすることで、本発明に係る音声認識方法においては、複数の言語モデルを用意して同時並列に音声認識を実施し、音声認識の後に言語モデルを選択することにより、発話単位で最適な音声認識結果を選択し、高い精度で音声認識を実施可能な音声認識の方法を提供しうる。また、本発明においては、言語モデルの選択結果において発話間の相関を利用し、発話内の単語列の妥当性を評価しうることにより、さらに高い音声認識の精度を得られる。
[音声認識装置10のハードウェア構成]
図4は、本発明の一実施形態に係る、音声認識装置10のハードウェア構成を示す図である。音声認識装置10は好適には市販入手可能なサーバ装置等でありうるが、パーソナルコンピュータ等を音声認識装置10として用いる場合においても基本的には同様である。
音声認識装置10は、制御部108を構成するCPU110(マルチプロセッサ構成ではCPU120等複数のCPUが追加されてもよい)、バスライン107、通信I/F140、メインメモリ150、BIOS(Basic Input Output System)160、USBポート190、I/Oコントローラ170、並びにキーボード及びマウス180等の入力手段や表示装置122を備える。I/Oコントローラ170には、テープドライブ172、ハードディスク174、光ディスクドライブ176、半導体メモリ178、等の記憶部109を接続しうる。BIOS160は、サーバの起動時にCPU110が実行するブートプログラムや、サーバのハードウェアに依存するプログラム等を格納する。ハードディスク174は、サーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶する。光ディスクドライブ176としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブ等を使用しうる。この場合は各ドライブに対応した光ディスク177を使用する。光ディスク177から光ディスクドライブ176によりプログラム又はデータを読み取り、I/Oコントローラ170を介してメインメモリ150又はハードディスク174に提供しうる。また、同様にテープドライブ172に対応したテープメディア171を主としてバックアップのために使用しうる。
サーバに提供されるプログラムは、ハードディスク174、光ディスク177、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ170を介して、記録媒体から読み出され、又は通信I/F140を介してダウンロードされることによって、サーバにインストールされ実行されてもよい。
上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶媒体としては、磁気記録媒体、光磁気記録媒体、光学記録媒体、電子媒体を含むが、これらに限定されない。前記磁気記録媒体には、磁気テープ、フロッピー(登録商標)ディスク、ハードディスク174、磁気ランダムアクセスメモリ(MRAM)等を含み、光磁気記録媒体には光磁気ディスク(MO及びMD)等を含み、光学記録媒体には追記型コンパクトディスク(CD)、追記型デジタル多目的ディスク(DVD)、追記型ブルーレイディスク、追記型ホログラフィック・ディスク等を含み、電子媒体には電気書き込み可能読み出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ、シリコン・ストレージ・ディスク等を含む。また、専用通信回線やインターネット等の通信回線に接続されたサーバシステムに設けたハードディスク174又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをサーバに提供してもよい。
ここで、表示装置122は、サーバ管理者によるデータの入力を受け付ける画面を表示したり、演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。入力手段は、ユーザによる入力の受け付けを行うものであり、キーボード及びマウス180等により構成してもよい。通信I/F140は、サーバを専用ネットワーク又は公共ネットワークを介して端末と接続しうるようにするためのネットワーク・アダプタである。通信I/F140は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、音声認識装置10のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを音声認識装置10として動作させることにより上記で説明した機能を実現しうる。従って、本発明において一実施形態として説明した音声認識装置10により実現される機能は、上述の方法を前記コンピュータにより実行することにより、あるいは、上述のプログラムを前記コンピュータに導入して実行することによっても実現可能である。
(音声認識の評価実験)
本発明に係る音声認識方法の評価実験には、日本語話し言葉コーパス(CSJ)(非特許文献7)を用いた。テストセットには模擬講演(男女各10名、テストセットA)(非特許文献8)及び学会講演(男女各10名、テストセットB)を用いた。音響モデルは2496講演(486時間)から学習した16混合3000状態の性別非依存トライフォンHMM(非特許文献8)を用い、デコーダはJulius3.5.3(非特許文献9)を使用した。
非特許文献7Kikuo Maekawa, "CORPUS OF SPONTANEOUS JAPANESE: ITS DESIGN AND EVALUATION", MM02, SSPR, 2003
非特許文献8Tatsuya Kawahara, Hiroaki Nanjo, Takahiro Shinozaki, Sadaoki Furui, "BENCHMARK TEST FOR SPEECH RECOGNITION USING THE CORPUS OF SPONTANEOUS JAPANESE", TM04, SSPR, 2003
非特許文献9Akinobu Lee, Tatsuya Kawahara, Kiyohiro Shikano, "Julius− an Open Source Real-Time Large Vocabulary Recognition Engine", Eurospeech 2001 - Scandinavia ICSLP, pp.1691-1694, 2001
話題言語モデルを作成するためのテキストコーパスとしては、Web上のディレクトリ(Yahoo!カテゴリ、http://dir.yahoo.co.jp)及びブログ(Yahoo!ブログ、http://blogs.yahoo.co.jp、2008年4月分)を用いた。前者のディレクトリ最上位の分類(13個)を話題として利用した。CSJ書き起こしテキスト(テストセットは除く)も1つの話題として追加した。
表1に、各話題のコーパスサイズ(単位はM単語、Mは10の6乗)を示す。これらのコーパスから話題ごとに言語モデル(trigram、語彙数30000)を作成した。比較用に全コーパスを混合した汎用言語モデルも作成した。
Figure 0004890518
(実験結果)
表2に、本発明に係る音声認識方法の評価実験の結果を示す。各実験のパラメータはテストセットAにおいて最良に調節した。表2は、実験IDが1から8までの実験結果を含み、実験IDが1及び2の実験においては従来技術に係る汎用言語モデルを用い、実験IDが3の実験においては従来技術に係るCSJ言語モデルを用いた。実験IDが4から8の実験においては、本発明に係る音声認識の方法を用いた。
Figure 0004890518
実験1は、従来技術に係る汎用言語モデルを1つ用いる場合の認識結果の例である。
実験2は、汎用言語モデルによる10位までの仮説を、話者全体の認識結果を含めたキャッシュモデルでリスコアリングした結果である。
実験3は、CSJ書き起こしテキストから作成した言語モデルによる認識結果で、テストセットにマッチした言語モデルを用いた場合の参考結果である。
実験4は、14個の話題言語モデルを用いてデコードした結果から、話者単位に尤度最大の話題を選んだ場合の結果である。
実験5は、発話ごとに全仮説をROVER法(非特許文献10)を用いて統合した結果である。
実験6は、発話ごとに尤度最大の話題を選んだ場合の結果である。
実験7は、実験6に発話ごとのキャッシュモデル(Call)によるリスコアリングを加えた結果である。
実験8は、さらに仮説検証を加えて2.3節の方法で話題選択した結果である。
非特許文献10J.G.Fiscus, "A POST-PROCESSING SYSTEM TO YIELD REDUCED WORD ERROR RATES: RECOGNIZER OUTPUT VOTING ERROR REDUCTION", ASRU, pp.347-352, 1997
表2に示すように、従来技術に係る実験1〜3の結果においても、言語モデルの選択及び内挿パラメータλの最適化等の調節により、音声認識結果の正解精度は向上しうる。しかし、本発明に係る音声認識方法を用いる実験4〜8の結果においては、いずれも従来技術を上回る正解精度が得られた。特に、実験7においてキャッシュモデルを用いる単語相関評価を使用することにより、及び実験8においてさらに単語連鎖妥当性判定を使用して評価関数を最小化する条件で認識結果を選択することにより、音声認識の正解精度をさらに高めることが可能であった。
本発明に係る音声認識方法においては、複数の話題言語モデルを用いて独立に発話をデコードし、発話単位に最良スコアの仮説を事後選択しうる。これにより、本発明に係る音声認識の方法は、従来技術に係る単一の汎用言語モデルや話題言語モデルを用いるよりも高い認識精度を得られる。また複数の話題仮説を含めたキャッシュモデルや、Web検索による内容語連鎖の妥当性検証も有効であり、本発明に係る音声認識方法による音声認識の正解精度をさらに高めることが可能である。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本発明の一実施形態に係る、音声認識装置10の構成を例示する図である。 本発明の一実施形態に係る、音声認識装置10の構成を例示する図である。 本発明の一実施形態に係る、音声認識部のフロー図である。 本発明の一実施形態に係る、音声認識装置10のハードウェア構成を示す図である。
符号の説明
10 音声認識装置
20 音声認識部
30 発話受付部
40 認識結果保持部
50 認識結果選択部
60 認識結果出力部
70 発話間相関評価部
80 単語連鎖妥当性判定部
200 発話
300 発話認識結果
412 デコーダ−1
413 音声認識の仮説
414 リスコアリング手段−1
416 仮説検証手段−1
418 話題言語モデル−1
419 ネットワーク資源−1

Claims (9)

  1. 連続する発話を音声認識するための音声認識装置であって、
    特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識部を少なくとも2つ備え、入力された連続する発話の各々について当該モデル依存音声認識部による認識結果を生成する音声認識部を含み、
    前記モデル依存音声認識部のそれぞれは、他のモデル依存音声認識部と言語モデル又は音響モデルのいずれかが異なるものであり、
    前記連続する発話間で、前記音声認識部が生成した認識結果に含まれる単語の共起性を計算する発話間相関評価部と、
    前記発話間相関評価部の計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択部とを更に含む音声認識装置。
  2. 前記発話間相関評価部が実行する前記共起性の計算は、認識対象の発話に対して、それぞれの前記モデル依存音声認識部ごとに独立したキャッシュを用いて実行する、請求項1に記載の音声認識装置。
  3. 前記発話間相関評価部は、認識対象の発話に対して、前記少なくとも1つの言語モデル又は音響モデルの全てに基づく最尤仮説のみをキャッシュに含めて用いる、請求項1または2に記載の音声認識装置。
  4. 前記発話間相関評価部は、認識対象の発話ごとに全てのモデル依存音声認識部から出力される複数の認識結果候補を用い、前記認識結果候補は全てのモデル依存音声認識部に対して用意される共通のキャッシュに格納される、請求項1に記載の音声認識装置。
  5. さらに、前記モデル依存音声認識部による認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定部を含み、
    前記認識結果選択部は、前記単語連鎖妥当性判定部の計算結果を用いて、前記発話毎に前記認識結果に含まれる単語を選択する、
    請求項1から4のいずれかに記載の音声認識装置。
  6. 前記単語連鎖妥当性判定部は、前記入力された連続する発話に含まれる1つの発話内の単語の連鎖により構成される単語列の妥当性を、予め用意したテキストコーパスにおける、当該単語列の出現頻度を用いて判定する、請求項5に記載の音声認識装置。
  7. 前記予め用意したテキストコーパスはネットワーク資源に記憶される、請求項6に記載の音声認識装置。
  8. 連続する発話を音声認識するための音声認識システムであって、
    特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識手段を少なくとも2つ備え、入力された連続する発話の各々について当該モデル依存音声認識手段による認識結果を生成する音声認識手段を含み、
    前記モデル依存音声認識手段のそれぞれは、他のモデル依存音声認識手段と言語モデル又は音響モデルのいずれかが異なるものであり、
    前記モデル依存音声認識手段による認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定手段と、
    前記連続する発話間で、前記音声認識手段が生成した認識結果に含まれる単語の共起性を計算する発話間相関評価手段と、
    前記発話間相関評価手段及び前記単語連鎖妥当性判定手段の計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択手段とを更に含む音声認識システム。
  9. コンピュータを用いて連続する発話を音声認識するための音声認識プログラムであって、前記コンピュータに、
    特定の言語モデル又は音響モデルに基づいて認識結果を生成するモデル依存音声認識ステップを少なくとも2つ動作させて、入力された連続する発話の各々について当該モデル依存音声認識ステップにおける認識結果を生成する音声認識ステップを実行させ、
    前記モデル依存音声認識ステップにおけるそれぞれの処理は、言語モデル又は音響モデルのいずれかが異なるものであり、
    前記コンピュータに、前記モデル依存音声認識ステップにおける認識結果に含まれる単語の連鎖の妥当性を計算する単語連鎖妥当性判定ステップと、
    前記連続する発話間で、前記音声認識ステップにおいて生成した認識結果に含まれる単語の共起性を計算する発話間相関評価ステップと、
    前記発話間相関評価ステップ及び前記単語連鎖妥当性判定ステップにおける計算結果を用いて、前記共起性が前記連続する発話全体として最も高くなるように、前記発話毎に前記認識結果に含まれる単語を選択する認識結果選択ステップとを実行させる音声認識プログラム。
JP2008222593A 2008-08-29 2008-08-29 複数言語モデルによる統合音声認識装置 Active JP4890518B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008222593A JP4890518B2 (ja) 2008-08-29 2008-08-29 複数言語モデルによる統合音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008222593A JP4890518B2 (ja) 2008-08-29 2008-08-29 複数言語モデルによる統合音声認識装置

Publications (2)

Publication Number Publication Date
JP2010055020A JP2010055020A (ja) 2010-03-11
JP4890518B2 true JP4890518B2 (ja) 2012-03-07

Family

ID=42070973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008222593A Active JP4890518B2 (ja) 2008-08-29 2008-08-29 複数言語モデルによる統合音声認識装置

Country Status (1)

Country Link
JP (1) JP4890518B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5673239B2 (ja) * 2011-03-10 2015-02-18 富士通株式会社 音声認識装置、音声認識方法、および音声認識プログラム
JP6155592B2 (ja) * 2012-10-02 2017-07-05 株式会社デンソー 音声認識システム
JP6441203B2 (ja) * 2015-11-12 2018-12-19 日本電信電話株式会社 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
JP7124358B2 (ja) 2018-03-13 2022-08-24 富士通株式会社 出力プログラム、情報処理装置及び出力制御方法
JP6689421B1 (ja) 2019-01-25 2020-04-28 株式会社インタラクティブソリューションズ 音声解析システム
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
JP6771251B1 (ja) * 2020-04-24 2020-10-21 株式会社インタラクティブソリューションズ 音声解析システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202388A (ja) * 1995-01-24 1996-08-09 Omron Corp 音声認識装置及び音声認識方法
JP3660512B2 (ja) * 1998-12-07 2005-06-15 日本電信電話株式会社 音声認識方法、その装置及びプログラム記録媒体
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP2006107353A (ja) * 2004-10-08 2006-04-20 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP4826719B2 (ja) * 2005-07-25 2011-11-30 日本電気株式会社 音声認識システム、音声認識方法、および音声認識プログラム
WO2008096582A1 (ja) * 2007-02-06 2008-08-14 Nec Corporation 認識器重み学習装置および音声認識装置、ならびに、システム

Also Published As

Publication number Publication date
JP2010055020A (ja) 2010-03-11

Similar Documents

Publication Publication Date Title
US9911413B1 (en) Neural latent variable model for spoken language understanding
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
US9361879B2 (en) Word spotting false alarm phrases
JP4890518B2 (ja) 複数言語モデルによる統合音声認識装置
JP2005165272A (ja) 多数の音声特徴を利用する音声認識
US11030999B1 (en) Word embeddings for natural language processing
Cui et al. Developing speech recognition systems for corpus indexing under the IARPA Babel program
Chia et al. Statistical lattice-based spoken document retrieval
Liao et al. Uncertainty decoding for noise robust speech recognition
Hansen et al. Unsupervised accent classification for deep data fusion of accent and language information
Chen et al. Lightly supervised and data-driven approaches to mandarin broadcast news transcription
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
Koumpis et al. Automatic summarization of voicemail messages using lexical and prosodic features
Furui et al. Analysis and recognition of spontaneous speech using Corpus of Spontaneous Japanese
Cooper et al. Utterance selection for optimizing intelligibility of tts voices trained on asr data
Moyal et al. Phonetic search methods for large speech databases
Walker et al. Semi-supervised model training for unbounded conversational speech recognition
US8639510B1 (en) Acoustic scoring unit implemented on a single FPGA or ASIC
Wang et al. Stochastic pronunciation modeling for out-of-vocabulary spoken term detection
Li et al. Discriminative data selection for lightly supervised training of acoustic model using closed caption texts
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection
US11551666B1 (en) Natural language processing
US11328713B1 (en) On-device contextual understanding
Wang Mandarin spoken document retrieval based on syllable lattice matching

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111214

R150 Certificate of patent or registration of utility model

Ref document number: 4890518

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350