JP2005284209A

JP2005284209A - 音声認識方式

Info

Publication number: JP2005284209A
Application number: JP2004101991A
Authority: JP
Inventors: Masaki Naito; 正樹内藤; Kazunori Matsumoto; 一則松本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2004-03-31
Filing date: 2004-03-31
Publication date: 2005-10-13

Abstract

【課題】音声認識を用いて音声データに発声内容のテキストを高精度かつ容易に自動付与することができる音声認識方式を提供すること。
【解決手段】照合部１は、入力音声を言語モデル２を用いて音響モデル３と照合する。重要語抽出部４は、照合部１での照合結果から取り扱う話題を表す重要語を抽出する。テキストＤＢ６は、重要語に関連するテキストデータを格納している。言語モデル学習部５は、重要語抽出部４で抽出された重要語からテキストＤＢ６を検索し、検索されたテキストデータを元に言語モデルを学習して生成する。言語モデル学習部５で生成された言語モデルにより言語モデル２が更新される。
【選択図】図１

Description

本発明は、音声認識方式に関し、特に、音声認識を用いて音声データに発声内容のテキストを高精度かつ容易に自動付与することができる音声認識方式に関する。

従来、音声認識を用いて音声データに発声内容のテキストを自動付与する際には、単語間の接続関係を表す言語モデルを用いて音声の特徴を表す音響モデルと入力音声を照合し、認識スコアの最も高い候補を認識結果として出力する方法が使用されている。

図７は、従来の音声認識方式を示すブロック図である。入力音声は照合部１に入力され、言語モデル２を用いて音声の特徴を表す音響モデル３と照合される。照合部での照合の結果、認識スコアが最も高い候補が認識結果として出力される。

言語モデルとしては、新聞記事などのテキストデータベース内の文章を元に、単語間の接続確率を計算したN-gramなどのモデルが使用される。

また、音声が取り扱う話題の特徴を反映した言語モデルを作成するため、必要とする話題を対象とした模擬的な対話を行い、その発声内容を試聴しテキスト化した後、言語モデルを学習し、認識し使用するなどの手法も知られている。
特開２００３−１７７７８６号公報特開２００２−３４２３２３号公報特開２０００−２５０５８１号公報

発声内容のテキストを付与する音声ごとに、音声で取り扱われる話題は異なり、出現する用語なども異なる。しかしながら、従来のN-gramなどの言語モデルは、幅広い話題を含むテキストデータを元に作成されているため、精度が低く、認識精度の低下を招くという課題がある。

必要とする話題を対象とした模擬的な対話を行って言語モデルを作成する手法によれば、言語モデルの精度を向上させることはできるが、音声の収集やテキスト化が必要なため多くの手間を要するという課題がある。

本発明の目的は、音声認識を用いて音声データに発声内容のテキストを高精度かつ容易に自動付与することができる音声認識方式を提供することにある。

上記課題を解決するために、本発明は、入力音声を言語モデルを用いて音響モデルと照合する照合部と、前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、重要語に関連するテキストデータを格納しているテキストデータベースと、前記重要語抽出部で抽出された重要語から前記テキストデータベースを検索し、該検索されたテキストデータを元に言語モデルを学習して生成する言語モデル学習部とを備え、前記言語モデル学習部で生成された言語モデルにより前記照合部で用いる言語モデルを更新する点に第１の特徴がある。

また、本発明は、入力音声を言語モデルを用いて音響モデルと照合する照合部と、前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、予めカテゴリ別の言語モデルを格納している言語モデル群格納部と、前記重要語抽出部で抽出された重要語のカテゴリに対応する言語モデルを前記言語モデル群格納部より取得し合成する言語モデル学習部とを備え、前記言語モデル学習部で取得された言語モデルにより前記照合部で用いる言語モデルを更新する点に第２の特徴がある。

また、本発明は、入力音声を言語モデルを用いて音響モデルと照合する照合部と、前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、重要語に関連するテキストデータを格納しているテキストデータベースと、予めカテゴリ別の言語モデルを格納している言語モデル群格納部と、前記重要語抽出部で抽出された重要語のカテゴリに対応する言語モデルが前記言語モデル群格納部に格納されている場合にはその言語モデルを取得し合成して言語モデルを生成し、格納されていない場合には前記テキストデータベースを検索し、該検索されたテキストデータを元に言語モデルを学習して生成する言語モデル学習部とを備え、前記言語モデル学習部で生成された言語モデルにより前記照合部で用いる言語モデルを更新する点に第３の特徴がある。

さらに、本発明は、前記重要語抽出部での重要語の抽出が、ＡＩＣに基づいて行われる点に第４の特徴がある。

本発明によれば、認識結果を基に、取り扱う話題に関連したテキストデータを抽出して言語モデルを学習し、該学習により話題に適合した言語モデルを生成するので、音声が取り扱う話題の特徴を反映した言語モデルを少ない手間で容易に生成できると共に、その言語モデルを使用して認識を行うことにより、付与するテキストの精度を向上させることができる。

以下、図面を参照して本発明について説明する。図１は、本発明に係る音声認識方式の第１の実施形態を示すブロック図であり、図中の図７と同じ符号は、同一あるいは同等部分を示す。

図１において、入力音声は照合部１に入力される。照合部１は、言語モデル２を用いて音声の特徴を表す音響モデル３と入力音声とを照合する。当初の言語モデル２は、新聞記事などを元に学習して生成された初期言語モデルである。照合部１は、照合の結果、最も高い照合スコアを示した、単語列とその照合スコアからなる認識結果を取得して重要語抽出部４に送出する。

重要語抽出部４は、照合部１から送出されてきた認識結果から取り扱う話題を表す重要語（集合）を抽出し、抽出した重要語とその重要度を言語モデル学習部５に送出する。取り扱う話題を表す重要語の抽出は、後述するように、ＡＩＣ(Akaike Information Criteria)に基づいて行うことができる。

言語モデル学習部５は、重要語抽出部４で抽出された重要語をキーとしてテキストデータベース（テキストＤＢ）６を検索してそれに関連するテキストデータを取得し、取得されたテキストデータを元に単語の接続確率を計算するなどして言語モデルを学習する。なお、テキストＤＢ６は、本方式のために特別に用意されたものであっても、Webサイトなどで公開されているものであっても構わない。

言語モデル学習部５での学習により生成された言語モデルにより言語モデル２を更新し、更新された言語モデル２と音響モデル３を用いて再度音声認識を行う。以上の音声認識および言語モデル生成の処理の手順を繰り返すことにより認識対象となる話題により適合した言語モデルを生成することができ、認識精度の更なる向上を図ることができる。

図２は、図１の言語モデル学習部５の例を示すブロック図であり、この例の言語モデル学習部５は、関連テキスト検索部５−１と学習部５−２を有する。関連テキスト検索部５−１は、重要語抽出部４から送出されてきた重要語に関連するテキストデータをテキストＤＢ６から検索する。この検索の際、重要語抽出部４で抽出された重要語の重要度を考慮に入れてもよい。学習部５−２は、関連テキスト検索部５−１で検索されたテキストデータを元に単語の接続確率を計算するなどして言語モデルを学習し、これにより生成された言語モデルを新たな言語モデルとする。

図３は、入力音声（ａ）、照合部１での認識結果（ｂ）、重要語抽出部４から送出される重要語およびその重要度（ｃ）の具体例を示す。入力音声が、例えば「言語モデルと音響モデルと入力音声を照合する。」である場合、照合部１から単語列「言語モデル」，「と」，「音響モデル」，・・・と各単語ごとの照合スコア「50」「40」，「60」・・・が送出される。重要語抽出部４は、重要語として「言語モデル」，「音響モデル」，「入力音声」を抽出し、さらに各重要語の重要度「5」，「6」，「4」を算出する。これにより抽出された重要語および各重要語の重要度が言語モデル学習部５に送出される

図４は、本発明に係る音声認識方式の第２の実施形態を示すブロック図であり、図中の図１と同じ符号は、同一あるいは同等部分を示す。この実施形態では、予め複数の学習テキストを話題などに基づきカテゴリに分類し、単語の接続確率を計算するなどしてカテゴリ別に言語モデルを学習し、これにより生成された言語モデルを言語モデル群格納部７に格納しておく。

入力音声は照合部１に入力される。照合部１は、言語モデル２を用いて音声の特徴を表す音響モデル３と入力音声とを照合する。当初の言語モデル２は、新聞記事などを元に学習して生成された初期言語モデルである。照合部１は、照合の結果、最も高い照合スコアを示した、単語列とその照合スコアからなる認識結果を重要語抽出部４に送出する。

重要語抽出部４は、照合部１から送出されてきた認識結果から取り扱う話題を表す重要語（集合）を抽出し、抽出した重要語とその重要度を言語モデル学習部５に送出する。取り扱う話題を表す重要語の抽出は、ＡＩＣに基づいて行うことができる。

言語モデル学習部５は、重要語抽出部４で抽出された重要語に従いテキストＤＢ６あるいは言語モデル群格納部７を用いて言語モデルを学習する。この学習により生成された言語モデルにより言語モデル２を更新し、更新された言語モデル２と音響モデル３を用いて再度音声認識を行う。

以上の音声認識および言語モデル生成の処理の手順を繰り返すことにより認識対象となる話題により適合した言語モデルを生成することができ、認識精度の更なる向上を図ることができる。

図５は、図４の言語モデル学習部５の例を示すブロック図であり、この例の言語モデル学習部５は、関連テキスト検索部５−１、学習部５−２、言語モデル検索部５−３、言語モデル取得部５−４および言語モデル統合部５−５を有する。

言語モデル学習部５では、まず、言語モデル検索部５−３において、重要語抽出部４から送出されてきた重要語の各カテゴリに対する重要性を判定する。この判定は、ＡＩＣに基づいて行うことができる。次に、重要と判定されたカテゴリに対応する言語モデルが言語モデル群格納部７に格納されているか否かを判定する。ここで、対応する言語モデルが言語モデル群格納部７に格納されていないと判定した場合、単語名、カテゴリ名、重要度を関連テキスト検索部５−１に送出し、格納されていると判定した場合には単語名、カテゴリ名、重要度を言語モデル取得部５−４に送出する。

関連テキスト検索部５−１は、第１の実施形態と同様に、重要語抽出部４から送出されてきた重要語に関連するテキストデータをテキストＤＢ６から検索する。この検索の際、重要語抽出部４で抽出された重要語の重要度を考慮に入れてもよい。学習部５−２は、関連テキスト検索部５−１で検索されたテキストデータを元に単語の接続確率を計算するなどして言語モデルを学習し、これにより生成した言語モデルを言語モデル統合部５−５に送出する。

一方、言語モデル取得部５−４は、重要語ｋを重要と判定したカテゴリに対応する言語モデルを言語モデル群格納部７から検索する。これにより検索された言語モデルを合成して重要語ｋに対応する言語モデルN_ｋ(w_１，w_２)を生成し、言語モデル統合部５−５に送出する。言語モデルN_ｋ(w_１，w_２)の生成については後述する。

言語モデル統合部５−５は、学習部５−２および言語モデル取得部５−４から送出されてきた各重要語ｋに対応する言語モデルN_ｋ(w_１，w_２)を下記(1)式に従って統合し、認識用言語モデルを生成する。これにより生成された認識用言語モデルが新たな言語モデルとなる。言語モデルN_ｋ(w_１，w_２)の統合の際には、各重要語の重要度に従う重み係数λ_ｋで重み付けを行う。

ここで、N_ｋ(w_１，w_２)は、重要語ｋに対応する言語モデルであり、単語ｗ_１と単語ｗ_２が繋がっている言語モデルを表し、λ_ｋは、重要語ｋに対応する言語モデルの重み係数を表す。

次に、ＡＩＣに基づく重要語の抽出手法を説明する。全文書数をＮ、対象単語が出現する事象をｗ、対象カテゴリが付与されている事象をｃとするとき、まず、以下の事象の数を求める。ここで「∩」は論理積(and)を表し、「not」は否定を表す。
ｎ₁₁：ｗ∩ｃが成り立つ文書数
ｎ₁₂：ｗ∩notｃが成り立つ文書数
ｎ₂₁：notｗ∩ｃが成り立つ文書数
ｎ₂₂：notｗ∩notｃが成り立つ文書数

このとき、単語の出現とカテゴリ付与の相関は、単語とカテゴリをキーとする図６の２×２分割表で表される。

次に、単語ＩＤとカテゴリコードをキーとして図６の２×２分割表をもとに、ｗとｃが独立に発生すると仮定するモデル(IM)と、依存関係があると仮定するモデル(DM)について、下記(2)式により対数尤度MLLとAIC値を計算する。

モデルのAIC値が小さいほど優れたモデルであるという条件に基づき、下記(3)式でカテゴリｃにおける単語ｗの重要性を判定する。

I(w,c)＝AIC_ＩＭ(w,c)−AIC_ＤＭ(w,c)＞０ (3)

学習用文書全体に対する単語Wの重要度I(W)を下記(4)式で定義し、認識結果に含まれる単語群のうち重要度の高い上位N個の単語を重要語として抽出する。

上記第１の実施形態の言語モデル学習部５は、以上のようにして抽出された重要語に関連する文書を検索し、言語モデルを学習する。

上記第２の実施形態の言語モデル学習部５は、重要語に対応する言語モデルが言語モデル群格納部７に格納されていない場合、上記第１の実施形態と同様にして言語モデルを生成するが、重要語に対応する言語モデルが言語モデル群格納部７に格納されている場合には、言語モデル群格納部７から単語ｋを重要と判定したカテゴリに対する言語モデルN_ｃ(w_１，w_２)を検索し、各単語ｋについて言語モデルN_ｃ(w_１，w_２)を下記(5)式に従い合成し、単語ｋについての言語モデルN_ｋ(w_１，w_２)を生成する。

ここで、N_Ｃ(w_１，w_２)はカテゴリｃに対応する言語モデルを表し、λ_ｋ，Ｃは単語ｋのカテゴリｃにおける重み係数（重要度）を表す。I(k,c)＞０を満たすカテゴリに対してはλ_ｋ，Ｃ＝I(k,c)とし、I(k,c)＞０を満たさないカテゴリに対してはλ_ｋ，Ｃ＝０とする。

以上、実施形態を説明したが、本発明は、上記実施形態に限られず、種々の変形が可能である。例えば、第２の実施形態ではテキストＤＢ６と言語モデル群格納部７を備え、これら両者を使用して言語モデルを学習するようにしているが、言語モデル群格納部７のみを備え、これのみによって言語モデルを学習するようにすることもできる。

また、上記実施形態では照合部での認識結果から重要語を抽出しているが、発声内容の要約などのテキストから重要語を抽出し、これにより抽出された重要語をその重要度と共に言語モデル学習部に送出するようにすることもできる。本発明は、ボイスエージェントプラットフォームや音声付き動画コンテンツの検索・配信などに適用できる。

本発明に係る音声認識方式の第１の実施形態を示すブロック図である。図１の言語モデル学習部の例を示すブロック図である。入力音声、認識結果、重要語およびその重要度の具体例を示す図である。本発明に係る音声認識方式の第２の実施形態を示すブロック図である。図４の言語モデル学習部の例を示すブロック図である。ＡＩＣによる重要語の抽出の説明図である。従来の音声認識方式を示すブロック図である。

符号の説明

１・・・音声照合部、２・・・言語モデル、３・・・音響モデル、４・・・重要語抽出部、５・・・言語モデル学習部、５−１・・・関連テキスト検索部、５−２・・・学習部、５−３・・・言語モデル検索部、５−４・・・言語モデル取得部、５−５・・・言語モデル統合部、６・・・テキストデータベース、７・・・言語モデル群格納部

Claims

入力音声を言語モデルを用いて音響モデルと照合する照合部と、
前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、
重要語に関連するテキストデータを格納しているテキストデータベースと、
前記重要語抽出部で抽出された重要語から前記テキストデータベースを検索し、該検索されたテキストデータを元に言語モデルを学習して生成する言語モデル学習部とを備え、
前記言語モデル学習部で生成された言語モデルにより前記照合部で用いる言語モデルを更新することを特徴とする音声認識方式。
入力音声を言語モデルを用いて音響モデルと照合する照合部と、
前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、
予めカテゴリ別の言語モデルを格納している言語モデル群格納部と、
前記重要語抽出部で抽出された重要語のカテゴリに対応する言語モデルを前記言語モデル群格納部より取得し合成する言語モデル学習部とを備え、
前記言語モデル学習部で取得された言語モデルにより前記照合部で用いる言語モデルを更新することを特徴とする音声認識方式。
入力音声を言語モデルを用いて音響モデルと照合する照合部と、
前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、
重要語に関連するテキストデータを格納しているテキストデータベースと、
予めカテゴリ別の言語モデルを格納している言語モデル群格納部と、
前記重要語抽出部で抽出された重要語のカテゴリに対応する言語モデルが前記言語モデル群格納部に格納されている場合にはその言語モデルを取得し合成して言語モデルを生成し、格納されていない場合には前記テキストデータベースを検索し、該検索されたテキストデータを元に言語モデルを学習して生成し、さらにこれらを統合して言語モデルを生成する言語モデル学習部とを備え、
前記言語モデル学習部で統合して生成された言語モデルにより前記照合部で用いる言語モデルを更新することを特徴とする音声認識方式。
前記重要語抽出部での重要語の抽出は、ＡＩＣに基づいて行われることを特徴とする請求項１ないし３のいずれかに記載の音声認識方式。