JP2005284209A - 音声認識方式 - Google Patents

音声認識方式 Download PDF

Info

Publication number
JP2005284209A
JP2005284209A JP2004101991A JP2004101991A JP2005284209A JP 2005284209 A JP2005284209 A JP 2005284209A JP 2004101991 A JP2004101991 A JP 2004101991A JP 2004101991 A JP2004101991 A JP 2004101991A JP 2005284209 A JP2005284209 A JP 2005284209A
Authority
JP
Japan
Prior art keywords
language model
unit
important word
language
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004101991A
Other languages
English (en)
Inventor
Masaki Naito
正樹 内藤
Kazunori Matsumoto
一則 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2004101991A priority Critical patent/JP2005284209A/ja
Publication of JP2005284209A publication Critical patent/JP2005284209A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識を用いて音声データに発声内容のテキストを高精度かつ容易に自動付与することができる音声認識方式を提供すること。
【解決手段】照合部1は、入力音声を言語モデル2を用いて音響モデル3と照合する。重要語抽出部4は、照合部1での照合結果から取り扱う話題を表す重要語を抽出する。テキストDB6は、重要語に関連するテキストデータを格納している。言語モデル学習部5は、重要語抽出部4で抽出された重要語からテキストDB6を検索し、検索されたテキストデータを元に言語モデルを学習して生成する。言語モデル学習部5で生成された言語モデルにより言語モデル2が更新される。
【選択図】図1

Description

本発明は、音声認識方式に関し、特に、音声認識を用いて音声データに発声内容のテキストを高精度かつ容易に自動付与することができる音声認識方式に関する。
従来、音声認識を用いて音声データに発声内容のテキストを自動付与する際には、単語間の接続関係を表す言語モデルを用いて音声の特徴を表す音響モデルと入力音声を照合し、認識スコアの最も高い候補を認識結果として出力する方法が使用されている。
図7は、従来の音声認識方式を示すブロック図である。入力音声は照合部1に入力され、言語モデル2を用いて音声の特徴を表す音響モデル3と照合される。照合部での照合の結果、認識スコアが最も高い候補が認識結果として出力される。
言語モデルとしては、新聞記事などのテキストデータベース内の文章を元に、単語間の接続確率を計算したN-gramなどのモデルが使用される。
また、音声が取り扱う話題の特徴を反映した言語モデルを作成するため、必要とする話題を対象とした模擬的な対話を行い、その発声内容を試聴しテキスト化した後、言語モデルを学習し、認識し使用するなどの手法も知られている。
特開2003−177786号公報 特開2002−342323号公報 特開2000−250581号公報
発声内容のテキストを付与する音声ごとに、音声で取り扱われる話題は異なり、出現する用語なども異なる。しかしながら、従来のN-gramなどの言語モデルは、幅広い話題を含むテキストデータを元に作成されているため、精度が低く、認識精度の低下を招くという課題がある。
必要とする話題を対象とした模擬的な対話を行って言語モデルを作成する手法によれば、言語モデルの精度を向上させることはできるが、音声の収集やテキスト化が必要なため多くの手間を要するという課題がある。
本発明の目的は、音声認識を用いて音声データに発声内容のテキストを高精度かつ容易に自動付与することができる音声認識方式を提供することにある。
上記課題を解決するために、本発明は、入力音声を言語モデルを用いて音響モデルと照合する照合部と、前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、重要語に関連するテキストデータを格納しているテキストデータベースと、前記重要語抽出部で抽出された重要語から前記テキストデータベースを検索し、該検索されたテキストデータを元に言語モデルを学習して生成する言語モデル学習部とを備え、前記言語モデル学習部で生成された言語モデルにより前記照合部で用いる言語モデルを更新する点に第1の特徴がある。
また、本発明は、入力音声を言語モデルを用いて音響モデルと照合する照合部と、前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、予めカテゴリ別の言語モデルを格納している言語モデル群格納部と、前記重要語抽出部で抽出された重要語のカテゴリに対応する言語モデルを前記言語モデル群格納部より取得し合成する言語モデル学習部とを備え、前記言語モデル学習部で取得された言語モデルにより前記照合部で用いる言語モデルを更新する点に第2の特徴がある。
また、本発明は、入力音声を言語モデルを用いて音響モデルと照合する照合部と、前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、重要語に関連するテキストデータを格納しているテキストデータベースと、予めカテゴリ別の言語モデルを格納している言語モデル群格納部と、前記重要語抽出部で抽出された重要語のカテゴリに対応する言語モデルが前記言語モデル群格納部に格納されている場合にはその言語モデルを取得し合成して言語モデルを生成し、格納されていない場合には前記テキストデータベースを検索し、該検索されたテキストデータを元に言語モデルを学習して生成する言語モデル学習部とを備え、前記言語モデル学習部で生成された言語モデルにより前記照合部で用いる言語モデルを更新する点に第3の特徴がある。
さらに、本発明は、前記重要語抽出部での重要語の抽出が、AICに基づいて行われる点に第4の特徴がある。
本発明によれば、認識結果を基に、取り扱う話題に関連したテキストデータを抽出して言語モデルを学習し、該学習により話題に適合した言語モデルを生成するので、音声が取り扱う話題の特徴を反映した言語モデルを少ない手間で容易に生成できると共に、その言語モデルを使用して認識を行うことにより、付与するテキストの精度を向上させることができる。
以下、図面を参照して本発明について説明する。図1は、本発明に係る音声認識方式の第1の実施形態を示すブロック図であり、図中の図7と同じ符号は、同一あるいは同等部分を示す。
図1において、入力音声は照合部1に入力される。照合部1は、言語モデル2を用いて音声の特徴を表す音響モデル3と入力音声とを照合する。当初の言語モデル2は、新聞記事などを元に学習して生成された初期言語モデルである。照合部1は、照合の結果、最も高い照合スコアを示した、単語列とその照合スコアからなる認識結果を取得して重要語抽出部4に送出する。
重要語抽出部4は、照合部1から送出されてきた認識結果から取り扱う話題を表す重要語(集合)を抽出し、抽出した重要語とその重要度を言語モデル学習部5に送出する。取り扱う話題を表す重要語の抽出は、後述するように、AIC(Akaike Information Criteria)に基づいて行うことができる。
言語モデル学習部5は、重要語抽出部4で抽出された重要語をキーとしてテキストデータベース(テキストDB)6を検索してそれに関連するテキストデータを取得し、取得されたテキストデータを元に単語の接続確率を計算するなどして言語モデルを学習する。なお、テキストDB6は、本方式のために特別に用意されたものであっても、Webサイトなどで公開されているものであっても構わない。
言語モデル学習部5での学習により生成された言語モデルにより言語モデル2を更新し、更新された言語モデル2と音響モデル3を用いて再度音声認識を行う。以上の音声認識および言語モデル生成の処理の手順を繰り返すことにより認識対象となる話題により適合した言語モデルを生成することができ、認識精度の更なる向上を図ることができる。
図2は、図1の言語モデル学習部5の例を示すブロック図であり、この例の言語モデル学習部5は、関連テキスト検索部5−1と学習部5−2を有する。関連テキスト検索部5−1は、重要語抽出部4から送出されてきた重要語に関連するテキストデータをテキストDB6から検索する。この検索の際、重要語抽出部4で抽出された重要語の重要度を考慮に入れてもよい。学習部5−2は、関連テキスト検索部5−1で検索されたテキストデータを元に単語の接続確率を計算するなどして言語モデルを学習し、これにより生成された言語モデルを新たな言語モデルとする。
図3は、入力音声(a)、照合部1での認識結果(b)、重要語抽出部4から送出される重要語およびその重要度(c)の具体例を示す。入力音声が、例えば「言語モデルと音響モデルと入力音声を照合する。」である場合、照合部1から単語列「言語モデル」,「と」,「音響モデル」,・・・と各単語ごとの照合スコア「50」「40」,「60」・・・が送出される。重要語抽出部4は、重要語として「言語モデル」,「音響モデル」,「入力音声」を抽出し、さらに各重要語の重要度「5」,「6」,「4」を算出する。これにより抽出された重要語および各重要語の重要度が言語モデル学習部5に送出される
図4は、本発明に係る音声認識方式の第2の実施形態を示すブロック図であり、図中の図1と同じ符号は、同一あるいは同等部分を示す。この実施形態では、予め複数の学習テキストを話題などに基づきカテゴリに分類し、単語の接続確率を計算するなどしてカテゴリ別に言語モデルを学習し、これにより生成された言語モデルを言語モデル群格納部7に格納しておく。
入力音声は照合部1に入力される。照合部1は、言語モデル2を用いて音声の特徴を表す音響モデル3と入力音声とを照合する。当初の言語モデル2は、新聞記事などを元に学習して生成された初期言語モデルである。照合部1は、照合の結果、最も高い照合スコアを示した、単語列とその照合スコアからなる認識結果を重要語抽出部4に送出する。
重要語抽出部4は、照合部1から送出されてきた認識結果から取り扱う話題を表す重要語(集合)を抽出し、抽出した重要語とその重要度を言語モデル学習部5に送出する。取り扱う話題を表す重要語の抽出は、AICに基づいて行うことができる。
言語モデル学習部5は、重要語抽出部4で抽出された重要語に従いテキストDB6あるいは言語モデル群格納部7を用いて言語モデルを学習する。この学習により生成された言語モデルにより言語モデル2を更新し、更新された言語モデル2と音響モデル3を用いて再度音声認識を行う。
以上の音声認識および言語モデル生成の処理の手順を繰り返すことにより認識対象となる話題により適合した言語モデルを生成することができ、認識精度の更なる向上を図ることができる。
図5は、図4の言語モデル学習部5の例を示すブロック図であり、この例の言語モデル学習部5は、関連テキスト検索部5−1、学習部5−2、言語モデル検索部5−3、言語モデル取得部5−4および言語モデル統合部5−5を有する。
言語モデル学習部5では、まず、言語モデル検索部5−3において、重要語抽出部4から送出されてきた重要語の各カテゴリに対する重要性を判定する。この判定は、AICに基づいて行うことができる。次に、重要と判定されたカテゴリに対応する言語モデルが言語モデル群格納部7に格納されているか否かを判定する。ここで、対応する言語モデルが言語モデル群格納部7に格納されていないと判定した場合、単語名、カテゴリ名、重要度を関連テキスト検索部5−1に送出し、格納されていると判定した場合には単語名、カテゴリ名、重要度を言語モデル取得部5−4に送出する。
関連テキスト検索部5−1は、第1の実施形態と同様に、重要語抽出部4から送出されてきた重要語に関連するテキストデータをテキストDB6から検索する。この検索の際、重要語抽出部4で抽出された重要語の重要度を考慮に入れてもよい。学習部5−2は、関連テキスト検索部5−1で検索されたテキストデータを元に単語の接続確率を計算するなどして言語モデルを学習し、これにより生成した言語モデルを言語モデル統合部5−5に送出する。
一方、言語モデル取得部5−4は、重要語kを重要と判定したカテゴリに対応する言語モデルを言語モデル群格納部7から検索する。これにより検索された言語モデルを合成して重要語kに対応する言語モデルN(w,w)を生成し、言語モデル統合部5−5に送出する。言語モデルN(w,w)の生成については後述する。
言語モデル統合部5−5は、学習部5−2および言語モデル取得部5−4から送出されてきた各重要語kに対応する言語モデルN(w,w)を下記(1)式に従って統合し、認識用言語モデルを生成する。これにより生成された認識用言語モデルが新たな言語モデルとなる。言語モデルN(w,w)の統合の際には、各重要語の重要度に従う重み係数λで重み付けを行う。
Figure 2005284209
ここで、N(w,w)は、重要語kに対応する言語モデルであり、単語wと単語wが繋がっている言語モデルを表し、λは、重要語kに対応する言語モデルの重み係数を表す。
次に、AICに基づく重要語の抽出手法を説明する。全文書数をN、対象単語が出現する事象をw、対象カテゴリが付与されている事象をcとするとき、まず、以下の事象の数を求める。ここで「∩」は論理積(and)を表し、「not」は否定を表す。
11:w∩cが成り立つ文書数
12:w∩notcが成り立つ文書数
21:notw∩cが成り立つ文書数
22:notw∩notcが成り立つ文書数
このとき、単語の出現とカテゴリ付与の相関は、単語とカテゴリをキーとする図6の2×2分割表で表される。
次に、単語IDとカテゴリコードをキーとして図6の2×2分割表をもとに、wとcが独立に発生すると仮定するモデル(IM)と、依存関係があると仮定するモデル(DM)について、下記(2)式により対数尤度MLLとAIC値を計算する。
Figure 2005284209
モデルのAIC値が小さいほど優れたモデルであるという条件に基づき、下記(3)式でカテゴリcにおける単語wの重要性を判定する。

I(w,c)=AICIM(w,c)−AICDM(w,c)>0 (3)
学習用文書全体に対する単語Wの重要度I(W)を下記(4)式で定義し、認識結果に含まれる単語群のうち重要度の高い上位N個の単語を重要語として抽出する。
上記第1の実施形態の言語モデル学習部5は、以上のようにして抽出された重要語に関連する文書を検索し、言語モデルを学習する。
Figure 2005284209
上記第2の実施形態の言語モデル学習部5は、重要語に対応する言語モデルが言語モデル群格納部7に格納されていない場合、上記第1の実施形態と同様にして言語モデルを生成するが、重要語に対応する言語モデルが言語モデル群格納部7に格納されている場合には、言語モデル群格納部7から単語kを重要と判定したカテゴリに対する言語モデルN(w,w)を検索し、各単語kについて言語モデルN(w,w)を下記(5)式に従い合成し、単語kについての言語モデルN(w,w)を生成する。
Figure 2005284209
ここで、N(w,w)はカテゴリcに対応する言語モデルを表し、λk,Cは単語kのカテゴリcにおける重み係数(重要度)を表す。I(k,c)>0を満たすカテゴリに対してはλk,C=I(k,c)とし、I(k,c)>0を満たさないカテゴリに対してはλk,C=0とする。
以上、実施形態を説明したが、本発明は、上記実施形態に限られず、種々の変形が可能である。例えば、第2の実施形態ではテキストDB6と言語モデル群格納部7を備え、これら両者を使用して言語モデルを学習するようにしているが、言語モデル群格納部7のみを備え、これのみによって言語モデルを学習するようにすることもできる。
また、上記実施形態では照合部での認識結果から重要語を抽出しているが、発声内容の要約などのテキストから重要語を抽出し、これにより抽出された重要語をその重要度と共に言語モデル学習部に送出するようにすることもできる。本発明は、ボイスエージェントプラットフォームや音声付き動画コンテンツの検索・配信などに適用できる。
本発明に係る音声認識方式の第1の実施形態を示すブロック図である。 図1の言語モデル学習部の例を示すブロック図である。 入力音声、認識結果、重要語およびその重要度の具体例を示す図である。 本発明に係る音声認識方式の第2の実施形態を示すブロック図である。 図4の言語モデル学習部の例を示すブロック図である。 AICによる重要語の抽出の説明図である。 従来の音声認識方式を示すブロック図である。
符号の説明
1・・・音声照合部、2・・・言語モデル、3・・・音響モデル、4・・・重要語抽出部、5・・・言語モデル学習部、5−1・・・関連テキスト検索部、5−2・・・学習部、5−3・・・言語モデル検索部、5−4・・・言語モデル取得部、5−5・・・言語モデル統合部、6・・・テキストデータベース、7・・・言語モデル群格納部

Claims (4)

  1. 入力音声を言語モデルを用いて音響モデルと照合する照合部と、
    前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、
    重要語に関連するテキストデータを格納しているテキストデータベースと、
    前記重要語抽出部で抽出された重要語から前記テキストデータベースを検索し、該検索されたテキストデータを元に言語モデルを学習して生成する言語モデル学習部とを備え、
    前記言語モデル学習部で生成された言語モデルにより前記照合部で用いる言語モデルを更新することを特徴とする音声認識方式。
  2. 入力音声を言語モデルを用いて音響モデルと照合する照合部と、
    前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、
    予めカテゴリ別の言語モデルを格納している言語モデル群格納部と、
    前記重要語抽出部で抽出された重要語のカテゴリに対応する言語モデルを前記言語モデル群格納部より取得し合成する言語モデル学習部とを備え、
    前記言語モデル学習部で取得された言語モデルにより前記照合部で用いる言語モデルを更新することを特徴とする音声認識方式。
  3. 入力音声を言語モデルを用いて音響モデルと照合する照合部と、
    前記照合部での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部と、
    重要語に関連するテキストデータを格納しているテキストデータベースと、
    予めカテゴリ別の言語モデルを格納している言語モデル群格納部と、
    前記重要語抽出部で抽出された重要語のカテゴリに対応する言語モデルが前記言語モデル群格納部に格納されている場合にはその言語モデルを取得し合成して言語モデルを生成し、格納されていない場合には前記テキストデータベースを検索し、該検索されたテキストデータを元に言語モデルを学習して生成し、さらにこれらを統合して言語モデルを生成する言語モデル学習部とを備え、
    前記言語モデル学習部で統合して生成された言語モデルにより前記照合部で用いる言語モデルを更新することを特徴とする音声認識方式。
  4. 前記重要語抽出部での重要語の抽出は、AICに基づいて行われることを特徴とする請求項1ないし3のいずれかに記載の音声認識方式。
JP2004101991A 2004-03-31 2004-03-31 音声認識方式 Pending JP2005284209A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004101991A JP2005284209A (ja) 2004-03-31 2004-03-31 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004101991A JP2005284209A (ja) 2004-03-31 2004-03-31 音声認識方式

Publications (1)

Publication Number Publication Date
JP2005284209A true JP2005284209A (ja) 2005-10-13

Family

ID=35182610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004101991A Pending JP2005284209A (ja) 2004-03-31 2004-03-31 音声認識方式

Country Status (1)

Country Link
JP (1) JP2005284209A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755677B1 (ko) 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP2007249050A (ja) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP2010015395A (ja) * 2008-07-03 2010-01-21 Kddi Corp 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
WO2010061507A1 (ja) * 2008-11-28 2010-06-03 日本電気株式会社 言語モデル作成装置
US8108212B2 (en) 2007-03-13 2012-01-31 Nec Corporation Speech recognition method, speech recognition system, and server thereof
JP2013029652A (ja) * 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2013137458A (ja) * 2011-12-28 2013-07-11 Toyota Motor Corp 音声認識装置、方法、及びプログラム
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755677B1 (ko) 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP2007249050A (ja) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP4537970B2 (ja) * 2006-03-17 2010-09-08 日本電信電話株式会社 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
US8108212B2 (en) 2007-03-13 2012-01-31 Nec Corporation Speech recognition method, speech recognition system, and server thereof
JP2010015395A (ja) * 2008-07-03 2010-01-21 Kddi Corp 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
WO2010061507A1 (ja) * 2008-11-28 2010-06-03 日本電気株式会社 言語モデル作成装置
JP5598331B2 (ja) * 2008-11-28 2014-10-01 日本電気株式会社 言語モデル作成装置
US9043209B2 (en) 2008-11-28 2015-05-26 Nec Corporation Language model creation device
JP2013029652A (ja) * 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2013137458A (ja) * 2011-12-28 2013-07-11 Toyota Motor Corp 音声認識装置、方法、及びプログラム
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム

Similar Documents

Publication Publication Date Title
US7831911B2 (en) Spell checking system including a phonetic speller
US8195459B1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
JP4267385B2 (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP5241840B2 (ja) データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
US10170107B1 (en) Extendable label recognition of linguistic input
EP2317507B1 (en) Corpus compilation for language model generation
US20080071533A1 (en) Automatic generation of statistical language models for interactive voice response applications
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP2007115145A (ja) 会話制御装置
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
Hakkinen et al. N-gram and decision tree based language identification for written words
JP5073024B2 (ja) 音声対話装置
JP5360414B2 (ja) キーワード抽出モデル学習システム、方法およびプログラム
JP2005284209A (ja) 音声認識方式
Hori et al. Deriving disambiguous queries in a spoken interactive ODQA system
JP2003271629A (ja) 音声入力によるテキスト検索方法およびその装置
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
JP2010277036A (ja) 音声データ検索装置
Misu et al. Dialogue strategy to clarify user’s queries for document retrieval system with speech interface
Kellner Initial language models for spoken dialogue systems
Lestari et al. Adaptation to pronunciation variations in Indonesian spoken query-based information retrieval
JP3576066B2 (ja) 音声合成システム、および音声合成方法
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
JP2965529B2 (ja) 音声認識装置