JP2000250581A - 言語モデル生成装置及び音声認識装置 - Google Patents

言語モデル生成装置及び音声認識装置

Info

Publication number
JP2000250581A
JP2000250581A JP11048019A JP4801999A JP2000250581A JP 2000250581 A JP2000250581 A JP 2000250581A JP 11048019 A JP11048019 A JP 11048019A JP 4801999 A JP4801999 A JP 4801999A JP 2000250581 A JP2000250581 A JP 2000250581A
Authority
JP
Japan
Prior art keywords
language model
question
word
speech recognition
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11048019A
Other languages
English (en)
Inventor
Zuikyo Cho
瑞強 張
Finch Andrew
アンドリュー・フィンチ
W Black Ezura
エズラ・ダブリュー・ブラック
Yoshinori Kosaka
芳典 匂坂
Tomoko Matsui
知子 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Interpreting Telecommunications Research Laboratories filed Critical ATR Interpreting Telecommunications Research Laboratories
Priority to JP11048019A priority Critical patent/JP2000250581A/ja
Publication of JP2000250581A publication Critical patent/JP2000250581A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 統計的言語モデルにシンタックスや意味の情
報を統合することができ、認識性能の向上及び計算時間
の削減を図る。 【解決手段】 言語モデル生成部22は、学習用テキス
トデータから生成したN−gramの統計的言語モデル
と、予め選択された質問と単語の対からなる複数の質問
セットとに基づいて、質問形式の知識に基づいて統合化
された言語モデルを生成する。統合化された言語モデル
は、単語履歴に対する単語の出現確率で表され、質問セ
ットの有無を表す質問セットの2値関数を乗数とする重
み係数のべき乗に統計的言語モデルの生起確率を乗算し
てなる項について複数の質問セットの個数だけの積で表
してなる。言語モデル生成部22は、学習用テキストデ
ータを用いて統合化された言語モデルのエントロピーが
最大になるように学習し各質問セットの2値関数に対す
る重み係数を計算して言語モデルを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習用テキストデ
ータから生成した統計的言語モデル及び質問データを用
いて、質問形式の知識に基づいた言語モデルを生成する
言語モデル生成装置、及び上記言語モデルを用いて、入
力される発声音声文の音声信号を音声認識する音声認識
装置に関する。
【0002】
【従来の技術】近年、連続音声認識装置において、その
性能を高めるために言語モデルを用いる方法が研究され
ている。言語モデルには、各単語の共起/連鎖の情報
や、シンタックスの情報(統語的又は構文的な情報)及
び意味(例えば、角川類語大辞典における意味コード)
のタグ情報が付与され、それを用いて次単語を予測し、
探索空間を削減することにより、認識性能の向上及び計
算時間の削減が図られる。各単語の連鎖の情報を表した
言語モデルにN−gramがある。N−gramは学習
用テキストデータから、直前のN−1個の単語から次の
単語への遷移確率を統計的に学習したもので、構築が容
易で、統計的音響モデルとの相性も良く、認識性能の向
上や計算時間の削減の効果がある程度は得られ、最近盛
んに用いられている(例えば、従来技術文献1「L.R.Ba
hl et al.,”A Maximum Likelihood Approach to Conti
nuous Speech Recognition”,pp.179-190,1993年」参
照。)。
【0003】
【発明が解決しようとする課題】上記N−gramの統
計的言語モデルにシンタックスや意味の情報をうまく統
合することができれば、更に認識性能の向上及び計算時
間の削減が見込まれる。しかしながら、そのための決定
的な方法はまだない。
【0004】本発明の目的は以上の問題点を解決し、統
計的言語モデルにシンタックスや意味の情報を統合する
ことができ、認識性能の向上及び計算時間の削減を図る
ことができる言語モデル生成装置、及び当該言語モデル
生成装置を用いた音声認識装置を提供することにある。
【0005】
【課題を解決するための手段】本発明に係る請求項1記
載の言語モデル生成装置は、所定の話者の発声音声文を
書き下した学習用テキストデータから生成したN−gr
amの統計的言語モデルと、予め選択された質問と単語
の対からなる複数の質問セットとに基づいて、質問形式
の知識に基づいて統合化された言語モデルを生成する生
成手段を備え、上記統合化された言語モデルは、単語履
歴に対する単語の出現確率で表され、質問セットの有無
を表す質問セットの2値関数を乗数とする、重み係数の
べき乗に、上記統計的言語モデルの生起確率を乗算して
なる項について、上記複数の質問セットの個数だけの積
で表してなり、上記生成手段は、所定の話者の発声音声
文を書き下した学習用テキストデータを用いて、上記統
合化された言語モデルのエントロピーが最大になるよう
に学習することにより、各質問セットの2値関数に対す
る重み係数を計算して、上記統合化された言語モデルを
生成することを特徴とする。
【0006】また、請求項2記載の言語モデル生成装置
は、請求項1記載の言語モデル生成装置において、上記
複数の質問セットは、所定の話者の発声音声文を書き下
した学習用テキストデータから、質問と単語との間の所
定の相互情報量が所定のしきい値以上である質問セット
を選択したものであることを特徴とする。
【0007】さらに、本発明に係る請求項3記載の音声
認識装置は、入力される発声音声文の音声信号に基づい
て、所定の言語モデルを用いて音声認識する音声認識手
段を備えた音声認識装置において、上記音声認識手段
は、請求項1又は2記載の言語モデル生成装置によって
生成された言語モデルを用いて音声認識することを特徴
とする。
【0008】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0009】図1は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。本実施形態の連続
音声認識装置は、質問形式の知識をトリガーとして次単
語を予測することによりN−gramの統計的言語モデ
ルにシンタックス・意味の情報を統合する質問形式に基
づいた言語モデル生成部(以下、言語モデル生成部とい
う。)22を備えたことを特徴としている。ここで、言
語モデル生成部22は、統計的言語モデル生成部20に
よって生成された統計的言語モデルメモリ31内の統計
的言語モデルと、質問データ選択部21によって予め選
択された質問形式データメモリ42内の質問形式データ
とに基づいてN−gram情報とシンタックスや意味の
情報が統合された言語モデルを生成して言語モデルメモ
リ32に格納する。
【0010】本実施形態では、シンタックスや意味の情
報を質問形式の知識で表す。概念的には例えば、
【数1】A new dog was bought in this (family |fore
st |fast |fan |...). の文に対しては、 (1)現単語”this”の前に動物があるか? (2)現単語”this”の前に決定的な(関係する)
事象があるか? (3)現単語”this”の前に”in”があるか? (4)予測される文中の動詞は何か? の質問を用意する。そして、各質問をトリガーとして、
その答えを推定することにより、”this”の後に続
く単語を絞り込む。本実施形態では言語モデルを、基本
モデルをN−gram、質問形式の知識をトリガーとす
るエントロピー最大化モデル(例えば、従来技術文献2
「A.Della Pietra et al.,”Inducing features of ran
dom fields”,IEEE Transactions on Pattern Analysis
and Machine Intelligence,Vol.19,No.4,pp.380-393,1
997年」や従来技術文献3「R.Rosenfeld,”A maximum en
tropy approach to adaptive statistical language mo
deling”,Computer Speech and Language,Vol.10,No.3,
pp.187-228,1996年」参照。)で表し、上記の例のようなこ
とを統計的な枠組の中で行う。
【0011】上記の質問に対する回答はわれわれに単語
を選択するために必要な多くの情報を与えてくれる。さ
らに、この情報は例えばトライグラムモデルなどの統計
的言語モデルによって提供できないことは明らかであ
る。この理由のために,本実施形態の質問形式に基づい
た言語モデルは、基礎となる統計的言語モデルの確率分
布を調整するための答えを得るために使用される。本実
施形態で用いる質問データの一例を以下に示す(この質
問データについての詳細説明は、従来技術文献4「E. B
lack et al.“Reinventing Part-of-Speech Tagging”,
Journal of Natural Language Processing, (Japan).
5:1:3-23, Montreal,1998年」において公知であ
る。)。
【0012】
【表1】 ―――――――――――――――――――――――――――――――――― n_sem_animal_to_left n_sem_food_to_left n_sem_monkey_to_left n_sem_degree_to_left v_sem_send_to_left v_sem_verbal_act_to_left v_sem_be_to_left double_object_verb_within_last_5_words modal_verb_within_last_3_words ――――――――――――――――――――――――――――――――――
【0013】文法学者などは、ほとんど無限の数の質問
を特定することができるが、本実施形態の言語モデルで
は、有限の質問形式データを用いるために以下のように
選択を行う。いま、質問の集合Qを次式で表す。
【数2】Q={q0,q1,q2,…,qL} そして、学習用テキストデータの単語列を
【数3】w0,w1,w2,…,wn とするとき、各単語wiに対して、その単語履歴hiを次
のように定義する。
【数4】hi={w0,w1,…,wi-1} に対応したQ中の質問に対する答えの集合Aiを、
【数5】Ai=b012…bL と定義する。ここで、bjは質問qjの答え(”はい”も
しくは”いいえ”)を表す。その答えが”はい”ならば
j=1、”いいえ”ならば、bj=0とする。さらに、
トリガーの組を次式のように定義する。
【数6】qw=(qj,wi
【0014】このトリガーの組qwは、bj=1かつ現
単語がwiの時、活性化される。無数のトリガーの組が
考えられるが、ここでは例えば、次の相互情報量MI
(q,w)が所定のしきい値よりも大きいトリガーの組
(すなわち、質問セット)を選んで用いる。
【0015】
【数7】
【0016】ここで、wbはwの否定であって単語が来
ないことを示し、qbはqの否定であって質問の答えが
NOであることを示す。数7の右辺第1項は、質問qの
答えがYESであってその単語が来るときの相互情報量
であり、数7の右辺第2項は、質問qの答えがYESで
あってその単語が来ないときの相互情報量であり、数7
の右辺第3項は、質問qの答えがNOであってその単語
が来るときの相互情報量であり、数7の右辺第3項は、
質問qの答えがNOであってその単語が来ないときの相
互情報量である。従って、数7の相互情報量MI(q,
w)は、単語と質問セットとの間の相互情報を示す量で
あって、質問qの答えのYES又はNOに対するその単
語が来るか否かに関する相関関係を示す基準である。
【0017】いま、選んだトリガーの組(質問qjと単
語wiの対からなる質問セットである。)の集合TQW
を、次式とする。
【数8】TQW={qw0,qw1,qw2,…,qwK} ここで、Kは選択された質問セットの数である。
【0018】すなわち、質問データ選択部21は、学習
用テキストデータメモリ40内のコーパスと呼ばれるテ
キストデータと、質問データメモリ41内の複数の質問
データとに基づいて、複数の質問データの中から、テキ
ストデータに基づいて数7の相互情報量MI(q,w)
が所定のしきい値以上の質問セットを選択して質問形式
データメモリ42に出力して格納する。
【0019】また、統計的言語モデル生成部20は、学
習用テキストデータメモリ30内のテキストデータに基
づいて公知の方法により単語連鎖の頻度を計数すること
により例えば3−gramなどの統計的言語モデルを生
成して統計的言語モデルメモリ31に出力して格納す
る。
【0020】なお、本実施形態で用いる学習用テキスト
データは、所定の話者の発声音声文を書き下した学習用
テキストデータであって、学習用テキストデータメモリ
30,40,50内のテキストデータは互いに異なって
もよいし、同一でもよい。
【0021】次いで、言語モデル生成部22の処理につ
いて説明する。本実施形態による統合化された言語モデ
ルは、次式のエントロピー最大化モデルp(w|h)で
表される。
【0022】
【数9】
【0023】数9は統合化された言語モデルのエントロ
ピーを表しており、ここで、fk(i=0,1,…,
K)はトリガーの組qwkのためのトリガー関数、すな
わち質問セットqwkの2値関数であり、qwkが活性化
されている(現在の処理対象の単語がwkで、質問qk
答えがYES)ならばfk=1、そうでないならばfk
0の2値関数fk∈{1,0}である。言いかえれば,
k(i=0,1,…,K)は質問セットqwkが活性化
しているか否かを示す2値関数である。また、γは所定
の正規化係数であり、αk(k=0,1,…,K)はト
リガー関数fkの重み係数である。さらに、数9のp
b(w|h0)は、統計的言語モデルメモリ31に格納さ
れた基本言語モデルで、例えば3−gramモデルなど
のN−gramの統計的言語モデルを用いる。
【0024】また、重み係数α0,α1,…,αKを例え
ば、従来技術文献5「A.Della Pietra et al.,”Induci
ng features of random fields”,IEEE Transactions o
n Pattern Analysis and Machine Intelligence,Vol.1
9,No.4,pp.380-393,1997年」において開示された公知の
改善された反復スケーリング法(Improved Iterative S
caling法)を用いて、学習用テキストデータメモリ50
内のテキストデータに基づいて、数9のエントロピーが
最大となるように推定して数9に代入することにより、
数9の言語モデルp(w|h)を学習して求める。
【0025】従って、言語モデル生成部22は、まず、
統計的言語モデルメモリ31内の統計的言語モデル(p
b(w|h0))と、質問形式データメモリ42内の複数
の質問セットとに基づいて、学習用テキストデータメモ
リ50内のテキストデータを用いて上述の改善された反
復スケーリング法(Improved Iterative Scaling法)を
用いて、数9で規定するエントロピーが最大になるよう
に、数9の重み係数α 0,α1,…,αKを推定して、数
9に代入することにより統合化された言語モデルを生成
して、言語モデルメモリ32に出力して格納する。
【0026】図1は、本発明に係わる一実施形態である
連続音声認識装置のブロック図である。この実施形態の
連続音声認識装置は、学習用テキストデータメモリ30
内の学習用テキストデータに基づいてN−gramの統
計的言語モデルを生成して統計的言語モデルメモリ31
に格納する統計的言語モデル生成部20と、上記生成さ
れたN−gramの統計的言語モデルを基本モデルとし
て、質問形式データメモリ11内の予め選択された質問
データに基づいて、質問と単語によるトリガーの組(質
問セット)から、質問形式に基づいたエントロピー最大
化モデルによる統合化された言語モデルを生成して言語
モデルメモリ32に格納する言語モデル生成部32を備
え、その言語モデルを参照して連続音声認識することを
特徴としている。
【0027】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0028】単語照合部4は、ワン・パス・ビタビ(On
e Path Viterbi)復号化法を用いて、バッファメモリ3
を介して入力される特徴パラメータのデータに基づい
て、音素HMMメモリ11内の音素HMMと単語辞書メ
モリ12内の単語辞書とを用いて、単語仮説を検出し、
尤度を計算して出力する。ここで、単語照合部4は各時
刻の各HMMの状態ごとに、単語内の尤度と発声開始か
らの尤度を計算する。尤度は、単語の識別番号、単語の
開始時刻、先行単語の違いごとに個別に持つ。また、計
算処理量の削減のために、音素HMM及び単語辞書とに
基づいて計算される総尤度のうちの低い尤度のグリッド
仮説を削減する。単語照合部4は、その結果の単語仮説
と尤度の情報を発声開始時刻からの時間情報とともに、
バッファメモリ5を介して単語仮説絞込部6に出力す
る。ここで、言語モデルメモリ32が単語仮説絞込部6
に接続されて、単語仮説絞込部6は言語モデルメモリ3
2内の言語モデルを参照して処理を行う。
【0029】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、言語モデルメモリ32内の言語モデルを参照して、
終了時刻が等しく、開始時刻が異なる同一の単語の単語
仮説に対して、当該単語の先頭音素環境ごとに、発声開
始時刻から当該単語の終了時刻に至る計算された総尤度
のうちの、最も高い尤度を有する一つの単語仮説で代表
させるように、単語仮説の絞り込みを行なった後、絞り
込み後のすべての単語仮説の単語列のうち、最大の総尤
度を有する仮説の単語列を認識結果として出力する。
【0030】本実施形態においては、好ましくは、処理
すべき当該単語の先頭音素環境とは、当該単語より先行
する単語仮説の最終音素と、当該単語の単語仮説の最初
の2つの音素とを含む3つの音素並びをいう。
【0031】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0032】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0033】以上の実施形態において、特徴抽出部2
と、単語照合部4と、単語仮説絞込部6と、統計的言語
モデル生成部20と、質問データ選択部21と、言語モ
デル生成部22とは、例えば、ディジタル電子計算機な
どのコンピュータで構成され、バッファメモリ3,5
と、音素HMMメモリ11と、単語辞書メモリ12と、
学習用テキストデータメモリ30,40,50と、質問
データメモリ41と、質問形式データメモリ42と、言
語モデルメモリ32とは、例えばハードディスクメモリ
などの記憶装置で構成される。
【0034】以上の実施形態において、単語照合部4と
単語仮説絞込部6とを用いて音声認識を行なっている
が、本発明はこれに限らず、例えば、音素HMMメモリ
11内の音素HMMを参照する音素照合部4と、例えば
One Path DPアルゴリズムを用いて言語モデ
ルを参照して、単語の音声認識を行う音声認識部とで音
声認識を行うように構成してもよい。
【0035】
【実施例】本発明者は、本実施形態で生成した言語モデ
ルの性能を確認するために、以下のように評価実験を行
なった。本実験では、基本言語モデルとして、20M、
100M、200M(ここで、Mは106を示すメガで
ある。)の単語数の学習データテキスト(ウォール・ス
トリート・ジャーナルとAP通信のニューステキスト)
から生成した、三種類の3−gram(以下、それぞれ
Tri20M、Tri100M、Tri200Mとい
う。)を用いた。なお、語彙数はいずれの3−gram
に関しても20001(未知語を一単語として含む)と
した。表2に各3−gramのデータのモデル数を示
す。
【0036】
【表2】 各3−gramのデータのモデル数 ―――――――――――――――――――――――――――――――――― Tri20M Tri100M Tri200M ―――――――――――――――――――――――――――――――――― 1−gram 20001 20001 20001 2−gram 395663 1230040 1204727 3−gram 527782 2724346 2492309 ――――――――――――――――――――――――――――――――――
【0037】予め文法学者が作成した300個の質問セ
ット(以下、Ques300という。)から、相互情報
量に基づいて、55621個のトリガーの組を選択し
た。本実施形態のエントロピー最大化モデルによる質問
形式に基づいた言語モデルの学習には、本特許出願人が
所有するデータベース(ATR general English tree ban
k(本特許出願人で、ウォール・ストリート・ジャーナ
ルとAP通信のニューステキストなどから抜粋して作成
したテキストコーパスであって、単語数1Mを有す
る。))から160,000単語数のテキストを用い、
評価テストでは学習とは別のデータベースから14,0
00単語数のテキストを用いた。
【0038】表3にパープレキシティPP(次に続く単
語数を表す尺度。認識対象の難しさを表し、良い言語モ
デルに基づいて次式で計算したパープレキシティPPは
小さくなる。つまりパープレキシティPPによって言語
モデルの性能を評価することができる。)による評価結
果を示す。
【数10】PP=2LP
【数11】 LP=−(1/N)log2p(w1,w2,…,wN
【0039】ここで、数10のPPは単語列{w1
2,…,wN}に対するパープレキシティを示す。表3
において、”basePP”は基本言語モデルである従
来の3−gramのパープレキシティ、”Ques30
0”は本実施形態の言語モデルのパープレキシティを表
す。
【0040】
【表3】 3つのモデルのパープレキシティ ―――――――――――――――――――――――――――――――――― Tri20M Tri100M Tri200M ―――――――――――――――――――――――――――――――――― basePP 166.0 128.7 116.1 Ques300 149.1 116.1 106.3 ―――――――――――――――――――――――――――――――――― 削減率(%) 10.2 9.8 8.9 ――――――――――――――――――――――――――――――――――
【0041】表2の結果から、本実施形態の言語モデル
を用いれば、従来の3−gramと比べて、パープレキ
シティを削減でき、その性能を改善できることがわか
る。
【0042】以上説明したように、本実施形態によれ
ば、従来例の言語モデルと比べて、パープレキシティを
削減できるため、次の単語候補を探索するときの探索空
間が小さくなり、音声認識装置の認識率を向上させるこ
とができるとともに、高速で認識することができる。ま
た、質問データ選択部21で質問データを最適に選択し
ているので、質問形式データメモリ42のメモリ容量の
大きくならず、また、言語モデル生成部22での処理も
高速で実行することができる。
【0043】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の言語モデル生成装置によれば、所定の話者の発
声音声文を書き下した学習用テキストデータから生成し
たN−gramの統計的言語モデルと、予め選択された
質問と単語の対からなる複数の質問セットとに基づい
て、質問形式の知識に基づいて統合化された言語モデル
を生成する生成手段を備え、上記統合化された言語モデ
ルは、単語履歴に対する単語の出現確率で表され、質問
セットの有無を表す質問セットの2値関数を乗数とす
る、重み係数のべき乗に、上記統計的言語モデルの生起
確率を乗算してなる項について、上記複数の質問セット
の個数だけの積で表してなり、上記生成手段は、所定の
話者の発声音声文を書き下した学習用テキストデータを
用いて、上記統合化された言語モデルのエントロピーが
最大になるように学習することにより、各質問セットの
2値関数に対する重み係数を計算して、上記統合化され
た言語モデルを生成する。従って、本発明によれば、従
来例の言語モデルと比べて、パープレキシティを削減で
きるため、次の単語候補を探索するときの探索空間が小
さくなり、音声認識装置の認識率を向上させることがで
きるとともに、高速で認識することができる。
【0044】また、請求項2記載の言語モデル生成装置
によれば、請求項1記載の言語モデル生成装置におい
て、上記複数の質問セットは、所定の話者の発声音声文
を書き下した学習用テキストデータから、質問と単語と
の間の所定の相互情報量が所定のしきい値以上である質
問セットを選択したものである。従って、本発明によれ
ば、質問セットのデータメモリのメモリ容量の大きくな
らず、また、上記生成手段での処理も高速で実行するこ
とができる。
【0045】さらに、本発明に係る請求項3記載の音声
認識装置によれば、入力される発声音声文の音声信号に
基づいて、所定の言語モデルを用いて音声認識する音声
認識手段を備えた音声認識装置において、上記音声認識
手段は、請求項1又は2記載の言語モデル生成装置によ
って生成された言語モデルを用いて音声認識する。従っ
て、本発明によれば、従来例の言語モデルと比べて、パ
ープレキシティを削減できるため、次の単語候補を探索
するときの探索空間が小さくなり、音声認識装置の認識
率を向上させることができるとともに、高速で認識する
ことができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 20…統計的言語モデル生成部、 21…質問データ選択部、 22…質問形式に基づいた言語モデル生成部、 30,40,50…学習用テキストデータメモリ、 31…統計的言語モデルメモリ、 32…言語モデルメモリ、 41…質問データメモリ、 42…質問形式データメモリ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アンドリュー・フィンチ 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 エズラ・ダブリュー・ブラック 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 松井 知子 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 Fターム(参考) 5B091 AA15 CB12 CC01 CC04 CC16 EA01 5D015 HH23 9A001 HH07 HH11 HH17

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 所定の話者の発声音声文を書き下した学
    習用テキストデータから生成したN−gramの統計的
    言語モデルと、予め選択された質問と単語の対からなる
    複数の質問セットとに基づいて、質問形式の知識に基づ
    いて統合化された言語モデルを生成する生成手段を備
    え、 上記統合化された言語モデルは、単語履歴に対する単語
    の出現確率で表され、質問セットの有無を表す質問セッ
    トの2値関数を乗数とする、重み係数のべき乗に、上記
    統計的言語モデルの生起確率を乗算してなる項につい
    て、上記複数の質問セットの個数だけの積で表してな
    り、 上記生成手段は、所定の話者の発声音声文を書き下した
    学習用テキストデータを用いて、上記統合化された言語
    モデルのエントロピーが最大になるように学習すること
    により、各質問セットの2値関数に対する重み係数を計
    算して、上記統合化された言語モデルを生成することを
    特徴とする言語モデル生成装置。
  2. 【請求項2】 上記複数の質問セットは、所定の話者の
    発声音声文を書き下した学習用テキストデータから、質
    問と単語との間の所定の相互情報量が所定のしきい値以
    上である質問セットを選択したものであることを特徴と
    する請求項1記載の言語モデル生成装置。
  3. 【請求項3】 入力される発声音声文の音声信号に基づ
    いて、所定の言語モデルを用いて音声認識する音声認識
    手段を備えた音声認識装置において、 上記音声認識手段は、請求項1又は2記載の言語モデル
    生成装置によって生成された言語モデルを用いて音声認
    識することを特徴とする音声認識装置。
JP11048019A 1999-02-25 1999-02-25 言語モデル生成装置及び音声認識装置 Pending JP2000250581A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11048019A JP2000250581A (ja) 1999-02-25 1999-02-25 言語モデル生成装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11048019A JP2000250581A (ja) 1999-02-25 1999-02-25 言語モデル生成装置及び音声認識装置

Publications (1)

Publication Number Publication Date
JP2000250581A true JP2000250581A (ja) 2000-09-14

Family

ID=12791611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11048019A Pending JP2000250581A (ja) 1999-02-25 1999-02-25 言語モデル生成装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JP2000250581A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107314A (ja) * 2009-11-16 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法及び音声認識プログラム
WO2013172014A1 (ja) * 2012-05-17 2013-11-21 日本電気株式会社 言語モデル生成装置、音声認識装置、言語モデル生成方法およびプログラム記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107314A (ja) * 2009-11-16 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法及び音声認識プログラム
WO2013172014A1 (ja) * 2012-05-17 2013-11-21 日本電気株式会社 言語モデル生成装置、音声認識装置、言語モデル生成方法およびプログラム記憶媒体

Similar Documents

Publication Publication Date Title
US9911413B1 (en) Neural latent variable model for spoken language understanding
JP3004254B2 (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
CN1321401C (zh) 语音识别设备、语音识别方法、会话控制设备以及会话控制方法
Ortmanns et al. Language-model look-ahead for large vocabulary speech recognition
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
EP4018437B1 (en) Optimizing a keyword spotting system
US11030999B1 (en) Word embeddings for natural language processing
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
Decadt et al. Transcription of out-of-vocabulary words in large vocabulary speech recognition based on phoneme-to-grapheme conversion
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
JP2905674B2 (ja) 不特定話者連続音声認識方法
US11817090B1 (en) Entity resolution using acoustic data
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
JP2938865B1 (ja) 音声認識装置
JP2965529B2 (ja) 音声認識装置
JP2000250581A (ja) 言語モデル生成装置及び音声認識装置
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
Kipyatkova et al. Class-based LSTM Russian language model with linguistic information
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体