JP3027543B2 - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JP3027543B2
JP3027543B2 JP8330679A JP33067996A JP3027543B2 JP 3027543 B2 JP3027543 B2 JP 3027543B2 JP 8330679 A JP8330679 A JP 8330679A JP 33067996 A JP33067996 A JP 33067996A JP 3027543 B2 JP3027543 B2 JP 3027543B2
Authority
JP
Japan
Prior art keywords
speech recognition
speech
rule
symbol
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8330679A
Other languages
English (en)
Other versions
JPH10171490A (ja
Inventor
寿幸 竹澤
逞 森元
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP8330679A priority Critical patent/JP3027543B2/ja
Publication of JPH10171490A publication Critical patent/JPH10171490A/ja
Application granted granted Critical
Publication of JP3027543B2 publication Critical patent/JP3027543B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連続音声認識装置
に関し、特に、単一又は複数の文節、あるいは単一又は
複数の単語からなる発話音声を効率的に音声認識する連
続音声認識装置に関する。本明細書において、単語及び
形態素を「語」という。
【0002】
【従来の技術】従来の連続音声認識装置として、例え
ば、音素コンテキスト依存LRパーザにより、逐次状態
分割法(Successive State Splitting:SSS)で自動
生成された隠れマルコフ網(以下、HM網という。)を
駆動して音声認識処理を実行する装置(以下、従来例と
いう。)が、従来技術文献1「永井明人ほか,“逐次状
態分割法(SSS)と音素コンテキスト依存LRパーザ
を統合したSSS−LR連続音声認識システム”,電子
情報通信学会技術報告,SP92−33,pp.69−
76,355−1992年」において開示されている。
この連続音声認識装置は、音素継続時間を制御するため
に、逐次状態分割法を用いてHM網とは独立に生成した
音素コンテキスト依存の音素継続時間モデルを使用する
ことを特徴とし、より高い認識率を有し高速で処理する
ことができたことが上記従来技術文献1において報告さ
れている。
【0003】上記従来技術文献1において開示された連
続音声認識装置において、音素環境依存の精密な音素モ
デルを利用すると、音素モデルの連接可能性を実行時に
調べながら、音声認識の処理を進めなければならず、音
声認識処理の効率がきわめて悪いという問題点があっ
た。しかも、単語又は文節の境界において、後に実行さ
れる還元(reduce)処理の時点で棄却されるにもかかわ
らず、音素照合時には接続可能とみなされてしまう異音
モデルの数が増大してしまい、処理時間が増大するとと
もに、認識率が大幅に低下していた。
【0004】上記の問題点を解決するために、本発明者
は、特願平07−088041号の特許出願(特開平0
8−286694号公報で出願公開済み。)において、
「入力される発声音声に基づいて所定の隠れマルコフモ
デル(HMM)を参照して音素認識し、かつ所定のLR
構文解析テーブルを参照して構文解析することにより、
上記発声音声を音声認識する音声認識手段を備えた連続
音声認識装置において、音素間の接続関係を示す所定の
異音規則に基づいて、上記LR構文解析テーブルにおい
て単語内及び単語間における音素の連接の可能性がない
部分を削除して最適化されたLR構文解析テーブルを出
力する最適化処理手段を備え、上記音声認識手段は、上
記最適化されたLR構文解析テーブルを参照して構文解
析することにより、上記発声音声を音声認識することを
特徴とする連続音声認識装置。」(以下、第1の従来例
という。)を提案している。第1の従来例の連続音声認
識装置においては、具体的には、単語間のすべての連接
可能性を調べ尽くしたLR構文解析テーブル(以下、L
Rテーブルという。)を予め用意することによって、上
記の問題点を解決している。
【0005】また、本発明者は、文脈自由文法形式の統
語的な制約を用いて、部分木系列をスコア付きの仮説と
して出力する、音声パーザの検討を行っており、自然な
発話を扱うために、文法は部分木を単位として記述する
ことを、従来技術文献2「竹沢寿幸ほか,“自然発話の
言語現象と音声認識用日本語文法”,情報処理学会研究
報告,95−SLP−6−5,1995年」(以下、第
2の従来例という。)において提案している。この第2
の従来例においては、例えば、「それでは、鈴木和子
様」という発話があった場合、仮に「それでは」と「鈴
木和子様」の二つの文節に分けたとしても、断片的な発
話なので、文としての構造を持っているとは必ずしも言
えない。このような背景から、部分的な構造を表現する
ことが必要となり、本発明者はそれを部分木と名付けて
いる。このアプローチの考え方は、まず部分木に基づく
文法を採用することで、文法の被覆率を高め、音声認識
部から出力される構造を、音声翻訳や音声対話システム
の言語処理部で利用することにより、全体として効率的
な音声言語統合処理を実現している。
【0006】
【発明が解決しようとする課題】しかしながら、第1と
第2の従来例の音声認識装置においては、いまだ処理時
間は比較的長く、認識率は比較的低いという問題点があ
った。
【0007】本発明の目的は以上の問題点を解決し、従
来例に比較して処理時間を短縮することができるととも
に、認識率を改善することができる連続音声認識装置を
提供することにある。
【0008】
【課題を解決するための手段】本発明に係る請求項1記
載の連続音声認識装置は、入力される自由発話の発声音
声文の音声信号に基づいて音声認識する音声認識手段を
備えた連続音声認識装置において、上記音声認識手段
は、上記音声信号に基づいて所定の隠れマルコフモデル
を参照して音素認識し、かつ、所定の文脈自由文法規則
に基づいて生成された第1のLR構文解析テーブルと、
所定の語彙規則に基づいて生成された第2のLR構文解
析テーブルと、上記文脈自由文法規則に基づいて生成さ
れた、上記文脈自由文法規則で書き換えたときの末端の
要素を示す終端記号の1つ手前の記号である前終端記号
のバイグラムを含む統計的言語モデルとを参照して構文
解析することにより、上記発声音声文を音声認識するこ
とを特徴とする。
【0009】また、請求項2記載の連続音声認識装置
は、請求項1記載の連続音声認識装置において、上記語
彙規則に対して開始記号から前終端記号への規則を追加
した後、第2のLR構文解析テーブルの各状態と、各状
態の要素の命令内容を決定することにより、上記第2の
LR構文解析テーブルを生成する生成手段をさらに備え
たことを特徴とする。
【0010】さらに、請求項3記載の連続音声認識装置
は、請求項1又は2記載の連続音声認識装置において、
上記音声認識手段は、上記隠れマルコフモデルに基づい
た音響スコアと、上記第1と第2のLR構文解析テーブ
ルと上記統計的言語モデルとに基づいた言語スコアとに
基づいて音声認識のための尤度スコアを計算し、所定の
しきい値を用いてビーム探索により音声認識結果を決定
することを特徴とする。
【0011】またさらに、請求項4記載の連続音声認識
装置は、請求項3記載の連続音声認識装置において、上
記音声認識手段は、上記音響スコアの対数値と、上記言
語スコアの対数値に所定の重み係数を乗算した値とを加
算した値を尤度スコアとして計算することを特徴とす
る。
【0012】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0013】図1に本発明に係る一実施形態の連続音声
認識装置を示す。図1に示すように、この連続音声認識
装置は、大きく分けて、 (a)自由発話音声の音声信号の特徴パラメータに基づ
いて、隠れマルコフ網メモリ(以下、HM網メモリとい
う。)10に記憶された隠れマルコフ網(以下、HM網
という。)を参照して音素照合を行い、音響モデルに基
づく音声認識スコアを出力する音素照合部4と、 (b)一般化されたLR構文解析部(以下、GLRパー
ザという。)5とを備え、GLRパーザ5は、(b−
1)文脈自由文法規則メモリ(以下、CFGルールメモ
リという。)31に記憶された文脈自由文法規則(以
下、CFGルールという。)に基づいて第1のLRテー
ブル生成部21によって生成されてCFGルールLRテ
ーブルメモリ(以下、第1のLRテーブルメモリとい
う。)11に記憶されたCFGルールLRテーブル(以
下、第1のLRテーブルという。)と、(b−2)語彙
規則メモリ32に記憶された語彙規則に基づいて第2の
LRテーブル生成部22によって生成されて語彙規則L
Rテーブルメモリ(以下、第2のLRテーブルメモリと
いう。)12に記憶された語彙規則LRテーブル(以
下、第2のLRテーブルという。)と、(b−3)CF
Gルールメモリ31に記憶されたCFGルールに基づい
て統計的言語モデル生成部23によって生成されて統計
的言語モデルメモリ13に記憶された、前終端記号のバ
イグラムを含む統計的言語モデルと、を参照して、LR
構文解析処理を含む音声認識処理を実行して音声認識結
果データを出力することを特徴としている。ここで、
「終端記号」とは、CFGルールで書き換えたときの末
端の要素、具体的には、構文木の葉(リーフ)の音素又
は単語を示す記号である。
【0014】本実施形態においては、前終端記号バイグ
ラムの評価を予測的に行うために、GLRパーザ5にお
ける辞書引きの実装方法を変更するとともに、ビーム探
索の枝刈りの条件と、スコアの計算式を改良している。
LRテーブルを用いる音声認識装置においては、先読み
した語の代わりに、その語の品詞を先読み情報として用
いる。これを、終端記号以外の記号を示す非終端記号と
区別するために、終端記号の1つ手前の記号であるとい
う意味で、前終端記号(preterminal)といい、<pr
eterm>で表わす。また、非終端記号から品詞を除
いたものを純非終端記号と定義する。
【0015】例えば、前終端記号バイグラムを利用する
場合の言語スコアは予測された音素系列の文法履歴か
ら、
【数1】(<前終端記号>→終端記号) という形式の構文規則を取り出して計算することが考え
られる。つまり、予測された音素系列の中で確定した語
についての言語スコアを計算することが考えられる。前
終端記号バイグラムの評価を語候補が確定する前に行う
ほうが効率的な探索が実現できると期待できる。以上の
実現方法による装置を、以下、比較例という。しかしな
がら、語彙項目と構文規則を一緒にしてLRテーブルを
作成してしまうと、前終端記号バイグラムを予測的に評
価する探索を実現しにくい。そこで、本実施形態におい
ては、構文規則のみからなる第1のLRテーブルと、語
彙項目のみからなる第2のLRテーブルとの2つに分離
することを特徴としている。
【0016】以下、具体例を使って説明する。表1に簡
単な文法規則の記述例を示す。
【0017】
【表1】 文法の記述例 ────────────────────────── (1)<S>→<PP><S> (2)<S>→<V> (3)<PP>→<N><P> (4)<PP>→<S><P> (5)<V>→k i t a (6)<V>→t u t a w a q t a (7)<N>→k i t a (8)<N>→b u ng k a (9)<P>→k a r a (10)<P>→g a ──────────────────────────
【0018】表1において、<S>は文であり、<PP
>は後置詞句であり、<N>は名詞であり、<P>は助
詞である。上記表1の(1)の規則は、「文Sは、名詞
Nと、後置詞句PPとがこの順序で並んだものであ
る。」ということを示している。また、上記数1の
(5)の規則は、「動詞Vは、kita(きた)であ
る。」ということを示しており、さらに、上記数1の
(7)の規則は、「名詞Nは、kita(北)であ
る。」ということを示しており、またさらに、上記数1
の(9)の規則は、「助詞Pは、kara(から)であ
る。」ということを示している。そして、上記表1に示
す文法規則に基づいて、例えば第1の従来例の方法を用
いてLRテーブルを作成すると表2及び表3に示すLR
テーブルを得ることができる。
【0019】
【表2】
【0020】
【表3】
【0021】表2及び表3において、LRテーブルは、
左側部分の動作(ACTION)表と、右側部分の行先
(GOTO)表とからなり、動作表は、一連の状態番号
が付された各状態において上側に示す音素が入力された
ときにどのような構文解析動作を実行するかを示す一
方、行先表は各状態において動作を実行後に移動する先
の状態番号を示す。ここで、$は文末記号を示す。表2
及び表3において、例えば、状態0で音素“b”が来れ
ば、“s1”すなわちルール1にシフト(移動遷移)
し、ある規則でレデュースされたあとスタックの状態が
0となり、そのときの規則の左辺が名詞Nであれば状態
2に行くことを示す。また、例えば、状態6で音素
“k”が来れば、“r2”すなわちルール2を還元(レ
デュース)することを示す。さらに、状態7で文末記号
$が来れば、受理(acc)することを示す。LRテー
ブルについての詳細については、従来技術文献3「田中
穂積著,“自然言語解析の基礎”,pp.78−10
4,産業図書,平成元年11月27日初版発行」におい
て説明されている。
【0022】しかしながら、表2及び表3においては、
前終端記号の情報は含まれていないので、何らかの方法
で元の構文規則を参照しなければならないという問題点
がある。そこで、本実施形態においては、表1に示す文
法規則を、表4のような前終端記号までの文法規則(構
文規則)と、表5のような語彙規則に分離する。
【0023】
【表4】前終端記号までの文法規則 ──────────────── (1)<S>→<PP><S> (2)<S>→V (3)<PP>→NP (4)<PP>→<S>P ────────────────
【0024】
【表5】語彙規則 ───────────────────────── (1)<preterm>→<V> (2)<preterm>→<N> (3)<preterm>→<P> (4)<V>→k i t a (5)<V>→t u t a w a q t a (6)<N>→k i t a (7)<N>→b u ng k a (8)<P>→k a r a (9)<P>→g a ─────────────────────────
【0025】表4の文法規則では元の文法の前終端記号
が終端記号となっている。表4の文法規則に基づいて、
詳細後述する第1のLRテーブル生成部21によって実
行される第1のLRテーブル生成処理により第1のLR
テーブルを作成すると、表6を得ることができる。
【0026】
【表6】
【0027】表5及び表6において、<V>,<N>,
<P>,<PP>は非終端記号を示している。先読み可
能な記号が前終端記号なので、本実施形態においては、
次につながる可能性のある前終端記号を簡単に予測する
ことができる。つまり、音声認識過程で前終端記号バイ
グラムの評価を予測的に活用することができる。さら
に、表5の語彙規則に対して、詳細後述する第2のLR
テーブル生成部22によって実行される第2のLRテー
ブル生成処理によってLRテーブルを作ると、表7及び
表8を得ることができる。なお、表7及び表8におい
て、表の一部は省略しており、…で表している。
【0028】
【表7】
【0029】
【表8】
【0030】表7及び表8に示す第2のLRテーブルに
おいては、シフト動作のところに到達可能なカテゴリ
(元の文法の前終端記号)の情報が埋め込まれているた
め、不必要な音素照合を削減することができ、これによ
って、詳細後述するように、音声認識処理を従来例に比
較して高速化しかつより高い認識率で実行することがで
きるという利点がある。本実施形態の利点は、次のよう
に要約できる。 (I)語候補が確定する前に、前終端記号バイグラムを
評価することが簡単にできる。 (II)人名などの新語登録を簡便に実現することができ
る。 (III)未登録語の扱いも語レベルで行うことができ
る。
【0031】図2は、図1の第1のLRテーブル生成部
21によって実行される第1のLRテーブル生成処理を
示すフローチャートである。
【0032】図2において、まず、ステップS1におい
て、CFGルールメモリ31から、例えば表4に示すよ
うな前終端記号までのCFGルール(文脈自由文法規
則)を読み出す。次いで、ステップS2において、読み
出したCFGルールに対して規則[<SS>→<S>]
を追加する。ここで、<SS>は開始記号(Start Symb
ol)である。さらにステップS3において、第1のLR
テーブルの各状態の要素を求める。具体的には、次の処
理を行う。 (a)アイテム集合(クロージャ)の集合をCとし、そ
の初期値を次式で表わす。
【数2】C={Closure({[<SS>→・<S
>]})} (b)集合Cの中の各アイテム集合(クロージャ)Iに
対して、以下の計算を行う。アイテム集合(クロージ
ャ)Iを構成するアイテム中の右辺の各非終端記号Aに
対して、
【数3】Goto(I,A) を計算する。その結果が空でなく、かつCに含まれてい
なければ、Cに付加する。この処理をCに付加すべきア
イテム集合がなくなるまで繰り返す。上記のアイテム、
クロージャ関数、Goto関数の説明は後述する。以上
の処理で得られた各アイテム集合IiがLRテーブルの
状態iの要素を表す。
【0033】次いで、ステップS4において、第1のL
Rテーブルの各状態の要素の命令内容を決定する。具体
的には、次の処理を行う。 (a)Goto(Ii,Preterm*)=Ijなら
ば、Action[i,Preterm*]にシフト操
作“Shift j”を書き込む。 (b)もし[B→α・]∈Iiなら関数Follow
(B)に含まれるすべての前終端記号Preterm*
に対してAction[i,Preterm*]にレデ
ュース操作(還元操作)“reduce by[B→
α]”を書き込む。ここで、Follow関数は詳細後
述する。 (c)もし[<SS>→<S>・]∈IiならActi
on[i,$]に「受理(acc)」と書き込む。 (d)純非終端記号Aに対して、もしGoto(Ii
A)=Ijならば、第1のLRテーブルに対してGot
o[i,A]=jと書き込む。 (e)空白のまま残った要素は失敗となる。
【0034】さらに、ステップS5で、例えば表6に示
すような、生成した第1のLRテーブルを第1のLRテ
ーブルメモリ11に書き込み、当該第1のLRテーブル
生成処理を終了する。上記第1のLRテーブル生成処理
において、アイテムとは、文法規則に、解析位置を表す
ドット(・)を加えたものである。例えば、規則[<S
>→V]からは2つのアイテム(A)[<S>→・V]
と、(B)[<S>→V・]が得られる。(A)はこれ
から解析が始まることを表し、(B)は解析が終わった
ことを表す。
【0035】クロージャ関数の処理は次の通りである。
Closure(I)に[A→α・Bβ]があれば、す
べての[B→γ]に対して、重複がない限り、[B→・
γ]をClosure(I)に加える。この処理はCl
osure(I)に加えるべき新しいアイテムがなくな
るまで繰り返す。
【0036】Goto関数の処理は次の通りである。ア
イテム集合Iと非終端記号Xが与えられたとき、関数G
oto(I,X)の関数値は、I中のすべてのアイテム
[A→α・Xβ]に対して、ドットの位置を1つ右にず
らしたアイテム[A→αX・β]から得られるすべての
クロージャの和集合である。
【0037】Follow関数の処理は次の通りであ
る。 (a)開始記号Sに対し、関数Follow(S)に終
端記号$を加える。ただし、$は入力文の終わりを表す
記号である。 (b)もし生成規則[B→αAβ]があれば、βの最左
導出(Leftmost drivation)をすべて関数Follow
(A)に加える。 (c)もし生成規則[B→αA]があれば、関数Fol
low(B)を関数Follow(A)に加える。
【0038】図3は、図1の第2のLRテーブル生成部
22によって実行される第2のLRテーブル生成処理を
示すフローチャートである。図3において、まず、ステ
ップS11において、語彙規則メモリ32から、例えば
表5に示すような語彙規則を読み出す。次いで、ステッ
プS12において、読み出した語彙規則に対して規則
[<SS>→<preterm>]を追加する。ここ
で、規則[<SS>→<preterm>]は、開始記
号から前終端記号への規則であり、語彙規則のための第
2のLRテーブルの開始位置を示す。そして、ステップ
S13において、第2のLRテーブルの各状態の要素を
求める。具体的な処理は次の通りである。 (a)条件付アイテム集合(条件付クロージャ)の集合
をCとし、その初期値を次式で表わす。
【数4】C={条件付Closure({[<SS>→・<
preterm>,{}]})} (b)集合Cの中の各条件付アイテム集合(条件付クロ
ージャ)Iに対して、以下の計算を行う。条件付アイテ
ム集合(条件付クロージャ)Iを構成する条件付アイテ
ム中の右辺の各非終端記号Aに対して、
【数5】条件付Goto(I,A) を計算する。その結果が空(empty)でなく、かつ集合
Cに含まれていなければ、集合Cに付加する。この処理
を集合Cに付加すべき条件付アイテム集合がなくなるま
で繰り返す。上記条件付アイテム、条件付クロージャ関
数、条件付Goto関数の説明は詳細後述する。以上の
処理で得られた各条件付アイテム集合Iiが第2のLR
テーブルの状態iの要素を表す。
【0039】次いで、ステップS14において、第2の
LRテーブルの各状態の要素の命令内容を決定する。具
体的な処理は次の通りである。 (a)Goto(Ii,Phone*)=Ijならば、A
ction[i,Phone*]にシフト操作“Shi
ft j,{条件付アイテムIiの条件}”を書き込
む。 (b)もし[B→α・]∈Iiならば、関数Follo
w(B)に含まれるすべての前終端記号Phone*に
対してAction[i,Phone*]にレデュース
操作“reduce by[B→α]”を書き込む。こ
こで、Follow関数の説明は詳細後述する。 (c)もし[<SS>→<preterm>・]∈Ii
ならば、Action[i,$]に「受理(acc)」
と書き込む。 (d)純非終端記号Aに対して、もしGoto(Ii
A)=Ijならば、Goto[i,A]=jと書き込
む。 (e)空白のまま残った要素は失敗となる。
【0040】さらに、ステップS15において、表7及
び表8に示すような、作成した第2のLRテーブルを第
2のLRテーブルメモリ12に書き込み、当該第2のL
Rテーブル生成処理を終了する。上記の条件付アイテム
とは、アイテムに条件を加えたものである。その形式
は、
【数6】[A→α・β,{Xi}] である。また、条件付クロージャ関数の処理は次の通り
である。 (a)Sが開始記号であるIの条件付アイテム[S→・
α,{}]に対して、クロージャClosure(I)
に[S→・α,{S}]を加える。Iの他の条件付アイ
テムはそのままクロージャClosure(I)に加え
る。 (b)クロージャClosure(I)に[A→α・B
β{Xi}]があれば、すべての[B→γ]に対して、
重複がない限り、[B→・γ,{Xi}]をクロージャ
Closure(I)に加える。さらに、Bから導出可
能なCに対して、[C→・γ,{Yj}]があれば、
[C→・γ,{Xi}∪{Yj}]で置き換える。
【0041】上記の条件付Goto関数の処理は次の通
りである。条件付アイテム集合Iと非終端記号Xが与え
られたとき、関数Goto(I,X)の値は、I中のす
べての条件付アイテム[A→α・Xβ,{Xi}]に対
して、ドットの位置を1つだけ右にずらした条件付アイ
テム[A→αX・β,{Xi}]から得られるすべての
条件付クロージャの和集合である。また、Follow
関数は条件付アイテムに対しても同じである。
【0042】図4は、図1の統計的言語モデル生成部2
3によって実行される統計的言語モデル生成処理を示す
フローチャートである。当該統計的言語モデルは、品詞
の統計的言語モデルであって、前終端記号のバイグラム
を含む。当該処理においては、表9に示すような構文解
析データを作成し、発話開始を表す<BEGIN>と発
話終了を表す<END>という記号を用意して、前終端
記号の連接情報を抽出する。例えば、表9からは表10
が得られる。多数のデータから表10のようなデータの
出現頻度を計算し正規化して、表11のような前終端記
号のつながりやすさのデータ、すなわち、前終端記号の
バイグラムを含む統計的言語モデルを得る。
【0043】
【表9】 ──────────────────────── <sent> |--<cl> |--<cl1> |--<vp> |--<vaux-masu-syusi> |--<verb-cop-renyo-de> | |--<np> | | |--<n-proper> | | |--<pow-n-proper> | | |--nyuuwashi=to=hoteru | |--<aux-cop-da-renyo-de> | |--de |--<aux-polt-masu-syusi> |--<auxstem-polt-masu> | |--gozaima |--<vinfl-spe-su> |--su ────────────────────────
【0044】
【表10】構文解析データの例 ──────────────────────── <BEGIN>:<pow-n-proper> <pow-n-proper>:<aux-cop-da-renyo-de> <aux-cop-da-renyo-de>:<auxstem-polt-masu> <auxstem-polt-masu>:<vinfl-spe-su> <vinfl-spe-su>:<END> ────────────────────────
【0045】
【表11】前終端記号バイグラムの抽出結果例 ───────────────────────── <BEGIN>:<adv-desu> = 0.036585 (9/246) <BEGIN>:<adv-sent> = 0.028455 (7/246) <BEGIN>:<adv> = 0.056911 (14/246) <BEGIN>:<conj> = 0.097561 (24/246) <BEGIN>:<family-name-jap> = 0.016260 (4/246) <BEGIN>:<first-name-others> = 0.012195 (3/246) <BEGIN>:<interj-hesit> = 0.069106 (17/246) <BEGIN>:<interj-post> = 0.077236 (19/246) <BEGIN>:<interj-pre> = 0.219512 (54/246) <BEGIN>:<n-adj> = 0.012195 (3/246) <BEGIN>:<n-day> = 0.004065 (1/246) <BEGIN>:<n-hour> = 0.012195 (3/246) <BEGIN>:<n-hutu> = 0.097561 (24/246) <BEGIN>:<n-month> = 0.004065 (1/246) <BEGIN>:<n-num-kyuu> = 0.004065 (1/246) <BEGIN>:<n-num-roku> = 0.004065 (1/246) <BEGIN>:<n-num-san> = 0.004065 (1/246) <BEGIN>:<n-num-yon> = 0.004065 (1/246) <BEGIN>:<n-proper> = 0.020325 (5/246) <BEGIN>:<n-sahen> = 0.040650 (10/246) <BEGIN>:<n-spel> = 0.004065 (1/246) <BEGIN>:<n-time> = 0.020325 (5/246) <BEGIN>:<n-week> = 0.004065 (1/246) <BEGIN>:<num-suf-hyaku> = 0.004065 (1/246) <BEGIN>:<prefix-go> = 0.008130 (2/246) <BEGIN>:<prefix-o> = 0.044715 (11/246) <BEGIN>:<pro-exp> = 0.012195 (3/246) <BEGIN>:<pro1> = 0.008130 (2/246) <BEGIN>:<pro> = 0.004065 (1/246) <BEGIN>:<rentai> = 0.012195 (3/246) <BEGIN>:<vstem-1dan> = 0.016260 (4/246) <BEGIN>:<vstem-5-r> = 0.032520 (8/246) <BEGIN>:<wh-pro> = 0.008130 (2/246) <adjstem>:<vinfl-adj-i> = 0.714286 (5/7) <adjstem>:<vinfl-adj-ku> = 0.285714 (2/7) <adv-degr>:<n-num-hito> = 1.000000 (1/1) <adv-desu>:<auxstem-desu> = 0.888889 (16/18) <adv-desu>:<prefix-go> = 0.055556 (1/18) <adv-desu>:<prefix-o> = 0.055556 (1/18) <adv-sent>:<adv> = 0.100000 (1/10) <adv-sent>:<n-adj> = 0.100000 (1/10) <adv-sent>:<n-day> = 0.100000 (1/10) <adv-sent>:<n-hutu> = 0.500000 (5/10) <adv-sent>:<rentai> = 0.200000 (2/10) ─────────────────────────
【0046】表10において、例えば、「<BEGIN>:<pow
-n-proper>」は、発話開始<BEGIN>のあとに固有
名詞<pow-n-proper>がつながることを示す、「<pow-n-p
roper>:<aux-cop-da-renyo-de>」は、固有名詞<pow-n-p
roper>のあとに助動詞「だ」の連用形「で」を表わす<a
ux-cop-da-renyo-de>がつながることを示す。また、表
11において、例えば、「<BEGIN>:<adv-desu> = 0.036
585 (9/246)」は、発話開始<BEGIN>と、「で
す」と共起可能な副詞を表わす<adv-desu>との連接確率
が0.036585であり、その根拠は、発話開始<B
EGIN>の出現頻度246に対してその連接の出現頻
度が9回であることに基づく。さらに、「<adjstem>:<v
infl-adj-i> = 0.714286 (5/7)」は、形容詞語幹<adjst
em>に形容詞語尾「い」を表わす<vinfl-adj-i>がつなが
る連接確率が0.714286であり、その根拠は、形
容詞語幹<adjstem>の出現頻度7回のうち、5回がその
連接であることを示す。またさらに、「<adv-degr>:<n-
num-hito> = 1.000000 (1/1)」は、程度を表わす<adv-d
egr>のあとに数詞「一」を表わす<n-num-hito>がつなが
る連接確率は1であり、その根拠は、<adv-degr>の出現
1回に対してすべてであったことに基づく。さらに、
「<adv-desu>:<auxstem-desu> = 0.888889 (16/18)」
は、「です」と共起可能な副詞<adv-desu>と助動詞「で
す」の語幹を表わす<auxstem-desu>とがつながる確率は
0.888889であり、この根拠は、<auxstem-desu>
の出現回数18回に対して16回の連接があったことに
基づく。
【0047】統計的言語モデル生成処理を示す図4にお
いて、まず、ステップS21において、CFGルールメ
モリ31からCFGルールを読み出す。次いで、ステッ
プS22において、読み出したCFGルールを用いて構
文解析データを作成し、ステップS23において、作成
した構文解析データに、発話開始記号<BEGIN>及
び発話終了記号<END>を追加して、前終端記号の2
つ組を抽出する。そして、ステップS24において、前
終端記号の2つ組の頻度を計数し、ステップS25にお
いて、時系列で前の記号毎に頻度を正規化して、前終端
記号のバイグラムを含む統計的言語モデルを生成する。
ステップS24において、何らかの平滑化処理を施して
もよい。最後に、ステップS26において、生成した統
計的言語モデルを統計的言語モデルメモリ13に書き込
み、当該統計的言語モデル生成処理を終了する。
【0048】図5は、図1のGLRパーザ5によって実
行される音声認識処理を示すフローチャートである。図
5において、まず、ステップS31において、初期化処
理を実行する。具体的には次の処理を実行する。 (a)現在の前終端記号に発話開始記号<BEGIN>
を置く。 (b)表6に示すような第1のLRテーブルのためのス
タック1メモリを用意し、スタック1に初期状態0を積
む。
【0049】次いで、ステップS32において、音声区
間が終了したか否かが判断され、音声区間が終了なら
ば、ステップS37で音声認識候補データを出力して当
該音声認識処理を終了する。一方、音声区間が終了して
いないときは、ステップS33に進む。ステップS33
においては、次の前終端記号の予測処理と語の認識処理
の起動処理を実行する。具体的な処理は次の通りであ
る。 (a)スタック1の一番上の状態が表6に示す第1のL
Rテーブルの現在の状態を示しているので、それを参照
する。 (b)レデュース命令があればそれを実行する。スタッ
ク1の内容が操作される。 (c)シフト命令があれば、そこで予測されている次の
前終端記号と現在の前終端記号とのバイグラム(統計的
なつながりやすさ)を評価する。複数候補あれば、セル
をコピーして複数個の候補を残す。シフト命令で指定さ
れている状態へ移動する。
【0050】次いで、ステップS34においては、語の
認識処理の初期化処理を実行する。具体的な処理は次の
通りである。 (a)セル毎に予測された前終端記号を現在の前終端記
号とする。 (b)セル毎に表7及び表8に示す第2のLRテーブル
のためのスタック2メモリを用意し、初期状態0を積
む。
【0051】そして、ステップS35において、語の認
識処理の終了条件検査を行い、すなわち、受理(ac
c)に至ったか否かが判断される。ここで、受理(ac
c)に至ったときは、ステップS32に戻り、終了条件
検査を実行する。一方、受理(acc)に至らないとき
は、ステップS36に進み、語の認識処理を実行する。
具体的には次の処理を行う。 (a)スタック2の一番上の状態が表7及び表8に示す
第2のLRテーブルの現在の状態を示しているので、そ
れを参照する。 (b)レデュース命令があればそれを実行する。スタッ
ク2の内容が操作される。 (c)シフト命令があれば、その条件に現在の前終端記
号が指定されているものだけを音素照合する。複数候補
あれば、セルをコピーして複数個の候補を残す。シフト
命令で指定されている状態へ移動する。 (d)音素照合の度に(又は音声の入力フレーム毎
に)、音素照合スコアと前終端記号バイグラムを合わせ
た評価スコアで、所定のしきい値を用いて枝刈りを行
う。すなわち、上記しきい値以下のスコアを有するもの
をビーム探索して枝刈りを実行する。 (e)そして、ステップS35の語の認識処理の終了条
件検査に進む。
【0052】以上に述べた処理により生成された第1と
第2のLRテーブル及び統計的言語モデルを、図1に示
すSSS(Successive State Splitting:逐次状態分割
法)−LR(left-to-right rightmost型)不特定話者
の自由発話連続音声認識装置に適用する。この連続音声
認識装置は、HM網と呼ばれる音素環境依存型の効率の
よいHMMの表現形式を用いている。また、上記SSS
においては、音素の特徴空間上に割り当てられた確率的
定常信号源(状態)の間の確率的な遷移により音声パラ
メータの時間的な推移を表現した確率モデルに対して、
尤度最大化の基準に基づいて個々の状態をコンテキスト
方向又は時間方向へ分割するという操作を繰り返すこと
によって、モデルの精密化を逐次的に実行する。
【0053】図1において、話者の自由発話の発声音声
文の音声はマイクロホン1aに入力されて音声信号に変
換された後、A/D変換器1bに入力される。A/D変
換器1bは入力された音声信号をA/D変換した後、特
徴抽出部2に出力し、特徴抽出部2は、例えばLPC分
析を実行し、対数パワー、16次ケプストラム係数、Δ
対数パワー及び16次Δケプストラム係数を含む34次
元の特徴パラメータを抽出する。抽出された特徴パラメ
ータの時系列はバッファメモリ3を介して音素照合部4
に入力される。
【0054】音素照合部4に接続されるHM網メモリ1
0内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
【0055】なお、本実施形態において、音響モデルで
あるHM網は、各分布がどの話者に由来するかを特定す
る必要があるため、所定の話者混合HM網を変換して作
成する。ここで、出力確率密度関数は34次元の対角共
分散行列をもつ混合ガウス分布であり、各分布はある特
定の話者のサンプルを用いて学習されている。
【0056】音素照合部4は、GLRパーザ5からの音
素照合要求に応じて音素照合処理を実行する。このとき
に、GLRパーザ5からは、音素照合区間及び照合対象
音素とその前後の音素から成る音素コンテキスト情報が
渡される。音素照合部4は、受け取った音素コンテキス
ト情報に基づいてそのようなコンテキストを受理するこ
とができるHM網上の状態を、先行状態リストと後続状
態リストの制約内で連結することによって、1つのモデ
ルが選択される。そして、このモデルを用いて音素照合
区間内のデータに対する尤度が計算され、この尤度の値
が音素照合スコアとしてGLRパーザ5に返される。こ
のときに用いられるモデルは、隠れマルコフモデル(以
下、HMMという。)と等価であるために、尤度の計算
には通常のHMMで用いられている前向きパスアルゴリ
ズムをそのまま使用する。
【0057】GLRパーザ5は、第1と第2のLRテー
ブルと統計的言語モデルとをを参照して、上述の音声認
識処理(図5参照。)を実行することにより、入力され
た音素予測データについて左から右方向に、後戻りなし
に処理する。構文的にあいまいさがある場合は、スタッ
クを分割してすべての候補の解析が平行して処理され
る。GLRパーザ5は、第1と第2のLRテーブル及び
統計的言語モデルを参照して次にくる音素を予測して音
素予測データを音素照合部4に出力する。これに応答し
て、音素照合部4は、その音素に対応するHM網メモリ
10内のHM網情報を参照して照合し、その尤度を音声
認識スコアとしてGLRパーザ5に戻し、順次音素を連
接していくことにより、連続音声の認識を行っている。
複数の音素が予測された場合は、これらすべての存在を
チェックし、ビームサーチの方法により、部分的な音声
認識の尤度の高い部分木を残すという枝刈りを行って高
速処理を実現する。入力された話者音声の最後まで処理
した後、全体の尤度が最大のもの又は所定の上位複数個
のものを認識結果データ又は結果候補データとして出力
する。
【0058】なお、バッファメモリ3と、HM網メモリ
10と、第1のLRテーブルメモリ11と、第2のLR
テーブルメモリ12と、統計的言語モデルメモリ13
と、CFGルールメモリ31と、語彙規則メモリ32と
は、例えば、ハードディスクメモリなどの記憶装置で構
成される。また、スタック1メモリとスタック2メモリ
とは、例えば、RAMなどの記憶装置で構成される。さ
らに、特徴抽出部2と、音素照合部4と、GLRパーザ
5と、第1のLRテーブル生成部21と、第2のLRテ
ーブル生成部22と、統計的言語モデル生成部23と
は、例えばディジタル計算機などのコンピュータで構成
される。
【0059】
【実施例】本発明者は、本実施形態の装置の効果を確認
するために、ポーズ単位の対話音声認識実験を種々の条
件の下で行った。本出願人で収集作成中の旅行会話デー
タベース(例えば、従来技術文献4「T.Morimoto et a
l.,“A Speech and Language Database for Speech Tra
nslation Research",Proceedings of ICSLP'94,pp.1791
-1794,1994年」参照。)から選択した対話音声を対象に
実験を行った。ポーズの自動検出を行って分割した音声
区間を認識対象とした。対数パワーとゼロ交差数の2つ
の特徴量を用い、300ミリ秒より長いものを選択すれ
ば、促音と区別してポーズを検出できた(今回実験に用
いた対話音声データに限る。我々の集めている旅行会話
データベース全体の特徴という主張ではない。)。音素
モデルとしては、音素バランスの50文によりVFS法
で話者適応を行ったモデル(状態数401,混合数5)
(例えば、従来技術文献5「外村政啓ほか,“MAP−
VFS話者適応法における平滑化係数制御の効果”,日
本音響学会講演論文集,2−5−6,1995年」参
照。)を利用した。音声の分析フレーム長は10msと
した。音声認識の探索手法はフレーム同期方式を採用し
た。なお、実験に利用したマシンはヒューレット・パッ
カード製9000/735型ワークステーションであ
る。そして、文法の諸元を表12に示す。
【0060】
【表12】 文法の諸元 ─────────────────────────────────── 文法名 語数 規則数 前終端記号数 語パープレキシティ ──────────────── 文法のみ 前終端記号ハ゛イク゛ラム併用時 ─────────────────────────────────── 2S 317 1395 184 18.6 10.4 2M 561 1567 247 39.1 22.2 2L 1010 1809 291 71.2 25.9 ───────────────────────────────────
【0061】小さい文法は大きい文法の部分集合となっ
ている。旅行会話データベースからテストセットとは異
なる50対話(1959文)を選び、前終端記号のバイ
グラムを求め、削除補間法により平滑化したところ、前
終端記号のみによるテストセットに対する語パープレキ
シティは29.2であった。表12から明らかなよう
に、いずれの文法の場合であっても、併用時の語パープ
レキシティの方が、元の文法のみの値や、前終端記号の
みの値いずれと比べても小さいことがわかる。
【0062】次いで、評価尺度の検討について述べる。
かな漢字文字列に変換した表記により、正解ラベルと音
声認識候補の間でどの程度一致しているかを評価した。
ポーズ単位認識率は、ポーズ単位全体が正解ラベルとす
べて一致したものの全体に対する割合である。部分的に
正解が含まれることがあるため、語認識率も求めた。語
認識率は正解ラベルに対して音声認識候補の語が一致し
ている割合をDPマッチングにより求めた。上位候補に
対し個別に語認識率を計測した時の最大値を累積の語認
識率とした。
【0063】次いで、ポーズ単位の対話音声認識実験結
果について述べる。5対話、4話者、2話題(ホテルの
予約とホテルでのサービス)、66発話、119ポーズ
単位、845語を対象に実験を行った。「あのキャンセ
ルしたいんですが」のように間投詞(この例では「あ
の」)も随所に挿入されている。「はい」のような感動
詞1語や「え」のような間投詞1語で一つのポーズ単位
となることもあるし、「あいにくですがシングルが満室
となっておりますが」という比較的長いポーズ単位もあ
る。なお、ポーズ単位の平均時間は1874ミリ秒であ
った。
【0064】図6は、従来例の連続音声認識装置におけ
るCPU時間に対するポーズ単位認識率を示すグラフで
あり、図7は、従来例の連続音声認識装置におけるCP
U時間に対する語認識率を示すグラフである。図6及び
図7において、文法のみを利用し、個数によりビーム探
索を制限している。また、図8は、実施形態の連続音声
認識装置におけるCPU時間に対するポーズ単位認識率
を示すグラフであり、図9は、実施形態の連続音声認識
装置におけるCPU時間に対する語認識率を示すグラフ
である。図8及び図9は、しきい値によるビーム探索方
式の条件で、前終端記号のバイグラムを併用した場合の
結果である。図6乃至図9において、図6と図8のTo
p20は上位20位までの累積のポーズ単位認識率を示
し、図7と図9のTop20は上位20位までの候補に
対して個別に語認識率を求めたときの最大値を示す。ま
た、図6及び図7のBはビームに残す個数であり、図8
及び図9のBeamはビームのしきい値である。
【0065】前終端記号バイグラムを予測的に評価す
る、効率的な探索手法を実現し、その効果を確認した。
比較例はCPU時間で計測して実時間のほぼ2倍乃至そ
れ以上であったが、本実施形態は中小の語彙サイズであ
れば実時間処理をほぼ達成した。ビーム探索において一
定の個数を残す手法としきい値による枝刈り手法を比較
した結果、しきい値による枝刈り手法のほうが効率的で
あることが確認できた。上記ビーム探索過程で利用す
る、音声認識のための尤度スコアScoreの計算は次
の2つの式を試みた。
【0066】
【数7】Score1=logPA+Weight×
(logPL/N)
【数8】Score2=logPA+Weight×l
ogPL
【0067】ここで、PAはHM網による音響スコアで
あり、PLは第1と第2のLRテーブル及び統計的言語
モデルによる言語スコアである。Nは音素系列を構成す
る語数である。Weightは重み係数である。音響ス
コアと言語スコアの対数の底を揃えた上で予備実験を行
い、Weightは5.0とした。上記比較例に基づい
て行った、認識候補を後処理的に並べ換える予備実験で
は、語数で正規化したほうが正規化しない場合よりよい
結果が得られていた。しかしながら、実際に認識過程で
併用する実験を行うと、いずれもほぼ同程度の性能向上
が確認できたが、数7は正規化に要する計算量の処理時
間が増加した。要約すると、前終端記号バイグラムを数
8の評価方法で予測的に併用する探索手法で、しきい値
によるビーム探索を行う場合がよい。すなわち、音声認
識スコアは言語スコアPLの対数値に音響スコアの対数
値を加算した値に設定することが好ましい。
【0068】以上説明したように、所定のCFGルール
に基づいて生成された第1のLRテーブルと、所定の語
彙規則に基づいて生成された第2のLRテーブルと、上
記CFGルールに基づいて生成された前終端記号のバイ
グラムを含む統計的言語モデルとを参照して、LR構文
解析処理を含む音声認識処理を実行するように構成した
ので、従来例及び比較例に比較して処理時間を短縮する
ことができるとともに、認識率を改善することができる
連続音声認識装置を提供することにある。すなわち、文
脈自由文法形式の統語的な制約を用いて、部分木系列を
スコア付きの仮説として出力する音声パーザにおいて、
辞書引きの実装方法とビーム探索の手法を改善すること
により、高速化と高性能化が達成することができるとい
う利点がある。
【0069】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の連続音声認識装置によれば、入力される自由発
話の発声音声文の音声信号に基づいて音声認識する音声
認識手段を備えた連続音声認識装置において、上記音声
認識手段は、上記音声信号に基づいて所定の隠れマルコ
フモデルを参照して音素認識し、かつ、所定の文脈自由
文法規則に基づいて生成された第1のLR構文解析テー
ブルと、所定の語彙規則に基づいて生成された第2のL
R構文解析テーブルと、上記文脈自由文法規則に基づい
て生成された、上記文脈自由文法規則で書き換えたとき
の末端の要素を示す終端記号の1つ手前の記号である前
終端記号のバイグラムを含む統計的言語モデルとを参照
して構文解析することにより、上記発声音声文を音声認
識する。従って、従来例及び比較例に比較して処理時間
を短縮することができるとともに、認識率を改善するこ
とができる。
【0070】また、請求項2記載の連続音声認識装置に
おいては、請求項1記載の連続音声認識装置において、
上記語彙規則に対して開始記号から前終端記号への規則
を追加した後、第2のLR構文解析テーブルの各状態
と、各状態の要素の命令内容を決定することにより、上
記第2のLR構文解析テーブルを生成する生成手段をさ
らに備える。従って、語彙規則に基づいた上記第2のL
R構文解析テーブルを生成することができ、従来例及び
比較例に比較して処理時間を短縮することができるとと
もに、認識率を改善することができる。
【0071】さらに、請求項3記載の連続音声認識装置
においては、請求項1又は2記載の連続音声認識装置に
おいて、上記音声認識手段は、上記隠れマルコフモデル
に基づいた音響スコアと、上記第1と第2のLR構文解
析テーブルと上記統計的言語モデルとに基づいた言語ス
コアとに基づいて音声認識のための尤度スコアを計算
し、所定のしきい値を用いてビーム探索により音声認識
結果を決定する。従って、従来例及び比較例に比較して
処理時間を短縮することができるとともに、認識率を改
善することができる。
【0072】またさらに、請求項4記載の連続音声認識
装置においては、請求項3記載の連続音声認識装置にお
いて、上記音声認識手段は、上記音響スコアの対数値
と、上記言語スコアの対数値に所定の重み係数を乗算し
た値とを加算した値を尤度スコアとして計算する。従っ
て、尤度スコアを簡便に計算することができるととも
に、従来例及び比較例に比較して処理時間を短縮するこ
とができるとともに、認識率を改善することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の第1のLRテーブル生成部21によっ
て実行される第1のLRテーブル生成処理を示すフロー
チャートである。
【図3】 図1の第2のLRテーブル生成部22によっ
て実行される第2のLRテーブル生成処理を示すフロー
チャートである。
【図4】 図1の統計的言語モデル生成部23によって
実行される統計的言語モデル生成処理を示すフローチャ
ートである。
【図5】 図1のGLRパーザ5によって実行される音
声認識処理を示すフローチャートである。
【図6】 比較例の連続音声認識装置におけるCPU時
間に対するポーズ単位認識率を示すグラフである。
【図7】 比較例の連続音声認識装置におけるCPU時
間に対する語認識率を示すグラフである。
【図8】 実施形態の連続音声認識装置におけるCPU
時間に対するポーズ単位認識率を示すグラフである。
【図9】 実施形態の連続音声認識装置におけるCPU
時間に対する語認識率を示すグラフである。
【符号の説明】
1a…マイクロホン、 1b…A/D変換器、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…一般化されたLR構文解析部(GLRパーザ)、 10…隠れマルコフ網メモリ(HM網メモリ)、 11…CFGルールLRテーブルメモリ(第1のLRテ
ーブルメモリ)、 12…語彙規則LRテーブルメモリ(第2のLRテーブ
ルメモリ)、 13…統計的言語モデルメモリ、 21…第1のLRテーブル生成部、 22…第2のLRテーブル生成部、 23…統計的言語モデル生成部、 31…文脈自由文法規則メモリ(CFGルールメモ
リ)、 32…語彙規則メモリ、 41…スタック1メモリ、 42…スタック2メモリ。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−278793(JP,A) 特開 平8−248981(JP,A) 特開 平8−248980(JP,A) 特開 平8−30291(JP,A) 特開 平7−287594(JP,A) 特開 平6−95688(JP,A) 特開 平8−286694(JP,A) 電子情報通信学会論文誌 Vol.J 79−D−▲II▼ No.12,Dece mber 1996,「部分木に基づく構文 規則と前終端記号バイグラムを併用する 対話音声認識手法」,p.2078−2085 (平成8年12月25日発行) 情報処理学会研究報告[音声言語情報 処理」Vol.97,No.16,97−SL P−15−25,「MSLR法を考慮した音 声認識用日本語文法 −LR表工学 (3)−」p.145−150,(1997/2 /8) (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 G10L 15/14 JICSTファイル(JOIS) 実用ファイル(PATOLIS) 特許ファイル(PATOLIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力される自由発話の発声音声文の音声
    信号に基づいて音声認識する音声認識手段を備えた連続
    音声認識装置において、 上記音声認識手段は、上記音声信号に基づいて所定の隠
    れマルコフモデルを参照して音素認識し、かつ、所定の
    文脈自由文法規則に基づいて生成された第1のLR構文
    解析テーブルと、所定の語彙規則に基づいて生成された
    第2のLR構文解析テーブルと、上記文脈自由文法規則
    に基づいて生成された、上記文脈自由文法規則で書き換
    えたときの末端の要素を示す終端記号の1つ手前の記号
    である前終端記号のバイグラムを含む統計的言語モデル
    とを参照して構文解析することにより、上記発声音声文
    を音声認識することを特徴とする連続音声認識装置。
  2. 【請求項2】 上記語彙規則に対して開始記号から前終
    端記号への規則を追加した後、第2のLR構文解析テー
    ブルの各状態と、各状態の要素の命令内容を決定するこ
    とにより、上記第2のLR構文解析テーブルを生成する
    生成手段をさらに備えたことを特徴とする請求項1記載
    の連続音声認識装置。
  3. 【請求項3】 上記音声認識手段は、上記隠れマルコフ
    モデルに基づいた音響スコアと、上記第1と第2のLR
    構文解析テーブルと上記統計的言語モデルとに基づいた
    言語スコアとに基づいて音声認識のための尤度スコアを
    計算し、所定のしきい値を用いてビーム探索により音声
    認識結果を決定することを特徴とする請求項1又は2記
    載の連続音声認識装置。
  4. 【請求項4】 上記音声認識手段は、上記音響スコアの
    対数値と、上記言語スコアの対数値に所定の重み係数を
    乗算した値とを加算した値を尤度スコアとして計算する
    ことを特徴とする請求項3記載の連続音声認識装置。
JP8330679A 1996-12-11 1996-12-11 連続音声認識装置 Expired - Fee Related JP3027543B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8330679A JP3027543B2 (ja) 1996-12-11 1996-12-11 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8330679A JP3027543B2 (ja) 1996-12-11 1996-12-11 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPH10171490A JPH10171490A (ja) 1998-06-26
JP3027543B2 true JP3027543B2 (ja) 2000-04-04

Family

ID=18235373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8330679A Expired - Fee Related JP3027543B2 (ja) 1996-12-11 1996-12-11 連続音声認識装置

Country Status (1)

Country Link
JP (1) JP3027543B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293196A (ja) * 1999-04-08 2000-10-20 Nec Corp 音声認識装置、方法及びプログラムを記憶した記憶媒体
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
KR20040051349A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성인식 방법
JP4267385B2 (ja) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
CN102027534B (zh) 2008-05-16 2013-07-31 日本电气株式会社 语言模型得分前瞻值赋值方法及设备
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
情報処理学会研究報告[音声言語情報処理」Vol.97,No.16,97−SLP−15−25,「MSLR法を考慮した音声認識用日本語文法 −LR表工学(3)−」p.145−150,(1997/2/8)
電子情報通信学会論文誌 Vol.J79−D−▲II▼ No.12,December 1996,「部分木に基づく構文規則と前終端記号バイグラムを併用する対話音声認識手法」,p.2078−2085(平成8年12月25日発行)

Also Published As

Publication number Publication date
JPH10171490A (ja) 1998-06-26

Similar Documents

Publication Publication Date Title
Wang et al. Spoken language understanding
Hori et al. Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition
Ortmanns et al. Language-model look-ahead for large vocabulary speech recognition
Nakamura et al. The ATR multilingual speech-to-speech translation system
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
JP3716870B2 (ja) 音声認識装置および音声認識方法
Hori et al. A new approach to automatic speech summarization
Aksënova et al. How might we create better benchmarks for speech recognition?
JP3027543B2 (ja) 連続音声認識装置
JP2886117B2 (ja) 音声認識装置
JP2871557B2 (ja) 音声認識装置
JP2871420B2 (ja) 音声対話システム
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
JP3059413B2 (ja) 自然言語理解装置及び自然言語理解システム
JP2905674B2 (ja) 不特定話者連続音声認識方法
US6772116B2 (en) Method of decoding telegraphic speech
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP2880436B2 (ja) 音声認識装置
JP2000222406A (ja) 音声認識翻訳装置及び方法
JP2905686B2 (ja) 音声認識装置
JP2001013992A (ja) 音声理解装置
JP2781739B2 (ja) 連続音声認識装置
Reddy et al. Integration of ASR and machine translation models in a document translation task.
JP2003099086A (ja) 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
Deng et al. Recent Progress of Mandrain Spontaneous Speech Recognition on Mandrain Conversation Dialogue Corpus

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100128

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110128

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120128

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130128

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees