JP2731133B2 - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JP2731133B2
JP2731133B2 JP7234043A JP23404395A JP2731133B2 JP 2731133 B2 JP2731133 B2 JP 2731133B2 JP 7234043 A JP7234043 A JP 7234043A JP 23404395 A JP23404395 A JP 23404395A JP 2731133 B2 JP2731133 B2 JP 2731133B2
Authority
JP
Japan
Prior art keywords
word
hypothesis
speech recognition
speech
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7234043A
Other languages
English (en)
Other versions
JPH0981185A (ja
Inventor
徹 清水
昭一 松永
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP7234043A priority Critical patent/JP2731133B2/ja
Publication of JPH0981185A publication Critical patent/JPH0981185A/ja
Application granted granted Critical
Publication of JP2731133B2 publication Critical patent/JP2731133B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力される発声音
声文の音声信号に基づいて連続的に音声認識する連続音
声認識装置に関する。
【0002】
【従来の技術】従来から、本特許出願人は、自然発話の
音声認識を目的として、連続音声認識系(以下、第1の
従来例という。)の開発を進めている(例えば、従来文
献1「Nagai,Takami,Sagayama,
“The SSS−LR Continuous Sp
eech Recognition System:I
ntegrating SSS−Derivrd Al
lopohne Models and a Phon
eme−Context−DependentLR P
arser”,Proc.of ICSLP92,p
p.1511−1514,1992年」及び従来文献2
「Shimizu,Monzen,Singer,Ma
tsunaga,“Time−Synchronous
Continuous Speech Recogn
izer Driven bya Context−F
ree Grammar”,Proc.of ICAS
SP95,pp.584−587,1995年」参
照。)。この第1の従来例では、入力される発生音声文
の音声信号に基づいて、音素隠れマルコフモデル(以
下、隠れマルコフモデルをHMMという。)と単語辞書
を用いて、発声開始からの単語の履歴及び文法状態を管
理しながら、音声認識を行っている。
【0003】一方、単語グラフを用いた音声認識方法
(以下、第2の従来例という。)が、従来文献3「Ne
y,Aubert,“A Word Graph Al
gorithm for Large Vocabul
ary, Continuous Speech Re
cognition”,Proc.of ICSLP9
4,pp.1355−1358,1994年」及び従来
文献4「Woodland,Leggetter,Od
ell,Valtchev,Young,“The 1
994 HTK Large Vocabulary
Speech Recognition Syste
m”,Proc. of ICASSP95,pp.7
3−76,1995年」において提案されている。
【0004】この第2の従来例の単語グラフの主たるア
イデアは、音声認識におけるあいまいさが比較的高い音
声信号の領域において単語仮説の候補を処理するという
ことである。この利点は、純粋の音声認識は言語モデル
のアプリケーションとは切り離されていることと、複雑
な言語モデルは、現在認識中の単語に続く公知のステッ
プに適用することができることである。単語仮説の候補
の数は音声認識におけるあいまいさのレベルに対応して
変化する必要がある。良い単語グラフを効率的に構築す
るときの困難さは次の通りである。単語の開始時刻は、
一般的に、先行する単語に依存している。第1の近似に
おいては、この依存性を直前の先行単語に対して制限を
加えることにより、以下に示すようないわゆる単語ペア
近似法を得ている。すなわち、単語のペアとその終了時
刻が与えられたときに、2つの単語の間の単語境界は別
の先行する単語に独立であるということである。この単
語ペア近似法は、本来、複数の文又はn個のベスト(最
良)である文を効率的に計算するために導入されてき
た。この単語グラフは、n個のベストを得るアプローチ
の方法(以下、nベスト法という。)よりも効率的であ
ると期待されている。この単語グラフを用いた方法で
は、複数の単語仮説を局所的にのみ発生する必要がある
一方、nベスト法においては、各局所的な単語仮説の候
補は、n個のベストである文のリストに対して加えるべ
き全体の文を必要としている。
【0005】
【発明が解決しようとする課題】しかしながら、第1の
従来例においては、発声開始からの単語の履歴及び文法
状態を管理する必要があるため、間投詞の挿入や、言い
淀み、言い直しが頻繁に生じる自然発話の認識に用いた
場合、単語仮説の併合又は分割に要する計算コストが極
めて大きいという問題点があった。すなわち、音声認識
のために必要な処理量が大きくなって比較的大きな記憶
容量を有する記憶装置が必要となる一方、処理量が大き
くなるので処理時間が長くなるという問題点があった。
【0006】また、上記第2の従来例の単語ペア近似法
においては、先行単語毎に1つの仮説で代表させるが、
いまだ近似効果は比較的小さい。このため、上記第1の
従来例と同様の問題点が生じる。
【0007】本発明の目的は以上の問題点を解決し、従
来例に比較してより小さい計算コストで自然発話の連続
音声認識を行うことができる連続音声認識装置を提供す
ることにある。
【0008】
【課題を解決するための手段】本発明に係る連続音声認
識装置は、入力される発声音声文の音声信号に基づいて
上記発声音声文の単語仮説を検出し尤度を計算すること
により、連続的に音声認識する音声認識手段を備えた連
続音声認識装置において、上記音声認識手段は、終了時
刻が等しく開始時刻が異なる同一の単語の単語仮説に対
して、当該単語の先頭音素環境毎に、発声開始時刻から
当該単語の終了時刻に至る計算された総尤度のうちの最
も高い尤度を有する1つの単語仮説で代表させるように
単語仮説の絞り込みを行うことを特徴とする。
【0009】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1に本発明に係る一実
施形態の連続音声認識装置のブロック図を示す。本実施
形態の連続音声認識装置は、公知のワン−パス・ビタビ
復号化法を用いて、入力される発声音声文の音声信号の
特徴パラメータに基づいて上記発声音声文の単語仮説を
検出し尤度を計算して出力する単語照合部4を備えた連
続音声認識装置において、単語照合部4からバッファメ
モリ5を介して出力される、終了時刻が等しく開始時刻
が異なる同一の単語の単語仮説に対して、当該単語の先
頭音素環境毎に、発声開始時刻から当該単語の終了時刻
に至る計算された総尤度のうちの最も高い尤度を有する
1つの単語仮説で代表させるように単語仮説の絞り込み
を行う単語仮説絞込部6を備えたことを特徴とする。
【0010】図1において、単語照合部4に接続され、
例えばハードディスクメモリに格納される音素HMM1
1は、各状態を含んで表され、各状態はそれぞれ以下の
情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施例において用いる音素HMMは、各分布が
どの話者に由来するかを特定する必要があるため、所定
の話者混合HMMを変換して作成する。ここで、出力確
率密度関数は34次元の対角共分散行列をもつ混合ガウ
ス分布である。
【0011】また、単語照合部4に接続され、例えばハ
ードディスクに格納される単語辞書12は、音素HMM
11の各単語毎にシンボルで表した読みを示すシンボル
列を格納する。
【0012】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0013】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMM11と単
語辞書12とを用いて単語仮説を検出し尤度を計算して
出力する。ここで、単語照合部4は、各時刻の各HMM
の状態毎に、単語内の尤度と発声開始からの尤度を計算
する。尤度は、単語の識別番号、単語の開始時刻、先行
単語の違い毎に個別にもつ。また、計算処理量の削減の
ために、音素HMM11及び単語辞書12とに基づいて
計算される総尤度のうちの低い尤度のグリッド仮説を削
減する。単語照合部4は、その結果の単語仮説と尤度の
情報を発声開始時刻からの時間情報(具体的には、例え
ばフレーム番号)とともにバッファメモリ5を介して単
語仮説絞込部6に出力する。
【0014】単語仮説絞込部6は、単語照合部4からバ
ッファメモリ5を介して出力される単語仮説に基づい
て、終了時刻が等しく開始時刻が異なる同一の単語の単
語仮説に対して、当該単語の先頭音素環境毎に、発声開
始時刻から当該単語の終了時刻に至る計算された総尤度
のうちの最も高い尤度を有する1つの単語仮説で代表さ
せるように単語仮説の絞り込みを行った後、絞り込み後
のすべての単語仮説の単語列のうち、最大の総尤度を有
する仮説の単語列を認識結果として出力する。本実施形
態においては、好ましくは、処理すべき当該単語の先頭
音素環境とは、当該単語より先行する単語仮説の最終音
素と、当該単語の単語仮説の最初の2つの音素とを含む
3つの音素並びをいう。
【0015】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総尤度が最も高い仮説(例えば、図2
において1番上の仮説)以外を削除する。なお、上から
4番めの仮説は先頭音素環境が違うため、すなわち、先
行する単語仮説の最終音素がxではなくyであるので、
上から4番めの仮説を削除しない。すなわち、先行する
単語仮説の最終音素毎に1つのみ仮説を残す。図2の例
では、最終音素/x/に対して1つの仮説を残し、最終
音素/y/に対して1つの仮説を残す。
【0016】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0017】
【実施例】本発明者は、図1の連続音声認識装置の有効
性を確認するために、自然発話データベースを用いて単
語グラフ生成実験を行なった。“トラベル・プランニン
グ”をタスクとした本出願人が所有する音声言語データ
ベース(例えば、従来文献5「Morimoto et
al.,“A Speech and Langua
ge Database for Speech Tr
anslationResearch”,Proc.o
f ICSLP94,pp.1791−1794,19
94年」参照。)の「ホテル予約」に関する対話(申込
者側5話者の発声:5対話,56発声,687語)を用
いて評価した。音響分析は、標本化周波数12kHz,
フレーム間隔5msec,ハミング窓20msecの仕
様で分析し、特徴パラメータとして、1〜16次LPC
ケプストラム、1〜16次ΔLPCケプストラム、対数
パワー、Δ対数パワーを用いた。音響モデル(隠れマル
コフ網:401状態,5混合)は、朗読音声(150
文)を用いて学習した音響モデルをさらに上記データベ
ースのテストデータに現れない話者9名の発声(128
発声)を用いて発話様式に適応した。また、言語モデル
は、「ホテル予約」を含む“トラベル・プランニング”
全般(18,315発声,229,159語)を用いて
学習した。単語パープレキシティは、55.9であっ
た。単語辞書(1,113語)は、評価データの語彙を
全て含んでおり、予め登録されていない未知語(未登録
語ともいう。)はないものとした。
【0018】次いで、開始時刻の異なる単語仮説の絞り
込み効果について以下に説明する。図3に、絞り込みを
行なった場合(本実施形態)と絞り込みを行なわない場
合の各単語仮説の先行単語数の分布の比較を示す。絞り
込みを行なうことによって、平均先行単語数が3.59
から1.70に削減された。また、絞り込みを行なわな
かった場合に対して、開始時刻の違いを無視した平均先
行単語数を計算したところ、1.36であった。この結
果から、単語の先頭音素環境ごとに1つの仮説で代表さ
せる本発明の方法は、少ない計算量で、先行単語毎に1
つの仮説で代表させる第2の従来例の単語ペア近似法に
かなり近い効果が得られると考えられる。
【0019】以上説明したように、本実施形態によれ
ば、終了時刻が等しく開始時刻が異なる同一の単語の単
語仮説に対して、当該単語の先頭音素環境毎に、発声開
始時刻から当該単語の終了時刻に至る計算された総尤度
のうちの最も高い尤度を有する1つの単語仮説で代表さ
せるように単語仮説の絞り込みを行う。すなわち、先行
単語毎に1つの単語仮説で代表させる第2の従来例の単
語ペア近似法に比較して、単語の先頭音素の先行音素
(つまり、先行単語の最終音素)が等しいものをひとま
とめに扱うために、単語仮説数を削減することができ、
近似効果は大きい。特に、語彙数が増加した場合におい
て削減効果が大きい。従って、当該連続音声認識装置
を、間投詞の挿入や、言い淀み、言い直しが頻繁に生じ
る自然発話の認識に用いた場合であっても、単語仮説の
併合又は分割に要する計算コストは従来例に比較して小
さくなる。すなわち、音声認識のために必要な処理量が
小さくなり、それ故、単語照合部4のワーキングメモリ
(図示せず。)、バッファメモリ5及び単語仮説絞込部
6のワーキングメモリ(図示せず。)などの音声認識の
ための記憶装置において必要な記憶容量は小さくなる一
方、処理量が小さくなるので音声認識のための処理時間
を短縮することができる。
【0020】
【発明の効果】以上詳述したように本発明によれば、入
力される発声音声文の音声信号に基づいて上記発声音声
文の単語仮説を検出し尤度を計算することにより、連続
的に音声認識する音声認識手段を備えた連続音声認識装
置において、上記音声認識手段は、終了時刻が等しく開
始時刻が異なる同一の単語の単語仮説に対して、当該単
語の先頭音素環境毎に、発声開始時刻から当該単語の終
了時刻に至る計算された総尤度のうちの最も高い尤度を
有する1つの単語仮説で代表させるように絞り込みを行
う。すなわち、先行単語毎に1つの単語仮説で代表させ
る第2の従来例の単語ペア近似法に比較して、単語の先
頭音素の先行音素(つまり、先行単語の最終音素)が等
しいものをひとまとめに扱うために、単語仮説数を削減
することができ、近似効果は大きい。特に、語彙数が増
加した場合において削減効果が大きい。従って、当該連
続音声認識装置を、間投詞の挿入や、言い淀み、言い直
しが頻繁に生じる自然発話の認識に用いた場合であって
も、単語仮説の併合又は分割に要する計算コストは従来
例に比較して小さくなる。すなわち、音声認識のために
必要な処理量が小さくなり、それ故、音声認識のための
記憶装置において必要な記憶容量は小さくなる一方、処
理量が小さくなるので音声認識のための処理時間を短縮
することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【図3】 図1の連続音声認識装置の実験結果におけ
る、単語間の遷移における単語仮説の絞り込み効果を示
す先行単語の個数に対するノード数のグラフである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 11…音素HMM、 12…単語辞書。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 電子情報通信学会論文誌 D−II VOL.J97−D−II,NO.12, P.2117〜2124(平成8年12月)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力される発声音声文の音声信号に基づ
    いて上記発声音声文の単語仮説を検出し尤度を計算する
    ことにより、連続的に音声認識する音声認識手段を備え
    た連続音声認識装置において、 上記音声認識手段は、終了時刻が等しく開始時刻が異な
    る同一の単語の単語仮説に対して、当該単語の先頭音素
    環境毎に、発声開始時刻から当該単語の終了時刻に至る
    計算された総尤度のうちの最も高い尤度を有する1つの
    単語仮説で代表させるように単語仮説の絞り込みを行う
    ことを特徴とする連続音声認識装置。
JP7234043A 1995-09-12 1995-09-12 連続音声認識装置 Expired - Fee Related JP2731133B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7234043A JP2731133B2 (ja) 1995-09-12 1995-09-12 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7234043A JP2731133B2 (ja) 1995-09-12 1995-09-12 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPH0981185A JPH0981185A (ja) 1997-03-28
JP2731133B2 true JP2731133B2 (ja) 1998-03-25

Family

ID=16964682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7234043A Expired - Fee Related JP2731133B2 (ja) 1995-09-12 1995-09-12 連続音声認識装置

Country Status (1)

Country Link
JP (1) JP2731133B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2999726B2 (ja) 1996-09-18 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215187A (ja) 2001-01-23 2002-07-31 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会論文誌 D−II VOL.J97−D−II,NO.12,P.2117〜2124(平成8年12月)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2999726B2 (ja) 1996-09-18 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置

Also Published As

Publication number Publication date
JPH0981185A (ja) 1997-03-28

Similar Documents

Publication Publication Date Title
JP2963142B2 (ja) 信号処理方法
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
EP0533491B1 (en) Wordspotting using two hidden Markov models (HMM)
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US6424943B1 (en) Non-interactive enrollment in speech recognition
US7711561B2 (en) Speech recognition system and technique
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
Young et al. Multilingual large vocabulary speech recognition: the European SQALE project
EP0664535A2 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
EP1321926A1 (en) Speech recognition correction
EP1515306A1 (en) Enrolment in speech recognition
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
Schlüter et al. Interdependence of language models and discriminative training
Boite et al. A new approach towards keyword spotting.
Hieronymus et al. Spoken language identification using large vocabulary speech recognition
Lee et al. Improved acoustic modeling for continuous speech recognition
Lee et al. Acoustic modeling of subword units for speech recognition
Mŭller et al. Design of speech recognition engine
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2871420B2 (ja) 音声対話システム
JP2731133B2 (ja) 連続音声認識装置
JP3104900B2 (ja) 音声認識方法
Steinbiss et al. Continuous speech dictation—From theory to practice
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees