JP2001228890A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2001228890A
JP2001228890A JP2000039447A JP2000039447A JP2001228890A JP 2001228890 A JP2001228890 A JP 2001228890A JP 2000039447 A JP2000039447 A JP 2000039447A JP 2000039447 A JP2000039447 A JP 2000039447A JP 2001228890 A JP2001228890 A JP 2001228890A
Authority
JP
Japan
Prior art keywords
dictionary
phrase
recognition
word
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2000039447A
Other languages
English (en)
Inventor
Michihiro Yamazaki
道弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000039447A priority Critical patent/JP2001228890A/ja
Publication of JP2001228890A publication Critical patent/JP2001228890A/ja
Abandoned legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声を入力する話者の発声速度や発声リズム
が、入力する語句の量やその前後関係などの影響を受け
て変化することが予想される場合であっても、認識精度
の高い音声認識装置を得る。 【解決手段】音声入力部1と、標本信号を抽出し音響的
特性を分析する音声分析部2と、標準音素辞書格納部3
と、標本信号と前記標準音素モデルとの類似度を算出す
るフレーム類似度算出部4と、認識語句辞書格納部5
と、認識語句辞書5a、5b、5c、5dと、認識語句
辞書選択部6と、継続時間辞書格納部7と、認識語句を
構成する音素の継続時間に関する情報を収録した継続時
間辞書7a、7bと、継続時間辞書選択部8と、フレー
ム類似度を基に、認識語句辞書及び継続時間辞書を参照
し、音声信号と認識語句辞書に含まれる全語句との語句
類似度を算出する語句類似度算出部9と、認識結果出力
部10と、を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声信号の認識を行
う音声認識装置に関するものである。
【0002】
【従来の技術】自動電話予約システムなどの入力手段と
して音声認識装置が適用されている。システムを利用す
るユーザは、システムからのガイダンスに従い「氏名」
「住所」等の複数の項目を音声で入力する。音声認識装
置は、各項目毎に予め想定されている認識されるべき語
句の中から、入力された音声が最も類似する語句を特定
し認識結果として出力する。システムは認識結果を基に
予約情報を収集する。
【0003】図4は、例えば特開平4−121792に
示された従来の音声認識装置の構成図である。図4にお
いて、1は音声認識を行う音声を入力し電気的な音声信
号に変換する音声入力部、2は音声入力部1で得られた
音声信号から所定時間間隔毎に音響分析の単位時間の標
本信号を抽出しこの標本信号の音響的特性を分析して特
徴パラメータを算出する音声分析部、3は音声分析の最
小の基本単位となる標準音素モデルを標準音素辞書とし
て格納する標準音素辞書格納部、4は音声分析部2で算
出された特徴パラメータと前記標準音素モデルとの類似
度を算出するフレーム類似度算出部、5は複数の認識語
句辞書を格納する認識語句辞書格納部、5a、5b、5
c、5dは単語や連続文章として認識されるべき語句の
発声に関する情報を収録した認識語句辞書、11は認識
語句辞書格納部5に格納された複数の認識語句辞書のう
ち、音声認識処理に使用する認識語句辞書を選択する認
識語句辞書選択部、9はフレーム類似度算出部4の出力
であるフレーム類似度から、入力された音声信号と認識
語句辞書に含まれる全語句との語句類似度を算出する語
句類似度算出部、10は認識語句辞書に収録された全語
句のうち最も語句類似度の高い語句を認識結果として出
力する認識結果出力部、12は認識語句を構成する各音
素の継続時間を音素継続時間情報とし、これを継続時間
辞書として格納する継続時間辞書格納部である。
【0004】次に、前記の従来例として示す音声認識装
置の動作を説明する。まず、音声入力部1は、音声認識
を行うべき話者の音声を入力してこれを電気的な音声信
号に変換する。次に、音声分析部2は、所定の時間間隔
毎に、所定時間にわたる音声信号の標本信号を抽出す
る。標本抽出を行う時間間隔は、音響分析の最小単位と
なる音素を検出するのに十分に短い時間に設定される。
以下では、標本信号を「フレーム」とする。さらに音声
分析部2は、抽出されたフレームについて、例えば周波
数成分のスペクトラム分布や信号波形、振幅などについ
て分析を行い、そのフレームにおける音声信号の音響的
な特徴を複数の特徴パラメータとして出力する。連続的
に入力される音声信号について離散的にフレームが抽出
されるので、フレームの特徴パラメータは離散時間で時
系列的に得られる。
【0005】一方、標準音素辞書格納部3には、音声分
析の最小の基本単位となる標準音素モデルが標準音素辞
書として格納されている。各標準音素モデルは、その音
素についての複数の音響的な特徴パラメータによって規
定される。標準音素モデルを規定する特徴パラメータ
は、音声分析部2においてフレームの音響分析により抽
出される特徴パラメータと対応付けられており、例えば
周波数成分のスペクトラム分布や信号波形、振幅などが
選択される。
【0006】次に、フレーム類似度算出部4は、音声分
析部2で得られたフレームの特徴パラメータを基に、各
フレームと標準音素辞書として収録された全標準音素モ
デルとの類似度を算出する。算出されたフレーム類似度
は、フレーム毎に算出される時系列データとして得られ
る。
【0007】一方、認識語句辞書格納部5には、単語や
連続文章として認識されるべき語句の発音を、音素の組
み合わせによって記述したデータである認識語句音素情
報が、認識語句辞書として格納されている。この音声認
識語句辞書は、音声認識装置が適用されるシステムのア
プリケーションに応じて複数用意される。たとえば、
「氏名」として認識されるべき語句の発音に関する認識
語句音素情報が収録された認識語句辞書5aと、「住
所」の認識語句辞書5bと、「電話番号」の認識語句辞
書5cと、「購入品目」の語句認識辞書5dが認識語句
辞書格納部5に格納されている。
【0008】認識語句辞書選択部11は、認識語句辞書
格納部5に格納された複数の認識語句辞書の中から、音
声認識処理に使用すべき認識語句辞書を切り替えて選択
する。例えば、音声認識装置が適用されたシステムにお
いて、話者に「氏名」の入力が要求される場面では、認
識語句辞書選択部11は、認識語句辞書5aを語句類似
度算出に用いる辞書として選択し、話者に「住所」の入
力が要求される場面では認識語句辞書5bが選択され
る。以下では、認識語句辞書として5aが選択された場
合について説明する。
【0009】継続時間辞書格納部12には、認識される
べき語句を構成する各音素の継続時間の組み合わせに関
する情報が、継続時間辞書として格納されている。以下
では、この情報を「音素継続時間情報」と呼ぶ。
【0010】図5は、認識語句が氏「朝日」である場合
の、認識語句音素情報及び音素継続時間情報の例を示し
た説明図である。氏名の認識語句辞書5aには、認識語
句「朝日」の認識語句音素情報(/a/,/s/,/a
/,/h/,/i/)が収録されている。一方、継続時
間辞書には、認識語句「朝日」に対応した、各音素の音
素継続時間情報が収録されている。各音素の継続時間
は、辞書作成時に学習により獲得されるもので、その継
続時間の上限値と下限値が継続フレーム数により表記さ
れる。たとえば、第一番目の音素である/a/は、フレ
ーム数9〜14の範囲で継続して出現することを示して
いる。
【0011】次に、語句類似度算出部9は、フレーム類
似度算出部4の出力であるフレーム類似度から、認識語
句辞書5aに収録された全認識語句との語句類似度を算
出する。ここで、認識語句辞書5aに収録された各認識
語句との語句類似度算出にあたっては、継続時間辞書格
納部12から認識語句に対応した音素継続時間情報を参
照し、この音素継続時間情報を語句類似度算出の制約条
件として適用する。
【0012】語句類似度算出部9における語句類似度算
出の方法について説明する。まず、認識語句辞書5aに
格納された任意の認識語句について、その語句の第一番
目の音素の終端範囲を、当該認識語句の音素継続時間情
報から参照する。図5に示す認識語句「朝日」の例で
は、第一番目の音素/a/の音素終端範囲はフレーム数
9〜14となる。
【0013】次に、フレーム類似度算出部4の出力であ
るフレーム類似度を累積演算処理して、認識語句の第一
番目の音素の類似度を算出する。ここで、音素継続時間
情報を音素の類似度を算出する際の制約条件として使用
する。したがって、音素の継続時間が音素継続時間情報
に規定された終端範囲より長い場合や短い場合には、当
該音素の類似度は低く算出される。
【0014】語句類似度算出部9は、上記の演算処理を
繰り返し行って、認識語句を構成する全音素について音
素の類似度を算出する。続けて語句類似度算出部9は、
認識語句を構成する全音素の類似度を累積して、入力さ
れた音声信号と当該認識語句との語句類似度を算出す
る。
【0015】語句類似度算出部9は、選択されている任
意の認識語句辞書5aに収録された全認識語句につい
て、語句類似度の算出を繰り返し行う。最後に、認識結
果出力部10は、認識語句辞書5aに収録された全認識
語句の中から最も語句類似度が高い認識語句を選択し、
これを認識結果として出力する。
【0016】
【発明が解決しようとする課題】以上、従来の音声認識
装置では、継続時間辞書格納部に継続時間辞書を一つの
み格納し、一の認識語句に対しては常に同じ音素継続時
間情報を制約条件として使用して語句類似度の算出を行
っている。
【0017】しかしながら、音声認識を行うべき話者の
発声速度又は発声リズムは、入力されるべき語句の前後
関係、あるいは入力すべき語句の量などによって変化す
る。例えば、入力された語句が単語として発声された場
合には、話者の発声速度が低速になるため各音素の継続
時間は長くなり、入力された語句が連続文章の一部とし
て発声された場合には、話者の発声速度が高速になるた
め各音素の継続時間は短くなる傾向がある。
【0018】したがって、単語が発声された場合の音声
信号を基に継続時間辞書を作成し語句類似度算出に使用
した場合には、連続文章発声の音声信号が入力されると
語句類似度が不当に低く算出され、逆に連続文章が発声
された場合の音声信号により継続時間辞書を作成した場
合には、単語発声の音声信号が入力されると語句類似度
が不当に低く算出されることとなり、音声認識の精度が
低下するといった問題があった。
【課題を解決するための手段】
【0019】前記の課題を解決し、目的を達成するため
に、本発明にかかる音声認識装置にあっては、音声を入
力しこれを電気的な音声信号に変換する音声入力手段
と、前記音声信号の音響分析の単位となる所定時間長の
標本信号を抽出し、その音響的特性を分析する音声分析
手段と、標本信号の音響的特性と標準音素辞書に収録さ
れた音素の標準的なモデルとの類似度を算出するフレー
ム類似度算出手段と、音声認識で認識されるべきの語句
の音素の組み合わせに関する情報を収録した認識語句辞
書と、前記認識語句辞書に収録された語句について、発
声速度又は発生リズムの異なる音声信号に基づき作成さ
れた音素の継続時間に関する情報を収録した複数の継続
時間辞書と、前記音声分析手段の出力である音素の標準
的なモデルとの類似度から、前記認識語句辞書と前記継
続時間辞書とを参照し、入力音声を認識する語句認識手
段と、を備えたことを特徴とする。
【0020】次の発明にかかる音声認識装置にあって
は、複数の継続時間辞書は、話者が単語を発声した場合
の音声信号について作成された継続時間辞書と、話者が
連続文章を発声した場合の音声信号について作成された
継続時間辞書と、を備えたことを特徴とする。
【0021】
【発明の実施の形態】実施の形態1.図1は、本実施の
形態1にかかる音声認識装置の構成図である。図1にお
いて、1は音声を入力し電気的な音声信号に変換する音
声入力部、2は音声入力部1で得られた音声信号から所
定時間間隔毎に音響分析の単位時間の標本信号を抽出し
この標本信号の音響的特性を分析して特徴パラメータを
算出する音声分析部、3は音声分析の最小の基本単位と
なる標準音素モデルを標準音素辞書として格納する標準
音素辞書格納部、4は音声分析部2で算出された特徴パ
ラメータを基に各フレームと前記標準音素モデルとの類
似度を算出するフレーム類似度算出部、5は複数の認識
語句辞書を格納する認識語句辞書格納部、5a、5b、
5c、5dは音声信号に含まれる単語や連続文章として
認識されるべき語句の発声に関する情報を収録した認識
語句辞書、6は認識語句辞書格納部5に格納された複数
の認識語句辞書のうち、音声認識処理に使用する認識語
句辞書を選択する認識語句辞書選択部、7は複数の継続
時間辞書を格納する継続時間辞書格納部、7a、7bは
認識語句を構成する各音素の継続時間を音素継続時間情
報として収録する継続時間辞書、8は継続辞書格納部7
に格納された複数の継続時間辞書のうち語句類似度算出
で使用する継続時間辞書を選択する継続時間辞書選択
部、9はフレーム類似度算出部4の出力であるフレーム
類似度を基に、認識語句辞書及び継続時間辞書を参照
し、入力された音声信号と認識語句辞書に含まれる全語
句との語句類似度を算出する語句類似度算出部、10は
最も語句類似度の高い認識語句を認識結果として出力す
る認識結果出力部である。
【0022】本音声認識装置は、自動電話予約システム
などの入力手段として適用される。システムを利用する
ユーザである話者は、システムからのガイダンスに従い
「氏名」「住所」等の複数の項目を音声で入力する。音
声認識装置は、各項目毎に予め想定されている認識され
るべき語句の中から、入力された音声が最も類似する語
句を特定し認識結果として出力する。システムは認識結
果を基に予約情報を収集する。
【0023】以下、前記のように構成される本実施の形
態1の音声認識装置の動作を図面にしたがって説明す
る。まず、音声入力部1は、音声認識を行うべき話者の
音声を入力してこれを電気的な音声信号に変換する。
【0024】次に、音声分析部2は所定の時間間隔毎に
標本信号を抽出する。図2は、音声分析部2の標本信号
抽出の様子を示す説明図である。標本抽出を行う時間間
隔は、音響分析の最小単位となる音素を検出するのに十
分に短い時間に設定される。以下では、この標本信号を
「フレーム」とする。続けて音声分析部2は、抽出され
たフレームについて数種の音響的な分析を行い、複数の
音響分析結果を要素とする特徴パラメータとして抽出す
る。抽出される特徴パラメータの要素としては、例えば
メルケプストラム係数及びその動的特徴量やフレーム内
のパワーの動的特徴量などを使用する。
【0025】特徴パラメータはベクトルy(t)として式1
のように表わされる。
【数1】 ここで、Ndimは特徴パラメータの要素の数を表す。
【0026】音声信号は連続的に入力されるが、フレー
ムは離散的に抽出されるので、フレームの特徴パラメー
タは離散時間で得られる時系列的データとなる。ここで
t(=1〜T)は、フレーム抽出の順序を示すフレーム
番号とする。
【0027】一方、標準音素辞書格納部3には、音声分
析の最小の基本単位となる標準音素モデルが標準音素辞
書として格納されている。標準音素モデルを規定する特
徴パラメータの要素は、音声分析部2においてフレーム
の音響分析により抽出される特徴パラメータと対応付け
られており、例えばメルケプストラム係数及びその動的
特徴量やフレーム内のパワーの動的特徴量などが選択さ
れている。
【0028】標準音素辞書格納部3に格納されている標
準音素辞書は、予め準備した多数の学習用の音声信号に
ついて音響分析を行うことにより作成される。複数の学
習用音声信号を音響分析することにより、各音素の特徴
パラメータの各要素の値は、平均値と分散をもった任意
の分布として得られる。
【0029】任意の学習用信号に含まれる音素/p/の
音響分析結果m(p)は、下記の式2のように表わされ
る。
【数2】 ここで、μk(p)及びσk(p)は、音素/p/の特徴パラメ
ータの第k番目の要素の平均値及び分散とし、k(=1
〜Ndim)は特徴パラメータの要素を特定する値とす
る。
【0030】実際の標準音素辞書に収録される音素モデ
ルは、音声認識の精度向上を目的として、学習用音声信
号の内容を変えて複数の分析結果mn(p)を得た後に、こ
れらを重み付け合成して特徴パラメータの混合分布の形
で表わすことが一般的に行われている。この場合、標準
音素辞書に収録される音素/p/の標準モデルM(p)
は、下記の式3のように表わされる。
【0031】
【数3】
【0032】ここで、mn(p)は重み付け合成される学習
用信号の音響分析結果、λn(p)はm n(p)の重み係数、μ
nk(p)及びσnk(p)は合成される学習用信号の音響分析結
果の平均値及び分散を表わし、n(=1〜Nmix)は重
み付け合成される学習用信号の音響分析結果を特定する
値とする。
【0033】次に、フレーム類似度算出部4は、音声分
析部2で得られたフレームの特徴パラメータと、標準音
素辞書として収録された標準音素モデルとの音素歪み距
離を算出する。第t番目のフレームにおける音声信号の
特徴パラメータy(t)の、音素/p/の標準モデルM(p)
との音素歪み距離df(t,p)は下記の式4により算出さ
れる。
【0034】
【数4】 ここでbn (t,p)は 、第t番目のフレームにおける音声
信号の特徴パラメータy(t)と音素/p/の標準モデルM
(p)を規定するの第n番目の音響分析結果の分布との音
素歪み距離を表す。
【0035】フレーム類似度算出部4は、音素歪み距離
を算出する対象となる標準音素モデルを順次替えなが
ら、入力された音声信号の特徴パラメータy(t)と、標準
音素辞書格納部3に収録された全標準音素モデルとの音
素歪み距離を算出し、これらを特徴パラメータy(t)のフ
レーム類似度として出力する。
【0036】一方、認識語句辞書格納部5には、本音声
認識装置が適用されるシステムのアプリケーションに応
じて複数の認識語句辞書が格納されている。本実施の形
態1では、「氏名」の認識語句辞書5aと、「住所」の
認識語句辞書5bと、「電話番号」の認識語句辞書5c
と、「購入品目」の語句認識辞書5dが認識語句辞書格
納部5に格納されている。
【0037】認識語句辞書選択部6は、認識語句辞書格
納部5に格納された複数の認識語句辞書から、語句類似
度の算出に使用すべき認識語句辞書を切り替えて選択す
る。例えば、音声認識装置が適用されたシステムにおい
て、話者に「住所」の入力が要求される場面では、認識
語句辞書選択部6は、認識語句辞書5bを語句類似度算
出に用いる辞書として選択する。
【0038】各認識語句辞書には、認識語句の認識語句
音素情報cat(WORD)が収録されている。例えば、住所の
認識語句として地名「八戸」がある場合には、住所の認
識語句辞書5bには下記の式5に示す認識語句音素情報
が収録される。
【0039】
【数5】
【0040】以下では、音素継続時間情報に含まれる各
音素の表記として音素ラベルLabel(WORD,i)を使用す
る。i(=1〜Nl(WORD))は音素ラベルを特定する変数
とし、その最大値Nl(WORD)は認識語句を構成する音素
の数となる。例えば、認識語句「八戸」の場合には、La
bel(八戸,1)は最初の音素/h/を表わし、Label(八戸,
8)は最後の音素/e/を表わす。この場合Nl(八戸)=
8となる。
【0041】また、継続時間辞書格納部7には、各認識
語句を構成する各音素の継続時間の組み合わせによって
記述されたデータである音素継続時間情報が、継続時間
辞書として格納されている。
【0042】音素継続時間情報は以下の方法により作成
される。まず、音素継続時間学習用の音声信号を多数用
意し、これらの音声信号について前述の方法によりフレ
ーム抽出、音声分析、フレーム類似度算出を行う。次
に、算出された各フレームのフレーム類似度について、
ビタビアルゴリズムによる標準音素モデルとの対応付け
を行って、各フレームが最も類似する標準音素モデルを
特定する。これにより特定された標準音素モデルの列か
ら、音声信号に含まれる認識語句を構成する各音素の継
続時間を連続するフレームの数で特定する。継続時間学
習用の音声信号は多数あるので、一つの語句を構成する
各音素の継続時間は平均値と分散によって規定される分
布をもった値として得られる。以上の方法により、各音
素の継続時間を繰り返し求め、一つの認識語句を構成す
る全音素の継続時間が特定されたら、これをその認識語
句に関する音素継続時間情報として継続時間辞書に収録
する。
【0043】 例えば、認識語句である地名「八戸」に
対応する音素継続時間情報dicd(八戸)は、下記式6の通
りに表わされる。
【0044】
【数6】
【0045】ここで、D(Label(WORD,i))はLabel(WORD,
i)の継続時間に関する情報であり、dm(Label(WORD,
i))は認識語句を構成するLabel(WORD,i)の平均継続時
間、dv(Label(WORD,i))はLabel(WORD,i)の継続時間の
分散を表わす。
【0046】前記の継続時間辞書の学習には、認識語句
辞書5a〜5dに収録された認識語句を発声した場合の
音声信号を用いる。しかし、同一の認識語句であって
も、例えば、認識語句を単語として発声した場合には、
話者の発声速度は低速となって各音素の継続時間は長く
なる傾向があり、認識語句を連続する文章の一部として
発声した場合となって話者の発声速度は高速となり、各
音素の継続時間は短くなる傾向がある。したがって、単
語が発声された場合と連続文章が発声された場合とで
は、得られる各音素の継続時間は異なった分布をもつこ
とになる。
【0047】そこで、本実施の形態1の音声認識装置で
は、認識語句が単語として発声された場合の音声信号を
基に作成された継続時間辞書7aと、認識語句が連続文
章の一部として発声された場合の音声信号を基に作成さ
れた継続時間辞書7bとを継続時間辞書格納部7に格納
する。例えば、認識語句「八戸」に対応する音素継続時
間情報は、単語発声の音声信号によって学習した音素継
続時間情報dicda(八戸)と連続文章発声の音声信号によ
って学習した音素継続時間情報dicdb(八戸)が得られ、
これらはそれぞれ継続時間辞書7aと、継続時間辞書7
bとに収録される。
【0048】継続時間辞書選択部8は、認識語句辞書選
択部6からの指示により、継続時間辞書格納部7に格納
された複数の継続時間辞書7a、7bのうち、語句類似
度の算出に使用すべき継続時間辞書を切り替えて選択す
る。以下で、継続時間辞書選択の方法を説明する。
【0049】認識語句辞書選択部6には、語句類似度算
出に使用する認識語句辞書と継続時間辞書の対応付けに
関する情報が保存されている。図3は、認識語句辞書選
択部6が保有している認識語句辞書と継続時間辞書との
対応付けを示した表である。認識語句辞書選択部6は、
前述の通り語句類似度算出に使用する認識語句辞書を選
択するが、この際、辞書間の関連付けに関する表を参照
し、選択された認識語句辞書に対応する継続時間辞書を
特定する。
【0050】例えば、話者に「氏名」の入力が要求され
る場面では、認識語句辞書選択部6は認識語句辞書5a
を選択するが、この際に図3に示す辞書間の関連付けに
関する表を参照し「氏名」の認識語句辞書5aに対応し
た単語発声の継続時間辞書7aを特定する。継続時間辞
書選択部8は、認識語句辞書選択部6の特定結果に基づ
いて、継続時間辞書格納部7に格納された複数の継続時
間辞書の中から、語句類似度算出で使用する継続時間辞
書7aの選択を行う。なお以下では、認識言語辞書5a
及び継続時間辞書7aが選択された場合の音声認識装置
の動作について説明する。
【0051】次に、語句類似度算出部9は、入力された
音声信号について認識語句との語句類似度を算出する。
以下で、語句類似度算出の方法を説明する。
【0052】まず、選択された認識語句辞書5aに収録
された全認識語句の中から、語句類似度を算出する任意
の認識語句音素情報cat(WORD)を選択する。次に、選択
された継続時間辞書7aを参照し、認識語句音素情報ca
t(WORD)に対応した音素継続時間情報dicda(WORD)を特定
する。
【0053】次に、例えば、日本音響学会講演論文集、
3−5−4、1991/10、p.97−98「混合分
布HMMを用いた不特定話者連続音声認識のための演算
量削減法」に示される方法により、入力された音声信号
の各フレームと、認識語句辞書5aに収録された認識語
句音素情報cat(WORD)を構成する音素ラベルLabel(WORD,
i)との対応付けを行う。各フレームと音素ラベルとの対
応付けの様子を、前述の図2を用いて説明する。
【0054】図2において、S(i)及びE(i)は、第i番
目の音素ラベルLabel(WORD,i)に対応付けられた音声信
号の始端のフレーム番号と終端のフレーム番号を表わ
す。ここで、S(i)及びE(i)は、入力された音声信号と
選択された認識語句との語句類似度Dist(WORD)が最小と
なるように決定される。語句類似度Dist(WORD)は、下記
の式7により算出される。
【0055】
【数7】 ただし、S(1)=1、E(i)=S(i-1)、E(WORD,Nl(WOR
D))=T
【0056】式7において、df(t,Label(WORD,i))
は、第t番目のフレームにおける音声信号の特徴パラメ
ータy(t)と、音素ラベルLabel(WORD,i)の標準音素モデ
ルM(Label(WORD,i))との音素歪み距離であり、これは
前述の式4によって得られる。
【0057】また、dur(E(i)-S(i),Label(WORD,i))
は、音素ラベルLabel(WORD,i)に対応付けられたフレー
ムの継続時間がE(i)−S(i)である場合の継続時間歪み
距離である。継続時間歪み距離dur(tcont,Label(WO
RD,i))は、認識語句の音素継続時間情報dicda(WORD)を
規準として、下記式8により算出される。
【0058】
【数8】 ただし、tcontは音素ラベルLabel(WORD,i)に対応付け
られたフレームの継続時間、αは任意の定数である。
【0059】語句類似度算出部9は、認識語句を順次替
えながら上記の演算処理を繰り返し行って、認識語句辞
書5aに収録された全認識語句について語句類似度を算
出する。最後に、認識結果出力部10は、語句類似度算
出を行った全認識語句のうち、最も語句類似度の高い認
識語句を特定し、これを認識結果として出力する。
【0060】このような構成とすることで、本実施の形
態1の音声認識装置は、話者の発声速度や発声リズム
が、入力される語句の量やその前後関係などの影響を受
けて変化する場合であっても、算出される語句類似度が
不当な値となることを防ぐことができる。その結果、音
声認識装置の音声認識の精度を高めることができる。
【0061】なお、本実施の形態1では、単語発声時と
連続文章発声時の発声速度や発生リズムの相違に注目し
て、単語を発声した場合の継続時間辞書7aと連続文章
を発声した場合の継続時間辞書7bとを用いたが、これ
は、認識語句の発声速度や発生リズムの異なるものであ
れば別の継続時間の場合分けであってもよい。例えば、
方言の影響による発声速度や発生リズムの相違に注目
し、西日本出身話者用の継続時間辞書と東日本出身話者
用の継続時間辞書とを入力話者の出身地に応じて切り替
えて使用したり、また、世代の影響による発声速度や発
生リズムの相違に注目し、幼年者用、成年者用、壮年者
用といったような複数の継続時間辞書を切り替えて使用
することも可能である。
【0062】実施の形態2.本実施の形態2において
は、継続時間辞書は、連続した複数の音素ラベルの継続
時間に関する情報を音素継続時間情報として収録し、こ
れを語句類似度の算出に使用する。
【0063】本実施の形態2の音声認識装置は、前述の
図1に示した音声認識装置とは継続時間辞書及び語句類
似度算出部が異なるものであり、その他の構成は同様で
あるから、同一の符号を付して説明を省略する。7aは
単語発声時の場合の連続した複数の音素ラベルの継続時
間に関する情報を音素継続時間情報として収録した継続
時間辞書、7bは連続文章発声時の場合の連続した複数
の音素ラベルの継続時間に関する情報を音素継続時間情
報として収録した継続時間辞書、9は連続した複数の音
素ラベルの継続時間に関する音素継続時間情報を基に語
句類似度を算出する語句類似度算出部である。また、本
実施の形態2における音声認識装置の全体の処理フロー
は実施の形態1の処理フローと同じであるため、以下で
は語句類似度算出処理について説明する。
【0064】本実施の形態2の継続時間辞書には、認識
語句を構成する連続した複数の音素ラベルである音節の
継続時間に関する情報が収録される。この情報を、以下
では「音節継続時間情報」と呼ぶ。また、音節継続時間
情報に含まれる各音節の表記として、音節ラベルLabel
syl(WORD,j)を使用する。j(=1〜Nsyl(WORD))は音
節ラベルを特定する変数とし、Nsyl(WORD)は認識語句
を構成する音節の数となる。
【0065】例えば、認識語句「八戸」の場合には、La
belsyl(八戸,1)は最初の音節/h-a/を表わし、Label
syl(八戸,2)は2番目の音節/ch-i/を表わし、Label
syl(八戸,3)は3番目の音節/n-o/を表わし、Labelsyl
(八戸,4)は最後の音素/h-e/を表わす。この場合Nsyl
(八戸)=4となる。
【0066】この場合、音節継続時間情報dicdsyl(八
戸)は下記式9の通りに表わされる。
【0067】
【数9】
【0068】ここで、Dsyl(Labelsyl(WORD,i))は音節
ラベルLabelsyl(WORD,i)の継続時間に関する情報であ
り、dmsyl(Labelsyl(WORD,i))及びdv(Labelsyl(WOR
D,i))は音節ラベルLabelsyl(WORD,i)の継続時間の平均
及び分散を表わす。
【0069】本実施の形態2における継続時間辞書格納
部7は、単語発声の場合の音節継続時間情報dicd
syl_a(WORD)を収録した継続時間辞書7aと、連続文章
発声時を発声した場合の音節継続時間情報dicdsyl_b(WO
RD)を収録した継続時間辞書7bとを格納する。継続時
間辞書選択部8は、音声認識装置が適用されたシステム
において、話者に要求される入力語句の内容に応じて、
語句類似度算出に使用する継続時間辞書を切り替えて選
択する。例えば、話者に「氏名」の入力が要求される場
面では、認識語句辞書選択部6及び継続時間辞書選択部
8は、「氏名」に関する認識語句辞書5a及び単語発声
に関する継続時間辞書7aを語句類似度算出に用いる辞
書として選択する。以下では、認識語句辞書5a及び単
語発声の継続時間辞書7aが選択された場合について説
明する。
【0070】語句類似度算出部9は、語句類似度を算出
する任意の認識語句音素情報cat(WORD)とこの認識語句
に対応した音節継続時間情報dicdsyl_a(WORD)を特定す
る。次に、入力された音声信号の各フレームと、認識語
句辞書5aに収録された音節継続時間情報dicdsyl_a(WO
RD)を構成する音節ラベルLabel(WORD,i)との対応付けを
行う。第j番目の音節ラベルLabelsyl(WORD,j)に対応
付けられた音声信号の始端のフレーム番号Ssyl(i)と終
端のフレーム番号Esyl(i)は、前述の実施の形態1で示
した方法により、入力された音声信号と選択された認識
語句との語句類似度Distsyl(WORD)が最小となるように
決定される。語句類似度Distsyl(WORD)は、下記の式1
0により算出される。
【0071】
【数10】
【0072】式10において、df(t,Label(WORD,i))
は、前述の式4によって算出される音素歪み距離であ
る。また、dur(Esyl(j)-Ssyl(j),Labelsyl(WORD,j))
は、音節ラベルLabelsyl(WORD,j)に対応付けられたフレ
ームの継続時間がEsyl(j)-Ss yl(j)である場合の継続
時間歪み距離であり、前述の式8により算出される。本
実施の形態2では、継続時間歪み距離は、音節継続時間
情報dicdsyl_a(WORD)を構成する音節ラベルLabelsyl(WO
RD,j)を単位として逐次計算される。
【0073】語句類似度算出部9は、認識語句を順次替
えながら上記の演算処理を繰り返し行って、認識語句辞
書5aに収録された全認識語句について語句類似度を算
出する。最後に、認識結果出力部10は、語句類似度算
出を行った全認識語句のうち、最も語句類似度の高い認
識語句を特定し、これを認識結果として出力する。
【0074】このような構成とすることで、実施の形態
2の音声認識装置は、話者の発声速度や発声リズムが入
力する語句に応じて変化する場合であっても、算出され
る語句類似度が不当に低い値となることを防止し、音声
認識装置の音声認識率を高めることができる。また、継
続時間歪みの計算を音節を単位として行うため、語句類
似度算出に要する演算処理量が低減され、音声認識に要
する処理時間を短縮する効果が期待できる。
【0075】なお、実施の形態1ないし2の音声認識装
置は、複数の認識語句辞書を用意し、該音声認識装置が
適用されるシステムにおけるアプリケーション中の場面
に応じて、語句類似度算出に使用する認識語句辞書を切
り替えて選択するものであるが、本発明の効果を得るた
めには、必ずしも複数の認識語句辞書を用意する必要は
なく、認識語句辞書が一つしかない場合であっても本発
明の効果を得ることが可能である。
【0076】また、実施の形態1ないし2の音声認識装
置は、認識されるべき語句の発声速度や発生リズムの異
なる音声信号について作成された複数の認識語句辞書の
中から一の継続時間辞書を選択して語句類似度算出に使
用するものである。しかしながら、語句類似度算出に先
だって必ずしも一の継続時間辞書を選択する必要はな
く、用意した全ての継続時間辞書について語句類似度算
出を行って、その中から最も語句類似度の高い認識語句
を特定するような構成であっても本発明の効果を得るこ
とが可能である。
【0077】
【発明の効果】以上のように、本発明によれば、話者の
発声速度又は発声リズムの相違に着目して複数の継続時
間辞書を継続時間辞書格納部に格納し、認識語句辞書の
切り替えにあわせて、その認識語句辞書に対応する継続
時間辞書を切り替えて選択し、語句類似度を算出する構
成としたことにより、音声を入力する話者の発声速度又
は発声リズムが、入力する語句の量やその前後関係など
の影響を受けて変化することが予想される場合であって
も、算出される語句類似度が不当な値とならず、音声認
識の精度を高めることが可能である。
【0078】また、継続時間辞書として、単語発声時に
ついて作成した継続時間辞書と連続文章発声時について
作成した継続時間辞書とを継続時間辞書格納部に格納
し、話者が語句を単語として入力することが予想される
認識語句辞書が選択された場合には、これに対応して単
語発生時の継続時間辞書を選択し、話者が語句を連続文
章として入力することが予想される認識語句辞書が選択
された場合には、これに対応して連続文章発声時の継続
時間辞書を選択した上で、語句類似度を算出する構成と
したことにより、話者が単語発声で語句を入力する場合
であっても、連続文章発声で語句を入力する場合であっ
ても、音声認識の精度を低下させない音声認識装置を得
ることができる。
【図面の簡単な説明】
【図1】 本発明にかかる音声認識装置の実施の形態1
の構成図である。
【図2】 本発明の実施の形態1の音声認識装置のフレ
ーム抽出及び音素ラベルとの対応付けの概要を示した説
明図である。
【図3】 本発明の実施の形態1の認識語句辞書と継続
時間辞書との対応付けを示した説明図である。
【図4】 従来の音声認識装置を示した構成図である。
【図5】 従来の音声認識装置における認識語句音素情
報と音素継続時間情報の記述例をしめした説明図であ
る。
【符号の説明】
1 音声入力部 2 音声分析部 3 標準音素辞書格納部 4 フレーム類似度算出部 5 認識語句辞書格納部 5a、5b、5c、5d 認識語句辞書 6、11 認識語句辞書選択部 7、12 継続時間辞書格納部 7a、7b 継続時間辞書 8 継続時間辞書選択部 9 語句類似度算出部 10 認識結果出力部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力しこれを電気的な音声信号に
    変換する音声入力手段と、 前記音声信号の音響分析の単位となる所定時間長の標本
    信号を抽出し、その音響的特性を分析する音声分析手段
    と、 標本信号の音響的特性と標準音素辞書に収録された音素
    の標準的なモデルとの類似度を算出するフレーム類似度
    算出手段と、 音声認識で認識されるべきの語句の音素の組み合わせに
    関する情報を収録した認識語句辞書と、 前記認識語句辞書に収録された語句について、発声速度
    又は発生リズムの異なる音声信号に基づき作成された音
    素の継続時間に関する情報を収録した複数の継続時間辞
    書と、 前記音声分析手段の出力である音素の標準的なモデルと
    の類似度から、前記認識語句辞書と前記継続時間辞書と
    を参照し、入力音声を認識する語句認識手段と、を備え
    たことを特徴とする音声認識装置。
  2. 【請求項2】 複数の継続時間辞書は、 話者が単語を発声した場合の音声信号について作成され
    た継続時間辞書と、 話者が連続文章を発声した場合の音声信号について作成
    された継続時間辞書と、を備えたことを特徴とする請求
    項1に記載の音声認識装置。
JP2000039447A 2000-02-17 2000-02-17 音声認識装置 Abandoned JP2001228890A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000039447A JP2001228890A (ja) 2000-02-17 2000-02-17 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000039447A JP2001228890A (ja) 2000-02-17 2000-02-17 音声認識装置

Publications (1)

Publication Number Publication Date
JP2001228890A true JP2001228890A (ja) 2001-08-24

Family

ID=18563009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000039447A Abandoned JP2001228890A (ja) 2000-02-17 2000-02-17 音声認識装置

Country Status (1)

Country Link
JP (1) JP2001228890A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075249A (ja) * 2007-09-19 2009-04-09 Ntt Data Corp 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
US9251789B2 (en) 2012-07-04 2016-02-02 Seiko Epson Corporation Speech-recognition system, storage medium, and method of speech recognition
JP2017015847A (ja) * 2015-06-30 2017-01-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075249A (ja) * 2007-09-19 2009-04-09 Ntt Data Corp 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
US9251789B2 (en) 2012-07-04 2016-02-02 Seiko Epson Corporation Speech-recognition system, storage medium, and method of speech recognition
JP2017015847A (ja) * 2015-06-30 2017-01-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US5679001A (en) Children's speech training aid
US6366883B1 (en) Concatenation of speech segments by use of a speech synthesizer
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
JPH06175696A (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
KR102508640B1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
GB2313530A (en) Speech Synthesizer
JP2001228890A (ja) 音声認識装置
Maciel et al. Five–framework for an integrated voice environment
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP2980382B2 (ja) 話者適応音声認識方法および装置
KR102418465B1 (ko) 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
JP2001100775A (ja) 音声合成装置のための音声データ量削減装置及び音声合成装置
JP2862306B2 (ja) 音声認識装置
JP2692382B2 (ja) 音声認識方法
JP2658426B2 (ja) 音声認識方法
JP3899122B6 (ja) 音声対話式言語指導のための方法及び装置
Moberg et al. Comparing CART and Fujisaki intonation models for synthesis of US-English names
JPH06337700A (ja) 音声合成装置
JP2023171025A (ja) 学習装置、学習方法、および、学習プログラム
JP2005221679A (ja) 発話スタイル評価装置及び発話スタイル分類装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040722

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061107

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20061215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070402