JPH09198082A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH09198082A
JPH09198082A JP8003882A JP388296A JPH09198082A JP H09198082 A JPH09198082 A JP H09198082A JP 8003882 A JP8003882 A JP 8003882A JP 388296 A JP388296 A JP 388296A JP H09198082 A JPH09198082 A JP H09198082A
Authority
JP
Japan
Prior art keywords
matching
lip
syllable
matching window
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8003882A
Other languages
English (en)
Inventor
Akihiro Fujii
明宏 藤井
Toshihiko Miyazaki
敏彦 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8003882A priority Critical patent/JPH09198082A/ja
Publication of JPH09198082A publication Critical patent/JPH09198082A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声に雑音が含まれていても、処理負担を軽
減し、認識精度が高い音声認識装置。 【解決手段】 唇特徴抽出部103は、1フレーム分の
画像信号から唇の縦横の大きさなど、その画像フレーム
内の唇の特徴を抽出する。唇特徴記憶部104は、複数
フレーム分の唇特徴を記憶する。音節区間抽出部105
は、唇特徴記憶部104に記憶されている唇特徴から音
節の区間とその内容等を抽出する。整合窓作成部113
は、唇特徴から得られた音節区間を元にDPマッチング
の整合窓を作成する。DPマッチング部114は、音素
特徴記憶部110に記憶されている入力音声の音素特徴
と音素特徴記憶部112に記憶されているモデル音声の
音素特徴との間でDPマッチングを行なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、DP(Dynammic Programmin
g:動的計画法)マッチング法によるものである。
【0002】
【従来の技術】一般に、音声認識では、入力した音声を
比較的短い区間(例えば20msec)毎にフレーム分
割した音素単位で調べた上で、音素同士の時間軸方向の
繋がりから単語などを認識する方法が採られている。音
素単位の認識では、各フレーム毎に例えば、スペクトル
等の特徴パラメータを抽出し、標準音素モデルとの比較
を行う。
【0003】この音素単位の認識結果を用いて単語全体
を認識する際、音素同士の時間軸方向の繋がりは、普
通、同じ単語を発話した場合でも発話時間はその都度異
なるように、一定ではなく非線形に伸縮する。
【0004】そこで、モデル音声と入力音声との単語の
類似度を調べる場合、時間軸を非線形に伸縮しながら、
音素間の類似度を計算する方法が取られている。具体的
な方法として、DP(Dynammic Progra
mming:動的計画法)マッチングがある。
【0005】従来のDPマッチングでは、時間軸が極端
に伸縮されることを防止するために、図2のような一定
幅の整合窓を設け、この整合窓の範囲でマッチングを行
っていた。このような技術については、例えば、下記文
献などで解説されている。古井 貞煕 著作:ディジタ
ル音声処理:東海大学出版会発行。
【0006】そして、整合窓の制約の元で各々のモデル
音声について時間軸を非線形に伸縮しながら、音素間の
類似度の最も高いルートとそのときの類似度の蓄積値
(スコア)を求める。このDPマッチングを各々の単語
のモデル音素に対して行ない、各々から得られたDPマ
ッチングのスコアの中で、最少のものを見つけることで
単語を認識するのである。
【0007】
【発明が解決しようとする課題】しかしながら、上述の
従来の技術では、一定幅の整合窓を用いたDPマッチン
グであるため、単語認識の精度が十分ではなく、また、
探索範囲が広いことによって処理負荷が大きくなり、特
に雑音が含まれている音声の認識の精度が悪くなるとい
う問題があった。
【0008】このため、音声に雑音が含まれていても、
処理負担を軽減し、認識精度が高い音声認識装置の提供
が要請されている。
【0009】
【課題を解決するための手段】そこで、本発明の音声認
識装置は、音声認識対象の話者の発話時の唇周辺領域の
画像信号を取り込み、画像フレーム毎に唇の特徴情報を
抽出する唇特徴情報抽出手段と、上記発話時の入力音声
信号から所定長音声フレームごとに音素特徴情報を抽出
する音素特徴抽出手段と、予め複数の既知単語に対する
モデル音節区間情報とモデル音素特徴情報とを登録して
いる単語辞書手段と、上記唇の特徴情報から音節区間情
報を求めると共に、上記単語辞書手段からのモデル音節
区間情報と、上記唇の特徴情報からの音節区間情報とか
らDPマッチングのための整合窓を音節区間ごとに形成
する整合窓形成手段と、上記音素特徴情報と、上記単語
辞書手段からの複数のモデル音素特徴情報との間の類似
度を、上記整合窓の制約の元でDPマッチング法によっ
て求める音素特徴類似度分析手段と、上記複数の類似度
から類似度の高い単語を選別出力する単語選別出力手段
とを備えて、上述の課題を解決するものである。
【0010】このような構成を採ることで、唇の動きか
ら求めた音節区間情報と、単語辞書手段に登録されてい
るモデル音節区間情報とから最適な整合窓を形成してD
Pマッチングを行うので、従来のDPマッチングに比べ
整合窓を狭めることができ、これによって検索範囲を狭
めることができ、DPマッチングに費やす処理量を軽減
することができる。
【0011】また、唇の特徴情報を使用することで、音
声に雑音が混入していても、従来よりも精度の高い音声
認識を実現することができる。
【0012】
【発明の実施の形態】次に本発明の好適な実施の形態を
図面を用いて説明する。そこで、本実施の形態において
は、音声認識装置を、従来のDPマッチングより精度が
高く且つ処理量を軽減するために、発話時の唇の動きか
らより精度の高い整合窓を作成し、この整合窓の制約の
元でDPマッチングを行なうものである。
【0013】これを実現するために、本実施の形態にお
いては、具体的には単語の中のある音を発話するときの
唇の形や動きに著しい特徴を持つことを利用する。例え
ば、子音の/b/、/m/、/p/は発話時に一瞬唇が
閉じる動きをする。また、母音の/a/、/e/、/i
/などは発話時に口が開く形になり、母音の/u/、/
o/などは発話時に口が窄まる形になる。また、音節と
音節の区切り目も、多くの場合、唇の動きに変化があ
る。
【0014】これらの唇の形や動きの情報から得た情報
から、音節など部分的な区間を検出し、更に区間の内容
に応じて『適当な大きさ・形の整合窓』を作成する。
【0015】これによって、音節区間毎に調節された整
合窓を得ることができる。この整合窓を用いてDPマッ
チングを行なうことによって、従来の『一定幅の整合
窓』を用いたDPマッチングに比べ、単語認識精度の向
上を図り、また探索範囲を狭めることによって処理負荷
を軽減するのである。特に、雑音が含まれている音声の
認識の精度向上を図るのである。
【0016】具体的な構成としては、入力された音声信
号を一定長の音声フレーム毎の音素特徴情報を抽出する
音素特徴抽出手段(a)と、画像信号から画像フレーム
毎に話者の唇領域を分析し、画像フレーム毎に唇特徴情
報を抽出する唇特徴抽出手段(b)と、上記唇特徴情報
と予め定められた単語辞書内の単語に対するモデル唇特
徴情報とで整合窓を作成する整合窓作成手段(c)と、
上記音素特徴情報と単語辞書内の単語に対するモデル音
素特徴情報との類似度を、上記整合窓の制約の元で時間
軸を非線形に伸縮しながら求める音声類似度算出手段
(d)と、単語辞書内の各単語に対して各々類似度を上
記音声類似度算出手段で求め、その結果に基づいて類似
度の最も高い単語を選ぶ単語選別手段(e)とを備える
ように音声認識装置を構成する。
【0017】更に、上記整合窓作成手段(c)を、入力
された唇特徴情報から音の境目に当たる部分を見つけ、
各々区間毎に整合窓を作成する区間整合窓作成手段(c
1)を備えるように構成する。
【0018】更にまた、上記区間整合窓作成手段(c
1)を、区間の唇特徴情報に応じて区間整合窓の形を変
えるように構成する。
【0019】また、上記区間整合窓作成手段(c1)
を、区間内において入力された唇特徴情報とモデル唇特
徴情報の内容が朗らかに異なる場合、整合窓作成を中止
し、音素類似度算出手段における該当する単語に対する
音素類似度の計算を行わないように構成する。
【0020】(構成): 図1は、本実施の形態の音
声認識装置100の機能構成図である。音声認識装置を
利用するユーザの前には、図3のようにユーザの顔の、
特に唇周辺を取り込むカメラT01と、音声を取り込む
マイクロフォンT02が備えられており、このカメラT
01とマイクロフォンT02は音声認識装置100につ
ながっている。
【0021】音声認識装置100は、画像信号のA/D
変換を行なう画像用A/D変換部101と、1フレーム
分の画像信号を記憶する画像フレームバッファ回路10
2と、1フレーム分の画像信号から唇の縦横の大きさな
ど、その画像フレーム内の唇の特徴を抽出する唇特徴抽
出部103と、複数フレーム分の唇特徴を記憶する唇特
徴記憶部104と、唇特徴記憶部104に記憶されてい
る唇特徴から音節の区間とその内容等を抽出する音節区
間抽出部105と、音声信号のA/D変換を行なう音声
用A/D変換部106と、音声信号を定められた長さの
フレーム毎に分割する音声フレーム分割部107と、入
力された1つの音声フレームが有音か無音かを判別する
有音判定部108と、1つの音声フレームから音素特徴
を抽出する音素特徴抽出部109と、複数フレーム分の
音素特徴を記憶する音素特徴記憶部110及び112
と、予め登録数Nの単語毎にモデル音素特徴とモデル唇
特徴が記憶されている単語辞書111と、唇特徴から得
られた音節区間を元にDPマッチングの整合窓を作成す
る整合窓作成部113と、音素特徴記憶部110に記憶
されている入力音声の音素特徴と音素特徴記憶部112
に記憶されているモデル音声の音素特徴との間でDPマ
ッチングを行なうDPマッチング部114と、DPマッ
チングの結果を記憶しておくスコアバッファ部115と
から構成されている。
【0022】また、唇特徴抽出部103は、図4に示す
通り、入力された画像フレームから輝度成分だけを抽出
し、白黒画像に変換する白黒画像変換部103−1と、
白黒画像を閾値Tl、Thによって唇部分とその他の部
分を隔てて2値化する2値化部分103−2と、2値化
画像から唇の縦と横の長さを抽出し、その結果を出力す
る唇特徴作成部103−3とから構成されている。
【0023】(音声認識装置の動作): 次に上述の
音声認識装置100の動作を詳細に述べる。音声認識装
置100に入力されたユーザの唇周辺が撮られた画像信
号S101は、画像用A/D変換部101でデジタル画
像信号に変換される。次に画像用A/D変換部101か
ら出力されたデジタル画像信号S102は、画像フレー
ムバッファ102に入力される。
【0024】画像フレームバッファ回路102では、デ
ジタル画像信号S102が1フレーム(画面)分入力さ
れるまで待ち続け、1フレーム分のデジタル画像信号S
102が入力された後、1フレーム分の画像信号が画像
フレームS103として出力される。次に画像フレーム
S103は唇特徴抽出部103に入力される。
【0025】一方、音声認識装置100に入力された音
声信号S106は、音声用A/D変換部106でデジタ
ル音声信号に変換される。音声用A/D変換部106か
ら出力されたデジタル音声信号S107は、次に音声フ
レーム分割部107に入力される。音声フレーム分割部
107は、音声信号S107を例えば8msec毎にシ
フトしながら32msec分の比較的短い長さの音声の
データ列(以下、音声フレームと呼ぶ)をまとめて出力
する。
【0026】つまり、互いに前後の音声フレームの一部
が重複した32msec長の音声フレームが周期8ms
ecで生成される。音声フレーム分割部107より出力
された音声フレームS108は、有音判定部108と音
素特徴抽出部109とに入力される。有音判定部108
は、入力された音声フレームS108が有音か無音かを
判定し、その判定結果S109を出力する。この有音判
定部108の有音判別方法は、例えば、音声フレーム内
の各サンプル値の絶対値平均Qを求め、絶対値平均Qが
閾値より大きければ有音であるというようにして行な
う。
【0027】有音判定部108より出力された有音判定
結果S109は、唇特徴抽出部103と音節区間抽出部
105と音素特徴抽出部109とに入力される。この有
音判定部108より出力された有音定結果S109が無
音から有音に切り替わる場合と、有音から無音に切り替
わる場合で、唇特徴抽出部103と唇特徴記憶部104
と音節区間抽出部105とは以下の1、2の処理を行な
う。
【0028】1.『無音から有音』に切り替わると、唇
特徴抽出部103と音素特徴抽出部109が始動し、以
下無音になるまで唇特徴S104と音素特徴S110を
抽出し出力し続ける。出力された唇特徴S104は、唇
特徴記憶部104に時系列順に記憶される。また、同じ
く出力された音素特徴S110は、音素特徴記憶部11
0に時系列順に記憶される。ここで唇特徴S104と
は、入力された画像内にある唇の縦と横の長さに関する
情報である。また、音素特徴S110は音声フレーム内
のスペクトル情報などである。唇特徴抽出部103及び
音声特徴抽出部109の詳細な説明は後で述べる。
【0029】2.有音から無音に切り替わると、唇特徴
抽出部103と音声特徴抽出部109の動作が停止す
る。そして、音節区間抽出部105が始動し、唇特徴記
憶部104に記憶されている唇特徴から音節区間の抽出
及び解析が行われる。音節区間抽出部105の詳細な説
明は後で述べる。そして、音節区間抽出部105で音節
区間情報S111が作成される。
【0030】次に音節区間抽出部105より出力された
音節区間情報S111が整合窓作成部113に入力され
ると、整合窓作成部113は、DPマッチング部114
に知らせる。これを受けてDPマッチング部114は、
単語辞書111に記載されている単語(登録数N)を順
次呼び出す。
【0031】尚、単語辞書111に記憶されている各単
語を便宜上、“単語(n)”(但しn=0,1,・・
・,N−1)で表す。以下、整合窓作成部113からD
Pマッチング部114に上述の知らせが入力されてか
ら、最終的に認識した単語を出力するまで、以下の
(1)〜(5)のような処理が行われる。
【0032】(1)DPマッチング部114から単語
(n)の呼び出し命令S115が単語辞書111に入力
されると、単語辞書111から単語(n)のモデル音節
区間情報S112とモデル音素特徴S116が出力され
る。音節区間情報S112は、整合窓作成部113に入
力され、モデル音素特徴S116は、音素特徴記憶部1
12に時系列順に記憶される。
【0033】(2)整合窓作成部113では、音節区間
抽出部105から入力された音節区間情報S111と単
語辞書111から入力された単語(n)のモデル音節区
間情報S112とで音節区間毎に整合窓を作成する。も
し整合窓が作成できなければ、DPマッチング部114
に知らせる。整合窓作成の詳細な説明は後で述べる。
【0034】(3)整合窓作成部113から単語(n)
に対する整合窓S113を出力し、この整合窓S113
がDPマッチング部114に入力されると、DPマッチ
ング部114は、音素特徴記憶部110に記憶されてい
る入力音素特徴S114と音素特徴記憶部112に記憶
されているモデル音素特徴S117とで、整合窓S11
3に基づき、DPマッチングを行なう。
【0035】そして、DPマッチングの結果(スコア)
であるS(n)(S118)がスコアバッファ115に
記憶される。DPマッチング部の詳細は後で述べる。
尚、整合窓作成部113より整合窓が作成されていない
知らせが入力された場合は、単語(n)に対するDPマ
ッチングは行なわない。
【0036】(4)以上、(1)から(3)までの処理
を単語(0)から単語(N−1)に対して行なう。
【0037】(5)上記(4)まで終了すると、スコア
バッファ部115に記憶されているS(n)(n=0,
1,・・・,N−1)の中で最少の値になったnmin
を調べ、単語辞書111に単語(nmin)を参照し、
単語(nmin)を認識結果として出力する。
【0038】以上が図1の音声認識装置100の全体的
な動作の説明である。次に主要部分の詳細な説明をす
る。
【0039】
【唇特徴抽出部103の詳細な説明】唇特徴抽出部10
3は、入力された1画像フレームから唇の縦と横の長さ
等を自動的に抽出し、その結果を出力する。この処理の
具体例を図4に示す。今、第k番目の画像フレームS1
03が唇特徴抽出部103に入力されるとすると、初め
に白黒画像変換部103−1に入力される。この白黒画
像変換部103−1で入力された画像フレームS103
は、画像の色成分を除いた白黒画像に変換される。
【0040】白黒画像変換部103−1より出力された
白黒画像S103−1は、次に2値化部103−2に入
力される。2値化部103−2では、入力された黒画像
変換部S103−1の各画素の値が閾値Tl以上且つT
h以下なら1、それ以外の画素は0というような2値化
が行われる。
【0041】但し、閾値Tl、Thは、予め算出した唇
部分の輝度の範囲の値である。これによって唇部分の画
素が1になり、その他の部分は0の値になる。次に2値
化された画像S103−3は唇特徴作成部103−3に
入力される。唇特徴作成部103−3では、先ほど2値
化によって唇と音声を行なう前に予め抽出されている唇
を閉じた状態(唇初期特徴)の唇の縦の長さlw
initと、横の長さlh nit(唇初期特徴)と
で、 wk=lw−lwinit …(1) hk=lh−lhinit …(2) が求められる。
【0042】これらから第k番目の画像フレームの唇特
徴S104である
【数1】 が作成され、唇特徴作成部103−3より出力される。
【0043】[音素特徴抽出部109の詳細な説明]:
音素特徴抽出部109は、入力された一つの音声フレー
ムに対してスペクトル分析を行ない、スペクトル特徴パ
ラメータのベクトルであるaiを出力する。但し、iは
有音区間の音声フレーム番号である。スペクトル分析の
手法としては、例えば、周知の「線形予測(LPC)分
析法」がある。この場合、LPCケプストラム係数の集
合をaiとして出力するのである。
【0044】[音節区間抽出部105の詳細な説明]:
有音判定部108からの有音判定結果S109が有音か
ら無音に切り替わったことが音声区間抽出部105に伝
わると、音声区間抽出部105の処理が開始される。
【0045】この音節区間抽出部105の処理手順を図
5に示す。尚、唇特徴記憶部104に記憶されている唇
特徴S105の総数をKとする。
【0046】音声区間抽出部105の処理は、始めに音
声区間抽出部105内部の初期化が行われる(ステップ
P101)。このステップP101では、変数kに1を
代入し、変数flagにOFFを代入し、変数pに1を
代入する。尚、この変数kは入力された唇特徴S105
の時系列順の番号を表し、変数flagは音節区間か否
かを示し、変数pは区切られた音節に付けた番号であ
る。このステップP101を終えると、次に唇特徴li
p(k)の前フレームとの変化ベクトルdlip(k)
を求める(ステップP102)。このdlip(k)は
以下のようにして求める。
【0047】
【数2】 上述のステップP102を終えると、次にflagの値
がONがOFFかが調べられる(ステップP103)。
flag=ONならステップP105に進み、flag
=OFFならステップP104に進む。このステップP
104では、flagにONを代入し、t0(p)にk
を代入する。次にkに1を加える(ステップP10
9)。次にステップP110に進む。ここでは、kの値
がK以下であるか否かが確認される(ステップP11
0)。この確認でkの値がK以下であれば、上述のfl
agがONか否かの確認(ステップP103)に進み、
以下でなければ、音声区間情報の出力(ステップP11
1)に進む。
【0048】一方、flagがONであるか否かの確認
(ステップP103)で、ONであるならばステップP
105に進み、ここではdlip(k)のベクトル方向
がdlip(t0(p))のベクトル方向と異なってい
るか否かを調べる(ステップP105)。具体的には、 ・dw(k)とdw(t0(p))の正負の符号が異な
る。
【0049】・dh(k)とdh(t0(p))の正負
の符号が異なる。
【0050】のいずれかでも成り立てば、次のステップ
P106に進み、それ以外はステップP109に進む。
このステップP106では、t1(p)にk−1を代入
する。つまり、t0(p)からt1(p)までが先頭か
らp番目の音節区間の画像フレームに相当する(ステッ
プP106)。このステップP106を終えると次にス
テップP107に進む。
【0051】このステップP107では、lip(t0
(p))からlip(t1(p))までの唇特徴から、
この音節は、例えば、以下の4つの項目のいずれに当て
はまるか否かを調べる。
【0052】 (1)/b/、/m/、/p/などの両唇音を含む音節 (2)母音/a/、/e/、/i/を含む音節 (3)/u/、/o/を含む音節 (4)その他(判定不可能だったものを含む) 上記の(1)に当てはまるケースとしては、lip(t
0(p))からlip(t1(p))の中で一瞬唇が閉
じた箇所がある場合である。
【0053】上記(2)に当てはまるケースとしては、
lip(t0(p))からlip(t1(p))の、特
に最後の方の唇の形が縦横ともある閾値以上開いている
場合である。上記(3)に当てはまるケースとしては、
lip(t0(p))からlip(t1(p))の、特
に最後の方の唇の横の長さがある閾値以下の場合であ
る。そして、上記(1)〜(3)に当てはまらない場合
は上記(4)である。
【0054】上述のステップP107で選択されたp番
目の音節区間の内容をc(p)とする。このステップP
107を終えると次にステップP108に進む。このス
テップP108では、flagの値をOFFにして、p
に1を加える。このステップP108を終えると上述の
flagがONか否かの確認(ステップP103)に戻
る。
【0055】以上のようにしてステップP102からス
テップP110の間の処理を繰り返して最終的に音声区
間情報の出力(ステップP111)に到達すると、ここ
では、個数pの音節区間情報S111であるT(k)=
[t0(k),t1(k),c(k)]、(k=1,2
…,p)が出力される(ステップP111)。
【0056】[整合窓作成部113の詳細な説明]:整
合窓作成部113の処理手順を図6に示す。以下、単語
(n)に対する整合窓作成の例を示す。尚、単語(n)
のモデル音節区間情報S112をTM(p)(pは音節
の番号)とする。このTM(p)にもT(p)と同様、
以下の情報が収まっている。
【0057】tm0(p) :p番目の音節の先頭画像フレームの番号tm1(p) :p番目の音節の末尾画像フレームの番号cm(p) :p番目の音節の内容。
【0058】先ず、整合窓作成部113の初期化(ステ
ップP201)が行なわれ、変数pが0に初期化され
る。このpは音節の番号を意味する。このステップP2
01を終えると次にステップP202に進む。このステ
ップP202では、入力されたそれぞれの音節区間情報
S111とS112のp番目の音節T(p)とTM
(p)の内容であるc(p)とcm(p)が、選択項目
(1)〜(3)で一致しているか、又はc(p)が選択
項目(4)の場合はステップP203に進み、それ以外
はステップP208に進む。
【0059】上記ステップP202からステップP20
3に進むと、ここではp番目の音節T(p)とTM
(p)の区間の整合窓を作成する。具体的な方法を示す
と次の様になる。
【0060】今、p番目の音節について入力画像から得
られた音節T(p)と、単語辞書111から得られたモ
デル単語(n)のp番目の音節TM(p)の時間的関係
が図7に示すような関係になっているとする。ここで図
7のs及びtは画像フレームの番号を表すものとする。
【0061】この区間の整合窓は、図7のように、点
(t0(p)、tm0(p))と点(t1(p)、tm
1(p))の2点間を結ぶ直線L
【数3】 に対して、t0(p)≦s≦t1(p)とtm0(p)
≦t≦tm1(p)で囲まれた領域内で、直線Lに並行
に距離Rだけ上下に離れた以下の直線Lu(式(6)及
び直線Ld(式(7))がこの区間の整合窓になる。
【0062】
【数4】
【数5】 上記Rは、音節の内容(音節選択項目)に応じて値を変
えても良い。例えば、c(p)及びcm(p)が音節選
択項目(1)であればRを小さくし、c(p)が音節選
択項目(4)であればRを大きくする。
【0063】上記ステップP203を終えると次にステ
ップP204に進む。ここでは、次の音節であるT(p
+1)及びモデル音節TM(p+1)が存在するかを調
べる。共に存在する場合はステップP205に進み、そ
うでなければステップP207に進む。ステップP20
5では、次の音節区間までの整合窓を作成する。これは
図8のようにp番目の音節の整合窓の終端と次のp+1
番目の音節の整合窓の始端とを直線で結ぶものである。
このステップP205を終えると次にステップP206
に進む。ここではpに1を加える。このステップP20
6を終えると次にステップP202に進む。
【0064】一方、入力音声及びモデルのp+1番目の
音節が存在するか否かの判定(ステップP204)で、
存在しないと判定した場合に、整合窓を出力する(ステ
ップP207)に進んだ場合、これまで作成し終えた整
合窓をDPマッチング部114に送る。また、p番目の
音節についてモデルの音節と一致するか否かの判定(ス
テップP202)、一致しないと判定されたときに、整
合窓の作成を中止(ステップP208)することに進ん
だ場合、整合窓が作成できなかったことをDPマッチン
グ部114に伝えるのである。
【0065】[DPマッチング部114の詳細な説
明]:整合窓作成部113で作成された単語(n)に対
する整合窓S113がDPマッチング部114に入力さ
れると、音素特徴記憶部110に記憶されている入力さ
れた音声の音素特徴S114と音素特徴記憶部112に
記憶されている単語(n)のモデル音素特徴S117と
で整合窓S113の制約の元でのDPマッチングが開始
される。
【0066】尚、整合窓作成部113で生成された整合
窓の縦軸及び横軸の単位は画像フレーム番号であるの
で、DPマッチング部114で使用するためにはこれを
音声フレームの周期に合わせて伸縮する必要がある。画
像フレームの周期をFT、音声フレームの周期をVTと
すると、整合窓作成部113で生成された整合窓の縦軸
及び横軸の値にFT/VTを掛け合わせたものを用い
る。そして、単語(n)に対するDPマッチングの結果
をS(n)として出力するのである。
【0067】(本発明の実施の形態の効果): 以上
の本発明の実施の形態によれば、話者の唇の動きから求
めた音節区間毎に範囲を狭めたDPマッチングの整合窓
を求めているので、従来のDPマッチングに比べ検索範
囲が狭まり、DPマッチングに費やす処理量が軽減され
る。
【0068】また、従来のDPマッチングに比べより精
度の高いマッチングができる。また、DPマッチングを
行なう前に予め参照するモデル単語と音節のタイプが一
致するかを調べ、一致しないモデル単語に対してはDP
マッチングを行なわないので、不要なDPマッチングを
行なわずに済むことからも処理量が軽減できる。また、
唇の動き情報を用いているので雑音を含む音声に対し
て、従来に比べより精度の高い音声認識ができるのであ
る。
【0069】(他の実施の形態): (1)尚、上述
の実施の形態では、音節の内容まで調べたが、音節の内
容を調べずに全て音節の内容が上述の(4)(その他:
判定不可能だったものを含む。)であるのと同じ処理を
しても良い。
【0070】(2)また、上述の実施の形態では、音節
区間の整合窓は、図7のように2つの直線に挟まれた形
であったが、例えば、図9のように音節区間の両端を更
にさ狭めた形にしても良い。音節区間の整合窓がこの図
9の場合に、2つの音節区間の間の区間を、実施の形態
と同様に図10のように終端と始端とを直線で結ぶ。こ
れによって上述の実施の形態よりもDPマッチングは精
度が高く、また処理量が軽減される。
【0071】(3)更に、上述の実施の形態及び上述の
図9の説明では、音節区間の整合窓は直線で構成されて
いたが、これに限定するものではなく、例えば、曲線で
構成されていても良い。2つの音節区間の間も同様に曲
線で構成されていても良い。
【0072】(4)更にまた、上述の実施の形態では、
唇特徴抽出部103における唇特徴抽出の方法として白
黒画像を2値化する方法であったが、これに限定するも
のではない。他にも唇の色成分から唇領域の判別する方
法や、前フレームとの動きベクトルなどから唇特徴を抽
出しても良い。
【0073】
【発明の効果】上述したように本発明は、音声認識対象
の話者の発話時の唇周辺領域の画像信号を取り込み、画
像フレーム毎に唇の特徴情報を抽出する唇特徴情報抽出
手段と、上記発話時の入力音声信号から所定長音声フレ
ームごとに音素特徴情報を抽出する音素特徴抽出手段
と、予め複数の既知単語に対するモデル音節区間情報と
モデル音素特徴情報とを登録している単語辞書手段と、
上記唇の特徴情報から音節区間情報を求めると共に、上
記単語辞書手段からのモデル音節区間情報と、上記唇の
特徴情報からの音節区間情報とからDPマッチングのた
めの整合窓を音節区間ごとに形成する整合窓形成手段
と、上記音素特徴情報と、上記単語辞書手段からの複数
のモデル音素特徴情報との間の類似度を、上記整合窓の
制約の元でDPマッチング法によって求める音素特徴類
似度分析手段と、上記複数の類似度から類似度の高い単
語を選別出力する単語選別出力手段とを備えたことで、
音声に雑音が含まれていても、処理負担を軽減し、認識
精度が高い音声認識装置を実現することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の音声認識装置の機能構成
図である。
【図2】従来例のDPマッチングの整合窓の説明図であ
る。
【図3】実施の形態の音声・画像入力の説明図である。
【図4】実施の形態の唇特徴抽出部の機能構成図であ
る。
【図5】実施の形態の音節区間抽出部の機能構成図であ
る。
【図6】実施の形態の整合窓作成部の処理フローチャー
トである。
【図7】実施の形態のp番目の音節区間の整合窓の説明
図である。
【図8】実施の形態のp番目の音節とp+1番目の音節
の間の整合窓の説明図である。
【図9】他の実施の形態のp番目の音節区間の整合窓の
説明図である。
【図10】上述の図9に対するp番目の音節とp+1番
目の音節の間の整合窓の説明図である。
【符号の説明】
100…音声認識装置、101…画像用A/D変換部、
102…画像フレームバッファ回路、103…唇特徴抽
出部、104…唇特徴記憶部、105…音節区間抽出
部、106…音声用A/D変換部、107…音声フレー
ム分割部、108…有音判定部、109…音素特徴抽出
部、110…音素特徴記憶部、111…単語辞書、11
2…音素特徴記憶部、113…整合窓作成、114…D
Pマッチング部、115…スコアバッファ部、T01…
カメラ、T02…マイクロフォン。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声認識対象の話者の発話時の唇周辺領
    域の画像信号を取り込み、画像フレーム毎に唇の特徴情
    報を抽出する唇特徴情報抽出手段と、 上記発話時の入力音声信号から所定長音声フレームごと
    に音素特徴情報を抽出する音素特徴抽出手段と、 予め複数の既知単語に対するモデル音節区間情報とモデ
    ル音素特徴情報とを登録している単語辞書手段と、 上記唇の特徴情報から音節区間情報を求めると共に、上
    記単語辞書手段からのモデル音節区間情報と、上記唇の
    特徴情報からの音節区間情報とからDPマッチングのた
    めの整合窓を音節区間ごとに形成する整合窓形成手段
    と、 上記音素特徴情報と、上記単語辞書手段からの複数のモ
    デル音素特徴情報との間の類似度を、上記整合窓の制約
    の元でDPマッチング法によって求める音素特徴類似度
    分析手段と、 上記複数の類似度から類似度の高い単語を選別して出力
    する単語選別出力手段とを備えたことを特徴とする音声
    認識装置。
  2. 【請求項2】 上記整合窓形成手段は、上記唇の特徴情
    報から両唇音を含む音節区間情報又は母音を含む音節区
    間情報を求めることを特徴とする請求項1記載の音声認
    識装置。
  3. 【請求項3】 上記整合窓形成手段は、音節区間の上記
    唇の特徴情報に応じて上記整合窓の形を調節するように
    形成することを特徴とする請求項1又は2記載の音声認
    識装置。
  4. 【請求項4】 上記整合窓形成手段は、現音節区間の整
    合窓と次の音節区間の整合窓との間の整合窓を曲線で結
    ぶように形成することを特徴とする請求項1〜3のいず
    れかに記載の音声認識装置。
  5. 【請求項5】 上記整合窓形成手段において、上記唇の
    特徴情報からの音節区間情報と一致するモデル音節区間
    情報が上記単語辞書手段に存在しないと判断される場合
    は、 上記整合窓の形成と上記音素特徴類似度分析とを行わな
    いことを特徴とする請求項1記載の音声認識装置。
JP8003882A 1996-01-12 1996-01-12 音声認識装置 Pending JPH09198082A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8003882A JPH09198082A (ja) 1996-01-12 1996-01-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8003882A JPH09198082A (ja) 1996-01-12 1996-01-12 音声認識装置

Publications (1)

Publication Number Publication Date
JPH09198082A true JPH09198082A (ja) 1997-07-31

Family

ID=11569562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8003882A Pending JPH09198082A (ja) 1996-01-12 1996-01-12 音声認識装置

Country Status (1)

Country Link
JP (1) JPH09198082A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JPH11352987A (ja) * 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
JP2000099099A (ja) * 1998-09-22 2000-04-07 Sharp Corp データ再生装置
US6604073B2 (en) * 2000-09-12 2003-08-05 Pioneer Corporation Voice recognition apparatus
JP2005135432A (ja) * 2004-12-13 2005-05-26 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2007156493A (ja) * 2005-12-08 2007-06-21 Korea Electronics Telecommun 音声区間検出装置及び方法並びに音声認識システム
CN109087651A (zh) * 2018-09-05 2018-12-25 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备
CN112711971A (zh) * 2019-10-25 2021-04-27 华为技术有限公司 终端消息处理方法及其图像识别方法、装置、介质和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JPH11352987A (ja) * 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
JP2000099099A (ja) * 1998-09-22 2000-04-07 Sharp Corp データ再生装置
US6604073B2 (en) * 2000-09-12 2003-08-05 Pioneer Corporation Voice recognition apparatus
JP2005135432A (ja) * 2004-12-13 2005-05-26 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2007156493A (ja) * 2005-12-08 2007-06-21 Korea Electronics Telecommun 音声区間検出装置及び方法並びに音声認識システム
CN109087651A (zh) * 2018-09-05 2018-12-25 广州势必可赢网络科技有限公司 一种基于视频与语谱图的声纹鉴定方法、系统及设备
CN112711971A (zh) * 2019-10-25 2021-04-27 华为技术有限公司 终端消息处理方法及其图像识别方法、装置、介质和系统

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN1121680C (zh) 语音识别
EP1220197A2 (en) Speech recognition method and system
JP2002519720A (ja) 多層ネットワークを用いた信号分類の方法と装置
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
JP2815579B2 (ja) 音声認識における単語候補削減装置
US6278972B1 (en) System and method for segmentation and recognition of speech signals
US6574596B2 (en) Voice recognition rejection scheme
EP1005019A3 (en) Segment-based similarity measurement method for speech recognition
JPH09198082A (ja) 音声認識装置
US20040073425A1 (en) Arrangement for real-time automatic recognition of accented speech
US6230126B1 (en) Word-spotting speech recognition device and system
JP3710205B2 (ja) 音声認識装置
JPH0632012B2 (ja) 音声認識装置
JPH07230293A (ja) 音声認識装置
JP2005165887A (ja) 単語認識装置
JP2000099099A (ja) データ再生装置
KR100322202B1 (ko) 신경망을 이용한 음성인식장치 및 그 방법
JP3400474B2 (ja) 音声認識装置および音声認識方法
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JPH11224098A (ja) 単語音声認識システムにおける環境適応装置
JP2543584B2 (ja) 音声標準パタン登録方式
JPH06110496A (ja) 音声合成器
JP3518195B2 (ja) 音声認識装置
JP3473704B2 (ja) 音声認識装置