JPH0876792A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0876792A JPH0876792A JP6209699A JP20969994A JPH0876792A JP H0876792 A JPH0876792 A JP H0876792A JP 6209699 A JP6209699 A JP 6209699A JP 20969994 A JP20969994 A JP 20969994A JP H0876792 A JPH0876792 A JP H0876792A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- voice
- lip
- voice recognition
- electric signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Complex Calculations (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
い音声認識装置の提供。 【構成】 話者によって発声された音声を音声特徴ベク
トル抽出部5によりFFTスペクトルなどの時系列に変
換する。同時に該話者の口唇の動きをフォトトランジス
タ3等の受光素子により受光電力などに変換し、口唇特
徴ベクトル抽出部が受光電力の変動量の時系列等の口唇
特徴ベクトルを出力する。次に累積変動関数抽出部7が
その特徴ベクトルを累積し時間の関数として累積変動関
数を出力する。時系列抽出部8は累積変動関数の累積変
化を等分割する時刻列を求める。音声認識部9が該時刻
列の各時刻を基準として音声認識を行うことにより上記
目的が達成される。
Description
作する音声認識装置に関するものである。
たものである。10はマイクなどの音声入力部、11は
音声特徴ベクトル抽出部、12は音声認識部、13は標
準パタン格納部である。この様に構成された音声認識装
置について以下具体的に動作を説明する。
号に変換され、音声特徴ベクトル抽出部によって単位時
間毎に(各フレーム毎に)FFTスペクトル等の特徴ベ
クトルの時系列A(a1,a2,...,an)に変換される。こ
の特徴ベクトル時系列は音声認識部3において標準パタ
ン格納部4に格納されているすべての標準パタン: B(b1,b2,...,bn),C(c1,c2,...,cn),.... と各フレーム毎に距離Dbi(ai,bi),Dci(ai,c
i),...が計算され全フレームについての距離の和がそ
の標準パタンとの距離となる。音声認識部3は最も距離
の小さい標準パタンを認識結果として採択する。
た場合その変動を吸収できないため誤認識の大きな要因
となる。
ッチングがある。図7はこのDPマッチングによる距離
計算の様子を示したものである。このDPマッチングで
は図7の整合窓の範囲内で最適なパスを探索する際に、
多くの距離計算を必要とする。このため、発声の変動は
吸収できるが計算量が膨大になるという問題がある。
の音声認識装置では、人間の発声変動に対応できないた
め多様な発声様態に対応が困難である。また、DPマッ
チングの様に発声変動を吸収する枠組みを取り入れても
認識の計算に時間がかかるという問題点を有している。
動を簡便な方法で吸収し、認識率の向上を図る事ができ
る音声認識装置の提供を目的とする。
装置は、話者によって発声された入力音声を電気信号に
変換して出力する音声入力手段と、該話者の口唇の動き
を電気信号に変換して出力する画像入力手段と、該音声
入力手段が出力する電気信号を解析して音声の特徴ベク
トルを抽出する音声特徴ベクトル抽出手段と、該画像入
力手段が出力する電気信号を解析して口唇の動き特徴ベ
クトルを抽出し、単位時間毎の該特徴ベクトルの変動量
を時系列として出力する口唇特徴ベクトル抽出手段と、
該口唇特徴ベクトル時系列を累積し時間の関数として累
積変動関数を出力する累積変動関数抽出手段と、該累積
変動関数の累積変化を等分割する時刻列を求める時刻列
抽出手段と、該時刻列の各時刻を基準として音声認識を
行う音声認識手段とを備えている。
って発声された入力音声を電気信号に変換して出力する
音声入力手段と、該話者の口唇の動きを電気信号に変換
して出力する画像入力手段と、該音声入力手段が出力す
る電気信号を解析して音声の特徴ベクトルを抽出する音
声特徴ベクトル抽出手段と、該画像入力手段が出力する
電気信号を解析して口唇の動き特徴ベクトルを抽出し、
単位時間毎の該特徴ベクトルの変動量を時系列として出
力する口唇特徴ベクトル抽出手段と、音声特徴ベクトル
と口唇特徴ベクトルとを参照パタンと比較して、音声認
識を行う音声認識手段とを備えている。
声認識手段がさらに音声特徴ベクトルと口唇特徴ベクト
ルの変動量とを参照パタンと比較し音声認識を行っても
よい。
声認識手段が口唇特徴ベクトルの変動量をウェーブレッ
ト変換して、該変換波形の面積計算を行い、該面積デー
タと参照用面積データとを比較して音声認識を行っても
よい。
は、該音声認識手段が音声特徴ベクトルと口唇特徴ベク
トルとから音声区間検出を行ってもよい。
は、画像入力手段が、話者の口唇を照射する発光手段
と、該発光手段の反射光を電気信号に変換する受光手段
とを備えていてもよい。
は、口唇特徴ベクトル抽出手段が、話者の口唇から得ら
れる受光電力を該特徴ベクトルとして抽出することを特
徴としてよい。
ても同じ単語であれば同様な特徴ベクトルを得る事がで
き、認識率が改善できる。
においても安定な操作が可能である。
オード(フォトトランジスタ)の組み合わせでとらえる
ため、ビデオカメラ等を利用する場合と比較して、低コ
ストで実現できる。
声認識装置の構成を示すものである。同図において、1
はマイク、2はLED、3はフォトトランジスタ、4
は、マイク1、LED2、フォトトランジスタ3を適当
な配置にせしめるハンドセット、音声特徴ベクトル抽出
部5は音声信号から単位時間毎にLPCケプストラムな
どの特徴ベクトルを抽出しベクトルの時系列として出力
する部分、口唇特徴ベクトル抽出部6は画像入力部3か
らの信号から単位時間毎の受光電力の変化量などを抽出
しベクトルの時系列として出力する部分、累積変動関数
抽出部7は口唇特徴ベクトルの絶対値をとり累積して時
間の関数としての累積変動関数を抽出する部分、時刻列
抽出部8は累積変動関数の累積変化分を等分割する時刻
列を求める部分、音声認識部9はこの時刻列ごとに入力
の音声特徴ベクトルと参照用音声特徴ベクトルとの照合
を行い認識結果を出力する部分である。
識装置について以下にその動作を説明する。
マンドを発声する。入力音声はマイク1により音声信号
に変換され音声特徴ベクトル抽出部5において例えば1
0msフレーム毎にFFTスペクトラムなどの特徴量に
変換される。一方、発声中の口唇はLED2によって照
射されその反射光がフォトトランジスタ3で受光され
る。フォトトランジスタ3の出力は口唇特徴ベクトル抽
出部6において例えば10msフレーム毎に前フレーム
との差分が計算され受光電力の変動量が得られる。この
変動量の例を図2(a)に示す。次に、この変動量は累
積変動関数抽出部7においてその絶対値が累積され図2
(b)に示すような累積変動関数が求められる。時刻列
抽出部8は図3に示すように累積変動関数の累積変化分
を等分割する時刻列を計算する。音声認識部9はこの時
刻列に基づいて先ず図4に示すようにFFTスペクトラ
ムを計算し直す。この結果、口唇の動きが顕著なとき、
すなわち音声スペクトルの変化が激しい時、図4に示す
ように音声特徴ベクトルすなわちFFTスペクトラムは
多くのフレームが割り当てられ、逆に母音定状部などの
ように口もスペクトルも動きが緩慢な時は、少ない数の
フレームで現されるようになる。音声認識部9は次に、
再抽出された入力FFTスペクトルと予め記憶してあっ
た認識対象コマンドのFFTスペクトルパタンとを照合
し、最も距離の近い認識対象コマンドを認識結果として
出力する。
同じ単語であれば同様なFFTスペクトルを得る事がで
き、認識率が改善できる。
力の変動量を認識用特徴ベクトルの一部として用いるこ
とによりさらに音声認識性能を向上させることができ
る。図5は色々な単語「みぎ」「うしろ」に対応する受
光電力の変動量を示したものである。この図から明らか
なように単語によってこれらの変動量は特徴的であり、
認識用特徴ベクトルとして用いることにより認識率の改
善が可能である。
方式は、上記の累積変動関数を用いた認識方式と独立に
用いる事も併用も可能である。
唇の変動があるしきい値より大きく、かつ、音声特徴ベ
クトルから得られる音量があるしきい値より大きい場合
のみ音声認識を可能にせしめることにより背景雑音や発
声しないで口唇のみ動かした場合の認識装置の誤動作を
軽減できる。
ターンと音声特徴ベクトルの標準パタンの登録を行う
が、あらかじめ不特定話者に対応できる形の標準パター
ンを準備しておき、利用者による登録を省略するように
してもよい。
LEDはそれぞれ一つずつ実装しているが、それぞれを
複数実装することも可能である。また、CCD撮像素子
によるより高精度な口唇特徴ベクトルの獲得も可能であ
る。
イクを同一構造物に組み込んであるが、別々の場所にあ
ってもさしつかえない。
例における音声認識装置の構成を示すものである。図8
の図1との違いは、音声認識部14の認識方式と音声認
識部14が口唇特徴ベクトル抽出部6からの入力を受け
る点にのみであるため、構成における詳細な説明は省略
する。また、図9は音声認識部14における口唇の受光
電力の変動量による音声認識を行う部分の構成を示すも
のである。同図において、15は口唇の受光電力の変動
量をウェーブレット変換するウェーブレット特徴量抽出
部、16は特徴量を波形の面積特徴量に変換する面積変
換部、17は参照用パタン保持部、18は面積特徴量の
パタン照合を行うパタン照合部である。
(a)に示す受光電力の変動量をウェーブレット変換し
た波形を認識用特徴ベクトルの一部として用いることに
より音声認識性能を向上させる。
識装置について以下にその動作を説明する。本実施例の
第一の実施例との相違は、音声認識部14が口唇の受光
電力の変動量からも音声認識を行う点であるため、この
点のみ説明する。
の受光電力の変動量をウェーブレット変換して出力す
る。ウェーブレット変換は、フーリエ変換に近いデータ
解析手法の一種であり、次のような特徴を持つ。
周波数成分を含むかといった時間・周波数情報を同時に
解析できる。
所的な周波数成分に含まれる意味のある特徴量を抽出す
る。
る。ウェーブレット変換は、局所的にのみ値を持ち、直
流成分のない関数(アナライジングウェーブレット)と
信号とのたたみこみ演算で定義される。アナライジング
ウェーブレットの例としてはMoret関数、ガウシアンや
フレンチハット等があり、図13にMoret関数の例を示
す。ここで、アナライジングウェーブレットをψ(t)と
して、これをaだけスケーリングしbだけシフトした関数
族、
・スケーリングした例を示す。そして、信号f(t)のウェ
ーブレット変換は、
は−∽<t<∽である。このように、ウェーブレット変
換は、データf(t)を(a,b)の2次元データへ変換するも
のであり、aが周波数軸に、bが時間軸に対応する。この
変換値からデータの時間と周波数の情報を同時に解析す
ることができ、周波数軸側aはデータのバンドパスフィ
ルタに相当するため選択的な周波数情報を抽出すること
が可能となる。
ろ」の受光電力の変動量をガウシアン関数でウェーブレ
ット変換した結果を示したものである。ただし、同図で
は分かりやすさのために2つのスケールで変換した結果
のみを示している。図から明らかなように、ウェーブレ
ット変換は信号の局所的な周波数成分を抽出でき、必要
な特徴成分を効果的に取り出すことができるため、高い
認識性能を得ることができる。次に、面積変換部16
は、ウェーブレット変換信号からその面積成分を図11
に示すように計算して出力する。具体的には、ピーク点
とゼロ交差点を抽出して、となりあったゼロ交差点に挟
まれた領域(図11斜線部)の面積を計算する。ただ
し、もしとなりあったゼロ交差点の領域に複数のピーク
点があった場合、絶対値が最大の点をピーク点とする。
このように、面積値に置き換えることで小さな振幅変動
による誤認識を抑えることが可能である。なお、面積計
算はゼロ交差点間の積分計算を行う方法や、領域を三角
形近似してその三角形の面積を計算する等の方法が考え
られる。後者によれば、計算時間の大幅な削減が可能で
ある。最後に、パタン照合部18は参照用パタンと面積
計算部16が計算した認識用パタンを照合して認識結果
を出力する。図12にパタン照合の概念図を示す。照合
するデータは面積(aj)とピークからピークまでの時間
(Δtj,j+1)であり、以下の計算式で類似度を計算す
る。
i番目の参照用パタンにおける面積とピークからピーク
までの時間、α,βは適当な加重である。なお、時間側
の類似度の計算は、多少の時間変動に対してペナルティ
をゼロとする方法もある。つまり、
ゼロとする方法である。これによれば、無意味な時間変
動によるペナルティを抑えることができる。以上のよう
に、本実施例においては、口唇の受光電力の変動量のウ
ェーブレット変換と面積近似による認識を行うため、振
幅や時間変動に強い認識装置を得ることができる。
例においては、口唇の受光電力の変動量からも上記した
方法で音声認識を行うことで、累積変動関数を用いた音
声による認識と併用することで、高い認識性能を実現す
ることができる。
と累積変動関数を用いた音声による認識方式を併用した
が、独立して用いる事も可能である。この場合、発声せ
ずとも認識することが可能となり、発声が困難な障害者
の方々への利用も可能となる。
の変動があるしきい値より大きく、かつ、音声特徴ベク
トルから得られる音量があるしきい値より大きい場合の
み音声認識を可能にせしめることにより背景雑音や発声
しないで口唇のみ動かした場合の認識装置の誤動作を軽
減できる。
ターンと音声特徴ベクトルの標準パタンの登録を行う
が、あらかじめ不特定話者に対応できる形の標準パター
ンを準備しておき、利用者による登録を省略するように
してもよい。
LEDはそれぞれ一つずつ実装しているが、それぞれを
複数実装することも可能である。また、CCD撮像素子
によるより高精度な口唇特徴ベクトルの獲得も可能であ
る。
イクを同一構造物に組み込んであるが、別々の場所にあ
ってもさしつかえない。
装置によれば、発声の変動があっても同じ単語であれば
同様な特徴ベクトルを得る事ができ、認識率が改善でき
る。
においても安定な操作が可能である。
オード(フォトトランジスタ)の組み合わせでとらえる
ため、ビデオカメラ等を利用する場合と比較して、低コ
ストで実現できる。
時の判断材料とするため、音声のみに比較して話者以外
の発声による誤認識を防止することができる。
構成を示すブロック図
図
示す図
を示す図
構成を示すブロック図
ルの変動量による認識部の構成を示すブロック図
ト特徴量抽出部の出力例を示す図
の概念図
法の概念図
のグラフ図
Claims (7)
- 【請求項1】話者によって発声された入力音声を電気信
号に変換して出力する音声入力手段と、該話者の口唇の
動きを電気信号に変換して出力する画像入力手段と、該
音声入力手段が出力する電気信号を解析して音声の特徴
ベクトルを抽出する音声特徴ベクトル抽出手段と、該画
像入力手段が出力する電気信号を解析して口唇の動き特
徴ベクトルを抽出し、単位時間毎の該特徴ベクトルの変
動量を時系列として出力する口唇特徴ベクトル抽出手段
と、該口唇特徴ベクトル時系列をを累積し時間の関数と
して累積変動関数を出力する累積変動関数抽出手段と、
該累積変動関数の累積変化を等分割する時刻列を求める
時刻列抽出手段と、該時刻列の各時刻を基準として音声
認識を行う音声認識手段とを備えたことを特徴とする音
声認識装置。 - 【請求項2】話者によって発声された入力音声を電気信
号に変換して出力する音声入力手段と、該話者の口唇の
動きを電気信号に変換して出力する画像入力手段と、該
音声入力手段が出力する電気信号を解析して音声の特徴
ベクトルを抽出する音声特徴ベクトル抽出手段と、該画
像入力手段が出力する電気信号を解析して口唇の動き特
徴ベクトルを抽出し、単位時間毎の該特徴ベクトルの変
動量を時系列として出力する口唇特徴ベクトル抽出手段
と、音声特徴ベクトルと口唇特徴ベクトルとを参照パタ
ンと比較して音声認識を行う音声認識手段とを備えたこ
とを特徴とする音声認識装置。 - 【請求項3】音声認識手段が音声特徴ベクトルと口唇特
徴ベクトルの変動量とを参照パタンと比較して音声認識
を行うことを特徴とする請求項1に記載の音声認識装
置。 - 【請求項4】音声認識手段が口唇特徴ベクトルの変動量
をウェーブレット変換する手段と、該変換波形の面積を
計算する手段と、該面積データと参照用面積データを比
較して音声認識を行う手段とを備えたことを特徴とする
請求項2または3記載の音声認識装置。 - 【請求項5】音声認識手段が音声特徴ベクトルと口唇特
徴ベクトルとから音声区間検出を行うことを特徴とする
請求項1から4のいずれかに記載の音声認識装置。 - 【請求項6】画像入力手段が、話者の口唇を照射する発
光手段と、該発光手段の反射光を電気信号に変換する受
光手段とを備えたことを特徴とする請求項1から5のい
ずれかに記載の音声認識装置。 - 【請求項7】口唇特徴ベクトル抽出手段が、話者の口唇
から得られる受光電力を該特徴ベクトルとして抽出する
ことを特徴とする請求項1から6のいずれかに記載の音
声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20969994A JP3536363B2 (ja) | 1994-09-02 | 1994-09-02 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20969994A JP3536363B2 (ja) | 1994-09-02 | 1994-09-02 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0876792A true JPH0876792A (ja) | 1996-03-22 |
JP3536363B2 JP3536363B2 (ja) | 2004-06-07 |
Family
ID=16577174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20969994A Expired - Fee Related JP3536363B2 (ja) | 1994-09-02 | 1994-09-02 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3536363B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020057046A (ko) * | 2000-12-30 | 2002-07-11 | 구자홍 | 무선 단말기의 음성인식 방법 |
JP2002252682A (ja) * | 2001-02-26 | 2002-09-06 | Nippon Telegr & Teleph Corp <Ntt> | 携帯電話機用入力方法、および携帯電話機 |
US7369991B2 (en) | 2002-03-04 | 2008-05-06 | Ntt Docomo, Inc. | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy |
JP2015084977A (ja) * | 2013-10-31 | 2015-05-07 | フクダ電子株式会社 | 超音波診断装置 |
US20160098622A1 (en) * | 2013-06-27 | 2016-04-07 | Sitaram Ramachandrula | Authenticating A User By Correlating Speech and Corresponding Lip Shape |
-
1994
- 1994-09-02 JP JP20969994A patent/JP3536363B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020057046A (ko) * | 2000-12-30 | 2002-07-11 | 구자홍 | 무선 단말기의 음성인식 방법 |
JP2002252682A (ja) * | 2001-02-26 | 2002-09-06 | Nippon Telegr & Teleph Corp <Ntt> | 携帯電話機用入力方法、および携帯電話機 |
US7369991B2 (en) | 2002-03-04 | 2008-05-06 | Ntt Docomo, Inc. | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy |
US7680666B2 (en) | 2002-03-04 | 2010-03-16 | Ntt Docomo, Inc. | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product |
US20160098622A1 (en) * | 2013-06-27 | 2016-04-07 | Sitaram Ramachandrula | Authenticating A User By Correlating Speech and Corresponding Lip Shape |
US9754193B2 (en) * | 2013-06-27 | 2017-09-05 | Hewlett-Packard Development Company, L.P. | Authenticating a user by correlating speech and corresponding lip shape |
JP2015084977A (ja) * | 2013-10-31 | 2015-05-07 | フクダ電子株式会社 | 超音波診断装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3536363B2 (ja) | 2004-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5822728A (en) | Multistage word recognizer based on reliably detected phoneme similarity regions | |
US5794196A (en) | Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules | |
US7181390B2 (en) | Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
Gu et al. | Perceptual harmonic cepstral coefficients for speech recognition in noisy environment | |
JPH0990974A (ja) | 信号処理方法 | |
WO2002029782A1 (en) | Perceptual harmonic cepstral coefficients as the front-end for speech recognition | |
Scanlon et al. | Feature analysis for automatic speechreading | |
US5677991A (en) | Speech recognition system using arbitration between continuous speech and isolated word modules | |
Ziółko et al. | Wavelet method of speech segmentation | |
US5487129A (en) | Speech pattern matching in non-white noise | |
JP3536363B2 (ja) | 音声認識装置 | |
Schuller et al. | Comparing one and two-stage acoustic modeling in the recognition of emotion in speech | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
Daqrouq et al. | Wavelet LPC with neural network for speaker identification system | |
JP2502880B2 (ja) | 音声認識方法 | |
Al-Irhaim et al. | Arabic word recognition using wavelet neural network | |
Nugroho et al. | Development of speech emotion recognition system based on discrete wavelet transform (DWT) and voice segmentation | |
KR100319237B1 (ko) | 유성음/무성음/묵음 정보를 이용한 동적 시간정합고립단어 인식 시스템 | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Nasersharif et al. | Application of wavelet transform and wavelet thresholding in robust sub-band speech recognition | |
JP2746803B2 (ja) | 音声認識方法 | |
TWI395200B (zh) | 一種不用樣本能辨認所有語言的辨認方法 | |
JP2870268B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20031216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040115 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040308 |
|
LAPS | Cancellation because of no payment of annual fees |