JPH06301393A

JPH06301393A - 音声区間検出装置及び音声認識装置

Info

Publication number: JPH06301393A
Application number: JP5086156A
Authority: JP
Inventors: Hidetsugu Maekawa; 英嗣前川; Satoru Ito; 哲伊藤; Toshio Niwa; 寿男丹羽; Kazuhiro Kayashima; 一弘萱嶋; 泰治〆木; Taiji Shimeki; Seiichi Shin; 誠一新
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1993-04-13
Filing date: 1993-04-13
Publication date: 1994-10-28

Abstract

(57)【要約】【目的】ノイズ環境下において、話者の音声の音声区間
を正確に切り出すことと、音声認識率の低下を抑えるこ
とを目的とする。【構成】特徴抽出手段１０５が口唇画像信号から口唇の
動き情報を抽出し、区間抽出部９０３が、その口唇の動
き情報から音声区間を抽出する。音声波形切り出し部９
０４が音声区間情報を用いて音声波形を切り出し、その
切り出された音声波形により、音声認識部９０５が音声
認識を行う。【効果】音声区間の切り出しを話者の口唇の動き情報を
用いて行うため、ノイズ環境下においても正確に音声区
間を切り出すことができ、この音声区間切り出しを利用
して音声認識を行うため、騒音による音声認識率の低下
を抑えることができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、話者の音声発声区間を
検出する音声区間検出装置と、話者の音声信号を認識す
る音声認識装置に関するものである。

【０００２】

【従来の技術】従来の音声区間検出装置は、話者の音声
信号を用いて区間検出を行うものであった。図１３は、
従来の音声区間検出装置の構成図を示すものである。図
において、９０１はマイク等の話者の音声を入力する音
響系、９０２は音響系９０１が入力した話者の音声を電
気信号に変換する音声入力部、１１０１は音声の電気信
号波形からパワースペクトル等を解析して音声区間を抽
出する音声ベース区間抽出部である。このように構成さ
れた従来の音声区間検出装置は、音響系９０１が話者の
音声信号を入力し、音声入力部９０２が入力した音声信
号を電気信号波形に変換して、音声ベース区間抽出部１
１０１が電気信号波形からパワースペクトル等を解析し
て音声区間を検出していた。

【０００３】また、従来の音声認識装置は、話者の音声
から音声区間を切り出して、音声認識を行うものであっ
た。図１４は、従来の音声認識装置の構成図を示すもの
である。図において、音響系９０１、音声入力部９０
２、音声ベース区間抽出部１１０１は従来の音声区間検
出装置で説明したものと全く同様である。さらに、９０
４は音声ベース区間抽出部９０３で抽出した音声区間情
報を用いて、９０２で電気信号に変換された音声波形か
ら音声区間を切り出す音声波形切り出し部、９０５は切
り出された音声区間の音声波形を解析して音声認識を行
う音声認識部である。このように構成された従来の音声
認識装置は、音声波形から音声区間を抽出し、音声波形
切り出し部９０４が音声波形から音声区間部分を切り出
し、音声認識部９０５が切り出された音声波形を解析し
て音声認識を行っていた。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来の音声区間検出装置は、ノイズ環境下、特に音楽や人
声等といった騒音レベルが非定常な環境において、周囲
騒音を音声区間だと誤って検出してしまうという問題が
あった。また、従来の音声認識装置は、このようなノイ
ズ環境下において音声区間検出を誤るために、音声認識
率が著しく低下するという問題があった。

【０００５】本発明は、このような従来の音声区間検出
装置及び音声認識装置の課題を考慮し、周囲の雑音が非
定常的な環境においても、正しく音声区間を検出でき、
また、それら雑音に妨害されずに、正しく音声認識を行
うことが出来る、音声区間検出装置及び音声認識装置を
提供することを目的とするものである。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、本発明における音声区間検出装置は、口唇の動き情
報を利用して音声区間検出を行うようにしたものであ
る。すなわち、少なくとも口唇を含む顔画像を信号に変
換する画像入力手段と、画像入力手段で変換した信号か
ら口唇の動き情報を抽出する特徴抽出手段と、特徴抽出
手段による口唇の動き情報から音声区間を抽出する区間
抽出手段を備えた音声区間検出装置である。

【０００７】また、上記目的を達成するために、本発明
における音声認識装置は、口唇の動き情報を利用した音
声区間検出を行って、音声認識をするようにしたもので
ある。すなわち、音声を信号に変換して音声波形を抽出
する音声入力手段と、少なくとも口唇を含む顔画像を信
号に変換する画像入力手段と、画像入力手段で変換した
信号から口唇画像の動き情報を抽出する特徴抽出手段
と、特徴抽出手段による口唇の動き情報から音声区間を
抽出する区間抽出手段と、区間抽出手段が抽出した音声
区間情報を利用して、音声波形から音声区間部分を切り
出す音声波形切り出し手段と、音声波形切り出し手段が
切り出した音声波形を解析して音声認識をする音声認識
手段を備えた音声認識装置である。

【０００８】さらに、上記目的を達成するために、本発
明における音声認識装置は、口唇の動き情報と、音声情
報とを併用して音声区間検出を行い、音声認識をするよ
うにしたものである。すなわち、音声を信号に変換して
音声波形を抽出する音声入力手段と、抽出された音声波
形から音声区間を抽出する音声ベース区間抽出手段と、
少なくとも口唇を含む顔画像を信号に変換する画像入力
手段と、画像入力手段で変換した信号から口唇画像の動
き情報を抽出する特徴抽出手段と、特徴抽出手段による
口唇の動き情報から音声区間を抽出する画像ベース区間
抽出手段と、音声ベース区間抽出手段と画像ベース区間
抽出手段が出力する両方の音声区間情報を利用して音声
波形を切り出す音声波形切り出し手段と、切り出された
音声波形を解析して音声認識をする音声認識手段を備え
た音声認識装置である。

【０００９】

【作用】本発明における音声区間検出装置は前記した構
成により、画像入力手段が話者の口唇を含む顔画像を信
号に変換し、特徴抽出手段が信号から話者の口唇の動き
情報を抽出して、区間抽出手段が口唇の動き情報を利用
して音声区間検出を行う。ここで、口唇の動き情報は、
ノイズによる影響が殆どないため、ノイズ環境下におい
ても話者の音声区間を正しく検出できる。

【００１０】また、本発明における音声認識装置は、前
記した構成により、音声入力手段が音声波形を抽出す
る。画像入力手段が話者の口唇を含む顔画像を信号に変
換し、特徴抽出手段が信号から話者の口唇の動き情報を
抽出する。区間抽出手段が口唇の動き情報を利用して音
声区間を抽出し、音声波形切り出し手段が抽出された音
声区間情報を利用して音声波形を切り出す。音声認識手
段が切り出された音声波形を解析して音声認識を行う。
前記したように、口唇の動き情報による音声区間検出が
ノイズに強いため、このような構成によれば、ノイズ環
境下における音声認識率の低下を抑えることができる。

【００１１】さらに、本発明における音声認識装置は、
前記した構成により、音声入力手段が音声波形を抽出
し、音声ベース区間抽出手段が、抽出された音声波形の
スペクトル等を解析して音声区間を抽出する。画像入力
手段が話者の口唇を含む顔画像を信号に変換し、特徴抽
出手段が信号から話者の口唇の動き情報を抽出し、画像
ベース区間抽出手段が口唇の動き情報を利用して音声区
間を抽出する。波形切り出し手段が音声ベース区間抽出
手段と画像ベース区間抽出手段の出力する両方の音声区
間情報を利用して、音声波形を切り出す。音声認識手段
が切り出された音声波形を解析して音声認識を行う。前
記したように、口唇の動き情報による音声区間検出がノ
イズに強いため、このような構成によれば、ノイズ環境
下における音声認識率の低下を抑えることができる。

【００１２】

【実施例】以下、本発明の実施例について図面を参照し
て説明する。

【００１３】図１は、本発明の第１の実施例における音
声区間検出装置の構成図を示すものである。本実施例
は、口唇画像から音声区間を切り出すためにウェーブレ
ット変換を適用したものである。図において、１０１は
話者の口唇を含む顔画像（またはその一部）を入力する
カメラ等の光学系、１０２は光学系１０１が入力した画
像を電気信号に変換する画像入力部、１０３は変換され
た電気信号から口唇画像部分を抽出する口唇画像抽出
部、１０４は抽出された口唇画像から唇の縦方向の開口
度を抽出してその時間的な変化を波形として取り出す波
形抽出部、１０６は波形情報をウェーブレット変換する
ウェーブレット変換部、１０７はウェーブレット変換結
果から音声区間を抽出する音声区間抽出部である。特徴
抽出部１０５は口唇画像抽出部１０３と波形抽出部１０
４から構成される。画像ベース区間抽出部１０８はウェ
ーブレット変換部１０６、音声区間抽出部１０７から構
成される。

【００１４】以上のように構成された本発明の第１の実
施例における音声区間検出装置の動作について説明す
る。

【００１５】光学系１０１が入力した口唇を含む顔画像
を画像入力部１０２が電気信号に変換する。顔画像は動
画像であり、適当なサンプリングレートで電気信号へ変
換される。なお説明の都合上、画像は白黒画像とする。

【００１６】次に、特徴抽出部１０５の動作について説
明する。口唇画像抽出部１０３が口唇部分の濃淡情報と
唇の形という一般的知識から、口唇部分の抽出をパター
ンマッチングで行う。例えば、図２に示すように唇の形
が近似的に楕円に近いという知識を用いて、画像の濃淡
情報から口唇部分を抽出する。この場合、楕円関数の最
適なパラメータを濃淡画像から推定する。また、図３に
示すように、唇の形を台形関数で近似してもよい。次
に、波形抽出部１０４が抽出された口唇部分の上唇と下
唇の高さから、唇の縦方向開口度の時間波形を抽出す
る。データはサンプリングレート以下に細かくとれない
ため、線形補間等の方法で連続データに変換する。

【００１７】次に、画像ベース区間抽出部１０８の動作
について説明する。特徴抽出部１０５から入力された時
間波形をウェーブレット変換部１０６がウェーブレット
変換する。ウェーブレット変換は、フーリエ変換に近い
データ解析手法の一種であり、次のような特徴を持つ。

【００１８】１）データのある時刻においてどのような
周波数成分を多く含むか、といった時間と周波数の情報
を同時に解析できる。

【００１９】２）波形の性質がどの時刻において急激に
変化するか、といったデータの不連続性の解析ができ
る。

【００２０】本実施例においては、この両方の性質を積
極的に利用して音声区間検出を行う。無発声区間から発
声区間への遷移時に口唇の動き波形が急激な変化を起こ
すこと、音声区間では口唇の動きが頻繁で局所的な周波
数が比較的高いといった性質があるため、この性質をウ
ェーブレット解析結果から抽出する。

【００２１】ウェーブレットは、局所的にのみ値を持
ち、直流成分のない関数（アナライジングウェーブレッ
ト）を用いて、フーリエ変換と同様な方法でデータの解
析を行うものである。そのようなアナライジングウェー
ブレットの一例としては、図４に示したMoret関数があ
る。アナライジングウェーブレットをψ(t)とすれば、
これをbだけシフトしaだけスケーリングした基底関数、

【００２２】

【数１】ψ_a,b(t)＝(1/√a)ψ((t-b)/a) を定義する。図５にMoret関数をシフト・スケーリング
した例を示す。そして、データf(t)のウェーブレット変
換を、

【００２３】

【数２】 F(a,b)＝(1/√c)∫(1/√a) ψ^*((t-b)/a) f(t) dt で定義する。（数２）において積分区間は−∞＜ｔ＜
∞、1/√cは正規化係数、ψ^*(x)はψ(x)の複素共役であ
る。このように、ウェーブレット変換は、データf(t)を
(a,b)の２次元データへ変換するものであり、aが周波数
軸に、bが時間軸に対応する。この変換値から、データ
の時間と周波数の情報を同時に解析することが可能とな
る。具体的には、データの不連続性の発生点、データの
局所的周波数成分に対応した時間における変換値が大き
な値となる。

【００２４】図６に口唇画像のデータ波形とそれをウェ
ーブレット変換した結果の概念図を示す。図において、
時刻ｔ₁からｔ₂が音声区間である。ウェーブレット変換
後のグラフでは横軸が時間情報に、縦軸が周波数情報に
対応する。図において縦軸は上に行くほど細かい時間ス
ケールの解析結果に対応する（aが小さい）。濃淡情報
（黒い部分程値が大きい）が変換データの絶対値を示
す。このウェーブレット変換結果から次の情報が抽出さ
れる。

【００２５】１）音声発声区間の開始時（ｔ₁）・終了
時（ｔ₂）で波形に特徴的な変化が起こり、この時刻で
の変換データが大きな値を示す。このように、ウェーブ
レットの持つデータの不連続性の解析能力で、音声発声
区間の開始時・終了時の検出ができる。もし、正確な時
間を検出したければ、aを小さくして細かい時間スケー
ルで解析すればよい。

【００２６】２）音声区間では、波形が頻繁に変動する
ため、局所的に高い周波数を持つ。解析結果から、高い
周波数領域で大きな値を示し、音声区間の検出ができ
る。最後に、音声区間抽出部１０７はウェーブレット変
換結果から上記１）、２）の情報から音声区間を抽出す
る。

【００２７】以上説明したように、本発明の第１の実施
例における音声区間検出装置は、区間検出にウェーブレ
ット変換を適用して、口唇の動き波形の特徴を最適に解
析するため、効果的に口唇の動き情報から音声区間検出
を行うことができる。また、口唇の動き情報は、ノイズ
による影響が殆どないため、ノイズ環境下においても話
者の音声区間を正しく検出できる。

【００２８】なお、本実施例は白黒画像を前提とした
が、カラー画像でも同様に実現可能である。このとき、
口唇画像抽出部１０３は唇の色画像情報を利用して口唇
部分の抽出を行う。また、本実施例では波形抽出部１０
４において唇の縦方向開口度の情報を音声区間検出に利
用したが、横方向開口度、また両開口度を総合的に判断
した音声区間検出を行うこともできる。

【００２９】以下、本発明の第２の実施例における音声
区間検出装置について図面を参照しながら説明する。本
発明は、口唇画像からの音声区間の抽出にニューラルネ
ットワーク（神経回路網）を適用したものである。

【００３０】図７は、本発明の第２の実施例における音
声区間検出装置の構成図を示すものである。図におい
て、１０１から１０５は本発明の第１の実施例で述べた
構成と全く同様であるため、説明は省略する。７０１
は、口唇の動き情報から音声区間を抽出するニューラル
ネット音声区間抽出部であり、７０２は前記７０１で構
成された画像ベース区間抽出部である。

【００３１】以上のように構成された本発明の第２の実
施例における音声区間検出装置の動作について説明す
る。１０１から１０５の動作については、本発明の第１
の実施例で述べた通りであるため、説明は省略し、画像
ベース区間抽出部７０２の動作のみ説明する。ただし、
波形抽出部１０４は口唇の縦方向開口度をサンプリング
レートで抽出するのみで、データの補間等は必要ない。

【００３２】図８は、音声区間抽出を行うニューラルネ
ットワークの概念図である。図に示したように本ニュー
ラルネットワークは３層構造であり、それぞれ入力層・
中間層・出力層からなる。出力は１ニューロンで、その
値で音声区間か否かを表す。入力は、サンプリングレー
トで取り込まれた複数時刻のデータと認識結果からのフ
ィードバックである。フィードバックは、過去ネットワ
ークに入力されたデータを認識結果に反映させる働きを
持つ。ここで、各ニューロンは（数３）に示す積和演算
を行う。

【００３３】

【数３】o_i ＝ f( Σ_j w_ijx_j - θ_i ) （数３）においてo_iが各ニューロンｉの出力、w_ijが結
合荷重、x_jが他のニューロンからの入力、θ_iがスレッ
シュホールドである。非線形関数fは、（数４）に示す
シグモイド関数である。

【００３４】

【数４】f(x) ＝ 1 / (1 + exp(-x)) 本ニューラルネットワークでは、中間層の各ニューロン
は、入力層の全ニューロン出力値と、出力層ニューロン
は中間層の全ニューロン出力値と結合しており、各ニュ
ーロンが（数３）,（数４）に示す計算を行って結果を
出力する。

【００３５】本ニューラルネットワークは、大きく分け
て学習過程と認識過程の２種類の動作を行う。学習過程
では音声区間検出が可能となるようにネットワークの結
合荷重を変化（学習）させる。サンプリングレートで抽
出された実際の話者の口唇の縦方向開口度をｎ時刻分入
力して、実際の音声区間を教師信号として学習させる。
学習は、（数５）に示した出力信号と教師信号の誤差を
小さくする方向に、（数６）のように各ニューロンの結
合荷重を変更するものである（バックプロパゲーション
方法）。

【００３６】

【数５】E ＝ 0.5 * (out - target)² ここで、outがネットワークの出力信号、targetが教師
信号である。

【００３７】

【数６】 Δw_ij(n) ＝ - α * (∂E / ∂w_ij) + ηΔw_ij(n-1) ここで、Δw_ij(n)は結合荷重の変更度、α、ηは適当な
正の実数、nは学習の回数、∂E / ∂w_ijは、各結合荷重
の変更がネットワークの出力誤差に与える感度を表す。
（数６）において第１項が誤差を小さくする荷重変更方
向、第２項が慣性項である。感度計算は出力層に近いニ
ューロンから順番に求められるため、バックプロパゲー
ションと呼ばれる。

【００３８】一方、認識過程では学習過程と同様に実際
の話者の口唇縦方向開口度をｎ時刻分入力して、各ニュ
ーロンが所定の計算を行い、検出結果を出力する。もち
ろん、実際の話者の口唇の動き情報は連続的に続くた
め、連続的にｎ時刻分のデータをネットワークに入力し
続けながら、学習・認識を行っていく。

【００３９】以上説明したように、本発明の第２の実施
例における音声区間検出装置は、区間抽出にニューラル
ネットワークを適用するため、話者間の変動に強い音声
区間検出を行うことができる。また、口唇の動き情報
は、ノイズによる影響が殆どないため、ノイズ環境下に
おいても話者の音声区間を正しく検出できる。

【００４０】なお、本実施例でのニューラルネットワー
クは、シグモイド関数をベースとしたニューロンにバッ
クプロパゲーションによる学習アルゴリズムを適用した
が、本発明はこのアルゴリズムを利用するものに限定さ
れるものではない。例えば、Gaussian関数をベースとす
るニューロンや、共役勾配法などの学習アルゴリズム等
を適用することもできる。また、本実施例は白黒画像を
前提としたが、カラー画像でも同様に実現可能である。
このとき、口唇画像抽出部１０３は唇の色画像情報を利
用して口唇部分の抽出を行う。また、本実施例では波形
抽出部１０４において唇の縦方向開口度の情報を音声区
間検出に利用したが、横方向開口度、また両開口度を総
合的に判断した音声区間検出を行うこともできる。

【００４１】以下、本発明の第１の実施例における音声
認識装置について図面を参照しながら説明する。本発明
は、音声区間検出を口唇の動き情報で行い、音声区間部
分を音声波形から切り出して音声認識を行うものであ
る。

【００４２】図９は、本発明の第１の実施例における音
声認識装置の構成図を示すものである。図において、１
０１、１０２、１０５は音声区間検出装置の上記実施例
の説明で述べたものである。９０１はマイク等の話者の
音声を入力する音響系、９０２は音響系９０１が入力し
た話者の音声を電気信号に変換する音声入力部である。
９０３は上記した実施例における音声区間検出装置で述
べた画像ベース区間抽出部であり、第１の実施例、第２
の実施例のいずれを用いても構わない。９０４は画像ベ
ース区間抽出部９０３で抽出した音声区間情報を用い
て、９０２で電気信号に変換された音声波形から音声区
間を切り出す音声波形切り出し部、９０５は音声波形を
解析して認識を行う音声認識部である。

【００４３】以上のように構成された本発明の第１の実
施例における音声認識装置の動作について説明する。口
唇の動き情報からの音声区間検出の動作の詳細について
は、上記した実施例における音声区間検出装置の実施例
に示した通りである。光学系１０１、画像入力部１０
２、特徴抽出部１０５、画像ベース区間抽出部９０３が
口唇の動き情報から音声区間を抽出する。音響系９０１
は話者の音声を入力し、音声入力部９０２はその音声を
電気信号の波形に変換する。音声波形切り出し部９０４
は、画像ベース区間抽出部９０３の音声区間情報で、音
声入力部９０２が出力した音声波形から音声区間部分の
波形のみを切り出す。概念図を図１０に示す。最後に、
音声認識部９０５が切り出された音声波形を解析して、
音声認識を行う。音声認識部９０５は、公知の音声認識
装置を用いればよい。

【００４４】以上説明したように、本発明の第１の実施
例における音声認識装置によれば、音声区間の検出を口
唇の動き情報を用いて行っているため、ノイズ環境下に
おける音声認識率の低下を抑えることができる。

【００４５】図１１は、本発明の第２の実施例における
音声認識装置の構成図を示すものである。図において、
１０１、１０２、１０５、９０１、９０２、９０３、９
０５は上記した音声認識装置の第１の実施例で述べた通
りであるため、詳細な説明は省略する。１１０１は音声
の電気信号波形からパワースペクトル等を解析して音声
区間を抽出する音声ベース区間抽出部、１１０２は、音
声ベース区間抽出部１１０１と画像ベース区間抽出部９
０３の両方の音声区間情報を利用して音声波形を切り出
す音声波形切り出し部である。

【００４６】以上のように構成された本発明の実施例に
おける音声認識装置の動作について説明する。口唇の動
き情報からの音声区間検出の動作の詳細については、上
記した実施例における音声区間検出装置の説明に示した
通りである。すなわち、光学系１０１、画像入力部１０
２、特徴抽出部１０５、画像ベース区間抽出部９０３が
口唇の動き情報から音声区間を抽出する。音響系９０１
は話者の音声を入力し、音声入力部９０２はその音声を
電気信号の波形に変換する。音声ベース区間抽出部１１
０１は、音声波形からスペクトル等を解析して、音声区
間を抽出する。音声波形切り出し部１１０２は、画像ベ
ース区間抽出部９０３と音声ベース区間抽出部１１０１
の出力する両方の音声区間情報を利用して、音声波形か
ら音声区間部分を切り出す。もし、両方の情報に矛盾が
存在する場合、以下による方法で音声波形を切り出す。

【００４７】１）音声ベースの情報…音声区間、画像ベ
ースの情報…音声区間でない音声ベースの情報がノイズの影響で音声区間と誤った可
能性が高いため、画像ベースの情報のみを用いて音声波
形を切り出す。

【００４８】２）音声ベースの情報…音声区間でない、
画像ベースの情報…音声区間話をせずに、口を動かしている可能性が高いため、音声
ベースの情報のみを用いて音声波形を切り出す。

【００４９】以上の概念図を図１２に示す。最後に、音
声認識部９０５が切り出された音声波形を解析して、音
声認識を行う。音声認識部９０５は、公知の音声認識装
置を用いればよい。

【００５０】以上説明したように、本実施例における音
声認識装置によれば、音声区間の検出を口唇の動き情報
と音声情報を併用しているため、ノイズ環境下における
音声認識率の低下を抑えるとともに、口唇の動き情報の
誤りを訂正することも可能となる。

【００５１】なお、特徴抽出手段は、上記楕円関数、台
形関数等に限らず、口唇の動き情報を他の方法で抽出で
きるものでもかまわない。

【００５２】また、区間抽出手段は、上記実施例の方法
以外の方法を利用してもかまわない。

【００５３】また、本発明の各手段は、コンピュータを
用いてソフトウェア的に実現し、あるいはそれら各機能
を有する専用のハード回路を用いて実現する事が出来
る。

【００５４】

【発明の効果】以上述べたところから明らかなように、
本発明における音声区間検出装置によれば、口唇の動き
情報から音声区間を検出するために、ノイズ環境下にお
いても正しく音声区間を検出することが可能となる。

【００５５】また、本発明における音声認識装置によれ
ば、口唇の動き情報から音声区間を抽出してその情報を
もとに音声認識を行うために、ノイズ環境下における音
声認識率の低下を抑えることができため、実用的な効果
は非常に大きい。

【図面の簡単な説明】

【図１】本発明の第１の実施例における音声区間検出装
置の構成図である。

【図２】本発明における、楕円関数による口唇部分のマ
ッチング法概念図である。

【図３】本発明における、台形関数による口唇部分のマ
ッチング法概念図である。

【図４】Moret関数のグラフである。

【図５】Moret関数をシフト・スケーリングした関数の
グラフである。

【図６】口唇の動き波形とそのウェーブレット解析の概
念図である。

【図７】本発明の第２の実施例における音声区間検出装
置の構成図である。

【図８】音声区間検出に利用するニューラルネットワー
クの概念図である。

【図９】本発明の第１の実施例における音声認識装置の
構成図である。

【図１０】上記第１の実施例における音声波形の切り出
し方法を示す概念図である。

【図１１】本発明の第２の実施例における音声認識装置
の構成図である。

【図１２】上記第２の実施例における音声波形の切り出
し方法を示す概念図である。

【図１３】従来の技術における音声区間検出装置の構成
図である。

【図１４】従来の技術における音声認識装置の構成図で
ある。

【符号の説明】

１０１光学系１０２画像入力部１０３口唇画像抽出部１０４波形抽出部１０５特徴抽出部１０６ウェーブレット変換部１０７音声区間抽出部１０８画像ベース区間抽出部９０１音響系９０２音声入力部９０４音声波形切り出し部９０５音声認識部

フロントページの続き (72)発明者萱嶋一弘大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者〆木泰治大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者新誠一茨城県つくば市並木４丁目508ー104

Claims

【特許請求の範囲】

【請求項１】少なくとも口唇を含む顔画像を信号に変
換する画像入力手段と、前記画像入力手段で変換した信
号から口唇の動き情報を抽出する特徴抽出手段と、前記
特徴抽出手段による口唇の動き情報から音声区間を抽出
する区間抽出手段とを備えたことを特徴とする音声区間
検出装置。
【請求項２】区間抽出手段は、口唇の動き情報をウェ
ーブレット変換するウェーブレット変換手段と、その得
られたウェーブレット変換情報から音声区間を抽出する
音声区間抽出手段とを備えたことを特徴とする請求項１
記載の音声区間検出装置。
【請求項３】区間抽出手段が、口唇の動き情報からニ
ューラルネットを用いて音声区間を抽出するニューラル
ネット音声区間抽出手段で構成されていることを特徴と
する請求項１記載の音声区間検出装置。
【請求項４】音声を音声信号として入力する音声入力
手段と、少なくとも口唇を含む顔画像を信号に変換する画像入力
手段と、前記画像入力手段で変換した信号から口唇の動き情報を
抽出する特徴抽出手段と、前記特徴抽出手段の情報による口唇の動き情報から音声
区間を抽出する区間抽出手段と、前記区間抽出手段が抽出した音声区間情報を利用して前
記音声信号から音声区間部分を切り出す音声波形切り出
し手段と、前記音声波形切り出し手段が切り出した音声信号を解析
して音声認識をする音声認識手段と、を備えたことを特徴とする音声認識装置。
【請求項５】音声を音声信号として入力する音声入力
手段と、抽出された音声信号から音声区間を抽出する音声ベース
区間抽出手段と、少なくとも口唇を含む顔画像を信号に変換する画像入力
手段と、前記画像入力手段で変換した信号から口唇の動き情報を
抽出する特徴抽出手段と、前記特徴抽出手段の情報による口唇の動き情報から音声
区間を抽出する画像ベース区間抽出手段と、前記音声ベース区間抽出手段と画像ベース区間抽出手段
が出力する両方の音声区間情報を利用して音声波形を切
り出す音声波形切り出し手段と、前記音声波形切り出し手段が切り出した音声波形を解析
して音声認識をする音声認識手段と、を備えたことを特徴とする音声認識装置。