JPH06301393A - 音声区間検出装置及び音声認識装置 - Google Patents

音声区間検出装置及び音声認識装置

Info

Publication number
JPH06301393A
JPH06301393A JP5086156A JP8615693A JPH06301393A JP H06301393 A JPH06301393 A JP H06301393A JP 5086156 A JP5086156 A JP 5086156A JP 8615693 A JP8615693 A JP 8615693A JP H06301393 A JPH06301393 A JP H06301393A
Authority
JP
Japan
Prior art keywords
voice
section
extracting
waveform
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5086156A
Other languages
English (en)
Inventor
Hidetsugu Maekawa
英嗣 前川
Satoru Ito
哲 伊藤
Toshio Niwa
寿男 丹羽
Kazuhiro Kayashima
一弘 萱嶋
泰治 〆木
Taiji Shimeki
Seiichi Shin
誠一 新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP5086156A priority Critical patent/JPH06301393A/ja
Publication of JPH06301393A publication Critical patent/JPH06301393A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】ノイズ環境下において、話者の音声の音声区間
を正確に切り出すことと、音声認識率の低下を抑えるこ
とを目的とする。 【構成】特徴抽出手段105が口唇画像信号から口唇の
動き情報を抽出し、区間抽出部903が、その口唇の動
き情報から音声区間を抽出する。音声波形切り出し部9
04が音声区間情報を用いて音声波形を切り出し、その
切り出された音声波形により、音声認識部905が音声
認識を行う。 【効果】音声区間の切り出しを話者の口唇の動き情報を
用いて行うため、ノイズ環境下においても正確に音声区
間を切り出すことができ、この音声区間切り出しを利用
して音声認識を行うため、騒音による音声認識率の低下
を抑えることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、話者の音声発声区間を
検出する音声区間検出装置と、話者の音声信号を認識す
る音声認識装置に関するものである。
【0002】
【従来の技術】従来の音声区間検出装置は、話者の音声
信号を用いて区間検出を行うものであった。図13は、
従来の音声区間検出装置の構成図を示すものである。図
において、901はマイク等の話者の音声を入力する音
響系、902は音響系901が入力した話者の音声を電
気信号に変換する音声入力部、1101は音声の電気信
号波形からパワースペクトル等を解析して音声区間を抽
出する音声ベース区間抽出部である。このように構成さ
れた従来の音声区間検出装置は、音響系901が話者の
音声信号を入力し、音声入力部902が入力した音声信
号を電気信号波形に変換して、音声ベース区間抽出部1
101が電気信号波形からパワースペクトル等を解析し
て音声区間を検出していた。
【0003】また、従来の音声認識装置は、話者の音声
から音声区間を切り出して、音声認識を行うものであっ
た。図14は、従来の音声認識装置の構成図を示すもの
である。図において、音響系901、音声入力部90
2、音声ベース区間抽出部1101は従来の音声区間検
出装置で説明したものと全く同様である。さらに、90
4は音声ベース区間抽出部903で抽出した音声区間情
報を用いて、902で電気信号に変換された音声波形か
ら音声区間を切り出す音声波形切り出し部、905は切
り出された音声区間の音声波形を解析して音声認識を行
う音声認識部である。このように構成された従来の音声
認識装置は、音声波形から音声区間を抽出し、音声波形
切り出し部904が音声波形から音声区間部分を切り出
し、音声認識部905が切り出された音声波形を解析し
て音声認識を行っていた。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の音声区間検出装置は、ノイズ環境下、特に音楽や人
声等といった騒音レベルが非定常な環境において、周囲
騒音を音声区間だと誤って検出してしまうという問題が
あった。また、従来の音声認識装置は、このようなノイ
ズ環境下において音声区間検出を誤るために、音声認識
率が著しく低下するという問題があった。
【0005】本発明は、このような従来の音声区間検出
装置及び音声認識装置の課題を考慮し、周囲の雑音が非
定常的な環境においても、正しく音声区間を検出でき、
また、それら雑音に妨害されずに、正しく音声認識を行
うことが出来る、音声区間検出装置及び音声認識装置を
提供することを目的とするものである。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明における音声区間検出装置は、口唇の動き情
報を利用して音声区間検出を行うようにしたものであ
る。すなわち、少なくとも口唇を含む顔画像を信号に変
換する画像入力手段と、画像入力手段で変換した信号か
ら口唇の動き情報を抽出する特徴抽出手段と、特徴抽出
手段による口唇の動き情報から音声区間を抽出する区間
抽出手段を備えた音声区間検出装置である。
【0007】また、上記目的を達成するために、本発明
における音声認識装置は、口唇の動き情報を利用した音
声区間検出を行って、音声認識をするようにしたもので
ある。すなわち、音声を信号に変換して音声波形を抽出
する音声入力手段と、少なくとも口唇を含む顔画像を信
号に変換する画像入力手段と、画像入力手段で変換した
信号から口唇画像の動き情報を抽出する特徴抽出手段
と、特徴抽出手段による口唇の動き情報から音声区間を
抽出する区間抽出手段と、区間抽出手段が抽出した音声
区間情報を利用して、音声波形から音声区間部分を切り
出す音声波形切り出し手段と、音声波形切り出し手段が
切り出した音声波形を解析して音声認識をする音声認識
手段を備えた音声認識装置である。
【0008】さらに、上記目的を達成するために、本発
明における音声認識装置は、口唇の動き情報と、音声情
報とを併用して音声区間検出を行い、音声認識をするよ
うにしたものである。すなわち、音声を信号に変換して
音声波形を抽出する音声入力手段と、抽出された音声波
形から音声区間を抽出する音声ベース区間抽出手段と、
少なくとも口唇を含む顔画像を信号に変換する画像入力
手段と、画像入力手段で変換した信号から口唇画像の動
き情報を抽出する特徴抽出手段と、特徴抽出手段による
口唇の動き情報から音声区間を抽出する画像ベース区間
抽出手段と、音声ベース区間抽出手段と画像ベース区間
抽出手段が出力する両方の音声区間情報を利用して音声
波形を切り出す音声波形切り出し手段と、切り出された
音声波形を解析して音声認識をする音声認識手段を備え
た音声認識装置である。
【0009】
【作用】本発明における音声区間検出装置は前記した構
成により、画像入力手段が話者の口唇を含む顔画像を信
号に変換し、特徴抽出手段が信号から話者の口唇の動き
情報を抽出して、区間抽出手段が口唇の動き情報を利用
して音声区間検出を行う。ここで、口唇の動き情報は、
ノイズによる影響が殆どないため、ノイズ環境下におい
ても話者の音声区間を正しく検出できる。
【0010】また、本発明における音声認識装置は、前
記した構成により、音声入力手段が音声波形を抽出す
る。画像入力手段が話者の口唇を含む顔画像を信号に変
換し、特徴抽出手段が信号から話者の口唇の動き情報を
抽出する。区間抽出手段が口唇の動き情報を利用して音
声区間を抽出し、音声波形切り出し手段が抽出された音
声区間情報を利用して音声波形を切り出す。音声認識手
段が切り出された音声波形を解析して音声認識を行う。
前記したように、口唇の動き情報による音声区間検出が
ノイズに強いため、このような構成によれば、ノイズ環
境下における音声認識率の低下を抑えることができる。
【0011】さらに、本発明における音声認識装置は、
前記した構成により、音声入力手段が音声波形を抽出
し、音声ベース区間抽出手段が、抽出された音声波形の
スペクトル等を解析して音声区間を抽出する。画像入力
手段が話者の口唇を含む顔画像を信号に変換し、特徴抽
出手段が信号から話者の口唇の動き情報を抽出し、画像
ベース区間抽出手段が口唇の動き情報を利用して音声区
間を抽出する。波形切り出し手段が音声ベース区間抽出
手段と画像ベース区間抽出手段の出力する両方の音声区
間情報を利用して、音声波形を切り出す。音声認識手段
が切り出された音声波形を解析して音声認識を行う。前
記したように、口唇の動き情報による音声区間検出がノ
イズに強いため、このような構成によれば、ノイズ環境
下における音声認識率の低下を抑えることができる。
【0012】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。
【0013】図1は、本発明の第1の実施例における音
声区間検出装置の構成図を示すものである。本実施例
は、口唇画像から音声区間を切り出すためにウェーブレ
ット変換を適用したものである。図において、101は
話者の口唇を含む顔画像(またはその一部)を入力する
カメラ等の光学系、102は光学系101が入力した画
像を電気信号に変換する画像入力部、103は変換され
た電気信号から口唇画像部分を抽出する口唇画像抽出
部、104は抽出された口唇画像から唇の縦方向の開口
度を抽出してその時間的な変化を波形として取り出す波
形抽出部、106は波形情報をウェーブレット変換する
ウェーブレット変換部、107はウェーブレット変換結
果から音声区間を抽出する音声区間抽出部である。特徴
抽出部105は口唇画像抽出部103と波形抽出部10
4から構成される。画像ベース区間抽出部108はウェ
ーブレット変換部106、音声区間抽出部107から構
成される。
【0014】以上のように構成された本発明の第1の実
施例における音声区間検出装置の動作について説明す
る。
【0015】光学系101が入力した口唇を含む顔画像
を画像入力部102が電気信号に変換する。顔画像は動
画像であり、適当なサンプリングレートで電気信号へ変
換される。なお説明の都合上、画像は白黒画像とする。
【0016】次に、特徴抽出部105の動作について説
明する。口唇画像抽出部103が口唇部分の濃淡情報と
唇の形という一般的知識から、口唇部分の抽出をパター
ンマッチングで行う。例えば、図2に示すように唇の形
が近似的に楕円に近いという知識を用いて、画像の濃淡
情報から口唇部分を抽出する。この場合、楕円関数の最
適なパラメータを濃淡画像から推定する。また、図3に
示すように、唇の形を台形関数で近似してもよい。次
に、波形抽出部104が抽出された口唇部分の上唇と下
唇の高さから、唇の縦方向開口度の時間波形を抽出す
る。データはサンプリングレート以下に細かくとれない
ため、線形補間等の方法で連続データに変換する。
【0017】次に、画像ベース区間抽出部108の動作
について説明する。特徴抽出部105から入力された時
間波形をウェーブレット変換部106がウェーブレット
変換する。ウェーブレット変換は、フーリエ変換に近い
データ解析手法の一種であり、次のような特徴を持つ。
【0018】1)データのある時刻においてどのような
周波数成分を多く含むか、といった時間と周波数の情報
を同時に解析できる。
【0019】2)波形の性質がどの時刻において急激に
変化するか、といったデータの不連続性の解析ができ
る。
【0020】本実施例においては、この両方の性質を積
極的に利用して音声区間検出を行う。無発声区間から発
声区間への遷移時に口唇の動き波形が急激な変化を起こ
すこと、音声区間では口唇の動きが頻繁で局所的な周波
数が比較的高いといった性質があるため、この性質をウ
ェーブレット解析結果から抽出する。
【0021】ウェーブレットは、局所的にのみ値を持
ち、直流成分のない関数(アナライジングウェーブレッ
ト)を用いて、フーリエ変換と同様な方法でデータの解
析を行うものである。そのようなアナライジングウェー
ブレットの一例としては、図4に示したMoret関数があ
る。アナライジングウェーブレットをψ(t)とすれば、
これをbだけシフトしaだけスケーリングした基底関数、
【0022】
【数1】ψa,b(t)=(1/√a)ψ((t-b)/a) を定義する。図5にMoret関数をシフト・スケーリング
した例を示す。そして、データf(t)のウェーブレット変
換を、
【0023】
【数2】 F(a,b)=(1/√c)∫(1/√a) ψ*((t-b)/a) f(t) dt で定義する。(数2)において積分区間は−∞<t<
∞、1/√cは正規化係数、ψ*(x)はψ(x)の複素共役であ
る。このように、ウェーブレット変換は、データf(t)を
(a,b)の2次元データへ変換するものであり、aが周波数
軸に、bが時間軸に対応する。この変換値から、データ
の時間と周波数の情報を同時に解析することが可能とな
る。具体的には、データの不連続性の発生点、データの
局所的周波数成分に対応した時間における変換値が大き
な値となる。
【0024】図6に口唇画像のデータ波形とそれをウェ
ーブレット変換した結果の概念図を示す。図において、
時刻t1からt2が音声区間である。ウェーブレット変換
後のグラフでは横軸が時間情報に、縦軸が周波数情報に
対応する。図において縦軸は上に行くほど細かい時間ス
ケールの解析結果に対応する(aが小さい)。濃淡情報
(黒い部分程値が大きい)が変換データの絶対値を示
す。このウェーブレット変換結果から次の情報が抽出さ
れる。
【0025】1)音声発声区間の開始時(t1)・終了
時(t2)で波形に特徴的な変化が起こり、この時刻で
の変換データが大きな値を示す。このように、ウェーブ
レットの持つデータの不連続性の解析能力で、音声発声
区間の開始時・終了時の検出ができる。もし、正確な時
間を検出したければ、aを小さくして細かい時間スケー
ルで解析すればよい。
【0026】2)音声区間では、波形が頻繁に変動する
ため、局所的に高い周波数を持つ。解析結果から、高い
周波数領域で大きな値を示し、音声区間の検出ができ
る。最後に、音声区間抽出部107はウェーブレット変
換結果から上記1)、2)の情報から音声区間を抽出す
る。
【0027】以上説明したように、本発明の第1の実施
例における音声区間検出装置は、区間検出にウェーブレ
ット変換を適用して、口唇の動き波形の特徴を最適に解
析するため、効果的に口唇の動き情報から音声区間検出
を行うことができる。また、口唇の動き情報は、ノイズ
による影響が殆どないため、ノイズ環境下においても話
者の音声区間を正しく検出できる。
【0028】なお、本実施例は白黒画像を前提とした
が、カラー画像でも同様に実現可能である。このとき、
口唇画像抽出部103は唇の色画像情報を利用して口唇
部分の抽出を行う。また、本実施例では波形抽出部10
4において唇の縦方向開口度の情報を音声区間検出に利
用したが、横方向開口度、また両開口度を総合的に判断
した音声区間検出を行うこともできる。
【0029】以下、本発明の第2の実施例における音声
区間検出装置について図面を参照しながら説明する。本
発明は、口唇画像からの音声区間の抽出にニューラルネ
ットワーク(神経回路網)を適用したものである。
【0030】図7は、本発明の第2の実施例における音
声区間検出装置の構成図を示すものである。図におい
て、101から105は本発明の第1の実施例で述べた
構成と全く同様であるため、説明は省略する。701
は、口唇の動き情報から音声区間を抽出するニューラル
ネット音声区間抽出部であり、702は前記701で構
成された画像ベース区間抽出部である。
【0031】以上のように構成された本発明の第2の実
施例における音声区間検出装置の動作について説明す
る。101から105の動作については、本発明の第1
の実施例で述べた通りであるため、説明は省略し、画像
ベース区間抽出部702の動作のみ説明する。ただし、
波形抽出部104は口唇の縦方向開口度をサンプリング
レートで抽出するのみで、データの補間等は必要ない。
【0032】図8は、音声区間抽出を行うニューラルネ
ットワークの概念図である。図に示したように本ニュー
ラルネットワークは3層構造であり、それぞれ入力層・
中間層・出力層からなる。出力は1ニューロンで、その
値で音声区間か否かを表す。入力は、サンプリングレー
トで取り込まれた複数時刻のデータと認識結果からのフ
ィードバックである。フィードバックは、過去ネットワ
ークに入力されたデータを認識結果に反映させる働きを
持つ。ここで、各ニューロンは(数3)に示す積和演算
を行う。
【0033】
【数3】oi = f( Σj wijxj - θi ) (数3)においてoiが各ニューロンiの出力、wijが結
合荷重、xjが他のニューロンからの入力、θiがスレッ
シュホールドである。非線形関数fは、(数4)に示す
シグモイド関数である。
【0034】
【数4】f(x) = 1 / (1 + exp(-x)) 本ニューラルネットワークでは、中間層の各ニューロン
は、入力層の全ニューロン出力値と、出力層ニューロン
は中間層の全ニューロン出力値と結合しており、各ニュ
ーロンが(数3),(数4)に示す計算を行って結果を
出力する。
【0035】本ニューラルネットワークは、大きく分け
て学習過程と認識過程の2種類の動作を行う。学習過程
では音声区間検出が可能となるようにネットワークの結
合荷重を変化(学習)させる。サンプリングレートで抽
出された実際の話者の口唇の縦方向開口度をn時刻分入
力して、実際の音声区間を教師信号として学習させる。
学習は、(数5)に示した出力信号と教師信号の誤差を
小さくする方向に、(数6)のように各ニューロンの結
合荷重を変更するものである(バックプロパゲーション
方法)。
【0036】
【数5】E = 0.5 * (out - target)2 ここで、outがネットワークの出力信号、targetが教師
信号である。
【0037】
【数6】 Δwij(n) = - α * (∂E / ∂wij) + ηΔwij(n-1) ここで、Δwij(n)は結合荷重の変更度、α、ηは適当な
正の実数、nは学習の回数、∂E / ∂wijは、各結合荷重
の変更がネットワークの出力誤差に与える感度を表す。
(数6)において第1項が誤差を小さくする荷重変更方
向、第2項が慣性項である。感度計算は出力層に近いニ
ューロンから順番に求められるため、バックプロパゲー
ションと呼ばれる。
【0038】一方、認識過程では学習過程と同様に実際
の話者の口唇縦方向開口度をn時刻分入力して、各ニュ
ーロンが所定の計算を行い、検出結果を出力する。もち
ろん、実際の話者の口唇の動き情報は連続的に続くた
め、連続的にn時刻分のデータをネットワークに入力し
続けながら、学習・認識を行っていく。
【0039】以上説明したように、本発明の第2の実施
例における音声区間検出装置は、区間抽出にニューラル
ネットワークを適用するため、話者間の変動に強い音声
区間検出を行うことができる。また、口唇の動き情報
は、ノイズによる影響が殆どないため、ノイズ環境下に
おいても話者の音声区間を正しく検出できる。
【0040】なお、本実施例でのニューラルネットワー
クは、シグモイド関数をベースとしたニューロンにバッ
クプロパゲーションによる学習アルゴリズムを適用した
が、本発明はこのアルゴリズムを利用するものに限定さ
れるものではない。例えば、Gaussian関数をベースとす
るニューロンや、共役勾配法などの学習アルゴリズム等
を適用することもできる。また、本実施例は白黒画像を
前提としたが、カラー画像でも同様に実現可能である。
このとき、口唇画像抽出部103は唇の色画像情報を利
用して口唇部分の抽出を行う。また、本実施例では波形
抽出部104において唇の縦方向開口度の情報を音声区
間検出に利用したが、横方向開口度、また両開口度を総
合的に判断した音声区間検出を行うこともできる。
【0041】以下、本発明の第1の実施例における音声
認識装置について図面を参照しながら説明する。本発明
は、音声区間検出を口唇の動き情報で行い、音声区間部
分を音声波形から切り出して音声認識を行うものであ
る。
【0042】図9は、本発明の第1の実施例における音
声認識装置の構成図を示すものである。図において、1
01、102、105は音声区間検出装置の上記実施例
の説明で述べたものである。901はマイク等の話者の
音声を入力する音響系、902は音響系901が入力し
た話者の音声を電気信号に変換する音声入力部である。
903は上記した実施例における音声区間検出装置で述
べた画像ベース区間抽出部であり、第1の実施例、第2
の実施例のいずれを用いても構わない。904は画像ベ
ース区間抽出部903で抽出した音声区間情報を用い
て、902で電気信号に変換された音声波形から音声区
間を切り出す音声波形切り出し部、905は音声波形を
解析して認識を行う音声認識部である。
【0043】以上のように構成された本発明の第1の実
施例における音声認識装置の動作について説明する。口
唇の動き情報からの音声区間検出の動作の詳細について
は、上記した実施例における音声区間検出装置の実施例
に示した通りである。光学系101、画像入力部10
2、特徴抽出部105、画像ベース区間抽出部903が
口唇の動き情報から音声区間を抽出する。音響系901
は話者の音声を入力し、音声入力部902はその音声を
電気信号の波形に変換する。音声波形切り出し部904
は、画像ベース区間抽出部903の音声区間情報で、音
声入力部902が出力した音声波形から音声区間部分の
波形のみを切り出す。概念図を図10に示す。最後に、
音声認識部905が切り出された音声波形を解析して、
音声認識を行う。音声認識部905は、公知の音声認識
装置を用いればよい。
【0044】以上説明したように、本発明の第1の実施
例における音声認識装置によれば、音声区間の検出を口
唇の動き情報を用いて行っているため、ノイズ環境下に
おける音声認識率の低下を抑えることができる。
【0045】図11は、本発明の第2の実施例における
音声認識装置の構成図を示すものである。図において、
101、102、105、901、902、903、9
05は上記した音声認識装置の第1の実施例で述べた通
りであるため、詳細な説明は省略する。1101は音声
の電気信号波形からパワースペクトル等を解析して音声
区間を抽出する音声ベース区間抽出部、1102は、音
声ベース区間抽出部1101と画像ベース区間抽出部9
03の両方の音声区間情報を利用して音声波形を切り出
す音声波形切り出し部である。
【0046】以上のように構成された本発明の実施例に
おける音声認識装置の動作について説明する。口唇の動
き情報からの音声区間検出の動作の詳細については、上
記した実施例における音声区間検出装置の説明に示した
通りである。すなわち、光学系101、画像入力部10
2、特徴抽出部105、画像ベース区間抽出部903が
口唇の動き情報から音声区間を抽出する。音響系901
は話者の音声を入力し、音声入力部902はその音声を
電気信号の波形に変換する。音声ベース区間抽出部11
01は、音声波形からスペクトル等を解析して、音声区
間を抽出する。音声波形切り出し部1102は、画像ベ
ース区間抽出部903と音声ベース区間抽出部1101
の出力する両方の音声区間情報を利用して、音声波形か
ら音声区間部分を切り出す。もし、両方の情報に矛盾が
存在する場合、以下による方法で音声波形を切り出す。
【0047】1)音声ベースの情報…音声区間、画像ベ
ースの情報…音声区間でない 音声ベースの情報がノイズの影響で音声区間と誤った可
能性が高いため、画像ベースの情報のみを用いて音声波
形を切り出す。
【0048】2)音声ベースの情報…音声区間でない、
画像ベースの情報…音声区間 話をせずに、口を動かしている可能性が高いため、音声
ベースの情報のみを用いて音声波形を切り出す。
【0049】以上の概念図を図12に示す。最後に、音
声認識部905が切り出された音声波形を解析して、音
声認識を行う。音声認識部905は、公知の音声認識装
置を用いればよい。
【0050】以上説明したように、本実施例における音
声認識装置によれば、音声区間の検出を口唇の動き情報
と音声情報を併用しているため、ノイズ環境下における
音声認識率の低下を抑えるとともに、口唇の動き情報の
誤りを訂正することも可能となる。
【0051】なお、特徴抽出手段は、上記楕円関数、台
形関数等に限らず、口唇の動き情報を他の方法で抽出で
きるものでもかまわない。
【0052】また、区間抽出手段は、上記実施例の方法
以外の方法を利用してもかまわない。
【0053】また、本発明の各手段は、コンピュータを
用いてソフトウェア的に実現し、あるいはそれら各機能
を有する専用のハード回路を用いて実現する事が出来
る。
【0054】
【発明の効果】以上述べたところから明らかなように、
本発明における音声区間検出装置によれば、口唇の動き
情報から音声区間を検出するために、ノイズ環境下にお
いても正しく音声区間を検出することが可能となる。
【0055】また、本発明における音声認識装置によれ
ば、口唇の動き情報から音声区間を抽出してその情報を
もとに音声認識を行うために、ノイズ環境下における音
声認識率の低下を抑えることができため、実用的な効果
は非常に大きい。
【図面の簡単な説明】
【図1】本発明の第1の実施例における音声区間検出装
置の構成図である。
【図2】本発明における、楕円関数による口唇部分のマ
ッチング法概念図である。
【図3】本発明における、台形関数による口唇部分のマ
ッチング法概念図である。
【図4】Moret関数のグラフである。
【図5】Moret関数をシフト・スケーリングした関数の
グラフである。
【図6】口唇の動き波形とそのウェーブレット解析の概
念図である。
【図7】本発明の第2の実施例における音声区間検出装
置の構成図である。
【図8】音声区間検出に利用するニューラルネットワー
クの概念図である。
【図9】本発明の第1の実施例における音声認識装置の
構成図である。
【図10】上記第1の実施例における音声波形の切り出
し方法を示す概念図である。
【図11】本発明の第2の実施例における音声認識装置
の構成図である。
【図12】上記第2の実施例における音声波形の切り出
し方法を示す概念図である。
【図13】従来の技術における音声区間検出装置の構成
図である。
【図14】従来の技術における音声認識装置の構成図で
ある。
【符号の説明】
101 光学系 102 画像入力部 103 口唇画像抽出部 104 波形抽出部 105 特徴抽出部 106 ウェーブレット変換部 107 音声区間抽出部 108 画像ベース区間抽出部 901 音響系 902 音声入力部 904 音声波形切り出し部 905 音声認識部
フロントページの続き (72)発明者 萱嶋 一弘 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 〆木 泰治 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 新 誠一 茨城県つくば市並木4丁目508ー104

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも口唇を含む顔画像を信号に変
    換する画像入力手段と、前記画像入力手段で変換した信
    号から口唇の動き情報を抽出する特徴抽出手段と、前記
    特徴抽出手段による口唇の動き情報から音声区間を抽出
    する区間抽出手段とを備えたことを特徴とする音声区間
    検出装置。
  2. 【請求項2】 区間抽出手段は、口唇の動き情報をウェ
    ーブレット変換するウェーブレット変換手段と、その得
    られたウェーブレット変換情報から音声区間を抽出する
    音声区間抽出手段とを備えたことを特徴とする請求項1
    記載の音声区間検出装置。
  3. 【請求項3】 区間抽出手段が、口唇の動き情報からニ
    ューラルネットを用いて音声区間を抽出するニューラル
    ネット音声区間抽出手段で構成されていることを特徴と
    する請求項1記載の音声区間検出装置。
  4. 【請求項4】 音声を音声信号として入力する音声入力
    手段と、 少なくとも口唇を含む顔画像を信号に変換する画像入力
    手段と、 前記画像入力手段で変換した信号から口唇の動き情報を
    抽出する特徴抽出手段と、 前記特徴抽出手段の情報による口唇の動き情報から音声
    区間を抽出する区間抽出手段と、 前記区間抽出手段が抽出した音声区間情報を利用して前
    記音声信号から音声区間部分を切り出す音声波形切り出
    し手段と、 前記音声波形切り出し手段が切り出した音声信号を解析
    して音声認識をする音声認識手段と、 を備えたことを特徴とする音声認識装置。
  5. 【請求項5】 音声を音声信号として入力する音声入力
    手段と、 抽出された音声信号から音声区間を抽出する音声ベース
    区間抽出手段と、 少なくとも口唇を含む顔画像を信号に変換する画像入力
    手段と、 前記画像入力手段で変換した信号から口唇の動き情報を
    抽出する特徴抽出手段と、 前記特徴抽出手段の情報による口唇の動き情報から音声
    区間を抽出する画像ベース区間抽出手段と、 前記音声ベース区間抽出手段と画像ベース区間抽出手段
    が出力する両方の音声区間情報を利用して音声波形を切
    り出す音声波形切り出し手段と、 前記音声波形切り出し手段が切り出した音声波形を解析
    して音声認識をする音声認識手段と、 を備えたことを特徴とする音声認識装置。
JP5086156A 1993-04-13 1993-04-13 音声区間検出装置及び音声認識装置 Pending JPH06301393A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5086156A JPH06301393A (ja) 1993-04-13 1993-04-13 音声区間検出装置及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5086156A JPH06301393A (ja) 1993-04-13 1993-04-13 音声区間検出装置及び音声認識装置

Publications (1)

Publication Number Publication Date
JPH06301393A true JPH06301393A (ja) 1994-10-28

Family

ID=13878884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5086156A Pending JPH06301393A (ja) 1993-04-13 1993-04-13 音声区間検出装置及び音声認識装置

Country Status (1)

Country Link
JP (1) JPH06301393A (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352987A (ja) * 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
US6369846B1 (en) 1998-12-04 2002-04-09 Nec Corporation Multipoint television conference system
US6396954B1 (en) 1996-12-26 2002-05-28 Sony Corporation Apparatus and method for recognition and apparatus and method for learning
KR20020057046A (ko) * 2000-12-30 2002-07-11 구자홍 무선 단말기의 음성인식 방법
JP2005516263A (ja) * 2002-01-30 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
JP2005285085A (ja) * 2003-07-25 2005-10-13 Tama Tlo Kk データ解析方法、データ解析装置およびデータ解析プログラム
KR100530812B1 (ko) * 1998-04-13 2005-11-28 네브엔지니어링 인코포레이티드 아바타 애니메이션을 위한 웨이브렛-기반 얼굴 움직임 캡쳐
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
KR100820141B1 (ko) * 2005-12-08 2008-04-08 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
KR100835996B1 (ko) * 2006-12-05 2008-06-09 한국전자통신연구원 적응형 발성 화면 분석 방법 및 장치
JP2008287340A (ja) * 2007-05-15 2008-11-27 Tokai Univ 発話内容識別装置及び個人識別装置
US7860718B2 (en) 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置
CN110634505A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人
WO2020250828A1 (ja) * 2019-06-11 2020-12-17 パナソニックIpマネジメント株式会社 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
JPWO2021161377A1 (ja) * 2020-02-10 2021-08-19

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6396954B1 (en) 1996-12-26 2002-05-28 Sony Corporation Apparatus and method for recognition and apparatus and method for learning
KR100530812B1 (ko) * 1998-04-13 2005-11-28 네브엔지니어링 인코포레이티드 아바타 애니메이션을 위한 웨이브렛-기반 얼굴 움직임 캡쳐
JPH11352987A (ja) * 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
US6369846B1 (en) 1998-12-04 2002-04-09 Nec Corporation Multipoint television conference system
KR20020057046A (ko) * 2000-12-30 2002-07-11 구자홍 무선 단말기의 음성인식 방법
JP2005516263A (ja) * 2002-01-30 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
JP4681810B2 (ja) * 2002-01-30 2011-05-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
JP2005285085A (ja) * 2003-07-25 2005-10-13 Tama Tlo Kk データ解析方法、データ解析装置およびデータ解析プログラム
JP4595083B2 (ja) * 2003-07-25 2010-12-08 タマティーエルオー株式会社 データ解析方法、データ解析装置およびデータ解析プログラム
KR100820141B1 (ko) * 2005-12-08 2008-04-08 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
US7860718B2 (en) 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
KR100835996B1 (ko) * 2006-12-05 2008-06-09 한국전자통신연구원 적응형 발성 화면 분석 방법 및 장치
JP2008287340A (ja) * 2007-05-15 2008-11-27 Tokai Univ 発話内容識別装置及び個人識別装置
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置
CN110634505A (zh) * 2018-06-21 2019-12-31 卡西欧计算机株式会社 声音期间检测装置、声音期间检测方法、存储介质、声音认识装置以及机器人
US10997979B2 (en) 2018-06-21 2021-05-04 Casio Computer Co., Ltd. Voice recognition device and voice recognition method
WO2020250828A1 (ja) * 2019-06-11 2020-12-17 パナソニックIpマネジメント株式会社 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
JPWO2021161377A1 (ja) * 2020-02-10 2021-08-19
WO2021161377A1 (ja) * 2020-02-10 2021-08-19 三菱電機株式会社 発話者推定装置および発話者推定方法

Similar Documents

Publication Publication Date Title
JPH06301393A (ja) 音声区間検出装置及び音声認識装置
Radfar et al. Single-channel speech separation using soft mask filtering
Chiou et al. Lipreading from color video
US7684982B2 (en) Noise reduction and audio-visual speech activity detection
US5806036A (en) Speechreading using facial feature parameters from a non-direct frontal view of the speaker
Gogate et al. DNN driven speaker independent audio-visual mask estimation for speech separation
Dov et al. Audio-visual voice activity detection using diffusion maps
Aubrey et al. Visual voice activity detection with optical flow
Choi et al. Acoustic and visual signal based context awareness system for mobile application
Darrell et al. Audio-visual segmentation and “the cocktail party effect”
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
KR100714721B1 (ko) 음성 구간 검출 방법 및 장치
JP2002023776A (ja) ブラインドセパレーションにおける話者音声と非音声雑音の識別方法及び話者音声チャンネルの特定方法
WO2005029463A9 (en) A method for recovering target speech based on speech segment detection under a stationary noise
Suresh et al. Computer-aided interpreter for hearing and speech impaired
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
Abel et al. Cognitively inspired audiovisual speech filtering: towards an intelligent, fuzzy based, multimodal, two-stage speech enhancement system
Amadeus et al. Digit-number speech-recognition using spectrogram-based convolutional neural network
Syamanthika et al. Digit Identification from Speech using Short-Time Domain Features
Yasmin et al. Discrimination of male and female voice using occurrence pattern of spectral flux
KR100719942B1 (ko) 패턴 인식
Nainan et al. Synergy in voice and lip movement for automatic person recognition
Petsatodis et al. Voice activity detection using audio-visual information
Holden et al. Visual speech recognition using cepstral images
Islam et al. Hybrid feature and decision fusion based audio-visual speaker identification in challenging environment