JP4650888B2 - 発話検出装置、方法及びプログラム - Google Patents

発話検出装置、方法及びプログラム Download PDF

Info

Publication number
JP4650888B2
JP4650888B2 JP2005262751A JP2005262751A JP4650888B2 JP 4650888 B2 JP4650888 B2 JP 4650888B2 JP 2005262751 A JP2005262751 A JP 2005262751A JP 2005262751 A JP2005262751 A JP 2005262751A JP 4650888 B2 JP4650888 B2 JP 4650888B2
Authority
JP
Japan
Prior art keywords
lip
pattern
image frame
correlation value
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005262751A
Other languages
English (en)
Other versions
JP2007079624A (ja
Inventor
貴志 内藤
吉央 松本
司 小笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Toyota Central R&D Labs Inc
Original Assignee
Toyota Motor Corp
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp, Toyota Central R&D Labs Inc filed Critical Toyota Motor Corp
Priority to JP2005262751A priority Critical patent/JP4650888B2/ja
Publication of JP2007079624A publication Critical patent/JP2007079624A/ja
Application granted granted Critical
Publication of JP4650888B2 publication Critical patent/JP4650888B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、発話検出装置、方法及びプログラムに係り、特に話者の口唇の画像から発話を検出する発話検出装置、方法及びプログラムに関する。
一般環境における音声認識システムは、周囲の騒音などに影響され、話者が話をしていなくてもその騒音をもとに音声認識を行い、結果的に誤認識をしてしまう。誤認識を低減する有効な方法の1つとして、話者の発話区間を検出し、その間のみで音声認識を行う手法が考えられる。
そこで、音声認識率を向上させるために、話者の唇の動きから発話区間を検出することが研究されている。特許文献1には、唇の輪郭の垂直方向の距離と基準値との差、あるいは唇の輪郭の曲率値から口の開閉を検出し、複数の対象者の中から話者を特定することが記載されている。また、非特許文献1には、現在の口唇パターンと、Nフレーム前の口唇パターンと、の差から発話状態を判定することが記載されている。
特開2000−338987号公報 村井、中村、「口周囲画像による雑音に剛健な会話検出」、音声言語情報処理37−10、2001
一般に話者が会話をする場合は、話者の頭部の位置はある範囲で変動し、その結果画像上での話者の見え方も変動してしまう。そのため、口唇画像から発話区間を頑健に検出することが困難である。
特許文献1の場合、発話中に口唇の輪郭が変わるため、基準値自体が変動してしまい、精度よく発話状態を検出することができない問題がある。特許文献2の場合、現在の口唇パターンとNフレーム前の口唇パターンとの差のみに注目して発話状態を判定しているので、ノイズなどの突発的変動要因の影響を受け易い問題がある。
本発明は、上述した課題を解決するために提案されたものであり、ノイズなどの突発的な要因に影響されることなく、高精度に話者の発話を検出する発話検出装置、方法及びプログラムを提供することを目的とする。
本発明に係る発話検出装置は、少なくとも話者の口唇を撮像する撮像手段と、前記撮像手段により連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定する口唇特徴パターン特定手段と、前記撮像手段により連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定する口唇包含パターン特定手段と、前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出する相関値算出手段と、前記相関値算出手段の算出結果に基づいて前記口唇の変動量を算出する変動量算出手段と、前記変動量算出手段により算出された変動量に基づいて発話区間であるか否かを検出する発話区間検出手段と、を備えている。
本発明に係る話者検出方法は、少なくとも話者の口唇を撮像し、前記連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定し、前記連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定し、前記連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出し、前記相関値算出結果に基づいて前記口唇の変動量を算出し、前記算出された変動量に基づいて発話区間であるか否かを検出する。
本発明に係る話者検出プログラムは、コンピュータに、少なくとも話者の口唇を撮像させ、前記連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定させ、前記連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定させ、前記連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出させ、前記相関値算出結果に基づいて前記口唇の変動量を算出させ、前記算出された変動量に基づいて発話区間であるか否かを検出させる。
撮像手段は、話者の口唇を撮像できるように設置されている。口唇特徴パターン特定手段は、連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定する。口唇包含パターン特定手段は、連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定する。
相関値算出手段は、連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出する。なお、「特定の画像フレームの直前に撮像された1または連続複数の画像フレーム」は、前記特定の画像フレームから連続するすべての画像フレームである必要はなく、任意の画像フレームであってもよい。
変動量算出手段は、相関値算出手段の算出結果に基づいて前記口唇の変動量を算出する。話者が発話していないときは、特定の画像フレームにおける前記口唇パターンと、その特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の口唇包含パターンに含まれる口唇パターンと、の変動量はほとんどなく、話者が発話しているときは、その変動量は大きな値になる。よって、口唇の変動量は、それらの変動量から求められる。
そこで、発話区間検出手段は、算出された変動量に基づいて発話区間であるか否かを検出できる。
なお、前記発明は、前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームから、前記口唇特徴パターン検出する検出手段を更に備えてもよい。このとき、前記口唇特徴パターン特定手段は、記撮像手段により連続的に撮像された画像フレーム中において、前記検出手段により検出された前記口唇特徴パターンを追跡して、前記口唇特徴パターンを特定すればよい。このとき、口唇特徴パターンは、少なくとも話者の口角、上唇、下唇のいずれかの濃度パターンであるとよい。
本発明に係る発話検出装置、方法及びプログラムは、連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇パターンと、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出し、算出された変動量に基づいて発話区間であるか否かを検出することにより、ノイズ等の突発的な要因の影響を受けることなく、高精度に発話区間を検出することができる。
以下、本発明の好ましい実施の形態について図面を参照しながら詳細に説明する。
図1は、本発明の実施の形態に係る音声認識システムの構成を示す図である。音声認識システムは、毎秒例えば30フレームで話者を撮像するCCDイメージセンサ1と、CCDイメージセンサ1で撮像された画像をアナログ/ディジタル変換するA/Dコンバータ2と、A/Dコンバータ2からの画像データに基づいて画像処理を行って話者の発話を検出する画像処理装置10と、話者の音声が入力されるマイク21と、マイク21からの音声をアナログ/ディジタル変換するA/Dコンバータ22と、画像処理装置10で検出された発話と、音声データとに基づいて音声認識を行う音声認識装置30と、を備えている。
CCDイメージセンサ1は、話者の顔あるいは話者の口周辺の画像を撮像できるように設置されている。マイク4は、話者の声が入力される位置に設置されている。
画像処理装置10は、画像処理を行うCPU11と、ワークエリアであるRAM12と、CPU11の制御プログラムが記憶されているROM13と、を備えている。ROM13には、発話区間検出ルーチンのプログラムや、その他のプログラムが記憶されている。
図2は、画像処理装置10の発話区間検出ルーチンを示すフローチャートである。画像処理装置10は、話者の発話区間を検出すべく、次のようなステップ101移行の処理を実行する。
ステップ101では、画像処理装置10のCPU11は、CCDイメージセンサ2から話者の画像が入力されると、ステップ102に移行する。
ステップ102では、CPU11は、話者の口唇特徴パターンが登録(RAM12に記憶)されているか否かを判定する。
図3(a)及び(B)は、口唇特徴パターンの一例を示す図である。口唇特徴パターンとは、画像中での口唇の形状を追跡して特定するための濃度パターンである。濃度パターンとは、画像の画素毎の輝度レベルをパターン化したものでる。口唇特徴パターンは、図3(a)に示すように口の両端(口角)2箇所の濃度パターンや、同図(b)に示すように上唇及び下唇の2箇所の濃度パターンでもよい。なお、口唇特徴パターンは、上記のように2箇所に限らず、図3(a)及び(b)を組み合わせたものでもよいし、3箇所以上の濃度パターンであってもよい。
口唇特徴パターンが既に登録されているときは、現在撮像されている画像について口唇特徴パターンの追跡を行うべく、ステップ106に移行する。一方、口唇特徴パターンが登録されていないときは、口唇特徴パターンを登録すべく、ステップ103に移行する。なお、口唇特徴パターンは、RAM12に限らず、図示しない不揮発性RAM、磁気ディスクなどの記憶媒体に記憶されていてもよい。
ステップ103では、CPU11は、A/Dコンバータ2から供給される画像に基づいて、口唇の特徴的なパターン(口唇特徴パターン)を検出して、ステップ104に移行する。口唇特徴パターンの検出では、種々の画像処理の手法を用いることが可能である。
例えば図3(a)に示す口角の口唇特徴パターンに反応するニューラルネットワークを用意しておいき、入力された画像に対して上記ニューラルネットワークを適用することによって、図3(a)の口唇特徴パターンを容易に検出することができる。あるいは、画像のエッジヒストグラム分布から口角を特定し、口唇特徴パターンを登録してもよい。
ステップ104では、CPU11は、口唇特徴パターンを検出できたか否かを判定し、検出できたときはステップ105に移行し、検出できなかったときはステップ101に戻る。
ステップ105では、CPU11は、口唇特徴パターンをRAM12に登録して、ステップ106に移行する。
ステップ106では、CPU11は、前フレーム画像における口唇特徴パターンの位置に基づいて現フレーム画像から口唇特徴パターンを追跡して、ステップ107に移行する。
図4は、口唇特徴パターンの探索範囲を示す図である。最初に、CPU11は、前フレーム画像の口唇特徴パターンの位置に基づいて、矩形点線で示す探索範囲を設定する。そして、この探索範囲内で予め登録された口唇特徴パターンに最も類似したパターンを有する領域を検出する。ここでは、例えば画像処理手法の1つである正規化相関処理手法などが利用可能である。
ステップ107では、CPU11は、口唇特徴パターンの追跡に成功したかを判定し、成功したときはステップ108に移行し、成功しなかったときは再びステップ101に戻る。なお、話者が頭部を激しく動かすなどして口唇特徴パターンの追跡に失敗する場合がある。失敗したか否かは、正規化相関処理によって得られる相関値を調べることによって判定可能である。
ステップ108では、CPU11は、追跡に成功した画像から口唇パターンを切り出して、ステップ109に移行する。口唇パターンとは、濃淡値の画像パターンである口唇特徴パターンと異なり、口唇を囲む矩形状のパターンである。つまり、口唇パターンは、口唇の形状を特定できる口唇特徴の矩形領域である。
図5は、口唇パターンの切り出しを説明する図である。ここでは、追跡している2つの口唇特徴パターン(本実施形態では2つの口角の濃度パターン)の中心座標を(x1,y1)、(x2,y2)(ただし、x2>x1)する。このとき、CPU11は、幅(x2−x1)・r1、高さ(x2−x1)・r2、中心座標((x1+x2)/2,(y1+y2)/2)の矩形領域を口唇パターンf(t)として求めればよい。r1及びr2は、口唇パターンf(t)の切り出しのために予め設定された係数である。
なお、図3(b)に示す口唇特徴パターンを追跡する場合、例えばその口唇特徴パターンの中心座標を(x1,y1)、(x2,y2)とすると、幅W、高さH、中心座標((x1+x2)/2,(y1+y2)/2)の矩形領域を口唇パターンf(t)とすればよい。すなわち、追跡すべき口唇特徴パターンに応じてf(t)を設定すればよい。
次に、CPU11は、画像から、口唇パターンf(t)を含むように口唇包含パターンF(t)を切り出す。つまり、口唇包含パターンF(t)は、口唇パターンf(t)によって形状を特定された口唇を包含する矩形領域である。
図6は、口唇包含パターンF(t)の切り出しを説明する図である。例えば、口唇パターンf(t)の中心位置を(x0,y0)、口唇パターンの幅、高さをそれぞれW0、H0とする。このとき、CPU11は、中心位置(x0,y0)、幅W0・r0、高さH0・r0の口唇包含パターンF(t)を求めればよい。r0は、口唇包含パターンF(t)の切り出しのための係数(>1)である。
ステップ109では、CPU11は、切り出された口唇パターンf(t)と、現在から直前Nフレーム分の口唇包含パターンF(t−i)(i=1,2,・・・,N)と、の相関値を算出する。これにより、口唇パターンf(t)によって特定される口唇形状と、口唇包含パターンF(t−i)(i=1,2,・・・,N)によって特定される口唇形状と、が比較され、そして相関値が算出される。
具体的には、CPU11は、口唇パターンf(t)を参照(テンプレート)画像、口唇包含パターンF(t−i)を探索画像として、画像相関処理を行い、相関値画像s(f(t),F(t−1))を算出する。ここで、口唇パターンf(t)の画像サイズW0・H0、口唇包含パターンF(t)の画像サイズをW1・H1(ただし、W1>W0、H1>H0)とすれば、相関値画像s(f(t),F(t−i))の画像サイズは(W1−W0)・(H1−H0)となる。なお、画像相関処理手法としては、正規化相関処理方法などの公知の技術を用いればよい。ただし、相関値sは0から1までの値をとり、相関が高いほど(類似しているほど)大きな値になるように正規化される。
以下では、相関値画像s(f(t),F(t−i))の座標(x,y)における相関値をsi(x,y)と表す。ただし、x=0,1,・・・,(W1−W0−1)であり、y=0,1,・・・,(H1−H0−1)である。
つぎに、CPU11は、si(x,y)の最大値s_max(t,i)と、そのときの座標(sx(t,i),sy(t,i))をそれぞれ算出する。このとき、
s_max(t,t−i)=si(sx(t,i),sy(t,i))
である。
図7(a)は参照画像と探索画像の一例を示す図、(b)は参照画像が探索画像中を走査している状態を示す図、(c)は参照画像と探索画像の最も相関の高い位置を表す図、(d)は相関値画像の一例を示す図である。ここでは、話者の口唇の画像の代わりに四角錐の画像が用いわれている。
CPU11は参照画像と探索画像の相関値を算出して相関値が最も高くなる位置を探すことによって、図7(b)に示すように参照画像が探索画像中で走査され、図7(c)に示すように参照画像と探索画像とのマッチング位置が探し出される。このとき、図7(d)に示すように、マッチング位置における相関値画像が、s_maxとして求められる。なお、画像相関処理で用いられる探索画像(口唇包含パターンF(t−i))は、次のようにNフレーム存在するのが好ましい。
図8は、口唇パターンf(t)と口唇包含パターンF(t−i)(i=1、・・・、N)との画像相関処理を説明する図である。まず、f(t)とF(t−1)で画像相関処理が行われ、最も高い相関値s_max(t,1)が求められる。次に、f(t)とF(t−2)で画像相関処理が行われ、最も高い相関値s_max(t,2)が求められる。同様にして、f(t)とF(t−3)で画像相関処理が行われ、最も高い相関値s_max(t,3)が求められる。このようにして求められるN個の相関値s_maxは、次のステップS110で用いられる。
なお、口唇包含パターンF(t)とF(t−1)が全く同一の画像であれば、
s_max(t,t−i)=1
sx(t,i)=(W1−W0)/2
sy(t,i)=(H1−H0)/2
になる。
ステップ110では、CPU11は、現在から直前のNフレームまで遡って求められた{s_max(t,t−i),sx(t,i),sy(t,i);i=1,2,・・・,N}から、口唇変動量E(t)を式(1)より算出する。
図9は、(a)時刻t、(b)時刻t+1、(c)時刻t+2、(d)時刻t+3でそれぞれ得られた口唇特徴パターン、口唇パターンf、口唇包含パターンFを示す図である。図9では、現在のフレームから2フレーム分過去に遡っているが、遡るフレーム数は特に限定されるものではない。図9を用いて、上述した各ステップについて説明する。
まず、図9(a)に示す時刻tにおける口唇包含パターンF(t)は次のように求められる。口唇パターンf(t)を検出するための口唇特徴パターンは、例えば左右の口角の矩形の矩形パターンのように、口唇特徴パターンに特徴的なパターンとして予め登録されている(ステップ102〜S105)。そして、口唇特徴パターンの位置から、矩形点線で表した口唇パターンf(t)が検出される(ステップ107、S108)。次に、口唇パターンf(t)を含む口唇包含パターンF(t)が設定される。ここで、F(t−2)、F(t−1)の画像は、それぞれ時刻t−2、t−1の時点で得られた口唇包含パターンを示している。そして、F(t−2)、F(t−1)のそれぞれに対して、相関処理により、時刻tでの口唇パターンf(t)と類似性の高い画像領域が探索される。
図10は、口唇パターンf(t)と最も類似度の高いパターンを探索することを説明するための図である。
同図に示すように、口唇パターンf(t)と口唇包含パターンF(t−1)との間での相関処理が行われて、実線矩形で表されるパターンが最も相関が高いものとする。このときの相関値(=0〜1:1に近いほど相関が高い)をs(t,t−1)と表す。その位置の口唇パターンf(t−1)に対するずれ量を(Δx(t,t−1),Δy(t,t−1))と表す。ずれ量は、図中の矩形左上座標値を(xp,yp)及び(xq,yq)とすると、|xp−xq|及び|yp−yq|となる。
話者が全く口唇を動かしていない場合、理想的にはF(t)とF(t−1)が全く同一画像パターンになるため、
s(t,t−1)=1.0、
(Δx(t,t−1),Δy(t,t−1))=(0,0)
となる。
口唇変動量E(t)は、上述した式(1)によって定義される。この定義から、口が動いていない(発話していない)と考えられる場合は、口唇変動量E(t)は小さな値になる。時刻t−Nからtに亘って口が大きく動いている(発話している)と考えられる場合は、口唇変動量E(t)は大きな値になる。そこで、口唇変動量E(t)に基づいて、次のように、発話区間であるか否かが判定される。
ステップ111では、CPU11は、式(1)で算出された口唇変動量E(t)と予め設定された閾値Ethとを比較して、E(t)>Ethであればステップ112に移行し、E(t)≦Ethであればステップ113に移行する。
ステップ112では、CPU11は、現在フレームは発話区間であると判定して、ステップ114に移行する。
ステップ113では、CPU11は、現在フレームは発話区間ではないと判定して、ステップ114に移行する。
ステップ114では、CPU11は、発話区間の判定結果を音声認識装置30に送信して、処理を終了する。そして、再びステップ101移行の処理が実行される。これにより、音声認識装置30は、画像処理装置10の判定結果、つまり発話区間であるか否かを考慮しながら、A/Dコンバータ22から供給された音声データについて音声認識を行うことができるので、認識率を向上させることができる。
以上のように、本発明の実施の形態に係る音声認識システムは、登録された口唇特徴パターンから得られた口唇パターンf(t)と、Nフレーム前まで遡った口唇包含パターンF(t−i)と、の相関値から算出される口唇変動量に基づいて、発話区間であるか否かを検出する。このように、発話区間の検出にNフレーム前までの変化量を用いているので、上記音声認識システムは、話者の口唇が微小に変化した場合であっても、その影響を受けることなく、確実に発話区間を検出することができる。
また、音声認識システムは、単純にパターン間の相関値を演算するのではなく、現在の口唇パターンf(t)と過去の口唇包含パターンF(t)との相関処理によって最も相関の高い位置を求めているので、口唇特徴パターンが変動して口唇パターンの切り出し誤差に影響が生じてしまうことを低減することができる。
さらに、音声認識システムは、唇の色情報、輪郭情報、端点情報などを求めるための煩雑な画像処理手法を利用せず、濃度パターン及びその位置情報から矩形状の口唇パターンf(t)及び口唇包含パターンF(t)を算出するので、演算負荷を低減して高速に発話区間を検出できる。
そして、音声認識システムは、発話区間であるか否かの判定結果を考慮しながら、話者の音声データを用いて音声認識を行うので、識別率を向上させて、高精度に音声認識を行うことができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能であるのは勿論である。
例えば、画像処理装置10のCPU11は、式(1)の代わりに、次の式(2)、式(3)、式(4)のいずれかを用いてもよい。
式(2)及び式(3)では、距離情報Δdを用いることなく、口唇変動量E(t)が演算される。また、式(3)、(4)ではフレームに応じた重み係数α(i)を用いる。さらには、次の式(5)を用いてもよい。
図11は、口唇パターンf(t)と口唇包含パターンF(t−i)の他の画像相関処理を説明する図である。同図及び式(5)に示すように、f(t)とF(t−1)、f(t−1)とF(t−2)、f(t−2)とF(t−3)の間で画像相関処理を行ってもよい。すなわち、口唇パターンf(t)とその直前1フレームの口唇包含パターンF(t−1))との間で最も高い相関値を演算し、最も高い相関値の和から口唇変動量E(t)を算出してもよい。
また、CPU11は、口唇変動量E(t)の計算の際に用いるフレームをi=1,3,5,・・・,Nのようにして、フレームを間引いてもよい。これにより、処理時間を短縮して発話区間を検出することができる。
本発明の実施の形態に係る音声認識システムの構成を示す図である。 画像処理装置10の発話区間検出ルーチンを示すフローチャートである。 口唇特徴パターンの一例を示す図である。 口唇特徴パターンの探索範囲を示す図である。 口唇パターンの切り出しを説明する図である。 口唇包含パターンF(t)の切り出しを説明する図である。 (a)は参照画像と探索画像の一例を示す図、(b)は参照画像が探索画像中を走査している状態を示す図、(c)は参照画像と探索画像の最も相関の高い位置を表す図、(d)は相関値画像の一例を示す図である。 口唇パターンf(t)と口唇包含パターンF(t−i)の画像相関処理を説明する図である。 (a)時刻t、(b)時刻t+1、(c)時刻t+2、(d)時刻t+3でそれぞれ得られた口唇特徴パターン、口唇パターンf、口唇包含パターンFを示す図である。 口唇パターンf(t)と最も類似度の高いパターンを探索することを説明するための図である。 口唇パターンf(t)と口唇包含パターンF(t−i)の他の相関処理を説明する図である。
符号の説明
1 CCDイメージセンサ
2,22 A/Dコンバータ
10 画像処理装置
11 CPU
12 RAM
13 ROM
21 マイク
30 音声認識装置

Claims (11)

  1. 少なくとも話者の口唇を撮像する撮像手段と、
    前記撮像手段により連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定する口唇特徴パターン特定手段と、
    前記撮像手段により連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定する口唇包含パターン特定手段と、
    前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出する相関値算出手段と、
    前記相関値算出手段の算出結果に基づいて前記口唇の変動量を算出する変動量算出手段と、
    前記変動量算出手段により算出された変動量に基づいて発話区間であるか否かを検出する発話区間検出手段と、
    を備えたことを特徴とする発話検出装置。
  2. 前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームから、前記口唇特徴パターン検出する検出手段を更に備え、
    前記口唇特徴パターン特定手段は、前記撮像手段により連続的に撮像された画像フレーム中において、前記検出手段により検出された前記口唇特徴パターンを追跡して、前記口唇特徴パターンを特定すること
    を特徴とする請求項1に記載の発話検出装置。
  3. 前記相関値算出手段は、前記特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された連続複数の画像フレームのうちの任意の画像フレームの前記口唇包含パターンと、の最も高い相関値を各々算出する
    請求項1または請求項2に記載の発話検出装置。
  4. 前記相関値算出手段は、前記特定の画像フレームにおける前記口唇パターンと、前記特定の画像フレームの直前に撮像された連続複数の画像フレームのうちの任意の画像フレームの前記口唇包含パターンと、の最も高い相関値、及び前記口唇包含パターンにおける前記最も高い相関値が得られた位置を各々算出し、
    前記変動量算出手段は、前記相関値算出手段によって前記連続複数の画像フレームについて各々算出された、前記最も高い相関値、及び前記最も高い相関値が得られた位置に基づいて前記口唇の変動量を算出する
    請求項1〜請求項3の何れか1項に記載の発話検出装置。
  5. 前記口唇特徴パターンは、少なくとも話者の口角、上唇、下唇のいずれかの濃度パターンである
    請求項1〜請求項4の何れか1項に記載の発話検出装置。
  6. 少なくとも話者の口唇を撮像し、
    前記連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定し、
    前記連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定し、
    前記連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出し、
    前記相関値算出結果に基づいて前記口唇の変動量を算出し、
    前記算出された変動量に基づいて発話区間であるか否かを検出すること
    を特徴とする発話検出方法。
  7. 更に、前記連続的に撮像された画像フレーム中の、特定の画像フレームから、前記口唇特徴パターン検出し、
    前記口唇特徴領域の特定では、前記口唇特徴領域として、前記連続的に撮像された画像フレーム中において、前記検出手段により検出された前記口唇特徴パターンを追跡して、前記口唇特徴パターンを特定すること
    を特徴とする請求項に記載の発話検出方法。
  8. 前記相関値算出では、前記特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された連続複数の画像フレームのうちの任意の画像フレームの前記口唇包含パターンと、の最も高い相関値を各々算出すること
    を特徴とする請求項または請求項に記載の発話検出方法。
  9. 前記相関値算出では、前記特定の画像フレームにおける前記口唇パターンと、前記特定の画像フレームの直前に撮像された連続複数の画像フレームのうちの任意の画像フレームの前記口唇包含パターンと、の最も高い相関値、及び前記口唇包含パターンにおける前記最も高い相関値が得られた位置を各々算出し、
    前記変動量算出では、前記連続複数の画像フレームについて各々算出された、前記最も高い相関値、及び前記最も高い相関値が得られた位置に基づいて前記口唇の変動量を算出すること
    を特徴とする請求項6〜請求項8の何れか1項に記載の発話検出方法。
  10. 前記口唇特徴パターンは、少なくとも話者の口角、上唇、下唇のいずれかの濃度パターンである
    請求項6〜請求項9の何れか1項に記載の発話検出方法。
  11. コンピュータに、
    少なくとも話者の口唇を撮像させ、
    前記連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定させ、
    前記連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定させ、
    前記連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された1または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出させ、
    前記相関値算出結果に基づいて前記口唇の変動量を算出させ、
    前記算出された変動量に基づいて発話区間であるか否かを検出させること
    を特徴とする発話検出プログラム。
JP2005262751A 2005-09-09 2005-09-09 発話検出装置、方法及びプログラム Expired - Fee Related JP4650888B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005262751A JP4650888B2 (ja) 2005-09-09 2005-09-09 発話検出装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005262751A JP4650888B2 (ja) 2005-09-09 2005-09-09 発話検出装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2007079624A JP2007079624A (ja) 2007-03-29
JP4650888B2 true JP4650888B2 (ja) 2011-03-16

Family

ID=37939906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005262751A Expired - Fee Related JP4650888B2 (ja) 2005-09-09 2005-09-09 発話検出装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4650888B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11449307B2 (en) 2017-07-10 2022-09-20 Samsung Electronics Co., Ltd. Remote controller for controlling an external device using voice recognition and method thereof

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6044819B2 (ja) 2012-05-30 2016-12-14 日本電気株式会社 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム
CN105741838B (zh) 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
JP6775387B2 (ja) * 2016-11-11 2020-10-28 日本電信電話株式会社 推定方法及び推定システム
JP7023131B2 (ja) * 2018-02-08 2022-02-21 三菱電機株式会社 音声出力制御装置、及び音声出力制御プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091466A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11149296A (ja) * 1997-09-10 1999-06-02 Oki Electric Ind Co Ltd 単語認識装置
JP2005114576A (ja) * 2003-10-08 2005-04-28 Hitachi Software Eng Co Ltd 両親媒性分子固定化ビーズ、その製造方法、及びキャピラリビーズアレイのビーズ配列方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091466A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11449307B2 (en) 2017-07-10 2022-09-20 Samsung Electronics Co., Ltd. Remote controller for controlling an external device using voice recognition and method thereof

Also Published As

Publication number Publication date
JP2007079624A (ja) 2007-03-29

Similar Documents

Publication Publication Date Title
JP4986433B2 (ja) 物体を認識および追跡する装置及び方法
US7472063B2 (en) Audio-visual feature fusion and support vector machine useful for continuous speech recognition
JP4216668B2 (ja) 映像視覚情報を結合してリアルタイムで複数の顔を検出して追跡する顔検出・追跡システム及びその方法
JP4952625B2 (ja) 透視変換歪み発生文書画像補正装置および方法
CN112088315A (zh) 多模式语音定位
JP4650888B2 (ja) 発話検出装置、方法及びプログラム
US10997979B2 (en) Voice recognition device and voice recognition method
JP2011059186A (ja) 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
JP4860289B2 (ja) ロボット装置
JP7438684B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2007094104A5 (ja)
Hussain et al. Hand gesture recognition system with real-time palm tracking
Liu et al. A visual voice activity detection method with adaboosting
JP2012073971A (ja) 動画オブジェクト検出装置、方法、及びプログラム
JP2008015848A (ja) 物体領域探索方法,物体領域探索プログラムおよび物体領域探索装置
JP2008009728A (ja) 表情認識方法及び表情認識装置
JP3823760B2 (ja) ロボット装置
JP2006268563A (ja) 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
Yau et al. Visual speech recognition using motion features and hidden markov models
JP6916130B2 (ja) 話者推定方法および話者推定装置
JP2019049829A (ja) 目的区間判別装置、モデル学習装置、及びプログラム
Petsatodis et al. Voice activity detection using audio-visual information
JP4801251B2 (ja) 映像/音声ずれ補正方法及び装置
JP2021179721A (ja) 会話情報推定装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101208

R150 Certificate of patent or registration of utility model

Ref document number: 4650888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131224

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131224

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees