JP4650888B2

JP4650888B2 - 発話検出装置、方法及びプログラム

Info

Publication number: JP4650888B2
Application number: JP2005262751A
Authority: JP
Inventors: 貴志内藤; 吉央松本; 司小笠原
Original assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Current assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Priority date: 2005-09-09
Filing date: 2005-09-09
Publication date: 2011-03-16
Anticipated expiration: 2025-09-09
Also published as: JP2007079624A

Description

本発明は、発話検出装置、方法及びプログラムに係り、特に話者の口唇の画像から発話を検出する発話検出装置、方法及びプログラムに関する。

一般環境における音声認識システムは、周囲の騒音などに影響され、話者が話をしていなくてもその騒音をもとに音声認識を行い、結果的に誤認識をしてしまう。誤認識を低減する有効な方法の１つとして、話者の発話区間を検出し、その間のみで音声認識を行う手法が考えられる。

そこで、音声認識率を向上させるために、話者の唇の動きから発話区間を検出することが研究されている。特許文献１には、唇の輪郭の垂直方向の距離と基準値との差、あるいは唇の輪郭の曲率値から口の開閉を検出し、複数の対象者の中から話者を特定することが記載されている。また、非特許文献１には、現在の口唇パターンと、Ｎフレーム前の口唇パターンと、の差から発話状態を判定することが記載されている。
特開２０００−３３８９８７号公報村井、中村、「口周囲画像による雑音に剛健な会話検出」、音声言語情報処理３７−１０、２００１

一般に話者が会話をする場合は、話者の頭部の位置はある範囲で変動し、その結果画像上での話者の見え方も変動してしまう。そのため、口唇画像から発話区間を頑健に検出することが困難である。

特許文献１の場合、発話中に口唇の輪郭が変わるため、基準値自体が変動してしまい、精度よく発話状態を検出することができない問題がある。特許文献２の場合、現在の口唇パターンとＮフレーム前の口唇パターンとの差のみに注目して発話状態を判定しているので、ノイズなどの突発的変動要因の影響を受け易い問題がある。

本発明は、上述した課題を解決するために提案されたものであり、ノイズなどの突発的な要因に影響されることなく、高精度に話者の発話を検出する発話検出装置、方法及びプログラムを提供することを目的とする。

本発明に係る発話検出装置は、少なくとも話者の口唇を撮像する撮像手段と、前記撮像手段により連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定する口唇特徴パターン特定手段と、前記撮像手段により連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定する口唇包含パターン特定手段と、前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出する相関値算出手段と、前記相関値算出手段の算出結果に基づいて前記口唇の変動量を算出する変動量算出手段と、前記変動量算出手段により算出された変動量に基づいて発話区間であるか否かを検出する発話区間検出手段と、を備えている。

本発明に係る話者検出方法は、少なくとも話者の口唇を撮像し、前記連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定し、前記連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定し、前記連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出し、前記相関値算出結果に基づいて前記口唇の変動量を算出し、前記算出された変動量に基づいて発話区間であるか否かを検出する。

本発明に係る話者検出プログラムは、コンピュータに、少なくとも話者の口唇を撮像させ、前記連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定させ、前記連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定させ、前記連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出させ、前記相関値算出結果に基づいて前記口唇の変動量を算出させ、前記算出された変動量に基づいて発話区間であるか否かを検出させる。

撮像手段は、話者の口唇を撮像できるように設置されている。口唇特徴パターン特定手段は、連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定する。口唇包含パターン特定手段は、連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定する。

相関値算出手段は、連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出する。なお、「特定の画像フレームの直前に撮像された１または連続複数の画像フレーム」は、前記特定の画像フレームから連続するすべての画像フレームである必要はなく、任意の画像フレームであってもよい。

変動量算出手段は、相関値算出手段の算出結果に基づいて前記口唇の変動量を算出する。話者が発話していないときは、特定の画像フレームにおける前記口唇パターンと、その特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の口唇包含パターンに含まれる口唇パターンと、の変動量はほとんどなく、話者が発話しているときは、その変動量は大きな値になる。よって、口唇の変動量は、それらの変動量から求められる。

そこで、発話区間検出手段は、算出された変動量に基づいて発話区間であるか否かを検出できる。

なお、前記発明は、前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームから、前記口唇特徴パターンを検出する検出手段を更に備えてもよい。このとき、前記口唇特徴パターン特定手段は、前記撮像手段により連続的に撮像された画像フレーム中において、前記検出手段により検出された前記口唇特徴パターンを追跡して、前記口唇特徴パターンを特定すればよい。このとき、口唇特徴パターンは、少なくとも話者の口角、上唇、下唇のいずれかの濃度パターンであるとよい。

本発明に係る発話検出装置、方法及びプログラムは、連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇パターンと、前記特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出し、算出された変動量に基づいて発話区間であるか否かを検出することにより、ノイズ等の突発的な要因の影響を受けることなく、高精度に発話区間を検出することができる。

以下、本発明の好ましい実施の形態について図面を参照しながら詳細に説明する。

図１は、本発明の実施の形態に係る音声認識システムの構成を示す図である。音声認識システムは、毎秒例えば３０フレームで話者を撮像するＣＣＤイメージセンサ１と、ＣＣＤイメージセンサ１で撮像された画像をアナログ／ディジタル変換するＡ／Ｄコンバータ２と、Ａ／Ｄコンバータ２からの画像データに基づいて画像処理を行って話者の発話を検出する画像処理装置１０と、話者の音声が入力されるマイク２１と、マイク２１からの音声をアナログ／ディジタル変換するＡ／Ｄコンバータ２２と、画像処理装置１０で検出された発話と、音声データとに基づいて音声認識を行う音声認識装置３０と、を備えている。

ＣＣＤイメージセンサ１は、話者の顔あるいは話者の口周辺の画像を撮像できるように設置されている。マイク４は、話者の声が入力される位置に設置されている。

画像処理装置１０は、画像処理を行うＣＰＵ１１と、ワークエリアであるＲＡＭ１２と、ＣＰＵ１１の制御プログラムが記憶されているＲＯＭ１３と、を備えている。ＲＯＭ１３には、発話区間検出ルーチンのプログラムや、その他のプログラムが記憶されている。

図２は、画像処理装置１０の発話区間検出ルーチンを示すフローチャートである。画像処理装置１０は、話者の発話区間を検出すべく、次のようなステップ１０１移行の処理を実行する。

ステップ１０１では、画像処理装置１０のＣＰＵ１１は、ＣＣＤイメージセンサ２から話者の画像が入力されると、ステップ１０２に移行する。

ステップ１０２では、ＣＰＵ１１は、話者の口唇特徴パターンが登録（ＲＡＭ１２に記憶）されているか否かを判定する。

図３（ａ）及び（Ｂ）は、口唇特徴パターンの一例を示す図である。口唇特徴パターンとは、画像中での口唇の形状を追跡して特定するための濃度パターンである。濃度パターンとは、画像の画素毎の輝度レベルをパターン化したものでる。口唇特徴パターンは、図３（ａ）に示すように口の両端（口角）２箇所の濃度パターンや、同図（ｂ）に示すように上唇及び下唇の２箇所の濃度パターンでもよい。なお、口唇特徴パターンは、上記のように２箇所に限らず、図３（ａ）及び（ｂ）を組み合わせたものでもよいし、３箇所以上の濃度パターンであってもよい。

口唇特徴パターンが既に登録されているときは、現在撮像されている画像について口唇特徴パターンの追跡を行うべく、ステップ１０６に移行する。一方、口唇特徴パターンが登録されていないときは、口唇特徴パターンを登録すべく、ステップ１０３に移行する。なお、口唇特徴パターンは、ＲＡＭ１２に限らず、図示しない不揮発性ＲＡＭ、磁気ディスクなどの記憶媒体に記憶されていてもよい。

ステップ１０３では、ＣＰＵ１１は、Ａ／Ｄコンバータ２から供給される画像に基づいて、口唇の特徴的なパターン（口唇特徴パターン）を検出して、ステップ１０４に移行する。口唇特徴パターンの検出では、種々の画像処理の手法を用いることが可能である。

例えば図３（ａ）に示す口角の口唇特徴パターンに反応するニューラルネットワークを用意しておいき、入力された画像に対して上記ニューラルネットワークを適用することによって、図３（ａ）の口唇特徴パターンを容易に検出することができる。あるいは、画像のエッジヒストグラム分布から口角を特定し、口唇特徴パターンを登録してもよい。

ステップ１０４では、ＣＰＵ１１は、口唇特徴パターンを検出できたか否かを判定し、検出できたときはステップ１０５に移行し、検出できなかったときはステップ１０１に戻る。

ステップ１０５では、ＣＰＵ１１は、口唇特徴パターンをＲＡＭ１２に登録して、ステップ１０６に移行する。

ステップ１０６では、ＣＰＵ１１は、前フレーム画像における口唇特徴パターンの位置に基づいて現フレーム画像から口唇特徴パターンを追跡して、ステップ１０７に移行する。

図４は、口唇特徴パターンの探索範囲を示す図である。最初に、ＣＰＵ１１は、前フレーム画像の口唇特徴パターンの位置に基づいて、矩形点線で示す探索範囲を設定する。そして、この探索範囲内で予め登録された口唇特徴パターンに最も類似したパターンを有する領域を検出する。ここでは、例えば画像処理手法の１つである正規化相関処理手法などが利用可能である。

ステップ１０７では、ＣＰＵ１１は、口唇特徴パターンの追跡に成功したかを判定し、成功したときはステップ１０８に移行し、成功しなかったときは再びステップ１０１に戻る。なお、話者が頭部を激しく動かすなどして口唇特徴パターンの追跡に失敗する場合がある。失敗したか否かは、正規化相関処理によって得られる相関値を調べることによって判定可能である。

ステップ１０８では、ＣＰＵ１１は、追跡に成功した画像から口唇パターンを切り出して、ステップ１０９に移行する。口唇パターンとは、濃淡値の画像パターンである口唇特徴パターンと異なり、口唇を囲む矩形状のパターンである。つまり、口唇パターンは、口唇の形状を特定できる口唇特徴の矩形領域である。

図５は、口唇パターンの切り出しを説明する図である。ここでは、追跡している２つの口唇特徴パターン（本実施形態では２つの口角の濃度パターン）の中心座標を（ｘ１，ｙ１）、（ｘ２，ｙ２）（ただし、ｘ２＞ｘ１）する。このとき、ＣＰＵ１１は、幅（ｘ２−ｘ１）・ｒ１、高さ（ｘ２−ｘ１）・ｒ２、中心座標（（ｘ１＋ｘ２）／２，（ｙ１＋ｙ２）／２）の矩形領域を口唇パターンｆ（ｔ）として求めればよい。ｒ１及びｒ２は、口唇パターンｆ（ｔ）の切り出しのために予め設定された係数である。

なお、図３（ｂ）に示す口唇特徴パターンを追跡する場合、例えばその口唇特徴パターンの中心座標を（ｘ１，ｙ１）、（ｘ２，ｙ２）とすると、幅Ｗ、高さＨ、中心座標（（ｘ１＋ｘ２）／２，（ｙ１＋ｙ２）／２）の矩形領域を口唇パターンｆ（ｔ）とすればよい。すなわち、追跡すべき口唇特徴パターンに応じてｆ（ｔ）を設定すればよい。

次に、ＣＰＵ１１は、画像から、口唇パターンｆ（ｔ）を含むように口唇包含パターンＦ（ｔ）を切り出す。つまり、口唇包含パターンＦ（ｔ）は、口唇パターンｆ（ｔ）によって形状を特定された口唇を包含する矩形領域である。

図６は、口唇包含パターンＦ（ｔ）の切り出しを説明する図である。例えば、口唇パターンｆ（ｔ）の中心位置を（ｘ０，ｙ０）、口唇パターンの幅、高さをそれぞれＷ０、Ｈ０とする。このとき、ＣＰＵ１１は、中心位置（ｘ０，ｙ０）、幅Ｗ０・ｒ０、高さＨ０・ｒ０の口唇包含パターンＦ（ｔ）を求めればよい。ｒ０は、口唇包含パターンＦ（ｔ）の切り出しのための係数（＞１）である。

ステップ１０９では、ＣＰＵ１１は、切り出された口唇パターンｆ（ｔ）と、現在から直前Ｎフレーム分の口唇包含パターンＦ（ｔ−ｉ）（ｉ＝１，２，・・・，Ｎ）と、の相関値を算出する。これにより、口唇パターンｆ（ｔ）によって特定される口唇形状と、口唇包含パターンＦ（ｔ−ｉ）（ｉ＝１，２，・・・，Ｎ）によって特定される口唇形状と、が比較され、そして相関値が算出される。

具体的には、ＣＰＵ１１は、口唇パターンｆ（ｔ）を参照（テンプレート）画像、口唇包含パターンＦ（ｔ−ｉ）を探索画像として、画像相関処理を行い、相関値画像ｓ（ｆ（ｔ），Ｆ（ｔ−１））を算出する。ここで、口唇パターンｆ（ｔ）の画像サイズＷ０・Ｈ０、口唇包含パターンＦ（ｔ）の画像サイズをＷ１・Ｈ１（ただし、Ｗ１＞Ｗ０、Ｈ１＞Ｈ０）とすれば、相関値画像ｓ（ｆ（ｔ），Ｆ（ｔ−ｉ））の画像サイズは（Ｗ１−Ｗ０）・（Ｈ１−Ｈ０）となる。なお、画像相関処理手法としては、正規化相関処理方法などの公知の技術を用いればよい。ただし、相関値ｓは０から１までの値をとり、相関が高いほど（類似しているほど）大きな値になるように正規化される。

以下では、相関値画像ｓ（ｆ（ｔ），Ｆ（ｔ−ｉ））の座標（ｘ，ｙ）における相関値をｓｉ（ｘ，ｙ）と表す。ただし、ｘ＝０，１，・・・，（Ｗ１−Ｗ０−１）であり、ｙ＝０，１，・・・，（Ｈ１−Ｈ０−１）である。

つぎに、ＣＰＵ１１は、ｓｉ（ｘ，ｙ）の最大値ｓ＿ｍａｘ（ｔ，ｉ）と、そのときの座標（ｓｘ（ｔ，ｉ），ｓｙ（ｔ，ｉ））をそれぞれ算出する。このとき、
ｓ＿ｍａｘ（ｔ，ｔ−ｉ）＝ｓｉ（ｓｘ（ｔ，ｉ），ｓｙ（ｔ，ｉ））
である。

図７（ａ）は参照画像と探索画像の一例を示す図、（ｂ）は参照画像が探索画像中を走査している状態を示す図、（ｃ）は参照画像と探索画像の最も相関の高い位置を表す図、（ｄ）は相関値画像の一例を示す図である。ここでは、話者の口唇の画像の代わりに四角錐の画像が用いわれている。

ＣＰＵ１１は参照画像と探索画像の相関値を算出して相関値が最も高くなる位置を探すことによって、図７（ｂ）に示すように参照画像が探索画像中で走査され、図７（ｃ）に示すように参照画像と探索画像とのマッチング位置が探し出される。このとき、図７（ｄ）に示すように、マッチング位置における相関値画像が、ｓ＿ｍａｘとして求められる。なお、画像相関処理で用いられる探索画像（口唇包含パターンＦ（ｔ−ｉ））は、次のようにＮフレーム存在するのが好ましい。

図８は、口唇パターンｆ（ｔ）と口唇包含パターンＦ（ｔ−ｉ）（ｉ＝１、・・・、Ｎ）との画像相関処理を説明する図である。まず、ｆ（ｔ）とＦ（ｔ−１）で画像相関処理が行われ、最も高い相関値ｓ＿ｍａｘ（ｔ，１）が求められる。次に、ｆ（ｔ）とＦ（ｔ−２）で画像相関処理が行われ、最も高い相関値ｓ＿ｍａｘ（ｔ，２）が求められる。同様にして、ｆ（ｔ）とＦ（ｔ−３）で画像相関処理が行われ、最も高い相関値ｓ＿ｍａｘ（ｔ，３）が求められる。このようにして求められるＮ個の相関値ｓ＿ｍａｘは、次のステップＳ１１０で用いられる。

なお、口唇包含パターンＦ（ｔ）とＦ（ｔ−１）が全く同一の画像であれば、
ｓ＿ｍａｘ（ｔ，ｔ−ｉ）＝１
ｓｘ（ｔ，ｉ）＝（Ｗ１−Ｗ０）／２
ｓｙ（ｔ，ｉ）＝（Ｈ１−Ｈ０）／２
になる。

ステップ１１０では、ＣＰＵ１１は、現在から直前のＮフレームまで遡って求められた｛ｓ＿ｍａｘ（ｔ，ｔ−ｉ），ｓｘ（ｔ，ｉ），ｓｙ（ｔ，ｉ）；ｉ＝１，２，・・・，Ｎ｝から、口唇変動量Ｅ（ｔ）を式（１）より算出する。

図９は、（ａ）時刻ｔ、（ｂ）時刻ｔ＋１、（ｃ）時刻ｔ＋２、（ｄ）時刻ｔ＋３でそれぞれ得られた口唇特徴パターン、口唇パターンｆ、口唇包含パターンＦを示す図である。図９では、現在のフレームから２フレーム分過去に遡っているが、遡るフレーム数は特に限定されるものではない。図９を用いて、上述した各ステップについて説明する。

まず、図９（ａ）に示す時刻ｔにおける口唇包含パターンＦ（ｔ）は次のように求められる。口唇パターンｆ（ｔ）を検出するための口唇特徴パターンは、例えば左右の口角の矩形の矩形パターンのように、口唇特徴パターンに特徴的なパターンとして予め登録されている（ステップ１０２〜Ｓ１０５）。そして、口唇特徴パターンの位置から、矩形点線で表した口唇パターンｆ（ｔ）が検出される（ステップ１０７、Ｓ１０８）。次に、口唇パターンｆ（ｔ）を含む口唇包含パターンＦ（ｔ）が設定される。ここで、Ｆ（ｔ−２）、Ｆ（ｔ−１）の画像は、それぞれ時刻ｔ−２、ｔ−１の時点で得られた口唇包含パターンを示している。そして、Ｆ（ｔ−２）、Ｆ（ｔ−１）のそれぞれに対して、相関処理により、時刻ｔでの口唇パターンｆ（ｔ）と類似性の高い画像領域が探索される。

図１０は、口唇パターンｆ（ｔ）と最も類似度の高いパターンを探索することを説明するための図である。

同図に示すように、口唇パターンｆ（ｔ）と口唇包含パターンＦ（ｔ−１）との間での相関処理が行われて、実線矩形で表されるパターンが最も相関が高いものとする。このときの相関値（＝０〜１：１に近いほど相関が高い）をｓ（ｔ，ｔ−１）と表す。その位置の口唇パターンｆ（ｔ−１）に対するずれ量を（Δｘ（ｔ，ｔ−１），Δｙ（ｔ，ｔ−１））と表す。ずれ量は、図中の矩形左上座標値を（ｘｐ，ｙｐ）及び（ｘｑ，ｙｑ）とすると、｜ｘｐ−ｘｑ｜及び｜ｙｐ−ｙｑ｜となる。

話者が全く口唇を動かしていない場合、理想的にはＦ（ｔ）とＦ（ｔ−１）が全く同一画像パターンになるため、
ｓ（ｔ，ｔ−１）＝１．０、
（Δｘ（ｔ，ｔ−１），Δｙ（ｔ，ｔ−１））＝（０，０）
となる。

口唇変動量Ｅ（ｔ）は、上述した式（１）によって定義される。この定義から、口が動いていない（発話していない）と考えられる場合は、口唇変動量Ｅ（ｔ）は小さな値になる。時刻ｔ−Ｎからｔに亘って口が大きく動いている（発話している）と考えられる場合は、口唇変動量Ｅ（ｔ）は大きな値になる。そこで、口唇変動量Ｅ（ｔ）に基づいて、次のように、発話区間であるか否かが判定される。

ステップ１１１では、ＣＰＵ１１は、式（１）で算出された口唇変動量Ｅ（ｔ）と予め設定された閾値Ｅｔｈとを比較して、Ｅ（ｔ）＞Ｅｔｈであればステップ１１２に移行し、Ｅ（ｔ）≦Ｅｔｈであればステップ１１３に移行する。

ステップ１１２では、ＣＰＵ１１は、現在フレームは発話区間であると判定して、ステップ１１４に移行する。

ステップ１１３では、ＣＰＵ１１は、現在フレームは発話区間ではないと判定して、ステップ１１４に移行する。

ステップ１１４では、ＣＰＵ１１は、発話区間の判定結果を音声認識装置３０に送信して、処理を終了する。そして、再びステップ１０１移行の処理が実行される。これにより、音声認識装置３０は、画像処理装置１０の判定結果、つまり発話区間であるか否かを考慮しながら、Ａ／Ｄコンバータ２２から供給された音声データについて音声認識を行うことができるので、認識率を向上させることができる。

以上のように、本発明の実施の形態に係る音声認識システムは、登録された口唇特徴パターンから得られた口唇パターンｆ（ｔ）と、Ｎフレーム前まで遡った口唇包含パターンＦ（ｔ−ｉ）と、の相関値から算出される口唇変動量に基づいて、発話区間であるか否かを検出する。このように、発話区間の検出にＮフレーム前までの変化量を用いているので、上記音声認識システムは、話者の口唇が微小に変化した場合であっても、その影響を受けることなく、確実に発話区間を検出することができる。

また、音声認識システムは、単純にパターン間の相関値を演算するのではなく、現在の口唇パターンｆ（ｔ）と過去の口唇包含パターンＦ（ｔ）との相関処理によって最も相関の高い位置を求めているので、口唇特徴パターンが変動して口唇パターンの切り出し誤差に影響が生じてしまうことを低減することができる。

さらに、音声認識システムは、唇の色情報、輪郭情報、端点情報などを求めるための煩雑な画像処理手法を利用せず、濃度パターン及びその位置情報から矩形状の口唇パターンｆ（ｔ）及び口唇包含パターンＦ（ｔ）を算出するので、演算負荷を低減して高速に発話区間を検出できる。

そして、音声認識システムは、発話区間であるか否かの判定結果を考慮しながら、話者の音声データを用いて音声認識を行うので、識別率を向上させて、高精度に音声認識を行うことができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能であるのは勿論である。

例えば、画像処理装置１０のＣＰＵ１１は、式（１）の代わりに、次の式（２）、式（３）、式（４）のいずれかを用いてもよい。

式（２）及び式（３）では、距離情報Δｄを用いることなく、口唇変動量Ｅ（ｔ）が演算される。また、式（３）、（４）ではフレームに応じた重み係数α（ｉ）を用いる。さらには、次の式(５)を用いてもよい。

図１１は、口唇パターンｆ（ｔ）と口唇包含パターンＦ（ｔ−ｉ）の他の画像相関処理を説明する図である。同図及び式(５)に示すように、ｆ（ｔ）とＦ（ｔ−１）、ｆ（ｔ−１）とＦ（ｔ−２）、ｆ（ｔ−２）とＦ（ｔ−３）の間で画像相関処理を行ってもよい。すなわち、口唇パターンｆ（ｔ）とその直前１フレームの口唇包含パターンＦ（ｔ−１））との間で最も高い相関値を演算し、最も高い相関値の和から口唇変動量Ｅ（ｔ）を算出してもよい。

また、ＣＰＵ１１は、口唇変動量Ｅ（ｔ）の計算の際に用いるフレームをｉ＝１，３，５，・・・，Ｎのようにして、フレームを間引いてもよい。これにより、処理時間を短縮して発話区間を検出することができる。

本発明の実施の形態に係る音声認識システムの構成を示す図である。画像処理装置１０の発話区間検出ルーチンを示すフローチャートである。口唇特徴パターンの一例を示す図である。口唇特徴パターンの探索範囲を示す図である。口唇パターンの切り出しを説明する図である。口唇包含パターンＦ（ｔ）の切り出しを説明する図である。（ａ）は参照画像と探索画像の一例を示す図、（ｂ）は参照画像が探索画像中を走査している状態を示す図、（ｃ）は参照画像と探索画像の最も相関の高い位置を表す図、（ｄ）は相関値画像の一例を示す図である。口唇パターンｆ（ｔ）と口唇包含パターンＦ（ｔ−ｉ）の画像相関処理を説明する図である。（ａ）時刻ｔ、（ｂ）時刻ｔ＋１、（ｃ）時刻ｔ＋２、（ｄ）時刻ｔ＋３でそれぞれ得られた口唇特徴パターン、口唇パターンｆ、口唇包含パターンＦを示す図である。口唇パターンｆ（ｔ）と最も類似度の高いパターンを探索することを説明するための図である。口唇パターンｆ（ｔ）と口唇包含パターンＦ（ｔ−ｉ）の他の相関処理を説明する図である。

符号の説明

１ＣＣＤイメージセンサ
２，２２Ａ／Ｄコンバータ
１０画像処理装置
１１ＣＰＵ
１２ＲＡＭ
１３ＲＯＭ
２１マイク
３０音声認識装置

Claims

少なくとも話者の口唇を撮像する撮像手段と、
前記撮像手段により連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定する口唇特徴パターン特定手段と、
前記撮像手段により連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定する口唇包含パターン特定手段と、
前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出する相関値算出手段と、
前記相関値算出手段の算出結果に基づいて前記口唇の変動量を算出する変動量算出手段と、
前記変動量算出手段により算出された変動量に基づいて発話区間であるか否かを検出する発話区間検出手段と、
を備えたことを特徴とする発話検出装置。
前記撮像手段により連続的に撮像された画像フレーム中の、特定の画像フレームから、前記口唇特徴パターンを検出する検出手段を更に備え、
前記口唇特徴パターン特定手段は、前記撮像手段により連続的に撮像された画像フレーム中において、前記検出手段により検出された前記口唇特徴パターンを追跡して、前記口唇特徴パターンを特定すること
を特徴とする請求項１に記載の発話検出装置。
前記相関値算出手段は、前記特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された連続複数の画像フレームのうちの任意の画像フレームの前記口唇包含パターンと、の最も高い相関値を各々算出する
請求項１または請求項２に記載の発話検出装置。
前記相関値算出手段は、前記特定の画像フレームにおける前記口唇パターンと、前記特定の画像フレームの直前に撮像された連続複数の画像フレームのうちの任意の画像フレームの前記口唇包含パターンと、の最も高い相関値、及び前記口唇包含パターンにおける前記最も高い相関値が得られた位置を各々算出し、
前記変動量算出手段は、前記相関値算出手段によって前記連続複数の画像フレームについて各々算出された、前記最も高い相関値、及び前記最も高い相関値が得られた位置に基づいて前記口唇の変動量を算出する
請求項１〜請求項３の何れか１項に記載の発話検出装置。
前記口唇特徴パターンは、少なくとも話者の口角、上唇、下唇のいずれかの濃度パターンである
請求項１〜請求項４の何れか１項に記載の発話検出装置。
少なくとも話者の口唇を撮像し、
前記連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定し、
前記連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定し、
前記連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出し、
前記相関値算出結果に基づいて前記口唇の変動量を算出し、
前記算出された変動量に基づいて発話区間であるか否かを検出すること
を特徴とする発話検出方法。
更に、前記連続的に撮像された画像フレーム中の、特定の画像フレームから、前記口唇特徴パターンを検出し、
前記口唇特徴領域の特定では、前記口唇特徴領域として、前記連続的に撮像された画像フレーム中において、前記検出手段により検出された前記口唇特徴パターンを追跡して、前記口唇特徴パターンを特定すること
を特徴とする請求項６に記載の発話検出方法。
前記相関値算出では、前記特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された連続複数の画像フレームのうちの任意の画像フレームの前記口唇包含パターンと、の最も高い相関値を各々算出すること
を特徴とする請求項６または請求項７に記載の発話検出方法。
前記相関値算出では、前記特定の画像フレームにおける前記口唇パターンと、前記特定の画像フレームの直前に撮像された連続複数の画像フレームのうちの任意の画像フレームの前記口唇包含パターンと、の最も高い相関値、及び前記口唇包含パターンにおける前記最も高い相関値が得られた位置を各々算出し、
前記変動量算出では、前記連続複数の画像フレームについて各々算出された、前記最も高い相関値、及び前記最も高い相関値が得られた位置に基づいて前記口唇の変動量を算出すること
を特徴とする請求項６〜請求項８の何れか１項に記載の発話検出方法。
前記口唇特徴パターンは、少なくとも話者の口角、上唇、下唇のいずれかの濃度パターンである
請求項６〜請求項９の何れか１項に記載の発話検出方法。
コンピュータに、
少なくとも話者の口唇を撮像させ、
前記連続的に撮像された画像フレーム中において、前記話者の口唇の特徴を表しかつ前記口唇の形状を追跡して特定するための口唇特徴パターンを特定させ、
前記連続的に撮像された画像フレーム中において、前記口唇特徴パターンの位置によって特定される口唇を囲む矩形領域である口唇パターンを包含する矩形領域である口唇包含パターンを特定させ、
前記連続的に撮像された画像フレーム中の、特定の画像フレームにおける前記口唇特徴パターンによって特定される前記口唇パターンと、前記特定の画像フレームの直前に撮像された１または連続複数の画像フレーム中の前記口唇包含パターンとを比較し、これらの相関値を算出させ、
前記相関値算出結果に基づいて前記口唇の変動量を算出させ、
前記算出された変動量に基づいて発話区間であるか否かを検出させること
を特徴とする発話検出プログラム。