JP2023009128A

JP2023009128A - 音声認識装置、ロボット、音声認識方法及びプログラム

Info

Publication number: JP2023009128A
Application number: JP2022176980A
Authority: JP
Inventors: 崇史山谷; Takashi Yamatani
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-08-29
Filing date: 2022-11-04
Publication date: 2023-01-19
Also published as: JP7196467B2; JP2020035137A

Abstract

【課題】開閉状態判定装置、方法、プログラム、音声認識装置、及びロボットに関し、対象物の向きや位置が変動することに起因する外乱の影響に対する対象物の開閉状態の判定のロバスト性を高め、対象物の開閉状態を適切に判定する。【解決手段】口開閉状態推定部３０４は、口パーツ検出部３０３が出力する対象者の口唇画像から取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する口開閉状態推定処理を実行する。口開閉動作検出部３０５は、口開閉状態推定部３０４で算出された広がり度合パラメータ（例えば固有値比又は特異値比）に基づいて、対象者の口唇の開閉動作（口唇を開いたり閉じたりする動作）が行われている状態と、口唇の開閉動作が行われていない状態とを判定する口開閉動作検出処理を実行する。【選択図】図３

Description

本発明は、開閉状態判定装置、方法、プログラム、音声認識装置、及びロボットに関する。

従来、対象物の開閉状態を判定する開閉状態判定装置として、例えば特許文献１に開示されたものが知られている。この公報に開示された開閉状態判定装置では、対象物としての対象者の口唇の開閉状態が次のようにして判定される。すなわち、撮像部で撮像された口唇の撮像画像に対して２値化処理を施すことなどによって、口唇の内側の輪郭領域として口輪郭領域が検出され、検出された口輪郭領域の左右の端点（一対の口角）の間の距離Ｄｈ及び上下の端点の間の距離Ｄｖが算出される。また、前者Ｄｈに対する後者Ｄｖの比として口唇の縦横比が算出され、算出された縦横比と所定の閾値との比較結果に基づいて、口唇の開閉状態が判定される。

特開２００２－１９７４６５号公報

しかし、対象物としての口唇の撮像画像には、様々な外乱が含まれうる。例えば、対象者の顔の位置は常に一定とは限らず、対象者がうなずいたり、首をかしげたり、横を向いたりして顔が様々な方向に回転することにより、光源や撮像部に対して顔の向きや位置が変化する。図１０は、対象物の頭部の回転の自由度を模式的に表した図である。対象物の頭部は、ピッチ軸Ｘｍの軸回り、ロール軸Ｚｍの軸回り、ヨー軸Ｙｍの軸回りにそれぞれ回転し得る。このような対象物の各方向の回転に伴い、その対象物を撮像して得られる撮像画像において、撮像時の光源やカメラの位置関係が変わることで、口唇動作がない場合でも、口唇の陰影のつき方や形状の変化が発生する。この結果、上述した従来の開閉状態判定装置では、口唇の縦横比を適切に算出できず、ひいては、口唇の開閉状態を適切に判定することができないおそれがある。

以上説明したように、従来の開閉状態判定装置では、対象物の向きや位置が変動することに起因する外乱の影響に対する判定のロバスト性が低く、この影響によって、対象物の開閉状態を適切に判定することができない。

本発明は、対象物の向きや位置が変動することに起因する外乱の影響に対する対象物の開閉状態の判定のロバスト性を高め、対象物の開閉状態を適切に判定することを目的とする。

態様の一例では、所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置であって、撮像手段により撮像された対象物を含む撮像画像を取得する画像取得手段と、取得された撮像画像における対象物に対応する複数の点の座標を取得する座標取得手段と、取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、算出された広がり度合パラメータに基づいて、対象物の開閉状態を判定する判定手段と、を備える。

本発明によれば、対象物の向きや位置が変動することに起因する外乱の影響に対する対象物の開閉状態の判定のロバスト性を高めることができ、対象物の開閉状態を適切に判定することが可能となる。

本発明の実施の形態にかかるロボットの外観図である。ロボットの構成を示すブロック図である。ロボットの対話機能の構成を示すブロック図である。ロボットの対話機能における顔検出処理、口パーツ検出処理、口開閉状態推定処理、口開閉動作検出処理、音声期間検出処理、及び音声認識処理を実行するための処理の一例を示すフローチャートである。ラベル付けされた顔パーツ検出結果のフォーマット例を示す図である。点群の座標情報の例を示す図である。口開閉状態推定処理の詳細例の第１の実施形態を示すフローチャートである。口開閉状態推定処理の詳細例の第２の実施形態を示すフローチャートである。口開閉動作検出処理の詳細例の実施形態を示すフローチャートである。頭部の回転の自由度を模式的に表した図である。口唇開閉動作検出の一般的な問題点の説明図である。

以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。本発明による開閉状態判定装置は、例えばロボットに搭載された音声認識装置の前処理としてロボットのカメラで撮像された対象物としての人間の口唇の開閉状態を判定する装置として実施される。図１は、実施の形態に係る開閉状態判定装置及び音声認識装置を備えたロボット１００を正面から見た場合の外観を模式的に示した図である。

図１のロボット１００は、頭部１０１と胴体１０２とを備えた人型のコミュニケーションロボットである。ロボット１００は、例えば住宅内に設置され、所定の対象である住人等（以下「対象者」と記載）に呼びかけられると、呼びかけた対象者と会話する。

図１に示すように、ロボット１００の頭部１０１には、カメラ１０４と、音声取得手段であるマイクアレイ１０３と、スピーカ１０５と、センサ群１０６が設けられ、胴体１０２には、首関節駆動部１０７と、足回り駆動部１０８と、が設けられている。

画像取得手段であるカメラ１０４は、頭部１０１の前面の下側、人の顔でいうところの鼻の位置に設けられている。カメラ１０４は、後述する制御部２０１の制御の下、所定のフレームレート（例えば３０ｆｐｓ（フレーム／秒））で連続的に撮像を行う。

マイクアレイ１０３は、例えば１３個のマイクからなる。１３個のマイクのうちの８個のマイクが、人の顔でいうところの額の高さの位置であって、頭部１０１の周回りに等間隔で配置されている。これら８個のマイクよりも上側に、４個のマイクが頭部１０１の周回りに等間隔で配置されている。更に、１個のマイクが頭部１０１の頭頂部に配置されている。マイクアレイ１０３はロボット１００の周囲で発生した音を検出する。

スピーカ１０５は、カメラ１０４より下側、人の顔でいうところの口の位置に設けられている。スピーカ１０５は、後述する制御部２０１の制御の下、各種の音声を出力する。

センサ群１０６は、人の顔でいうところの目の位置と耳の位置とに設けられている。センサ群１０６は、加速度センサ、障害物検知センサ等を含み、ロボット１００の姿勢制御や、安全性の確保のために使用される。

首関節駆動部１０７は、頭部１０１と胴体１０２とを連結する部材である。頭部１０１は、破線で示される首関節駆動部１０７によって、胴体１０２に連結されている。首関節駆動部１０７は、複数のモータを含む。後述する制御部２０１がこれら複数のモータを駆動すると、ロボット１００の頭部１０１が回転する。首関節駆動部１０７は、ロボット１００の頭部１０１を回転させると共にその回転量を取得する役割を有する。

足回り駆動部１０８は、ロボット１００を移動させる役割を有する。特には図示しないが、足回り駆動部１０８は、胴体１０２の下側に設けられた４つの車輪（ホイール）を含む。４つの車輪のうち、２つが胴体１０２の前側に、残り２つが後ろ側に配置されている。車輪として、例えば、オムニホイール、メカナムホイールが使用される。制御部２０１は、足回り駆動部１０８の車輪を回転させることにより、ロボット１００を移動させる。

図２は、図１の外観を有するロボット１００の制御系であるロボット制御システム２００を示すブロック図である。図２において、図１と同じ参照番号を付した部分は図１と同じものである。図２において、胴体１０２内に設置される制御部２０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算処理装置）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）等を含む。制御部２０１は、頭部１０１内のマイクアレイ１０３、カメラ１０４、スピーカ１０５、センサ群１０６、胴体１０２内の首関節駆動部１０７及び足回り駆動部１０８と、それぞれ電気的に接続され、ＲＡＭを作業領域として、後述する記憶部２０２に記憶されている制御プログラム２０５を読み出して実行することにより、前記各部を制御する。

記憶部２０２は、ソリッドステートディスクドライブ、ハードディスクドライブ、フラッシュメモリ等を含み、胴体１０２の内部に設けられている。記憶部２０２は、制御部２０１によって実行される制御プログラム２０５、マイクアレイ１０３が集音した音声データ、カメラ１０４が撮像した画像データ等を含む各種データを記憶する。記憶部２０２が記憶する制御プログラム２０５には、後述する図４、図７又は図８、及び図９のフローチャートに記載の顔検出処理、口パーツ検出処理、口開閉状態推定処理、口開閉動作検出処理、音声期間検出処理、及び音声認識処理を実行するための処理プログラム等が含まれる。

操作ボタン２０３は、胴体１０２の背中に設けられている（図１において不図示）。操作ボタン２０３は、ロボット１００を操作するための各種のボタンであり、電源ボタン、スピーカ１０５の音量調節ボタン等を含む。

電源部２０４は、胴体１０２に内蔵された充電池であり、ロボット制御システム２００の各部に電力を供給する。

図３は、図２の制御部２０１が記憶部２０２内の制御プログラム２０５を実行する機能の一部として実現される対話機能の構成を示すブロック図である。この対話機能の構成として、画像入力部３０１、顔検出部３０２、口パーツ検出部３０３、口開閉状態推定部３０４、口開閉動作検出部３０５、音声期間検出部３０６、音声入力部３０７、音声認識部３０８、及び発声部３０９を備えている。なお、図３に示される各機能部は、制御部２０１内のＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＡｒｒａｙ）等のハードウェアによって実現されてもよい。

図３において、画像入力部３０１（画像取得手段）は、図１のカメラ１０４（撮像手段）により撮像された対象者（対象物）を含む撮像画像を取得する。具体的には、画像入力部３０１は、図１のカメラ１０４から、前記所定のフレームレートで連続的に撮像された画像を入力する。

顔検出部３０２は、特許請求の範囲に記載の座標取得手段の一部の機能を有し、画像入力部３０１により入力された画像から対象者の顔領域を検出する顔検出処理を実行する。

口パーツ検出部３０３は、特許請求の範囲に記載の座標取得手段の一部の機能を有し、口パーツ検出処理を実行する。これにより、口パーツ検出部３０３は、顔検出部３０２が検出した顔領域から対象者の口パーツ（口唇）を検出するとともに、対象者の口唇に対応する複数の点の座標を取得する。

口開閉状態推定部３０４は、特許請求の範囲に記載の算出手段として機能し、口開閉状態推定処理を実行する。これにより、口開閉状態推定部３０４は、口パーツ検出部３０３が取得した複数の点の座標に対して主成分分析を少なくとも行うことによって、複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する。

口開閉動作検出部３０５は、特許請求の範囲に記載の判定手段として機能し、口開閉動作検出処理を実行する。これにより、口開閉動作検出部３０５は、口開閉状態推定部３０４で算出された広がり度合パラメータに基づいて、対象者の口唇の開閉動作（口唇を開いたり閉じたりする動作）が行われている状態と、口唇の開閉動作が行われていない状態とを判定する。

ここで、口開閉動作検出部３０５は、上記判定の処理に先だって、口開閉状態推定部３０４で算出された広がり度合パラメータに対し、ノイズを抑制するためのフィルタ処理であるノイズ除去処理を実行してよい。このとき、口開閉動作検出部３０５は、特許請求の範囲に記載のフィルタ手段として動作する。

音声期間検出部３０６は、特許請求の範囲に記載の音声期間検出手段として機能し、口開閉動作検出部３０５の判定結果に基づいて、対象者が発声している期間である対象者の音声期間を検出する音声期間検出処理を実行する。

音声入力部３０７は、特許請求の範囲に記載の音声取得手段として機能し、図１のマイクアレイ１０３を構成する各マイクから、音声を入力し、入力した音声を適宜、前記ＲＡＭに記憶する。

音声認識部３０８は、特許請求の範囲に記載の音声認識手段として機能し、音声期間検出部３０６により検出された音声期間内に音声入力部３０７により入力され、記憶された対象者の音声に基づいて、既知の音声認識技術を使って、対象者の音声を認識する音声認識処理を実行する。

発声部３０９は、音声認識部３０８での音声認識結果に応じて、対話アルゴリズムに従って、既知の音声合成技術を使って音声合成による発声処理を実行する。発声処理により発声された音声は、図１及び図２のスピーカ１０５を介して、対象者に対して発声され、対象者と図１のロボット１００との対話が行われる。

図４は、上述した顔検出処理、口パーツ検出処理、口開閉状態推定処理、口開閉動作検出処理、音声期間検出処理、及び音声認識処理を実行するための処理の一例を示すフローチャートである。このフローチャートの処理例は、図３のブロック図の構成を実現する制御部２０１のハードウェアが実行する処理として、又は図２の制御部２０１が実行する制御プログラム２０５の処理として実現される。

まず、制御部２０１が、特には図示しない内部のＲＡＭに変数として持つ「開フラグ」の値を０に初期化する（ステップＳ４０１）。なお、図４において、開フラグの値が０であることを「開＝０」と表記する。

次に、図３の顔検出部３０２が、顔検出処理を実行する（ステップＳ４０２）。この顔検出処理では、カメラ１０４から画像入力部３０１を介して入力された画像から、顔領域を検出する。顔検出処理としては、既知の顔検出技術を使用することができる。例えば、下記文献１に記載されている何れかの顔検出技術が適用されてよい。
＜文献１＞
堀田一弘、”小特集顔認識技術 1.顔認識の研究動向”、[online]、2012年3月28日公開、映像情報メディア学会誌、Vol.64,No.4(2010),p.459-462、[2018年8月6日検索］、インターネット
<URL:https://www.jstage.jst.go.jp/article/itej/64/4/64_4_455/_pdf>

次に、図３の口パーツ検出部３０３が、顔検出処理で検出された顔領域の画像を用いて、口パーツ検出処理を実行する（ステップＳ４０３）。口パーツ検出処理としては、既知の顔パーツ検出技術を使用することができる。例えば、下記文献２に記載されている何れかの顔パーツ検出技術が採用されてよい。
＜文献２＞
littlewing、“WEBカメラで利用できる顔認識技術まとめ-その2”、[online]、2015年4月7日公開、[2018年8月6日検索]、インターネット
<URL:http://littlewing.hatenablog.com/entry/2015/04/07/221856>

ステップＳ４０３の口パーツ検出処理により、まず例えばラベル付けされた座標値である顔パーツ検出結果が得られる。ラベル付けされた顔パーツ検出結果のフォーマット例としては、例えば図５の５０１として示されるように、下記文献３のFigure2として記載されている例を採用することができる。
＜文献３＞
C.sagonas,”Facial point annotations”、[online]、[2018年8月6日検索]、インターネット
<URL:https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/>

ステップＳ４０３の口パーツ検出処理では、図５の５０１として例示される顔パーツ検出結果のうちの例えば、ラベル４９から６８を、口パーツの複数の点の座標として、すなわち対象者の口唇に対応する複数の点の座標として取得する。この場合の複数の点の座標は、例えば図６（ａ）のように離散的な複数の点（図５のラベル４９から６８の点群）の座標群でもよいし、図６（ｂ）のような口唇の輪郭線の線を表す座標でもよいし、図６（ｃ）のような口唇の輪郭とその内部のエリアの全ての点の座標群でもよい。

次に、図３の口開閉状態推定部３０４が、口開閉状態推定処理を実行する（ステップＳ４０４）。これにより、ステップＳ４０３の口パーツ検出処理により取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、複数の点から成る点群の広がり度合を表す広がり度合パラメータが算出される。

図７は、図４のステップＳ４０４の口開閉状態推定処理の詳細例の第１の実施形態を示すフローチャートである。

まず制御部２０１は、ステップＳ４０３の口パーツ検出処理により検出される口唇に対応した複数の点の座標（例えば図５のラベル４９から６８の点）から、共分散行列を計算する（ステップＳ７０１）。

次に、制御部２０１は、ステップＳ７０１で算出した共分散行列を固有値分解して、第１固有ベクトルに対応する第１固有値と、第２固有ベクトルに対応する第２固有値とを求める（ステップＳ７０２）。

図７のステップＳ７０１の共分散行列の計算及び共分散行列の固有値分解の計算からなる操作は、主成分分析（ＰＣＡ：ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）と呼ばれ、口唇に対応する複数の点から成る点群を、口唇をモデル化した楕円にフィッティングしているとみなせる。よって、フィッティングした楕円の短軸の長さ（短径）と長軸の長さ（長径）との比を調べれば点群の広がり具合が分かる。

上述のように楕円が口唇の境界線を表しているとモデル化すると、口唇を表す点群はこの楕円付近に検出される。この場合に、顔を含む頭部が図１０で説明したように、ピッチ軸Ｘｍの軸回り、ロール軸Ｚｍの軸回り、ヨー軸Ｙｍの軸回りにそれぞれ回転して動いた場合に、或る画像フレームで図１１（ａ）のように検出された点群が別の画像フレームで図１１（ｂ）のように検出されたりする結果、画像の水平、垂直の直交軸上で口唇の形状を検出しようとする一般的な手法では、口唇の点群が誤って検出される恐れがある。また、顔が図１０のロール軸Ｚｍの軸周りに回転したような場合には、口唇を表す楕円が図１２（ｃ）のように傾いてその楕円上の点群が検出され、この場合にも、画像の水平、垂直の直交軸上で口唇の形状を検出しようとする一般的な手法では、口が閉じる方向に動作していると誤判定される可能性もある。これに対して、本実施形態により、主成分分析により口唇に対応する複数の点から成る点群を口唇をモデル化した楕円にフィッティングした楕円の短軸の長さ（短径）と長軸の長さ（長径）との比として算出された点群の広がり具合は、顔の平行移動とロール軸Ｚｍ（図１０参照）の軸回りの回転の影響を受けない。また、ピッチ軸Ｘｍ又はヨー軸Ｙｍ（図１０参照）の軸回りの多少の回転変動があっても、それによる影響は軽微である。更に、口唇の点群の検出位置が実際の位置に対して平均ゼロの乱雑さがあっても、分散という統計量を用いて計算しているので、顔の回転変動による影響を軽減できロバスト性が向上する。口唇の点群の数が増えればその効果は増す。

上述の主成分分析は、よく知られた多変量解析手法であり、例えば下記文献４に詳細に説明されている。
＜文献４＞
ウィキペディア、”主成分分析”、[online]、[2018年8月6日検索]、インターネット
<URL:https://ja.wikipedia.org/wiki/主成分分析#詳細>

また、主成分分析に基づく図７のステップＳ７０１及びステップＳ７０２に基づく主成分分析の具体的な計算方法としては、例えば下記文献５に記載の方法を採用することができる。
＜文献５＞
Open Source Computer Vision,“cv::PCA Class Reference”、[online]、[2018年8月6日検索]、インターネット
<URL: https://docs.opencv.org/3.4/d3/d8d/classcv_1_1PCA.html>

図７のフローチャートの説明に戻り、制御部２０１は、ステップＳ７０２で算出した第１固有値及び第２固有値の算出結果に基づいて、口角を結んだ方向に対応する第１固有値で、他方の第２固有値を除算することにより広がり度合パラメータとしての固有値比を計算して、口開閉状態とする（ステップＳ７０３）。多くの場合、口角を結んだ方向が楕円の長軸になるので、ロール軸Ｚｍ（図１０参照）の軸回りの回転の影響を受けない。なお、「（最小の固有値）／（最大の固有値）」によって固有値比を計算してもよいが、大口を開けた（口角を結んだ方向が短軸になる）場合に、口開閉状態の判定を誤る可能性がある。そのため、ロール軸Ｚｍの軸回りの角度変位が±４５度未満であることを仮定して、「（垂直方向に相当する固有ベクトルの固有値）／（水平方向に相当する固有ベクトルの固有値）」を計算してよい。ここでは、主成分分析により得られた２つの固有ベクトルについて、その水平方向の成分が垂直方向の成分よりも大きい固有ベクトルを水平方向に相当する固有ベクトルとし、これとは逆に、垂直方向の成分が水平方向の成分よりも大きい固有ベクトルを垂直方向に相当する固有ベクトルとする。すなわち、固有ベクトルを（ｘ、ｙ）として、｜ｘ｜＞｜ｙ｜ならば、その固有ベクトルは水平方向に相当する固有ベクトルである。この求めた固有値比が口唇の開閉状態を示し、その固有値比の値が、小さいと口を閉じていると判定でき、大きいと口を開いていると判定できる。

図８は、図３の口開閉状態推定部３０４が実行する口開閉状態推定処理の詳細例の第２の実施形態を示すフローチャートである。この処理例は、主成分分析として、図７の処理例における固有値分解の代わりに、特異値分解を行う例である。

まず制御部２０１は、図３の口パーツ検出部３０３により取得された口唇に対応した複数の点（例えば図５のラベル４９から６８の点）の座標を平均することによってそれら複数の点の中心の座標を算出する（ステップＳ８０１）。

次に、制御部２０１は、ステップＳ８０１で算出した複数の点の中心の座標を、点群を構成する複数の点の座標の各々から減算することによって、各偏差を算出する（ステップＳ８０２）。

続いて、制御部２０１は、ステップＳ８０２で算出した各偏差をベクトルとする行列を特異値分解することによって、口角方向（一対の口角を結ぶ線が延びる方向）に対応する特異値である第１特異値と、開閉方向（口角方向に直交する方向）に対応する特異値である第２特異値とを算出する（ステップＳ８０３）。この場合、前述した図７に示す処理の場合と同様の理由により、特異値分解により得られた２つの特異ベクトルのうち、水平方向の成分がより大きい特異ベクトル及び垂直方向の成分がより大きい特異ベクトルをそれぞれ、第１特異ベクトル及び第２特異ベクトルとし、第１特異ベクトルに対応する第１特異値を、口角方向に対応する特異値とみなし、第２特異ベクトルに対応する第２特異値を、開閉方向に対応する特異値としている。この特異値分解により、２×２の行列と２つの特異値、（点の数）×（点の数）の行列が得られる。２×２の行列が固有ベクトルに相当し、対応する第１及び第２特異値は、第１及び第２固有値の平方根にそれぞれ相当する。

上述の特異値分解は、主成分分析の具体的な実装としてよく知られた手法であり、例えば前述の文献４又は文献６に詳細に説明されている。
＜文献６＞
JMPデータ分析ソフトウェア from SAS Institute Inc.,、”特異値分解と共分散行列”、[online]、[2018年8月6日検索]、インターネット
<URL: http://jmp.com/japan/support/help/13/mm-statistical-details-4.shtml>

また、特異値分解の具体的な計算方法としては、例えば下記文献７又は文献８に記載の方法を採用することができる。
＜文献７＞
Open Source Computer Vision,“Singular value matrix decomposition”、[online]、[2018年8月6日検索]、インターネット
<URL:https://docs.opencv.org/3.4/dd/d2a/group__core__hal__interface__decomp__svd.html>
＜文献８＞
OpenCV.jp:OpenCV逆引きリファレンス、”特異値分解を行う”、[online]、[2018年8月6日検索]、インターネット
<URL:http://opencv.jp/cookbook/opencv_linalg.html#id26>

図８のフローチャートの説明に戻り、制御部２０１は、ステップＳ８０３で算出した第１特異値及び第２特異値の算出結果に基づいて、口角方向に対応する第１特異値で、開閉方向に対応する第２特異値を除算することにより広がり度合パラメータとしての特異値比を算出する（ステップＳ８０４）。このように算出された特異値比は、図７のステップＳ７０３で算出された固有値比の平方根に相当する。従って、特異値比が、所定値よりも小さいときに口が閉じている状態であると判定でき、所定値よりも大きいときに口が開いている状態であると判定できる。

図４のフローチャートの説明に戻り、以上説明した図７又は図８のフローチャートの詳細例で示される図４のステップＳ４０４の処理の後、図２の制御部２０１は、特には図示しないタイマを参照することにより、現在時刻ｔを取得する（ステップＳ４０５）。

その後、図３の口開閉判定部３０５は、ステップＳ４０４で算出された広がり度合パラメータである固有値比又は特異値比に基づいて、対象者の口唇の開閉動作（口唇を開いたり閉じたりする動作）が行われている状態（口唇の開度が変化している状態）と、口唇の開閉動作が行われていない状態（口唇の開度が変化していない状態）とを判定する口開閉動作検出処理を実行する（ステップＳ４０６）。

図９は、図４のステップＳ４０６の口開閉動作検出処理の詳細例の実施形態を示すフローチャートである。図７又は図８のフローチャートに基づく図４のステップＳ４０４の口開閉状態推定処理により、画像フレーム毎に対象者の口唇の開閉状態が得られるので、口唇の開閉状態の判定のロバスト性向上に様々な信号処理を追加することが可能である。

まず制御部２０１は、広がり度合パラメータ（固有値比又は特異値比）に対して、ノイズ除去処理を実行する（ステップＳ９０１）。ここでは、例えばメジアンフィルタ、又はローパスフィルタの処理などが実行されることにより、口開閉動作検出処理のためのロバスト性が向上する。例えば、メジアンフィルタの処理は、下記文献９に記載の手法により計算することができる。
＜文献９＞
MathWorks ドキュメンテーション、“メディアンフィルター処理によるノイズ抑制”、[online]、[2018年8月6日検索]、インターネット
<URL: https://jp.mathworks.com/help/signal/ref/medfilt1.html >

その後、制御部２０１は、ステップＳ９０１の実行によりノイズが除去された広がり度合パラメータ（固有値比又は特異値比）を用いて、対象者の口唇の開閉動作が行われている状態と、口唇の開閉動作が行われていない状態（開閉動作なし）とを判定する（ステップＳ９０２）。ここでは、その判定手法として、種々の手法を採用することができる。以下に、ステップＳ９０２の具体的な３つの判定手法について、説明する。

まず、図９のステップＳ９０２の具体的な第１の判定手法について説明する。制御部２０１は、画像フレーム間で、固有値比（図７のフローチャートが採用される場合）又は特異値比（図８のフローチャートが採用される場合）の差分値（注目フレームの比の値から注目フレームから所定フレーム前の比の値を引いたもの）を算出し、その差分値が所定範囲外なら口唇の開閉動作が行われていると判定する。この差分値は符号付きなので、開方向の変化と閉方向の動作で異なる閾値を設定してよい。或いは、共通の閾値で良ければ、制御部２０１は、上述の差分値の絶対値が閾値以上なら口唇の開閉が行われていると判定とする。

次に、図９のステップＳ９０２の具体的な第２の判定手法について説明する。制御部２０１は、注目フレームを含む複数の画像フレームにおける固有値比群（複数の画像フレームの各々に各々が対応する複数の固有値比）又は特異値比群（複数の画像フレームの各々に各々が対応する複数の特異値比）に対する最小自乗法による直線フィッティング等の方法により算出した直線近似の傾きが、所定範囲外なら口唇の開閉動作が行われていると判定とする。この判定手法は、ノイズの抑制効果があるので、ステップＳ７０１でのノイズ除去処理を、省略してもよく、あるいはノイズの除去度合を弱めにしてもよい。

次に、図９のステップＳ９０２の具体的な第３の判定手法について説明する。制御部２０１は、注目フレームを含む複数の画像フレームの各々に各々が対応する複数の固有値比の最大値と最小値の差又は複数の特異値比の最大値と最小値の差が、所定閾値以上なら口唇の開閉動作が行われていると判定とする。この判定手法は、緩やかに口唇が開閉動作している場合でも動作検出が可能である。ただし、若干ノイズに弱くなるので、ステップＳ７０１でのノイズ除去処理によるノイズの除去度合を、やや強めにしたほうがよい。

図４のフローチャートの説明に戻り、以上説明した図９のフローチャートの詳細例で示される図４のステップＳ４０６の判定の結果、図３の口開閉判定部３０５が、口唇の開閉動作が行われていない状態を判定すると、図２の制御部２０１は、「開フラグ」の値が１、すなわち、いままで口唇の開閉動作が行われていたか否かを判定する（ステップＳ４０７）。

制御部２０１は、ステップＳ４０７の判定がＮＯならば、口唇の開閉動作がまだ行われていないので、何もせずにそのまま次の画像フレームの処理に移り（ステップＳ４０８）、ステップＳ４０２の処理から繰り返す。

その後、図４のステップＳ４０６の判定処理が繰り返し実行された結果、図３の口開閉判定部３０５が、口唇の開閉動作が行われている状態を判定すると、図２の制御部２０１は、前述した「開フラグ」の値が０、すなわち、いままで口唇の開閉動作が行われていなかったか否かを判定する（ステップＳ４０９）。

ステップＳ４０９の判定がＹＥＳならば、図３の音声期間検出部３０６が、特には図示しないＲＡＭに変数として記憶される開始タイミングＳＴに、ステップＳ４０５で取得した現在時刻ｔをセットする。また、制御部２０１は、「開フラグ」の値を１にセットする。なお、図４において、開フラグの値が１であることを「開＝１」と表記する（以上、ステップＳ４１０）。

その後、制御部２０１は、次の画像フレームの処理に移り（ステップＳ４０８）、ステップＳ４０２の処理から繰り返す。

一方、制御部２０１は、ステップＳ４０９の判定がＮＯならば、既に開始タイミングＳＴには時刻がセットされたため、そのまま次の画像フレームの処理に移り（ステップＳ４０８）、ステップＳ４０２の処理から繰り返す。

以上のように口唇の開閉動作が行われている状態で図４のステップＳ４０６の判定処理が繰り返し実行された結果、図３の口開閉動作検出部３０５が、口唇の開閉動作が行われていない状態を判定すると、図２の制御部２０１は、「開フラグ」の値が１、すなわち、いままで口唇の開閉動作が行われていたか否かを判定する（ステップＳ４０７）。

口唇の開閉動作が開始された後には「開フラグ」の値は１にセットされているため（ステップＳ４１０を参照）、制御部２０１によるステップＳ４０７の判定はＹＥＳとなる。この結果、図３の音声期間検出部３０６が、特には図示しないＲＡＭに変数として記憶される終了タイミングＥＴに、ステップＳ４０５で取得した現在時刻ｔをセットする（ステップＳ４１１）。

上記ステップＳ４１１の後、図３の音声認識部３０３が、前記ステップ４１０及び４１１でそれぞれ設定された音声期間の開始タイミングＳＴ及び終了タイミングＥＴで規定される音声期間内に図３の音声入力部３０２により取得され、記憶された対象者の音声に基づいて、対象者の音声を認識する音声認識処理を実行する（ステップＳ４１２）。その後、制御部２０１は、図４のフローチャートで示される音声期間処理を終了する。

図３の音声認識部３０８は、ステップＳ４１２の音声認識処理において例えば、音源到来方向推定処理、音源分離処理、音量算出処理、Ｓ／Ｎ比算出処理などを実行してよい。

音声認識部３０８は、音源到来方向推定処理において、ステップＳ４１０及びステップＳ４１１で検出された音声期間（ＳＴからＥＴまで）において、音声入力部３０７が入力する音声を信号音声として、ステップＳ４０３の口パーツ検出処理で検出された口唇画像及びその信号音声の信号音声パワーに基づいて、信号音声の到来方向を推定してよい。

一方、音声認識部３０８は、音源到来方向推定処理において、ステップＳ４１０及びステップＳ４１１で検出された音声期間（ＳＴからＥＴまで）以外の期間において、音声入力部３０７が入力する音を雑音として、その雑音の雑音パワーに基づいて、雑音の到来方向を推定してよい。このとき、音源到来方向推定処理において、音源定位手法の一手法であるＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法に基づく処理を実行することにより、対象者以外の音源からの雑音の音源定位（雑音源の位置）を推定してよい。

更に、音声認識部３０８は、音源分離処理において、例えば下記文献１０で示されているビームフォーミング技術に基づく演算処理を実行することにより、音源到来方向推定処理により現在得られている信号音声の到来方向又は雑音の到来方向を入力として、対象者が発声する信号音声を強調し又は信号音声以外の雑音を抑圧する音源分離の処理を実行してよい。
＜文献１０＞
浅野太、“音源分離”、[online]、2011年11月受領、電子情報通信学会『知識の森』、[2017年6月15日検索]、インターネット
<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>

具体的には、音声認識部３０８は、音源分離処理において、図３の口開閉動作検出部３０５が図４のステップＳ４０６の口開閉動作検出処理において口唇の開閉動作が行われている状態を判定しているときには、上記ビームフォーミングの演算処理により、信号音声を音源到来方向推定処理により現在得られている信号音声の到来方向にビームステアリング（強調）するビームステアリング演算処理を実行することにより、強調された信号音声を得てよい。

一方、音声認識部３０８は、音源分離処理において、図３の口開閉動作検出部３０５が図４のステップＳ４０６の口開閉動作検出処理において口唇の開閉動作が行われていない状態を判定しているときには、上記ビームフォーミングの演算処理により、雑音を音源到来方向推定処理により現在得られている雑音の到来方向にヌルステアリング（抑圧）するヌルステアリング演算処理を実行することにより、抑圧された雑音を得てよい。

また、音声認識部３０８は、音量算出処理において、音源分離処理で得られるビームステアリング（強調）された信号音声又はヌルステアリング（抑圧）された雑音のそれぞれの音量を算出する。

次に、音声認識部３０８は、Ｓ／Ｎ比算出処理において、音量算出処理で算出した信号音声の音量と雑音の音量とに基づいて、信号対雑音比（以下「Ｓ／Ｎ比」と記載）を算出し、そのＳ／Ｎ比が閾値よりも大きいか否かを判定する。

Ｓ／Ｎ比算出処理での判定の結果、Ｓ／Ｎ比が閾値以下である場合には、音声認識部３０８は、音声認識のための十分なＳ／Ｎ比が得られていないと判定する。この場合、図２の制御部２０１は例えば、図１又は図２の足回り駆動部１０８を制御することにより、例えば対象者に対して一定の関係（例えば一定の距離又は一定の角度等）を維持しながら、ロボット１００を移動させる。

ロボット１００の移動の後、音声認識部３０８は再び、上述と同様のＳ／Ｎ比の判定動作を実行する。この結果、Ｓ／Ｎ比が閾値よりも大きくなると、音声認識部３０８は、音声認識のための十分なＳ／Ｎ比が得られ、対象者に対するロボット１００の位置関係が、信号音声を雑音から最も良く分離できる最適化された位置である音源分離位置になったと判定する（又は、対象者に対するロボット１００の方向関係が、信号音声を雑音から最も良く分離できる最適化された方向である音源分離方向になったと判定する）。この場合、音声認識部３０８は、音源分離処理で得たビームステアリング（強調）された信号音声に対する音声認識処理を実行させることにより、対象者の発声内容を理解する。

以上説明した実施形態では、口唇に対応する複数の点から成る点群の広がり具合を評価しているので、（１）顔サイズの正規化が不要（平行移動に対して不変）であるという効果がある。また、（２）口開閉状態の判定結果が、特にロール軸（Ｚ軸）回りの頭部の回転の影響を受けにくいという効果がある。更に、（３）時系列的に連続する複数の画像フレーム間での口唇の点群の対応が厳密でなくてもよいという効果がある。そして、（４）分散という統計量を使う方式なので、口唇の点群の座標の検出バラツキの影響が軽減され、更に点群が輪郭やエリアであれば、よりそのバラツキの影響を軽減できるという効果がある。

以上のように、本実施形態では、撮像手段により撮像された対象物を含む撮像画像から取得された対象物に対応する複数の点の座標に対して主成分分析を少なくとも行うことにより複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出し、その広がり度合パラメータに基づいて対象物の開閉状態を判定することにより、従来技術に比較して、口唇をはじめとする対象物の向きや位置が変動することに起因する外乱の影響に対する対象物の開閉状態の判定のロバスト性を高めることができ、対象物の開閉状態を適切に判定することが可能となる。

また、口唇等の対象物の複数の点の座標から分散行列を算出し、算出した分散行列を固有値分解することによって算出した第１及び第２固有値の関係に基づいて広がり度合パラメータを算出することにより、対象物の回転等の影響を受けにくい広がり度合パラメータを検出することが可能となる。

或いは、口唇等の対象物の複数の点の座標を平均することによって算出したそれら複数の点の中心の座標を複数の点の座標の各々から減算することによって偏差を算出し、算出した偏差をベクトルとする行列を特異値分解することによって算出した第１及び第２特異値の関係に基づいて広がり度合パラメータを算出することにより、固有値の場合と同様に、対象物の回転等の影響を受けにくい広がり度合パラメータを検出することが可能となる。

特に、対象物が人間の口唇である場合に、画像取得手段が撮像手段により経時的に連続して撮像された口唇を各々が含む複数の撮像画像を取得し、算出手段が複数の撮像画像の各々について広がり度合パラメータを算出し、判定手段が複数の撮像画像の各々について各々が算出された複数の広がり度合パラメータの関係に基づいて口唇が繰り返し開閉している状態にあるか否かを判定することにより、口唇の開閉動作を安定して検出することが可能となる。

また、広がり度合パラメータに対しノイズを抑制するためのフィルタ処理を施すことにより、対象物の開閉状態を安定して判定することが可能となる。なお、このフィルタ処理は、実施されなくてもよい。

更に、本発明による開閉状態判定装置を用いて、口唇の開閉状態の判定結果に基づいて対象者が発声している期間である音声期間を検出し、対象者の音声を取得し、検出された対象者の音声期間内に取得された対象者の音声に基づいて対象者の音声を認識することにより、認識精度の高い音声認識装置を実現することが可能となる。

以上説明した実施形態は、特許請求の範囲に記載の対象物を口唇として実施した場合の例であるが、所定方向に開閉可能な他の適当な対象物、例えば瞼であってもよい。

また、上述の実施形態では、開閉状態判定装置は、音声認識装置の前処理を行うための装置として構成されているが、音声認識装置とは無関係に構成されていてもよい。

更に、上述の実施形態では、開閉状態判定装置は、ロボットに搭載されているが、ロボットに搭載されていなくてもよい。

上述の実施形態では、広がり度合パラメータは、第１固有値と第２固有値との関係（例えば固有値比、或いは、第１特異値と第２特異値との関係（例えば特異値比）に基づいて算出されたが、本発明の広がり度合パラメータはこれらに限られるものではない。

例えば、広がり度合パラメータを、最大の固有値で最小の固有値を除算することにより（最大の特異値で最小の特異値を除算することにより）算出してもよい。

或いは、広がり度合パラメータを、実施形態の場合とは逆に、第２固有値で第１固有値を除算することにより（第２特異値で第１特異値を除算することにより）算出してもよい。その場合には、広がり度合パラメータが、所定値よりも大きいときに口が閉じている状態であると判定でき、所定値よりも小さいときに口が開いている状態であると判定できる。

更に、広がり度合パラメータと第１及び第２固有値との関係、又は広がり度合パラメータと第１及び第２特異値との関係を、実験などにより予め求め、マップ化し、このマップを第１及び第２固有値又は第１及び第２特異値に応じて検索することにより、広がり度合パラメータを算出してもよい。

また、広がり度合パラメータに基づく口唇の開閉状態の判定手法は、上述の実施形態のように記載の手法に限られず、例えばそのときどきの固有値比又は特異値比と閾値との比較結果に基づいて判定する等、種々の手法を採用することができる。

同様に、音声期間の検出手法についても、上述の実施形態に記載の手法に限られず、例えば音声期間の開始時点と終了時点の或る期間は音声期間に含めない等、種々の手法を採用することができる。

以上説明した実施形態において、図２の制御部２０１が記憶部２０２に記憶され図７乃至図９のフローチャートの処理例で示される制御プログラム２０５を実行することにより図３で示される各機能部の処理を実現する場合、制御プログラム２０５は、例えば外部記憶装置や可搬記録媒体に記録して配布してもよく、あるいは特には図示しない無線や有線の通信インタフェースを介してネットワークから取得できるようにしてもよい。

以上の実施形態に関して、更に以下の付記を開示する。
（付記１）
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定手段と、
を備えることを特徴とする開閉状態判定装置。
（付記２）
前記算出手段は、
前記複数の点の座標から分散行列を算出し、算出した分散行列を固有値分解することによって、前記所定方向に対応する固有値である第１固有値と、前記所定方向に直交する方向に対応する固有値である第２固有値とを算出し、算出した第１及び第２固有値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、付記１に記載の開閉状態判定装置。
（付記３）
前記算出手段は、
前記複数の点の座標を平均することによって前記複数の点の中心の座標を算出し、
前記算出した中心の座標を前記複数の点の座標の各々から減算することによって偏差を算出し、
前記算出した偏差をベクトルとする行列を特異値分解することによって、前記所定方向に対応する特異値である第１特異値と、前記所定方向に直交する方向に対応する特異値である第２特異値とを算出し、算出した第１及び第２特異値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、付記１に記載の開閉状態判定装置。
（付記４）
前記対象物は人間の口唇であり、
前記画像取得手段は、前記撮像画像として、前記撮像手段により経時的に連続して撮像された前記口唇を各々が含む複数の撮像画像を取得し、
前記算出手段は、前記複数の撮像画像の各々について、前記広がり度合パラメータを算出し、
前記判定手段は、前記複数の撮像画像の各々について各々が算出された複数の前記広がり度合パラメータの関係に基づいて、前記口唇が繰り返し開閉している状態にあるか否かを判定することを特徴とする、
付記１乃至３のいずれか１項に記載の開閉状態判定装置。
（付記５）
前記広がり度合パラメータに対しノイズを抑制するためのフィルタ処理を施すフィルタ手段をさらに備え、
前記判定手段は、前記フィルタ処理が施された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定することを特徴とする、付記１ないし４のいずれか１項に記載の開閉状態判定装置。
（付記６）
撮像手段により撮像された対象者の口唇を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記口唇に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記口唇の開閉状態を判定する判定手段と、
前記判定手段による前記口唇の開閉状態の判定結果に基づいて、前記対象者が発声している期間である音声期間を検出する音声期間検出手段と、
対象者の音声を取得する音声取得手段と、
前記検出された前記対象者の音声期間内に前記音声取得手段により取得された前記対象者の音声に基づいて、前記対象者の音声を認識する音声認識手段と、
を備えることを特徴とする音声認識装置。
（付記７）
付記６に記載の音声認識装置を備えるロボット。
（付記８）
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定方法であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得処理と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得処理と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出処理と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定処理と、
を含むことを特徴とする開閉状態判定方法。
（付記９）
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置のコンピュータに、
撮像手段により撮像された前記対象物を含む撮像画像を取得する機能、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する機能、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する機能、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する機能、
を実現させるためのプログラム。

１００ロボット
１０１頭部
１０２胴体
１０３マイクアレイ
１０４カメラ
１０５スピーカ
１０６センサ群
１０７首関節駆動部
１０８足回り駆動部
２００ロボット制御システム
２０１制御部
２０２記憶部
２０３操作ボタン
２０４電源部
２０５制御プログラム
３０１画像入力部
３０２顔検出部
３０３口パーツ検出部
３０４口開閉状態推定部
３０５口開閉動作検出部
３０６音声期間検出部
３０７音声入力部
３０８音声認識部
３０９発声部

本発明は、音声認識装置、ロボット、音声認識方法及びプログラムに関する。

本発明は、対象物の口唇の向きや位置が変動した場合であっても対象物からの音声を適切に認識することを目的とする。

態様の一例では、撮像手段により撮像された対象者の口唇を含む撮像画像を取得する画像取得手段と、前記取得された撮像画像における前記口唇に対応する複数の点の座標を取得する座標取得手段と、前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、前記算出された広がり度合パラメータに基づいて、前記口唇の開閉状態を判定する判定手段と、前記判定手段による前記口唇の開閉状態の判定結果に基づいて、前記対象者が発声している期間である音声期間を検出する音声期間検出手段と、対象者の音声を取得する音声取得手段と、前記検出された前記対象者の音声期間内に前記音声取得手段により取得された前記対象者の音声に基づいて、前記対象者の音声を認識する音声認識手段と、を備えることを特徴とする。

本発明によれば、対象物の口唇の向きや位置が変動した場合であっても対象物からの音声を適切に認識することが可能となる。

Claims

所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定手段と、
を備えることを特徴とする開閉状態判定装置。
前記算出手段は、
前記複数の点の座標から分散行列を算出し、算出した分散行列を固有値分解することによって、前記所定方向に対応する固有値である第１固有値と、前記所定方向に直交する方向に対応する固有値である第２固有値とを算出し、算出した第１及び第２固有値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、請求項１に記載の開閉状態判定装置。
前記算出手段は、
前記複数の点の座標を平均することによって前記複数の点の中心の座標を算出し、
前記算出した中心の座標を前記複数の点の座標の各々から減算することによって偏差を算出し、
前記算出した偏差をベクトルとする行列を特異値分解することによって、前記所定方向に対応する特異値である第１特異値と、前記所定方向に直交する方向に対応する特異値である第２特異値とを算出し、算出した第１及び第２特異値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、請求項１に記載の開閉状態判定装置。
前記対象物は人間の口唇であり、
前記画像取得手段は、前記撮像画像として、前記撮像手段により経時的に連続して撮像された前記口唇を各々が含む複数の撮像画像を取得し、
前記算出手段は、前記複数の撮像画像の各々について、前記広がり度合パラメータを算出し、
前記判定手段は、前記複数の撮像画像の各々について各々が算出された複数の前記広がり度合パラメータの関係に基づいて、前記口唇が繰り返し開閉している状態にあるか否かを判定することを特徴とする、
請求項１乃至３のいずれか１項に記載の開閉状態判定装置。
前記広がり度合パラメータに対しノイズを抑制するためのフィルタ処理を施すフィルタ手段をさらに備え、
前記判定手段は、前記フィルタ処理が施された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定することを特徴とする、請求項１ないし４のいずれか１項に記載の開閉状態判定装置。
撮像手段により撮像された対象者の口唇を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記口唇に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記口唇の開閉状態を判定する判定手段と、
前記判定手段による前記口唇の開閉状態の判定結果に基づいて、前記対象者が発声している期間である音声期間を検出する音声期間検出手段と、
対象者の音声を取得する音声取得手段と、
前記検出された前記対象者の音声期間内に前記音声取得手段により取得された前記対象者の音声に基づいて、前記対象者の音声を認識する音声認識手段と、
を備えることを特徴とする音声認識装置。
請求項６に記載の音声認識装置を備えるロボット。
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定方法であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得処理と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得処理と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出処理と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定処理と、
を含むことを特徴とする開閉状態判定方法。
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置のコンピュータに、
撮像手段により撮像された前記対象物を含む撮像画像を取得する機能、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する機能、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する機能、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する機能、
を実現させるためのプログラム。