JP2023009128A - 音声認識装置、ロボット、音声認識方法及びプログラム - Google Patents

音声認識装置、ロボット、音声認識方法及びプログラム Download PDF

Info

Publication number
JP2023009128A
JP2023009128A JP2022176980A JP2022176980A JP2023009128A JP 2023009128 A JP2023009128 A JP 2023009128A JP 2022176980 A JP2022176980 A JP 2022176980A JP 2022176980 A JP2022176980 A JP 2022176980A JP 2023009128 A JP2023009128 A JP 2023009128A
Authority
JP
Japan
Prior art keywords
open
closed state
points
calculated
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022176980A
Other languages
English (en)
Inventor
崇史 山谷
Takashi Yamatani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2022176980A priority Critical patent/JP2023009128A/ja
Publication of JP2023009128A publication Critical patent/JP2023009128A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】開閉状態判定装置、方法、プログラム、音声認識装置、及びロボットに関し、対象物の向きや位置が変動することに起因する外乱の影響に対する対象物の開閉状態の判定のロバスト性を高め、対象物の開閉状態を適切に判定する。【解決手段】口開閉状態推定部304は、口パーツ検出部303が出力する対象者の口唇画像から取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する口開閉状態推定処理を実行する。口開閉動作検出部305は、口開閉状態推定部304で算出された広がり度合パラメータ(例えば固有値比又は特異値比)に基づいて、対象者の口唇の開閉動作(口唇を開いたり閉じたりする動作)が行われている状態と、口唇の開閉動作が行われていない状態とを判定する口開閉動作検出処理を実行する。【選択図】図3

Description

本発明は、開閉状態判定装置、方法、プログラム、音声認識装置、及びロボットに関する。
従来、対象物の開閉状態を判定する開閉状態判定装置として、例えば特許文献1に開示されたものが知られている。この公報に開示された開閉状態判定装置では、対象物としての対象者の口唇の開閉状態が次のようにして判定される。すなわち、撮像部で撮像された口唇の撮像画像に対して2値化処理を施すことなどによって、口唇の内側の輪郭領域として口輪郭領域が検出され、検出された口輪郭領域の左右の端点(一対の口角)の間の距離Dh及び上下の端点の間の距離Dvが算出される。また、前者Dhに対する後者Dvの比として口唇の縦横比が算出され、算出された縦横比と所定の閾値との比較結果に基づいて、口唇の開閉状態が判定される。
特開2002-197465号公報
しかし、対象物としての口唇の撮像画像には、様々な外乱が含まれうる。例えば、対象者の顔の位置は常に一定とは限らず、対象者がうなずいたり、首をかしげたり、横を向いたりして顔が様々な方向に回転することにより、光源や撮像部に対して顔の向きや位置が変化する。図10は、対象物の頭部の回転の自由度を模式的に表した図である。対象物の頭部は、ピッチ軸Xmの軸回り、ロール軸Zmの軸回り、ヨー軸Ymの軸回りにそれぞれ回転し得る。このような対象物の各方向の回転に伴い、その対象物を撮像して得られる撮像画像において、撮像時の光源やカメラの位置関係が変わることで、口唇動作がない場合でも、口唇の陰影のつき方や形状の変化が発生する。この結果、上述した従来の開閉状態判定装置では、口唇の縦横比を適切に算出できず、ひいては、口唇の開閉状態を適切に判定することができないおそれがある。
以上説明したように、従来の開閉状態判定装置では、対象物の向きや位置が変動することに起因する外乱の影響に対する判定のロバスト性が低く、この影響によって、対象物の開閉状態を適切に判定することができない。
本発明は、対象物の向きや位置が変動することに起因する外乱の影響に対する対象物の開閉状態の判定のロバスト性を高め、対象物の開閉状態を適切に判定することを目的とする。
態様の一例では、所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置であって、撮像手段により撮像された対象物を含む撮像画像を取得する画像取得手段と、取得された撮像画像における対象物に対応する複数の点の座標を取得する座標取得手段と、取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、算出された広がり度合パラメータに基づいて、対象物の開閉状態を判定する判定手段と、を備える。
本発明によれば、対象物の向きや位置が変動することに起因する外乱の影響に対する対象物の開閉状態の判定のロバスト性を高めることができ、対象物の開閉状態を適切に判定することが可能となる。
本発明の実施の形態にかかるロボットの外観図である。 ロボットの構成を示すブロック図である。 ロボットの対話機能の構成を示すブロック図である。 ロボットの対話機能における顔検出処理、口パーツ検出処理、口開閉状態推定処理、口開閉動作検出処理、音声期間検出処理、及び音声認識処理を実行するための処理の一例を示すフローチャートである。 ラベル付けされた顔パーツ検出結果のフォーマット例を示す図である。 点群の座標情報の例を示す図である。 口開閉状態推定処理の詳細例の第1の実施形態を示すフローチャートである。 口開閉状態推定処理の詳細例の第2の実施形態を示すフローチャートである。 口開閉動作検出処理の詳細例の実施形態を示すフローチャートである。 頭部の回転の自由度を模式的に表した図である。 口唇開閉動作検出の一般的な問題点の説明図である。
以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。本発明による開閉状態判定装置は、例えばロボットに搭載された音声認識装置の前処理としてロボットのカメラで撮像された対象物としての人間の口唇の開閉状態を判定する装置として実施される。図1は、実施の形態に係る開閉状態判定装置及び音声認識装置を備えたロボット100を正面から見た場合の外観を模式的に示した図である。
図1のロボット100は、頭部101と胴体102とを備えた人型のコミュニケーションロボットである。ロボット100は、例えば住宅内に設置され、所定の対象である住人等(以下「対象者」と記載)に呼びかけられると、呼びかけた対象者と会話する。
図1に示すように、ロボット100の頭部101には、カメラ104と、音声取得手段であるマイクアレイ103と、スピーカ105と、センサ群106が設けられ、胴体102には、首関節駆動部107と、足回り駆動部108と、が設けられている。
画像取得手段であるカメラ104は、頭部101の前面の下側、人の顔でいうところの鼻の位置に設けられている。カメラ104は、後述する制御部201の制御の下、所定のフレームレート(例えば30fps(フレーム/秒))で連続的に撮像を行う。
マイクアレイ103は、例えば13個のマイクからなる。13個のマイクのうちの8個のマイクが、人の顔でいうところの額の高さの位置であって、頭部101の周回りに等間隔で配置されている。これら8個のマイクよりも上側に、4個のマイクが頭部101の周回りに等間隔で配置されている。更に、1個のマイクが頭部101の頭頂部に配置されている。マイクアレイ103はロボット100の周囲で発生した音を検出する。
スピーカ105は、カメラ104より下側、人の顔でいうところの口の位置に設けられている。スピーカ105は、後述する制御部201の制御の下、各種の音声を出力する。
センサ群106は、人の顔でいうところの目の位置と耳の位置とに設けられている。センサ群106は、加速度センサ、障害物検知センサ等を含み、ロボット100の姿勢制御や、安全性の確保のために使用される。
首関節駆動部107は、頭部101と胴体102とを連結する部材である。頭部101は、破線で示される首関節駆動部107によって、胴体102に連結されている。首関節駆動部107は、複数のモータを含む。後述する制御部201がこれら複数のモータを駆動すると、ロボット100の頭部101が回転する。首関節駆動部107は、ロボット100の頭部101を回転させると共にその回転量を取得する役割を有する。
足回り駆動部108は、ロボット100を移動させる役割を有する。特には図示しないが、足回り駆動部108は、胴体102の下側に設けられた4つの車輪(ホイール)を含む。4つの車輪のうち、2つが胴体102の前側に、残り2つが後ろ側に配置されている。車輪として、例えば、オムニホイール、メカナムホイールが使用される。制御部201は、足回り駆動部108の車輪を回転させることにより、ロボット100を移動させる。
図2は、図1の外観を有するロボット100の制御系であるロボット制御システム200を示すブロック図である。図2において、図1と同じ参照番号を付した部分は図1と同じものである。図2において、胴体102内に設置される制御部201は、CPU(Central Processing Unit:中央演算処理装置)、RAM(Random Access Memory:ランダムアクセスメモリ)等を含む。制御部201は、頭部101内のマイクアレイ103、カメラ104、スピーカ105、センサ群106、胴体102内の首関節駆動部107及び足回り駆動部108と、それぞれ電気的に接続され、RAMを作業領域として、後述する記憶部202に記憶されている制御プログラム205を読み出して実行することにより、前記各部を制御する。
記憶部202は、ソリッドステートディスクドライブ、ハードディスクドライブ、フラッシュメモリ等を含み、胴体102の内部に設けられている。記憶部202は、制御部201によって実行される制御プログラム205、マイクアレイ103が集音した音声データ、カメラ104が撮像した画像データ等を含む各種データを記憶する。記憶部202が記憶する制御プログラム205には、後述する図4、図7又は図8、及び図9のフローチャートに記載の顔検出処理、口パーツ検出処理、口開閉状態推定処理、口開閉動作検出処理、音声期間検出処理、及び音声認識処理を実行するための処理プログラム等が含まれる。
操作ボタン203は、胴体102の背中に設けられている(図1において不図示)。操作ボタン203は、ロボット100を操作するための各種のボタンであり、電源ボタン、スピーカ105の音量調節ボタン等を含む。
電源部204は、胴体102に内蔵された充電池であり、ロボット制御システム200の各部に電力を供給する。
図3は、図2の制御部201が記憶部202内の制御プログラム205を実行する機能の一部として実現される対話機能の構成を示すブロック図である。この対話機能の構成として、画像入力部301、顔検出部302、口パーツ検出部303、口開閉状態推定部304、口開閉動作検出部305、音声期間検出部306、音声入力部307、音声認識部308、及び発声部309を備えている。なお、図3に示される各機能部は、制御部201内のFPGA(Field Programmable Array)等のハードウェアによって実現されてもよい。
図3において、画像入力部301(画像取得手段)は、図1のカメラ104(撮像手段)により撮像された対象者(対象物)を含む撮像画像を取得する。具体的には、画像入力部301は、図1のカメラ104から、前記所定のフレームレートで連続的に撮像された画像を入力する。
顔検出部302は、特許請求の範囲に記載の座標取得手段の一部の機能を有し、画像入力部301により入力された画像から対象者の顔領域を検出する顔検出処理を実行する。
口パーツ検出部303は、特許請求の範囲に記載の座標取得手段の一部の機能を有し、口パーツ検出処理を実行する。これにより、口パーツ検出部303は、顔検出部302が検出した顔領域から対象者の口パーツ(口唇)を検出するとともに、対象者の口唇に対応する複数の点の座標を取得する。
口開閉状態推定部304は、特許請求の範囲に記載の算出手段として機能し、口開閉状態推定処理を実行する。これにより、口開閉状態推定部304は、口パーツ検出部303が取得した複数の点の座標に対して主成分分析を少なくとも行うことによって、複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する。
口開閉動作検出部305は、特許請求の範囲に記載の判定手段として機能し、口開閉動作検出処理を実行する。これにより、口開閉動作検出部305は、口開閉状態推定部304で算出された広がり度合パラメータに基づいて、対象者の口唇の開閉動作(口唇を開いたり閉じたりする動作)が行われている状態と、口唇の開閉動作が行われていない状態とを判定する。
ここで、口開閉動作検出部305は、上記判定の処理に先だって、口開閉状態推定部304で算出された広がり度合パラメータに対し、ノイズを抑制するためのフィルタ処理であるノイズ除去処理を実行してよい。このとき、口開閉動作検出部305は、特許請求の範囲に記載のフィルタ手段として動作する。
音声期間検出部306は、特許請求の範囲に記載の音声期間検出手段として機能し、口開閉動作検出部305の判定結果に基づいて、対象者が発声している期間である対象者の音声期間を検出する音声期間検出処理を実行する。
音声入力部307は、特許請求の範囲に記載の音声取得手段として機能し、図1のマイクアレイ103を構成する各マイクから、音声を入力し、入力した音声を適宜、前記RAMに記憶する。
音声認識部308は、特許請求の範囲に記載の音声認識手段として機能し、音声期間検出部306により検出された音声期間内に音声入力部307により入力され、記憶された対象者の音声に基づいて、既知の音声認識技術を使って、対象者の音声を認識する音声認識処理を実行する。
発声部309は、音声認識部308での音声認識結果に応じて、対話アルゴリズムに従って、既知の音声合成技術を使って音声合成による発声処理を実行する。発声処理により発声された音声は、図1及び図2のスピーカ105を介して、対象者に対して発声され、対象者と図1のロボット100との対話が行われる。
図4は、上述した顔検出処理、口パーツ検出処理、口開閉状態推定処理、口開閉動作検出処理、音声期間検出処理、及び音声認識処理を実行するための処理の一例を示すフローチャートである。このフローチャートの処理例は、図3のブロック図の構成を実現する制御部201のハードウェアが実行する処理として、又は図2の制御部201が実行する制御プログラム205の処理として実現される。
まず、制御部201が、特には図示しない内部のRAMに変数として持つ「開フラグ」の値を0に初期化する(ステップS401)。なお、図4において、開フラグの値が0であることを「開=0」と表記する。
次に、図3の顔検出部302が、顔検出処理を実行する(ステップS402)。この顔検出処理では、カメラ104から画像入力部301を介して入力された画像から、顔領域を検出する。顔検出処理としては、既知の顔検出技術を使用することができる。例えば、下記文献1に記載されている何れかの顔検出技術が適用されてよい。
<文献1>
堀田 一弘、”小特集 顔認識技術 1.顔認識の研究動向”、[online]、2012年3月28日公開、映像情報メディア学会誌、Vol.64,No.4(2010),p.459-462、[2018年8月6日検索]、インターネット
<URL:https://www.jstage.jst.go.jp/article/itej/64/4/64_4_455/_pdf>
次に、図3の口パーツ検出部303が、顔検出処理で検出された顔領域の画像を用いて、口パーツ検出処理を実行する(ステップS403)。口パーツ検出処理としては、既知の顔パーツ検出技術を使用することができる。例えば、下記文献2に記載されている何れかの顔パーツ検出技術が採用されてよい。
<文献2>
littlewing、“WEBカメラで利用できる顔認識技術まとめ-その2”、[online]、2015年4月7日公開、[2018年8月6日検索]、インターネット
<URL:http://littlewing.hatenablog.com/entry/2015/04/07/221856>
ステップS403の口パーツ検出処理により、まず例えばラベル付けされた座標値である顔パーツ検出結果が得られる。ラベル付けされた顔パーツ検出結果のフォーマット例としては、例えば図5の501として示されるように、下記文献3のFigure2として記載されている例を採用することができる。
<文献3>
C.sagonas,”Facial point annotations”、[online]、[2018年8月6日検索]、インターネット
<URL:https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/>
ステップS403の口パーツ検出処理では、図5の501として例示される顔パーツ検出結果のうちの例えば、ラベル49から68を、口パーツの複数の点の座標として、すなわち対象者の口唇に対応する複数の点の座標として取得する。この場合の複数の点の座標は、例えば図6(a)のように離散的な複数の点(図5のラベル49から68の点群)の座標群でもよいし、図6(b)のような口唇の輪郭線の線を表す座標でもよいし、図6(c)のような口唇の輪郭とその内部のエリアの全ての点の座標群でもよい。
次に、図3の口開閉状態推定部304が、口開閉状態推定処理を実行する(ステップS404)。これにより、ステップS403の口パーツ検出処理により取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、複数の点から成る点群の広がり度合を表す広がり度合パラメータが算出される。
図7は、図4のステップS404の口開閉状態推定処理の詳細例の第1の実施形態を示すフローチャートである。
まず制御部201は、ステップS403の口パーツ検出処理により検出される口唇に対応した複数の点の座標(例えば図5のラベル49から68の点)から、共分散行列を計算する(ステップS701)。
次に、制御部201は、ステップS701で算出した共分散行列を固有値分解して、第1固有ベクトルに対応する第1固有値と、第2固有ベクトルに対応する第2固有値とを求める(ステップS702)。
図7のステップS701の共分散行列の計算及び共分散行列の固有値分解の計算からなる操作は、主成分分析(PCA:Principal Component Analysis)と呼ばれ、口唇に対応する複数の点から成る点群を、口唇をモデル化した楕円にフィッティングしているとみなせる。よって、フィッティングした楕円の短軸の長さ(短径)と長軸の長さ(長径)との比を調べれば点群の広がり具合が分かる。
上述のように楕円が口唇の境界線を表しているとモデル化すると、口唇を表す点群はこの楕円付近に検出される。この場合に、顔を含む頭部が図10で説明したように、ピッチ軸Xmの軸回り、ロール軸Zmの軸回り、ヨー軸Ymの軸回りにそれぞれ回転して動いた場合に、或る画像フレームで図11(a)のように検出された点群が別の画像フレームで図11(b)のように検出されたりする結果、画像の水平、垂直の直交軸上で口唇の形状を検出しようとする一般的な手法では、口唇の点群が誤って検出される恐れがある。また、顔が図10のロール軸Zmの軸周りに回転したような場合には、口唇を表す楕円が図12(c)のように傾いてその楕円上の点群が検出され、この場合にも、画像の水平、垂直の直交軸上で口唇の形状を検出しようとする一般的な手法では、口が閉じる方向に動作していると誤判定される可能性もある。これに対して、本実施形態により、主成分分析により口唇に対応する複数の点から成る点群を口唇をモデル化した楕円にフィッティングした楕円の短軸の長さ(短径)と長軸の長さ(長径)との比として算出された点群の広がり具合は、顔の平行移動とロール軸Zm(図10参照)の軸回りの回転の影響を受けない。また、ピッチ軸Xm又はヨー軸Ym(図10参照)の軸回りの多少の回転変動があっても、それによる影響は軽微である。更に、口唇の点群の検出位置が実際の位置に対して平均ゼロの乱雑さがあっても、分散という統計量を用いて計算しているので、顔の回転変動による影響を軽減できロバスト性が向上する。口唇の点群の数が増えればその効果は増す。
上述の主成分分析は、よく知られた多変量解析手法であり、例えば下記文献4に詳細に説明されている。
<文献4>
ウィキペディア、”主成分分析”、[online]、[2018年8月6日検索]、インターネット
<URL:https://ja.wikipedia.org/wiki/主成分分析#詳細>
また、主成分分析に基づく図7のステップS701及びステップS702に基づく主成分分析の具体的な計算方法としては、例えば下記文献5に記載の方法を採用することができる。
<文献5>
Open Source Computer Vision,“cv::PCA Class Reference”、[online]、[2018年8月6日検索]、インターネット
<URL: https://docs.opencv.org/3.4/d3/d8d/classcv_1_1PCA.html>
図7のフローチャートの説明に戻り、制御部201は、ステップS702で算出した第1固有値及び第2固有値の算出結果に基づいて、口角を結んだ方向に対応する第1固有値で、他方の第2固有値を除算することにより広がり度合パラメータとしての固有値比を計算して、口開閉状態とする(ステップS703)。多くの場合、口角を結んだ方向が楕円の長軸になるので、ロール軸Zm(図10参照)の軸回りの回転の影響を受けない。なお、「(最小の固有値)/(最大の固有値)」によって固有値比を計算してもよいが、大口を開けた(口角を結んだ方向が短軸になる)場合に、口開閉状態の判定を誤る可能性がある。そのため、ロール軸Zmの軸回りの角度変位が±45度未満であることを仮定して、「(垂直方向に相当する固有ベクトルの固有値)/(水平方向に相当する固有ベクトルの固有値)」を計算してよい。ここでは、主成分分析により得られた2つの固有ベクトルについて、その水平方向の成分が垂直方向の成分よりも大きい固有ベクトルを水平方向に相当する固有ベクトルとし、これとは逆に、垂直方向の成分が水平方向の成分よりも大きい固有ベクトルを垂直方向に相当する固有ベクトルとする。すなわち、固有ベクトルを(x、y)として、|x|>|y|ならば、その固有ベクトルは水平方向に相当する固有ベクトルである。この求めた固有値比が口唇の開閉状態を示し、その固有値比の値が、小さいと口を閉じていると判定でき、大きいと口を開いていると判定できる。
図8は、図3の口開閉状態推定部304が実行する口開閉状態推定処理の詳細例の第2の実施形態を示すフローチャートである。この処理例は、主成分分析として、図7の処理例における固有値分解の代わりに、特異値分解を行う例である。
まず制御部201は、図3の口パーツ検出部303により取得された口唇に対応した複数の点(例えば図5のラベル49から68の点)の座標を平均することによってそれら複数の点の中心の座標を算出する(ステップS801)。
次に、制御部201は、ステップS801で算出した複数の点の中心の座標を、点群を構成する複数の点の座標の各々から減算することによって、各偏差を算出する(ステップS802)。
続いて、制御部201は、ステップS802で算出した各偏差をベクトルとする行列を特異値分解することによって、口角方向(一対の口角を結ぶ線が延びる方向)に対応する特異値である第1特異値と、開閉方向(口角方向に直交する方向)に対応する特異値である第2特異値とを算出する(ステップS803)。この場合、前述した図7に示す処理の場合と同様の理由により、特異値分解により得られた2つの特異ベクトルのうち、水平方向の成分がより大きい特異ベクトル及び垂直方向の成分がより大きい特異ベクトルをそれぞれ、第1特異ベクトル及び第2特異ベクトルとし、第1特異ベクトルに対応する第1特異値を、口角方向に対応する特異値とみなし、第2特異ベクトルに対応する第2特異値を、開閉方向に対応する特異値としている。この特異値分解により、2×2の行列と2つの特異値、(点の数)×(点の数)の行列が得られる。2×2の行列が固有ベクトルに相当し、対応する第1及び第2特異値は、第1及び第2固有値の平方根にそれぞれ相当する。
上述の特異値分解は、主成分分析の具体的な実装としてよく知られた手法であり、例えば前述の文献4又は文献6に詳細に説明されている。
<文献6>
JMPデータ分析ソフトウェア from SAS Institute Inc.,、”特異値分解と共分散行列”、[online]、[2018年8月6日検索]、インターネット
<URL: http://jmp.com/japan/support/help/13/mm-statistical-details-4.shtml>
また、特異値分解の具体的な計算方法としては、例えば下記文献7又は文献8に記載の方法を採用することができる。
<文献7>
Open Source Computer Vision,“Singular value matrix decomposition”、[online]、[2018年8月6日検索]、インターネット
<URL:https://docs.opencv.org/3.4/dd/d2a/group__core__hal__interface__decomp__svd.html>
<文献8>
OpenCV.jp:OpenCV逆引きリファレンス、”特異値分解を行う”、[online]、[2018年8月6日検索]、インターネット
<URL:http://opencv.jp/cookbook/opencv_linalg.html#id26>
図8のフローチャートの説明に戻り、制御部201は、ステップS803で算出した第1特異値及び第2特異値の算出結果に基づいて、口角方向に対応する第1特異値で、開閉方向に対応する第2特異値を除算することにより広がり度合パラメータとしての特異値比を算出する(ステップS804)。このように算出された特異値比は、図7のステップS703で算出された固有値比の平方根に相当する。従って、特異値比が、所定値よりも小さいときに口が閉じている状態であると判定でき、所定値よりも大きいときに口が開いている状態であると判定できる。
図4のフローチャートの説明に戻り、以上説明した図7又は図8のフローチャートの詳細例で示される図4のステップS404の処理の後、図2の制御部201は、特には図示しないタイマを参照することにより、現在時刻tを取得する(ステップS405)。
その後、図3の口開閉判定部305は、ステップS404で算出された広がり度合パラメータである固有値比又は特異値比に基づいて、対象者の口唇の開閉動作(口唇を開いたり閉じたりする動作)が行われている状態(口唇の開度が変化している状態)と、口唇の開閉動作が行われていない状態(口唇の開度が変化していない状態)とを判定する口開閉動作検出処理を実行する(ステップS406)。
図9は、図4のステップS406の口開閉動作検出処理の詳細例の実施形態を示すフローチャートである。図7又は図8のフローチャートに基づく図4のステップS404の口開閉状態推定処理により、画像フレーム毎に対象者の口唇の開閉状態が得られるので、口唇の開閉状態の判定のロバスト性向上に様々な信号処理を追加することが可能である。
まず制御部201は、広がり度合パラメータ(固有値比又は特異値比)に対して、ノイズ除去処理を実行する(ステップS901)。ここでは、例えばメジアンフィルタ、又はローパスフィルタの処理などが実行されることにより、口開閉動作検出処理のためのロバスト性が向上する。例えば、メジアンフィルタの処理は、下記文献9に記載の手法により計算することができる。
<文献9>
MathWorks ドキュメンテーション、“メディアン フィルター処理によるノイズ抑制”、[online]、[2018年8月6日検索]、インターネット
<URL: https://jp.mathworks.com/help/signal/ref/medfilt1.html >
その後、制御部201は、ステップS901の実行によりノイズが除去された広がり度合パラメータ(固有値比又は特異値比)を用いて、対象者の口唇の開閉動作が行われている状態と、口唇の開閉動作が行われていない状態(開閉動作なし)とを判定する(ステップS902)。ここでは、その判定手法として、種々の手法を採用することができる。以下に、ステップS902の具体的な3つの判定手法について、説明する。
まず、図9のステップS902の具体的な第1の判定手法について説明する。制御部201は、画像フレーム間で、固有値比(図7のフローチャートが採用される場合)又は特異値比(図8のフローチャートが採用される場合)の差分値(注目フレームの比の値から注目フレームから所定フレーム前の比の値を引いたもの)を算出し、その差分値が所定範囲外なら口唇の開閉動作が行われていると判定する。この差分値は符号付きなので、開方向の変化と閉方向の動作で異なる閾値を設定してよい。或いは、共通の閾値で良ければ、制御部201は、上述の差分値の絶対値が閾値以上なら口唇の開閉が行われていると判定とする。
次に、図9のステップS902の具体的な第2の判定手法について説明する。制御部201は、注目フレームを含む複数の画像フレームにおける固有値比群(複数の画像フレームの各々に各々が対応する複数の固有値比)又は特異値比群(複数の画像フレームの各々に各々が対応する複数の特異値比)に対する最小自乗法による直線フィッティング等の方法により算出した直線近似の傾きが、所定範囲外なら口唇の開閉動作が行われていると判定とする。この判定手法は、ノイズの抑制効果があるので、ステップS701でのノイズ除去処理を、省略してもよく、あるいはノイズの除去度合を弱めにしてもよい。
次に、図9のステップS902の具体的な第3の判定手法について説明する。制御部201は、注目フレームを含む複数の画像フレームの各々に各々が対応する複数の固有値比の最大値と最小値の差又は複数の特異値比の最大値と最小値の差が、所定閾値以上なら口唇の開閉動作が行われていると判定とする。この判定手法は、緩やかに口唇が開閉動作している場合でも動作検出が可能である。ただし、若干ノイズに弱くなるので、ステップS701でのノイズ除去処理によるノイズの除去度合を、やや強めにしたほうがよい。
図4のフローチャートの説明に戻り、以上説明した図9のフローチャートの詳細例で示される図4のステップS406の判定の結果、図3の口開閉判定部305が、口唇の開閉動作が行われていない状態を判定すると、図2の制御部201は、「開フラグ」の値が1、すなわち、いままで口唇の開閉動作が行われていたか否かを判定する(ステップS407)。
制御部201は、ステップS407の判定がNOならば、口唇の開閉動作がまだ行われていないので、何もせずにそのまま次の画像フレームの処理に移り(ステップS408)、ステップS402の処理から繰り返す。
その後、図4のステップS406の判定処理が繰り返し実行された結果、図3の口開閉判定部305が、口唇の開閉動作が行われている状態を判定すると、図2の制御部201は、前述した「開フラグ」の値が0、すなわち、いままで口唇の開閉動作が行われていなかったか否かを判定する(ステップS409)。
ステップS409の判定がYESならば、図3の音声期間検出部306が、特には図示しないRAMに変数として記憶される開始タイミングSTに、ステップS405で取得した現在時刻tをセットする。また、制御部201は、「開フラグ」の値を1にセットする。なお、図4において、開フラグの値が1であることを「開=1」と表記する(以上、ステップS410)。
その後、制御部201は、次の画像フレームの処理に移り(ステップS408)、ステップS402の処理から繰り返す。
一方、制御部201は、ステップS409の判定がNOならば、既に開始タイミングSTには時刻がセットされたため、そのまま次の画像フレームの処理に移り(ステップS408)、ステップS402の処理から繰り返す。
以上のように口唇の開閉動作が行われている状態で図4のステップS406の判定処理が繰り返し実行された結果、図3の口開閉動作検出部305が、口唇の開閉動作が行われていない状態を判定すると、図2の制御部201は、「開フラグ」の値が1、すなわち、いままで口唇の開閉動作が行われていたか否かを判定する(ステップS407)。
口唇の開閉動作が開始された後には「開フラグ」の値は1にセットされているため(ステップS410を参照)、制御部201によるステップS407の判定はYESとなる。この結果、図3の音声期間検出部306が、特には図示しないRAMに変数として記憶される終了タイミングETに、ステップS405で取得した現在時刻tをセットする(ステップS411)。
上記ステップS411の後、図3の音声認識部303が、前記ステップ410及び411でそれぞれ設定された音声期間の開始タイミングST及び終了タイミングETで規定される音声期間内に図3の音声入力部302により取得され、記憶された対象者の音声に基づいて、対象者の音声を認識する音声認識処理を実行する(ステップS412)。その後、制御部201は、図4のフローチャートで示される音声期間処理を終了する。
図3の音声認識部308は、ステップS412の音声認識処理において例えば、音源到来方向推定処理、音源分離処理、音量算出処理、S/N比算出処理などを実行してよい。
音声認識部308は、音源到来方向推定処理において、ステップS410及びステップS411で検出された音声期間(STからETまで)において、音声入力部307が入力する音声を信号音声として、ステップS403の口パーツ検出処理で検出された口唇画像及びその信号音声の信号音声パワーに基づいて、信号音声の到来方向を推定してよい。
一方、音声認識部308は、音源到来方向推定処理において、ステップS410及びステップS411で検出された音声期間(STからETまで)以外の期間において、音声入力部307が入力する音を雑音として、その雑音の雑音パワーに基づいて、雑音の到来方向を推定してよい。このとき、音源到来方向推定処理において、音源定位手法の一手法であるMUSIC(MUltiple SIgnal Classification)法に基づく処理を実行することにより、対象者以外の音源からの雑音の音源定位(雑音源の位置)を推定してよい。
更に、音声認識部308は、音源分離処理において、例えば下記文献10で示されているビームフォーミング技術に基づく演算処理を実行することにより、音源到来方向推定処理により現在得られている信号音声の到来方向又は雑音の到来方向を入力として、対象者が発声する信号音声を強調し又は信号音声以外の雑音を抑圧する音源分離の処理を実行してよい。
<文献10>
浅野 太、“音源分離”、[online]、2011年11月受領、電子情報通信学会『知識の森』、[2017年6月15日検索]、インターネット
<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>
具体的には、音声認識部308は、音源分離処理において、図3の口開閉動作検出部305が図4のステップS406の口開閉動作検出処理において口唇の開閉動作が行われている状態を判定しているときには、上記ビームフォーミングの演算処理により、信号音声を音源到来方向推定処理により現在得られている信号音声の到来方向にビームステアリング(強調)するビームステアリング演算処理を実行することにより、強調された信号音声を得てよい。
一方、音声認識部308は、音源分離処理において、図3の口開閉動作検出部305が図4のステップS406の口開閉動作検出処理において口唇の開閉動作が行われていない状態を判定しているときには、上記ビームフォーミングの演算処理により、雑音を音源到来方向推定処理により現在得られている雑音の到来方向にヌルステアリング(抑圧)するヌルステアリング演算処理を実行することにより、抑圧された雑音を得てよい。
また、音声認識部308は、音量算出処理において、音源分離処理で得られるビームステアリング(強調)された信号音声又はヌルステアリング(抑圧)された雑音のそれぞれの音量を算出する。
次に、音声認識部308は、S/N比算出処理において、音量算出処理で算出した信号音声の音量と雑音の音量とに基づいて、信号対雑音比(以下「S/N比」と記載)を算出し、そのS/N比が閾値よりも大きいか否かを判定する。
S/N比算出処理での判定の結果、S/N比が閾値以下である場合には、音声認識部308は、音声認識のための十分なS/N比が得られていないと判定する。この場合、図2の制御部201は例えば、図1又は図2の足回り駆動部108を制御することにより、例えば対象者に対して一定の関係(例えば一定の距離又は一定の角度等)を維持しながら、ロボット100を移動させる。
ロボット100の移動の後、音声認識部308は再び、上述と同様のS/N比の判定動作を実行する。この結果、S/N比が閾値よりも大きくなると、音声認識部308は、音声認識のための十分なS/N比が得られ、対象者に対するロボット100の位置関係が、信号音声を雑音から最も良く分離できる最適化された位置である音源分離位置になったと判定する(又は、対象者に対するロボット100の方向関係が、信号音声を雑音から最も良く分離できる最適化された方向である音源分離方向になったと判定する)。この場合、音声認識部308は、音源分離処理で得たビームステアリング(強調)された信号音声に対する音声認識処理を実行させることにより、対象者の発声内容を理解する。
以上説明した実施形態では、口唇に対応する複数の点から成る点群の広がり具合を評価しているので、(1)顔サイズの正規化が不要(平行移動に対して不変)であるという効果がある。また、(2)口開閉状態の判定結果が、特にロール軸(Z軸)回りの頭部の回転の影響を受けにくいという効果がある。更に、(3)時系列的に連続する複数の画像フレーム間での口唇の点群の対応が厳密でなくてもよいという効果がある。そして、(4)分散という統計量を使う方式なので、口唇の点群の座標の検出バラツキの影響が軽減され、更に点群が輪郭やエリアであれば、よりそのバラツキの影響を軽減できるという効果がある。
以上のように、本実施形態では、撮像手段により撮像された対象物を含む撮像画像から取得された対象物に対応する複数の点の座標に対して主成分分析を少なくとも行うことにより複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出し、その広がり度合パラメータに基づいて対象物の開閉状態を判定することにより、従来技術に比較して、口唇をはじめとする対象物の向きや位置が変動することに起因する外乱の影響に対する対象物の開閉状態の判定のロバスト性を高めることができ、対象物の開閉状態を適切に判定することが可能となる。
また、口唇等の対象物の複数の点の座標から分散行列を算出し、算出した分散行列を固有値分解することによって算出した第1及び第2固有値の関係に基づいて広がり度合パラメータを算出することにより、対象物の回転等の影響を受けにくい広がり度合パラメータを検出することが可能となる。
或いは、口唇等の対象物の複数の点の座標を平均することによって算出したそれら複数の点の中心の座標を複数の点の座標の各々から減算することによって偏差を算出し、算出した偏差をベクトルとする行列を特異値分解することによって算出した第1及び第2特異値の関係に基づいて広がり度合パラメータを算出することにより、固有値の場合と同様に、対象物の回転等の影響を受けにくい広がり度合パラメータを検出することが可能となる。
特に、対象物が人間の口唇である場合に、画像取得手段が撮像手段により経時的に連続して撮像された口唇を各々が含む複数の撮像画像を取得し、算出手段が複数の撮像画像の各々について広がり度合パラメータを算出し、判定手段が複数の撮像画像の各々について各々が算出された複数の広がり度合パラメータの関係に基づいて口唇が繰り返し開閉している状態にあるか否かを判定することにより、口唇の開閉動作を安定して検出することが可能となる。
また、広がり度合パラメータに対しノイズを抑制するためのフィルタ処理を施すことにより、対象物の開閉状態を安定して判定することが可能となる。なお、このフィルタ処理は、実施されなくてもよい。
更に、本発明による開閉状態判定装置を用いて、口唇の開閉状態の判定結果に基づいて対象者が発声している期間である音声期間を検出し、対象者の音声を取得し、検出された対象者の音声期間内に取得された対象者の音声に基づいて対象者の音声を認識することにより、認識精度の高い音声認識装置を実現することが可能となる。
以上説明した実施形態は、特許請求の範囲に記載の対象物を口唇として実施した場合の例であるが、所定方向に開閉可能な他の適当な対象物、例えば瞼であってもよい。
また、上述の実施形態では、開閉状態判定装置は、音声認識装置の前処理を行うための装置として構成されているが、音声認識装置とは無関係に構成されていてもよい。
更に、上述の実施形態では、開閉状態判定装置は、ロボットに搭載されているが、ロボットに搭載されていなくてもよい。
上述の実施形態では、広がり度合パラメータは、第1固有値と第2固有値との関係(例えば固有値比、或いは、第1特異値と第2特異値との関係(例えば特異値比)に基づいて算出されたが、本発明の広がり度合パラメータはこれらに限られるものではない。
例えば、広がり度合パラメータを、最大の固有値で最小の固有値を除算することにより(最大の特異値で最小の特異値を除算することにより)算出してもよい。
或いは、広がり度合パラメータを、実施形態の場合とは逆に、第2固有値で第1固有値を除算することにより(第2特異値で第1特異値を除算することにより)算出してもよい。その場合には、広がり度合パラメータが、所定値よりも大きいときに口が閉じている状態であると判定でき、所定値よりも小さいときに口が開いている状態であると判定できる。
更に、広がり度合パラメータと第1及び第2固有値との関係、又は広がり度合パラメータと第1及び第2特異値との関係を、実験などにより予め求め、マップ化し、このマップを第1及び第2固有値又は第1及び第2特異値に応じて検索することにより、広がり度合パラメータを算出してもよい。
また、広がり度合パラメータに基づく口唇の開閉状態の判定手法は、上述の実施形態のように記載の手法に限られず、例えばそのときどきの固有値比又は特異値比と閾値との比較結果に基づいて判定する等、種々の手法を採用することができる。
同様に、音声期間の検出手法についても、上述の実施形態に記載の手法に限られず、例えば音声期間の開始時点と終了時点の或る期間は音声期間に含めない等、種々の手法を採用することができる。
以上説明した実施形態において、図2の制御部201が記憶部202に記憶され図7乃至図9のフローチャートの処理例で示される制御プログラム205を実行することにより図3で示される各機能部の処理を実現する場合、制御プログラム205は、例えば外部記憶装置や可搬記録媒体に記録して配布してもよく、あるいは特には図示しない無線や有線の通信インタフェースを介してネットワークから取得できるようにしてもよい。
以上の実施形態に関して、更に以下の付記を開示する。
(付記1)
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定手段と、
を備えることを特徴とする開閉状態判定装置。
(付記2)
前記算出手段は、
前記複数の点の座標から分散行列を算出し、算出した分散行列を固有値分解することによって、前記所定方向に対応する固有値である第1固有値と、前記所定方向に直交する方向に対応する固有値である第2固有値とを算出し、算出した第1及び第2固有値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、付記1に記載の開閉状態判定装置。
(付記3)
前記算出手段は、
前記複数の点の座標を平均することによって前記複数の点の中心の座標を算出し、
前記算出した中心の座標を前記複数の点の座標の各々から減算することによって偏差を算出し、
前記算出した偏差をベクトルとする行列を特異値分解することによって、前記所定方向に対応する特異値である第1特異値と、前記所定方向に直交する方向に対応する特異値である第2特異値とを算出し、算出した第1及び第2特異値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、付記1に記載の開閉状態判定装置。
(付記4)
前記対象物は人間の口唇であり、
前記画像取得手段は、前記撮像画像として、前記撮像手段により経時的に連続して撮像された前記口唇を各々が含む複数の撮像画像を取得し、
前記算出手段は、前記複数の撮像画像の各々について、前記広がり度合パラメータを算出し、
前記判定手段は、前記複数の撮像画像の各々について各々が算出された複数の前記広がり度合パラメータの関係に基づいて、前記口唇が繰り返し開閉している状態にあるか否かを判定することを特徴とする、
付記1乃至3のいずれか1項に記載の開閉状態判定装置。
(付記5)
前記広がり度合パラメータに対しノイズを抑制するためのフィルタ処理を施すフィルタ手段をさらに備え、
前記判定手段は、前記フィルタ処理が施された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定することを特徴とする、付記1ないし4のいずれか1項に記載の開閉状態判定装置。
(付記6)
撮像手段により撮像された対象者の口唇を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記口唇に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記口唇の開閉状態を判定する判定手段と、
前記判定手段による前記口唇の開閉状態の判定結果に基づいて、前記対象者が発声している期間である音声期間を検出する音声期間検出手段と、
対象者の音声を取得する音声取得手段と、
前記検出された前記対象者の音声期間内に前記音声取得手段により取得された前記対象者の音声に基づいて、前記対象者の音声を認識する音声認識手段と、
を備えることを特徴とする音声認識装置。
(付記7)
付記6に記載の音声認識装置を備えるロボット。
(付記8)
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定方法であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得処理と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得処理と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出処理と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定処理と、
を含むことを特徴とする開閉状態判定方法。
(付記9)
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置のコンピュータに、
撮像手段により撮像された前記対象物を含む撮像画像を取得する機能、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する機能、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する機能、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する機能、
を実現させるためのプログラム。
100 ロボット
101 頭部
102 胴体
103 マイクアレイ
104 カメラ
105 スピーカ
106 センサ群
107 首関節駆動部
108 足回り駆動部
200 ロボット制御システム
201 制御部
202 記憶部
203 操作ボタン
204 電源部
205 制御プログラム
301 画像入力部
302 顔検出部
303 口パーツ検出部
304 口開閉状態推定部
305 口開閉動作検出部
306 音声期間検出部
307 音声入力部
308 音声認識部
309 発声部
本発明は、音声認識装置、ロボット、音声認識方法及びプログラムに関する。
本発明は、対象物の口唇の向きや位置が変動した場合であっても対象物からの音声を適切に認識することを目的とする。
態様の一例では、撮像手段により撮像された対象者の口唇を含む撮像画像を取得する画像取得手段と、前記取得された撮像画像における前記口唇に対応する複数の点の座標を取得する座標取得手段と、前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、前記算出された広がり度合パラメータに基づいて、前記口唇の開閉状態を判定する判定手段と、前記判定手段による前記口唇の開閉状態の判定結果に基づいて、前記対象者が発声している期間である音声期間を検出する音声期間検出手段と、対象者の音声を取得する音声取得手段と、前記検出された前記対象者の音声期間内に前記音声取得手段により取得された前記対象者の音声に基づいて、前記対象者の音声を認識する音声認識手段と、を備えることを特徴とする。
本発明によれば、対象物の口唇の向きや位置が変動した場合であっても対象物からの音声を適切に認識することが可能となる。

Claims (9)

  1. 所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置であって、
    撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得手段と、
    前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得手段と、
    前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
    前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定手段と、
    を備えることを特徴とする開閉状態判定装置。
  2. 前記算出手段は、
    前記複数の点の座標から分散行列を算出し、算出した分散行列を固有値分解することによって、前記所定方向に対応する固有値である第1固有値と、前記所定方向に直交する方向に対応する固有値である第2固有値とを算出し、算出した第1及び第2固有値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、請求項1に記載の開閉状態判定装置。
  3. 前記算出手段は、
    前記複数の点の座標を平均することによって前記複数の点の中心の座標を算出し、
    前記算出した中心の座標を前記複数の点の座標の各々から減算することによって偏差を算出し、
    前記算出した偏差をベクトルとする行列を特異値分解することによって、前記所定方向に対応する特異値である第1特異値と、前記所定方向に直交する方向に対応する特異値である第2特異値とを算出し、算出した第1及び第2特異値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、請求項1に記載の開閉状態判定装置。
  4. 前記対象物は人間の口唇であり、
    前記画像取得手段は、前記撮像画像として、前記撮像手段により経時的に連続して撮像された前記口唇を各々が含む複数の撮像画像を取得し、
    前記算出手段は、前記複数の撮像画像の各々について、前記広がり度合パラメータを算出し、
    前記判定手段は、前記複数の撮像画像の各々について各々が算出された複数の前記広がり度合パラメータの関係に基づいて、前記口唇が繰り返し開閉している状態にあるか否かを判定することを特徴とする、
    請求項1乃至3のいずれか1項に記載の開閉状態判定装置。
  5. 前記広がり度合パラメータに対しノイズを抑制するためのフィルタ処理を施すフィルタ手段をさらに備え、
    前記判定手段は、前記フィルタ処理が施された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定することを特徴とする、請求項1ないし4のいずれか1項に記載の開閉状態判定装置。
  6. 撮像手段により撮像された対象者の口唇を含む撮像画像を取得する画像取得手段と、
    前記取得された撮像画像における前記口唇に対応する複数の点の座標を取得する座標取得手段と、
    前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
    前記算出された広がり度合パラメータに基づいて、前記口唇の開閉状態を判定する判定手段と、
    前記判定手段による前記口唇の開閉状態の判定結果に基づいて、前記対象者が発声している期間である音声期間を検出する音声期間検出手段と、
    対象者の音声を取得する音声取得手段と、
    前記検出された前記対象者の音声期間内に前記音声取得手段により取得された前記対象者の音声に基づいて、前記対象者の音声を認識する音声認識手段と、
    を備えることを特徴とする音声認識装置。
  7. 請求項6に記載の音声認識装置を備えるロボット。
  8. 所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定方法であって、
    撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得処理と、
    前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得処理と、
    前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出処理と、
    前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定処理と、
    を含むことを特徴とする開閉状態判定方法。
  9. 所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置のコンピュータに、
    撮像手段により撮像された前記対象物を含む撮像画像を取得する機能、
    前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する機能、
    前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する機能、
    前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する機能、
    を実現させるためのプログラム。
JP2022176980A 2018-08-29 2022-11-04 音声認識装置、ロボット、音声認識方法及びプログラム Pending JP2023009128A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022176980A JP2023009128A (ja) 2018-08-29 2022-11-04 音声認識装置、ロボット、音声認識方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018160422A JP7196467B2 (ja) 2018-08-29 2018-08-29 開閉状態判定装置、開閉状態判定方法及びプログラム
JP2022176980A JP2023009128A (ja) 2018-08-29 2022-11-04 音声認識装置、ロボット、音声認識方法及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018160422A Division JP7196467B2 (ja) 2018-08-29 2018-08-29 開閉状態判定装置、開閉状態判定方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023009128A true JP2023009128A (ja) 2023-01-19

Family

ID=69668212

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018160422A Active JP7196467B2 (ja) 2018-08-29 2018-08-29 開閉状態判定装置、開閉状態判定方法及びプログラム
JP2022176980A Pending JP2023009128A (ja) 2018-08-29 2022-11-04 音声認識装置、ロボット、音声認識方法及びプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018160422A Active JP7196467B2 (ja) 2018-08-29 2018-08-29 開閉状態判定装置、開閉状態判定方法及びプログラム

Country Status (1)

Country Link
JP (2) JP7196467B2 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197465A (ja) * 2000-03-31 2002-07-12 Fujitsu Ltd 自動口形状検出装置とそれを用いた自動単語認識装置
JP2006260397A (ja) * 2005-03-18 2006-09-28 Konica Minolta Holdings Inc 開眼度推定装置
JP5133677B2 (ja) * 2007-12-27 2013-01-30 株式会社カーメイト 監視システム
JP4957711B2 (ja) * 2008-12-02 2012-06-20 オムロン株式会社 検出装置および方法、並びに、プログラム
JP2010250420A (ja) * 2009-04-13 2010-11-04 Seiko Epson Corp 顔の特徴部位の座標位置を検出する画像処理装置
CN102511054B (zh) * 2010-07-21 2016-02-10 松下电器(美国)知识产权公司 图像管理装置、图像管理方法
JP2013051737A (ja) * 2012-11-14 2013-03-14 Fujifilm Corp 画像処理装置、画像処理方法、およびプログラム
JP2016115117A (ja) * 2014-12-15 2016-06-23 アイシン精機株式会社 判定装置および判定方法
WO2017109860A1 (ja) * 2015-12-22 2017-06-29 株式会社ニコン 画像処理装置
CN105844252B (zh) * 2016-04-01 2019-07-26 南昌大学 一种面部关键部位的疲劳检测方法

Also Published As

Publication number Publication date
JP7196467B2 (ja) 2022-12-27
JP2020035137A (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
CN109141620B (zh) 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
US10402984B2 (en) Monitoring
US7340100B2 (en) Posture recognition apparatus and autonomous robot
Charfi et al. Definition and performance evaluation of a robust SVM based fall detection solution
US10997979B2 (en) Voice recognition device and voice recognition method
CN112088315A (zh) 多模式语音定位
US20150055821A1 (en) Multi-tracker object tracking
US20120035927A1 (en) Information Processing Apparatus, Information Processing Method, and Program
JP2016099982A (ja) 行動認識装置、行動学習装置、方法、及びプログラム
KR20140134803A (ko) 다중 클래스 svm과 트리 분류를 이용한 제스처 인식 장치 및 방법
JP2007257088A (ja) ロボット装置及びそのコミュニケーション方法
WO2010042068A1 (en) Method and system for object detection and tracking
US20140222425A1 (en) Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information
JP2019003536A (ja) 表情判定装置、表情判定方法及びプログラム
JP2008009728A (ja) 表情認識方法及び表情認識装置
EP3757878A1 (en) Head pose estimation
JP7196467B2 (ja) 開閉状態判定装置、開閉状態判定方法及びプログラム
KR101480816B1 (ko) 입술 영상에서 추출된 다수의 입술 움직임 특징을 이용한 시각적 음성인식 시스템
Cao et al. Leveraging convolutional pose machines for fast and accurate head pose estimation
Luo et al. Dynamic face recognition system in recognizing facial expressions for service robotics
KR101514242B1 (ko) 얼굴 특징을 추적하는 방법 및 장치
Kühn et al. Multimodal saliency-based attention: A lazy robot's approach
JP7351105B2 (ja) 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット
Vineetha et al. Face expression detection using Microsoft Kinect with the help of artificial neural network
Wang et al. Real-time automated video and audio capture with multiple cameras and microphones

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20231101

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240202

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240213

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20240308