JP2023009128A - 音声認識装置、ロボット、音声認識方法及びプログラム - Google Patents
音声認識装置、ロボット、音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP2023009128A JP2023009128A JP2022176980A JP2022176980A JP2023009128A JP 2023009128 A JP2023009128 A JP 2023009128A JP 2022176980 A JP2022176980 A JP 2022176980A JP 2022176980 A JP2022176980 A JP 2022176980A JP 2023009128 A JP2023009128 A JP 2023009128A
- Authority
- JP
- Japan
- Prior art keywords
- open
- closed state
- points
- calculated
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 89
- 238000001514 detection method Methods 0.000 claims abstract description 77
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000000513 principal component analysis Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000000354 decomposition reaction Methods 0.000 claims description 18
- 238000003384 imaging method Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 abstract description 32
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 210000003128 head Anatomy 0.000 description 18
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000000926 separation method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000000725 suspension Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
<文献1>
堀田 一弘、”小特集 顔認識技術 1.顔認識の研究動向”、[online]、2012年3月28日公開、映像情報メディア学会誌、Vol.64,No.4(2010),p.459-462、[2018年8月6日検索]、インターネット
<URL:https://www.jstage.jst.go.jp/article/itej/64/4/64_4_455/_pdf>
<文献2>
littlewing、“WEBカメラで利用できる顔認識技術まとめ-その2”、[online]、2015年4月7日公開、[2018年8月6日検索]、インターネット
<URL:http://littlewing.hatenablog.com/entry/2015/04/07/221856>
<文献3>
C.sagonas,”Facial point annotations”、[online]、[2018年8月6日検索]、インターネット
<URL:https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/>
<文献4>
ウィキペディア、”主成分分析”、[online]、[2018年8月6日検索]、インターネット
<URL:https://ja.wikipedia.org/wiki/主成分分析#詳細>
<文献5>
Open Source Computer Vision,“cv::PCA Class Reference”、[online]、[2018年8月6日検索]、インターネット
<URL: https://docs.opencv.org/3.4/d3/d8d/classcv_1_1PCA.html>
<文献6>
JMPデータ分析ソフトウェア from SAS Institute Inc.,、”特異値分解と共分散行列”、[online]、[2018年8月6日検索]、インターネット
<URL: http://jmp.com/japan/support/help/13/mm-statistical-details-4.shtml>
<文献7>
Open Source Computer Vision,“Singular value matrix decomposition”、[online]、[2018年8月6日検索]、インターネット
<URL:https://docs.opencv.org/3.4/dd/d2a/group__core__hal__interface__decomp__svd.html>
<文献8>
OpenCV.jp:OpenCV逆引きリファレンス、”特異値分解を行う”、[online]、[2018年8月6日検索]、インターネット
<URL:http://opencv.jp/cookbook/opencv_linalg.html#id26>
<文献9>
MathWorks ドキュメンテーション、“メディアン フィルター処理によるノイズ抑制”、[online]、[2018年8月6日検索]、インターネット
<URL: https://jp.mathworks.com/help/signal/ref/medfilt1.html >
<文献10>
浅野 太、“音源分離”、[online]、2011年11月受領、電子情報通信学会『知識の森』、[2017年6月15日検索]、インターネット
<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>
(付記1)
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定手段と、
を備えることを特徴とする開閉状態判定装置。
(付記2)
前記算出手段は、
前記複数の点の座標から分散行列を算出し、算出した分散行列を固有値分解することによって、前記所定方向に対応する固有値である第1固有値と、前記所定方向に直交する方向に対応する固有値である第2固有値とを算出し、算出した第1及び第2固有値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、付記1に記載の開閉状態判定装置。
(付記3)
前記算出手段は、
前記複数の点の座標を平均することによって前記複数の点の中心の座標を算出し、
前記算出した中心の座標を前記複数の点の座標の各々から減算することによって偏差を算出し、
前記算出した偏差をベクトルとする行列を特異値分解することによって、前記所定方向に対応する特異値である第1特異値と、前記所定方向に直交する方向に対応する特異値である第2特異値とを算出し、算出した第1及び第2特異値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、付記1に記載の開閉状態判定装置。
(付記4)
前記対象物は人間の口唇であり、
前記画像取得手段は、前記撮像画像として、前記撮像手段により経時的に連続して撮像された前記口唇を各々が含む複数の撮像画像を取得し、
前記算出手段は、前記複数の撮像画像の各々について、前記広がり度合パラメータを算出し、
前記判定手段は、前記複数の撮像画像の各々について各々が算出された複数の前記広がり度合パラメータの関係に基づいて、前記口唇が繰り返し開閉している状態にあるか否かを判定することを特徴とする、
付記1乃至3のいずれか1項に記載の開閉状態判定装置。
(付記5)
前記広がり度合パラメータに対しノイズを抑制するためのフィルタ処理を施すフィルタ手段をさらに備え、
前記判定手段は、前記フィルタ処理が施された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定することを特徴とする、付記1ないし4のいずれか1項に記載の開閉状態判定装置。
(付記6)
撮像手段により撮像された対象者の口唇を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記口唇に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記口唇の開閉状態を判定する判定手段と、
前記判定手段による前記口唇の開閉状態の判定結果に基づいて、前記対象者が発声している期間である音声期間を検出する音声期間検出手段と、
対象者の音声を取得する音声取得手段と、
前記検出された前記対象者の音声期間内に前記音声取得手段により取得された前記対象者の音声に基づいて、前記対象者の音声を認識する音声認識手段と、
を備えることを特徴とする音声認識装置。
(付記7)
付記6に記載の音声認識装置を備えるロボット。
(付記8)
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定方法であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得処理と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得処理と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出処理と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定処理と、
を含むことを特徴とする開閉状態判定方法。
(付記9)
所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置のコンピュータに、
撮像手段により撮像された前記対象物を含む撮像画像を取得する機能、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する機能、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する機能、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する機能、
を実現させるためのプログラム。
101 頭部
102 胴体
103 マイクアレイ
104 カメラ
105 スピーカ
106 センサ群
107 首関節駆動部
108 足回り駆動部
200 ロボット制御システム
201 制御部
202 記憶部
203 操作ボタン
204 電源部
205 制御プログラム
301 画像入力部
302 顔検出部
303 口パーツ検出部
304 口開閉状態推定部
305 口開閉動作検出部
306 音声期間検出部
307 音声入力部
308 音声認識部
309 発声部
Claims (9)
- 所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定手段と、
を備えることを特徴とする開閉状態判定装置。 - 前記算出手段は、
前記複数の点の座標から分散行列を算出し、算出した分散行列を固有値分解することによって、前記所定方向に対応する固有値である第1固有値と、前記所定方向に直交する方向に対応する固有値である第2固有値とを算出し、算出した第1及び第2固有値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、請求項1に記載の開閉状態判定装置。 - 前記算出手段は、
前記複数の点の座標を平均することによって前記複数の点の中心の座標を算出し、
前記算出した中心の座標を前記複数の点の座標の各々から減算することによって偏差を算出し、
前記算出した偏差をベクトルとする行列を特異値分解することによって、前記所定方向に対応する特異値である第1特異値と、前記所定方向に直交する方向に対応する特異値である第2特異値とを算出し、算出した第1及び第2特異値の関係に基づいて、前記広がり度合パラメータを算出することを特徴とする、請求項1に記載の開閉状態判定装置。 - 前記対象物は人間の口唇であり、
前記画像取得手段は、前記撮像画像として、前記撮像手段により経時的に連続して撮像された前記口唇を各々が含む複数の撮像画像を取得し、
前記算出手段は、前記複数の撮像画像の各々について、前記広がり度合パラメータを算出し、
前記判定手段は、前記複数の撮像画像の各々について各々が算出された複数の前記広がり度合パラメータの関係に基づいて、前記口唇が繰り返し開閉している状態にあるか否かを判定することを特徴とする、
請求項1乃至3のいずれか1項に記載の開閉状態判定装置。 - 前記広がり度合パラメータに対しノイズを抑制するためのフィルタ処理を施すフィルタ手段をさらに備え、
前記判定手段は、前記フィルタ処理が施された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定することを特徴とする、請求項1ないし4のいずれか1項に記載の開閉状態判定装置。 - 撮像手段により撮像された対象者の口唇を含む撮像画像を取得する画像取得手段と、
前記取得された撮像画像における前記口唇に対応する複数の点の座標を取得する座標取得手段と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出手段と、
前記算出された広がり度合パラメータに基づいて、前記口唇の開閉状態を判定する判定手段と、
前記判定手段による前記口唇の開閉状態の判定結果に基づいて、前記対象者が発声している期間である音声期間を検出する音声期間検出手段と、
対象者の音声を取得する音声取得手段と、
前記検出された前記対象者の音声期間内に前記音声取得手段により取得された前記対象者の音声に基づいて、前記対象者の音声を認識する音声認識手段と、
を備えることを特徴とする音声認識装置。 - 請求項6に記載の音声認識装置を備えるロボット。
- 所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定方法であって、
撮像手段により撮像された前記対象物を含む撮像画像を取得する画像取得処理と、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する座標取得処理と、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する算出処理と、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する判定処理と、
を含むことを特徴とする開閉状態判定方法。 - 所定方向に開閉可能な対象物の開閉状態を判定するための開閉状態判定装置のコンピュータに、
撮像手段により撮像された前記対象物を含む撮像画像を取得する機能、
前記取得された撮像画像における前記対象物に対応する複数の点の座標を取得する機能、
前記取得された複数の点の座標に対して主成分分析を少なくとも行うことにより、前記複数の点から成る点群の広がり度合を表す広がり度合パラメータを算出する機能、
前記算出された広がり度合パラメータに基づいて、前記対象物の開閉状態を判定する機能、
を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022176980A JP2023009128A (ja) | 2018-08-29 | 2022-11-04 | 音声認識装置、ロボット、音声認識方法及びプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018160422A JP7196467B2 (ja) | 2018-08-29 | 2018-08-29 | 開閉状態判定装置、開閉状態判定方法及びプログラム |
JP2022176980A JP2023009128A (ja) | 2018-08-29 | 2022-11-04 | 音声認識装置、ロボット、音声認識方法及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018160422A Division JP7196467B2 (ja) | 2018-08-29 | 2018-08-29 | 開閉状態判定装置、開閉状態判定方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023009128A true JP2023009128A (ja) | 2023-01-19 |
Family
ID=69668212
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018160422A Active JP7196467B2 (ja) | 2018-08-29 | 2018-08-29 | 開閉状態判定装置、開閉状態判定方法及びプログラム |
JP2022176980A Pending JP2023009128A (ja) | 2018-08-29 | 2022-11-04 | 音声認識装置、ロボット、音声認識方法及びプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018160422A Active JP7196467B2 (ja) | 2018-08-29 | 2018-08-29 | 開閉状態判定装置、開閉状態判定方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7196467B2 (ja) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002197465A (ja) * | 2000-03-31 | 2002-07-12 | Fujitsu Ltd | 自動口形状検出装置とそれを用いた自動単語認識装置 |
JP2006260397A (ja) * | 2005-03-18 | 2006-09-28 | Konica Minolta Holdings Inc | 開眼度推定装置 |
JP5133677B2 (ja) * | 2007-12-27 | 2013-01-30 | 株式会社カーメイト | 監視システム |
JP4957711B2 (ja) * | 2008-12-02 | 2012-06-20 | オムロン株式会社 | 検出装置および方法、並びに、プログラム |
JP2010250420A (ja) * | 2009-04-13 | 2010-11-04 | Seiko Epson Corp | 顔の特徴部位の座標位置を検出する画像処理装置 |
CN102511054B (zh) * | 2010-07-21 | 2016-02-10 | 松下电器(美国)知识产权公司 | 图像管理装置、图像管理方法 |
JP2013051737A (ja) * | 2012-11-14 | 2013-03-14 | Fujifilm Corp | 画像処理装置、画像処理方法、およびプログラム |
JP2016115117A (ja) * | 2014-12-15 | 2016-06-23 | アイシン精機株式会社 | 判定装置および判定方法 |
WO2017109860A1 (ja) * | 2015-12-22 | 2017-06-29 | 株式会社ニコン | 画像処理装置 |
CN105844252B (zh) * | 2016-04-01 | 2019-07-26 | 南昌大学 | 一种面部关键部位的疲劳检测方法 |
-
2018
- 2018-08-29 JP JP2018160422A patent/JP7196467B2/ja active Active
-
2022
- 2022-11-04 JP JP2022176980A patent/JP2023009128A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7196467B2 (ja) | 2022-12-27 |
JP2020035137A (ja) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109141620B (zh) | 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质 | |
US10402984B2 (en) | Monitoring | |
US7340100B2 (en) | Posture recognition apparatus and autonomous robot | |
Charfi et al. | Definition and performance evaluation of a robust SVM based fall detection solution | |
US10997979B2 (en) | Voice recognition device and voice recognition method | |
CN112088315A (zh) | 多模式语音定位 | |
US20150055821A1 (en) | Multi-tracker object tracking | |
US20120035927A1 (en) | Information Processing Apparatus, Information Processing Method, and Program | |
JP2016099982A (ja) | 行動認識装置、行動学習装置、方法、及びプログラム | |
KR20140134803A (ko) | 다중 클래스 svm과 트리 분류를 이용한 제스처 인식 장치 및 방법 | |
JP2007257088A (ja) | ロボット装置及びそのコミュニケーション方法 | |
WO2010042068A1 (en) | Method and system for object detection and tracking | |
US20140222425A1 (en) | Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information | |
JP2019003536A (ja) | 表情判定装置、表情判定方法及びプログラム | |
JP2008009728A (ja) | 表情認識方法及び表情認識装置 | |
EP3757878A1 (en) | Head pose estimation | |
JP7196467B2 (ja) | 開閉状態判定装置、開閉状態判定方法及びプログラム | |
KR101480816B1 (ko) | 입술 영상에서 추출된 다수의 입술 움직임 특징을 이용한 시각적 음성인식 시스템 | |
Cao et al. | Leveraging convolutional pose machines for fast and accurate head pose estimation | |
Luo et al. | Dynamic face recognition system in recognizing facial expressions for service robotics | |
KR101514242B1 (ko) | 얼굴 특징을 추적하는 방법 및 장치 | |
Kühn et al. | Multimodal saliency-based attention: A lazy robot's approach | |
JP7351105B2 (ja) | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット | |
Vineetha et al. | Face expression detection using Microsoft Kinect with the help of artificial neural network | |
Wang et al. | Real-time automated video and audio capture with multiple cameras and microphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221116 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20231101 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240202 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240213 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20240308 |