JP2021105808A - 発話者認識システム、発話者認識方法、及び発話者認識プログラム - Google Patents
発話者認識システム、発話者認識方法、及び発話者認識プログラム Download PDFInfo
- Publication number
- JP2021105808A JP2021105808A JP2019236314A JP2019236314A JP2021105808A JP 2021105808 A JP2021105808 A JP 2021105808A JP 2019236314 A JP2019236314 A JP 2019236314A JP 2019236314 A JP2019236314 A JP 2019236314A JP 2021105808 A JP2021105808 A JP 2021105808A
- Authority
- JP
- Japan
- Prior art keywords
- lip
- face
- recognition
- speaker
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000001514 detection method Methods 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 15
- 230000001815 facial effect Effects 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Abstract
Description
図1〜図7を参照して第1実施形態を説明する。図1は、画像情報を用いた発話者認識システム1について説明する図である。
図8〜図9を参照して第2実施形態を説明する。
図10〜図11を参照して第3実施形態を説明する。
6 身体部位認識部
7 顔領域認識部
8 顔特徴量保存部
9 口唇領域抽出部
11 口唇画素数変換部
12 口唇特徴量算出部
13 発話検出部
15 発話者認識部
Claims (9)
- 撮影された映像内の人物の身体部位を検出する身体部位認識部と、
前記映像内の前記人物の顔領域を認識する顔領域認識部と、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出部と、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部と、
前記口唇特徴量に基づき発話の有無を判定する発話検出部と、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識部と、を備え、
前記顔領域認識部は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出部は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出する、
発話者認識システム。 - 前記口唇領域抽出部により抽出された前記口唇領域の画素数を所定の画素数に変換する口唇画素数変換部を備え、
前記口唇特徴量算出部は、前記所定の画素数に変換された口唇領域を用いて前記口唇特徴量を算出する、請求項1に記載の発話者認識システム。 - 前記映像内のすべての人物の顔特徴量を保存する顔特徴量保存部を備え、
前記発話者認識部は、前記顔特徴量保存部に保存されている前記顔特徴量と、前記発話検出部により発話していると判定された人物の顔特徴量との類似度を算出し、類似度が最も高い人物を発話者と判定する、
請求項1または2に記載の発話者認識システム。 - 前記発話検出部は、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の1話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う、
請求項1〜3のいずれか1項に記載の発話者認識システム。 - 前記口唇特徴量と、前記口唇特徴量に同期した話者ごとの音声特徴量とを重み付けして融合して、融合した特徴量を用いて発話検出を行う、
請求項1〜4のいずれか1項に記載の発話者認識システム。 - 発話音声に基づき発話内容を認識して出力する、
請求項1〜5のいずれか1項に記載の発話者認識システム。 - 前記発話検出部の発話検出結果による発話の開始時刻および終了時と、前記発話者認識部の発話者認識結果による発話者の顔画像、及び、前記発話内容の認識結果を一覧出力する、
請求項6に記載の発話者認識システム。 - 撮影された映像内の人物の身体部位を検出する身体部位認識ステップと、
前記映像内の前記人物の顔領域を認識する顔領域認識ステップと、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出ステップと、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量ステップと、
前記口唇特徴量に基づき発話の有無を判定する発話検出ステップと、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識ステップと、を含み、
前記顔領域認識ステップは、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出ステップは、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出する、
発話者認識方法。 - 撮影された映像内の人物の身体部位を検出する身体部位認識機能と、
前記映像内の前記人物の顔領域を認識する顔領域認識機能と、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出機能と、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出機能と、
前記口唇特徴量に基づき発話の有無を判定する発話検出機能と、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識機能と、をコンピュータに実現させ、
前記顔領域認識機能は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出機能は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出する、
発話者認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019236314A JP7388188B2 (ja) | 2019-12-26 | 2019-12-26 | 発話者認識システム、発話者認識方法、及び発話者認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019236314A JP7388188B2 (ja) | 2019-12-26 | 2019-12-26 | 発話者認識システム、発話者認識方法、及び発話者認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021105808A true JP2021105808A (ja) | 2021-07-26 |
JP7388188B2 JP7388188B2 (ja) | 2023-11-29 |
Family
ID=76918910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019236314A Active JP7388188B2 (ja) | 2019-12-26 | 2019-12-26 | 発話者認識システム、発話者認識方法、及び発話者認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7388188B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011014985A (ja) | 2009-06-30 | 2011-01-20 | Sony Corp | 撮像装置、撮像方法、およびプログラム |
JP2011059186A (ja) | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2012113414A (ja) | 2010-11-22 | 2012-06-14 | Sony Corp | 部位検出装置、部位検出方法、及びプログラム |
JP2017069687A (ja) | 2015-09-29 | 2017-04-06 | ソニー株式会社 | 情報処理装置及び情報処理方法並びにプログラム |
JP2019191339A (ja) | 2018-04-24 | 2019-10-31 | シャープ株式会社 | 電子機器、制御プログラム、制御装置および制御方法 |
-
2019
- 2019-12-26 JP JP2019236314A patent/JP7388188B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP7388188B2 (ja) | 2023-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358223B (zh) | 一种基于yolo的人脸检测与人脸对齐方法 | |
CN112088402A (zh) | 用于说话者识别的联合神经网络 | |
US20240048932A1 (en) | Personalized hrtfs via optical capture | |
JP4951498B2 (ja) | 顔画像認識装置、顔画像認識方法、顔画像認識プログラムおよびそのプログラムを記録した記録媒体 | |
JP7100824B2 (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2011103111A (ja) | 視聴覚を結合した動作認識システムおよびその認識方法 | |
CN112911393B (zh) | 部位识别方法、装置、终端及存储介质 | |
JP2017228224A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115699082A (zh) | 缺陷检测方法及装置、存储介质及电子设备 | |
KR20120120858A (ko) | 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기 | |
Kalbande et al. | Lip reading using neural networks | |
KR101187600B1 (ko) | 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법 | |
KR20150107499A (ko) | 오브젝트 인식 장치 및 그 제어 방법 | |
EP4344199A1 (en) | Speech and image synchronization measurement method and apparatus, and model training method and apparatus | |
JP2016126510A (ja) | 画像生成装置、画像生成方法及びプログラム | |
JP2007257088A (ja) | ロボット装置及びそのコミュニケーション方法 | |
KR20190119212A (ko) | 인공신경망을 이용한 가상 피팅 시스템, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN112069863B (zh) | 一种面部特征的有效性判定方法及电子设备 | |
CN112200056A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
JP5648452B2 (ja) | 画像処理プログラムおよび画像処理装置 | |
CN115131405A (zh) | 一种基于多模态信息的发言人跟踪方法及系统 | |
WO2020068104A1 (en) | Generating spatial gradient maps for a person in an image | |
JP7388188B2 (ja) | 発話者認識システム、発話者認識方法、及び発話者認識プログラム | |
US10665243B1 (en) | Subvocalized speech recognition | |
JP2020052788A (ja) | 画像処理装置及びその方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221017 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231030 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7388188 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |