JP7388188B2 - 発話者認識システム、発話者認識方法、及び発話者認識プログラム - Google Patents
発話者認識システム、発話者認識方法、及び発話者認識プログラム Download PDFInfo
- Publication number
- JP7388188B2 JP7388188B2 JP2019236314A JP2019236314A JP7388188B2 JP 7388188 B2 JP7388188 B2 JP 7388188B2 JP 2019236314 A JP2019236314 A JP 2019236314A JP 2019236314 A JP2019236314 A JP 2019236314A JP 7388188 B2 JP7388188 B2 JP 7388188B2
- Authority
- JP
- Japan
- Prior art keywords
- lip
- recognition
- speaker
- utterance
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000001514 detection method Methods 0.000 claims description 64
- 230000001815 facial effect Effects 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 210000000887 face Anatomy 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
図1~図7を参照して第1実施形態を説明する。図1は、画像情報を用いた発話者認識システム1について説明する図である。
図8~図9を参照して第2実施形態を説明する。
図10~図11を参照して第3実施形態を説明する。
6 身体部位認識部
7 顔領域認識部
8 顔特徴量保存部
9 口唇領域抽出部
11 口唇画素数変換部
12 口唇特徴量算出部
13 発話検出部
15 発話者認識部
Claims (8)
- 撮影された映像内の人物の身体部位を検出する身体部位認識部と、
前記映像内の前記人物の顔領域を認識する顔領域認識部と、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出部と、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部と、
前記口唇特徴量に基づき発話の有無を判定する発話検出部と、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識部と、
を備え、
前記顔領域認識部は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出部は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出し、
前記発話検出部は、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の1話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う、
発話者認識システム。 - 前記口唇領域抽出部により抽出された前記口唇領域の画素数を所定の画素数に変換する口唇画素数変換部を備え、
前記口唇特徴量算出部は、前記所定の画素数に変換された口唇領域を用いて前記口唇特徴量を算出する、請求項1に記載の発話者認識システム。 - 前記映像内のすべての人物の顔特徴量を保存する顔特徴量保存部を備え、
前記発話者認識部は、前記顔特徴量保存部に保存されている前記顔特徴量と、前記発話検出部により発話していると判定された人物の顔特徴量との類似度を算出し、類似度が最も高い人物を発話者と判定する、
請求項1または2に記載の発話者認識システム。 - 前記口唇特徴量と、前記口唇特徴量に同期した話者ごとの音声特徴量とを重み付けして融合して、融合した特徴量を用いて発話検出を行う、
請求項1~3のいずれか1項に記載の発話者認識システム。 - 発話音声に基づき発話内容を認識して出力する、
請求項1~4のいずれか1項に記載の発話者認識システム。 - 前記発話検出部の発話検出結果による発話の開始時刻および終了時と、前記発話者認識部の発話者認識結果による発話者の顔画像、及び、前記発話内容の認識結果を一覧出力する、
請求項5に記載の発話者認識システム。 - 撮影された映像内の人物の身体部位を検出する身体部位認識ステップと、
前記映像内の前記人物の顔領域を認識する顔領域認識ステップと、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出ステップと、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量ステップと、
前記口唇特徴量に基づき発話の有無を判定する発話検出ステップと、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識ステップと、を含み、
前記顔領域認識ステップは、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出ステップは、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出し、
前記発話検出ステップは、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の1話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う、
発話者認識方法。 - 撮影された映像内の人物の身体部位を検出する身体部位認識機能と、
前記映像内の前記人物の顔領域を認識する顔領域認識機能と、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出機能と、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出機能と、
前記口唇特徴量に基づき発話の有無を判定する発話検出機能と、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識機能と、をコンピュータに実現させ、
前記顔領域認識機能は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出機能は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出し、
前記発話検出機能は、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の1話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う、
発話者認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019236314A JP7388188B2 (ja) | 2019-12-26 | 2019-12-26 | 発話者認識システム、発話者認識方法、及び発話者認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019236314A JP7388188B2 (ja) | 2019-12-26 | 2019-12-26 | 発話者認識システム、発話者認識方法、及び発話者認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021105808A JP2021105808A (ja) | 2021-07-26 |
JP7388188B2 true JP7388188B2 (ja) | 2023-11-29 |
Family
ID=76918910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019236314A Active JP7388188B2 (ja) | 2019-12-26 | 2019-12-26 | 発話者認識システム、発話者認識方法、及び発話者認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7388188B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011014985A (ja) | 2009-06-30 | 2011-01-20 | Sony Corp | 撮像装置、撮像方法、およびプログラム |
JP2011059186A (ja) | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2012113414A (ja) | 2010-11-22 | 2012-06-14 | Sony Corp | 部位検出装置、部位検出方法、及びプログラム |
JP2017069687A (ja) | 2015-09-29 | 2017-04-06 | ソニー株式会社 | 情報処理装置及び情報処理方法並びにプログラム |
JP2019191339A (ja) | 2018-04-24 | 2019-10-31 | シャープ株式会社 | 電子機器、制御プログラム、制御装置および制御方法 |
-
2019
- 2019-12-26 JP JP2019236314A patent/JP7388188B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011014985A (ja) | 2009-06-30 | 2011-01-20 | Sony Corp | 撮像装置、撮像方法、およびプログラム |
JP2011059186A (ja) | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2012113414A (ja) | 2010-11-22 | 2012-06-14 | Sony Corp | 部位検出装置、部位検出方法、及びプログラム |
JP2017069687A (ja) | 2015-09-29 | 2017-04-06 | ソニー株式会社 | 情報処理装置及び情報処理方法並びにプログラム |
JP2019191339A (ja) | 2018-04-24 | 2019-10-31 | シャープ株式会社 | 電子機器、制御プログラム、制御装置および制御方法 |
Non-Patent Citations (1)
Title |
---|
甲斐寛規,外5名,口唇領域の抽出と認識による発話検出,情報処理学会研究報告,2011年05月19日,Vol.2011-CVIM-177 No.13 |
Also Published As
Publication number | Publication date |
---|---|
JP2021105808A (ja) | 2021-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621991B2 (en) | Joint neural network for speaker recognition | |
CN112088315B (zh) | 多模式语音定位 | |
CN110414352B (zh) | 从视频文件中提取ppt文件信息的方法及相关设备 | |
JP4971413B2 (ja) | 視聴覚を結合した動作認識システムおよびその認識方法 | |
JP7100824B2 (ja) | データ処理装置、データ処理方法及びプログラム | |
KR20170066258A (ko) | 정보 처리 장치, 정보 처리 방법 및 기록 매체 | |
JP2017228224A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112037788B (zh) | 一种语音纠正融合方法 | |
JP5316248B2 (ja) | テレビ会議装置、テレビ会議方法、そのプログラム | |
CN111353336B (zh) | 图像处理方法、装置及设备 | |
JP2016126510A (ja) | 画像生成装置、画像生成方法及びプログラム | |
WO2023035969A1 (zh) | 语音与图像同步性的衡量方法、模型的训练方法及装置 | |
JP2002312796A (ja) | 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体 | |
JP7388188B2 (ja) | 発話者認識システム、発話者認識方法、及び発話者認識プログラム | |
CN112069863B (zh) | 一种面部特征的有效性判定方法及电子设备 | |
US10665243B1 (en) | Subvocalized speech recognition | |
JP2020052788A (ja) | 画像処理装置及びその方法、プログラム | |
CN114513622A (zh) | 说话人检测方法、设备、存储介质及程序产品 | |
CN114466179A (zh) | 语音与图像同步性的衡量方法及装置 | |
CN114494930A (zh) | 语音与图像同步性衡量模型的训练方法及装置 | |
KR20220098314A (ko) | 뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치 | |
JP2017108240A (ja) | 情報処理装置、及び情報処理方法 | |
KR102636238B1 (ko) | 음성 처리 장치를 포함하는 다중 그룹 수업 시스템 | |
CN112397089B (zh) | 语音发出者身份识别方法、装置、计算机设备及存储介质 | |
JPWO2020049636A1 (ja) | 識別システム、モデル提供方法およびモデル提供プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221017 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230815 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231030 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7388188 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |