JP7259447B2 - 発話者検出システム、発話者検出方法及びプログラム - Google Patents
発話者検出システム、発話者検出方法及びプログラム Download PDFInfo
- Publication number
- JP7259447B2 JP7259447B2 JP2019052911A JP2019052911A JP7259447B2 JP 7259447 B2 JP7259447 B2 JP 7259447B2 JP 2019052911 A JP2019052911 A JP 2019052911A JP 2019052911 A JP2019052911 A JP 2019052911A JP 7259447 B2 JP7259447 B2 JP 7259447B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- detection system
- person
- image data
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Description
前記発話者を含む複数の参加者を撮像して画像データを生成する撮像部と、
前記画像データに基づいて、口唇の動作を検出して前記発話者を検出する第1検出部と、
前記第1検出部で前記発話者が検出できない場合に、前記画像データに基づいて、前記参加者の動き又は外観を検出して前記発話者を検出する第2検出部と
を備え、
前記第2検出部は、
前記参加者のうち、前記口唇が遮蔽されている外観の第1人物を検出し、かつ、前記第1人物となる人物以外が前記発話者でないと検出されると、前記第1人物を前記発話者と検出することを特徴とする。
<発話者検出システムの全体構成例及び使用例>
発話者検出システムは、例えば、複数の参加者が会議室等に集まって話し合い等をする場面等において、以下のように設置して使用される。なお、設置場所は、会議室に限られず、他の部屋等でもよい。
図2は、電子黒板のハードウェア構成例を示す図である。図示するように、電子黒板2は、CPU201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、SSD204、ネットワークI/F205、及び、外部機器接続I/F206を備える。
図3は、全体処理例を示すフローチャートである。例えば、会議が開始されると、発話者検出システムは、例えば、以下のような処理を行う。
発話者検出システムは、参加者を撮像して画像データを生成する。なお、ステップS1Sによって撮像する画像を1 フレームとすると、発話者検出システムは、ステップS1Eにより、繰り返し画像データを生成し、複数のフレームを生成する。また、ステップS2S以降の処理は、それぞれのフレームに対して行われる。
発話者検出システムは、画像データに基づいて、人物を検出する。すなわち、発話者検出システムは、画像データに対して、顔認証等の処理を行うと、参加者を検出することができる。なお、人物の検出方法は、顔認証に限られず、他の認識処理等で実現してもよい。
発話者検出システムは、人物の動きを検出する。例えば、発話者検出システムは、オプティカルフロー等の処理で人物の動きを検出する。なお、動きの検出方法は、他の認識処理等で実現してもよい。
発話者検出システムは、視線を検出する。例えば、発話者検出システムは、参加者の目を示す画像等から視線を検出する。なお、視線の検出方法は、他の認識処理等で実現してもよい。このように、発話者検出システムは、視線を検出して、参加者のうち、どの人物に最も視線が集まっているかを検出するのが望ましい。すなわち、それぞれの参加者の視線を検出することで、発話者検出システムは、視線の先となる回数が最も多い人物を特定する処理を行うのが望ましい。
発話者検出システムは、口唇を検出する。例えば、発話者検出システムは、顔認証等の処理を行うと、顔の主な部位である、目、鼻、口唇及び耳等を検出できる。
発話者検出システムは、口唇の動作を検出する。例えば、発話者検出システムは、ステップS5で検出する口唇をフレーム間で追跡していくと、口唇の動作を検出できる。
発話者検出システムは、口唇の動作で発話者が検出できたか否かを判断する。具体的には、ステップS5及びステップS6で口唇が検出できない場合等には、発話者検出システムは、口唇の動作で発話者が検出できないと判断する(ステップS7でNO)。
発話者検出システムは、口唇の動作が検出できた人物を発話者と検出する。すなわち、発話者検出システムは、口唇が動いている人物を発話者と検出する。
発話者検出システムは、口唇が遮蔽されている外観の人物(以下「第1人物」という場合がある。)を検出できたか否かを判断する。具体的には、以下のような人物が検出される。
発話者検出システムは、第1人物を発話者と検出する。すなわち、発話者検出システムは、口唇が遮蔽されている人物を発話者と検出する。
発話者検出システムは、参加者のうち、最も動きのある人物(以下「第2人物」という。)を検出できたか否かの判断する。すなわち、発話者検出システムは、参加者の中で最も動きのある人物を発話者と検出する。
発話者検出システムは、第2人物を発話者と検出する。すなわち、発話者検出システムは、最も動きのある人物を発話者と検出する。
発話者検出システムは、参加者のうち、参加者の視線が最も集まる人物(以下「第3人物」という。)を検出して発話者と検出する。例えば、以下のように、第1人物と検出される人物が複数検出され、かつ、参加者の動きにあまり差がなく、第2人物が特定しにくい場合等に、ステップS13が行われるのが望ましい。
図7は、第1実施形態における発話者検出システムの機能構成例を示す機能ブロック図である。例えば、図示するように、発話者検出システム10は、撮像部10F1、第1検出部10F2及び第2検出部10F3を備える機能構成である。
発話者検出システムは、例えば、以下のように、検出結果を利用した処理を行ってもよい。
全体処理は、以下のような処理でもよい。
発話者検出システムは、発話者が複数人検出されたか否かを判断する。例えば、口唇の動作で検出すると、発話していなくとも、発話者検出システムは、物を噛む等の動作を行い、口唇を動かす人物がいると、発話者と検出する場合がある。そこで、発話者が複数であるような検出結果である場合には、発話者と検出された複数の人物を対象に、ステップS11及びステップS13等の処理を行うことで、1 人に特定する処理を行うのが望ましい。
なお、撮像装置及び情報処理装置は、複数の装置であってもよい。すなわち、本発明に係る実施形態は、発話者検出システムは、各処理及びデータの記憶を冗長、分散、並列、仮想化又はこれらを組み合わせて実行してもよい。
2 電子黒板
10 発話者検出システム
10F1 撮像部
10F2 第1検出部
10F21 音声入力部
10F22 切替部
10F23 音声認識部
10F3 第2検出部
205 ネットワークI/F
210 バスライン
211 キャプチャデバイス
213 ディスプレイコントローラ
214 接触センサ
215 センサコントローラ
216 電子ペンコントローラ
219 近距離通信回路
219a アンテナ
222 電源スイッチ
223 選択スイッチ類
230 USBメモリ
240 マイク
250 スピーカ
280 ディスプレイ
290 電子ペン
H 手
IMG 画像データ
MA 第1参加者
MB 第2参加者
MC 第3参加者
MEM 参加者
ML1 認識モデル
ML2 認識モデル
ML3 認識モデル
MSK マスク
TX テキストデータ
Claims (6)
- 発話者を検出する発話者検出システムであって、
前記発話者を含む複数の参加者を撮像して画像データを生成する撮像部と、
前記画像データに基づいて、口唇の動作を検出して前記発話者を検出する第1検出部と、
前記第1検出部で前記発話者が検出できない場合に、前記画像データに基づいて、前記参加者の動き又は外観を検出して前記発話者を検出する第2検出部と
を備え、
前記第2検出部は、
前記参加者のうち、前記口唇が遮蔽されている外観の第1人物を検出し、かつ、前記第1人物となる人物以外が前記発話者でないと検出されると、前記第1人物を前記発話者と検出する発話者検出システム。 - 発話者を検出する発話者検出システムであって、
前記発話者を含む複数の参加者を撮像して画像データを生成する撮像部と、
前記画像データに基づいて、口唇の動作を検出して前記発話者を検出する第1検出部と、
前記第1検出部で前記発話者が検出できない場合に、前記画像データに基づいて、前記参加者の動き又は外観を検出して前記発話者を検出する第2検出部と
を備え、
前記第2検出部は、
前記参加者のうち、最も動きのある第2人物を検出すると、前記第2人物を前記発話者と検出する発話者検出システム。 - 発話者を検出する発話者検出システムであって、
前記発話者を含む複数の参加者を撮像して画像データを生成する撮像部と、
前記画像データに基づいて、口唇の動作を検出して前記発話者を検出する第1検出部と、
前記第1検出部で前記発話者が検出できない場合に、前記画像データに基づいて、前記参加者の動き又は外観を検出して前記発話者を検出する第2検出部と
を備え、
前記第2検出部は、
前記参加者の視線が最も集まる第3人物を前記発話者と検出する発話者検出システム。 - 発話者を検出する発話者検出システムであって、
前記発話者を含む複数の参加者を撮像して画像データを生成する撮像部と、
前記画像データに基づいて、口唇の動作を検出して前記発話者を検出する第1検出部と、
前記第1検出部で前記発話者が検出できない場合に、前記画像データに基づいて、前記参加者の動き又は外観を検出して前記発話者を検出する第2検出部と、
前記発話者を検出すると、前記発話者の特性に合う認識モデルに切り替える切替部と、
前記認識モデルに基づいて音声認識を行う音声認識部と
を備える発話者検出システム。 - 発話者を検出する発話者検出システムが行う発話者検出方法であって、
発話者検出システムが、前記発話者を含む複数の参加者を撮像して画像データを生成する撮像手順と、
発話者検出システムが、前記画像データに基づいて、口唇の動作を検出して前記発話者を検出する第1検出手順と、
発話者検出システムが、前記第1検出手順で前記発話者が検出できない場合に、前記画像データに基づいて、前記参加者の動き又は外観を検出して前記発話者を検出する第2検出手順と、
前記発話者を検出すると、前記発話者の特性に合う認識モデルに切り替える切替手順と、
前記認識モデルに基づいて音声認識を行う音声認識手順と
を含む発話者検出方法。 - 請求項5に記載の発話者検出方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019052911A JP7259447B2 (ja) | 2019-03-20 | 2019-03-20 | 発話者検出システム、発話者検出方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019052911A JP7259447B2 (ja) | 2019-03-20 | 2019-03-20 | 発話者検出システム、発話者検出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020155944A JP2020155944A (ja) | 2020-09-24 |
JP7259447B2 true JP7259447B2 (ja) | 2023-04-18 |
Family
ID=72559875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019052911A Active JP7259447B2 (ja) | 2019-03-20 | 2019-03-20 | 発話者検出システム、発話者検出方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7259447B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022168175A1 (ja) * | 2021-02-02 | 2022-08-11 | 株式会社I’mbesideyou | ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム |
CN114282621B (zh) * | 2021-12-29 | 2022-08-23 | 湖北微模式科技发展有限公司 | 一种多模态融合的话者角色区分方法与系统 |
CN114299952B (zh) * | 2021-12-29 | 2022-08-19 | 湖北微模式科技发展有限公司 | 结合多种运动分析的话者角色区分方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (ja) | 1999-03-26 | 2000-12-19 | Canon Inc | 情報処理装置 |
JP2005122128A (ja) | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP2007049375A (ja) | 2005-08-09 | 2007-02-22 | Nikon Corp | 画像処理装置、カメラ、通信装置およびその画像処理装置を実現するプログラム |
JP2007094104A (ja) | 2005-09-29 | 2007-04-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
WO2011013605A1 (ja) | 2009-07-27 | 2011-02-03 | 三洋電機株式会社 | プレゼンテーションシステム |
WO2011040056A1 (ja) | 2009-10-02 | 2011-04-07 | 独立行政法人情報通信研究機構 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
CN109410954A (zh) | 2018-11-09 | 2019-03-01 | 杨岳川 | 一种基于音视频的无监督的多说话人识别装置和方法 |
-
2019
- 2019-03-20 JP JP2019052911A patent/JP7259447B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (ja) | 1999-03-26 | 2000-12-19 | Canon Inc | 情報処理装置 |
JP2005122128A (ja) | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
JP2007049375A (ja) | 2005-08-09 | 2007-02-22 | Nikon Corp | 画像処理装置、カメラ、通信装置およびその画像処理装置を実現するプログラム |
JP2007094104A (ja) | 2005-09-29 | 2007-04-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
WO2011013605A1 (ja) | 2009-07-27 | 2011-02-03 | 三洋電機株式会社 | プレゼンテーションシステム |
WO2011040056A1 (ja) | 2009-10-02 | 2011-04-07 | 独立行政法人情報通信研究機構 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
CN109410954A (zh) | 2018-11-09 | 2019-03-01 | 杨岳川 | 一种基于音视频的无监督的多说话人识别装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2020155944A (ja) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11983823B2 (en) | Transmodal input fusion for a wearable system | |
CN104956292B (zh) | 多个感知感测输入的交互 | |
JP7259447B2 (ja) | 発話者検出システム、発話者検出方法及びプログラム | |
US11119573B2 (en) | Pupil modulation as a cognitive control signal | |
US20120259638A1 (en) | Apparatus and method for determining relevance of input speech | |
US20130300650A1 (en) | Control system with input method using recognitioin of facial expressions | |
US20120259554A1 (en) | Tongue tracking interface apparatus and method for controlling a computer program | |
US11803233B2 (en) | IMU for touch detection | |
WO2012145142A2 (en) | Control of electronic device using nerve analysis | |
WO2021073743A1 (en) | Determining user input based on hand gestures and eye tracking | |
US20220262080A1 (en) | Interfaces for presenting avatars in three-dimensional environments | |
US11620790B2 (en) | Generating a 3D model of a fingertip for visual touch detection | |
US20170160797A1 (en) | User-input apparatus, method and program for user-input | |
US11782548B1 (en) | Speed adapted touch detection | |
KR20200081529A (ko) | 사회적 수용성을 고려한 hmd 기반 사용자 인터페이스 방법 및 장치 | |
US11055517B2 (en) | Non-contact human input method and non-contact human input system | |
Deepateep et al. | Facial movement interface for mobile devices using depth-sensing camera | |
US11237671B1 (en) | Temporal filter touch detection | |
US11783444B1 (en) | Warping an input image based on depth and offset information | |
US20220261085A1 (en) | Measurement based on point selection | |
US20230059153A1 (en) | Methods, devices and media for input/output space mapping in head-based human-computer interactions | |
Nakamura | Embedded Facial Surface Sensing and Stimulation: Toward Facial Surface Interaction in Virtual Environment | |
Marques-Villarroya et al. | A bio-inspired exogenous attention-based architecture for social robots | |
CN118076942A (zh) | 用于发起动作的方法和装置 | |
CN117762243A (zh) | 连续手势的运动映射 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230320 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7259447 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |