JP2023118335A - Communication terminal, communication system, and communication server - Google Patents
Communication terminal, communication system, and communication server Download PDFInfo
- Publication number
- JP2023118335A JP2023118335A JP2022021244A JP2022021244A JP2023118335A JP 2023118335 A JP2023118335 A JP 2023118335A JP 2022021244 A JP2022021244 A JP 2022021244A JP 2022021244 A JP2022021244 A JP 2022021244A JP 2023118335 A JP2023118335 A JP 2023118335A
- Authority
- JP
- Japan
- Prior art keywords
- participant
- communication
- unit
- communication terminal
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 208
- 230000033001 locomotion Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 abstract description 12
- 230000003993 interaction Effects 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 21
- 238000001228 spectrum Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Abstract
Description
本発明は、通信端末、通信システム、及び通信サーバに関する。 The present invention relates to communication terminals, communication systems, and communication servers.
近年、インターネットや専用回線等の通信回線を介した遠隔会議の利用が高まっている。遠隔会議においては、会議参加者の周囲で発せられた雑音も他の会議参加者の端末に送信される。特許文献1には、テレビ会議システム等において、音声信号に含まれる雑音を除去する技術が開示されている。
In recent years, the use of teleconferencing via communication lines such as the Internet and dedicated lines has increased. In teleconferencing, noise emitted around conference participants is also transmitted to terminals of other conference participants.
音声信号に含まれる雑音の種類は様々であるため、特許文献1のような雑音成分を除去する技術を用いても、雑音成分を除去できない場合もあり得る。そのため、例えば会議とは関係のない会話の音声が他の会議参加者の端末に送信されると、会議参加者との間の会話が妨げられる。
Since there are various types of noise contained in an audio signal, there may be cases where the noise component cannot be removed even by using the technology for removing the noise component as in
本発明は、周囲音によって通信相手との会話が妨げられにくい技術を提供することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide a technique that makes it difficult for a conversation with a communication partner to be hindered by ambient sounds.
本発明に係る通信端末は、通信回線を通じて遠隔会議に参加する複数の参加者が使用する複数の通信端末のうち、一の参加者が使用する通信端末である。通信端末は、通信部、集音部、画像取得部、判断部、及び出力制御部を含む。通信部は、通信回線を介して他の通信端末と通信する。集音部は、遠隔会議中の音声を集音する。画像取得部は、遠隔会議中の一の参加者の撮影画像を取得する。判断部は、集音部で集音された音声、及び画像取得部で取得された撮影画像の少なくとも一方に基づいて、一の参加者が発話したか否かを判断する。出力制御部は、判断部において一の参加者が発話したと判断された場合、通信部から通信回線に音声を示す音声データを出力し、判断部において一の参加者が発話していないと判断された場合、通信部から通信回線に音声データを出力しないように制御する。 A communication terminal according to the present invention is a communication terminal used by one of a plurality of communication terminals used by a plurality of participants participating in a teleconference via a communication line. A communication terminal includes a communication unit, a sound collection unit, an image acquisition unit, a determination unit, and an output control unit. The communication unit communicates with another communication terminal via a communication line. The sound collecting unit collects sound during the teleconference. The image acquisition unit acquires a photographed image of one participant during the remote conference. The determining unit determines whether or not one participant has spoken based on at least one of the sound collected by the sound collecting unit and the captured image obtained by the image obtaining unit. The output control unit outputs audio data indicating voice from the communication unit to the communication line when the judgment unit judges that one participant has spoken, and the judgment unit judges that one participant has not spoken. If so, the communication unit is controlled not to output voice data to the communication line.
本発明に係る通信システムは、通信回線を通じて遠隔会議に参加する複数の参加者のうちの一の参加者の音声の出力を制御する通信システムである。通信システムは、通信部、集音部、画像取得部、判断部、及び出力制御部を含む。通信部は、通信回線と通信接続される。集音部は、遠隔会議中の一の参加者側の音声を集音する。画像取得部は、遠隔会議中の一の参加者の撮影画像を取得する。判断部は、集音部で集音された音声、及び画像取得部で取得された撮影画像の少なくとも一方に基づいて、一の参加者が発話したか否かを判断する。出力制御部は、一の参加者が発話したと判断された場合に、通信部から他の参加者に向けて音声を示す音声データを出力し、一の参加者が発話していないと判断された場合に、通信部から他の参加者に向けて音声データを出力しないように制御する。 A communication system according to the present invention is a communication system that controls output of voice of one of a plurality of participants participating in a teleconference through a communication line. A communication system includes a communication unit, a sound collector, an image acquisition unit, a determination unit, and an output control unit. The communication unit is communicatively connected to the communication line. The sound collecting unit collects the voice of one participant during the teleconference. The image acquisition unit acquires a photographed image of one participant during the remote conference. The determining unit determines whether or not one participant has spoken based on at least one of the sound collected by the sound collecting unit and the captured image obtained by the image obtaining unit. The output control unit outputs voice data indicating voice from the communication unit to the other participants when it is determined that one participant has spoken, and it is determined that the one participant has not spoken. control so that voice data is not output from the communication unit to other participants.
本発明に係る通信サーバは、通信回線を通じて遠隔会議に参加する複数の参加者が使用する複数の通信端末と通信接続される。通信サーバは、音声取得部、画像取得部、判断部、及び出力制御部を備える。音声取得部は、通信端末ごとに、遠隔会議中に通信端末側で集音された音声を取得する。画像取得部は、通信端末ごとに、遠隔会議中に撮影された参加者の撮影画像を取得する。判断部は、通信端末ごとに、取得した音声及び撮影画像の少なくとも一方に基づいて、通信端末を使用する参加者が発話したか否かを判断する。出力制御部は、判断部において、参加者が発話したと判断された場合、取得した音声を示す音声データを、通信回線を介して他の通信端末に出力し、参加者が発話していないと判断された場合、音声データを、通信回線を介して他の端末に出力しないように制御する。 A communication server according to the present invention is communicatively connected to a plurality of communication terminals used by a plurality of participants participating in a teleconference via a communication line. The communication server includes an audio acquisition section, an image acquisition section, a determination section, and an output control section. The audio acquisition unit acquires audio collected by the communication terminal during the teleconference for each communication terminal. The image acquisition unit acquires, for each communication terminal, a photographed image of a participant photographed during the remote conference. The determination unit determines whether or not the participant using the communication terminal speaks based on at least one of the acquired voice and captured image for each communication terminal. The output control unit outputs voice data indicating the acquired voice to another communication terminal via a communication line when the determination unit determines that the participant has spoken, and determines that the participant has not spoken. If it is determined, the voice data is controlled not to be output to other terminals via the communication line.
本発明に係る通信端末、通信システム、及び通信サーバによれば、周囲音によって会話が妨げられにくい。 According to the communication terminal, communication system, and communication server according to the present invention, conversation is less likely to be disturbed by ambient sounds.
以下、図面を参照して、実施形態に係る通信端末及び通信システムについて説明する。なお、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。 Hereinafter, communication terminals and communication systems according to embodiments will be described with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals, and description thereof will not be repeated.
<第1実施形態>
図1は、本実施形態における会議システム1の構成を示す模式図である。会議システム1は、例えば、遠隔会議に参加する参加者(参加者Ua及び参加者Ub)間の音声及び映像をやり取りする遠隔会議システムである。会議システム1は、参加者Ua及び参加者Ubそれぞれの通信端末10(10A、10B)と、サーバ20とを備える。各通信端末10とサーバ20とは、公衆回線又は専用回線等の通信回線Nに接続されている。参加者Ua及び参加者Ubはそれぞれの通信端末10を用い、サーバ20を介して通信相手の通信端末10と映像及び音声をやり取りすることにより遠隔会議を行う。尚、通信端末10の数は2台に限らず、3台以上であってもよい。以下、会議システム1の構成について具体的に説明する。
<First Embodiment>
FIG. 1 is a schematic diagram showing the configuration of a
(通信端末10)
図2は、通信端末10の概略構成を示すブロック図である。通信端末10は、本実施形態において、PC(Personal Computer)、タブレット端末、又はスマートフォン等の装置であってもよい。以下では、説明の便宜上、主として通信端末10Aを例に説明する。
(Communication terminal 10)
FIG. 2 is a block diagram showing a schematic configuration of the
通信端末10は、図2に示すように、マイク11(集音部の一例)、カメラ12(画像取得部の一例)、スピーカ13、通信部14、操作部15、記憶部16、表示部17、及び制御部18を備える。
The
マイク11は、通信端末10周辺の音声を集音して電気信号に変換した音声信号を制御部18へ出力する。カメラ12は、カメラ12の画角の範囲に写る被写体を撮像した撮像信号を制御部18へ出力する。つまり、通信端末10Aにおいて、通信端末10A周辺の音声が集音され、参加者Ua等の被写体が撮像される。また、通信端末10Bにおいて、通信端末10B周辺の音声が集音され、参加者Ub等の被写体が撮像される。
The
スピーカ13は、制御部18から出力された音声データをD/A変換し、増幅して放音する。
The speaker 13 D/A-converts the audio data output from the
通信部14は、通信回線Nを介してサーバ20と通信するための通信インタフェースである。通信部14は、制御部18の制御の下、RTP(Real-time Transport Protocol)等の通信プロトコルを用い、サーバ20との間で通信を確立し、サーバ20を介して他の通信端末10との間でデータを送受信する。具体的には、通信部14は、サーバ20から受信したデータを制御部18へ出力し、制御部18から入力されるデータをサーバ20へ送信する。
The
操作部15は、マウス、キーボード、又はタッチパネル等を含む。操作部15は、参加者の操作を受け付け、受け付けた操作を示す操作信号を制御部18へ出力する。
The
記憶部16は、ハードディスク等の不揮発性記憶媒体を含む。記憶部16は、遠隔会議を行うための自装置のIPアドレスや他の通信端末10のアドレス等のアドレス情報を記憶する。
The
表示部17は、液晶パネル等の表示パネルと、表示パネルを駆動する駆動回路とを含む(いずれも図示略)。駆動回路は、制御部18の制御の下、カメラ12で撮像された被写体の映像や、通信部14を介して取得された通信相手の映像等の各種画像を表示するための駆動信号を表示パネルに供給する。表示パネルは、駆動回路から供給される駆動信号に応じた画像を表示する。
The
制御部18は、CPU(Central Processing Unit)及びメモリ(ROM(Read Only Memory)及びRAM(Random Access Memory))を含む。制御部18は、操作部15を介した参加者の操作に応じて、CPUがROMに記憶された遠隔会議アプリケーションの制御プログラムを実行する。制御部18は、CPUが制御プログラムを実行することにより、音声・映像信号処理部181、判断部182、出力制御部183、及び表示制御部184として機能し、遠隔会議処理を行う。遠隔会議処理は、送信制御処理と映像音声出力処理とを含む。送信制御処理は、音声・映像信号処理部181、判断部182、及び出力制御部183により、カメラ12及びマイク11によって取得した映像データ及び音声データの他の通信端末10への送信を制御する処理である。また、映像音声出力処理は、音声・映像信号処理部181及び表示制御部184により、他の通信端末10から取得した映像データ及び音声データを自端末から出力する処理である。
The
音声・映像信号処理部181は、CODECを含む。音声・映像信号処理部181は、通信部21を介して、遠隔会議中の映像データ及び音声データのパケットをサーバ20との間で逐次送受信する。
The audio/video
具体的には、音声・映像信号処理部181は、送信制御処理において、マイク11から入力される一定時間ごとの音声信号と、カメラ12から入力される一定時間ごとの映像信号とを、遠隔会議システムの規格(例えばH.323)に従ってデジタルデータ(映像データ及び音声データ)に変換して判断部182へ出力する。
Specifically, in the transmission control process, the audio/video
また、音声・映像信号処理部181は、出力制御処理として、通信部14から逐次入力されるサーバ20からの映像データ及び音声データをデコードし、パケットに分離する。入力される映像データ及び音声データには送信先情報、送信元情報、及びタイムスタンプ等の情報が付加されている。音声・映像信号処理部181は、デコードされた映像データ及び音声データをタイムスタンプの順に並べる。音声・映像信号処理部181は、音声データの音量を調整してスピーカ13から出力し、映像データを表示制御部184へ出力する。なお、音声・映像信号処理部181は、出力制御処理において、カメラ12から入力される自端末側の映像信号の映像データを表示制御部184へ出力してもよい。この場合、参加者Ubだけでなく自端末側の参加者Uaの映像が表示部17に表示される。
Also, as an output control process, the audio/video
判断部182は、音声・映像信号処理部181から自端末側の音声データ及び映像データを取得する。判断部182は、取得した映像データに基づいて、参加者Uaが発話しているか否か判断し、判断結果に応じて送信モードを設定する。送信モードは、映像音声モード及び映像モードを含む。映像音声モードは、取得した映像データと音声データとをサーバ20に送信するモードである。映像モードは、取得した映像データのみをサーバ20に送信するモードである。判断部182は、参加者Uaが発話しているか否かに応じて、映像音声モード及び映像モードのいずれかに切り替える。
The
具体的には、例えば、通信端末10Aにおいて、判断部182は、音声・映像信号処理部181から自端末側の被写体を撮影した映像データ(以下、映像データPa)と、自端末側の音声が集音された音声データ(以下、音声データSa)とを取得する。判断部182は、映像データPaを画像解析して参加者Uaの唇の動きを検出する。発話中の唇の動きの検出は、例えば、参加者Uaの顔画像から発話中の参加者Uaの唇の動きを出力する学習済みモデルを用いて検出してもよい。
Specifically, for example, in the
判断部182は、映像データPaから発話中の参加者Uaの唇の動きを検出した場合、送信モードを映像音声モードに設定する。つまり、判断部182は、映像データPaとともに取得した音声データSaに参加者Uaが発した音声が含まれていると判断して映像データPa及び音声データSaを出力制御部183へ出力する。
If the
また、判断部182は、映像データPaから発話中の参加者Uaの唇の動きを検出できない場合、送信モードを映像モードに設定する。つまり、判断部182は、音声データSaに参加者Uaが発した音声が含まれていないと判断して、映像データPaのみを出力制御部183へ出力する。なお、判断部182は、映像モードにおいて、操作部15を介して音声の出力を指示する操作を受け付けた場合、送信モードを映像モードから映像音声モードに切り替えてもよい。
Further, when the movement of the lips of the speaking participant Ua cannot be detected from the video data Pa, the
出力制御部183は、判断部182から映像データPa及び音声データSa(以下、映像音声データ)、又は映像データPaを取得し、取得した映像音声データ又は映像データPaをパケット化し、他の通信端末10のアドレス情報を付加して通信部14へ出力する。
The
表示制御部184は、音声・映像信号処理部181から入力される映像データに基づく駆動信号を表示部17に供給し、表示部17に参加者Ua及び参加者Ub等の被写体画像を表示させる。また、表示制御部184は、判断部182から送信モードを示すモード情報を取得し、取得したモード情報を示す画像(送信モード画像)を表示部17に表示させてもよい。送信モード画像を表示部17に表示させることにより、マイク11で集音している音声が通信端末10Bに送信されているか否かを参加者Uaが確認することができる。
The
(サーバ20)
図3は、サーバ20の概略構成を示すブロック図である。図3に示すように、サーバ20は、通信部21、制御部22、及び記憶部23を備える。
(Server 20)
FIG. 3 is a block diagram showing a schematic configuration of the
通信部21は、通信回線Nを介して各通信端末10と通信する通信インタフェースである。通信部21は、制御部22の制御の下、RTP等の所定の通信プロトコルを用い、各通信端末10との間で通信を確立し、映像データ及び音声データを送受信する。
The
記憶部23は、ハードディスク等の不揮発性記憶媒体を含む。記憶部23は、各通信端末10の識別情報(IPアドレス等)を含む通信端末情報(図示略)を記憶する。
制御部22は、CPU及びメモリ(ROM及びRAM)を含む。制御部22は、CPUが、ROMに記憶された制御プログラムを実行することにより、通信部21を介して、各通信端末10との間で通信する。具体的には、制御部22は、各通信端末10から送信された音声データ及び映像データのパケットを取得する。制御部22は、記憶部23における通信端末情報(図示略)に基づき、音声データ及び映像データを、音声データ及び映像データに付加された送信先情報で指定された通信端末10に送信する。
The
(動作)
図4は、通信端末10における遠隔会議処理を示す動作フローである。図4の動作フローは、通信端末10A及び通信端末10Bにおいて遠隔会議アプリケーションが実行されている状態から開始される。つまり、通信端末10間において所定の通信プロトコルを用いて通信が確立された後に遠隔会議処理が行われる。図3では、主として、通信端末10Aにおける送信制御処理について説明する。
(motion)
FIG. 4 is an operational flow showing teleconference processing in the
通信端末10Aは、マイク11で自端末側の音声を集音し、カメラ12により自端末側の被写体を撮影する。通信端末10Aにおける制御部18は、マイク11から出力される音声信号と、カメラ12から出力される映像信号とをA/D変換することにより、音声データSaと映像データPaとを逐次取得する(ステップS11)。
The
制御部18は、取得した映像データPaに基づいて、参加者Uaが発話しているか否かを判断する(ステップS12)。具体的には、判断部182において、例えば、発話中の参加者Uaの唇の動きを検出する学習済みモデルに映像データPaを入力することにより、参加者Uaが発話しているか否かを判断する。
The
ステップS12において、通信端末10Aは、参加者Uaが発話していると判断した場合(ステップS12:Yes)、送信モードを映像音声モードに設定し、映像データPaと音声データSaとを通信部14を介してサーバ20へ送信する(ステップS13)。具体的には、発話中の参加者Uaの唇の動きを検出する学習済みモデルにより、映像データPaから参加者Uaの発話中の唇の動きが検出できた場合、判断部182は、送信モードを映像音声モードに設定する。そして、判断部182は、映像データPaと、映像データPaと共に取得した音声データSaとを出力制御部183に出力する。出力制御部183は、判断部182から入力された映像データPa及び音声データSaをエンコードしてパケット化し、通信端末10Bのアドレス情報をパケットに付加して通信部14に出力する。通信部14は、出力制御部183から入力された映像データPa及び音声データSa(映像音声データ)をサーバ20へ送信する。
In step S12, when the
また、ステップS12において、通信端末10Aは、参加者Uaが発話していないと判断した場合(ステップS12:No)、送信モードを映像モードに設定し、映像データPaのみを通信部14を介してサーバ20へ送信する(ステップS14)。具体的には、発話中の参加者Uaの唇の動きを検出する学習済みモデルにより、映像データPaから参加者Uaの発話中の唇の動きが検出できない場合、判断部182は、送信モードを映像モードに設定する。そして、判断部182は、映像データPaのみを出力制御部183に出力する。出力制御部183は、判断部182から入力された映像データPaをエンコードしてパケット化し、通信端末10Bのアドレス情報をパケットに付加して通信部14に出力する。通信部14は、出力制御部183から入力された映像データPaをサーバ20へ送信する。
Further, in step S12, when the
図示を省略するが、サーバ20は、通信端末10Aから送信された映像音声データ(映像データPa及び音声データSa)、又は映像データPaを、記憶部23に記憶された通信端末情報(図示略)に基づいて、通信端末10Bへ送信する。
Although illustration is omitted, the
通信端末10Bは、通信部14を介してサーバ20から映像音声データを受信した場合(ステップS21:Yes)、映像データに基づく映像を表示部17に表示し、音声データに基づく音声をスピーカ13に出力する(ステップS22)。
When the
具体的には、音声・映像信号処理部181において映像音声データ(映像データPa及び音声データSa)をデコードする。音声・映像信号処理部181は、デコードした音声データSaをD/A変換した音声信号をスピーカ13から出力する。また、音声・映像信号処理部181は、デコードされた映像データPaを表示制御部184に出力する。表示制御部184は、デコードされた映像データPaに基づく駆動信号を表示部17に入力し、表示部17に駆動信号に基づく画像、すなわち、参加者Ua等の映像を表示させる。
Specifically, the audio/video
また、通信端末10Bは、通信部14を介してサーバ20から映像音声データではなく、映像データのみを受信した場合(ステップS21:No、ステップS23:Yes)、映像データに基づく画像を表示部17に表示する(ステップS24)。この場合、ステップS22で説明したように、通信端末10Bにおいて、映像データPaに基づく画像が表示部17に表示されるが、映像データPaが表示されている間、通信端末10A側の音声は出力されない。
In addition, when
通信端末10Aは、操作部15を介して遠隔会議を終了する操作を受け付けるまで(ステップS15:No)、ステップS11以下の処理を繰り返し、操作部15を介して遠隔会議を終了する操作を受け付けると(ステップS15:Yes)、処理を終了する。
The
通信端末10Bは、ステップS23において、通信部14を介して映像データを受信できるまで(ステップS23:No)、待機する。また、通信端末10Bは、操作部15を介して遠隔会議を終了する操作を受け付けるまで(ステップS25:No)、ステップS21以下の処理を繰り返し、操作部15を介して遠隔会議を終了する操作を受け付けると(ステップS25:Yes)、処理を終了する。
In step S23,
本実施形態では、通信端末10において、参加者を撮影した映像から発話中の参加者の唇の動きを検出することにより、参加者が発話したか否かを判断する。通信端末10は、参加者が発話していないときに集音された音声データを通信相手に送信しない。そのため、参加者が発話していない状態で周囲音のみが含まれた音声データが通信相手に送信されない。その結果、周囲音によって会話が妨げられることなく、スムーズに会議を進行させることができる。
In this embodiment, the
<第2実施形態>
第1実施形態では、図4のステップS12において、参加者Uaが発話したか否かを映像データPaに写る参加者Uaの唇の動きに基づいて判断したが、参加者Uaの唇以外の動きも用いて発話しているか否かを判断してもよい。
<Second embodiment>
In the first embodiment, in step S12 of FIG. 4, it is determined whether or not the participant Ua has spoken based on the movement of the lips of the participant Ua reflected in the video data Pa. may also be used to determine whether or not the user is speaking.
具体的には、映像データPaにおいて、会議に関連する特定の動作が含まれている場合に参加者Uaが発話している可能性があると判断されてもよい。特定の動作は、例えば、参加者Uaがカメラ12を背にして、ホワイトボード等に文字等を書く動作である。通常、会議中にカメラ12を背にしてホワイトボード等に文字を書く場合、参加者が他の参加者に対して何かを説明しようとしている可能性が高い。そのため、映像データPaから発話中の唇の動きだけでなく、このような特定の動作を検出した場合には、送信モードを映像音声モードに設定してもよい。参加者が特定の動作を行っているか否かの判断は、参加者が背を向けてホワイトボード等に文字等を書いている画像を学習させた学習済モデルを用いて行ってもよい。判断部182は、映像データPaから参加者Uaによる特定の動作を検出できた場合、送信モードを映像音声モードに設定し、映像データPa及び音声データSaを出力制御部183に出力する。また、映像データPaから参加者Uaによる特定の動作を検出できない場合、判断部182は、送信モードを映像モードに設定し、映像データPaのみを出力制御部183に出力する。
Specifically, it may be determined that there is a possibility that the participant Ua is speaking when the video data Pa includes a specific action related to the conference. The specific action is, for example, the action of the participant Ua writing characters or the like on a whiteboard or the like with the
第1実施形態のように参加者の唇の動きだけで参加者の発話を判断する場合、参加者がカメラ12を背にしたときに参加者の唇の動きが検出できないため、マイク11で集音された音声は通信相手に送信されない。そのため、参加者がカメラ12を背にしてホワイトボード等に文字を書きながら説明する場合、参加者が発話した音声が通信相手に送信されず会話が途切れる。本実施形態では、通信端末10において、参加者が会議に関連した特定の動作を行っているか否かによって参加者による発話の可能性を判断する。そのため、参加者がカメラ12に背を向けていても、特定の動作を行っていれば、参加者が発話した音声を含んだ音声データが通信相手の通信端末10に送信され、通信相手との会話を継続させることができる。
When judging the participant's utterance only by the movement of the participant's lips as in the first embodiment, the movement of the participant's lips cannot be detected when the participant's back is facing the
<第3実施形態>
第1及び第2実施形態では、参加者が発話したか否かを映像データに基づいて判断したが、音声データに基づいて参加者が発話したか否かを判断してもよい。以下、本実施形態の通信端末の構成について具体的に説明する。
<Third Embodiment>
In the first and second embodiments, whether or not the participant has spoken is determined based on the video data, but it may be determined whether or not the participant has spoken based on the audio data. The configuration of the communication terminal according to this embodiment will be specifically described below.
図5は、本実施形態における通信端末101の概略構成を示すブロック図である。図5において、第1実施形態と同じ構成には第1実施形態と同じ符号が付されている。以下、主として、第1実施形態と異なる構成について説明する。
FIG. 5 is a block diagram showing a schematic configuration of the
図5に示すように、通信端末101は、第1実施形態の判断部182及び記憶部16に替えて、判断部1821及び記憶部161を備える。記憶部161は、参加者Uaが発話していない状況での参加者Ua周辺の音声の周波数解析結果を示す音声情報を記憶する。周波数解析結果は、予め参加者Uaが発話していない状況での、参加者Ua周辺の音声のみを集音した音声信号をA/D変換した音声データ(以下、基準音声データ)について周波数解析を行った結果である。周波数解析では、例えばフーリエ変換により、基準音声データにおける周波数成分の振幅(強度)を解析する。
As shown in FIG. 5, the
判断部1821は、音声・映像信号処理部181から音声データSaを取得し、音声データSaを周波数解析する。判断部1821は、音声データSaを周波数解析した結果と、記憶部161に記憶された音声情報とに基づいて、参加者Uaが発話したか否かを判断する。具体的には、判断部1821は、音声データSaを周波数解析して得られる周波数スペクトルP1(f)の振幅と、音声情報に基づく周波数スペクトルP2(f)の振幅との差分が所定の閾値以上となる周波数の区間がある場合、参加者Uaが発話したと判断する。また、判断部1821は、周波数スペクトルP1(f)及び周波数スペクトルP2(f)の振幅との差分が全ての周波数において所定の閾値未満である場合、参加者Uaが発話していないと判断する。参加者Uaが発話していない場合、周波数スペクトルP1(f)と、音声情報に基づく周波数スペクトルP2(f)との振幅の差分は、参加者Uaが発話した場合の振幅の差分より小さい、つまり、所定の閾値未満となる。また、音声データSaに周囲の別の会話等が含まれている場合であっても、参加者Uaが発話していれば、周囲の会話とは声質が異なるため、周波数スペクトルP1(f)と周波数スペクトルP2(f)との間に、所定の閾値以上の振幅の差分が現れる。
The
図6Aは、周波数スペクトルP1(f)の波形例を示す図であり、図6Bは、周波数スペクトルP2(f)の波形例を示す図である。また、図6Cは、周波数スペクトルP1(f)と周波数スペクトルP2(f)との差分(|P1(f)-P2(f)|)の波形例を示す図である。図6Cの波形において、所定の閾値T(f)以上となる周波数の区間が含まれている。そのため、判断部1821は、参加者が発話していると判断する。また、例えば、図6Cの波形において、全ての周波数成分が閾値TH(f)未満となる場合、判断部1821は、参加者が発話していないと判断する。
FIG. 6A is a diagram showing an example waveform of the frequency spectrum P1(f), and FIG. 6B is a diagram showing an example waveform of the frequency spectrum P2(f). FIG. 6C is a diagram showing a waveform example of the difference (|P1(f)-P2(f)|) between the frequency spectrum P1(f) and the frequency spectrum P2(f). The waveform of FIG. 6C includes a section of frequencies equal to or higher than a predetermined threshold value T(f). Therefore, the
本実施形態では、通信端末101において、マイク11で集音された音声の周波数解析の結果と、予め参加者が発話していない状態での参加者の周囲の音声を周波数解析した結果とを比較して参加者が発話したか否かを判断する。通信端末101は、参加者が発話していないと判断した場合、そのときの音声を通信相手に送信しない。そのため、参加者が発話していない状態で周囲音のみが含まれた音声が通信相手に送信されず、周囲音によって会話が妨げられることなく、スムーズに会議を進行させることができる。
In this embodiment, in the
以上、本発明に係る実施形態について説明した。但し、本発明は、上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。図面は、理解しやすくするために、それぞれの構成要素を主体に模式的に示しており、図示された各構成要素の厚み、長さ、個数等は、図面作成の都合上から実際とは異なる。また、上記の実施形態で示す各構成要素の形状、寸法等は一例であって、特に限定されるものではなく、本発明の効果から実質的に逸脱しない範囲で種々の変更が可能である。以下、上記実施形態の変形例を説明する。 The embodiments according to the present invention have been described above. However, the present invention is not limited to the above-described embodiments, and can be implemented in various aspects without departing from the gist of the present invention. In order to facilitate understanding, the drawings schematically show each component mainly, and the thickness, length, number, etc. of each component illustrated are different from the actual ones due to the convenience of drawing. . Further, the shape, dimensions, etc. of each component shown in the above embodiment are examples and are not particularly limited, and various modifications are possible within a range that does not substantially deviate from the effects of the present invention. Modifications of the above embodiment will be described below.
[変形例]
(1)参加者が発話しているか否かの判断は、第1及び第2実施形態における映像データに基づく判断と、第3実施形態における音声データに基づく判断とを組み合わせてもよい。つまり、例えば、映像データにおいて参加者の発話中の唇の動きが検出できない場合であっても、周波数スペクトルの差分(|P1(f)-P2(f)|)が閾値TH(f)以上であれば、参加者が発話していると判断してもよい。また、例えば、映像データにおいて参加者の発話中の唇の動きが検出できた場合であっても、周波数スペクトルの差分(|P1(f)-P2(f)|)が閾値TH(f)未満であれば、参加者が発話していないと判断してもよい。
[Modification]
(1) Determination as to whether or not a participant is speaking may be made by combining the determination based on the video data in the first and second embodiments and the determination based on the audio data in the third embodiment. That is, for example, even if the movement of the lips during speech of the participant cannot be detected in the video data, the frequency spectrum difference (|P1(f)−P2(f)|) is equal to or greater than the threshold TH(f). If so, it may be determined that the participant is speaking. Further, for example, even if the movement of the lips during speech of the participant can be detected in the video data, the frequency spectrum difference (|P1(f)−P2(f)|) is less than the threshold TH(f). If so, it may be determined that the participant is not speaking.
又は、映像データにおいて参加者の発話中の唇の動きが検出でき、且つ、音声データ及び音声情報の周波数スペクトルの差分(|P1(f)-P2(f)|)が閾値TH(f)以上である場合に、参加者が発話していると判断してもよい。また、映像データにおいて参加者の発話中の唇の動きが検出できず、且つ、音声データ及び音声情報の周波数スペクトルの差分(|P1(f)-P2(f)|)が閾値TH(f)未満である場合に、参加者が発話していないと判断してもよい。要は、映像データ及び音声データの少なくとも一方に基づいて、参加者が発話しているか否かが判断されればよい。 Alternatively, the movement of the lips during speech of the participant can be detected in the video data, and the difference (|P1(f)-P2(f)|) between the frequency spectra of the audio data and the audio information is equal to or greater than the threshold TH(f). , it may be determined that the participant is speaking. In addition, the movement of the lips during speech of the participant cannot be detected in the video data, and the difference between the frequency spectrum of the audio data and the audio information (|P1(f)-P2(f)|) is the threshold TH(f) If less, it may be determined that the participant is not speaking. In short, whether or not the participant is speaking should be determined based on at least one of the video data and the audio data.
(2)第3実施形態において、例えば、マイク11で集音された音声に含まれる文言が会議に関連する文言である場合、参加者が発話していると判断してもよい。会議に関連する文言は、会議の参加者の名前や会議のタイトル名等でもよい。この場合、予め、会議の参加者の名前、及び会議のタイトル名等のキーワード情報を記憶部161に記憶しておく。判断部1821は、マイク11で集音された音声の音声データを形態素解析し、キーワード情報と照合してもよい。キーワード情報と一致する文言が音声データに含まれている場合、判断部1821は、参加者が発話していると判断し、出力制御部183から音声データを通信相手に送信してもよい。
(2) In the third embodiment, for example, if the words included in the sound collected by the
(3)第1実施形態の判断部182において、映像データにおける参加者の唇の動きだけでなく、参加者の視線の向きに基づいて、参加者が発話しているか否かを判断してもよい。この場合、判断部182は、参加者の唇の動きだけでなく、公知の技術を用いて、映像データに映る参加者の目の動きを検出することにより視線の向きを特定する。映像データに発話中の参加者の唇の動きが検出できた場合であっても、参加者の視線の向きが、例えばカメラ12に向かう方向ではない場合、参加者は会議に関する発言を行っていない可能性がある。この場合、判断部182において、参加者が会議に関して発話していないと判断してもよい。
(3) In the
(4)第1~第3実施形態において、参加者が発話しているか否かの判断を、映像データ又は音声データに加えて、表示部17に表示される画像を用いて行ってもよい。例えば、映像データに発話中の参加者の唇の動きが検出できない場合であっても、操作部15を介して会議に関連する文書等の画像を表示部17に表示させる操作を受け付けた場合、参加者が発話する可能性が高い。この場合、判断部182は、送信モードとして映像音声モードを設定してもよい。会議に関連する文書等の画像が表示部17に表示されているか否かは、例えば、予め設定された会議のタイトル等のキーワードを予め設定し、表示された文書等に所定のキーワードが含まれているか否かによって判断してもよい。
(4) In the first to third embodiments, an image displayed on the
(5)第1~第3実施形態において、カメラ12及びマイク11は通信端末10、101に搭載されていなくてもよい。カメラ12及びマイク11は、通信端末10、101とは別に設けられ、通信端末10、101と電気的に接続されていればよい。
(5) In the first to third embodiments, the
(6)実施形態で示した各ブロック(各機能部)(図2及び図5)は、電気的に接続された複数のコンピュータ装置に分散して搭載された通信システムとして実現されてもよい。また、実施形態で示した各ブロック(各機能部)(図2及び図5)は、LSIなどの半導体装置により個別に1チップ化されても良いし、一部又は全部を含むように1チップ化されても良い。また、実施形態で示した各機能部の処理の一部又は全部は、プログラムにより実現されてもよい。 (6) Each block (each functional unit) (FIGS. 2 and 5) shown in the embodiment may be realized as a communication system distributed and mounted on a plurality of electrically connected computer devices. Further, each block (each functional unit) (FIGS. 2 and 5) shown in the embodiments may be individually integrated into one chip by a semiconductor device such as LSI, or may be integrated into one chip so as to include part or all of them. may be changed. Also, part or all of the processing of each functional unit shown in the embodiment may be implemented by a program.
(7)通信端末10の機能の一部をサーバ20が備えるようにしてもよい。具体的には、サーバ20は、音声・映像信号処理部181、判断部182及び出力制御部183と同等の機能を備えてもよい。サーバ20は、通信端末10から音声データと映像データとを取得し、取得した音声データ及び映像データの少なくとも一方に基づいて、通信端末10を利用する参加者が発話したか否かを判断する。参加者が発話したと判断された場合に、取得した音声データを他の通信端末10へ出力し、参加者が発話していないと判断された場合に、取得した音声データを他の通信端末10へ出力しないようにする。つまり、サーバ20は、通信サーバの一例である。
(7) The
本発明は、テレビ会議やWEB会議等の遠隔会議に利用可能である。 INDUSTRIAL APPLICABILITY The present invention can be used for remote conferences such as video conferences and web conferences.
1 :会議システム
10、10A、10B、101 :通信端末
11 :マイク
12 :カメラ
13 :スピーカ
14、21 :通信部
15 :操作部
16、161、23 :記憶部
17 :表示部
18、22 :制御部
20 :サーバ
181 :音声・映像信号処理部
182、1821:判断部
183 :出力制御部
184 :表示制御部
1:
Claims (6)
前記通信回線を介して他の前記通信端末と通信する通信部と、
前記遠隔会議中の前記通信端末の周囲の音声を集音する集音部と、
前記遠隔会議中の前記一の参加者の撮影画像を取得する画像取得部と、
前記集音部で集音された前記音声、及び前記画像取得部で取得された前記撮影画像の少なくとも一方に基づいて、前記一の参加者が発話したか否かを判断する判断部と、
前記判断部において前記一の参加者が発話したと判断された場合、前記通信部から前記通信回線に前記音声を示す音声データを出力させ、前記判断部において前記一の参加者が発話していないと判断された場合、前記通信部から前記通信回線に前記音声データを出力しないように制御する出力制御部と
を含む、通信端末。 A communication terminal used by one of a plurality of communication terminals used by a plurality of participants participating in a teleconference via a communication line,
a communication unit that communicates with the other communication terminal via the communication line;
a sound collecting unit that collects sounds around the communication terminal during the remote conference;
an image acquisition unit that acquires a photographed image of the one participant during the remote conference;
a determination unit that determines whether or not the one participant has spoken based on at least one of the sound collected by the sound collection unit and the captured image obtained by the image acquisition unit;
When the determination unit determines that the one participant has spoken, the communication unit outputs voice data indicating the voice to the communication line, and the determination unit determines that the one participant has not spoken. and an output control section that controls not to output the voice data from the communication section to the communication line when it is determined that the communication terminal.
前記通信回線と通信接続された通信部と、
前記遠隔会議中の前記一の参加者側の音声を集音する集音部と、
前記遠隔会議中の前記一の参加者の撮影画像を取得する画像取得部と、
前記集音部で集音された前記音声、及び前記画像取得部で取得された前記撮影画像の少なくとも一方に基づいて、前記一の参加者が発話したか否かを判断する判断部と、
前記一の参加者が発話したと判断された場合、前記通信部から前記他の参加者に向けて前記音声を示す音声データを他の参加者に出力し、前記一の参加者が発話していないと判断された場合に、前記通信部から前記他の参加者に向けて前記音声データを出力しないように制御する出力制御部と
を含む、通信システム。 A communication system for controlling audio output of one of a plurality of participants participating in a teleconference through a communication line,
a communication unit communicatively connected to the communication line;
a sound collecting unit that collects the sound of the one participant during the remote conference;
an image acquisition unit that acquires a photographed image of the one participant during the remote conference;
a determination unit that determines whether or not the one participant has spoken based on at least one of the sound collected by the sound collection unit and the captured image obtained by the image acquisition unit;
When it is determined that the one participant has spoken, the communication unit outputs audio data indicating the audio to the other participants, and the one participant has spoken. and an output control unit that controls not to output the audio data from the communication unit to the other participants when it is determined that the voice data is not to be output.
通信端末ごとに、前記遠隔会議中に前記通信端末側で集音された音声を取得する音声取得部と、
前記通信端末ごとに、前記遠隔会議中に撮影された参加者の撮影画像を取得する画像取得部と、
前記通信端末ごとに、取得した前記音声及び前記撮影画像の少なくとも一方に基づいて、前記通信端末を使用する前記参加者が発話したか否かを判断する判断部と、
前記判断部において、前記参加者が発話したと判断された場合、取得した前記音声を示す音声データを、前記通信回線を介して他の通信端末に出力し、前記参加者が発話していないと判断された場合、前記音声データを、前記通信回線を介して前記他の端末に出力しないように制御する出力制御部と
を備える、通信サーバ。 A communication server communicatively connected to a plurality of communication terminals used by a plurality of participants participating in a teleconference via a communication line,
a sound acquisition unit that acquires sound collected by the communication terminal during the teleconference for each communication terminal;
an image acquisition unit that acquires, for each of the communication terminals, a photographed image of a participant photographed during the remote conference;
a determination unit that determines whether or not the participant using the communication terminal has spoken based on at least one of the acquired sound and the captured image for each communication terminal;
When the determination unit determines that the participant has spoken, the acquired voice data representing the voice is output to another communication terminal via the communication line to determine that the participant has not spoken. and an output control unit that controls not to output the audio data to the other terminal via the communication line when the judgment is made.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022021244A JP2023118335A (en) | 2022-02-15 | 2022-02-15 | Communication terminal, communication system, and communication server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022021244A JP2023118335A (en) | 2022-02-15 | 2022-02-15 | Communication terminal, communication system, and communication server |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023118335A true JP2023118335A (en) | 2023-08-25 |
Family
ID=87663318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022021244A Pending JP2023118335A (en) | 2022-02-15 | 2022-02-15 | Communication terminal, communication system, and communication server |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023118335A (en) |
-
2022
- 2022-02-15 JP JP2022021244A patent/JP2023118335A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8817061B2 (en) | Recognition of human gestures by a mobile phone | |
US10904483B2 (en) | System and methods for automatic call initiation based on biometric data | |
US8289363B2 (en) | Video conferencing | |
US20100085415A1 (en) | Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference | |
US20100253689A1 (en) | Providing descriptions of non-verbal communications to video telephony participants who are not video-enabled | |
JP5526134B2 (en) | Conversation detection in peripheral telephone technology systems. | |
EP3005690B1 (en) | Method and system for associating an external device to a video conference session | |
US11650790B2 (en) | Centrally controlling communication at a venue | |
US11405584B1 (en) | Smart audio muting in a videoconferencing system | |
JP2003125086A (en) | Communication system with system component for confirming preparer of transmission | |
JP2011061450A (en) | Conference communication system, method, and program | |
JP2017034312A (en) | Communication device, communication system, and program | |
JP7095356B2 (en) | Communication terminal and conference system | |
JP2023118335A (en) | Communication terminal, communication system, and communication server | |
JP2017103641A (en) | Information processing apparatus, conference system, information processing method and program | |
US20200177405A1 (en) | Computer system, method for assisting in web conference speech, and program | |
JP6544209B2 (en) | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM | |
JP4531013B2 (en) | Audiovisual conference system and terminal device | |
US11764984B2 (en) | Teleconference method and teleconference system | |
JP2023123119A (en) | Communication terminal and communication system | |
EP4027284A1 (en) | Computer-implemented method of performing a webrtc-based communication and collaboration session and webrtc-based communication and collaboration platform | |
EP3729799B1 (en) | Mobile terminal and hub apparatus for use in a video communication system | |
JP2017092950A (en) | Information processing apparatus, conference system, information processing method, and program | |
JP2009302824A (en) | Voice communication system | |
JP2008227693A (en) | Speaker video display control system, speaker video display control method, speaker video display control program, communication terminal, and multipoint video conference system |