JP2023088360A - Video call device, video call method, and control program of video call device - Google Patents
Video call device, video call method, and control program of video call device Download PDFInfo
- Publication number
- JP2023088360A JP2023088360A JP2021203015A JP2021203015A JP2023088360A JP 2023088360 A JP2023088360 A JP 2023088360A JP 2021203015 A JP2021203015 A JP 2021203015A JP 2021203015 A JP2021203015 A JP 2021203015A JP 2023088360 A JP2023088360 A JP 2023088360A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- camera
- video call
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、ビデオ通話装置、ビデオ通話方法、及びビデオ通話装置の制御プログラムに関する。 The present invention relates to a video call device, a video call method, and a video call device control program.
特許文献1に記載されているように、画像及び音声を、ネットワークを介して双方向に通信するビデオ通話システム(テレビ会議システム)が普及している。
2. Description of the Related Art As described in
ビデオ通話システムを用いて第1の側の参加者から第2の側の参加者へと通話しているとする。このとき、第1の側の話者が、第1の側に同席している参加者のみに伝えようとした呟きが、マイクロホンで収音されて第2の側の参加者へと送信されてしまうことがある。このような通話先に送信することを意図してない呟き等の音声が通話先に送信されることは好ましくない。 Suppose a participant on a first side is calling a participant on a second side using a video calling system. At this time, the murmurs that the speaker on the first side intended to convey only to the participants sitting on the first side were picked up by the microphone and transmitted to the participants on the second side. I can put it away. It is not preferable that such voices such as murmurs that are not intended to be transmitted to the called party are transmitted to the called party.
本発明は、通話先に送信することを意図してない音声が通話先に送信されて聞かれることを防止または低減させることができるビデオ通話装置、ビデオ通話方法、及びビデオ通話装置の制御プログラムを提供することを目的とする。 The present invention provides a video call device, a video call method, and a control program for the video call device that can prevent or reduce the transmission of voices not intended for transmission to the callee and being heard by the callee. intended to provide
本発明は、ビデオ通話する話者を撮影するカメラと、前記話者が発する音声を収音するマイクロホンと、前記カメラが前記話者を撮影した撮影画像と前記マイクロホンが収音した前記話者の音声とをネットワークへと送出する通信部と、前記カメラが前記話者を撮影する撮影画像に基づいて前記話者の視線を検知し、視線が前記カメラから外れたか否かを検出する画像解析部と、少なくとも前記画像解析部が前記話者の視線が前記カメラから外れた状態であることを検出したとき、前記音声の送出を遮断するか前記音声の音量を低下させるよう前記通信部を制御する音声制御部とを備えるビデオ通話装置を提供する。 The present invention comprises a camera for photographing a speaker making a video call, a microphone for picking up the voice uttered by the speaker, an image of the speaker photographed by the camera, and the speaker picked up by the microphone. and an image analysis unit that detects the line of sight of the speaker based on the captured image of the speaker captured by the camera and detects whether the line of sight is off the camera. and at least when the image analysis unit detects that the line of sight of the speaker is out of the camera, the communication unit is controlled to cut off the transmission of the voice or reduce the volume of the voice. and a video call device.
本発明は、ビデオ通話する話者を撮影するカメラと、前記話者が発する音声を収音するマイクロホンと、前記カメラが前記話者を撮影する撮影画像を解析する画像解析部と、前記マイクロホンが収音した前記話者の音声を解析する音声解析部と、前記カメラが前記話者を撮影した撮影画像と前記マイクロホンが収音した前記話者の音声とをネットワークへと送出する通信部と、前記撮影画像及び前記マイクロホンが収音した音声を記録する記録部と、前記記録部に記録された過去のビデオ通話による撮影画像及び音声の再生時に前記話者が指定した、前記通信部によって前記ネットワークへと送出すべきでなかった音声を発している区間と、前記画像解析部によって解析された再生された撮影画像の解析結果及び前記音声解析部によって解析された再生された音声の解析結果とを対応付けて学習し、新たなビデオ通話時に、学習結果と、前記画像解析部によって解析された新たなビデオ通話による撮影画像の解析結果及び前記音声解析部によって解析された新たなビデオ通話による音声の解析結果とに基づいて、前記通信部によって前記ネットワークへと送出すべきでない音声を発している区間を抽出する学習部と、前記学習部が抽出した前記ネットワークへと送出すべきでない音声を発している区間の音声の送出を遮断するか前記音声の音量を低下させるよう前記通信部を制御する音声制御部とを備えるビデオ通話装置を提供する。 The present invention comprises a camera that captures a video call speaker, a microphone that picks up the voice uttered by the speaker, an image analysis unit that analyzes the captured image of the speaker captured by the camera, and the microphone. a voice analysis unit that analyzes the collected voice of the speaker; a communication unit that transmits to a network the captured image of the speaker captured by the camera and the voice of the speaker captured by the microphone; a recording unit that records the captured image and the sound picked up by the microphone; and the analysis result of the reproduced photographed image analyzed by the image analysis unit and the analysis result of the reproduced sound analyzed by the sound analysis unit. The learning result, the analysis result of the image captured by the new video call analyzed by the image analysis unit, and the sound of the new video call analyzed by the sound analysis unit are learned at the time of the new video call. Based on the analysis result, a learning unit that extracts a section in which a voice that should not be sent to the network is emitted by the communication unit, and a voice that should not be sent to the network extracted by the learning unit is emitted. and a voice control unit for controlling the communication unit so as to cut off transmission of voice in a section where the voice is present or to reduce the volume of the voice.
本発明は、カメラによってビデオ通話する話者を撮影し、マイクロホンによって前記話者が発する音声を収音し、画像解析部が、前記カメラが前記話者を撮影する撮影画像に基づいて前記話者の視線を検知し、視線が前記カメラから外れたか否かを検出し、前記画像解析部が前記話者の視線が前記カメラから外れた状態であることを検出しなければ、通信部によって、前記カメラが前記話者を撮影した撮影画像と前記マイクロホンが収音した前記話者の音声とをネットワークへと送出し、少なくとも前記画像解析部が前記話者の視線が前記カメラから外れた状態であることを検出すれば、前記通信部による前記音声の送出を遮断するか前記音声の音量を低下させるビデオ通話方法を提供する。 According to the present invention, a camera photographs a speaker who makes a video call, a microphone picks up the voice uttered by the speaker, and an image analysis unit detects the speaker based on the photographed image of the speaker photographed by the camera. and detects whether or not the line of sight of the speaker is off the camera, and if the image analysis unit does not detect that the line of sight of the speaker is off the camera, the communication unit A captured image of the speaker captured by a camera and the speaker's voice collected by the microphone are transmitted to a network, and at least the image analysis unit is in a state where the speaker's line of sight is off the camera. A video call method is provided in which, when detecting that, the transmission of the voice by the communication unit is cut off or the volume of the voice is lowered.
本発明は、コンピュータに、ビデオ通話する話者を撮影するカメラが前記話者を撮影する撮影画像に基づいて前記話者の視線を検知し、視線が前記カメラから外れたか否かを検出するステップと、前記話者の視線が前記カメラから外れた状態であることが検出されなければ、通信部によって、前記カメラが前記話者を撮影した撮影画像とマイクロホンが収音した前記話者の音声とをネットワークへと送出するステップと、少なくとも前記話者の視線が前記カメラから外れた状態であることが検出されれば、前記通信部による前記音声の送出を遮断するか前記音声の音量を低下させるステップとを実行させるビデオ通話装置の制御プログラムを提供する。 According to the present invention, a step of detecting, in a computer, a line of sight of a speaker taking a video call based on a photographed image of the speaker, and detecting whether or not the line of sight has moved away from the camera. Then, if it is not detected that the line of sight of the speaker is out of the camera, the communication unit outputs the image captured by the camera of the speaker and the voice of the speaker picked up by the microphone. to the network, and at least if it is detected that the line of sight of the speaker is out of the camera, the transmission of the voice by the communication unit is cut off or the volume of the voice is reduced. and providing a control program for a video call device that causes the steps to be performed.
本発明のビデオ通話装置、ビデオ通話方法、及びビデオ通話装置の制御プログラムによれば、通話先に送信することを意図してない音声が通話先に送信されて聞かれることを防止または低減させることができる。 According to the video calling device, the video calling method, and the control program for the video calling device of the present invention, it is possible to prevent or reduce the transmission of voices not intended to be transmitted to the called party and being heard by the called party. can be done.
以下、各実施形態のビデオ通話装置、ビデオ通話方法、及びビデオ通話装置の制御プログラムについて、添付図面を参照して説明する。 A video call device, a video call method, and a control program for the video call device of each embodiment will be described below with reference to the accompanying drawings.
<第1実施形態>
図1において、互いにネットワーク20で接続された、第1実施形態のビデオ通話装置101、ビデオ通話サーバ30、ビデオ通話装置40は、ビデオ通話システムを構成している。ネットワーク20及びビデオ通話サーバ30を介して、ビデオ通話装置101はビデオ通話装置40に画像データ及び音声データを送信し、ビデオ通話装置40から画像データ及び音声データを受信する。図1においては、ビデオ通話装置101からビデオ通話装置40に画像データ及び音声データを送信する状態を示している。
<First embodiment>
In FIG. 1, the
ビデオ通話装置101は、カメラ1、一時記憶メモリ2、画像解析部3、音声制御部4、通信部5、マイクロホン6、一時記憶メモリ7を備える。カメラ1は、ビデオ通話装置101の使用者であるビデオ通話する話者を撮影する。ビデオ通話装置101の配置場所には、話者を含む複数人が存在することがある。一時記憶メモリ2は、カメラ1より出力された撮影画像データを一時的に記憶する。画像解析部3は、後述するように撮影画像を解析する。音声制御部4は、通信部5による音声データのネットワーク20への送出を遮断することがある。音声制御部4は、音声データの送出を遮断する代わりに、送出する音声データの音量を低下させることがあってもよい。
A
マイクロホン6は、話者が発する音声を収音する。一時記憶メモリ7は、マイクロホン6より出力された音声データを一時的に記憶する。通信部5は、音声制御部4が音声データの送出を遮断するよう通信部5を制御していなければ、撮影画像データと音声データとをネットワーク20を介してビデオ通話サーバ30へと送信する。典型的には、ネットワーク20はインターネットであり、通信部5はインターネットプロトコルに従って撮影画像データ及び音声データを送信する。ビデオ通話装置40は、ネットワーク20を介して、ビデオ通話サーバ30より影画像データ及び音声データを受信する。
A
以上のように構成されるビデオ通話システムにおいて、ビデオ通話装置101は第1の側に配置され、ビデオ通話装置40は第2の側に配置されている。第1の側の参加者の一人である話者が、第2の側の参加者へと通話しているとする。第1の側の話者が、第2の側の参加者へと送信しようとする音声ではなく、第1の側に同席している参加者のみに伝えようとする呟きのような音声を発するときには、話者は同席している参加者に顔を向けて、小さな声で音声を発することが多い。
In the video call system configured as described above, the
第1実施形態においては、話者の視線がカメラ1を向いているか否かによって、第2の側の参加者へと送信しようとする音声であるか否かを判定するように構成している。具体的には、画像解析部3は、入力された撮影画像データが示す撮影画像に基づいて話者の視線を検知する。画像解析部3は、視線がカメラ1から外れたか否かを検出する。画像解析部3は、視線がカメラ1から外れたことを検出すると、音声制御部4に視線が外れたことを通知する。
In the first embodiment, it is determined whether or not the voice is intended to be transmitted to the participants on the second side depending on whether or not the line of sight of the speaker is directed toward the
音声制御部4は、画像解析部3から視線が外れたことが通知されたら、音声データのネットワーク20への送出を遮断するよう通信部5を制御する。この場合、音声制御部4は、音声データの送出を遮断するよう制御する遮断制御部として機能する。これにより、仮に話者が同席している参加者に顔を向けて、通話先に送信することを意図してない呟き等の音声を発したとしても、音声は通話先に送信されないから、第2の側の参加者に不用意に聞かれることを防止することができる。
When the
音声制御部4は、画像解析部3から視線が外れたことが通知されたら、音声データの音量を低下させるよう通信部5を制御してもよい。この場合、音声制御部4は、音量を低下させるよう制御する音量制御部として機能する。通常、通話先に送信することを意図してない呟き等の音声は小さな音量で発せられる。従って、通信部5が呟き等の音声を送信したとしても、第2の側の参加者が聞こえない程度の音量となる。これにより、仮に話者が同席している参加者に顔を向けて、通話先に送信することを意図してない呟き等の音声を発したとしても、極めて音量の小さい音声データが送信されることになるから、第2の側の参加者に不用意に聞かれることを低減させることができる。
The
音声制御部4は、画像解析部3から視線が外れたことが通知されなければ、音声データのネットワーク20への送出を遮断するよう通信部5を制御せず、また、音声データの音量を低下させるよう通信部5を制御しない。よって、通信部5は、撮影画像データ及び音声データをそのままネットワーク20へと送出する。
The
図2に示すフローチャートを用いて、ビデオ通話装置101の動作及び第1実施形態のビデオ通話方法を説明する。図2に示すフローチャートのステップS2~S5、S11、S12は、第1実施形態のビデオ通話装置の制御プログラムが、ビデオ通話装置101が備えるコンピュータに実行させる処理を示してもよい。
The operation of the
図2において、ビデオ通話システムによるビデオ通話の処理が開始されると、カメラ1は、ステップS1にて、話者の撮影画像データを取得する。画像解析部3は、ステップS2にて、話者の視線を検知したか否かを判定する。話者の視線を検知しなければ(NO)、画像解析部3は、ステップS4にて、呟きのような音声の発生を検出していないことを示す値である、撮影画像に基づく呟き検出“L”を生成して音声制御部4に供給する。その後、処理はステップS12に移行される。“L”は例えば“0”である。
In FIG. 2, when the video call processing by the video call system is started, the
ステップS2にて、話者の視線を検知していれば(YES)、画像解析部3は、ステップS3にて、視線がカメラ1から外れたか否かを判定する。視線がカメラ1から外れなければ(NO)、画像解析部3は、ステップS4にて、撮影画像に基づく呟き検出“L”を生成して音声制御部4に供給する。その後、処理はステップS12に移行される。上記のように、第1実施形態においては、視線がカメラ1から外れていない状態を呟きのような音声の発生を検出していない状態とみなしている。
If the line of sight of the speaker has been detected in step S2 (YES), the
ステップS3にて視線がカメラ1から外れていれば(YES)、画像解析部3は、ステップS5にて、呟きのような音声の発生を検出したことを示す値である、撮影画像に基づく呟き検出“H”を生成して音声制御部4に供給する。“H”は例えば“1”である。続けて、音声制御部4は、ステップS11にて、音声データの送出を遮断する。音声制御部4は、ステップS11にて、音声データの音量を低下させてもよい。その後、処理はステップS12に移行される。
If the line of sight is out of the
ビデオ通話装置101は、ステップS12にて、ビデオ通話を終了する指示がなされたか否かを判定する。ビデオ通話を終了する指示がなされなければ(NO)、ビデオ通話装置101は、ステップS1~S12の処理を繰り返す。ビデオ通話を終了する指示がなされれば(YES)、ビデオ通話装置101はビデオ通話の処理を終了させる。
In step S12, the
以上のようにして、第1実施形態によれば、通話先に送信することを意図してない音声が通話先に送信されて聞かれることを防止または低減させることができる。 As described above, according to the first embodiment, it is possible to prevent or reduce the possibility that voices not intended to be transmitted to the called party are transmitted to and heard by the called party.
<第2実施形態>
図3に示す第2実施形態のビデオ通話装置102において、ビデオ通話装置101と同一部分には同一符号を付し、その説明を省略することがある。ビデオ通話装置102は、ビデオ通話装置101が備えていない構成として、音声解析部8を備える。音声制御部4は、画像解析部3による解析結果と音声解析部8による解析結果との双方に基づいて、通信部5による音声データのネットワーク20への送出を遮断することがある。音声制御部4は、画像解析部3による解析結果と音声解析部8による解析結果との双方に基づいて、送出する音声データの音量を低下させることがあってもよい。
<Second embodiment>
In the
音声解析部8は、入力された音声データの音圧レベルが所定の閾値以下であるか否かを判定する。音声解析部8は、入力された音声データを離散フーリエ変換する。典型的には、音声解析部8は、高速フーリエ変換(FFT:Fast Fourier Transform)のアルゴリズムを用いて音声データを離散フーリエ変換する。
The
第2の側の参加者へと送信しようとする音声は有声音であり、第1の側に同席している参加者のみに伝えようとする呟きのような音声は無声音であることが多い。有声音と無声音とは、それらが存在している周波数帯域が異なる。音声解析部8は、時間領域のデータである音声データを離散フーリエ変換した周波数領域のデータの周波数に基づき、有声音であるか無声音であるか、即ち、第2の側の参加者へと送信しようとする音声であるか、呟きのような音声は無声音であるかを判定する。
Speech that is intended to be sent to participants on the second side is often voiced, and speech that is intended to be conveyed only to participants sitting on the first side, such as murmurs, is often unvoiced. Voiced sounds and unvoiced sounds differ in frequency bands in which they exist. The
音声解析部8は、離散フーリエ変換前の入力された音声データの音圧レベルが所定の閾値以下であり、かつ、離散フーリエ変換後のデータが無声音の周波数であるとき、マイクロホン6が収音した音声は呟きのような音声であると判定するのがよい。音声解析部8は、音圧レベルが閾値以下であるか否かを判定せず、周波数領域のデータの周波数が無声音の周波数であるとき、マイクロホン6が収音した音声は呟きのような音声であると判定してもよい。音声解析部8は、マイクロホン6が収音した音声が有声音であるか無声音であるかの解析結果を音声制御部4に通知する。なお、音声解析部8は、無声音の子音を含む外国語の単語を誤って呟きと判断しないように、無声音が所定割合以上の場合に無声音と判定するようにしてもよい。
When the sound pressure level of the input audio data before the discrete Fourier transform is equal to or lower than a predetermined threshold and the data after the discrete Fourier transform is the frequency of unvoiced sound, the
音声制御部4は、画像解析部3から視線が外れたことが通知され、かつ、音声解析部8からマイクロホン6が収音した音声が無声音であるとの解析結果が通知されたら、音声データのネットワーク20への送出を遮断するよう通信部5を制御する。これにより、話者が同席している参加者に顔を向けて、通話先に送信することを意図してない呟き等の音声を発したとしても、音声は通話先に送信されないから、第2の側の参加者に不用意に聞かれることを防止することができる。
When the
音声制御部4は、画像解析部3から視線が外れたことが通知されかつ、音声解析部8からマイクロホン6が収音した音声が無声音であるとの解析結果が通知されたら、音声データの音量を低下させるよう通信部5を制御してもよい。これにより、話者が同席している参加者に顔を向けて、通話先に送信することを意図してない呟き等の音声を発したとしても、極めて音量の小さい音声データが送信されることになるから、第2の側の参加者に不用意に聞かれることを低減させることができる。
When the
音声制御部4は、画像解析部3から視線が外れたことが通知されないか、音声解析部8からマイクロホン6が収音した音声が無声音であるとの解析結果が通知されなければ、音声データのネットワーク20への送出を遮断するよう通信部5を制御しない。また、音声制御部4は、音声データの音量を低下させるよう通信部5を制御しない。よって、通信部5は、撮影画像データ及び音声データをそのままネットワーク20へと送出する。
If the
図4に示すフローチャートを用いて、ビデオ通話装置102の動作及び第2実施形態のビデオ通話方法を説明する。図4に示すフローチャートのステップS2~S5、S7~S11、S20~S22は、第2実施形態のビデオ通話装置の制御プログラムが、ビデオ通話装置101が備えるコンピュータに実行させる処理を示してもよい。
The operation of the
図4において、ステップS1~S5は図2に示すステップS1~S5と同一である。マイクロホン6は、ステップS6にて、話者が発した音声の音声データを取得する。音声解析部8は、ステップS7にて、音声データを離散フーリエ変換する。音声解析部8は、ステップS8にて、離散フーリエ変換前の音声データに基づき、音圧レベルが閾値以下であるか否かを判定する。音圧レベルが閾値以下でなければ(NO)、音声解析部8は、ステップS10にて、音声に基づく呟き検出“L”を生成して音声制御部4に供給する。その後、処理はステップS20に移行される。
In FIG. 4, steps S1-S5 are the same as steps S1-S5 shown in FIG. The
ステップS8にて音圧レベルが閾値以下であれば(YES)、音声解析部8は、ステップS9にて、離散フーリエ変換後の周波数領域のデータに基づき、周波数が無声音を示すか否かを判定する。周波数が無声音を示さなければ(NO)、音声解析部8は、ステップS10にて、音声に基づく呟き検出“L”を生成して音声制御部4に供給する。周波数が無声音を示せば(YES)、音声解析部8は、ステップS11にて、音声に基づく呟き検出“H”を生成して音声制御部4に供給する。処理はステップS10またはS11からステップS20に移行される。
If the sound pressure level is equal to or lower than the threshold in step S8 (YES), the
ステップS8を省略して、ステップS9の判定のみでステップS10とステップS11とを選択してもよい。 Step S8 may be omitted and step S10 and step S11 may be selected only by the determination of step S9.
音声制御部4は、ステップS20にて、撮影画像に基づく呟き検出“H”かつ音声に基づく呟き検出“H”であるか否かを判定する。撮影画像に基づく呟き検出“H”かつ音声に基づく呟き検出“H”であれば(YES)、音声制御部4は、ステップS21にて、音声データの送出を遮断する。音声制御部4は、ステップS21にて、音声データの音量を低下させてもよい。その後、処理はステップS22に移行される。撮影画像に基づく呟き検出“H”かつ音声に基づく呟き検出“H”でなければ(NO)、処理はステップS20からステップS22に移行される。
In step S20, the
ビデオ通話装置102は、ステップS22にて、ビデオ通話を終了する指示がなされたか否かを判定する。ビデオ通話を終了する指示がなされなければ(NO)、ビデオ通話装置102は、ステップS1~S22の処理を繰り返す。ビデオ通話を終了する指示がなされれば(YES)、ビデオ通話装置102はビデオ通話の処理を終了させる。
In step S22, the
以上のようにして、第2実施形態によれば、通話先に送信することを意図してない音声が通話先に送信されて聞かれることを防止または低減させることができる。第2実施形態によれば、話者が同席している参加者に顔を向けただけで、実際には呟き等の音声を発していない場合には、音声データの送出は遮断されず、実際に呟き等の音声を発したときに音声データの送出を遮断することができる。 As described above, according to the second embodiment, it is possible to prevent or reduce the possibility that voices not intended to be transmitted to the called party are transmitted to and heard by the called party. According to the second embodiment, when the speaker only turns his/her face to the participant who is present and does not actually utter a voice such as muttering, the transmission of the voice data is not interrupted. It is possible to cut off the transmission of voice data when a voice such as muttering is uttered.
<第3実施形態>
図5に示す第3実施形態のビデオ通話装置103において、ビデオ通話装置102と同一部分には同一符号を付し、その説明を省略することがある。ビデオ通話装置103は、ビデオ通話装置102が備えていない構成として、記録部10、学習部11、表示部12、スピーカ13、操作部14を備える。表示部12、スピーカ13、操作部14は、ビデオ通話装置103に対して外付けされていてもよい。
<Third Embodiment>
In the
記録部10は、一時記憶メモリ2より出力された撮影画像データ、及び一時記憶メモリ7より出力された音声データを記録する。例えばビデオ通話の終了後に、話者は操作部14を操作して記録部10に記録されている過去のビデオ通話による撮影画像データ及び音声データを再生する。表示部12は、再生されている撮影画像データに基づく撮影画像を表示する。スピーカ13は、再生されている音声データに基づく音声を出力する。
The
記録部10に記録されている撮影画像データ及び音声データを再生しているとき、画像解析部3は再生している撮影画像データの撮影画像を解析し、音声解析部8は再生している音声データの音声を解析する。画像解析部3は話者の視線を検出する。音声解析部8は、音声の周波数に基づいて有声音であるか無声音であるかを判定するか、音声の音圧レベルを判定し、さらに周波数に基づいて有声音であるか無声音であるかを判定する。
When the captured image data and audio data recorded in the
話者は、表示部12に表示されている撮影画像及びスピーカ13より出力される音声を確認しながら、通信部5によってネットワーク20へと送出すべきでなかった音声を発している区間を指定する。学習部11は、話者による区間の指定に基づいて、ネットワーク20へと送出すべきでなかった音声を発している区間を学習する。このとき、学習部11は、話者が指定した区間と、話者が指定した区間における画像解析部3によって解析された撮影画像の解析結果と音声解析部8によって解析された音声の解析結果とを対応付けて学習する。
While confirming the captured image displayed on the
話者は、以上のようなビデオ通話の終了後の学習部11によるネットワーク20へと送出すべきでなかった音声の学習を複数回実行させる。すると、学習部11は、画像解析部3による撮影画像の解析結果及び音声解析部8による音声の解析結果に基づいて、ネットワーク20へと送出すべきでない音声を発している区間であるのか否かを判定する判定能力を取得することができる。
The speaker causes the
学習部11が判定能力を取得した後、新たなビデオ通話時に、学習部11は、通信部5によってネットワーク20へと送出すべきでない音声を発している区間を抽出する。学習部11は、学習結果と、画像解析部3によって解析された新たなビデオ通話による撮影画像の解析結果と、音声解析部8によって解析された新たなビデオ通話による音声の解析結果とに基づいて、送出すべきでない音声を発している区間を抽出する。学習部11が抽出した区間を示す情報は、音声制御部4に供給される。音声制御部4は、学習部11が抽出した区間の音声の送出を遮断するか音声の音量を低下させるよう通信部5を制御する。
After the
以上のようにして、第3実施形態によれば、通話先に送信することを意図してない音声が通話先に送信されて聞かれることを防止または低減させることができる。第3実施形態によれば、学習部11がネットワーク20へと送出すべきでない音声を発している区間を予め学習して、そのような区間であるのか否かを判定する判定能力を取得しているので、ネットワーク20へと送出すべきでない音声を高精度に遮断することができる。
As described above, according to the third embodiment, it is possible to prevent or reduce the possibility that voices not intended to be transmitted to the called party are transmitted to and heard by the called party. According to the third embodiment, the
本発明は以上説明した第1~第3実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。 The present invention is not limited to the first to third embodiments described above, and various modifications can be made without departing from the gist of the present invention.
1 カメラ
2,7 一時記憶メモリ
3 画像解析部
4 音声制御部
5 通信部
6 マイクロホン
8 音声解析部
10 記録部
11 学習部
12 表示部
13 スピーカ
14 操作部
20 ネットワーク
30 ビデオ通話サーバ
40,101~103 ビデオ通話装置
1
Claims (5)
前記話者が発する音声を収音するマイクロホンと、
前記カメラが前記話者を撮影した撮影画像と前記マイクロホンが収音した前記話者の音声とをネットワークへと送出する通信部と、
前記カメラが前記話者を撮影する撮影画像に基づいて前記話者の視線を検知し、視線が前記カメラから外れたか否かを検出する画像解析部と、
少なくとも前記画像解析部が前記話者の視線が前記カメラから外れた状態であることを検出したとき、前記音声の送出を遮断するか前記音声の音量を低下させるよう前記通信部を制御する音声制御部と、
を備えるビデオ通話装置。 a camera that captures the person making the video call;
a microphone for picking up the voice uttered by the speaker;
a communication unit that transmits to a network the captured image of the speaker captured by the camera and the speaker's voice collected by the microphone;
an image analysis unit that detects the line of sight of the speaker based on an image captured by the camera of the speaker and detects whether or not the line of sight is off the camera;
audio control for controlling the communication unit to cut off transmission of the audio or reduce the volume of the audio at least when the image analysis unit detects that the line of sight of the speaker is out of the camera; Department and
A video call device with
前記音声制御部は、前記画像解析部が前記話者の視線が前記カメラから外れた状態であることを検出し、かつ、前記音声解析部が前記話者の音声が無声音であると解析したとき、前記音声の送出を遮断するか前記音声の音量を低下させるよう前記通信部を制御する
請求項1に記載のビデオ通話装置。 further comprising a speech analysis unit that analyzes whether the speech of the speaker picked up by the microphone is voiced or unvoiced,
When the image analysis unit detects that the line of sight of the speaker is out of the camera and the audio analysis unit analyzes that the speaker's voice is unvoiced sound 2. The video call device according to claim 1, wherein the communication unit is controlled to block transmission of the sound or reduce the volume of the sound.
前記話者が発する音声を収音するマイクロホンと、
前記カメラが前記話者を撮影する撮影画像を解析する画像解析部と、
前記マイクロホンが収音した前記話者の音声を解析する音声解析部と、
前記カメラが前記話者を撮影した撮影画像と前記マイクロホンが収音した前記話者の音声とをネットワークへと送出する通信部と、
前記撮影画像及び前記マイクロホンが収音した音声を記録する記録部と、
前記記録部に記録された過去のビデオ通話による撮影画像及び音声の再生時に前記話者が指定した、前記通信部によって前記ネットワークへと送出すべきでなかった音声を発している区間と、前記画像解析部によって解析された再生された撮影画像の解析結果及び前記音声解析部によって解析された再生された音声の解析結果とを対応付けて学習し、新たなビデオ通話時に、学習結果と、前記画像解析部によって解析された新たなビデオ通話による撮影画像の解析結果及び前記音声解析部によって解析された新たなビデオ通話による音声の解析結果とに基づいて、前記通信部によって前記ネットワークへと送出すべきでない音声を発している区間を抽出する学習部と、
前記学習部が抽出した前記ネットワークへと送出すべきでない音声を発している区間の音声の送出を遮断するか前記音声の音量を低下させるよう前記通信部を制御する音声制御部と、
を備えるビデオ通話装置。 a camera that captures the person making the video call;
a microphone for picking up the voice uttered by the speaker;
an image analysis unit that analyzes an image captured by the camera of the speaker;
a voice analysis unit that analyzes the speaker's voice picked up by the microphone;
a communication unit that transmits to a network the captured image of the speaker captured by the camera and the speaker's voice collected by the microphone;
a recording unit that records the captured image and the sound picked up by the microphone;
A section during which the voice, which should not be transmitted to the network by the communication unit, is emitted and which is specified by the speaker when reproducing the captured image and voice of the past video call recorded in the recording unit, and the image The analysis result of the reproduced photographed image analyzed by the analysis unit and the analysis result of the reproduced sound analyzed by the audio analysis unit are associated and learned, and when a new video call is made, the learning result and the image are learned. Based on the analysis result of the image captured by the new video call analyzed by the analysis unit and the analysis result of the sound of the new video call analyzed by the sound analysis unit, the communication unit should send it to the network. A learning unit that extracts a section in which a voice that is not
a voice control unit that controls the communication unit so as to cut off the transmission of the voice in the section where the voice that should not be transmitted to the network extracted by the learning unit or to reduce the volume of the voice;
A video call device with
マイクロホンによって前記話者が発する音声を収音し、
画像解析部が、前記カメラが前記話者を撮影する撮影画像に基づいて前記話者の視線を検知し、視線が前記カメラから外れたか否かを検出し、
前記画像解析部が前記話者の視線が前記カメラから外れた状態であることを検出しなければ、通信部によって、前記カメラが前記話者を撮影した撮影画像と前記マイクロホンが収音した前記話者の音声とをネットワークへと送出し、
少なくとも前記画像解析部が前記話者の視線が前記カメラから外れた状態であることを検出すれば、前記通信部による前記音声の送出を遮断するか前記音声の音量を低下させる
ビデオ通話方法。 Take a picture of the speaker who makes a video call with a camera,
picking up the voice uttered by the speaker with a microphone;
an image analysis unit that detects the line of sight of the speaker based on an image captured by the camera of the speaker, and detects whether or not the line of sight is off the camera;
If the image analysis unit does not detect that the line of sight of the speaker is out of the camera, the communication unit detects the captured image of the speaker captured by the camera and the speech captured by the microphone. and send the voice of the person to the network,
A video call method, wherein at least when the image analysis unit detects that the line of sight of the speaker is out of the camera, transmission of the sound by the communication unit is cut off or the volume of the sound is reduced.
ビデオ通話する話者を撮影するカメラが前記話者を撮影する撮影画像に基づいて前記話者の視線を検知し、視線が前記カメラから外れたか否かを検出するステップと、
前記話者の視線が前記カメラから外れた状態であることが検出されなければ、通信部によって、前記カメラが前記話者を撮影した撮影画像とマイクロホンが収音した前記話者の音声とをネットワークへと送出するステップと、
少なくとも前記話者の視線が前記カメラから外れた状態であることが検出されれば、前記通信部による前記音声の送出を遮断するか前記音声の音量を低下させるステップと、
を実行させるビデオ通話装置の制御プログラム。 to the computer,
a step of detecting a line of sight of the speaker based on a photographed image of the speaker, and detecting whether or not the line of sight is off the camera;
If it is not detected that the line of sight of the speaker is out of the camera, the communication unit transmits the captured image of the speaker captured by the camera and the voice of the speaker collected by the microphone to a network. sending to
blocking transmission of the voice by the communication unit or reducing the volume of the voice at least when it is detected that the line of sight of the speaker is out of the camera;
A video call device control program that runs
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021203015A JP2023088360A (en) | 2021-12-15 | 2021-12-15 | Video call device, video call method, and control program of video call device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021203015A JP2023088360A (en) | 2021-12-15 | 2021-12-15 | Video call device, video call method, and control program of video call device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023088360A true JP2023088360A (en) | 2023-06-27 |
Family
ID=86935434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021203015A Pending JP2023088360A (en) | 2021-12-15 | 2021-12-15 | Video call device, video call method, and control program of video call device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023088360A (en) |
-
2021
- 2021-12-15 JP JP2021203015A patent/JP2023088360A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9571638B1 (en) | Segment-based queueing for audio captioning | |
US8175874B2 (en) | Personalized voice activity detection | |
JP5533854B2 (en) | Speech recognition processing system and speech recognition processing method | |
US11432086B2 (en) | Centrally controlling communication at a venue | |
US11405584B1 (en) | Smart audio muting in a videoconferencing system | |
JP6420514B1 (en) | Conversation robot | |
CN111199751B (en) | Microphone shielding method and device and electronic equipment | |
JP2023088360A (en) | Video call device, video call method, and control program of video call device | |
JP2012078384A (en) | Telephone apparatus with a speaker identification function by voiceprint | |
WO2022181013A1 (en) | Meeting system | |
JP2009060220A (en) | Communication system and communication program | |
JP2007251355A (en) | Relaying apparatus for interactive system, interactive system, and interactive method | |
JP2000333150A (en) | Video conference system | |
JP4230982B2 (en) | Call assistance device, call assistance method, call assistance program, and call assistance system | |
US20230047187A1 (en) | Extraneous voice removal from audio in a communication session | |
JP3047259B2 (en) | Speaker automatic selection device of electronic conference system | |
JP2010226377A (en) | Remote conference supporting apparatus and method | |
US20230290356A1 (en) | Hearing aid for cognitive help using speaker recognition | |
EP4075822B1 (en) | Microphone mute notification with voice activity detection | |
JP2005123869A (en) | System and method for dictating call content | |
JP6854170B2 (en) | Intercom device | |
JP2022165144A (en) | Support device and program | |
CN114401384A (en) | Intelligent device audio working mode prompting method and device | |
JP2023025464A (en) | Teleconference system, method, and program | |
JPH0519734B2 (en) |