JP2017046235A - 音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム - Google Patents
音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム Download PDFInfo
- Publication number
- JP2017046235A JP2017046235A JP2015168177A JP2015168177A JP2017046235A JP 2017046235 A JP2017046235 A JP 2017046235A JP 2015168177 A JP2015168177 A JP 2015168177A JP 2015168177 A JP2015168177 A JP 2015168177A JP 2017046235 A JP2017046235 A JP 2017046235A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- audio
- signal
- video
- synchronization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】会議の状況に応じて、音声信号及び映像信号の同期を行う機能を適宜切り替え、場面に応じて音声信号と映像信号を最適に制御することができるようにする。
【解決手段】本発明に係る音声映像同期処理装置は、受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理手段と、送信音声信号における音声検出区間又は音声非検出区間を判定する第1音声判定手段と、受信音声信号における音声検出区間又は音声非検出区間を判定する第2音声判定手段と、第1音声検出手段及び上記第2音声検出手段による音声検出結果に応じて、音声映像同期処理手段による同期を動的に制御する同期制御手段とを備える。
【選択図】 図1
【解決手段】本発明に係る音声映像同期処理装置は、受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理手段と、送信音声信号における音声検出区間又は音声非検出区間を判定する第1音声判定手段と、受信音声信号における音声検出区間又は音声非検出区間を判定する第2音声判定手段と、第1音声検出手段及び上記第2音声検出手段による音声検出結果に応じて、音声映像同期処理手段による同期を動的に制御する同期制御手段とを備える。
【選択図】 図1
Description
本発明は、音声映像同期処理装置、端末、音声映像同期処理方法及びプログラムに関し、例えば、H.323TV会議システムにおいて、音声信号と映像信号との間の同期を行う音声映像同期処理装置に適用し得るものである。
ネットワークを通じて会議を開催するテレビ会議システムでは、映像と音声を同期させる機能としてリップシンク機能がある。
例えば、H.323準拠のテレビ会議システムでは、音声信号と映像信号のそれぞれの符号化に伴う遅延時間が異なるため、一般的に音声信号に比べて、映像信号が遅れる。そのため、話者の映像と音声のずれが生じてしまう。このような問題を解決するために、テレビ会議システムの会議端末(後述の特許文献1では、本体と音声端末に対応)は、リップシンク機能を有効にすることで、当該会議端末の会議の相手側となる相手側会議端末(後述の特許文献1では、遠隔端末に対応)で取得された映像信号と音声信号について、受信側である、本体と音声端末で再生する時点で、音声信号を遅らせて出力する。従って、映像と音声とのずれが低減する。
しかしながら、従来のテレビ会議システムにおけるリップシンク機能は、通話の開始に先立って、有効又は無効の設定をするものであり、通話途中での有効又は無効を切り替えることができなかった。
リップシンク機能を有効にした場合、上述したように音声信号も遅らせて再生するため、常に、会議に係る音声信号及び映像信号の遅延が生じることになる。
その一方、上記のような遅延が会議に与え得る影響を、以下の2つの場面を想定して考える。
1つは、プレゼンテーションを行うときのように、誰かが連続して発言し続け、他の参加者は、その発言を聞いている場面である。
もう1つは、議論を行うときのように、複数の参加者が互いに、あるいは同時に、発言を行う場面である。
これら2つの場面において、音声信号と映像信号との間の同期が重要な場面と、音声信号の遅延の小ささが重要な場面のように、状況に応じてリップシンクが効果的かどうかの違いがある。
現状では、会議の状況を判断し、リップシンク機能を動的に切り替えることができない。そのため、利用者は、会議の性質を考えて、予めリップシンク機能の使用の有無を決めなければならなかった。
そのため、会議の状況に応じて、音声信号と映像信号との間の同期を行う機能を適宜切り替え、場面に応じて音声信号と映像信号を最適に制御することができる音声映像同期処理装置、端末、音声映像同期処理プログラム及び情報処理端末が求められている。
かかる課題を解決するために、第1の本発明に係る音声映像同期処理装置は、(1)受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号と音声信号との間の同期を行う音声映像同期処理手段と、(2)送信音声信号における音声検出区間又は音声非検出区間を判定する第1音声判定手段と、(3)受信音声信号における音声検出区間又は音声非検出区間を判定する第2音声判定手段と、(4)第1音声検出手段及び上記第2音声検出手段による音声検出結果に応じて、音声映像同期処理手段による同期を動的に制御する同期制御手段とを備えることを特徴とする。
第2の本発明に係る端末は、映像信号及び音声信号を含むメディア情報を授受して、映像及び音声を出力する端末であって、第1の本発明に係る音声映像同期処理装置を備えることを特徴とする。
第3の本発明に係る音声映像同期処理方法は、音声映像同期処理装置の音声映像同期処理方法であって、上記音声映像同期処理装置は、(1)受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号と音声信号との間の同期を行う音声映像同期処理ステップと、(2)送信音声信号における音声検出区間又は音声非検出区間を判定する第1音声判定ステップと、(3)受信音声信号における音声検出区間又は音声非検出区間を判定する第2音声判定ステップと、(4)上記第1音声検出ステップ及び上記第2音声検出ステップによる音声検出結果に応じて、音声映像同期処理ステップによる同期を動的に制御する同期制御ステップを備えることを特徴とする。
第4の本発明に係る音声映像同期処理プログラムは、コンピュータを、(1)受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号と音声信号との間の同期を行う音声映像同期処理手段と、(2)送信音声信号における音声検出区間又は音声非検出区間を判定する第1音声判定手段と、(3)受信音声信号における音声検出区間又は音声非検出区間を判定する第2音声判定手段と、(4)第1音声検出手段及び上記第2音声検出手段による音声検出結果に応じて、音声映像同期処理手段による同期を動的に制御する同期制御手段として機能させることを特徴とする。
本発明によれば、会議の状況に応じて、音声信号と映像信号との間の同期を行う機能を適宜切り替え、場面に応じて音声信号と映像信号を最適に制御することができる。
(A)主たる実施形態
以下では、本発明に係る音声映像同期処理装置、端末、音声映像同期処理方法及びプログラムの実施形態を、図面を参照しながら詳細に説明する。
以下では、本発明に係る音声映像同期処理装置、端末、音声映像同期処理方法及びプログラムの実施形態を、図面を参照しながら詳細に説明する。
例えば、通信プロトコルとしてH.323準拠のテレビ会議システムの会議端末に本発明を適用する場合を例示して説明する。
(A−1)実施形態の構成
図1は、実施形態に係る会議端末の内部構成を示す内部構成図である。なお、会議端末1のハードウェアは、例えば、CPU、ROM、RAM、EEPROM、入出力インタフェース部、通信部等の回路を有する。また、CPUがROMに格納される処理プログラム(音声映像同期処理プログラム)を実行することにより、会議端末1としての機能が実現される。なお、処理プログラム(音声映像同期処理プログラム)がインストールされることにより構築できるようにしても良く、その場合でも、実行される処理プログラムは図1のように表される。
図1は、実施形態に係る会議端末の内部構成を示す内部構成図である。なお、会議端末1のハードウェアは、例えば、CPU、ROM、RAM、EEPROM、入出力インタフェース部、通信部等の回路を有する。また、CPUがROMに格納される処理プログラム(音声映像同期処理プログラム)を実行することにより、会議端末1としての機能が実現される。なお、処理プログラム(音声映像同期処理プログラム)がインストールされることにより構築できるようにしても良く、その場合でも、実行される処理プログラムは図1のように表される。
図1において、会議端末1は、それぞれの接続インタフェース部を介して、会議端末1を使用する会議参加者が発した音声信号(以下、送信音声信号[会議端末1側]と記載)を集音して入力するマイク等の音声入力装置2、会議端末1の会議の相手側となる相手側会議端末で入力された相手側会議参加者の音声信号(以下、受信音声信号[相手側]と記載)を出力するスピーカ等の音声出力装置3、相手側会議端末で入力された相手側会議参加者の映像信号(以下、受信映像信号[相手側]と記載)を出力するディスプレイ等の映像出力装置4と接続可能なものである。なお、図1では、図示していないが、会議端末1は、会議参加者を撮像して映像データを会議端末1に与える撮像装置や、会議において使用する表データや動画像データ等を出力するパーソナルコンピュータ等の情報処理装置等と接続可能であっても良い。
また、図1において、実施形態に係る会議端末1は、大別して、音声映像同期制御部10と、送信音声信号処理部18、受信音声信号処理部19、受信映像信号処理部20を有する。
送信音声信号処理部18は、音声映像同期制御部10を介して、会議端末1に接続している音声入力装置2から入力された音声信号を送信音声信号[会議端末1側]として受け取り、送信音声信号[会議端末1側]を含むパケットをネットワークに送信する。
受信音声信号処理部19は、ネットワークを介して受信したパケットに含まれる相手側会議端末で受け取った音声信号を受信音声信号[相手側]として抽出し、受信音声信号[相手側]を音声映像同期制御部10に送る。
受信映像信号処理部20は、ネットワークを介して受信したパケットに含まれる相手側会議端末で受け取った映像信号を受信映像信号[相手側]として抽出し、受信映像信号[相手側]を音声映像同期制御部10に送る。
音声映像同期制御部10は、音声入力装置2から入力された音声信号を送信音声信号[会議端末1側]として受け取り、受信音声信号処理部19から受信音声信号[相手側]を受け取り、受信映像信号処理部20から受信映像信号[相手側]受け取る。音声映像同期制御部10は、送信音声信号[会議端末1側]及び受信音声信号[相手側]に基づいて、会議端末1から出力される受信音声信号[相手側]及び受信映像信号[相手側]について、受信音声信号[相手側]と受信映像信号[相手側]との間の同期を行い、受信音声信号[相手側]と受信映像信号[相手側]の出力タイミングを制御する(または同期を行わず、出力タイミングを制御しない)ものである。
音声映像同期制御部10は、入力音声信号[会議端末1側]及び受信音声信号[相手側]に基づいて、受信音声信号[相手側]のみを検出した場合にはリップシンク機能としての音声映像同期処理を有効として受信音声信号[相手側]及び受信映像信号[相手側]の出力タイミングを制御し、ほぼ同時期に送信音声信号[会議端末1側]及び受信音声信号[相手側]を検出した場合には音声映像同期処理を無効として受信音声信号[相手側]及び受信映像信号[相手側]の出力タイミングを制御しない。つまり、音声映像同期制御部10は、多地点間の会議における議論状況を会議参加者の発言状況に基づいて判断し、相手側会議端末の会議参会者のみが発言していると思われるときには受信音声信号[相手側]と受信映像信号[相手側]間の同期を行うことができ、逆に相手側会議端末の会議参加者と会議端末1の会議参加者がほぼ同時に議論を交わしているときには、受信音声信号[相手側]と受信映像信号[相手側]との間の同期を行なわない(若しくは、受信音声信号[相手側]と受信映像信号[相手側]との間の同期の精度を落とす)。音声映像同期制御部10は、音声映像同期処理の有効/無効に基づいて処理された受信音声信号[相手側]を音声出力装置3に出力し、受信映像信号[相手側]を映像出力装置4に出力する。これにより、例えばプレゼンテーションや会議報告等のように、相手側会議端末の会議参加者のみが発言するときには、映像に映し出される話者の口の動きに合わせて音声を出力することができ、会議端末1の会議参加者及び相手側会議端末の会議参加者の間で議論を交わすときには、遅延を少ない音声の出力を優先することができる。
図1に示すように、音声映像同期制御部10は、音声映像同期処理部11、第1音声分配部12、第1音声・非音声判定部13、同期制御部14、第2音声分配部15、第2音声・非音声判定部16、音素データベース17を有する。
第1音声分配部12は、音声入力装置2から入力された送信音声信号を送信音声信号[会議端末1側]として受け取り、送信音声信号[会議端末1側]を複製して分配する。第1音声分配部12は、送信音声信号[会議端末1側]を相手側会議端末に送信するため、一方の送信音声信号[会議端末1側]を送信音声信号処理部18に送り、又会議の議論状況を判断するため、他方の送信音声信号[会議端末1側]を第1音声・非音声判定部13に送る。
第1音声・非音声判定部13は、会議端末1側の会議参加者の発言状況を検出するために、第1音声分配部12から送信音声信号[会議端末1側]を受け取り、音素データベース17を参照して、送信音声信号[会議端末1側]に音声(音素)が含まれているか否かを検出する。第1音声・非音声判定部13は、送信音声信号[会議端末1側]に基づく音声判定結果を同期制御部14に送る。つまり、第1音声・非音声判定部13は、音素データベース17を参照して、送信音声信号[会議端末1側]に言葉としての音素が含まれているか否かを判定する。第1音声・非音声判定部13による音声判定処理の方法は、会議端末1側の会議参加者が発言している状態か否かを検出することができれば、種々の方法を広く適用することができる。
音素データベース17は、多数の音素データを保持するデータベースである。なお、音素データベース17は、会議端末1に予め登録されているものであっても良いし、又はネットワーク上に音素データベース17が設けられており、会議端末1がネットワークを通じて音素データを取得できるものであっても良い。
第2音声分配部15は、受信音声信号処理部19から受け取った受信音声信号[相手側]を複製して分配する。第2音声分配部15は、受信音声信号[相手側]を出力するために、一方の受信音声信号[相手側]を音声映像同期処理部11に送り、又会議の議論状況を判断するため、他方の受信音声信号[相手側]を第2音声・非音声判定部16に送る。
第2音声・非音声判定部16は、相手側会議端末の会議参加者の発言状況を検出するために、第2音声分配部15から受信音声信号[相手側]を受け取り、音素データベース17を参照して、受信音声信号[相手側]に音声(音素)が含まれているか否かを検出する。第2音声・非音声判定部16は、受信音声信号[相手側]に基づく音声判定結果を同期制御部14に与える。第2音声・非音声判定部16による音声判定処理の方法は、第1音声・非音声判定部13による処理方法と同様の方法を適用できる。
同期制御部14は、第1音声・非音声判定部13から送信音声信号[会議端末1側]に基づく音声判定結果と、第2音声・非音声判定部16から受信音声信号[相手側]に基づく音声判定結果とに基づいて、送信音声系統と受信音声系統から通話における議論状況を判断し、音声映像同期処理部11に対して、音声映像同期処理の有効又は無効を指示する。つまり、送信音声信号[会議端末1側]及び受信音声信号[相手側]に基づく会議端末1及び受信音声信号[相手側]の音声の有無の状況から、現時点での会議参加者の発言状況を確認し、受信音声信号[相手側]にのみ音声が含まれているときには、音声映像同期処理を有効にする。一方、送信音声信号[会議端末1側]及び受信音声信号[相手側]に音声が含まれているときには、音声映像同期処理を無効にする。
音声映像同期処理部11は、同期制御部14の指示に従って、受信音声信号[相手側]と受信映像信号[相手側]とを同期させるリップシンク機能を有効又は無効にして、受信音声信号[相手側]に基づく音声を音声出力装置3に出力したり、受信映像信号[相手側]に基づく映像を映像出力装置4に出力したりするものである。
音声映像同期処理部11は、同期切替部111、同期処理部112を有する。
同期切替部111は、同期制御部14の指示に従って、リップシンク機能としての音声映像同期処理の有効又は無効に動的に切り替えて、同期処理部112に指示する。
同期処理部112は、音声映像同期処理が有効の場合に、第2音声分配部15からの受信音声信号[相手側]及び受信映像信号処理部20からの受信映像信号[相手側]に含まれている時間情報(同期情報)に基づいて、受信音声信号[相手側]の出力タイミングと受信映像信号[相手側]の出力タイミングとを同期させて、受信音声信号[相手側]と受信映像信号[相手側]とを出力するものである。より具体的には、同期処理部112は、受信音声信号[相手側]の時間情報と、受信映像信号[相手側]の時間情報とに基づいて、両者の時間を合わせて、受信音声信号[相手側]と受信映像信号[相手側]を出力する。なお、音声映像同期処理が無効の場合、音声映像同期処理部11は、受信音声信号[相手側]及び受信映像信号[相手側]を同期せずに出力する。
ここで、同期処理部112は、受信音声信号[相手側]の出力タイミングと受信映像信号[相手側]の出力タイミングとを同期させて、受信音声信号[相手側]と受信映像信号[相手側]とを出力する際、次の受信音声信号[相手側]の時間情報と受信映像信号[相手側]の時間情報を用いてもよい。例えば、受信音声信号[相手側]の時間情報は、第2音声分配部15を介して受信音声信号処理部19から受け取ったものであり、パケットから抽出された受信音声信号[相手側]に関わる時間情報である。例えば、受信映像信号[相手側]の時間情報は、受信映像信号処理部20から受け取ったものであり、パケットから抽出された受信映像信号[相手側]に関わる時間情報である。
(A−2)実施形態の動作
次に、実施形態に係る会議端末1における音声映像同期処理の動作を、図面を参照しながら詳細に説明する。
次に、実施形態に係る会議端末1における音声映像同期処理の動作を、図面を参照しながら詳細に説明する。
会議端末1が設置されている場所において、会議参加者が発言すると、音声信号は音声入力装置2により集音され入力される。入力された音声信号は、送信音声信号[会議端末1側]として会議端末1で受け取る。会議端末1で受け取った送信音声信号[会議端末1側]は、第1音声分配部12により2系統分の音声信号に複製される。一方の送信音声信号[会議端末1側]は送信音声信号処理部18に送られ、送信音声信号処理部18において、会議システムに係るパケットが生成されてネットワークを介して相手側会議端末に送信される。他方の送信音声信号[会議端末1側]は、第1音声・非音声判定部13に送られる。
また、相手側会議端末で受け取った会議参加者の音声信号及び映像信号は、受信音声信号[相手側]及び受信映像信号[相手側]として受信音声信号処理部19及び受信映像信号処理部20で抽出される。ここで、受信音声信号[相手側]及び受信映像信号[相手側]は、相手側会議端末から受信したパケットから抽出されたものである。
受信音声信号処理部19により抽出された受信音声信号[相手側]は、第2音声分配部15により2系統分の音声信号に複製される。一方の受信音声信号[相手側]は音声映像同期処理部11に送られる。他方の受信音声信号[相手側]は、第2音声・非音声判定部16に送られる。
ここで、第1音声・非音声判定部13及び第2音声・非音声判定部16における音声判定処理の一例を説明する。この実施形態では、音声認識技術の一部で用いされる隠れマルコフモデルによる音響モデルを採用して、受け取った音声信号に音声が含まれているか否かを判定する場合を例示する。
図2は、実施形態に係る音声判定処理を示すフローチャートである。
第1音声・非音声判定部13、第2音声・非音声判定部16は音声信号(第1音声・非音声判定部13では送信音声信号[会議端末1側]、第2音声・非音声判定部16では受信音声信号[相手側])を受け取ると(S101)、音声信号は所定のAD変換によりデジタル信号に変換される(S102)。なお、S101及びS102は、アナログ信号が入力された場合の処理であるため、デジタル信号が入力されるときには、S101及びS102の処理は省略するようにしても良い。
第1音声・非音声判定部13、第2音声・非音声判定部16は、入力されたデジタル信号を所定の処理単位にするため、所定間隔(例えば20msec等)でフレームに分割する(S103)。そして、フレーム単位の信号に、例えばハミング窓やハニング窓等の時間窓関数を時間軸方向にスライドさせながら乗じて、フレーム分割による高周波数ノイズの低減された音声信号を生成する(S104)。
第1音声・非音声判定部13、第2音声・非音声判定部16は、時間窓関数を乗じたフレーム単位の音声信号をフーリエ変換(一例は離散フーリエ変換)して音声信号のスペクトルを算出し(S105)、フレーム毎の音声信号のスペクトルを用いて、音声の特徴量が抽出される(S106)。なお、音声の特徴量の抽出方法は、種々の方法を適用しても良いが、この実施形態では、メル周波数ケプラトラム(MFCC)値に基づいて、音声の特徴量を指標する。より具体的には、フレーム毎の音声信号のスペクトルに対して、例えばメルスケール帯域フィルタ等を掛けて、周波数帯域毎の周波数成分のパワーを算出する。各周波数成分のパワーの対数値を算出し、離散コサイン変換を行うことにより、メル周波数ケプラトラム係数(MFCC)を得る。
ここで、音声区間又は非音声区間を判断するためには、音源の周波数ではなく、口の形を示すものが、周波数成分のパワーの包絡線で示される。これは声道のパラメータと呼ばれる数値で表現される。声道のパラメータは、例えば、男性と女性、若年者と年配者、個人等により多種多様にある。しかし、これら多様性を消し去り、指標化する必要がある。この指標の代表的な方法として、MFCCがあり、MFCCの方式で数値化を行う。この実施形態においてMFCCを利用する理由は、発生された音声に対して、似たような数値になるという特性を利用するためである。また、音素データに対してMFCC値がどのような値になるかについては、既に数多くのサンプルから計算されたデータがある。そのため、音素データベース17に多数の音素データを保持し、第1音声・非音声判定部13及び第2音声・非音声判定部16が音素データベース17を参照する。
第1音声・非音声判定部13、第2音声・非音声判定部16は、フレーム毎に得られた音声特徴量(例えば、MFCC値)と、音素データベース17に格納される音素データとを照合する(S107)。そうすると、例えば、図3(出典:安藤章悟、小黒怜著、「ラズベリー・パイでトライ!音声認識<第6回> 認識処理に使う重要データ!音声特徴量MFCCを求める」、Inteface 2014年4月号、CQ出版株式会社、第40巻第4号通巻442号、平成26年4月1日発行、150頁、図11)に例示するような、受け取った音声信号「おはよー」に対応する音素「o」、「h」、「a」、「y」、「o」を得ることができる。
音素データベース17の音素データとのマッチングにより、音声があると検出されると(S108)、第1音声・非音声判定部13、第2音声・非音声判定部16は、音声検出区間とする音声判定結果を同期制御部14に出力する。また、音声がないと判定されると(S109)、第1音声・非音声判定部13、第2音声・非音声判定部16は、音声非検出区間とする音声判定結果を同期制御部14に送る(S110)。
音声認識を行う場合は、断片化したフレーム単位でMFCC値をそのまま音素に割り当てると言葉以上の音になる。しかし、音声・非音声の検出ができれば、十分な場合、この断片化した音素が検出された状態と、検出できない状態でその判断を行うようにしても良い。
また、第1音声・非音声判定部13、第2音声・非音声判定部16は、会議端末1側、相手側における会議参加者が言葉を発している状態か否かを判断することを意図する。つまり、会議端末1に接続する音声入力装置2及び相手側端末で受け取った音声信号からの受信音声信号処理部19は、会議参加者の音声以外の音や雑音等も捕捉するが、第1音声・非音声判定部13、第2音声・非音声判定部16は、会議における議論の状態が、例えば相互に発言し合っている等の状態か、又は、一方の会議参加者がプレゼンテーションや説明等のように、一方向に向かって発言し、他の会議参加者がその発言を聞いている等のような状態かを判断している。ここでは、その一例として、第1音声・非音声判定部13、第2音声・非音声判定部16が、音声判定処理を使用して、送信音声信号[会議端末1側]、受信音声信号[相手側]に音素が含まれているか否かを判定している。
そのため、第1音声・非音声判定部13、第2音声・非音声判定部16は、受け取った音声信号に含まれている音声がどの音素であるか等の処理は必要ではなく、入力された音声信号に、雑音や非音声ではなく、言葉としての音素が含まれているか否かを判定することができればよい。従って、ここでは、図3の例のように入力された音声信号に対する音素を得る場合を例示するが、フレーム毎の音声信号において音素を検出した時点で、第1音声・非音声判定部13、第2音声・非音声判定部16は、音声有りとする音声判定結果を出力するようにしても良い。又例えば、第1音声・非音声判定部13、第2音声・非音声判定部16は、受け取った音声信号の時系列における所定時間だけ音声判定処理を行ない、音声区間の有無を判定するようにしても良い。
次に、同期制御部14は、第1音声・非音声判定部13及び第2の音声・非音声判定部16からの音声判定結果に基づいて、相手側及び会議端末1側の間の音声・非音声の状態を判定し、音声映像同期処理部11に対して音声映像同期処理を行うタイミングと行なわないタイミングを指示する。
より具体的には、同期制御部14は、送信音声信号[会議端末1側]に関わる送信系統の音声検出区間と、受信音声信号[相手側]に関わる受信系統の音声検出区間と、送受信の双方の音声非検出区間とに基づいて、音声映像同期処理の有効又は無効の指示を行う。
音声映像の同期を行わないという状況が望まれる時間は、送受信の音声検出区間を同時期に検出するとき(すなわち会議端末1側と相手側の双方で発言が衝突するとき)や、非常に短い時間で送受信される音声検出区間の検出が切り替わるときである。
図4は、実施形態に係る同期制御部14による同期制御処理の動作を示す状態遷移図である。
図4に示すように、同期制御部14が管理すべき状態は、同期制御有効状態141、同期制御無効状態142、同期制御復帰待ち状態143の3つである。
これら同期制御有効状態141、同期制御無効状態142、同期制御復帰待ち状態143の遷移状態を発生させるイベントは、送信系統の音声検出を示す「TX音声(ON)」、送信系統の音声非検出を示す「TX音声(OFF)」、送信系統の音声非検出の継続時間のタイムアウトを示す「TX非音声Timeout」、受信系統の音声検出を示す「RX音声(ON)」、受信系統の音声非検出を示す「RX音声(OFF)」、受信系統の音声非検出の継続時間のタイムアウトを示す「RX非音声Timeout」の6つである。
同期制御有効状態141について説明する。「TX音声(ON)」のとき、RX音声状態を判断し(S201)、「RX音声(OFF)」であれば、同期制御有効状態141に遷移する。また、「RX音声(ON)」のとき、TX音声状態を判断し(S202)、「TX音声(OFF)」であれば、同期制御有効状態141に遷移する。さらに、「TX音声(OFF)」、「RX音声(OFF)」のいずれかのとき、同期制御有効状態141に遷移する。
なお、後述するが、同期制御無効状態142又は同期制御復帰待ち状態143から、同期制御有効状態141への遷移のトリガは、「RX非音声TimerTimeout」のときとする。
次に、同期制御無効状態142について説明する。同期制御有効状態141において、「TX音声(ON)」イベントが発生したとき、RX音声状態を判断し(S201)、「RX音声(ON)」であれば、同期制御無効状態142に遷移する。また、同期制御有効状態141において、「RX音声(ON)」イベントが発生したとき、TX音声状態を判断し(S202)、「TX音声(ON)」であれば、同期制御無効状態142に遷移する。これは、送受信系統の双方で音声検出区間が重複(音声が衝突)している状態を意図している。
つまり、同期制御有効状態141から同期制御無効状態142へのトリガは、送信系統及び受信系統の音声検出区間が一部で重複している場合に遷移する。
同期制御無効状態142への遷移後、「RX音声(OFF)」イベントが発生すると、同期制御部14は、受信系統の音声非検出区間のTimeOut時間を計時するため「RX非音声TimerStart」する(S203)。受信系統の音声非検出区間のTimeOut時間計時後、「RX音声(ON)」となるとTimeOut時間を停止するため「RX非音声TimerStop」とする(S204)。「RX非音声TimerTimeOut」となると(S205)、S209に移行する。S209では、「RX非音声TimerTimeOut」となり(S205)、「TX非音声TimerStop」すると、同期制御有効状態141に遷移する。
また、同期制御無効状態142への遷移後、「TX音声(OFF)」イベントが発生すると、同期制御部14は、送信系統の音声非検出区間のTimeOut時間を計時するため「TX非音声TimerStart」する(S206)。送信系統の音声非検出区間のTimeOut時間計時後、「TX音声(ON)」となるとTimeOut時間を停止するため「TX非音声TimerStop」する(S207)。
又「TX非音声TimerTimeOut」となると(S208)、同期制御復帰待ち状態143に遷移する。
S203〜S208は、送信系統及び受信系統のいずれか又は双方において一時的な短い期間で音声が非検出となった状態であるか、又は、送信系統若しくは受信系統のいずれかで、所定のタイムアウト時間以上で音声が非検出となった状態であるかを判断している。つまり、会議において、会議端末1側及び相手側の会議参加者の間で相互に発言された状態であるか、又は、会議端末1側若しくは相手側の一方の会議参加者のみが発言をし、他方が発言していない状態であるかを判断する。
また、S209は、所定のTimeOut時間を超えて相手側の会議参加者の発言がなくなった後、同期制御有効状態141に遷移する。
次に、同期制御復帰待ち状態143について説明する。「TX非音声TimerTimeOut」となり(S208)、「RX音声(OFF)」イベントが発生すると、受信系統の音声非検出区間のTimeOut時間を計時するため「RX非音声TimerStart」する(S210)。受信系統の音声非検出区間のTimeOut時間計時後、「RX音声(ON)」イベントが発生するとTimeOut時間を停止するため「RX非音声TimerStop」とする(S211)。このとき、送信系統及び受信系統で音声が重複している状態であるため、同期制御有効状態141に遷移するのではなく、同期制御復帰待ち状態143を維持する。また、「RX非音声TimerTimeOut」となると(S212)、送信系統及び受信系統ともに音声非検出区間となるため、同期制御有効状態141に遷移する。
また、「TX非音声TimerTimeOut」となり(S208)、「TX音声(ON)」イベントが発生すると、同期制御無効状態142に遷移する。
ここで、同期制御無効状態142、同期制御復帰待ち状態143における非音声TimeOut検出に係るTimeOut時間の設定を説明する。
まず、同期制御復帰待ち状態143から同期制御有効状態141に遷移して、音声映像同期処理を再開するタイミングは、送信系統と受信系統の相互の音声検出区間が重複しないことが絶対条件である。
それに加えて、音声映像同期処理による遅延時間を遅らせても、送信系統と受信系統との相互の音声検出区間が重複しないことを考慮する。また、ネットワークを介して相互に会話を行うことから、信号の往復遅延時間も考慮する。さらに、映像を見ている会議参加者のアクション(発話)に反応するまでの人の応答時間(例えば、300msec)を考慮する。
上記の点を考慮して、非音声TimeOut時間を以下のように設定できる。
非音声TimeOut時間(msec)=システム遅延時間(msec)+人の反応遅延時間(msec)…(1)
非音声TimeOut時間(msec)=システム遅延時間(msec)+人の反応遅延時間(msec)…(1)
なお、システム遅延時間は、会議システムに係る遅延時間である。より具体的には、上述したように音声映像同期処理に係る遅延時間と、信号の往復遅延時間とを含む。従って、(1)式は(2)式のように変換できる。
非音声TimeOut時間(msec)=リップシンク遅延(msec)+ネットワーク往復遅延(msec)+人の反応遅延(msec)…(2)
非音声TimeOut時間(msec)=リップシンク遅延(msec)+ネットワーク往復遅延(msec)+人の反応遅延(msec)…(2)
上記TimeOut時間を用いることで、同期制御無効状態142から同期制御有効状態141への遷移を管理することで、相互の会話が一段落したタイミングを待つことで、音声映像同期処理のON/OFFの頻繁な切り替えによる不自然さを軽減できる。
図5〜図7は、実施形態に係る同期制御部14による同期制御処理を示すタイミングチャートである。
図5(A)〜図7(A)は、送信音声信号[会議端末1側]に関わる送信系統である第1音声・非音声判定部13の出力タイミングを示し、図5(B)〜図7(B)は、受信音声信号[相手側]に関わる受信系統である第2音声・非音声判定部16の出力タイミングを示し、図5(C)〜図7(C)は、同期制御部14の出力タイミングを示す。なお、図5〜図7の横軸は時間を示しており、タイミングの説明のために便宜的に数字を付与している。
図5は、送信系統及び受信系統の音声検出区間が重複しない場合のタイミングチャートである。つまり、会議端末1側及び相手側の会議参加者の発言が衝突しない場合である。
図5(A)及び図5(B)に示すように、第1音声・非音声判定部13により検出された音声検出区間と、第2音声・非音声判定部16により検出された音声検出区間とは、時間的に重複していない。このような場合、同期制御部14は、音声映像同期処理を無効とする指示を行なわない。この例の場合、会議端末1側と相手側との間である程度の時間間隔を持って発言がなされていると考えられているので、同期制御部14は音声映像同期処理を有効とする指示を、音声映像同期処理部11に指示する。
図6は、送信系統及び受信系統の音声検出区間が一部で重複する場合のタイミングチャートである。図6は、図4のS205→S209に移行して、同期制御有効状態141に遷移する動作のタイミングチャートである。
図6(A)及び図6(B)に示すように、第1音声・非音声判定部13の音声検出区間と、第2音声・非音声判定部16の音声検出区間とが、時間的に一部重複している。このような場合、同期制御部14は、以下の特定条件1に従って、音声映像同期処理を無効とする指示を維持する。
ここで、特定条件とは、同期制御部14が音声映像同期処理を無効とする指示を維持する条件である。
図6の場合、特定条件1は、送受信の音声検出区間の一部で重複が生じた時点を無効指示開始とし、送受信の双方が非音声区間に遷移した後、次の受信音声が検出された時点を無効指示終了とする。
図6の例の場合、「時間情報:3.5」の時点で、送受信の音声検出区間が重複しているため、この時点で、同期制御部14は音声映像同期処理の無効指示を開始する。「時間情報:10」の時点で、受信系統が音声非検出となり、「時間情報:10.7」付近の時点で、送信系統が音声非検出となり、「時間情報:11.0」付近の時点で、受信系統の音声非検出が非音声TimeOut時間を超える。このとき、同期制御部14は音声映像同期処理の無効を維持し、「時間情報:11.9」付近の時点で、同期制御部14は音声映像同期処理を有効に切り替える。
なお、例えば「時間情報:5.5」から「時間情報:5.9」まで等のように、受信系統の音声検出区間がなく、送信系統のみの音声検出区間となるが、この場合、受信系統の音声非検出が非音声TimeOut時間を超えていないので、同期制御部14は、特定条件1に従って、音声映像同期処理の無効指示を維持する。また、「時間情報:5.5」から「時間情報:5.8」付近まで等のように、送信系統の音声検出区間のみとなるが、この場合も、送信系統の音声非検出が非音声TimeOut時間を超えていないので、同期制御部14は、特定条件1に従って、音声映像同期処理の無効指示を維持する。
図7は、送信系統及び受信系統の音声検出区間が一部で重複する場合のタイミングチャートである。図7は、図4のS208→S210→S212に移行して、同期制御有効状態141に遷移する動作のタイミングチャートである。
図7(A)及び図7(B)に示すように、第1音声・非音声判定部13の音声検出区間と、第2音声・非音声判定部16の音声検出区間とが、時間的に一部重複している。このような場合、同期制御部14は、以下の特定条件2に従って、音声映像同期処理を無効とする指示を維持する。
図7の場合、特定条件2は、送受信の音声検出区間の一部で重複が生じた時点を無効指示開始とし、送信系統の音声非検出が非音声TimeOut時間を超えた上、受信系統の音声非検出が非音声TimeOut時間を超え、送信系統が音声検出のとき、次の受信音声が検出された時点を無効指示終了とする。
図7の例の場合、「時間情報:3.5」の時点で、送受信の音声検出区間が重複しているため、この時点で、同期制御部14は音声映像同期処理の無効指示を開始する。「時間情報:8.5」付近の時点で、送信系統の音声が非検出となり、「時間情報:9.5」付近の時点で送信系統の音声が非音声TimeOut時間を超えた状態であり、「時間情報:10.7」付近の時点で、受信系統の音声が非検出となり、「時間情報:10.9」付近の時点で受信系統の音声が非音声TimeOut時間を超えた状態となる。その後、受信系統で音声検出されるまで、同期制御部14は音声映像同期処理の無効を維持し、「時間情報:11.1」付近で、音声映像同期処理を有効に切り替える。ここで、同期制御復帰待ち状態143における受信系統の音声に関する非音声TimeOut時間は、会議端末1側の会議参加者が話さない状態の上で相手側の会議参加者が一度話さなくなったことを検出できればよいので、同期制御無効状態142における受信系統の音声に関する非音声TimeOut時間より短い時間としている。
なお、この場合も、例えば「時間情報:4」から「時間情報:4.5」まで等のように、送信系統の音声検出区間がなく、受信系統のみの音声検出区間となるが、この場合、送信系統の音声非検出が非音声TimeOut時間を超えていないので、同期制御部14は、音声映像同期処理の無効指示を維持する。また、「時間情報:5.5」から「時間情報:5.8」付近まで等のように、送信系統の音声検出区間のみとなるが、この場合も、受信系統の音声非検出が非音声TimeOut時間を超えていないので、同期制御部14は、音声映像同期処理の無効指示を維持する。
(A−3)実施形態の効果
以上のように、実施形態によれば、互いの会話が衝突することを検出し、よりリアルタイム性が必要である状態を認識する。これにより、会議中でも、音声信号と映像信号との間で同期させるリップクリップ機能を一時的に抑制し、相互の音声の遅延を最小限にして出力できる。従って、多くの会議参加者がほぼ同時に発言するような場合には、通常の会話状態のような感覚で行うことができる。
以上のように、実施形態によれば、互いの会話が衝突することを検出し、よりリアルタイム性が必要である状態を認識する。これにより、会議中でも、音声信号と映像信号との間で同期させるリップクリップ機能を一時的に抑制し、相互の音声の遅延を最小限にして出力できる。従って、多くの会議参加者がほぼ同時に発言するような場合には、通常の会話状態のような感覚で行うことができる。
また、実施形態によれば、音声映像同期処理(リップシンク)を無効にした後に、同期制御復帰待ち状態の特定条件に従ったタイミングで同期を再開する。これにより、リップシンクの連続的な切り替えを防止や、不自然な切り替えを防止できる。
さらに、互いの音声状態を認識しただけでは、頻繁にリップシンクの有効/無効が切り替わり、リップシンクを有効にする際に発生する遅延が通話に違和感を与えかねない。しかし、実施形態によれば、タイミング制御を行うことで、違和感を抑えてリップシンク有効状態に遷移させることができる。
また、実施形態によれば、リップシンクに復帰させても違和感を与えないタイミングは、非音声である時間が、リップシンクに必要な遅延時間より長く続いているときである。その状態後に、リップシンク遅延時間を待たせて音声信号と映像信号との間で同期をとることで、次の音声信号のタイミングで映像信号に同期することになる。その結果、映像を見ている人は、スムーズに映像をみることができる。
(B)他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の実施形態にも適用できる。
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の実施形態にも適用できる。
(B−1)上述した実施形態では、会議システムに用いられる会議端末に適用する場合を例示した。しかし、会議に限定されず、例えば、1対1で通話するテレビ電話端末に適用するようにしても良い。また、2地点、3地点以上の会議システムに用いられるテレビ端末にも適用できる。3地点以上の多地点会議システムにおいても、3地点以上の場所で収音した音声信号及び撮像した映像信号を受信することになる。しかし、本発明によれば、会議端末における送信系統と受信系統の音声検出に基づいて、音声映像同期処理(リップシンク機能)を有効とするか又は無効とするかの制御を行なうものであるため、3地点以上の多地点会議システムにも適用できる。
(B−2)上述した実施形態では、相手側会議端末で取得された相手側会議参加者を撮影した映像信号[相手側]と、当該相手側会議参加者が発話した音声信号[相手側]との間の同期を制御する場合を例示した。しかし、例えば、プレゼンテーション等でミュージッククリップやムービークリップ等の動画を通信するような場合でも、会議端末においてネットワークを介して受信された映像信号と音声信号との間の同期を制御するようにしても良い。
1…会議端末、2…音声入力装置、3…音声出力装置、4…映像出力装置、10…音声映像同期制御部、11…音声映像同期処理部、12…第1音声分配部、13…第1音声・非音声判定部、14…同期制御部、15…第2音声分配部、16…第2音声・非音声判定部、17…音素データベース、18…送信音声信号処理部、19…受信音声信号処理部、20…受信映像信号処理部。
Claims (8)
- 受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理手段と、
送信音声信号における音声検出区間又は音声非検出区間を判定する第1音声判定手段と、
上記受信音声信号における音声検出区間又は音声非検出区間を判定する第2音声判定手段と、
上記第1音声検出手段及び上記第2音声検出手段による音声検出結果に応じて、上記音声映像同期処理手段による同期を動的に制御する同期制御手段と
を備えることを特徴とする音声映像同期処理装置。 - 上記同期制御手段が、上記送信音声信号の音声検出区間と、上記受信音声信号の音声検出区間との非重複のときに、上記同期を有効にすることを特徴とする請求項1に記載の音声映像同期処理装置。
- 上記同期制御手段が、上記送信音声信号の音声検出区間と上記受信音声信号の音声検出区間との重複区間で、上記同期を無効にすることを特徴とする請求項1に記載の音声映像同期処理装置。
- 上記同期制御手段が、上記送信音声信号の音声検出区間と上記受信音声信号の音声検出区間との重複時点で上記同期を無効にし、所定の有効復帰条件に従って、上記同期を有効にすることを特徴とする請求項1に記載の音声映像同期処理装置。
- 上記同期制御手段は、
上記受信音声信号の音声非検出区間長が所定時間を経過しているときに、次の受信音声信号の音声検出時に上記同期を有効にすること
または、上記送信音声信号の音声非検出区間長が所定時間を経過しているときであり、上記受信音声信号の音声非検出区間長が所定時間を経過しているときに、次の受信音声信号の音声検出時に上記同期を有効にすること
を特徴とする請求項4に記載の音声映像同期処理装置。 - 映像信号及び音声信号を含むメディア情報を授受して、映像及び音声を出力する端末において、
請求項1〜5のいずれかに記載の音声映像同期処理装置を備えることを特徴とする端末。 - 音声映像同期処理装置の音声映像同期処理方法であって、
上記音声映像同期処理装置は、
受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理ステップと、
送信音声信号における音声検出区間又は音声非検出区間を判定する第1音声判定ステップと、
上記受信音声信号における音声検出区間又は音声非検出区間を判定する第2音声判定ステップと、
上記第1音声検出手段及び上記第2音声検出手段による音声検出結果に応じて、上記音声映像同期処理手段による同期を動的に制御する同期制御ステップと
を備えることを特徴とする音声映像同期処理方法。 - コンピュータを、
受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理手段と、
送信音声信号における音声検出区間又は音声非検出区間を判定する第1音声判定手段と、
上記受信音声信号における音声検出区間又は音声非検出区間を判定する第2音声判定手段と、
上記第1音声検出手段及び上記第2音声検出手段による音声検出結果に応じて、上記音声映像同期処理手段による同期を動的に制御する同期制御手段と
して機能させることを特徴とする音声映像同期処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015168177A JP2017046235A (ja) | 2015-08-27 | 2015-08-27 | 音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015168177A JP2017046235A (ja) | 2015-08-27 | 2015-08-27 | 音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017046235A true JP2017046235A (ja) | 2017-03-02 |
Family
ID=58210528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015168177A Pending JP2017046235A (ja) | 2015-08-27 | 2015-08-27 | 音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017046235A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022269788A1 (ja) * | 2021-06-23 | 2022-12-29 | 日本電信電話株式会社 | 伝送システム、送信システム、受信システム及び伝送方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6318788A (ja) * | 1986-07-09 | 1988-01-26 | Fujitsu Ltd | テレビ会議システムにおける音声遅延制御方式 |
JPH0879252A (ja) * | 1994-08-30 | 1996-03-22 | Toshiba Corp | 通信システム及び受信装置 |
JPH08317362A (ja) * | 1995-05-22 | 1996-11-29 | Nec Eng Ltd | テレビ会議システムの端末装置 |
JP2000124809A (ja) * | 1998-10-13 | 2000-04-28 | Canon Inc | 情報処理装置、情報処理システム、情報処理方法及び記憶媒体 |
US20050237378A1 (en) * | 2004-04-27 | 2005-10-27 | Rodman Jeffrey C | Method and apparatus for inserting variable audio delay to minimize latency in video conferencing |
JP2009294537A (ja) * | 2008-06-06 | 2009-12-17 | Raytron:Kk | 音声区間検出装置および音声区間検出方法 |
JP2012217172A (ja) * | 2011-03-31 | 2012-11-08 | Jvc Kenwood Corp | 音声入力装置、通信装置、及び音声入力装置の動作方法 |
-
2015
- 2015-08-27 JP JP2015168177A patent/JP2017046235A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6318788A (ja) * | 1986-07-09 | 1988-01-26 | Fujitsu Ltd | テレビ会議システムにおける音声遅延制御方式 |
JPH0879252A (ja) * | 1994-08-30 | 1996-03-22 | Toshiba Corp | 通信システム及び受信装置 |
JPH08317362A (ja) * | 1995-05-22 | 1996-11-29 | Nec Eng Ltd | テレビ会議システムの端末装置 |
JP2000124809A (ja) * | 1998-10-13 | 2000-04-28 | Canon Inc | 情報処理装置、情報処理システム、情報処理方法及び記憶媒体 |
US20050237378A1 (en) * | 2004-04-27 | 2005-10-27 | Rodman Jeffrey C | Method and apparatus for inserting variable audio delay to minimize latency in video conferencing |
JP2009294537A (ja) * | 2008-06-06 | 2009-12-17 | Raytron:Kk | 音声区間検出装置および音声区間検出方法 |
JP2012217172A (ja) * | 2011-03-31 | 2012-11-08 | Jvc Kenwood Corp | 音声入力装置、通信装置、及び音声入力装置の動作方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022269788A1 (ja) * | 2021-06-23 | 2022-12-29 | 日本電信電話株式会社 | 伝送システム、送信システム、受信システム及び伝送方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631415B2 (en) | Methods for a voice processing system | |
US9894213B2 (en) | Acoustic echo cancellation for audio system with bring your own devices (BYOD) | |
JP5857674B2 (ja) | 画像処理装置、及び画像処理システム | |
CN105513596B (zh) | 一种语音控制方法和控制设备 | |
JP2022532313A (ja) | 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力 | |
CN110012331B (zh) | 一种红外触发的远场双麦远场语音识别方法 | |
US8731940B2 (en) | Method of controlling a system and signal processing system | |
JP2015060332A (ja) | 音声翻訳装置、音声翻訳方法およびプログラム | |
JP2007290691A (ja) | 車両通信システム | |
US11405584B1 (en) | Smart audio muting in a videoconferencing system | |
USRE49462E1 (en) | Adaptive noise cancellation for multiple audio endpoints in a shared space | |
JP5526134B2 (ja) | 周辺電話技術システムにおける会話検出 | |
US9478233B2 (en) | Speech fragment detection for management of interaction in a remote conference | |
US9532138B1 (en) | Systems and methods for suppressing audio noise in a communication system | |
JP2000175170A (ja) | 多地点テレビ会議システム及びその通信方法 | |
JP2017118364A (ja) | コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
JP2017046235A (ja) | 音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム | |
JP4402644B2 (ja) | 発話抑制装置、発話抑制方法および発話抑制装置のプログラム | |
JP5120020B2 (ja) | 画像付音声通信システム、画像付音声通信方法およびプログラム | |
JP6569853B2 (ja) | 指向性制御システム及び音声出力制御方法 | |
TWI548278B (zh) | 音視訊同步控制設備及方法 | |
KR101892268B1 (ko) | 영상 회의 시 단말기를 제어하기 위한 방법, 장치 및 기록 매체 | |
CN109743525A (zh) | 一种数据采集方法及装置 | |
JP2020053882A (ja) | コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190709 |