JP2016506670A - アクティブ話者検出のためのビデオ及びオーディオタグ付け - Google Patents

アクティブ話者検出のためのビデオ及びオーディオタグ付け Download PDF

Info

Publication number
JP2016506670A
JP2016506670A JP2015549731A JP2015549731A JP2016506670A JP 2016506670 A JP2016506670 A JP 2016506670A JP 2015549731 A JP2015549731 A JP 2015549731A JP 2015549731 A JP2015549731 A JP 2015549731A JP 2016506670 A JP2016506670 A JP 2016506670A
Authority
JP
Japan
Prior art keywords
video
tag
signal
audio
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015549731A
Other languages
English (en)
Other versions
JP6321033B2 (ja
JP2016506670A5 (ja
Inventor
ジョージ ヴァーゼイン,ウィリアム
ジョージ ヴァーゼイン,ウィリアム
レオリン,シモーヌ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2016506670A publication Critical patent/JP2016506670A/ja
Publication of JP2016506670A5 publication Critical patent/JP2016506670A5/ja
Application granted granted Critical
Publication of JP6321033B2 publication Critical patent/JP6321033B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Burglar Alarm Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

接続されるリモート信号からのオーディオ又はビデオをピックアップするマイクロフォン又はカメラを誤って選択することを回避しつつ、アクティブな話者を選択するよう構成される、ビデオ会議システムを説明する。オーディオ信号が閾値レベルを超えるかどうかの判断を行う。オーディオ信号が閾値レベルを超える場合、オーディオ信号内にタグが存在するかどうかの判断を行う。オーディオ信号内にタグが存在する場合、その信号を無視する。オーディオ信号内にタグが存在しない場合、オーディオ信号によって特定される音源の方にカメラを向ける。カメラからのビデオ信号内にタグが存在するかどうかの判断を行う。ビデオ信号内にタグが存在する場合はカメラを向け直す。ビデオ信号内にタグが存在しない場合は、オーディオ信号及び/又はビデオ信号内にローカルタグを挿入する。タグ付けされた信号を伝送する。したがって、システムは、別のビデオ会議システムからの組み込みタグを有するサウンド又はビデオを無視することになる。

Description

ビデオ会議が広まってきており、多くのオフィスには、ビデオ会議セッションのために特別に構成された部屋がある。そのような部屋は、典型的に、1つ又は複数の移動可能なカメラ及び1つ又は複数のマイクロフォンといったビデオ会議用の装置を含んでおり、この場合、マイクロフォンは典型的に、参加者のために、その部屋の中のテーブルの周囲の場所に置かれている。しばしば、アクティブ話者検出(ASD:Active Speaker Detection)を使用して、部屋の中で話している人を表示するようカメラを選択するかカメラを移動(パン及び/又は傾ける)させ、かつ/又はアクティブにするマイクロフォンを選択する。リモートの人が話しているとき、そのイメージ及び/サウンドは、テレビジョン(TV)、モニタ又は他のタイプのディスプレイといった、部屋の中のオーディオ・ビデオディスプレイに現れることがある。これは、ASDに、直前に話している又は話していたローカルの人を選択させる代わりに、TV上で話しているリモートの人のイメージを誤って選択させる可能性がある。
また、マルチロケーションのビデオ会議セッションにおいて、単一のビデオ会議セッション内に3つ又それ以上の別個の場所がある場合は、典型的に、幾つかのパネルが表示されることになる。この場合、1つのパネルが他のパネルより大きく、かつ話している人を表示し、他のパネルは他の場所のカメラからのピクチャを表示する。上述のように、誤ったASDが起こると、話している人がいる部屋の中の装置は、その人がその場所で話していることを示し、したがってそのカメラからのものをメインディスプレイとすべきことを示す信号を、他の場所にある装置に送信することになる。これが起こると、より大きなパネルが、実際に話している人の表示から、TV画面のピクチャ又は空席の表示へと切り替わることがある。したがって、ASDによる問題は、リモートのビデオ会議システムからのサウンドが反響するか、ASDをトリガするほどに大きい音である場合、リモートサウンドがリモートシステムに戻るよう再伝送されるか、かつ/又はローカルカメラが空席に、又はリモートのビデオ会議場所を表示するディスプレイ画面に焦点を合わせるようになることである。
そのような誤ったASD選択をなくすために用いられている1つの技術は、TV上の画像走査線のトレースを見つけて(spot)、ローカルの人ではなくTVから生じるサウンドを決定することである。しかしながら、高精細度TV(HDTV)は、高プログレッシブ(240Hz又は更に良好な)走査レート及びカメラと同程度の画像解像度を有し、このため、画像走査線のトレースは、HDTVが関与するときの使用を限定される。加えて、ASDはしばしば、部屋の周囲にサウンドがエコーするという問題を有する可能性がある。窓やガラスで覆われた絵画といった音響反射面が、TVからのサウンドを、そのサウンドが(そのテーブルの場所には実際には座っている人がいないとしても)テーブルにいるローカルの人から発せられたものであるように、反射することがある。さらに、ビデオ会議の記録(録音)が行われる場合、その記録に対して例えば少なくともビデオ会議の日付で適切にラベルを付けるよう思い出すことは、人に依存する。これはしばしば忘れられて後に行われ、ときどき誤りがあるか不完全なラベルであることがある。これらの考慮事項及び他の事項に関して、本明細書における開示が提示される。
接続されるリモート信号からのオーディオ又はビデオをピックアップしているマイクロフォン又はカメラを誤って選択することを回避しつつ、アクティブな話者を選択するビデオ会議システムのための技術を本明細書で説明する。一実装では、タグが、出力のオーディオ及び/ビデオ信号に追加される、マイクロフォンが、リモートシステムからのタグを含むサウンドをピックアップした場合、このサウンドは無視され、ASDは実装されない。サウンドがリモートのタグを含まない場合、次いでローカルのカメラからのビデオを検査する。リモートタグを含む場合、ASDは実装されない。リモートタグがいずれの信号にも存在しない場合、ASDが実装される。
本明細書で提示される一実装によると、ビデオ会議システムのためのトランスミッタシステムは、オーディオタグ又はビデオタグのうちの少なくとも一方を生成するタグジェネレータと;(i)受け取ったオーディオ信号にオーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は(ii)受け取ったビデオ信号にビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を行う結合器と;(i)タグ付けされたオーディオ信号と受け取ったビデオ信号、(ii)受け取ったオーディオ信号とタグ付けされたビデオ信号、又は(iii)タグ付けされたオーディオ信号とタグ付けされたビデオ信号を伝送するトランスミッタと;を有する。リモートビデオ会議システムはその後、組み込まれたタグを使用して、ローカルのサウンドとピクチャを、リモートのサウンドとピクチャから区別することができる。
ビデオ会議システムを作動させる方法は、オーディオ信号を受け取るステップと;ビデオ信号を受け取るステップと;オーディオタグ又はビデオタグのうちの少なくとも一方を生成するステップと;(i)オーディオ信号にオーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は(ii)ビデオ信号にビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を行うステップと;(i)タグ付けされたオーディオ信号とビデオ信号、(ii)オーディオ信号とタグ付けされたビデオ信号、又は(iii)タグ付けされたオーディオ信号とタグ付けされたビデオ信号を伝送するステップと;を含む。
コンピュータ記憶媒体は、コンピュータ実行可能命令を有する。これらの命令は、コンピュータに、オーディオタグ又はビデオタグのうちの少なくとも一方を生成させ;(i)受け取ったオーディオ信号にオーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は(ii)受け取ったビデオ信号にビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を実行させ;(i)タグ付けされたオーディオ信号と受け取ったビデオ信号、(ii)受け取ったオーディオ信号とタグ付けされたビデオ信号、又は(iii)タグ付けされたオーディオ信号とタグ付けされたビデオ信号、を伝送させる。
上述の主題は、コンピュータ制御される装置、コンピュータプロセス、コンピュータシステムとして、あるいはコンピュータ読取可能媒体といった製品として実装されてもよいことを認識されたい。これら及び様々な他の特徴は、以下の「発明を実施するための形態」を読むこと及び関連する図面の検討から明らかになるであろう。
この「発明の概要」における記載は、以下で「発明を実施するための形態」において更に説明される概念の選択を簡略化した形で紹介するために提供される。この「発明の概要」における記載は、特許請求に係る主題の主要な特徴又は本質的特徴を特定するようには意図されておらず、また特許請求に係る主題の範囲を限定するのに使用されるようにも意図されていない。さらに、特許請求に係る主題は、本開示の任意の箇所で示される欠点のいずれか又は全てを解決する実装に限定されない。
ビデオ会議システムのトランスミッタシステムの例示の構成である。 例示のビデオ会議システム環境を示す図である。 例示のタグ検出及びカメラとマイクロフォン制御技術を示すフローチャートである。 例示の情報記録技術のフローチャートである。 本明細書で提示される実施形態の態様を実装することができるコンピュータシステムの例示のコンピュータハードウェア及びソフトウェアのアーキテクチャを示すコンピュータアーキテクチャの図である。
以下の説明は、接続されるリモート信号からのオーディオ又はビデオをピックアップしているマイクロフォン又はカメラを誤って選択することを回避しつつ、アクティブな話者を正しく選択することが可能なビデオ会議のための技術を対象とする。以下の詳細な説明では、説明の一部を成す添付の図面を参照するが、これらの図面は具体的な実施形態又は例として示されている。ここでは、同様の符号が幾つかの図面を通して同様の要素を表している図面を参照して、ビデオ会議のためのコンピューティングシステム及び方法の態様を説明する。
図1は、ビデオ会議システム100のトランスミッタシステム105の例示の構成である。トランスミッタシステム105は、カメラ及びマイクロフォン選択制御システム120と、ビデオタグジェネレータ125と、ビデオ出力信号135を提供するビデオ信号結合器(combiner)130と、オーディオタグジェネレータ140と、オーディオ出力信号150を提供するオーディオ信号結合器145とを有する。ビデオ及びオーディオ出力信号は、トランスミッタ155によってブロードキャスト又は伝送され得る。制御システム120も、リモートシステム用に意図された信号を送信することがあり、これは複数のパネルを使用して複数の場所を表示している場合に大きなパネルを与えるべきアクティブな話者を有することを通知する。トランスミッタ155は、任意の便利な手段を使用して、ビデオ及びオーディオ出力信号と任意の制御信号を、リモートの場所にある1つ又は複数のレシーバシステム160に送信し得る。トランスミッタシステム105及びレシーバシステム160がそれぞれの位置に存在し、ある場所にあるトランスミッタシステム105及びレシーバシステム160を単一のデバイスに結合してもよいことが認識されよう。
1つ又は複数のカメラ110(110A〜110N)と1つ又は複数のマイクロフォン115(115A〜115N)は、それぞれビデオ信号とオーディオ信号を、トランスミッタシステム105に、より具体的には制御システム120に提供し、制御システム120は、これらの信号を受け取るための入力部を有する。カメラ及びマイクロフォン選択制御システム120は、いずれかのデバイスが複数使用される場合は、どのカメラ110及びどのマイクロフォン115を、ローカルピクチャ及びサウンドを生成するのに使用するかを選択してよく、カメラをそのように制御することができる場合は、選択されたカメラ110のパン、ズーム及び/又は傾き(tilt)を制御してよく、リモートシステムへの伝送用に制御信号又は他の信号を生成してよい。
ビデオタグジェネレータ125及びオーディオタグジェネレータ140は、それぞれビデオ及びオーディオタグを生成する。ビデオ信号結合器130は、ビデオストリーム内のビデオピクセルを操作又は修正してビデオタグを追加し、タグ付けされたビデオ信号135を生成する。オーディオ信号結合器145は、オーディオストリーム内のビットを操作又は修正して、タグ付けされたオーディオ信号150を生成する。これは、信号を「タグ付けすること」又は信号にタグを追加することと見なされてよい。タグジェネレータ125及び140は、単一のデバイス内に具現化されてよく、信号結合器130、145も単一のデバイス内に具現化されてよく、これらのコンポーネントの1つからその全てまで、制御システム120の一部として具現化されてもよい。
ビデオ及び/又はオーディオストリームは、好ましくは、人間にはわからない及び/又は検出不可能であるが、ビデオ又はオーディオストリームのアルゴリズム分析によって検出可能な方法を使用して修正されるか、そのようなレベルまでに修正される。所定のレベル未満の歪みレベルは、典型的な人間の観察者には感知できないことがある。データワード内の最下位ビットを修正することは、タグがワード毎にある場合であっても、一般的に容易に気付かれず、不都合はないであろう。別の例として、ビデオタグをビデオフレーム内のブランク間隔(blanking interval)又はリトレース期間(retrace period)の間に配置すること、あるいはビデオタグを、ディスプレイの下方の角に配置することは、容易に気付かれず、不都合はなことがある。ビデオタグを最上位ビットとして配置することも、フレーム中の単一のピクセルに対するものであれば、容易に気付かれず、不都合がない可能性がある。
ビデオ及び/又はオーディオストリームは、例えば1つ又は複数の最下位ビットを使用することによって、最初のオーディオ又はビデオ信号以外の情報を伝えるように修正されてもよい。そのような修正は、データワード毎に、他のデータワード毎に、N番目のデータワード毎に、Nミリ秒毎に、同期ワード若しくはビットの前後等に行われてよい。例えば適切なデータワードの最後のビット(1つ又は複数)は、常に同じ値、例えば0、1、2、3等を有してもよく、値の間を繰り返してもよく、値の間を進む等してもよい。他の技術を使用して、データワード又はその一部をタグとして特定してもよく、あるいはタグ又はビデオ会議に関連付けられる識別情報として特定してもよい。別の例として、この目的に全体的なデータワードを使用してもよい。例えばオーディオが4000サンプル/秒というレートでサンプリングされる場合、タグ情報を伝えるために限られた数のこれらのワードを使用することは、オーディオの品質を顕著に低下させることはないであろう。ビデオ信号は、ビデオの品質を顕著に低下させることなく、更なる情報を送信する機会をも提供する。
図2は、例示のビデオ会議システム環境200の図である。数人の人205(205A〜205C)がテーブル210の周りに集まっており、テーブル210の上には複数のマイクロフォン115(115A〜115E)が設置されている。リモートの人220を表示するディスプレイ215が存在する。ディスプレイ215はTVであってよい。またスピーカ225も示されている。カメラ及びマイクロフォンに接続されるトランスミッタシステム105と、ディスプレイ及びスピーカに接続されるトランスミッタシステム105が存在する。説明されるように、トランスミッタシステム105とレシーバシステム160は単一のデバイス内に具現化されてもよく(典型的には単一のデバイス内に具現化される)、便利な伝送媒体によって1つ又は複数のリモートのビデオ会議システムに接続される。
人205Bのようなローカルの人が話すと、制御システム120は、マイクロフォン115Bからの信号を検出して、マイクロフォン115Bに切り替えて、人205Bのエリアに以前に向けられていたカメラ110Bに切り替えるかカメラ110Bを人205Bのエリアへ向け、そして、マイクロフォン115Bからのオーディオ信号及びカメラ110Bからのビデオ信号を、可能であれば人205Bをリモートの画面上に目立つように表示すべきであることを指示する信号とともに、リモートの位置に伝送する。本明細書で使用されるとき、カメラを向ける又は向かせることは、所望の位置の所望のピクチャに到達するよう、カメラをパンする、傾ける及び/又はズームすることになる。
ここで、鏡や絵画又は窓といった、音響反射物又は面230が存在する状況を検討する。リモートの話者220が話しており、リモートの話者220の音声がスピーカ225によって室内にブロードキャストされる。リモートの話者220のサウンド235は、反射面230により跳ね返り、マイクロフォン115Dに到達する。制御システム120は、反射された音声235をマイクロフォン115Dで検出し、話している人がマイクロフォン115Dのローカルの人であると誤って決定する。制御システム120は、次いでマイクロフォン115Dに切り替えて、マイクロフォン115Dの近くの何もない空間にカメラ110を向ける。したがって、反射されたサウンド及びエコーは、ビデオ会議セッション中に問題を引き起こし得る。これは、リモートの話者220が話すのをやめるか、誰かがスピーカ225のボリュームを落とすまで繰り返し生じ得る。
そのような誤ったASDアクションをなくすか、少なくとも低減するために、トランスミッタシステム105は、タグをオーディオ信号及び/又はビデオ信号に投入する。ディスプレイ215及びスピーカ225は次いで、その出力においてこれらのタグを再現することになる。ここで、リモートの話者220が話しており、リモートの話者220の音声がスピーカ225によって室内にブロードキャストされる状況を再び検討する。リモートの話者220のサウンド235は、反射面230で跳ね返ってマイクロフォン115Dに到達する。制御システム120は、反射した音声235をマイクロフォン115Dで検出するが、このとき、反射した音声235内のタグも検出する。制御システム120は次いで、このサウンドが、ローカルの話者ではなくリモートの話者からのものであると決定し、したがって反射した音声に対してアクションをとらない。
別のアプローチとして、反射した音声235がマイクロフォン115Dに存在するとき、制御システム120は、代替又は追加として、カメラの出力を検査し得る。ビデオタグが存在する場合、次いで制御システム120は、そのサウンドが、反射されたサウンドであると決定し、反射された音声に対してアクションをとらない。
しかしながら、ローカルの人205Bが話すとき、マイクロフォン115Bはローカルの人205Bの音声を検出するが、オーディオタグは存在しない。制御システム120は次いで正しく、マイクロフォン115Bに切り替えて、カメラ110をローカルの人205Bに向け、ビデオタグは存在しないことになる。したがって、制御システム120は、人205Bが話していると正しく決定して、適切なアクションをとる。何らかの反射されたサウンド235がマイクロフォン115Bに現れることがあることも認識されよう。しかしながら、反射されたサウンド235のボリュームが、ローカルの話者205Bの音声のボリュームよりも非常に小さいものであり、したがって、反射されるタグは、制御システム120によって検出されるには低すぎるレベルであるであろう。すなわち、マイクロフォンからのサウンドがデジタル化されるとき、タグのボリュームは、少なくとも最下位ビットのレベル未満となるであろう。反射されたサウンド235が、他のマイクロフォン115によってピックアップされることもあり得るが、制御システム120は、そのボリュームがマイクロフォン115Bのボリュームよりも小さいか、又はタグが容易に検出可能であるので、これらの他のマイクロフォンを拒否することになる。
一部の状況では、カメラ110に加えて又はこれに代えて、室内の後ろにカメラ240が存在する可能性がある。ここで、リモートの話者220が話しており、スピーカ225によって放出されるサウンドがマイクロフォン115A又は115Eによって受け取られると想定する。従来のシステムでは、受け取られたサウンドが、ローカルの話者として誤って検出され、マイクロフォン115A又は115Eに切り替えられ、カメラ240がその位置へと向けられていたであろう。代わりに、本明細書で使用されるタグを用いると、制御システム120は、マイクロフォン115A又は115Eによってピックアップされるオーディオ信号内のタグを検出し、その音声がローカルの話者のものでないと決定し、マイクロフォン115A又は115Eへの切り替えは行わない。また、制御システム120は、カメラ240をディスプレイ215の方に向けてもよく、ディスプレイ215によって放出されるビデオタグを検出し、次いでカメラ240を元の方向へ又はデフォルトの方向へ戻してもよい。したがって、オーディオ及びビデオタグは、リモートの話者の音声によって生じるカメラ及び/又はマイクロフォンの誤った切り替えを低減すること又はなくすことにより、ビデオ会議の経験を向上させる。
タグは、必要であればビデオ会議の識別情報に使用されてもよい。例えばタグは、会社名、時間、日付、部屋の場所、これに限られないがモデル化に使用されるような伝送設備、製造者、シリアル番号、ソフトウェアバージョン、トレードマーク情報、著作権情報、機密情報、所有情報、使用されるプロトコル又は規格等といった情報を含んでよい。これらの情報を全て送信する必要はなく、所望の情報を全て、一度に、繰り返し又は継続的に送信する必要もない。むしろ、タグをそのようなものとして識別するビットのみが、頻繁に送信されれば、制御システム120がタグをそのようなものとして認識するには十分である。したがって、例えば上述のようにタグとして識別するためのビットのみが、Nデータワード毎に伝送され、他のデータワードは、上述の情報の送信に使用されてもよい。
加えて、タグ内に含まれる情報は、ディスプレイ215によって提示されるピクチャから、又はスピーカ225によって提示されるサウンドから取得される必要はない。むしろ、好ましくは、この情報は、レシーバシステム160によって受信されるビデオ及び/又はオーディオ信号から直接取得される。
データレートは非常に遅い可能性があるが、好ましくは、タグの識別可能な部分が、ASDディレイのヒステリシスの半分未満で繰り返し配信されるのが好ましい。タグの識別可能な部分は、伝送又は室内の雑音の干渉に起因して損失データを提供するように、より頻繁に配信されることがより好ましい。追加の情報の配信の速度は、あまり時間的制約はなく、したがって、より長い時間期間にわたって伝送される可能性がある。
図3は、例示のタグ検出及びカメラとマイクロフォンの制御技術300のフローチャートである。開始305の後、いずれかのオーディオ信号が閾値レベルを超えているかどうかの判断310を行う。閾値レベルを超えていない場合は310へ戻る。閾値レベルを超えている場合、次いで、オーディオ信号内にタグが存在するかどうかの判断315を行う。オーディオ信号内にタグが存在する場合、次いでこのオーディオ信号は無視され(317)、310へと戻ることになる。オーディオ信号内にタグが存在しない場合、次いでカメラが、そのオーディオ信号によって識別される音源の方に向けられる320。例えばオーディオ信号がマイクロフォン115Aからのものである場合、次いでカメラ110が、マイクロフォン115Aによりサービスされるエリアの方に向けられるか、既にそのエリアに向いているカメラが選択されることになる。
次いで、カメラからのビデオ信号内にタグが存在するかどうかの判断が行われる325。ビデオ信号内にタグが存在する場合、カメラが以前の位置に再び向けられるか330、以前のカメラが選択される。ビデオ信号内にタグが存在しない場合、ローカルタグがオーディオ信号及び/又はビデオ信号内に挿入される335。タグ付けされた信号がその後伝送される。次いで310へ戻る。
したがって、マイクロフォンがサウンドをピックアップし、そのサウンド内に組み込みオーディオタグが存在する場合、あるいはカメラが、ビデオ信号内に組み込まれたビデオタグをピックアップしているサウンドのソースに向けられている場合、システムはそのサウンドを無視し、マイクロフォンを解放し、カメラ設定をそのままにする。しかしながら、いずれの信号においても組み込みタグが検出されなかった場合、これらの信号のうちの少なくとも1つへのローカルタグの挿入後に、そのサウンド及びピクチャをリモートのビデオ会議へ伝送するためにマイクロフォン及び/又はカメラが選択されることになる。したがって、リモートの反射されたサウンドを無視しつつ、アクティブな話者が正しく選択される。
図4は、例示の情報記録技術400のフローチャートである。開始405の後、セッションを記録すべきかどうかの判断が行われる410。セッションを記録しない場合、プロシージャは終了する415。セッションを記録すべき場合、タグが存在するかどうかの決定が行われる420。タグが存在しない場合、セッションが記録される430。少なくとも1つのタグが存在する場合、次いでタグ内に情報が存在するかどうかの判断が行われる425。タグ内に情報が存在する場合、セッションは、その情報の少なくとも一部とともに記録される435。セッションとともに記録される情報は、タグ内に含まれる情報の全てであってもよく、日時のような、予め選択された部分のみであってもよい。
本明細書で説明される論理動作は、(1)コンピュータシステム上で動作する、コンピュータ実施される動作又はプログラムモジュールのシーケンスとして、かつ/又は(2)コンピューティングシステム内で相互接続されるマシン論理回路又は回路モジュールとして実装されることを認識されたい。そのような実装は、コンピューティングシステムの性能又は他の要件に依存する選択的問題である。したがって、本明細書で説明される論理動作は、状態動作、構造的デバイス、動作又はモジュールと様々に呼ばれる。これらの動作、構造的デバイス、動作及びモジュールは、ソフトウェアで、ファームウェアで、特別なデジタルロジックで、そしてこれらの任意の組み合わせで実装されてよい。図面に示され、本明細書で説明されるものよりも多く又は少ない動作が実行されてもよい。これらの動作は、本明細書で説明されるものと異なる順序で実行されてもよい。
図5は、上記で提示された手法によるビデオ会議システムのために、本明細書で説明されるソフトウェアコンポーネントを実行することができるコンピュータ500の例示的なコンピュータアーキテクチャを示す図である。示されるコンピュータアーキテクチャは、従来的なデスクトップ、ラップトップ又はサーバコンピュータを例示しており、このコンピュータアーキテクチャを使用して、クライアントコンピュータ104、フロントエンドサーバコンピュータ106a〜106N又はバックエンドサーバコンピュータ108A〜108N上で動作するものとして説明される、本明細書で提示されたソフトウェアコンポーネントの任意の態様を実行することができる。示されるコンピュータアーキテクチャは、中央処理ユニット(CPU)502と、ランダムアクセスメモリ(RAM)514及び読取専用メモリ(ROM)516を含むシステムメモリ508と、メモリをCPU502に結合するシステムバス504とを含む。起動時等にコンピュータ500内の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システムが、ROM516に格納される。コンピュータ500は本明細書で更に詳細に説明されるオペレーティングシステム518、アプリケーションプログラム及び他のプログラムモジュールを格納するための大容量ストレージデバイス510を更に含む。
大容量ストレージデバイス510は、バス504に接続される大容量ストレージコントローラ(図示せず)を通してCPU502に接続される。大容量ストレージデバイス510及びその関連するコンピュータ読取可能媒体は、コンピュータ500のための不揮発性ストレージを提供する。本明細書に含まれるコンピュータ読取可能媒体の説明は、ハードディスクやCD−ROMドライブといった大容量ストレージデバイスについて言及しているが、当業者は、コンピュータ読取可能媒体を、コンピュータアーキテクチャ500によってアクセス可能な任意の利用可能なコンピュータ記憶媒体又は通信媒体とすることができることを認識されたい。
限定ではなく例として、コンピュータ記憶媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール又は他のデータといった情報の記憶のために、任意の方法又は技術で実装される揮発性及び不揮発性、取外し可能及び取外し不可能な媒体を含んでよい。例えばコンピュータ記憶媒体は、これらに限られないが、RAM、ROM、EPROM、EEPROM、フラッシュメモリ若しくは他の半導体メモリ技術、CD−ROM、デジタル多用途ディスク(DVD)、HD−DVD、BLU−RAY(登録商標)若しくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、又は所望の情報を格納するのに使用することができ、かつコンピュータ500によってアクセス可能な任意の他の媒体を含む。請求項の目的に関しては、「コンピュータ記憶媒体」というフレーズ及びその変化形は、搬送波又は信号及び/又は信号媒体を含まない。
通信媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール又は他のデータを、搬送波や他の伝送機構のような変調データ信号内に含み、任意の伝送媒体を含む。「変調データ信号」という用語は、情報を信号内にエンコードするような手法により変更又は設定されたその特性の1つ又は複数を有する信号を意味する。限定ではなく例として、通信媒体は、有線ネットワーク又は直接有線接続といった有線媒体と、音響、RF、赤外線又は他の無線媒体といった無線媒体とを含む。上記の任意の組み合わせも、コンピュータ読取可能媒体の範囲内に含まれるべきである。
様々な実施形態によると、コンピュータ500は、ネットワーク520のようなネットワークを通じてリモートコンピュータへの論理接続を使用する、ネットワーク化された環境において動作し得る。コンピュータ500は、バス504に接続されるネットワークインタフェースユニット506を通じてネットワーク520に接続してよい。ネットワークインタフェースユニット506を使用して他のタイプのネットワーク及びリモートコンピュータシステムへ接続してもよいことを認識されたい。コンピュータ500は、キーボード、マウス又は電子スタイラスを含め、複数の他のデバイスから入力を受け取って処理するための入出力コントローラ512を含んでもよい。同様に、入出力コントローラは、ディスプレイ画面、プリンタ又は他のタイプの出力デバイスへの出力を提供してもよい。
上記に簡単に説明したように、ネットワーク化されたデスクトップ、ラップトップ又はサーバコンピュータの動作を制御するのに適したオペレーティングシステム518を含め、複数のプログラムモジュール及びデータファイルが、コンピュータ500の大容量ストレージデバイス510及びRAM514に格納され得る。また、大容量ストレージデバイス510及びRAM514は、上述の様々な動作を実装する1つ又は複数のプログラムモジュールを格納してもよい。大容量ストレージデバイス510及びRAM514は他のタイプのプログラムモジュールを格納してもよい。
本明細書で説明される主題は、コンピュータシステム上でのオペレーティングシステム及びアプリケーションプログラムとの実行と関連して実行される1つ又は複数のプログラムモジュールの一般的なコンテキストにおいて提示されるが、当業者には、他のタイプのプログラムモジュールとの組み合わせで実行され得る他の実装も認識されよう。一般に、プログラムモジュールは、ルーチン、プログラム、コンポーネント、データ構造及び特定のタスクを実行するか特定の抽象データタイプを実装する他のタイプの構造を含む。さらに、当業者には、本明細書で説明される主題が、所望により、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベース若しくはプログラム可能な家庭電化製品、ミニコンピュータ、メインフレームコンピュータ等を含め、他のコンピュータシステム構成とともに実施されてもよいことが認識されよう。
上記に基づいて、本明細書ではビデオ会議のための技術が提供されることを認識されたい。本明細書で提示される主題は、コンピュータの構造的特徴、方法的かつ変形可能な動作、具体的なコンピューティング装置及びコンピュータ読取可能媒体に固有の言語で説明してきたが、添付の特許請求の範囲において定められる本発明は、必ずしも本明細書で説明される具体的な特徴、動作及び媒体に限定されないことを理解されたい。むしろ、そのような具体的な特徴、動作及び媒体は、特許請求の範囲を実装する例示の形式として開示される。
上記の主題は、単に例として提供されており、限定として解釈されるべきではない。図示され、説明される例示の実施形態及び用途に従うことなく、以下の特許請求の範囲において説明される本発明の真の精神及び範囲から逸脱することなく、本明細書で説明される主題に対して様々な修正及び変更がなされてもよい。

Claims (10)

  1. ビデオ会議システムのためのトランスミッタシステムであって、
    オーディオタグ又はビデオタグのうちの少なくとも一方を生成するタグジェネレータと;
    (i)受け取ったオーディオ信号に前記オーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は(ii)受け取ったビデオ信号に前記ビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を行う結合器と;
    (i)前記タグ付けされたオーディオ信号と前記受け取ったビデオ信号、(ii)前記受け取ったオーディオ信号と前記タグ付けされたビデオ信号、又は(iii)前記タグ付けされたオーディオ信号と前記タグ付けされたビデオ信号を伝送するトランスミッタと;
    を備える、トランスミッタシステム。
  2. 制御システムを更に備え、該制御システムは、追加の情報を前記ビデオタグ又は前記オーディオタグのうちの少なくとも一方に組み込む、
    請求項1に記載のトランスミッタシステム。
  3. ビデオ会議システムを作動させる方法であって、
    オーディオ信号を受け取るステップと;
    ビデオ信号を受け取るステップと;
    オーディオタグ又はビデオタグのうちの少なくとも一方を生成するステップと;
    (i)前記オーディオ信号に前記オーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は(ii)前記ビデオ信号に前記ビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を行うステップと;
    (i)前記タグ付けされたオーディオ信号と前記ビデオ信号、(ii)前記オーディオ信号と前記タグ付けされたビデオ信号、又は(iii)前記タグ付けされたオーディオ信号と前記タグ付けされたビデオ信号を伝送するステップと;
    を含む、方法。
  4. 複数のオーディオ信号が存在しており、
    別のビデオ会議システムからのオーディオタグを含まないオーディオ信号を伝送用に選択するステップ
    を更に含む、請求項3に記載の方法。
  5. 複数のビデオ信号が存在しており、
    別のビデオ会議システムからのビデオタグを含まないビデオ信号を伝送用に選択するステップ
    を更に含む、請求項3に記載の方法。
  6. コンピュータによって実行されると、該コンピュータに:
    オーディオタグ又はビデオタグのうちの少なくとも一方を生成させ;
    (i)受け取ったオーディオ信号に前記オーディオタグを結合して、タグ付けされたオーディオ信号を生成すること、又は(ii)受け取ったビデオ信号に前記ビデオタグを結合して、タグ付けされたビデオ信号を生成すること、の少なくとも一方を実行させ;
    (i)前記タグ付けされたオーディオ信号と前記受け取ったビデオ信号、(ii)前記受け取ったオーディオ信号と前記タグ付けされたビデオ信号、又は(iii)前記タグ付けされたオーディオ信号と前記タグ付けされたビデオ信号を伝送させる、
    コンピュータ実行可能命令を有する、コンピュータ記憶媒体。
  7. コンピュータによって実行されると、該コンピュータに、
    受け取った複数のオーディオ信号において、リモートビデオ会議システムからのオーディオタグを検出させ、オーディオタグを含まないオーディオ信号を、前記生成されるオーディオタグとの結合用に選択させる
    ためのコンピュータ実行可能命令を更に備える、請求項6に記載のコンピュータ記憶媒体。
  8. コンピュータによって実行されると、該コンピュータに、
    受け取った複数のビデオ信号において、リモートビデオ会議システムからのビデオタグを検出させ、ビデオタグを含まないビデオ信号を、前記生成されるビデオタグとの結合用に選択させる
    ためのコンピュータ実行可能命令を更に備える、請求項6に記載のコンピュータ記憶媒体。
  9. コンピュータによって実行されると、該コンピュータに、
    追加の情報を、前記生成されるビデオタグ又は前記生成されるオーディオタグの少なくとも一方に組み込ませる
    ためのコンピュータ実行可能命令を更に備える、請求項6に記載のコンピュータ記憶媒体。
  10. コンピュータによって実行されると、該コンピュータに、
    前記タグ付けされたオーディオ信号における歪みが所定のレベル未満になるように、前記オーディオ信号を前記オーディオタグに結合して、タグ付けされたオーディオ信号を生成させるか、前記タグ付けされたビデオ信号における歪みが所定のレベル未満になるように、前記ビデオ信号を前記ビデオタグに結合して、タグ付けされたオーディオ信号を生成させる、
    ためのコンピュータ実行可能命令を更に備える、請求項6に記載のコンピュータ記憶媒体。

JP2015549731A 2012-12-19 2013-12-19 アクティブ話者検出のためのビデオ及びオーディオタグ付け Active JP6321033B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/719,314 US9065971B2 (en) 2012-12-19 2012-12-19 Video and audio tagging for active speaker detection
US13/719,314 2012-12-19
PCT/US2013/076671 WO2014100466A2 (en) 2012-12-19 2013-12-19 Video and audio tagging for active speaker detection

Publications (3)

Publication Number Publication Date
JP2016506670A true JP2016506670A (ja) 2016-03-03
JP2016506670A5 JP2016506670A5 (ja) 2017-01-26
JP6321033B2 JP6321033B2 (ja) 2018-05-09

Family

ID=49943568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015549731A Active JP6321033B2 (ja) 2012-12-19 2013-12-19 アクティブ話者検出のためのビデオ及びオーディオタグ付け

Country Status (11)

Country Link
US (1) US9065971B2 (ja)
EP (1) EP2912841B1 (ja)
JP (1) JP6321033B2 (ja)
KR (1) KR102110632B1 (ja)
CN (1) CN104937926B (ja)
AU (1) AU2013361258B2 (ja)
BR (1) BR112015011758B1 (ja)
CA (1) CA2889706C (ja)
MX (1) MX352445B (ja)
RU (1) RU2632469C2 (ja)
WO (1) WO2014100466A2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9065971B2 (en) * 2012-12-19 2015-06-23 Microsoft Technology Licensing, Llc Video and audio tagging for active speaker detection
US20150281832A1 (en) * 2014-03-28 2015-10-01 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
US9681097B1 (en) 2016-01-20 2017-06-13 Global Tel*Link Corporation Secure video visitation system
US10296994B2 (en) 2016-02-11 2019-05-21 Global Tel*Link Corporation System and method for visitation management in a controlled environment
US9558523B1 (en) 2016-03-23 2017-01-31 Global Tel* Link Corp. Secure nonscheduled video visitation system
US10311219B2 (en) * 2016-06-07 2019-06-04 Vocalzoom Systems Ltd. Device, system, and method of user authentication utilizing an optical microphone
JP6520878B2 (ja) * 2016-09-21 2019-05-29 トヨタ自動車株式会社 音声取得システムおよび音声取得方法
US9899031B1 (en) 2017-02-14 2018-02-20 Electronics And Telecommunications Research Institute Method and apparatus for inserting tag into stereo audio signal, and method and apparatus for extracting tag from stereo audio signal
US11282537B2 (en) 2017-06-09 2022-03-22 International Business Machines Corporation Active speaker detection in electronic meetings for providing video from one device to plurality of other devices

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002223422A (ja) * 2001-01-29 2002-08-09 Nec Corp 多地点テレビ会議制御装置およびビデオパケット送信方法
JP2003501894A (ja) * 1999-05-27 2003-01-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 不可聴情報の包含により適応型フィルタ性能を向上させる方法及び装置
JP2005094713A (ja) * 2003-09-19 2005-04-07 Ricoh Co Ltd データ表示システム、データ表示方法、プログラムおよび記録媒体
JP2010532953A (ja) * 2007-06-29 2010-10-14 マイクロソフト コーポレーション 表示装置を検出する技術
US20120127259A1 (en) * 2010-11-19 2012-05-24 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US20120213380A1 (en) * 2009-10-29 2012-08-23 Universite Paris Descartes Method and Device for Cancelling Acoustic Echo by Audio Watermarking
US20120290297A1 (en) * 2011-05-11 2012-11-15 International Business Machines Corporation Speaker Liveness Detection

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5099319A (en) * 1989-10-23 1992-03-24 Esch Arthur G Video information delivery method and apparatus
US5689641A (en) 1993-10-01 1997-11-18 Vicor, Inc. Multimedia collaboration system arrangement for routing compressed AV signal through a participant site without decompressing the AV signal
AUPP392498A0 (en) * 1998-06-04 1998-07-02 Innes Corporation Pty Ltd Traffic verification system
US7081915B1 (en) 1998-06-17 2006-07-25 Intel Corporation Control of video conferencing using activity detection
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US7161939B2 (en) * 2001-06-29 2007-01-09 Ip Unity Method and system for switching among independent packetized audio streams
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
US6749512B2 (en) * 2002-03-15 2004-06-15 Macgregor Brian Computer network implemented gaming system and method of using same
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
GB2404297B (en) * 2003-07-24 2007-12-05 Hewlett Packard Development Co Editing multiple camera outputs
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US20050138674A1 (en) * 2003-12-17 2005-06-23 Quadrock Communications, Inc System and method for integration and synchronization of interactive content with television content
US7563168B2 (en) * 2004-02-13 2009-07-21 Texas Instruments Incorporated Audio effect rendering based on graphic polygons
GB2415639B (en) * 2004-06-29 2008-09-17 Sony Comp Entertainment Europe Control of data processing
US7304585B2 (en) * 2004-07-02 2007-12-04 Nokia Corporation Initiation of actions with compressed action language representations
US20060147063A1 (en) 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
US7450752B2 (en) * 2005-04-07 2008-11-11 Hewlett-Packard Development Company, L.P. System and method for automatic detection of the end of a video stream
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
CN100596061C (zh) * 2006-01-12 2010-03-24 大连理工大学 一种基于盲源分离的小波域数字音频多目的水印方法
CA2544459A1 (en) * 2006-04-21 2007-10-21 Evertz Microsystems Ltd. Systems and methods for synchronizing audio and video data signals
US8087044B2 (en) * 2006-09-18 2011-12-27 Rgb Networks, Inc. Methods, apparatus, and systems for managing the insertion of overlay content into a video signal
US7688889B2 (en) * 2006-09-18 2010-03-30 Rgb Networks, Inc. Methods, apparatus, and systems for insertion of overlay content into a video signal with transrating capabilities
US20080136623A1 (en) * 2006-12-06 2008-06-12 Russell Calvarese Audio trigger for mobile devices
US8633960B2 (en) * 2007-02-20 2014-01-21 St-Ericsson Sa Communication device for processing person associated pictures and video streams
US8385233B2 (en) * 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
US20090210789A1 (en) 2008-02-14 2009-08-20 Microsoft Corporation Techniques to generate a visual composition for a multimedia conference event
US8713593B2 (en) * 2010-03-01 2014-04-29 Zazum, Inc. Detection system and method for mobile device application
US20110214143A1 (en) * 2010-03-01 2011-09-01 Rits Susan K Mobile device application
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US20120321062A1 (en) * 2011-06-17 2012-12-20 Fitzsimmons Jeffrey E Telephonic Conference Access System
CN102368816A (zh) * 2011-12-01 2012-03-07 中科芯集成电路股份有限公司 一种视频会议智能前端系统
US8886011B2 (en) * 2012-12-07 2014-11-11 Cisco Technology, Inc. System and method for question detection based video segmentation, search and collaboration in a video processing environment
US9065971B2 (en) * 2012-12-19 2015-06-23 Microsoft Technology Licensing, Llc Video and audio tagging for active speaker detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003501894A (ja) * 1999-05-27 2003-01-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 不可聴情報の包含により適応型フィルタ性能を向上させる方法及び装置
JP2002223422A (ja) * 2001-01-29 2002-08-09 Nec Corp 多地点テレビ会議制御装置およびビデオパケット送信方法
JP2005094713A (ja) * 2003-09-19 2005-04-07 Ricoh Co Ltd データ表示システム、データ表示方法、プログラムおよび記録媒体
JP2010532953A (ja) * 2007-06-29 2010-10-14 マイクロソフト コーポレーション 表示装置を検出する技術
US20120213380A1 (en) * 2009-10-29 2012-08-23 Universite Paris Descartes Method and Device for Cancelling Acoustic Echo by Audio Watermarking
US20120127259A1 (en) * 2010-11-19 2012-05-24 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US20120290297A1 (en) * 2011-05-11 2012-11-15 International Business Machines Corporation Speaker Liveness Detection

Also Published As

Publication number Publication date
BR112015011758B1 (pt) 2023-04-18
WO2014100466A2 (en) 2014-06-26
EP2912841B1 (en) 2020-10-28
KR20150096419A (ko) 2015-08-24
KR102110632B1 (ko) 2020-05-13
AU2013361258A1 (en) 2015-05-14
JP6321033B2 (ja) 2018-05-09
MX352445B (es) 2017-11-24
CA2889706C (en) 2020-04-28
US9065971B2 (en) 2015-06-23
BR112015011758A2 (pt) 2017-07-11
CA2889706A1 (en) 2014-06-26
WO2014100466A3 (en) 2014-08-07
US20140168352A1 (en) 2014-06-19
EP2912841A2 (en) 2015-09-02
RU2015123696A (ru) 2017-01-10
MX2015008119A (es) 2016-04-25
RU2632469C2 (ru) 2017-10-05
CN104937926B (zh) 2018-05-25
CN104937926A (zh) 2015-09-23
AU2013361258B2 (en) 2017-03-09

Similar Documents

Publication Publication Date Title
JP6321033B2 (ja) アクティブ話者検出のためのビデオ及びオーディオタグ付け
US7808521B2 (en) Multimedia conference recording and manipulation interface
TW201840176A (zh) 一種無線投影方法、裝置及系統
US20170150285A1 (en) Detection of Device Configuration
US20230144936A1 (en) Smart screen reverse projection method, system, device, smart screen and readable storage medium
WO2021204139A1 (zh) 视频显示方法、装置、设备和存储介质
US20140196094A1 (en) Method and apparatus for automatically switching channels
JP6455138B2 (ja) 会議システム、及び制御方法
US9736313B2 (en) Audio quality in teleconferencing
CN113242173B (zh) 屏幕的分享方法、装置、系统和即时通讯服务器
WO2022142619A1 (zh) 一种私密音视频通话的方法与设备
GB2553912A (en) Methods, systems, and media for synchronizing media content using audio timecodes
JP2015188204A (ja) 情報処理装置、情報処理方法、およびそのプログラム
US10762913B2 (en) Image-based techniques for audio content
WO2022252977A1 (zh) 投屏方法、存储介质及通信设备
US10666838B2 (en) Control method of operation apparatus configured to control a plurality of content reproduction apparatus to set a preset synchronous state, control method of command processing apparatus, and control method of content reproduction system
JP2020017897A (ja) 端末装置、会議システム、端末装置の制御方法、及びプログラム
US8943247B1 (en) Media sink device input identification
US11895041B2 (en) Establishing network presence
TW202236845A (zh) 視頻顯示方法、裝置、設備和儲存媒體
CN113489921A (zh) 视频图像显示控制方法、设备及系统
CN116627518A (zh) 一种处理方法和电子设备
KR20230047261A (ko) 영상 회의 지원 방법과 이를 지원하는 서버 장치
Butterworth Sony's SA-VA3 brings home theater to the mass market.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180404

R150 Certificate of patent or registration of utility model

Ref document number: 6321033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250