JP2017510179A - 会議における変化盲を使った知覚的連続性 - Google Patents

会議における変化盲を使った知覚的連続性 Download PDF

Info

Publication number
JP2017510179A
JP2017510179A JP2016553857A JP2016553857A JP2017510179A JP 2017510179 A JP2017510179 A JP 2017510179A JP 2016553857 A JP2016553857 A JP 2016553857A JP 2016553857 A JP2016553857 A JP 2016553857A JP 2017510179 A JP2017510179 A JP 2017510179A
Authority
JP
Japan
Prior art keywords
audio
stream
event
uplink
audio input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016553857A
Other languages
English (en)
Other versions
JP6224850B2 (ja
Inventor
ジェイ. カートライト,リチャード
ジェイ. カートライト,リチャード
エヌ. ディキンズ,グレン
エヌ. ディキンズ,グレン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2017510179A publication Critical patent/JP2017510179A/ja
Application granted granted Critical
Publication of JP6224850B2 publication Critical patent/JP6224850B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/563User guidance or feature selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0225Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal
    • H04W52/0229Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal where the received signal is a wanted signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/14Delay circuits; Timers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

混合遷移イベントを含む、会議参加者の入力オーディオ情報の複数のオーディオ入力ストリームを受け、出力オーディオ情報を含む複数のオーディオ出力ストリームを出力する型のオーディオ会議混合システムにおいて、混合遷移イベントの検出可能性を低減するよう前記オーディオ出力ストリームを混合する方法であって:(a)遷移イベントが起ころうとしていることを判別する段階と;(b)マスキング・トリガーが起ころうとしていることを判別する段階と;(c)前記遷移イベントを実質的に、前記マスキング・イベントが起こるときに起こるようスケジュールする段階とを含む、方法。変化盲機構が、オーディオ会議混合における変化をマスクし、知覚的な連続性を維持する。

Description

関連出願への相互参照
本願は2014年2月28日に出願された米国仮特許出願第61/946,030号の優先権を主張するものである。同出願の内容はここに参照によって組み込まれる。
発明の分野
本発明は、オーディオ遠隔会議(audio teleconferencing)の分野に関し、特に、遠隔会議において変化をマスクするための変化盲(change blindness)機構の利用を開示する。
明細書を通じ、背景技術のいかなる議論も、決して、そのような技術がよく知られているまたは当技術分野における技術常識の一部をなすことを認めたものと考えられるべきではない。
複数の当事者がリモートに対話して会議を実行するビデオおよびオーディオ遠隔会議システムは重要な資源である。
多くのシステムが知られている。大半は、各参加者が、たとえば専用の遠隔会議装置、オーディオ入出力機能をもつ標準的なコンピュータ資源またはスマートフォン型の装置を使って他の参加者を聞くおよび/または見ることができることを保証する中央集中式または分散式のサーバー資源に依拠する。分散式のサーバー資源は、各会議参加者からのアップリンクされたオーディオ信号を一緒に適切に混合し、それらのオーディオ信号を各オーディオ出力装置による再生のためにダウンリンクすることを受け持つ。
背景として、典型的な(既知の)遠隔会議システムでは、ミキサーが各電話エンドポイントから、その電話エンドポイントによって捕捉されたオーディオ信号を担持するそれぞれの「アップリンク・ストリーム」を受領し、それぞれの「ダウンリンク・ストリーム」を各電話エンドポイントに送る。こうして、各電話エンドポイントは、他の電話エンドポイントによって捕捉されたそれぞれのオーディオ信号の混合を担持できるダウンリンク・ストリームを受領する。よって、電話会議において二以上の参加者が同時に話すとき、他の参加者は両方の参加者が話すのを聞くことができる。
ミキサーが、オーディオ信号の一つまたは複数においてある種の変動を知覚するのに応答して混合を変える適応的なアプローチを用いることが知られている(通例はそれが望ましい)。たとえば、オーディオ信号は、発話を含んでいない(すなわち背景雑音のみである)と判定することに応答して、混合から省略されてもよい。だが、間違った時点に混合を変えることは、参加者に聞こえるわずらわしいアーチファクトにつながることがある。
欧州特許第1855455B1号、Enborn et al. 米国特許第8,396,574号 米国特許第8,428,280号
Most, SB; Simons, DJ; Scholl, BJ; Jimenez, R; Clifford, E; Chabris, CF、"How not to be seen: the contribution of similarity and selective ignoring to sustained inattentional blindness"、Psychol Sci 12(1):9‐17、 (January 2001)、doi:10.1111/1467-9280.00303、PMID 11294235、(www.invisiblegorilla.comも参照)
本稿に開示されるさまざまな発明の方法、デバイス、装置およびシステムは、オーディオ会議混合の改善された形を提供しうる。
本開示の第一の側面によれば、混合遷移イベントを含む、会議参加者の入力オーディオ情報の複数のオーディオ入力ストリームを受け、出力オーディオ情報を含む複数のオーディオ出力ストリームを出力する型のオーディオ会議混合システムにおいて、混合遷移イベントの検出可能性を低減するよう前記オーディオ出力ストリームを混合する方法であって:(a)遷移イベントが起ころうとしていることを判別する段階と;(b)マスキング・トリガーが起ころうとしていることを判別する段階と;(c)前記遷移イベントを実質的に、前記マスキング・イベントが起こるときに起こるようスケジュールする段階とを含む、方法が提供される。
前記混合遷移イベントは、孤立して聴取しているときに聴取参加者に知覚可能であろうオーディオ入力ストリーム・エンコードにおける変化を含むことができる。
好ましくは、前記マスキング・トリガーは:発話の開始または終了;発話特性の所定の変化または所定数の参加者による同時発話の開始のうちの少なくとも一つを含むことができる。スケジュールすることは、前記遷移イベントの生起を、前記マスキング・トリガーが生起するまで遅らせることを含むことができる。
いくつかの実施形態では、前記マスキング・トリガーは、前記会議参加者の少なくとも一による所定のテキストの発声を含むことができる。いくつかの実施形態では、前記オーディオ入力ストリームの一つにおけるボリュームおよび/または所定のスペクトル・フラックス(spectral flux)の増大の存在が、前記オーディオ入力ストリームの前記一つにおけるマスキング・トリガーを示すことができる。発話の開始または終了は、前記オーディオ入力ストリームの一つにおける声活動フラグの値の変化によって表わすことができる。いくつかの実施形態では、前記マスキング・イベントは、一連のオーディオ入力ストリームの聴覚シーン解析によって決定されることができる。
オーディオ入力ストリームは、少なくとも一つのCTX(continuous transmission[連続伝送])オーディオ入力ストリームおよび少なくとも一つのDTX(discrete transmission[離散伝送])オーディオ入力ストリームを含むことができる。
本開示のあるさらなる側面によれば、オーディオ混合システムが提供される。該オーディオ混合システムは、複数のオーディオ入出力装置からオーディオ入力アップリンク・ストリームを受領する複数のオーディオ・ストリーム入力ユニットであって、前記オーディオ入力アップリンク信号は、孤立して聴取しているときに聴取参加者に知覚可能であろう前記オーディオ・アップリンク・ストリームにおける変化の遷移イベント信号および前記オーディオ入力アップリンク・ストリームにおける所定のオーディオ・イベントを表わすマスキング・トリガー信号を含むことができる、オーディオ・ストリーム入力ユニットと、前記複数のオーディオ入出力装置のそれぞれに返すためのダウンリンク出力をそれぞれ形成する一連のオーディオ・サブ混合ユニットとを含む。各オーディオ・サブ混合ユニットは、前記オーディオ・ストリーム入力ユニットの所定のものに相互接続されていて、前記オーディオ入力アップリンク・ストリームをそれに関連して混合するものであり、前記オーディオ・サブ混合ユニットはさらに:入力されたオーディオ・ストリームの混合の形を制御し、前記遷移イベント信号に応答して混合の形を変更する第一の制御ユニットと;混合の形の前記変更を、前記オーディオ入力アップリンク・ストリームの少なくとも一つにおいてマスキング・トリガー信号が存在するような時まで遅らせるための第二の制御ユニットとをさらに有する。
本稿に開示されるさまざまな実施形態は、システムおよびサーバーが空間的および/またはさらなる連続的なオーディオ信号をミキサーおよび呈示されるシーンに統合することができる特定の用途をもちうる。具体的には、実施形態は、スケーラビリティーが、よってより低い計算上の複雑さおよび/または帯域幅使用が望まれる場合に、有用であることがある。実施形態は、システム制約条件がない場合に価値があることもある。その場合、使用は主として、ある程度の知覚的なシーン複雑さの低減を達成するものである。これも、異なる参加オーディオ信号の存在および混合への寄与を変えることによって行なわれる必要がある。さらに、呈示されるシーンへのアクションおよび変化が、他の要因またはユーザー制御入力からの入来制御信号に起因する場合のそのようなシステムを使うためのケースがある。そのようなケースにおいては、実施形態の使用は、音ストリームまたはオブジェクトの終了、レベル調整、空間的レンダリング属性への変化、処理への変化または通例オーディオ・ストリームの知覚される属性への突然の変化につながるであろう他の任意の変化といった活動の影響を和らげることができる。そのような突然の変化は、予期されず、よって知覚的な連続性という目標を達成するために問題となる。
ここでさまざまな実施形態について、単に例として、付属の図面を参照して述べる。
好ましい実施形態の適応的な混合構成の一つの形を概略的に示す図である。 好ましい実施形態の遠隔会議ミキサーを示す図である。 好ましい実施形態の遠隔会議ミキサーの動作の例示的なシーケンスのタイムラインを示す図である。 Aは、オーディオ波形からイベントを判別するためのシステムの要素の例を示すブロック図であり、Bは、入力波形ならびにAに示したようなシステムによって生成されうる対応する特徴およびイベントの例を示す図である。 Aは、オーディオ波形からイベントを判別するための代替的なシステムの要素の例を示すブロック図であり、Bは、Aに示したようなシステムによって抽出されうる特徴および検出されうるイベントの例を示す図である。 A〜Cは、特徴抽出器およびイベント検出器を実装するための異なるシステム・トポロジーを示す図である。
好ましい実施形態は、オーディオ遠隔会議(付随するビデオ・ストリームはあってもなくてもよい)のための環境において動作する。
例示的なオーディオ遠隔会議システムが図1に示されている(1)。この構成では、一連の会議参加者が集団的にオーディオ入力および出力を提供する。たとえば、構成1では、第一の参加者2は、会議参加のためにコンピュータ6に相互接続されている一対のヘッドフォン5および入力マイクロフォン3を使う。コンピュータ6は、ネットワーク9を通じたミキサー11とのアップリンク8およびダウンリンク7接続を提供する。
第二の群の参加者、たとえば20は、立体音響化(spatialization)情報を含むオーディオ出力を提供するオーディオ装置21を使う。オーディオ装置21は、内部的な計算および通信能力をも提供し、ネットワーク25、26を介してミキサー11と相互接続するアップリンク23およびダウンリンク24チャネルを含む。さらなる参加者も他の手段を介してミキサーに相互接続されることができる。
図1の構成は、ブーム・マイクロフォン3をもつバイノーラル・ヘッドセット5によって例示されるDTXエンドポイントを利用する複数の会議参加者2を含んでいる。前記複数のDTXエンドポイントのそれぞれは、DTXアップリンク・ストリーム8を、典型的にはネットワーク9を介して、遠隔会議ミキサー11に呈する。ミキサーは各DTXエンドポイントについてダウンリンク・ストリーム7を生成する。該ダウンリンク・ストリーム7はネットワーク9を通じてエンドポイント2に送り返され、参加者2によって聞かれる。
スピーカーフォン装置21によって例示される複数のCTXエンドポイントのそれぞれは、さらなる複数の会議参加者20の発話27を捕捉する。そのような装置によって、トリビアルでない背景雑音も捕捉されることがある。前記複数のCTXエンドポイントのそれぞれは、典型的にはネットワーク25を介してCTXアップリンク・ストリーム26をミキサー11に呈する。一般性を失うことなく、ネットワーク25はDTXエンドポイントによって使われるものと同じネットワークであってもよい。ミキサー11は、各CTXエンドポイントについてダウンリンク・ストリーム23を生成する。該ダウンリンク・ストリーム23はネットワーク25を通じて複数の参加者20への再生のためにエンドポイント21に送り返される。
遠隔会議システムにおいて、各参加者エンドポイントはアップリンク・オーディオ・ストリームを遠隔会議ミキサーに送り、遠隔会議ミキサーからダウンリンク・ストリームを受領する。そのようなシステムでは、アップリンクおよびダウンリンクは、デジタル式にエンコードされ、インターネット・プロトコルを通じた音声(VoIP: voice over internet protocol)ネットワークのような好適なパケット交換網を介して伝送されてもよく、あるいは公衆電話回線網(PSTN: public switched telephone network)のような回線交換網を通じて伝わってもよい。いずれにせよ、一般に各参加者が自分自身を除く他のすべての参加者の声を聞くよう各エンドポイントに送り返すダウンリンク・オーディオ・ストリームを生成することはミキサー11の役割である。
そのようなシステムにおけるエンドポイントのあるクラスは、アップリンクにおいて不連続伝送(DTX: discontinuous transmission)を用いる。そのようなエンドポイントは、話者の口に近いマイクロフォン配置を用いること;背景雑音を除去する雑音抑制信号処理;人の発話があるときにのみアップリンク・ストリームを送ることの一つまたは複数によって、ネットワーク資源の使用を最小化しつつ了解性を最大化しようとする。
この戦略では、聴取者に聞こえる異常な雑音は少なくなりうるが、それほど自然に聞こえない経験につながることがある。これは第一には、雑音抑制信号処理は典型的には、背景雑音が定常的でないときはわずらわしい動的アーチファクトを導入するためであり、第二には雑音抑制が発話の等化に影響するからであり、第三には、声活動検出器(VAD: voice activity detector)からの不完全な情報に基づく二分式の送る/送らないの決定は時に発話が切り落とされ、時に残留雑音が発話として伝送されることにつながるからである。
エンドポイントの第二のクラスは、アップリンクにおいて連続伝送(CTX: continuous transmission)を用いる。すなわち、VAD(もしあれば)が発話があると判定するかないと判定するかに関わりなく、オーディオ・ストリームを送る。ここでの意図は、しばしば、聴取経験の自然さを最大にし、リモート聴取者が、あたかも自分がその場にいるかのように発話定位または立体音響化の諸側面を実行できるようにすることである。よって、CTX装置は、両耳効果によるマスキングからの解放(release from masking)を許容するよう空間的ダイバーシチを保持するために複数のマイクロフォンを用いてもよい。CTX装置の設計者は、わずらわしい動的アーチファクトおよびスペクトル的な音色付けの可能性を最小限にするために、装置が実行する雑音抑制処理の量を制限しようとしてもよい。
一般に、DTX装置は、人間の発話をなすと見なさないものは何でも除去するか、抑制するか、あるいは他の仕方で送信するのを回避しようとする。一方、CTX装置は、透明であろうとし、できる限り最も知覚的に連続的で有意な仕方で何でも送信しようとする。
遠隔会議ミキサーを設計するときには、これらの意図を念頭に置くことが重要である。DTXエンドポイントのアップリンクは発話が検出されないときは実質的に無音なので、ミキサー11は、聴取者にとっての知覚的帰結を伴うことなく、発話が検出されないときはそのアップリンク・ストリームを自由に破棄できてよい。しかしながら、CTXストリームを含むダウンリンク混合を形成するときは、ミキサーは、ストリームにどのように混合遷移を適用するかにおいて、慎重になる必要がある。たとえば、語りが検出されないときにCTXストリームを破棄することは、そのストリームに関連付けられた背景雑音がオフにされるのが聞こえることがあるので、聴取者によって容易に気づかれることがありうる。その遷移をマスクする他のCTXストリームが存在しない場合は特にそうである。聴取者は、システムが故障したのか、あるいはそのCTXエンドポイントが会議から切断されたのかと戸惑うことになりうる。そのような場合、自然な聴取経験を提供するという目標は満たされないであろう。
一般に、遠隔会議ミキサー11の目標は、各参加者が、自分自身を除く他のすべての参加者からの発話を聞けるようにすることである。しかしながら、この目標にはいくつかの微妙な問題がある。たとえば、それぞれが背景雑音を含んでいる多くのCTXストリームが聴取者によって同時に聞かれる場合、聞こえる全背景雑音パワーは、わずらわしいまたは了解性に有害である点まで高まることがありうる。さらなる例として、みな同時に話している複数のアップリンク・ストリームを考える。結果は、有用な通信を助けるにはあまりに耳障りであることがある。この場合、二つまたは三つの最も知覚的に有意なストリームのみを通すほうがよいことがありうる。本著者を含む多くの著者は、これを達成するための方法を提案してきた。たとえば、特許文献1は一つのそのような方法論を開示しており、2013年9月25日に出願された国際特許出願第PCT/US2013/061658号もこれを達成する第二の方法を開示している。
さらに、ダウンリンク混合において単に動的にアップリンクを許容またはミュートする能力から、遠隔会議ミキサー11はさらに、他の種類の混合遷移に影響できてもよい。たとえば、ダウンリンク混合においてアップリンク・ストリームの符号化ビットレートまたはオーディオ忠実度を下げることができてもよく、あるいは(アップリンクが複数のマイクロフォンからの空間的ダイバーシチを含むときは)ダウンリンク混合においてアップリンク・ストリームが聞かれる空間的忠実度を調整することができてもよい。ダウンリンクが、アレイもしくはスピーカーを通じてレンダリングするまたは頭部伝達関数(HRTF)を使ってヘッドフォンを通じて仮想化を実行するもののような空間的オーディオ・システムを使って聴取者に呈示される場合、ミキサーはさらに、ストリームがそこから発しているように聴取者に感じられる空間内の知覚される位置もしくは領域に影響することができてもよい。
特定の遠隔会議システムにおいてどの混合遷移がミキサーに利用可能であるかの詳細に関わりなく、ミキサーは、会議における参加者およびエンドポイントの挙動に基づいて動的にそのような遷移を行なうことができ、いくつかの型の遷移は、不用意に適用されると、聴取者に知覚可能となったり、聴取者にわずらわしいものとなったりすることがある。好ましい実施形態は、遠隔会議サーバーにおいて、遷移が聴取者によって容易に知覚可能ではなく、それにより聴取経験における知覚的な連続性および自然さを保持するような仕方で混合遷移を扱う新たな種類の方法を含む。そのために、人間の聴覚シーン解析(auditory scene analysis)における選択的注意(selective attention)の現象を利用する。
選択的注意の現象の例は、おそらく、視覚的知覚の研究における変化盲(change blindness)または非注意性盲目(inattentional blindness)の概念との類推によって一番直接的に理解できる。たとえば、非注意性盲目は、シモンズとチャブリスの有名な「見えないゴリラ」実験(非特許文献1)によってよく例解されている。これは、バスケットボールの試合のビデオを見る人が、ボールがパスされる回数を数えるよう言われたとき、ゴリラの着ぐるみを着た人が画面の中央に歩いていって手を振るのに気づかないというものである。このゴリラもどきは目立つものであり、他の状況ではすぐに気づかれるだろうが、見る者の注意が他のところにそらされるために見る者が完全に気づかないことがしばしばある。
好ましい実施形態では、遠隔会議ミキサーにおいて混合遷移を行なう方法であって、普通ならすぐ気づかれるであろう混合遷移が、聴取者の注意を捉える他の何らかのイベントと同時に起こるよう同期されるために気づかれなくなるようなものが提供される。該他のイベントとしては、たとえば、新たな参加者が会議に加わることまたはしばらく語っていなかった参加者からの発話の始まりがある。
好ましい実施形態は、それにより、選択的注意および変化盲の概念を利用して、ダウンリンク・オーディオ・ストリームにおける知覚される連続性を改善するための方法のクラスを提供する。いくつかの実施形態では、遠隔会議ミキサーは一つまたは複数の中央サーバーにあってもよい。他の実施形態では、遠隔会議ミキサーはエンドポイントの一つまたは複数にあってもよい。
遠隔会議設備の技術分野で知られているように、ミキサー11によってホストされる各会議について、各エンドポイントからアップリンク・ストリームが受領される。ミキサーは各エンドポイントのためのダウンリンク・ストリームを生成する。一般性を失うことなく、複数のアップリンク・ストリームからダウンリンク・ストリームを形成するためにミキサーが用いうる混合技法の例は次のものを含む:
混合:アップリンク・ストリームをデコードまたは部分的にデコードして、デコードされたまたは部分的にデコードされたオーディオ信号を足し合わせて、ダウンリンク・ストリームを再エンコードする。
トランスコード:アップリンクをデコードし、再エンコードしてダウンリンクのコンポーネントを形成する。
転送:アップリンク・ストリームにおけるエンコードされた情報の全部または一部をダウンリンク・ストリーム中にコピーする。
メタデータ調整:アップリンク・ストリームに関連付けられたメタデータを追加、除去または修正して、該アップリンク・ストリームがダウンリンク・エンドポイントにおいて聞いている参加者にレンダリングされる仕方を変更する。
時折、ミキサーは、特定のダウンリンク・ストリームを混合するときに遷移を実行する。遷移とは、孤立して(すなわち、いかなるマスキング・イベントもなしに)実施されたとしたらダウンリンク・エンドポイントにおける聴取参加者に可聴であり、知覚可能であろう、ダウンリンク・オーディオ・ストリームにおける任意の変化である。一般性を失うことなく、混合遷移の例は次のものを含む:混合されたダウンリンク・ストリームにおいてあるアップリンク・ストリームがオンもしくはオフになることまたはフェードインもしくはフェードアウト;ダウンリンク・ストリームの構成要素としてあるアップリンク・ストリームの転送の開始または終了;ダウンリンク・ストリームにおけるアップリンク・ストリームの空間的忠実度(fidelity)または表現(representation)の変更;ダウンリンク・ストリームの構成要素としてのあるアップリンク・ストリームのオーディオ品質の変更(たとえば、符号化ビットレートを調整することによる);ダウンリンクが空間的もしくは位置的オーディオ・レンダリングができるとき、ダウンリンク・ストリームの空間的シーンにおけるあるアップリンク・ストリームの知覚される位置の変更;ダウンリンク混合における特定のアップリンク・ストリームの利得の、ステップ変化による低下または増大;実際のアップリンク・オーディオ・ストリームから、スペクトル的および(該当する場合には)空間的にアップリンク・ストリームに存在するノイズと同様である合成的に生成されたノイズ場へのスイッチングまたはクロスフェード。
ミキサーは、トリガーに応答して一つまたは複数の遷移を実行する。トリガーは、会議の状態から導出されたイベントである。一般性を失うことなく、トリガーの例は、次のものを含む:1)アップリンク・ストリーム上のVADフラグであって、そのアップリンク上での発話の開始または終了を伝達するもの。VADは、送り側クライアントにおいて実装されて、その結果はアップリンク・ストリーム内のメタデータに含められてもよい。あるいはまた、VADはミキサーにおいて実装され、アップリンク・ストリームに含まれるエンコードされたまたはデコードされたオーディオに基づいて発話存在判定を行なってもよい。2)VAD情報から導出されるヒューリスティック。たとえば、多弁性(verbosity)メトリックがミキサーによって用いられ、あるアップリンク・エンドポイントについて閾値を下回る場合、ダウンリンクにおいてフェードアウト遷移がトリガーされることができる。3)DTXアップリンクをもつエンドポイントからの語りバーストの開始または終了。4)同時語り手の最大数の超過。
多弁性メトリックまたはヒューリスティックの特徴付けの種々の形が使用できる。それには、各チャネルのパワースペクトル解析といった単純な施策も含まれる。より複雑な一つの多弁性指標が、2013年9月25日に出願された国際特許出願第PCT/US2013/061658号において得られる。同文献の内容はここに相互参照によって組み込まれる。
トリガーが呈される際、好ましい実施形態のキーとなる側面は、ミキサーが、そのトリガーから帰結する何らかの遷移を適用する前に好適なマスキング・イベントが生起するまで待つというものである。マスキング・イベントとは、聴取者の注意を捉えるまたは他の仕方で遷移をマスクすることができる任意のイベントである。一般性を失うことなく、マスキング・イベントの例は、次のものを含む:1)アップリンク上のVADであって、そのアップリンク上での発話の開始または終了を伝達するもの。特定のアップリンクにおける発話の開始は、しばらくの時間にわたってそのアップリンク上で発話が存在していなかった場合、特に、マスキング・イベントとして貴重でありうる。したがって、開始イベントは、そのアップリンク上で最後に発話が検出されて以来の時間の長さに基づいて等級付けまたはゲーティングされてもよい。2)アップリンク・エンドポイントで(その場合、結果はアップリンク・ストリームに埋め込まれる)またはミキサーで実装されている発話認識または他の分類アルゴリズムによって判別される特定の音節、単語または発話のクラスの存在。3)アップリンク・ストリームにおいて利用可能なオーディオに基づくまたはそれが導出されるもとになったマイクロフォン信号に基づく、ボリューム・レベル、スペクトル・フラックスまたは他のそのようなヒューリスティックにおけるジャンプ。4)ドルビー・ボリュームのような製品において用いられ、特許文献2、3において概説されるような既存の聴覚シーン解析ベースの技法を使って信号伝達されるイベント。
あるクラスの実施形態では、マスキング・イベントは二値である。すなわち、イベントが存在するかしないかである。ペンディングの遷移は単に、マスキング・イベントが呈される際に行なわれる。第二のクラスの実施形態では、イベントは、そのイベントがどのくらい効果的に聴取者の注意を捉えるかの推定値であるイベント規模(event magnitude)に従って等級付けされることができる。この規模は、遷移がどのように行なわれるかを制御するために使われる。たとえば、大きな規模のイベントは、短期間の間にフェード遷移を生起させてもよい。一方、小さな規模のイベントは、長期間にわたってフェード遷移を生起させてもよい。さらなる例として、ダウンリンク混合中のアップリンクを、トリガーの結果として、一連のステップ利得変化遷移で減衰させることを望むミキサーを考える。この場合、各遷移において適用される減衰の量は、対応するイベント規模の関数であることができる。
一般性を失うことなく、イベント規模のベースとなりうる属性の例は次のものを含む:アップリンクにおける発話のボリューム・レベル;語りバーストにおける発話の開始におけるボリューム・レベル;ドルビー・ボリューム式のイベント検出器におけるイベントの規模;アップリンク・ストリームにおいて特定の単語、音節または句が検出された信頼度;およびアップリンク上での、語りバーストの開始において、前の語りバーストの終了以来経過した時間。
ミキサーは遠隔会議通話をオンデマンドで管理するところ、図2は、遠隔会議ミキサー11の一つの例示的な形を概略的に示している。いくつかはDTX(31、32)、いくつかはCTX(33)である複数のアップリンク・ストリームがミキサー11に呈される。アップリンク・ストリームのそれぞれは、アンパック・ユニット35、36、37を通過する。アップリンク・エンコード情報に依存して、アンパック・ユニットはアップリンク・ストリームをアンパックし、アップリンク・ストリームからVAD 38、マスキング・イベント情報およびオーディオ情報40を抽出し、マスキング・イベント39を識別する。これについては後述する。ミキサーは複数のダウンリンク・ストリーム42、43、44を生成する。図には、ダウンリンク・ストリーム43に関連付けられた混合装置46が示されている。図には、他のダウンリンク・ストリーム42、44のそれぞれについて存在する同様の装置は示されていない。このダウンリンクについての混合制御ユニット11は、他のダウンリンクに関連付けられたアンパック・ユニット35、37によって生成されたVADおよびマスキング・イベント信号に基づいて動作し、アップリンク36以外の各アップリンクについての利得を生成する。これは、ダウンリンク43はアップリンク32を生成した同じエンドポイントYによって聞かれるからである。これらの利得はアップリンクからのオーディオをスケーリング48、49および混合50して、ダウンリンク43を通じて返すための再パッキングおよびエンコード51のために好適な最終的なオーディオ・ストリームを生成するために使われる。
この好ましい実施形態では、対応するアンパック・ユニットのマスキング・イベント出力、たとえば39は、たとえば、対応するVAD信号が閾値ΔTeventを超える期間にわたって低であったのちに低(発話検出なし)から高(発話が検出される)に遷移するときに短期間(たとえば20ms)にわたって呈される。閾値はたとえば10秒に設定できる。
DTXアップリンク(たとえば31)に関する制御ユニット47の挙動は、関連付けられたVAD信号が高であるときは常に対応する利得を1に設定するというものである。すなわち、DTXエンドポイントは、発話を送っているときは常に、ダウンリンクに混合される。CTXエンドポイント33に関する制御ユニットの挙動は、対応するアップリンクのVADフラグが高であったとき以来経過した時間の長さが閾値ΔTtriggerを超えるときは常に内部トリガー信号を非アクティブにするというものである。この閾値はたとえば60秒に設定できる。トリガー信号は、対応するVADフラグが高であるときは常に呈される。トリガー信号が呈されていないときは、制御ユニットは、遷移を適用する前に、他のエンドポイントのどれかに対応するマスキング・イベント信号が呈されるまで待つ。遷移は、この好ましい実施形態の例では、CTXエンドポイントの利得を1から0に、たとえば3秒に設定できる時間の長さΔTtransitionにかけて低減することを含む。
図3は、上記の実施形態についての動作のタイムライン60の例を示している。シーケンスは、CTXエンドポイントZが語りバースト61を終了することで始まる。この後、二つの語りバースト62、63がエンドポイントXから検出される。次いでYがしばらく語り、三つの語りバースト64、65、66が検出され、その後、Xが再び話す67。時刻ttriggerにおいて、トリガー・イベント63が生起する。ΔTtriggerを超える期間にわたってCTXエンドポイントZから発話が検出されていないからである。制御ユニットは、今や、すぐにフェードアウトする(71)のではなく、マスキング・イベントの次のインスタンスに際して遷移を開始する状態にある。マスキング・イベント68はYが語りはじめる時64に生起するが、これは制御ユニットにとっては何の意味もない。トリガーより前に生起しており、ミキサーは現在、問題のエンドポイントYのためのダウンリンクにサービスしているところだからである。ΔTeventより長い無音期間70後にXが語ること67を再開すると、第二のイベントが信号伝達され(69)、その受信に際して、制御ユニットは遷移を開始し、ダウンリンクYにおいてアップリンクZを数秒かけてフェードアウト72させる。
図4のAは、オーディオ波形からイベントを判別するシステムの要素の例を示すブロック図である。図4のAに示されるコンポーネントの型および数は、単に例として示されている。代替的な実装はより多数の、より少数のおよび/または異なるコンポーネントを含んでいてもよい。システム400はたとえば、図2に示し、上述した遠隔会議ミキサー11のような遠隔会議ミキサーのインスタンスまたはコンポーネントであってもよい。いくつかの実装では、システム400は、遠隔会議サーバーのコンポーネント、たとえばライン・カードであってもよい。しかしながら、図6のA〜Cを参照してのちにより詳細に述べるように、いくつかの実装では、システム400の機能は、少なくとも部分的には、一つまたは複数の電話エンドポイントによって実装されてもよい。システム400は、少なくとも部分的には、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理および/または離散的なハードウェア・コンポーネントを含んでいてもよい制御システムによって実装されてもよい。いくつかの実装では、システム400は、一つまたは複数の非一時的な媒体に記憶された命令(たとえばソフトウェア)に従って実装されてもよい。そのような非一時的な媒体は、ランダム・アクセス・メモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれに限られない、本稿に記載されるようなメモリ・デバイスを含んでいてもよい。
図4のAに示した例では、システム400は特徴抽出器401およびイベント検出器402を含む。ここで、特徴抽出器401は入力波形403を受領するものとして示されている。いくつかの例では、波形403は、発話および/または背景雑音に対応してもよい。波形403は、個別的な実装によって変わりうる。たとえば、特徴抽出器401が遠隔会議ミキサー、遠隔会議サーバーまたは同様の装置において実装される場合、波形403はアップリンク・ストリームからのアンパックされ、デコードされた波形であってもよい。しかしながら、特徴検出器401が電話エンドポイントにおいて実装される場合には、波形403は生のマイクロフォン信号または前処理されたマイクロフォン信号であってもよい。
この実装では、特徴抽出器401は、入力波形403を解析し、一つまたは複数の型の特徴404に対応する出力を生成することができる。いくつかの例が図4のBに示され、下記で述べられる。
この例では、イベント検出器402は、特徴404を解析し、一つまたは複数の型のイベント405に対応する出力を生成することができる。いくつかの実装では、イベント405は、本稿の他所で記載されるマスキング・イベントであってもよい。よって、いくつかの例では、イベント405は発話の開始、発話の停止、特定の音節、単語もしくは発話のクラスの存在、ボリューム・レベル、スペクトル・フラックスまたは他のそのようなヒューリスティックの変化および/または聴覚シーン解析によって決定される基準に対応してもよい。いくつかの実装では、イベント検出器402の出力は、「二値」であって、イベントがあるかないかを示すだけでもよい。しかしながら、いくつかの例では、イベント検出器402の出力は、たとえば上記したような、イベント規模をも示してもよい。
図4のBは、入力波形ならびに図4のAに示したようなシステムによって生成されうる対応する特徴およびイベントの例を示している。この例では、特徴抽出器401は、入力波形403を解析し、レベルの変化およびピッチの変化に対応する出力を生成することができる。よって、図4のBに示される例では、特徴404aは波形403のレベルの変化に対応し、特徴404bは波形403のピッチの変化に対応する。
この例では、イベント検出器402は、それぞれ波形部分403a〜403dに対応する時刻t1〜t4におけるイベント405a〜405dを検出している。この例によれば、イベント検出器402の出力は、イベント規模を示してもよい。イベント規模は、イベント405a〜405dに対応する図4のBに示される線の長さによって示されている。たとえば、イベント405aはイベント405bより小さな規模をもつ。この例では、イベント検出器402は、波形403のレベルおよびピッチの両方における有意な変化(たとえば所定の閾値以上の変化)に対応する時刻におけるイベント405a〜405dを検出している。
図5のAは、オーディオ波形からイベントを判別する代替的なシステムの要素の例を示すブロック図である。図5のAに示されるコンポーネントの型および数は、単に例として示されている。代替的な実装はより多数の、より少数のおよび/または異なるコンポーネントを含んでいてもよい。システム500はたとえば、図2に示し、上述した遠隔会議ミキサー11のような遠隔会議ミキサーのインスタンスまたはコンポーネントであってもよい。いくつかの実装では、システム500は、遠隔会議サーバーのコンポーネント、たとえばライン・カードであってもよい。しかしながら、図6のA〜Cを参照してのちにより詳細に述べるように、いくつかの実装では、システム500の機能は、少なくとも部分的には、一つまたは複数の電話エンドポイントによって実装されてもよい。システム500は、少なくとも部分的には、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理および/または離散的なハードウェア・コンポーネントを含んでいてもよい制御システムによって実装されてもよい。いくつかの実装では、システム500は、一つまたは複数の非一時的な媒体に記憶された命令(たとえばソフトウェア)に従って実装されてもよい。そのような非一時的な媒体は、ランダム・アクセス・メモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれに限られない、本稿に記載されるようなメモリ・デバイスを含んでいてもよい。
図5のAに示した例では、システム500は特徴抽出器401およびイベント検出器402を含む。この実装では、特徴抽出器401は声検出器(VAD)として機能できる。よって、この例では、特徴抽出器401によって出力される特徴はVAD結果504を含む。図5のBを参照して後述するように、この例では、イベント検出器402は、図4のAおよびBを参照して上述したのとは異なる方法論によってイベント505を検出できる。
図5のBは、図5のAに示したようなシステムによって抽出されうる特徴および検出されうるイベントの例を示している。図5のBに示される例では、図4のBに示される同じ入力波形403が特徴抽出器401に入力される。この実装では、特徴抽出器401は、波形部分403aが発話に対応せず、その代わり背景雑音に対応することを判別する。したがって、否定的なVAD結果が時刻t1において出力される。ここで、特徴抽出器401は、波形部分403bおよび403cに対応するVAD結果504aを、時刻t2に始まって時刻t3に至るまで出力する。この例によれば、特徴抽出器401は、波形部分403dに対応するVAD結果504bを、時刻t4に始まって、出力する。
この例では、イベント検出器402は、非発話の所定の時間間隔後の発話の開始に対応するイベントを判別できる。非発話の所定の時間間隔は、実装によって変わりうる。たとえば、いくつかの実装では、非発話の所定の時間間隔は2秒、3秒、5秒、10秒、15秒、20秒、30秒、60秒などであってもよい。いくつかの実装によれば、非発話の所定の時間間隔は、図2を参照して述べたΔTtriggerに対応してもよい。
この例では、イベント検出器402は単一のイベント505のみを検出する。このインスタンスでは、イベント検出器402は二値のイベントを出力する。この例によれば、イベント検出器402は時刻t1においてはイベントを検出しない。特徴抽出器401が、波形部分403aが発話に対応しないと判定しており、よって時刻t1ではVAD結果が出力されなかったからである。この実装では、イベント検出器402は、VAD結果504aの始まりに対応する時刻t2においてイベント505を検出する。この特徴は、非発話の所定の時間間隔後の発話の開始に対応するからである。この例では、非発話の所定の時間間隔は時刻t3と時刻t4の間の時間間隔より大きい。したがって、イベント検出器402は、VAD結果504bの始まりに対応する時刻t4においてはイベントを検出しない。この特徴は、非発話の前記所定の時間間隔より短い非発話の時間間隔後の発話の開始に対応するからである。
図6のA〜Cは、特徴抽出器およびイベント検出器を実装するための異なるシステム・トポロジーを示している。図6のA〜Cに示されるコンポーネントの型および数は、単に例として示されている。代替的な実装はより多数の、より少数のおよび/または異なるコンポーネントを含んでいてもよい。システム600A〜600Bは、少なくとも部分的には、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理および/または離散的なハードウェア・コンポーネントを含んでいてもよい制御システムによって実装されてもよい。いくつかの実装では、システム600A〜600Bは、一つまたは複数の非一時的な媒体に記憶された命令(たとえばソフトウェア)に従って実装されてもよい。そのような非一時的な媒体は、ランダム・アクセス・メモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれに限られない、本稿に記載されるようなメモリ・デバイスを含んでいてもよい。
図6のA〜Cに示した例では、システム600A〜600Cは電話エンドポイント601A〜601Cおよびアンパック・ユニット603A〜603Cを含む。アンパック・ユニット603A〜603Cのそれぞれは、いくつかの実装では、図2を参照して上記したアンパック・ユニット35〜37の一つと同様の機能を有していてもよい。アンパック・ユニット603A〜603Cは、本稿の他所で開示されるもののような遠隔会議ミキサーの一部であってもよい。電話エンドポイント601A〜601Cは、音を入力波形に変換するための一つまたは複数のマイクロフォン(図示せず)を含んでいてもよい。
図6Aに示した実装によれば、電話エンドポイント601Aは特徴抽出器401Aを含み、アンパック・ユニット603Cはイベント検出器402Aを含む。この例では、特徴抽出器401AはVAD機能ができる。よって、特徴抽出器401Aは、入力波形601Aを受領して、VAD結果504Aをマルチプレクサ606Aに出力することができる。この実装では、オーディオ・エンコーダ604Aは、入力波形601Aをエンコードし、エンコードされたオーディオ・データ607Aをマルチプレクサ606Aに出力することができる。ここで、マルチプレクサ606Aは、VAD結果504Aおよびエンコードされたオーディオ・データ607Aを組み合わせることができる。電話エンドポイント601Aはアップリンク・ストリーム605Aをネットワーク602に出力することができる。
図6のAに示される例では、アンパック・ユニット603Aは、アップリンク・ストリーム605Aを受領し、エンコードされたオーディオ・データ607AからVAD結果504Aを分離することができるデマルチプレクサ609Aを含む。この実装では、デマルチプレクサ609AはVAD結果504Aをイベント検出器402Aに出力することができる。イベント検出器402Aはイベント405Aを検出し、出力することができる。ここで、デマルチプレクサ609Aは、エンコードされたオーディオ・データ607Aをデコーダ608Aに出力することができる。デコーダ608Aはオーディオ・データ607Aをデコードして、デコードされたオーディオ・データ613Aを出力することができる。
図6のBに示した例では、システム600Bは電話エンドポイント601Bおよびアンパック・ユニット603Bを含む。この実装では、電話エンドポイント601Bは、入力波形610Bを受領し、エンコードされたオーディオ・データ607Bを出力できるオーディオ・エンコーダ604Bを含む。エンコードされたオーディオ・データ607Bは、アップリンク・ストリーム605Bにおいてネットワーク602に与えられる。
図6のBに示した例では、アンパック・ユニット603Bはデコーダ608Bを含む。デコーダ608Bは、アップリンク・ストリーム605Bをデコードして、デコードされたオーディオ・データ613Bを出力することができる。この実装では、アンパック・ユニット603Bは特徴抽出器401Bを含む。特徴抽出器401Bはデコードされたオーディオ・データ613Bを受領し、特徴404を抽出することができる。この例では、特徴抽出器401Bは、特徴404をイベント検出器402Bに出力することができる。イベント検出器402Bは、イベント405Bを検出し、出力することができる。
図6のCに示される実装によれば、電話エンドポイント601Cは特徴抽出器401Cおよびイベント検出器402Cを含む。この例では、特徴抽出器401CはVAD機能ができる。よって、特徴抽出器401Cは、入力波形601Cを受領して、VAD結果504Cをマルチプレクサ606Cおよびイベント検出器402Cに出力することができる。この実装では、オーディオ・エンコーダ604Cは、入力波形610Cをエンコードし、エンコードされたオーディオ・データ607Cをマルチプレクサ606Cに出力することができる。この例では、イベント検出器402Cは、VAD結果504Cに基づいてイベント405Cを検出し、イベント405Cをマルチプレクサ606Cに出力することができる。ここで、マルチプレクサ606Cは、VAD結果504C、イベント405Cおよびエンコードされたオーディオ・データ607Cを組み合わせることができる。これらはみなアップリンク・ストリーム605Cにおいてネットワーク602に与えられる。
図6のCに示される例では、アンパック・ユニット603Cは、アップリンク・ストリーム605Cを受領し、エンコードされたオーディオ・データ607CからVAD結果504Cおよびイベント405Cを分離することができるデマルチプレクサ609Cを含む。この実装では、デマルチプレクサ609Cは、エンコードされたオーディオ・データ607Cをデコーダ608Cに出力することができる。デコーダ608Cはオーディオ・データ607Cをデコードして、デコードされたオーディオ・データ613Cを出力することができる。
まとめ
したがって、好ましい実施形態が、好適なトリガーを求めてオーディオ環境をモニタリングし、該トリガーが生起するような時点まで遷移を遅らせることによって、オーディオ会議遷移をマスクするための方法およびシステムを提供することは明らかであろう。
〈解釈〉
本明細書を通じて、「一つの実施形態」「いくつかの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記述されている特定の特徴、構造または特性が本発明の少なくとも一つの実施形態に含まれることを意味する。よって、本明細書を通じた随所に「一つの実施形態では」「いくつかの実施形態では」または「ある実施形態では」という句が現われるのは、必ずしもみなが同じ実施形態を指しているのではないが、そうであることもありうる。さらに、具体的な特徴、構造または特性は、一つまたは複数の実施形態において、本開示から当業者には明白であろう任意の好適な仕方で組み合わされてもよい。
付属の請求項および本稿の記述において、有する、から構成される、含むという用語の任意のものは、少なくともその後続の要素/特徴を含むが他のものを排除しないことを意味するオープンな用語である。よって、請求項において使われるときの有するの該用語は、その後に挙げられる手段または要素または段階に制限するものとして解釈されるべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本稿で使われる含む、含んでいるという用語の任意のものも、少なくともその用語に続く要素/特徴を含むが他のものを排除しないことを意味する。よって、含むは、有すると同義であり、有するを意味する。
本稿での用法では、用語「例示的」は、性質を示すのではなく、例を挙げる意味で使われる。すなわち、「例示的実施形態」は、必ず例示的な性質の実施形態であるのではなく、例として与えられている実施形態である。
本発明の例示的実施形態の上記の記述において、開示の流れをよくし、さまざまな発明側面の一つまたは複数のものの理解を助けるため、本発明のさまざまな特徴が時に単一の実施形態、図面またはその記述にまとめられていることを理解しておくべきである。しかしながら、この開示法は、請求される発明が、各請求項に明示的に記載されているよりも多くの事項を必要とするという意図を反映したものと解釈されるものではない。むしろ、付属の請求項が反映するように、発明の諸側面は、単一の上記の開示される実施形態の全事項よりも少ないものに存する。このように、付属の請求項は、ここに明示的に詳細な説明に組み込まれ、各請求項がそれ自身として本発明の別個の実施形態をなす。
さらに、本稿に記載されるいくつかの実施形態が他の実施形態に含まれるいくつかの特徴を含むが他の特徴を含まなくても、異なる実施形態の特徴の組み合わせは本発明の範囲内であり、異なる実施形態をなすことが意図されている。当業者はこれを理解するであろう。たとえば、付属の請求項では、請求される実施形態の任意のものが任意の組み合わせにおいて使用できる。
さらに、実施形態のいくつかは、本稿では方法または方法の要素の組み合わせであって、コンピュータ・システムのプロセッサによってまたは該機能を実行する他の手段によって実装されることができるものとして記述されている。よって、そのような方法または方法の要素を実行するための必要な命令をもつプロセッサは、前記方法または方法の要素を実行する手段をなす。さらに、装置実施形態の本稿に記載される要素は、本発明を実行するための該要素によって実行される機能を実行する手段の一例である。
一つまたは複数のコンピュータ可読媒体の任意の組み合わせが利用されうる。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体でありうる。コンピュータ可読記憶媒体は、たとえば、電子式、磁気式、光学式、電磁式、赤外線または半導体のシステム、装置またはデバイスまたは上記の任意の好適な組み合わせであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより特定的な例(網羅的でないリスト)は、以下のものを含みうる:一つまたは複数のワイヤを有する電気接続、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能な読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバー、ポータブルなコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせ。本稿の文脈では、コンピュータ可読記憶媒体は、命令実行システム、装置またはシステムによってまたは命令実行システム、装置またはシステムとの関連で使うためのプログラムを含むまたは記憶することができる任意の有体の媒体でありうる。
コンピュータ可読信号媒体は、コンピュータ可読プログラム・コードがたとえばベースバンドでまたは搬送波の一部としてその中に具現されている伝搬されるデータ信号を含んでいてもよい。そのような伝搬される信号は多様な形をとってもよい。それは、電磁信号または光信号またはそれらの任意の好適な組み合わせを含むがそれに限られない。
コンピュータ可読信号媒体は、命令実行システム、装置またはシステムによってまたは命令実行システム、装置またはシステムとの関連で使うためのプログラムを通信、伝搬または転送することができる、コンピュータ可読記憶媒体ではない任意のコンピュータ可読媒体でありうる。
コンピュータ可読媒体に具現されるプログラム・コードは、無線、有線、光ファイバーケーブル、RFなどまたは上記の任意の好適な組み合わせを含むがそれに限られないいかなる適切な媒体を使って伝送されてもよい。
本発明の諸側面についての動作を実行するためのコンピュータ・プログラム・コードは、ジャバ、スモールトーク、C++などのようなオブジェクト指向プログラミング言語およびCプログラミング言語または同様のプログラミング言語のような通常の手続き型言語を含む一つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。プログラム・コードは、完全にユーザーのコンピュータ上でスタンドアローンのソフトウェア・パッケージとして実行されてもよいし、あるいは部分的にはユーザーのコンピュータ上で部分的にはリモート・コンピュータ上で実行されてもよいし、あるいは完全にリモート・コンピュータまたはサーバー上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含むいかなる型のネットワークを通じてユーザーのコンピュータに接続されてもよく、あるいは(たとえばインターネット・サービス・プロバイダーを使ってインターネットを通じて)外部コンピュータに接続がされてもよい。
本稿で与えられる記述では、数多くの個別的詳細が記載される。しかしながら、本発明の実施形態がそうした個別的詳細なしでも実施されうることは理解される。他方、本記述の理解をかすませないために、よく知られた方法、構造および技法は詳細に示していない。
このように、本発明の好ましい実施形態であると思われることを記述してきたが、当業者は本発明の精神から外れることなく、それに他のおよびさらなる修正がなされてもよいことを認識するであろう。それらすべての変更および修正を本発明の範囲内にはいるものとして請求することが意図されている。たとえば、上記の公式はいずれも単に使用されうる手順の代表である。ブロック図から機能が追加または削除されてもよく、機能ブロックの間で動作が交換されてもよい。本発明の範囲内で記述される方法に段階が追加または削除されてもよい。

Claims (12)

  1. 混合遷移イベントを含む、会議参加者の入力オーディオ情報の複数のオーディオ入力ストリームを受け、出力オーディオ情報を含む複数のオーディオ出力ストリームを出力する型のオーディオ会議混合システムにおいて、混合遷移イベントの検出可能性を低減するよう前記オーディオ出力ストリームを混合する方法であって:
    (a)遷移イベントが起ころうとしていることを判別する段階と;
    (b)マスキング・トリガーが起ころうとしていることを判別する段階と;
    (c)前記遷移イベントを実質的に、前記マスキング・イベントが起こるときに起こるようスケジュールする段階とを含む、
    方法。
  2. 前記混合遷移イベントは、孤立して聴取しているときに聴取参加者に知覚可能であろうオーディオ入力ストリーム・エンコードにおける変化を含む、請求項1記載の方法。
  3. 前記マスキング・トリガーは:
    発話の開始または終了;
    発話特性の所定の変化;または
    所定数の参加者による同時発話の開始
    のうちの少なくとも一つを含む、請求項1または2記載の方法。
  4. 前記スケジュールすることは、前記遷移イベントの生起を、前記マスキング・トリガーが生起するまで遅らせることを含む、請求項1ないし3のうちいずれか一項記載の方法。
  5. 前記マスキング・トリガーは、前記オーディオ入力ストリームの一つにおける発話の開始または終了を含む、請求項1ないし4のうちいずれか一項記載の方法。
  6. 前記マスキング・トリガーは、前記会議参加者の少なくとも一による所定のテキストの発声を含む、請求項1ないし5のうちいずれか一項記載の方法。
  7. 前記オーディオ入力ストリームの一つにおけるボリュームおよび/または所定のスペクトル・フラックスの増大の存在が、前記オーディオ入力ストリームの前記一つにおけるマスキング・トリガーを示す、請求項1ないし6のうちいずれか一項記載の方法。
  8. 発話の前記開始または終了は、前記オーディオ入力ストリームの一つにおける声活動フラグの値の変化によって表わされる、請求項3記載の方法。
  9. 前記マスキング・イベントが、一連のオーディオ入力ストリームの聴覚シーン解析によって決定される、請求項1ないし8のうちいずれか一項記載の方法。
  10. 前記オーディオ入力ストリームは、少なくとも一つのCTX(連続伝送)オーディオ入力ストリームおよび少なくとも一つのDTX(離散伝送)オーディオ入力ストリームを含む、請求項1ないし9のうちいずれか一項記載の方法。
  11. 複数のオーディオ入出力装置からオーディオ入力アップリンク・ストリームを受領する複数のオーディオ・ストリーム入力ユニットであって、前記オーディオ入力アップリンク信号は、孤立して聴取しているときに聴取参加者に知覚可能であろう前記オーディオ・アップリンク・ストリームにおける変化の遷移イベント信号および前記オーディオ入力アップリンク・ストリームにおける所定のオーディオ・イベントを表わすマスキング・トリガー信号を含む、オーディオ・ストリーム入力ユニットと;
    前記複数のオーディオ入出力装置のそれぞれに返すためのダウンリンク出力をそれぞれ形成する一連のオーディオ・サブ混合ユニットとを有しており、各オーディオ・サブ混合ユニットは、前記オーディオ・ストリーム入力ユニットの所定のものに相互接続されていて、それに関連する前記オーディオ入力アップリンク・ストリームを混合するものであり、前記オーディオ・サブ混合ユニットはさらに:
    入力されたオーディオ・ストリームの混合の形を制御し、前記遷移イベント信号に応答して混合の形を変更する第一の制御ユニットと;
    混合の形の前記変更を、前記オーディオ入力アップリンク・ストリームの少なくとも一つにおいてマスキング・トリガー信号が存在するような時まで遅らせるための第二の制御ユニットとをさらに有する、
    オーディオ混合システム。
  12. 遠隔会議混合システムにおいて使うための装置であって、複数のオーディオ入力ストリームを受領し、それらのオーディオ入力ストリームに基づいて少なくとも一つのオーディオ出力ストリームを生成するよう構成されている装置のプロセッサによって実行されたときに、前記装置に請求項1ないし10のうちいずれか一項記載の方法を実行させる、コンピュータにより解釈可能な命令を担持しているコンピュータ可読媒体。
JP2016553857A 2014-02-28 2015-02-17 会議における変化盲を使った知覚的連続性 Active JP6224850B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461946030P 2014-02-28 2014-02-28
US61/946,030 2014-02-28
PCT/US2015/016100 WO2015130509A1 (en) 2014-02-28 2015-02-17 Perceptual continuity using change blindness in conferencing

Publications (2)

Publication Number Publication Date
JP2017510179A true JP2017510179A (ja) 2017-04-06
JP6224850B2 JP6224850B2 (ja) 2017-11-01

Family

ID=52737385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016553857A Active JP6224850B2 (ja) 2014-02-28 2015-02-17 会議における変化盲を使った知覚的連続性

Country Status (5)

Country Link
US (1) US9876913B2 (ja)
EP (1) EP3111627B1 (ja)
JP (1) JP6224850B2 (ja)
CN (1) CN106031141B (ja)
WO (1) WO2015130509A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015130508A2 (en) 2014-02-28 2015-09-03 Dolby Laboratories Licensing Corporation Perceptually continuous mixing in a teleconference
US11076052B2 (en) * 2015-02-03 2021-07-27 Dolby Laboratories Licensing Corporation Selective conference digest
US10771631B2 (en) * 2016-08-03 2020-09-08 Dolby Laboratories Licensing Corporation State-based endpoint conference interaction
US10237654B1 (en) 2017-02-09 2019-03-19 Hm Electronics, Inc. Spatial low-crosstalk headset
US10511806B2 (en) * 2017-09-30 2019-12-17 International Business Machines Corporation Mitigating effects of distracting sounds in an audio transmission of a conversation between participants
CN107888771B (zh) * 2017-11-08 2021-06-15 陕西中联电科电子有限公司 一种基于安卓平台的多语音融合通信方法
EP3830823B1 (en) 2018-07-27 2022-04-27 Dolby Laboratories Licensing Corporation Forced gap insertion for pervasive listening
JP2022527111A (ja) 2019-04-03 2022-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション スケーラブル音声シーンメディアサーバ

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976055B1 (en) * 2001-01-18 2005-12-13 Cisco Technology, Inc. Apparatus and method for conducting a transfer of a conference call
JP2008034979A (ja) * 2006-07-26 2008-02-14 Yamaha Corp 音声通信装置、および音声通信システム
JP2008141505A (ja) * 2006-12-01 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体
JP2012146072A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570606B1 (en) 1998-05-29 2003-05-27 3Com Corporation Method and apparatus for controlling transmission of media signals over a data network in response to triggering events at participating stations
US7006616B1 (en) 1999-05-21 2006-02-28 Terayon Communication Systems, Inc. Teleconferencing bridge with EdgePoint mixing
US6650745B1 (en) 1999-06-10 2003-11-18 Avaya Technologies Corp. Method and apparatus for dynamically exchanging data among participants to a conference call
US6850496B1 (en) 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US7298834B1 (en) 2002-11-22 2007-11-20 3Com Corporation System and method for large capacity conference calls
NO318401B1 (no) * 2003-03-10 2005-03-14 Tandberg Telecom As Et audio-ekkokanselleringssystem og en fremgangsmate for a tilveiebringe et ekkodempet utgangssignal fra et ekkotillagt signal
US20050122389A1 (en) 2003-11-26 2005-06-09 Kai Miao Multi-conference stream mixing
US7985138B2 (en) 2004-02-17 2011-07-26 International Business Machines Corporation SIP based VoIP multiplayer network games
CN1859511A (zh) 2005-04-30 2006-11-08 华为技术有限公司 一种电话会议混音方法
CN101326801B (zh) 2005-10-31 2012-09-05 艾利森电话股份有限公司 用于电话会议期间捕获语音的方法和装置
US7599834B2 (en) 2005-11-29 2009-10-06 Dilithium Netowkrs, Inc. Method and apparatus of voice mixing for conferencing amongst diverse networks
US7379450B2 (en) 2006-03-10 2008-05-27 International Business Machines Corporation System and method for peer-to-peer multi-party voice-over-IP services
US20070263824A1 (en) 2006-04-18 2007-11-15 Cisco Technology, Inc. Network resource optimization in a video conference
CN101432965B (zh) 2006-04-27 2012-07-04 杜比实验室特许公司 使用基于特性响度的听觉事件检测的音频增益控制
ATE527810T1 (de) 2006-05-11 2011-10-15 Global Ip Solutions Gips Ab Tonmischung
EP2047669B1 (de) 2006-07-28 2014-05-21 Unify GmbH & Co. KG Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern
JP4582238B2 (ja) 2006-08-30 2010-11-17 日本電気株式会社 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム
US20080159507A1 (en) 2006-12-27 2008-07-03 Nokia Corporation Distributed teleconference multichannel architecture, system, method, and computer program product
US8218460B2 (en) 2006-12-27 2012-07-10 Laura Laaksonen Network entity, method and computer program product for mixing signals during a conference session
US20080252637A1 (en) 2007-04-14 2008-10-16 Philipp Christian Berndt Virtual reality-based teleconferencing
JP5192544B2 (ja) 2007-07-13 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景分析とスペクトルの歪みを用いた音響処理
US8073125B2 (en) 2007-09-25 2011-12-06 Microsoft Corporation Spatial audio conferencing
CN102016985B (zh) * 2008-03-04 2014-04-02 弗劳恩霍夫应用研究促进协会 对输入数据流进行混合以及从中产生输出数据流
US8265252B2 (en) 2008-04-11 2012-09-11 Palo Alto Research Center Incorporated System and method for facilitating cognitive processing of simultaneous remote voice conversations
US20090316870A1 (en) * 2008-06-19 2009-12-24 Motorola, Inc. Devices and Methods for Performing N-Way Mute for N-Way Voice Over Internet Protocol (VOIP) Calls
US9449614B2 (en) * 2009-08-14 2016-09-20 Skype Controlling multi-party communications
US8577057B2 (en) * 2010-11-02 2013-11-05 Robert Bosch Gmbh Digital dual microphone module with intelligent cross fading
KR101859246B1 (ko) * 2011-04-20 2018-05-17 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 허프만 부호화를 실행하기 위한 장치 및 방법
JP6133413B2 (ja) 2012-06-14 2017-05-24 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオのためのなめらかな構成切り換え
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9628630B2 (en) 2012-09-27 2017-04-18 Dolby Laboratories Licensing Corporation Method for improving perceptual continuity in a spatial teleconferencing system
US20140278380A1 (en) 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976055B1 (en) * 2001-01-18 2005-12-13 Cisco Technology, Inc. Apparatus and method for conducting a transfer of a conference call
JP2008034979A (ja) * 2006-07-26 2008-02-14 Yamaha Corp 音声通信装置、および音声通信システム
JP2008141505A (ja) * 2006-12-01 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体
JP2012146072A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラム

Also Published As

Publication number Publication date
US9876913B2 (en) 2018-01-23
JP6224850B2 (ja) 2017-11-01
WO2015130509A1 (en) 2015-09-03
CN106031141A (zh) 2016-10-12
EP3111627A1 (en) 2017-01-04
CN106031141B (zh) 2017-12-29
EP3111627B1 (en) 2018-07-04
US20170078488A1 (en) 2017-03-16

Similar Documents

Publication Publication Date Title
JP6224850B2 (ja) 会議における変化盲を使った知覚的連続性
JP6408020B2 (ja) 遠隔会議における知覚的に連続的な混合
US9858936B2 (en) Methods and systems for selecting layers of encoded audio signals for teleconferencing
EP2973552B1 (en) Spatial comfort noise
US9781273B2 (en) Teleconferencing using monophonic audio mixed with positional metadata
CN110024029B (zh) 音频信号处理
US9628630B2 (en) Method for improving perceptual continuity in a spatial teleconferencing system
JP2018185401A (ja) 音声対話システムおよび音声対話方法
EP3228096A1 (en) Audio terminal
US8553520B2 (en) System and method for echo suppression in web browser-based communication
CN113678198A (zh) 音频编解码器扩展
EP2779161B1 (en) Spectral and spatial modification of noise captured during teleconferencing
US20140046656A1 (en) Method and apparatus for automatic communications system intelligibility testing and optimization
JP2007158526A (ja) 発話抑制装置、発話抑制方法および発話抑制装置のプログラム
EP4354841A1 (en) Conference calls
EP4037339A1 (en) Selecton of audio channels based on prioritization
Färber et al. High-Definition Audio for Group-to-Group Communication

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171005

R150 Certificate of patent or registration of utility model

Ref document number: 6224850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250