JP2005130501A - 複数人参加型の通信に動的変更可能なプロパティをそれぞれ少なくとも1個有する通信チャネルを提供する方法及びシステム - Google Patents

複数人参加型の通信に動的変更可能なプロパティをそれぞれ少なくとも1個有する通信チャネルを提供する方法及びシステム Download PDF

Info

Publication number
JP2005130501A
JP2005130501A JP2004306341A JP2004306341A JP2005130501A JP 2005130501 A JP2005130501 A JP 2005130501A JP 2004306341 A JP2004306341 A JP 2004306341A JP 2004306341 A JP2004306341 A JP 2004306341A JP 2005130501 A JP2005130501 A JP 2005130501A
Authority
JP
Japan
Prior art keywords
communication channel
property
communication
channel
subscribers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004306341A
Other languages
English (en)
Other versions
JP2005130501A5 (ja
Inventor
Alison G Woodruff
ジー ウッドラフ アリソン
Paul M Aoki
エム アオキ ポール
Margaret H Szymanski
エイチ スジマンスキー マーガレット
James D Thornton
ディ ソーントン ジェームス
Daniel H Wilson
エイチ ウィルソン ダニエル
Chien Yu
ユー チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2005130501A publication Critical patent/JP2005130501A/ja
Publication of JP2005130501A5 publication Critical patent/JP2005130501A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/563User guidance or feature selection
    • H04M3/564User guidance or feature selection whereby the feature is a sub-conference

Abstract

【課題】通信チャネルスイッチ等のプロパティ変更を好適に行えるようにする。
【解決手段】通信デバイス2013と通信デバイス2014とによる加入者2011,2012間の通信に際して、まず動的に変更可能な一組のプロパティを有する通信チャネル2016,2017を定義することによりコンテンツ配信構造を決定する。通信に介在するサーバ2015に設けた監視機能2020により任意データ源やコンテンツ等を監視しつつコンテンツ配信を実行する。更に、サーバ2015にモデリング機能2021を設け、監視結果に基づき通信チャネル2016,2017について品質プロパティ2023等をモデル化する。そして、モデル化の結果に基づき通信チャネル2016,2017を動的に変更する。これによって、複数人参加型の通信を通じて動的に変更可能なプロパティを少なくとも1個有する通信チャネルを、提供できる。
【選択図】図4

Description

本願は、2003年10月22日提出の米国暫定特許出願第60/513825号に基づく優先権主張、並びに2004年3月24日提出の米国特許出願第10/809018号に基づく優先権主張を伴う出願である。
本発明は、コンピュータを媒介とするグループ通信システムに関する。
複数人参加型の通信の過程を通じて、加入者(群)が現用している通信手段の適合性(suitability)はいくつかの要因により変動する。例えば、加入者(群)のおかれている環境は周囲の雑音や干渉等によって変化する。同様に、通信チャネルそれ自体も、雑音や干渉の影響を受けると共に、容量や媒体種別等による物理的制約を受ける。更に、加入者による明示的な入力例えば通信装置の制御回路に対する利得低下指令も、通信チャネルの適合性に影響を及ぼす。加えて、通信チャネルに対しては、進行中の通信の内容や更にはそれが原因で生じる干渉により、ある種の形態による改変が求められることがある。
心理学的要因、社会学的要因その他の関連要因の中には、通信チャネルに変更を及ぼす必要があることを加入者自身が認識している場合にあってなお、様々な心理学的要因、社会学的要因その他の関連要因が、加入者が通信チャネルの変更しようとする場合に影響を及ぼす。例えば、プッシュトゥトーク送信モードを装備した双方向無線を用いて通話している加入者ペアは、その通話を通じて緊密に結びつけられているため、通話による議論の継続を望んだ末に通信装置の限界を超えそうになることがある。この場合、加入者ペアが“媒体切替”に同意して、現在の必要により適したプロパティを呈する通信チャネルへ切り替えること、具体的には従来型電話による通信へと切り替え、この新しい通信チャネルにて通話を再開することが望ましい。しかしながら、媒体切替に同意するに当たっては、新しい通信チャネルにトランザクションを確立しなければならない。更に、媒体切替に対する同意は、通話継続に対する参加者の合意を含むものでなければならないが、それにはより高レベルで緊密である必要があり、更に長々と通信する必要があるだろう。逆に、複数人参加型で通信中の加入者たちがその種の媒体切替を行う必要性に気づかず、彼ら自身の通信を非効率的にしかやり通せないこともあろう。
通信チャネルは、それに関連づけられている一組の通信プロパティを有する。このプロパティ群は、その通信チャネルを介して配信される情報乃至コンテンツの構造を実質的に決定づける。例えば、チャネル品質プロパティがバイナリによる又はカテゴリ的なパラメータセッティングから構成されるのに対し、パラメトリックプロパティは実質的に連続的なパラメータセッティングから構成される。通信チャネルには前記に挙げた2つのプロパティ以外にも変更可能な要素があり、その要素によってチャネルプロパティは区別可能である。しかしチャネルプロパティとその種の要素とが同種の効果を有するものではない。例えば、通信システムは、その通信チャネルにより配信される情報の構造を、実質的に変化させることなしに通信チャネルを補強するインジケータを、組み込むことが出来る。
Wilson, T.P. and Zimmerman, D.H., "The Structure of Silence Between Turns in Two-Party Conversation", Discourse Processes 9 (1986), 375-390 R. Cowie et al., "Emotion Recognition in Human-Cmputer Interaction", IEEE Signal Processing, Jan. 2001, 32-80 H.H. Clark and S.E. Brennan, "Perspectives on Socially Shared Cognition", L.B Resmck, R.M. Levine, and S.D. Teasley (eds.) APA, Washington, DC, 127-149
公知システムの中には、パラメトリックプロパティに関連したスピーチ起動型自動アクション(speech-triggered automatic action)をサポートするものがある。例えば、音声遠隔会議システムにおいては、音量自動制御が広く採用されている。スピーチ起動型自動アクションの音量制御においては、音量の時間変動は小さいとの仮定の下に、加入者間の利得が適正化されるようマイクの音量が動的に調整される。また、他の例としては、遠隔会議システムにおいて広く用いられている話者選択機構がある。話者選択機構は自動話者選択アルゴリズムを備え、遠隔会議参加者たちの中から、瞬時瞬時における話者を追跡し、同時に話をすることができる人数を絞っている。しかしながらこれらのシステムは、複数人参加型の通信形態(social pattern of human communication)を根本的に変えることはない、そして質的チャンネルプロパティを自動的に変更することもない。
公知のシステムの中には、パラメトリックプロパティに関連した媒体ストリームを制御するマニュアルユーザインタフェースを含むものがある。この種のマニュアルインタフェースによれば、音源選択を含め、各種のパラメトリックプロパティを制御することができる。まず、ある公知の音声遠隔会議システムにおいては、加入者は、単純なミキシング機能を用いることにより、聴取対象音声ストリームをマニュアル特定することができる。そのミキシング機能は、聴取対象とする特定加入者の選択といった単純なパラメトリックプロパティを構成する。また、他の公知の遠隔会議システムにおいては、加入者は、択一的な選択をすることで音声ストリーム指定することが出来る。例えば、映像会議において、あるグループのメンバーが映し出されている画像を注視することで、そのグループを選択していることを明示する、というような方法である。更にその結果に基づきミキシングが実行される。このミキシング機能も、単純なパラメトリックプロパティによって構成されている。更に他の公知システムにおいては、他のパラメトリックプロパティ(例えば時間軸圧縮乃至“スピードアップ音声”)に係るマニュアル手段を用いた制御を実現する音声速度選択機能が、提供される。また、品質プロパティを制御するマニュアルインタフェースを備えたシステムとしては、例えば、部分韻律保存(partially-prosody-preserving)スピーチスクランブリング等のスピーチインテリジビリティを提供するシステムが、公知である。このシステムにおいては、自分のマイクから送られてゆく音声信号を明瞭(intelligible)にするか不明瞭にするかを、特定のエンドユーザが選択できる。スピーチを不明瞭にするためのアルゴリズムは、切迫性や感動等を含めスピーチの全てのトーンを保存するよう、またたとえ不完全でも聴取者における話者識別可能性を保存するよう、設計される。更に、チャネルプロパティ変化を開始させるには、エンドユーザアクションが一方的であるか、又は連続的にネゴシエートされることが、必要である。例えばある加入者がボタンを押した結果変化が生じる場合等のように、一方的なプロパティ変化は一方的なアクションによって生じるものである。連続的にネゴシエートされたプロパティ変化は、複数の加入者を巻き込んだ一連のステップ、例えば電話コールのセッティングに続いて起こるものである。最後に、公知のシステムの中には、第1の加入者による起動ステップ実行後に、第2の加入者による受容ステップ実行を必要とするものがある。例えば第1の加入者がサイドカンファレンスセッションを立ち上げ、それに第2の加入者が参加するものである。この種のステップは特定の要求とそれに対する応答とによるネゴシエーションにて構成されるものであり、またこのネゴシエーションは、要求に対して応答を返すという強い因果性(causal dependence)と規則正しく動作するという継起性(temporal ordering)とを併有するものである。しかしながら、この種の通信システムにおいては、複数の加入者により相独立に行われるユーザインタフェース挙動に応答して、チャネルプロパティが変化することがない。
最後に、公知の遠距離通信システムの中には、システムのユーザインタフェースにおける変更を許容するものがある。例えば、既存のソフトウエア通信アプリケーションの多くはメニュー及びモードを有している。同様に、LCDディスプレイを有する既存のセルラーホンハンドセットの多くはプログラマブルなソフトキーを有しており、このソフトキーには、例えばコールが進行中であるか否か等の状況に応じて可変的に、機能を割り当てることができる。また、視線検出器が付加された電話機に向け視線を注ぐことによりユーザが新たな通信チャネル(例えば電話コール)を確立できる方法が、知られている。但し、定義からすれば、新たな通信チャネルの確立は既存の通信チャネルの変更ではないといえる。また、直接通信とは言い得ない形態にてユーザ間で情報をやりとりする方法が、知られている。例えば、潜在的な受呼者のハンドセットにより捕捉されたセンサ入力に基づき、潜在的な発呼者側において潜在的な受呼者と対面会話できそうであることを検出する、という形態である。この形態においては、情報はチャネルではなくインジケータを通過するため、チャネルのプロパティには関連を有していない。ユーザインタフェースに対するこの種のシステムの効果は、通信チャネルを通過する情報の構造が変化しない、という効果である。最後に、公知のシステムの中には、チャネルの物理的出力デバイスを変化させるものがある。この種のシステムでは、2個のスピーカのうちどちらで音声を再生するかを選択する。例えば、電話ハンドセットの音声をスピーカから出力するか、イヤホンから出力するかを、ユーザの頭部に対するハンドセットの近さに応じて切り替える。但し、チャネルコンテンツは変わらない、又ユーザ対他のユーザの通信が全二重の音声により行われることも変わらない。しかしながら、この遠距離通信システムにおいては、通信チャネルのプロパティに関連してユーザインタフェースを変化させることが、許されていない。
本発明は、複数人参加型の通信を通じて動的に変更可能なプロパティを少なくとも1個有する通信チャネルを提供する方法であって、動的に変更可能な一組のプロパティを有する通信チャネルを定義することによりコンテンツ配信構造を決定するステップと、少なくとも1個の任意データ源を監視しつつ、少なくとも2個の加入者間を接続する通信チャネルを介してコンテンツを配信するステップと、上記少なくとも1個の任意データ源の監視結果に基づき、上記通信チャネルについて少なくとも1個の所望の品質プロパティをモデル化するステップと、上記少なくとも1個の所望の品質プロパティに基づき、上記通信チャネルについての上記一組のプロパティを動的に変更するステップと、を含むことを特徴とする。
本発明の一実施形態に係る方法は、コンピュータによる制御の下に通信システムにおいて使用される方法である。本方法は、それぞれ複数の通信源のうちいずれかから寄せられている複数の通信を受信するステップを含む。加えて、本方法は、複数の通信源に関連づけられている(複数の)出力毎の(複数の)通信を(複数のフロアコントロールに応じて)ミキシングするステップを含む。更に、本方法は、複数の通信源に関連づけられている(複数の)ユーザ毎に、当該複数のユーザのうち1人又はそれ以上についての一種又はそれ以上の会話特性を解析するステップを、含む。本方法は、また、解析ステップの結果に応じ複数のフロアコントロールを自動的に調整するステップを含む。本方法をコンピュータにより実行させるためのプログラム製品と共に本方法を用いるシステム及びデバイスはまた、本発明の他の実施形態を構成する。
本発明の更に他の実施形態に係る方法は、コンピュータによる制御の下に音声通信システムにおいて使用される方法である。本方法は、それぞれ複数の音源のうちいずれかから寄せられている複数の音声ストリームを受信するステップを含む。加えて、本方法は、複数の音源に関連づけられている(複数の)出力毎の(複数の)音声ストリームを(複数のフロアコントロールに応じて)ミキシングするステップを含む。更に、本方法は、複数の音源に関連づけられている(複数の)ユーザ毎に、当該複数のユーザそれぞれについての一種又はそれ以上の会話特性を解析するステップを、含む。本方法は、また、解析ステップの結果に応じ複数のフロアコントロールを自動的に調整するステップを含む。
従って、本発明の上記実施形態に係る方法によれば、(これに限られるものではないが)ユーザによる発声や他のユーザによる発声に対するユーザの生理学的反応等、源から配信された情報を含む各種の会話特性を、コンピュータにより解析することができる。
本発明の更に他の実施形態に係る方法は、コンピュータによる制御の下にコンピュータを媒介とした通信を行う方法であり、それぞれ複数の通信源のうちいずれかから寄せられている複数の通信ストリームを受信するステップを含む。本方法は、更に、複数のフロアコントロールに応じ、複数の通信源に関連づけられている(複数の)出力毎の(複数の)通信ストリームをミキシングするステップを含む。本方法は、更に、第1のユーザによるアクションを解析することによりそのアクションが第2のユーザによるアクションに対する応答であるか否かを判別し、その結果に応じ複数のフロアコントロールを自動的に調整するステップを含む。ここに、第1のユーザと第2のユーザとは複数の通信源のうち互いに異なるものに関連づけられているものとする。
本発明の更に他の実施形態に係る方法は、コンピュータによる制御の下にコンピュータを媒介とした通信を行う方法であり、それぞれ複数の通信源のうちいずれかから寄せられている複数の通信ストリームを受信するステップを含む。本方法は、更に、複数のフロアコントロールに応じ、複数の通信源に関連づけられている(複数の)出力毎の(複数の)通信ストリームをミキシングするステップを含む。本方法は、更に、第1のユーザによるアクションを解析することによりそのアクションが第2のユーザを参照しているか否かを判別し、その結果に応じ複数のフロアコントロールを自動的に調整するステップを含む。
本発明の一実施形態に係る媒体通信システムは、人間会話挙動についての自動検出機能を備える。本実施形態においては、例えば、会話グループメンバーシップに関する確率推論を、特定可聴キューと会話中のアクションとの間に存する量的時間関係(これを“時間的フィーチャ”と称する)等の会話特性に基づき、実行する。従って、本実施形態によれば、所与のユーザによる発声の存否やスピーチ中における特定発声の存否を信頼性よく検出できる可能性に基づいているため、その実施に当たってユーザ等が人間によるスピーチに関し理解している必要がない。
また、上掲の会話特性には、音声特性と(バイオメトリックデバイスにより判別される類の)生理学的特性とが、併含され得る。本願中に明記した大抵のものは音声特性であるけれども、当業界において通常の熟練を積んだものであれば、本願による開示を参照して得られるものと等価な技術を、グループ通信サーバ103により受信可能な各種の生理学的特性即ち利用可能な生理学的特性に、適用することができる。
ユーザ発声存否の検出は、のどマイクや骨伝導マイクを用いて音声をキャプチャし、このキャプチャした音声を、単純な信号検出アルゴリズム(例えばエネルギしきい値や信号ゼロクロスレートを用いたアルゴリズム)を用い、スピーチと静音とにセグメント化することにより、実行できる。なお、従来におけるマイクは、ユーザによるスピーチを人間が聴取するという目的でキャプチャするのに、使用されていた。本発明の実施に当たりスピーチ検出向けの特殊なマイクを使用することは、有益ではあるが必ずしも必要ではない。なぜなら、その種のマイクは、信号検出アルゴリズムが許容しなければならない(即ちこれに依拠している)外部雑音の量を、低減させるからである。
更に、前掲の時間的フィーチャは、既知のパターン認識技術を用いて分類することができる。その方法の一つは、量的フィーチャの値を既知の分布と比較することである。例えば、多人数での(multiparty)会話から得られた音声は、セグメント化することができ、ラベルを付すことができ、そして
Figure 2005130501
(ナイーブベイズ)分類子をトレーニングするのに使用することができる。もし、あるユーザ群についてユニバーサルな(又はそれに近い程度に広く成り立つ)関係が与えられているのであれば、量的フィーチャとの比較対象として静的な分布を用いることができる。もしそのユーザ群において当該関係が変動していくのであれば、初期的に使用した静的分布をインクリメンタルに修正してゆけばよい。また、ある種の時間的フィーチャは、一般に、同一会話フロアにおけるメンバーシップを示すものである。そこで、同一会話フロアに属する複数の話者は遷移関係場所(transition relevance places:TRP)にて発声を開始すると認め、各話者のターンにおける区切りに基づきそれらを時間的に整列乃至グループ化(align)させる。これは、量的フィーチャを導出するのに用い得る一般的な原則である。
一例として、エンドポイント間時間差の計算によって導出されるあるフィーチャを考える。このフィーチャに関し導出される時間差は、現在のエンドポイント即ち話者Xのターンにおける開始エンドポイントtと、このtに先立つ前回のエンドポイント即ち話者Yにとっての最近ターンにおける最終エンドポイントとの間の、時間差である。この時間差は減少分布、例えばWilson及びZimmermanによる櫛歯状分布(非特許文献1参照)や経験値分布と比較することができ、それによって、話者Xと話者Yが通信する確率の推定値を得ることができる。
他の例に係るフィーチャは、話者は単に待つだけではなく、他の話者のターン終了に応じて反応する、という特性を含むものである。即ち、ここでは、話者がコンテンツや韻律等のキューに基づきターンの終了を予測乃至予期する、という特性に着目する。ここに、しばしば、先の話者Yによる発声終了時点を話者Xが判断し損なうことがあり、そのような場合にはXのターンの開始エンドポイントはYのターンの最終エンドポイントよりも前となる。そこで、このフィーチャに関しては、現在のエンドポイント即ち話者Xのターンにおける開始エンドポイントtと、このtに最も近い(即ち前になることも後になることもある)話者Yの最終エンドポイントとの間の時間差が、計算される。この分布も経験的にモデリングできる。更に、この分布においては、時間差が長ければ長いほど意識的グループを表していそうになく、従って時間差が長い2個のエンドポイントに係る話者同士は同一会話フロアに属していそうにないといえる。
更に他の例に係るフィーチャに関しては、話者が同一会話フロアに属していないことについての立証が模索される。例えば、話者はしばしばスピーチを重複させるけれども(重複とは、複数の話者が同時に話し始めたり、複数の話者が一緒に文章を終えたりすることを指す)、質問中の話者が同じ会話フロアにいたとしたら、スピーチの重複する時間が継続しているのは珍しい。この一般原則は、量的フィーチャを導き出すのに使用することができる。
本実施形態において量的フィーチャの導出に用い得るアルゴリズムの一つとして、スライディング時間ウィンドウTを決定しておき、この時間ウィンドウTの中にて所与の時間量子(例えば1msec)を以て、同時スピーチの周期を示すベクトルを計算し、更に加重ベクトルとの乗算によりスカラー積を計算する、という方法がある。その結果得られるスカラー積は、当該フィーチャについての量的計測値を求めるべく、経験的に得られている分布と比較される。
一旦フィーチャ(群)が決定されれば、それらを用いて蓋然性(likelihoods)、事後確率(posterior probabilities)及び会話フロア構成を計算することができる。なおこれらについては順に説明していく。
会話フロアにおける更なるメンバーシップ証明は、特定の発声を認識することにより得ることができる。例えば、ユーザやグループの名称、バックチャネルアクノリッジメント発声等である。この種の技術の詳細については後に説明する。
生理学的特性をユーザの音声と比較してフィーチャを決定することもできる。
当業界において通常の熟練を積んだものであれば、以後の記述を参照することにより、ユーザがマイクその他の音声ピックアップ並びにスピーカを装着し得ることを、理解できるであろう。ユーザに装着された音声ピックアップにて発生する信号は、その音源(例えばユーザ)を識別可能な形態にて、ディジタルパケット化される。出力のためユーザに送られてくるディジタル音声パケットも同様に識別可能な形態を有している。これらのパケットは、通常、ユーザのスピーカ乃至ヘッドホンによる再生のためユーザに送られる。これを概括的にいえば、本発明の一実施形態においては、複数の音源からの音声が捕捉され、その音声が音声配信先ユーザ乃至音源に応じて混合され、そしてユーザの発声等の会話特性についての解析結果に応じ混合動作が自動的に調整される。理解されるべきことに、人々の間での会話通信から、フィーチャデータのストリームを抽出することができる。会話通信は、例えばテキスト情報、可聴情報、可視情報、可触情報或いはそれらの組み合わせにより、構成され得る。会話通信は、マニュアルで又は自動的に翻訳することができる。
図1に、初期化応答解析プロセスにて呼び出される「応答アクション解析初期化」スレッド1600を示す。このスレッドは、「開始」ターミナル1601にて開始されると「初期化」プロセス1603へと進み、必要な初期化を実行する。「応答アクション解析初期化」スレッド1600は更に「各バックチャネルワード毎の繰り返し」プロセス1605へと進む。このプロセスによる各繰り返し毎に、「バックチャネル音声取り出し」プロセス1607においてバックチャネル発声の音声が取り出され(回復され)、この音声は「バックチャネルワード毎のワードスポッティングトレーニング」プロセス1609に供されてバックチャネル発声認識用のそのユーザのワードスポッティングモデルがトレーニングされ、「バックチャネルワード長さ決定」プロセス1611においてはワードスポッティングモデルをアシストすべく発声に要する時間の長さが決定される。全てのバックチャネルワードが処理された後、「応答アクション解析初期化」スレッド1600は「解析スレッド呼び出し」プロセス1613へと進み、図2に示す解析スレッドを呼び出す。そして、「応答アクション解析初期化」スレッド1600は「終了」ターミナル1615にて終了される。なお、当業界において通常の熟練を積んだものであれば、新たな入力が与えられるたびにワードスポッティングモデルをトレーニングすることなく、即ち初期的にトレーニング済みのワードスポッティングモデルを用いて、本発明を実施することができる。
図2に、「解析スレッド呼び出し」プロセス1613にて呼び出される「応答アクション解析」スレッド1700を示す。このスレッドは「開始」ターミナル1701にて開始されると「初期化」プロセス1703へと進み初期化を行う。続く「ウィンドウ内におけるユーザ発声検出」プロセス1705においては、「このユーザ」が最短ウインドウ内で発声をしたことが検出される。この解析については、ウィンドウは、「バックチャネルワード長さ決定」プロセス1611にて計算された最短時間長と少なくとも同じ長さの周期に亘り「このユーザ」が連続的に発声したことを検出すべく、設定されている(もしユーザが少なくともこの最短時間長ほど長くは発声していなかったならば、どのワードスポッティングモデルも現在の発声にはマッチし得ない)。更に、連続的発声は、バックチャネルワードスポッティングモデルにより先にマッチした音声サンプルを、含んでいないであろう。一旦「このユーザ」がウィンドウ内にて発声したならば、「応答アクション解析」スレッド1700は「他のユーザそれぞれについて繰り返し」プロセス1707へと進む。
「他のユーザそれぞれについて繰り返し」プロセス1707においては次のプロセスが他のユーザそれぞれについて繰り返される。まず、「他のユーザが会話中」判別プロセス1709においては、現在プロセス対象とされているユーザが発声ウインドウ内で発声中であるか否かが判別される。そのユーザが現在会話中であるならば、或いは(特定の最長周期に相当するほど)直前まで会話中であったならば、そのユーザは発声ウィンドウ内で発声中であると判別される。そうでなければ、「応答アクション解析」スレッド1700は「他のユーザそれぞれについて繰り返し」プロセス1707に戻る。
「他のユーザそれぞれについて繰り返し」プロセス1707に戻るのでない限り、「応答アクション解析」スレッド1700は「ユーザの各バックチャネルワード毎に繰り返し」プロセス1711へと進み、「このユーザ」のバックチャネルワードそれぞれについての繰り返しプロセスを始める。このプロセスにおいては、繰り返されるバックチャネルワード毎に、「バックチャネルワード毎に「このユーザ」の音声をスキャン」プロセス1713及び「ワードとマッチ」判別プロセス1715が実行される。プロセス1713では、「このユーザ」の音声バッファがスキャンされる。プロセス1715では、「このユーザ」の発声がバックチャネルワードを含むか否かが判別される。もしその繰り返し対象ワードについてマッチせずと判別されたならば、「応答アクション解析」スレッド1700はプロセス1715から「ユーザのバックチャネルワード毎に繰り返し」プロセス1711へと戻り、次のバックチャネルワードについて同様のプロセスを繰り返す。逆に、プロセス1715にてマッチしたと判別されたならば、「応答アクション解析」スレッド1700は「会話確率増大」プロセス1717へと進み「このユーザ」対「他のユーザ」が会話中との確率を加入者グラフにおいて調整する。そして、「応答アクション解析」スレッド1700は「他のユーザそれぞれについて繰り返し」プロセス1707へと進み次の「他のユーザ」について同様のプロセスを繰り返す。なお、本実施形態ではあるバックチャネルワードが発見された後に次のユーザについてのプロセスへと進んでいるが、他の実施形態として、全てのバックチャネルワードについてスキャンを行い、発見されたワードの確率を適宜結合させる、という実施形態もあり得る。
全ての「他のユーザ」について繰り返しが終わると、「応答アクション解析」スレッド1700は「ウィンドウ内におけるユーザ発声検出」プロセス1705へと戻り、最短ウインドウ内における「このユーザ」による他の発声を検出する。
本発明の技術的範囲には、会話挙動に影響を及ぼす他の方法も包含され得る。例えば、図3及び図4にそのアーキテクチャを示す方法である。この方法の中核をなす概念は、会話挙動との影響において通信チャネルに係るプロパティを動的に変更する、というものである。
図3は、加入者2001,2002のペア間で確立された通信チャネルを示すブロック図である。各加入者2001,2002は通信チャネル2000を抽象化された通信2003として知覚している。この抽象化された通信2000は情報配信を実現するための接続エンドポイントにおいて具象化している。実現形態の詳細、即ち情報配信のため通信チャネル2000の各接続エンドポイントにて必要とされる物理的な通信デバイスの類は、各加入者2001,2002にとっては隠されている。各加入者は、むしろ、情報2004,2005の送受信のみを体験する。この情報2004,2005は、通信チャネル2000或いは外部環境2006,2008において発生する干渉や雑音に、更には加入者2001,2002自身或いは情報自体が発生させる干渉や雑音に、さらされている。
抽象化された概念としては、論理的な情報の流れは、加入者2001(のうち1人又はそれ以上)から矢印2004に沿って抽象化された通信チャネル2003に至り、更に矢印2005に沿って他の加入者2002(のうち1人又はそれ以上)へと至っている。情報の流れは単一方向リレーに限定されるものではなく、双方向或いは多方向に流れ得るし、また1対1、1対多、多対1或いは多対多の加入者間で流れ得る。加えて、通信チャネルにおける送信モードは公知のごとく単方向性(1方向)、半二重(一時に1方向)及び全二重(一時に2方向)のいずれとすることもできる。
図4は、一実施形態に係るアーキテクチャ2010を示すブロック図である。この図に示した例では、加入者2011と加入者2012とが、一組の通信チャネル2016,2017を介して情報を交換している。通信チャネル2016,2017に関しては後に図9を参照してより詳細に説明する。各加入者2011,2012が各通信チャネル2016,2017にアクセスする際に使用する通信デバイス2013,2014は、ユーザインタフェース(UI)2018,2019、並びに1個以上の監視デバイス(図示せず)から構成されている。監視デバイスは例えばカメラやセンサやマイク等のデータ収集機器であり、注記すべきことに、通信デバイスに内蔵させることもできるし別体とすることもできる。例えば、無線ネットワークを介して通信デバイスにデータを搬送する監視デバイスは、通信デバイスとは別体になる。また、加入者2011からのデータは、ユーザインタフェース2018を介して通信デバイス2013により受け取られ、通信チャネル2016,2017を介して通信デバイス2014に配信され、ユーザインタフェース2019を介して加入者2012に届けられる。
サーバ2015は、通信デバイス2013と通信デバイス2014との間の通信に介在するよう挿入されており、通信チャネル2016,2017により配信される情報の流れはサーバ2015を経るようになっている。サーバ2015は監視コンポーネント2020及びモデリングコンポーネント2021から構成されている。なお、これらに関しては後に図7及び図8を参照して説明する。簡単に述べると、監視コンポーネント2020は監視デバイスによりキャプチャされた情報を受け取り、モデリングコンポーネント2021に配信する。キャプチャされたデータを受け取ったモデリングコンポーネント2021は、加入者2011,2012に関する属性を評価し、通信チャネル2016,2017に関連づけられている一組の所望のプロパティについてリコメンデーションを作成する。リコメンデーションの作成は、評価によって得られた属性と、属性の履歴や通信チャネルのプロパティの履歴等の情報とに基づき、行う。そして、サーバ2015の動作は所望のプロパティに応じて変化し、サーバ2015は所望のプロパティに関するノーティフィケーション(通知)を加入者装置2013,2014に送り、それに従って通信チャネル2016,2017更には加入者装置2013,2014の動作が変化する。なお、属性に基づく通信における加入者グループの全体又は部分について、通信における加入者毎のゴールを、モデリングコンポーネント2021にて作成するようにしてもよい。
本実施形態においては2種類の通信チャネル2016,2017が定義されており、これらは一次通信チャネル及び連続性通信チャネルの双方の性格を有するものとすることができる。即ち、一次通信チャネルとは、筆記形態乃至音響形態による人間言語の一次要素から構成される情報を配信するチャネルである。また、連続性通信チャネルにより配信される情報は実質的な阻害を受けることがないため、このような連続性通信チャネルが一旦確立されると新たな情報は新たな通信チャネルを確立することなしに通過していくことができる。本実施形態における通信チャネルは、好ましくはこれら一次通信チャネル及び連続性通信チャネルの双方の性格を有する。なお、当業者であれば理解できるであろうことに、他種の通信チャネルを用いることも可能である。
加えて、各通信チャネル2016,2017は一組のチャネルプロパティ2022に関連づけられている。このチャネルプロパティ2022は、実質的に、配信される情報乃至コンテンツの構造を決定づける。各チャネルプロパティ2022の実際のセッティングは実際の通信チャネル2016,2017から分離しており、サーバ2015や通信デバイス2013,2014により動的に更新可能な値として格納しておくことができる。品質プロパティ2023はバイナリの又はカテゴリ化されたパラメータセッティングから構成されている。パラメトリックプロパティ2024は実質的に連続的なパラメータセッティングから構成されている。例えば、通信方向制御は品質プロパティであり、音声チャネルにおけるボリューム制御やゲイン制御はパラメトリックプロパティである。注記すべきことに、ここでいう音声ゲイン制御乃至調整機能は、音声又は映像のミキシング機能、即ち多数のメディアストリームを入力し出力ストリームのうち一部分(場合によってはゼロ)を各入力ストリームに割り当てる機能に一般化して、概括的に論じることができる。更に注記すべきことに、プロパティは各加入者の性質乃至立場(perspective)によって異なるものとなり得る。例えば、ある加入者はいつでも送信を行うことができるが、他の加入者は第1の加入者により或いは他の手段により指定された時点でしか送信を行えない、とすることができる。また例えば、ある加入者はテキストを送信することができるが、他の加入者は音声を送信できる、とすることができる。いわゆる当業者には理解され得るように、これ以外のプロパティをプロパティ2025として採用することもできる。
チャネルプロパティ2022は、通信チャネル2016,2017の他の側面、即ち(チャネルプロパティと同様に)変動することがあるが(チャネルプロパティとは)異なる効果をもたらす側面から、区別することができる。例えば、音声チャネル及び映像チャネルを備えた多人数向け映像会議システムを考える。この種のシステムは、十分な個数のカメラと、(望むのであれば)全加入者が視聴できる十分な量のディスプレイスペースとを、備える構成とすることができる。加入者の映像は、例えばn×mアレイ形式により各ディスプレイ上に表示できる。このシステムはまた、チャネルプロパティ2022を変化させることなく加入者をアシストするインジケータ2026,2027を、備えた構成とすることができる。例えば、まず現在の話者を識別し更に話者映像の周囲に円を描く、といった機能を備えた回路を、システムに設けることができる。このような回路を使用することによって、現在の話者を即座に識別できるように他の加入者を補助することができる。その際、音声及び映像の各チャネルにおける基本的なプロパティに変化が生じないように、することもできる。これと対比するに、まず現在の話者を識別し更に他の話者に対して現在の話者のみを表示させる、といった機能を備えた回路を、システムに設けることもできる。この場合、他の加入者からの映像通信情報はブロックすることとする。このような回路を使用することによって、例えば、音声起動による映像スイッチング等を実現することができ、映像チャネルの基本的なプロパティを変化させることができる。
他の実施形態としては、本実施形態にてサーバ2015により実現している機能を通信デバイス2013,2014等に分散させる、という実施形態があり得る。この場合、各通信デバイス2013,2014に監視コンポーネントやモデリングコンポーネントを設ける。
図3及び図4に示したシステムアーキテクチャの更なる細部を図5〜図9に示す。なお、ここでは本発明の応用を表す特定の実施形態及び単純変形について説明するが、これは説明の簡明化のために過ぎず、排他的な記述として受け取られるべきではない。
図5は、図4に示したアーキテクチャ上で実行されるモデリングフェーズ2030を示すブロック図である。モデリングフェーズ2030は、監視デバイスによりキャプチャされたデータに基づき行われ、属性評価2031、リコメンデーション発生2032及びゴール形成2033という3個のフェーズを有している。但し、ゴール形成2033はオプショナルなフェーズである(即ち必須ではない)。本実施形態におけるモデリングは、加入者間における通信進行と並行するよう連続ベースにて実行するのが望ましいが、当業界における習熟者であれば理解できるように、孤立的に又はデマンドに応じて実行することもできる。属性評価フェーズ2031実行時には、キャプチャされたデータに基づく計算が行われ、通信に関わっている加入者について属性が判別される。加えて、結果として得られた属性を入力として用い、更なる属性評価を行うこともできる。リコメンデーション発生フェーズ2032実行時には、属性は通信チャネルプロパティ履歴及び属性履歴と共に数値評価され(ゴール形成フェーズ2033を設けた場合はここで当該ゴールも評価の対象乃至材料とされ)、所望のチャネルプロパティが決定される。決定する所望のプロパティには新たなセッティング乃至現状を含めることができる。オプションたるゴール形成フェーズ2033実行時には、属性が加入者毎に数値評価され個々の加入者についてゴールが設定される。これに代え又はこれと共に、加入者全体又は一部をグループとしてそのグループに属する加入者を対象に個別にゴールを設定するようにしてもよい。
図6は、図4に示したアーキテクチャ上で実行されるモデリング2040を例示説明する処理フロー図である。図示しない2人の加入者はそれぞれモバイル通信デバイス2041,2050を用いている。モバイル通信デバイス2041,2050はマイク、外部スピーカ(スピーカホン)及びイヤホンを備えている。加入者2者間で通信が行われているときに形成される通信チャネルはバイナリの品質プロパティを含んでいる。品質プロパティとしては、半二重音声に係るプッシュトゥトークプロパティと、全二重音声に係る標準電話プロパティとを、掲げることができる。本実施形態におけるプッシュトゥトークプロパティは、半二重(非同時)音声用に通信チャネルを適合させ、その音声を外部スピーカによって再生させる(即ち、物理的にいずれかの加入者の近くにいる非加入者も聴取できるような形態に変換して音声出力させる)プロパティである。これに対して、標準電話プロパティは、全二重(同時)音声用に通信チャネルを適合させ、その音声をイヤホンによって再生させる(即ち、近くにいる非加入者が聴取できない形態に変換して音声出力させる)プロパティである。また、ある所与の時点について考えればこれらのバイナリプロパティのうち一方のみが真となるから、これらのバイナリプロパティを単一のカテゴリプロパティにまとめてモデル化することもできる。即ち、そのバイナリ値が二つのモードのいずれかにそれぞれ対応づけられているカテゴリプロパティを、これら二種類のバイナリプロパティに代えて用いることもできる。注記すべきことに、プロパティは、上述したものとは異なるやり方で定義することができる。即ち、プッシュトゥトークプロパティや標準電話プロパティによって音声信号の性格のうち半二重或いは全二重という性格を表すこととする反面、音声信号の配信形態(外部スピーカかイヤホンか)を特定しないよう、これらプッシュトゥトークプロパティ及び標準電話プロパティを定義することも、可能である。なお、説明の簡明化のためここでは省略するが、いわゆる当業者には明らかな通り、通信チャネルのプロパティとしては上述のもの以外もあり得る。
初期的には、通信チャネルはプッシュトゥトークモードに設定されている。通信時には、音声データ2042はマイクを通じて通信チャネル上で監視される。音声データは監視コンポーネント(図示せず)により受信され、モデリングコンポーネントに入力として送られる。
モデリングコンポーネント内においては、入力音声データ2042及びストレージ内容2046が属性評価コンポーネント2043により受信され、計算によって属性2044として評価される。例えば、会話特性中の会話交差属性(conversational engagement attribute)を評価するには、ターン取得解析(turn-taking analysis)手法を適用することができる。一例を述べると、属性評価コンポーネント2043は入力音声データ2042に対し、例えば最近30秒に亘って音声アクティビティディテクタを実行し、それによって、加入者2者間における同時スピーチ量や発声の整列度(degree of utterance alignment)に関する属性を、計算することができる。なお、同時スピーチとは、加入者間におけるスピーチ重複の持続周期を指しており、発声の整列度は、ある加入者による発声の終了から他の加入者による発声の開始までに経過した時間量を反映している。属性評価コンポーネント2043は、通信の履歴や通信量の増減傾向と共に、同時スピーチ量及び発声の整列度を(計算対象データの時間配列(temporal alignment)に基づき)評価及び数値化し、加入者2者間における会話交差の度合いを示す属性2044を決定する。なお、プッシュトゥトークモードにおいては、同時スピーチは発声しないため同時スピーチの値は0である。本実施形態においては、会話交差の度合いを示す属性2044の計算値が、
Figure 2005130501
(ナイーブベイズ)分類子を適用することにより決定される。但し、当業界における習熟者により認識される通り、属性評価に際して他のアプローチを採用することもできる。
これに代え又はこれと共に、会話交差属性を評価するためのアプローチとして、図1に示したものと類似したコンテンツ解析手法を適用することができる。例えば、バックチャネルスピーチや共通スピーチや韻律に関連した会話に係る可聴キューを、検出する手法である。一例を述べると、属性評価コンポーネント2043にて、音響音声特性を表す統計的フィーチャのベクトルを入力音声データ2042のストリームから周期的に抽出し、第1のセットの分類子を適用することによって各加入者スピーチにおける韻律要素中の影響(感動)のタイプ及び度合いを評価し、そして当該影響を持つ属性値に対し第2のセットの分類子を適用することによって加入者間の会話交差の度合いを評価する、という手法である。この手法における第1の分類課題(第1の分類子による分類を巡る問題乃至課題)とは、記録されているスピーチに及ぶ人的影響の評価をどのように行うかという技術的課題である。この課題に関しては、非特許文献2を含め様々な文献に記載がある。記載されている手法の一例としては、音声ピッチ及び音声エネルギを含む生の音声フィーチャを使用する手法がある。この手法における音声ピッチは人間音声の基本周波数f0の計測値であり、しばしば“ピッチトラッキング”と称される。音声エネルギは1個又は複数個の周波数帯域にて計測される音声エネルギであり、例えば、200Hz未満、200〜300Hz、300〜500Hz、500Hz〜1kHz、1〜2kHz、及び2kHz超といった周波数帯域にて当該計測が行われる。こういった生の音声フィーチャを集めると、音声フレームと非音声フレームとの比率、瞬時音声ピッチの平均値・最小値・最大値・レンジ・標準偏差、並びに瞬時音声ピッチの勾配(変化率)の最小値・最大値・レンジを含め、様々な統計的フィーチャが得られる。こういった統計的フィーチャは、例えば、SVM(Support Vector Machine)技術に基づく(マニュアルにてラベルされたフィーチャセットによる)トレーニング済みの分類子への入力として、使用される。SVM分類子の出力は、スピーチの音響特性によって表される感動状態を計測した属性の評価結果とすることができる。この属性は、好ましくは限定された個数の属性、例えば感動特性の強度を示すベクトルに基づくものである。ここでいう感動特性は心理学の文献に記載されているものであり、「覚醒(arousal)」(又は「活性化(activation)」)、「力(valence)」(又は「数値評価(evaluation)」)及び「制御(control)」(又は「パワー(power)」)の3種類があるが、本実施形態ではそのうち1個(又はそれ以上の個数)の感動特性が用いられる。但し、他の体系を用いてもよい。当該他の体系としては、典型的には、「冷たい怒り(cold anger)」及び「悲しみ(sadness)」等の選択された常識感動ラベルに基づくものが、知られている。次に、第2の分類課題即ち第2の分類子による分類を巡る課題とは、影響ベース属性値に基づき会話交差の度合いを評価するという課題である。SVM分類子から出力される影響的な属性値はHMM(Hidden Markov Model:隠れマルコフモデル)分類子への入力として使用される。静的なマシンとしては、HMM分類子は、影響的な属性値のストリームにおける時間側面を暗示的にモデル化している。他の実施形態として結合HMM(CHMM)に基づくものが考えられるが、CHMMに基づく分類子を用いた場合、個別の加入者をモデル化しているHMM同士が互いに影響しあうこととなり得る。このアプローチは好ましいものである。なぜなら、このアプローチにおいては会話における加入者間の絡み合い(joint-behavior)、例えば一方の加入者と他方の加入者が共に顕著に会話を交わしているかどうかに関する蓋然性が、捕捉されるからである。なお、加入者毎に別々にHMMを使用した場合は、加入者同士の絡み合いは捕捉できない。更に他の実施形態としては、スピーチ認識やワードスポッティング等の自然言語解析技術を用い、例えば応答挙動を検出するため意味論的コンテンツ解析手法により提供されるものと同様の形態にて、会話交差に関する証明を発生させるものがある。これについては、バックチャネルスピーチ乃至共通コンテンツの検出を行う手法に関連した図1及び図2の記載並びに明細書中の該当部分における記載を、参照されたい。
本実施形態においては、モデリングコンポーネントはゴール形成コンポーネント2048を有している。ゴール形成コンポーネント2048は、データを表すストレージ内容2046例えばプロパティ履歴及び属性履歴と、加入者2者間における会話交差の度合いを示す属性計算値2044とを、受け取る。属性計算値2044は、先に決定済みで会話交差の度合いを示す属性値と結合され、それによって、会話交差の度合いが増加しているか減少しているかが加入者毎に数値評価される。評価した会話交差の度合いに基づき、ゴール形成コンポーネント2048はゴール2049を決定・定式化する。ゴール2049は、加入者が現在の会話交差レベルを維持したがっているのか、会話交差レベルを高めたがっているのか、それとも会話交差レベルを下げたがっているのか、を示す情報である。本実施形態においては、ゴール形成コンポーネント2048はルックアップテーブルを用いてゴール2049を決定するが、無論、ゴール形成に当たって他の手法を用いてもよい。どのような手法を用い得るかについては、当業界における習熟者であれば想到できるであろう。
リコメンデーション発生コンポーネント2045は、加入者2者間での会話交差の度合いを示す属性計算値2044、ゴール2049、並びにストレージ内容2046を受け取り、通信チャネルプロパティに対する変更・変化について解析する。例えば、通信チャネルがプッシュトゥトークモードにセットされているが加入者は話中でない場合においてサドンバーストが発生したならば、それは加入者が会話を交わそうとしており会話交差の度合いが増加していることを表しており、従ってそのことは属性評価コンポーネント2043による評価を経て得られた属性計算値2044に反映するであろう。その場合、ゴール形成コンポーネント2048は、加入者が自分たちの会話交差レベルを増加させようと望んでいるという意味のゴール2049を、決定・定式化する。従って、リコメンデーション発生コンポーネント2045においては、プッシュトゥトークプロパティ及び標準電話プロパティの双方とも所望のプロパティ2047に従って変形・修正されるべきであると決定されるであろう。なお、本実施形態においては、リコメンデーション発生コンポーネント2045はルックアップテーブルを用いて所望のプロパティ2047を決定しているが、当業界における習熟者ならば認識できるように、他のアプローチによってリコメンデーションを作成してもかまわない。
所望のプロパティ2047を受け取った各通信デバイス2041,2050は、標準電話モードをイネーブルにする一方プッシュトゥトークモードをディスエーブルにし、同時に音声のスイッチをスピーカからイヤホンへと切り替える。本発明の更なる実施形態においては、各通信デバイス2041,2050に実装されているユーザインタフェースが自動的にプッシュトゥトークボタンをディスエーブルに切り替え(変更し)、それによって、動的でかつじゃまにならない形態によるメディアプロパティ変更を実現する。サーバ及び通信チャネルもまた、標準電話モードをサポートしプッシュトゥトークモードをディスエーブルするように切り替わる。
例示するに、いま通信チャネルが標準電話モードに設定されており会話がゆっくりと行われているならば、会話交差の度合いが減りつつあることは、属性評価コンポーネント2043による評価を経て得られた属性計算値2044に反映されているであろう。加えて、ゴール形成コンポーネント2048は、加入者が自分たちの会話交差レベルを低下させようと望んでいるという意味のゴール2049を、決定・定式化しているであろう。従って、リコメンデーション発生コンポーネント2045においては、プッシュトゥトークプロパティ及び標準電話プロパティの双方とも所望のプロパティ2047に従って変形・修正されるべきであると決定され、その結果に従いプッシュトゥトークがイネーブルされる一方標準電話モードはディスエーブルされ、音声スイッチはイヤホンからスピーカへと切り替えられるであろう。
図7は、図4に示したアーキテクチャにおける監視コンポーネント2020を示す機能ブロック図である。監視コンポーネント2020は、複数のデータ源から得られる生の入力データ2067を機器2068を介して収集する。データ源としては、任意データ源2061、通信チャネルを通じて配信されるコンテンツ2062、ユーザインタフェースジェスチャ2063、属性履歴やチャネルプロパティ履歴等の情報を含むストレージ内容2064、ユーザによる明示の入力2065、並びに当業界における習熟者であれば了解できるであろうところの他のデータ源2066がある。監視コンポーネント2020は生の入力データ2067を集めて処理し、処理出力データ2042を生成する。生の入力データ2067に施す処理は、機器2068から受け取るデータのタイプ並びにモデリングコンポーネントにより要求されるフォーマットに依存している。例えば、生の音声データについては、モデリングコンポーネントが認識できる標準フォーマットへと変換する必要があろう。同様に、監視コンポーネント2020は送信に先立って入力データ(処理出力データ)を圧縮及び暗号化する。その他必要な処理を施した後、監視コンポーネント2020は処理出力データ2042をモデリングコンポーネント(図示せず)に送る。なお、モデリングコンポーネントについては図8を参照して後により詳細に説明する。
機器2068が配置される箇所は、通信デバイスの内部や、加入者環境の各所や、通信チャネルそれ自体を含め、通信チャネル関連各所に散在している。当業界における習熟者であれば、他の箇所にも機器2068を配置できることを、容易に理解できるであろう。より詳細には、通信チャネルを介して伝送されるデータを収集するには、音声又は映像通信機器を設ければよい。加入者の物理学的或いは肉体的特性乃至挙動についてのデータを収集するには、バイオフィードバック機器、ジェスチャトラッカ、ロケーションセンサ等を設ければよい。音響的環境及び物理的環境を含め加入者環境についてのデータを収集するには、マイクやセンサを設ければよい。そして、加入者がモデリングコンポーネント(図示せず)への入力として明示的に入力したデータを収集する機器を設けることもできる。例えば、所望の通信時間及び媒体プロパティについての加入者の個人的な好みを示すデータを、(予め)格納しておくようにしてもよい。同様に、ユーザインタフェースに対して行われたジェスチャを監視コンポーネントに伝えられるようにしておき、加入者が同時会話モードによりマニュアルで関心事を示すことができるようにしてもよい。当業界における習熟者であれば認め得る通り、他の種類又は形態の機器を用いることや、種々の構成及び組み合わせによる機器を用いることが、また可能である。
図8は、図4に示したアーキテクチャにおけるモデリングコンポーネント2021を示す機能ブロック図である。モデリングコンポーネント2021は、図示しない監視コンポーネントから受け取った処理済みのデータ2042に基づき動作し、一組の所望のプロパティ2047を出力する。モデリングコンポーネント2021は、属性評価2081、リコメンデーション発生2082及び(オプショナルな)ゴール形成2083という三種類のサブコンポーネントから、構成されている。簡単に述べると、属性評価サブコンポーネント2081は通信中の加入者について一組の属性2044を決定する。リコメンデーション発生サブコンポーネント2082は一組の属性2044及びストレージ内容2094に基づき一組の所望のプロパティ2047を発生させる。ストレージ内容2094には、プロパティ履歴2095、属性履歴2096、ゴール履歴(図示せず)等のデータが含まれている。ゴール形成サブコンポーネント2083はオプショナルなコンポーネントであり、一組の属性2044及びストレージ内容2094に基づきゴール2049を発生させる。このゴール2049はリコメンデーション発生サブコンポーネント2082により用いられる。
特に、属性評価サブコンポーネント2081は導出モジュール2084及び計算モジュール2085から構成されている。導出モジュール2084は処理済みのデータ2042及びストレージ内容2094に基づき動作し、データ換算解析手法により派生入力データを作成する。なお、監視コンポーネント(図示せず)は生入力データに関しモデリングコンポーネント2021への効率的配信のための処理を施すのみであり、加入者固有個別の属性を決定するのに必要な特別な処理は施さない。これに対し、導出モジュール2084は、例えば、入力音声データストリームに対して音声アクティビティディテクタを実行し、同時スピーチ量及び発声整列(度)を決定する。これらは多人数会話において送信モードを数値評価するのに有用である。当業界における習熟者であれば認め得る通り、他種の手法によるデータ導出及びデータ処理を行うことが、また可能である。
計算モジュール2085は、データ2042及びストレージ内容2094から導出した推論結果に基づき解析計算を行うことにより、一組の属性2044を決定する。属性もまた、入力データとして受け取ることができる。計算及び推論のタイプは決定される属性の性質に依存しており、
Figure 2005130501
(ナイーブベイズ)又はHMM分類子に限らず統計学及びマシンラーニングを含めた計算の分野に及んでいる。
属性は、その発生源に基づいて、個々の加入者についての属性2088、個々の加入者の環境についての属性2089、及び加入者のグループについての属性2090、という三グループに分類される。当業界における習熟者であれば認め得る通り、属性として他のグループを考えることや様々な組み合わせを考えることは可能である。個別加入者属性2088としては、これに限ることのない一例としていえば、スピーチコンテンツ、韻律、物理的移動、物理的乃至身体的状態、精神状態、非加入者との通信等がある。環境属性2089としては、これに限ることのない一例としていえば、ロケーション、背景雑音、物理的変化、トラフィック状態等がある。最後に、グループ属性2090は、これに限ることのない一例としていえば、重複した会話(トーク)、整列した発声、バックチャネルの使用、会話リペアの使用、会話交差の度合い、不一致(discord)のサイン、誤解のサイン、不要通信優勢(dominance)のサイン、会話状態変化(change conversation state)のサイン、加入者通信時間量、通信相手たる他の加入者から見た姿勢、他の加入者に対する一般姿勢、加入者のアクティビティ乃至姿勢の配列(alignment)、加入者の一様性、個別の加入者又は加入者ペアに対する媒体の影響等がある。当業界における習熟者であれば認め得る通り、属性として他のグループを考えることや様々な組み合わせを考えることに加えて、他の属性やそのバリエーションを考えることは、また可能である。
各属性の値における確実性は、実行される計算及び推論のタイプに従って連続的に変化する。例えば、会話中の加入者2者間で議論を行っているときの重複時間量は、高度に確実な数値である。なぜなら、両加入者が話している時間のパーセンテージは、生データから直接計算できるからである。逆に、加入者が他の加入者と合意しているか否かについては、低い確実さでしか計算乃至推論できない。なぜなら、言語解釈技術においてはしばしばエラーが発生し他の結果が導出されるからである。確実性の度合いは、また、属性値を評価するのに用いられた技術のロバスト性の影響も受ける。例えば、特定のユーザについてのトレーニングが求められるようなある種のスピーチ認識においては、他のユーザにそれを適用したときの正確さは低いものである。最後に、属性の正確性は属性値を計算する際の複雑さやその際に要求される推論に対して関係させることもできるし独立とすることもできる。従って、各属性の引き続く使用に当たっては確実性に関する考慮が求められる。しかしながら、注記すべきことに、所与の属性値に関する確実性の度合いは既知である必要はなくまた決定可能である必要もない。
リコメンデーション発生サブコンポーネント2082は計算モジュール2086から構成されている。計算モジュール2086は、一組の属性2044及びストレージ内容2094を、計算済みのゴール2049と共に数値評価することによって、一組の所望のプロパティ2047を形成する。所望のプロパティ2047は、所望の品質プロパティ2091、所望のパラメトリックプロパティ2092、及びその他の所望のプロパティ2093という3グループに分けることができる。所望のプロパティ2047は、1個又は複数個の通信チャネルプロパティに関する前回の状態から新たな状態への変化を表している。或いは、所望のプロパティ2047が変化なし・現状維持を表すこともある。一組の属性2044と同様に、所望のプロパティ2047も確実性の連続体に沿って生成される。
個別のチャネルプロパティは各通信チャネルに内在するものである。しかしながら、各チャネルプロパティの状態は、品質2023、パラメトリック2024及びその他2025の各チャネルプロパティ毎に、データベース2022に格納することができる。一例として述べると、BNF(Backus-Naur Form)文法によるプロパティ候補記述は、
Figure 2005130501
の通りである。この式においては、次のような定義を適用する(いくつかの定義は非特許文献3から採っている)。まず、Reviewable即ち持続性は、受信者が通信コンテンツを後にリビュー可能であることを、表している。例えば、電子メールメッセージは、一読後に受信者のメール閲覧プログラムにより保持されるためリビュー可能であるといえる。これに対して、電話による会話は、記録装置を用いるのでない限り、リビュー不能であるといえる。Revisable即ち訂正可能性は、宛先にて受信される前に送信者がメッセージを改訂できることを、表している。Simultaneous即ち同時性は、複数の加入者が同時に通信を送受信することを表している。例えば全二重音声は同時性を有しているが、半二重音声は同時性を有していない。Contemporaneous即ち即時性は、送信者によるメッセージ送信と実質的に同時に加入者がメッセージを受信することを、表している。例えば電話は普通は即時性を有しているが、郵便メールは即時性を有していない。先に述べた通り、Continuous即ち連続性は、通信チャネルが実質的な阻害なしに情報を配信することを表している。例えば、単独電話会議は連続性を有するが、電子メールは連続性を有していない。また、Transform即ちコンテンツ変換(変形)としては、例えばVolumeAdjustment即ちボリューム調整、FidelityChanges即ち忠実度変換、Greeking即ちグリーキング、並びにDelay即ち時間遅延の付加・除去、を含め様々なものを実行可能である。ここでいう忠実度変換とは、例えば音声ストリームを異なるレートでリサンプリングすることである。グリーキングとは、スクランブリング等によって言語コンテンツに歪を付与することにより、通信チャネル上でのその存在やその感動トーン等が引き続き受信者には判別できるようにしつつもその意味を不明瞭にすることである。時間遅延は言語コンテンツ内における遅延であり、その付加・除去は言語コンテンツの配信レート乃至ペースを変更すべく行うものである。また、Addressとは、送信者がいずれか1人又は複数人の加入者を特定する手段である。最後に、Summons即ち召喚とは、通信を行う旨の通知である。In-Channel-Addressプロパティ及びIn-Channel-Summonsプロパティは、対応する機能が通信チャネル内にて実行されることを表している。前者の例としては、ユーザが「ヘイ、ジョー」という声を出し特定の受信者に宛てて音声通信チャネル上に送出する、という例がある。後者の例としては、システムが受信者に対しまもなく音声が到来する旨をビープ音により通知する、という例がある。Out-Of-Channel-Addressプロパティ及びOut-Of-Channel-Summonsプロパティは、対応する機能が所与の単一通信チャネル単独では実行されなかったこと、例えば、所与の通信チャネルと他の通信チャネルとの共同で実行されたことや、所与の通信チャネルとユーザインタフェースとの共同で実行されたことを、表している。なお、プロパティ2022として他の種類及び形態のプロパティを掲げることは、当業界における習熟者が認め得る通り、容易であろう。
先に述べたBNF中、ノンターミナルなシンボル<Direct-Communication-Content>は直接通信媒体乃至はそれにより提供されるコンテンツに対応している。直接通信媒体とは、音声や映像やテキスト等のように、加入者が通信コンテンツをダイレクトに提供する一組の通信媒体である。また、ノンターミナルなシンボル<Status-Content>は直接通信媒体でない一組の通信媒体乃至はそれにより提供されるコンテンツに対応している。この種の媒体では、加入者がアイドルか否かを示すグラフィカルユーザインタフェースによる抽象可視表現のように、加入者が通信コンテンツをダイレクトに提供しない。通信チャネルは、直接通信媒体以外の媒体を介してデータを送信させるプロパティ値を採り得る。しかしながら、反面で、本発明の一実施形態における通信チャネルは、選択的乃至は間欠的であるにしろ、直接通信媒体を介してデータを送信することが可能でなければならない。例えば、ハンドセット間で抽象的な存否情報のみの伝達を行う機構は、本願では通信チャネルではなくインジケータとして定義されるであろう。なお、先に述べたように、補助的なステータスインジケータを通信チャネルに追加することは、通信チャネルを介して配信される情報乃至コンテンツの構造を実質的に決定づけるものではない。
オプション的なゴール形成コンポーネント2083は計算モジュール2087から構成されている。ゴール2049は、一組の属性2044及びストレージ内容2094に基づく通信を通じて、各加入者毎に計算される。各ゴールの生成に当たっては、特定の加入者における生成物(outcome)に関して計算的に推論された論理が各ゴールに反映されるようにするのが、望ましい。個々のゴールは互いに独立しており、従って相互に強調、一致或いは分岐していることがあり得る。例えば、ある加入者が会話継続希望を表明する一方で他の加入者ができるだけ早期の会話終了を望んでいる場合、前者に割り当てられるゴールと後者に割り当てられるゴールとが衝突乃至矛盾することがあり得る。従って、個々の加入者毎にゴールを形成するのに代えて又はそれと共に、ゴール形成コンポーネント2083にて、加入者の全て又は一部によるグループについてゴールを形成するようにしてもよい。例えば、ゴール形成コンポーネント2083が単純多数決を採るようにする。その場合、仮に加入者群のうち多数が通信増大を望んでいるのであれば、ゴール形成コンポーネント2083により通信増大を示すゴールが形成されることとなる。或いは、これよりも複雑な方法を用いてゴール形成を行うこともできる。例えば、各加入者の立場の強さを考慮に入れる方法や、各加入者の視点から所与のゴールを評価し全加入者規模にて利益及びコストの期待値を集約する、といった方法を採用できる。一組の属性2044と同様に、ゴール2049も確実性の連続体に沿って生成される。
図9は、図4に示したアーキテクチャにおける通信チャネル2100を示す機能ブロック図である。通信チャネル2100は通信チャネルの物理的な実体2104及びこれに関連する通信デバイス2101から抽象された概念であり、通信デバイス2101は通信チャネル2104を介した情報の配信に役立つデバイスである。通信デバイス2101はユーザインタフェース2102を有しており、ユーザインタフェース2102はフィードバック2105及びオーバライド2106に係る制御手段をオプション的に備えている。ユーザインタフェース2102はまた、加入者情報と共に提供される。加入者情報とは、チャネルプロパティの現在の状態や、何れか若しくは全ての加入者に係るチャネルコンテンツについての情報である。例えば、ユーザインタフェース2102は、通信中の加入者の現在の感動状態を示す情報と共に提供され得る。重要なことに、ユーザインタフェース2102はチャネルプロパティ2103を通じて自分自身を変更することができる。例えば、通常の電話送信モードに切り替えるときに、チャネルプロパティ2103を通じてプッシュトゥトークボタンをディスエーブルにすることができる。なお、上記以外のユーザインタフェース制御要素及びフィーチャを設けることは、当業界における習熟者に認識され得る通り、容易であろう。
通信チャネル2100は、通信デバイス2101や図示しないサーバを通じて、チャネルプロパティ2103の状態を変更する。この変更は、図示しないモデリングコンポーネントから受信する一組の所望のプロパティ2047に基づき実行する。この変更は自動的、半自動的或いはマニュアル的に発効する。例えば、プロパティの変更はユーザインタフェース2102によりまたフィードバック制御2105やオーバライド制御2106を通じて、発動され得る。特に、プロパティの変更のうち自動的な要素を保ちながら、ユーザ自身がプロパティの変更をオーバライド乃至強制することを許すような変更を、半自動的変更と呼ぶ。また、フィードバックの対象となるのは、通信チャネル2100の状態や、モデリングコンポーネントにより検出されたデータである。例えば、フィードバックされるチャネルプロパティとしては、全加入者の立場に関する或いは通信における不一致のレベルについてのチャネルプロパティがある。フィードバックには、特殊性のレベルに関する情報を含めることができる。
図9には、本発明の他の側面も示されている。先に説明した従来の通信システムにおいては、パラメトリックプロパティに関し媒体ストリームを制御するためマニュアルユーザインタフェースが設けられていた。この種のシステムにおいては、チャネルプロパティ変更を起動するには、一方的なエンドユーザユーザインタフェースアクション(一方的アクションにより起動されたプロパティ変更の例としては、ある加入者によるボタン押下及びそれによる変化がある)又はシーケンシャルにネゴシエートされたエンドユーザユーザインタフェースアクション(複数の加入者を巻き込んだ一連のステップからなるシーケンスにより引き起こされるプロパティ変更の例としては、電話コールの設定がある)が求められていた。本質的には、複数の加入者により行われるどの2アクションも何らかの時間的順序を有しているものであるが、後者即ちシーケンシャルネゴシエートの例におけるネゴシエーションは特定の要求とそれへの応答から構成されており、従って当該ネゴシエーションを構成する一連のステップは強い因果性を内包している。図9を参照するに、本発明にて提供され得る通信方法においては、複数の加入者が自分の通信デバイス2101のユーザインタフェース2102において為した相独立したジェスチャにより、通信チャネル2100のチャネルプロパティ2103が変更される。システム内におけるそれら複数のジェスチャ間の関係は、直接の因果関係はない(即ち後続の応答を期待するものではない)が、一連の時間的関係を以て複数のユーザによりそのユーザインタフェース内で継起される、という関係である。この区別は、複数者によるユーザインタフェースジェスチャが必要であるが明示的な順序ネゴシエーションは必要でない、という表現でも特徴づけることができる。
一例として、第1の加入者と第2の加入者とが遠隔通話している例を考える。本発明の一実施形態においては、各加入者が自分の通信デバイス2101を操作する。説明の簡明化のため、通信デバイスのハードウエアは既存の携帯電話、例えばMotorola社のセルラーホンi90Cと類似しているものとする。各通信デバイスのデザインは通常の貝殻状デザインとし、音声通話をサポートしているとする。また、デフォルトでは、“貝殻”が閉じているときはイヤホンではなく外部増幅スピーカを使用する設定となっており、“貝殻”が開いているときには外部増幅スピーカではなくイヤホンを使用する設定になっているものとする。各通信デバイスは、ハードウエア押しボタンを用いたプッシュトゥトーク半二重動作と、従来型の全二重電話とを、サポートしているものとする。各通信デバイスは、更に、デバイスソフトウエアが“貝殻”が開いたか閉じたかについての通知を受信できるようにするため、それに適したセンサを装備しているものとする。既知の携帯電話例えばMotorola社のセルラーホンi90Cとは異なり、通信デバイス2101に装備されているハードウエア/ソフトウエア手段によれば、各加入者により相独立して為されるユーザインタフェースジェスチャに応じ、通信チャネル2100のチャネルプロパティ2103を変更することができる。例えば、図4に示したアーキテクチャによれば、各デバイスに設けられている“貝殻”開閉センサの状態はサーバ2015上の監視コンポーネントに送信される。サーバ2015上のモデリングコンポーネントは両加入者間で“貝殻=開”値の論理ANDを計算し、その結果に従って通信チャネルのプッシュトゥトーク/電話チャネルプロパティの値を調整する。即ち、もし双方の電話が“開”であればチャネルは全二重電話となり、どちらかの電話が“閉”であればチャネルは半二重プッシュトゥトークとなる。なお、図4に示したアーキテクチャは、その種のシステムの全ての構造化形態を示すことを意図したものではなく、従ってこの種の構造を他の形態にて即ち多様な形態にて実現することができる。例えば、通信デバイス上の監視コンポーネント間で直接に、センサ情報を共有することができる。再び図9を参照するに、会話中の第1の時点において、双方の加入者が自分の通信デバイスをその“貝殻”を閉じたまま使用しているとする。従って、このとき通信デバイスは、プッシュトゥトークモードにて、即ちあたかも“ウォーキートーキー”ラジオとして、動作している。次に、会話中の第2の時点において、第1の加入者が自分の通信デバイスを開いたとする。このアクションによって、第1の加入者の通信デバイスはイヤホンモードに設定されるが、プッシュトゥトーク/電話チャネルプロパティには影響してこない。更に、会話中の第3の時点において、第2の加入者が自分の通信デバイスを開くことに決めたとする。この時点で、両加入者が自分の通信デバイスをイヤホンモードで使用することとなる。また、サーバはこれら加入者による相独立したジェスチャに応じて、チャネルプロパティをプッシュトゥトークから全二重へと切り替える。なお、当業界における習熟者には自明な通り、適用対象となり得るチャネルプロパティは広範に亘るものであり、独立したジェスチャはここに記述したもの以外にも考え得る。また、加入者によるユーザインタフェースアクションに対し(電話のベルとそれに対する反応のような)シーケンシャルネゴシエーションを強いることなく、インジケータを設けることができる。例えば、発光インジケータを第2の加入者の通信デバイスに設け、第1の加入者が自分の通信デバイスを開いたことを通知するようにすることができる。そして、いつまたどのようにしてチャネルプロパティを変更するかに関する計算は、任意の複雑なモデリングコンポーネントにより実現できる。上の例で用いた論理ANDに限定されるべきではない。
図10は、一実施形態に係る方法2110の処理フロー図である。この図に示す方法は、1個又は複数個の動的変更可能なプロパティを有する通信チャネルを介し通信を行うに際して、論理的なフレームワークを提供する。
2人の加入者が一組の通信デバイスを用いて会話を行おうとする場合等には、最初に、図11により詳細に示すように通信チャネルの初期化が行われ(2111)、引き続いて通信に係る繰り返し処理が実行される(2112〜2117)。情報は通信チャネルを介し少なくとも1方向に配信される(2113)。本実施形態に係る装置のうち、監視コンポーネントは通信チャネルを監視し(2114)、その結果得られたデータを、通信チャネルのモデリング(2115)のためモデリングコンポーネントに供給する。これらについては図12及び図13を用いてより詳細に説明する。通信チャネルの状態を現状に保持するとのリコメンドが為されない場合は、通信チャネルのプロパティが一組の所望のプロパティに従って変更される(2116)。情報配信、監視、モデリング及び変更からなるこの手順は、通信が終了するまで繰り返し継続され、通信が終了すると終了される。
図11は、図10に示した方法において用いられる初期化ルーチン2120を示す処理フロー図である。初期化ルーチン2120は個々の通信チャネルを定義した後(2121)各チャネルに割り当てられる一組の初期プロパティを特定する(2122)。そして処理は呼び出し元にリターンする。
図12は、図10に示した方法において用いられる監視ルーチン2130を示す処理フロー図である。このルーチンの目的は、各チャネルを監視し、処理されたデータをモデリングコンポーネントに提供することにある。
各通信チャネルは個別に監視される(2131〜2137)。全ての通信チャネルを監視してもよいし、監視する通信チャネル(又はその組み合わせ)を選んでその通信チャネルのみを監視してもよい。同様に、データの受信、処理、及び監視結果としての出力は、機器毎に行う(2133〜2136)。全ての機器を監視してもよいし、監視する機器(又はその組み合わせ)を選んでその機器のみを監視してもよい。機器からのデータは、先に図7に示したように、受信され処理される(2133)。また、モデリングコンポーネントに送る(2135)のに先立って、しきい値を適用してデータをフィルタリングしてもよい(2134)。監視は通信が終了するまで続き、終了した後は処理は呼び出し元にリターンする。
図13は、図10に示した方法において用いられるモデリングルーチン2140を示す処理フロー図である。このルーチンの目的は、各通信チャネルをモデリングし、個別チャネルにおける将来の状態変化に影響を及ぼす一組の所望のプロパティを提供することにある。
各通信チャネルは個別にモデリングされる(2141〜2148)。全ての通信チャネルをモデリングしてもよいし、モデリングする通信チャネル(又はその組み合わせ)を選んでその通信チャネルのみをモデリングしてもよい。監視コンポーネントからは、処理済みの入力データを通信チャネル毎に受け取る(2142)。同様に、モデリングコンポーネントは所定の時間間隔に亘り属性を評価する処理、(オプション的な)ゴール形成処理及び所望のプロパティについてのリコメンデーション発生処理を実行する(2143〜2147)。全てのプロパティをリコメンド対象にしてもよいし、リコメンド対象にするプロパティ(又はその組み合わせ)を選んでそのプロパティのみに関しリコメンデーションを発生させてもよい。モデリング実行中は各時間周期毎に属性を評価し(2144)オプション的にゴールを形成し(2145)リコメンデーションを発生させる(2146)。これらについては図14〜図16を用いてより詳細に説明する。モデリングは通信中は継続して実行され、通信終了後に処理は呼び出し元にリターンする。
図14は、図13に示したルーチンにより用いられる属性評価ルーチン2150を示す処理フロー図である。属性評価ルーチン2150においては、図8に示したように、加入者毎に属性が数値評価され(2151)、加入者の環境が数値評価され(2152)、更に加入者のグループが数値評価される(2153)。この後処理は呼び出し元にリターンする。
図15は、図13に示したルーチンにより用いられるゴール形成ルーチン2160を示す処理フロー図である。ゴール形成ルーチン2160においては、図8に示すように、属性評価サブコンポーネント及びストレージから各加入者に係る属性が取得され(2161)、オプション的にゴールが計算される(2163)。ゴールの計算は各加入者毎又は各グループ毎に行われる(2162〜2164)。この後処理は呼び出し元にリターンする。
図16は、図13に示したルーチンにより用いられるリコメンデーション発生ルーチン2170を示す処理フロー図である。リコメンデーション発生ルーチン2170においては、属性評価サブコンポーネント及びストレージから各加入者に係る属性が取得され(2171)、利用可能であればゴール形成サブコンポーネントからゴールが取得される(2172)。更に、図8に示したように、少なくとも部分的にはストレージ内容に基づきチャネルプロパティが数値評価され(2173)、所望のプロパティが計算される(2174)。この後処理は呼び出し元にリターンする。
本発明の一実施形態における応答アクション解析起動プロセスを示すフローチャートである。 本発明の一実施形態における応答アクション解析スレッドを示すフローチャートである。 1ペアの加入者間にて確立された通信チャネルを示すブロック図である。 本発明の一実施形態に係るアーキテクチャを示すブロック図である。 図4に示したアーキテクチャ上で実行されるモデリングフェーズ2030を概観するブロック図である。 図4に示したアーキテクチャ上で実行されるモデリングを一例を以て示す処理フロー図である。 図4に示したアーキテクチャにおける監視コンポーネントを示す機能ブロック図である。 図4に示したアーキテクチャにおけるモデリングコンポーネントを示す機能ブロック図である。 図4に示したアーキテクチャにおける通信チャネルを示す機能ブロック図である。 本発明の一実施形態に係る方法を示す処理フロー図である。 図10に示した方法により用いられる初期化ルーチンを示す処理フロー図である。 図10に示した方法により用いられる監視ルーチンを示す処理フロー図である。 図10に示した方法により用いられるモデリングルーチンを示す処理フロー図である。 図13に示したルーチンにより用いられる属性評価ルーチンを示す処理フロー図である。 図13に示したルーチンにより用いられるゴール形成ルーチンを示す処理フロー図である。 図13に示したルーチンにより用いられるリコメンデーション発生ルーチンを示す処理フロー図である。
符号の説明
1600 応答アクション解析初期化スレッド、1700 応答アクション解析初期化スレッド、2000 通信チャネル、2001 加入者、2002 加入者、2003 抽象化された通信、2004 情報、2005 情報、2008 外部環境、2010 アーキテクチャ、2012 加入者、2015 サーバ、2020 監視コンポーネント、2021 モデリングコンポーネント、2023 品質プロパティ、2024 パラメトリックプロパティ、2030 モデリングフェーズ、2040 モデリング、2047 所望のプロパティ、2060 機能ブロック図、2080 機能ブロック図、2081 属性評価、2082 リコメンデーション発生、2083 ゴール形成、2100 通信チャネル、2101 通信デバイス(加入者装置)、2102 ユーザインタフェース、2103 チャネルプロパティ、20 物理的通信チャネル。

Claims (10)

  1. 複数人参加型の通信を通じて動的に変更可能なプロパティを少なくとも1個有する通信チャネルを提供する方法であって、
    動的に変更可能な一組のプロパティを有する通信チャネルを定義することによりコンテンツ配信構造を決定するステップと、
    少なくとも1個の任意データ源を監視しつつ、少なくとも2個の加入者間を接続する通信チャネルを介してコンテンツを配信するステップと、
    上記少なくとも1個の任意データ源の監視結果に基づき、上記通信チャネルについて少なくとも1個の所望の品質プロパティをモデル化するステップと、
    上記少なくとも1個の所望の品質プロパティに基づき、上記通信チャネルについての上記一組のプロパティを動的に変更するステップと、
    を有する方法。
  2. 請求項1記載の方法であって、更に、一次通信チャネルを介し配信されるコンテンツを監視するステップを有し、
    上記一次通信チャネルを介し配信されるコンテンツが、実質的に、解析人間言語要素、韻律コンテンツ要素、音声コンテンツ要素及びテキスト要素のうち少なくとも1個を含む方法。
  3. 請求項1記載の方法であって、更に、チャネル外コンテキストを監視するステップを有し、
    上記チャネル外コンテキストが、コンタクトセンサ、外部環境センサ及び入力装置のうち少なくとも1個から発せられる方法。
  4. 請求項1記載の方法であって、更に、モデリング結果に基づき推論を行うステップを有し、
    上記推論が、個人属性の評価、環境の評価、グループ属性の評価、並びに個人ゴールのモデリングのうち少なくとも1個を含む方法。
  5. 請求項1記載の方法であって、更に、少なくとも2個の加入者による共同挙動に基づき推論を行うステップを有し、
    上記推論が、共通アクションに関する推論、並びにアクション間の時間的相関に関する推論のうち少なくとも1個を含む方法。
  6. 複数人参加型の通信を通じて動的に変更可能なプロパティを少なくとも1個有する通信チャネルを提供する方法であって、
    動的に変更可能な一組のプロパティを有する通信チャネルを定義することにより当該通信チャネルに関連したコンテンツ配信構造及びユーザインタフェースを決定するステップと、
    少なくとも2個の加入者間を接続する通信チャネルを介し且つその通信チャネルを監視しながら、コンテンツを配信するステップと、
    上記通信チャネルについて少なくとも1個の所望のプロパティをモデル化するステップと、
    上記少なくとも1個の所望のプロパティに基づき上記ユーザインタフェースを動的に変更するステップと、
    を有する方法。
  7. 請求項6記載の方法であって、上記通信チャネルが少なくとも1個の任意データ源を含む方法において、更に、
    一次通信チャネルを介したコンテンツ配信の監視結果、
    二次通信チャネルを介したコンテンツ配信の監視結果、
    会話特性を有する通信チャネルを介したコンテンツ配信の監視結果、
    チャネル外コンテキストの監視結果、
    モデリング結果に基づく推論の結果、
    履歴情報に基づく推論の結果、
    少なくとも2個の加入者による共同挙動に基づく推論の結果、
    更なるマニュアル入力の受信結果及び当該更なるマニュアル入力に基づき上記通信チャネルに係る一組のプロパティに施された動的変更の結果、
    上記少なくとも1個の所望のプロパティのうち一つである品質プロパティの変更結果、
    上記少なくとも1個の所望のプロパティのうち一つであるパラメトリックプロパティの変更結果、
    上記少なくとも1個の所望のプロパティのうち一つである時間的プロパティの変更結果、
    上記少なくとも1個の所望のプロパティのうち一つであるユーザコントロールプロパティの変更結果、
    のうち少なくとも一つと、上記少なくとも1個の任意データ源とに基づき、推論を行うステップを有する方法。
  8. 複数人参加型の通信を通じて動的に変更可能なプロパティを少なくとも1個有する通信チャネルを提供する方法であって、
    動的に変更可能な一組のプロパティを有する通信チャネルを定義することにより当該通信チャネルに関連したコンテンツ配信構造及びユーザインタフェースを決定するステップと、
    上記通信チャネルに関連したユーザインタフェースによって知覚される相独立したジェスチャを監視しながら、少なくとも2個の加入者間を接続する通信チャネルを介しコンテンツを配信するステップと、
    上記ジェスチャに基づき上記通信チャネルについて少なくとも1個の所望のプロパティをモデル化するステップと、
    上記少なくとも1個の所望のプロパティに基づき上記通信チャネルの一組のプロパティを動的に変更するステップと、
    を有する方法。
  9. 動的に変更可能なプロパティを少なくとも1個有する通信チャネルを提供するシステムであって、
    少なくとも1個のプロパティを有する通信チャネルであって、当該少なくとも1個のプロパティが、コンテンツ配信構造を決定すべく、また通信チャネルを介し少なくとも2個の加入者間でコンテンツを配信すべく、動的に変更可能な通信チャネルと、
    上記通信チャネルについて少なくとも1個の所望のプロパティをモデル化するモデリングコンポーネントと、
    上記通信チャネルについての少なくとも1個のプロパティを上記少なくとも1個の所望のプロパティに基づき動的に変更するスイッチと、
    を備えるシステム。
  10. 動的に変更可能なプロパティを少なくとも1個有する通信チャネルを提供する方法であって、
    動的に変更可能な少なくとも1個のプロパティを有する通信チャネルを定義することによりコンテンツ配信構造を決定するステップと、
    少なくとも2個の加入者間を接続する通信チャネルを介しコンテンツを配信するステップと、
    上記通信チャネルについて少なくとも1個の所望のプロパティをモデル化するステップと、
    上記少なくとも1個の所望のプロパティに基づき上記通信チャネルについての少なくとも1個のプロパティを動的に変更するステップと、
    を有する方法。
JP2004306341A 2003-10-22 2004-10-21 複数人参加型の通信に動的変更可能なプロパティをそれぞれ少なくとも1個有する通信チャネルを提供する方法及びシステム Pending JP2005130501A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US51382503P 2003-10-22 2003-10-22
US10/809,018 US7933226B2 (en) 2003-10-22 2004-03-24 System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions

Publications (2)

Publication Number Publication Date
JP2005130501A true JP2005130501A (ja) 2005-05-19
JP2005130501A5 JP2005130501A5 (ja) 2007-11-29

Family

ID=34396612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004306341A Pending JP2005130501A (ja) 2003-10-22 2004-10-21 複数人参加型の通信に動的変更可能なプロパティをそれぞれ少なくとも1個有する通信チャネルを提供する方法及びシステム

Country Status (3)

Country Link
US (1) US7933226B2 (ja)
EP (1) EP1526706A3 (ja)
JP (1) JP2005130501A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008113875A (ja) * 2006-11-06 2008-05-22 Advanced Telecommunication Research Institute International コミュニケーション誘発システム
JP2012503401A (ja) * 2008-09-18 2012-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ システム制御方法及び信号処理システム

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
US20050122389A1 (en) * 2003-11-26 2005-06-09 Kai Miao Multi-conference stream mixing
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
US8627213B1 (en) * 2004-08-10 2014-01-07 Hewlett-Packard Development Company, L.P. Chat room system to provide binaural sound at a user location
US7587310B2 (en) * 2004-08-30 2009-09-08 Lsi Corporation Sound processor architecture using single port memory unit
US20070005549A1 (en) * 2005-06-10 2007-01-04 Microsoft Corporation Document information extraction with cascaded hybrid model
US20070003023A1 (en) * 2005-06-22 2007-01-04 Jerome Rolia System and method for autonomously configuring a reporting network
US8379538B2 (en) * 2005-06-22 2013-02-19 Hewlett-Packard Development Company, L.P. Model-driven monitoring architecture
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US7783594B1 (en) * 2005-08-29 2010-08-24 Evernote Corp. System and method for enabling individuals to select desired audio
DE102005043003A1 (de) * 2005-09-09 2007-03-22 Infineon Technologies Ag Telekommunikationskonferenz-Server, Telekommunikations-Endgerät, Verfahren zum Erzeugen einer Telekommunikationskonferenz-Steuernachricht, Verfahren zum Steuern einer Telekommunikationskonferenz, computerlesbare Speichermedien und Computerprogrammelemente
EP1964295A2 (en) * 2005-09-19 2008-09-03 Nxp B.V. Method of synchronizing the playback of an audio broadcast on a plurality of network output devices
DE602006014572D1 (de) * 2005-10-14 2010-07-08 Gn Resound As Optimierung für hörgeräteparameter
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
US20070109977A1 (en) * 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
CN101310505A (zh) * 2005-11-16 2008-11-19 日本电气株式会社 便携终端装置及其使用的参与者列表显示方法、以及其程序
US9135339B2 (en) * 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US8150450B1 (en) 2006-04-11 2012-04-03 Alcatel Lucent System and method for two-way radio and telephone conferencing and collaboration
US7676246B2 (en) * 2006-04-18 2010-03-09 Krieter Marcus Secure audio-visual communication device
DE102006032088A1 (de) * 2006-07-11 2008-01-17 Infineon Technologies Ag Kommunikationsendgerät, Verfahren zum Versenden von Kommunikationsdaten, Konferenzservereinrichtung und Verfahren zum Weiterleiten von Kommunikationsdaten
US7995745B1 (en) * 2006-08-11 2011-08-09 Parry James H Structure and method for echo reduction without loss of information
JP2008067203A (ja) * 2006-09-08 2008-03-21 Toshiba Corp 映像合成装置、方法およびプログラム
US8266535B2 (en) * 2006-09-11 2012-09-11 Broadnet Teleservices, Llc Teleforum apparatus and method
CN101518041A (zh) * 2006-09-20 2009-08-26 阿尔卡特朗讯 用于实施通用会议召开的系统和方法
US20080120101A1 (en) * 2006-11-16 2008-05-22 Cisco Technology, Inc. Conference question and answer management
US7873067B2 (en) * 2006-12-29 2011-01-18 Alcatel-Lucent Usa Inc. Adaptive method of floor control with fast response time and fairness in communication network
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US20110022395A1 (en) * 2007-02-15 2011-01-27 Noise Free Wireless Inc. Machine for Emotion Detection (MED) in a communications device
JP4364251B2 (ja) * 2007-03-28 2009-11-11 株式会社東芝 対話を検出する装置、方法およびプログラム
US8077893B2 (en) * 2007-05-31 2011-12-13 Ecole Polytechnique Federale De Lausanne Distributed audio coding for wireless hearing aids
WO2009009722A2 (en) 2007-07-12 2009-01-15 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
US8060366B1 (en) 2007-07-17 2011-11-15 West Corporation System, method, and computer-readable medium for verbal control of a conference call
US9602295B1 (en) 2007-11-09 2017-03-21 Avaya Inc. Audio conferencing server for the internet
CN102160335B (zh) * 2008-09-18 2015-01-28 皇家飞利浦电子股份有限公司 周围电话系统中的对话检测
CN102177734B (zh) * 2008-10-09 2013-09-11 艾利森电话股份有限公司 基于公共场景的会议系统
CN101478619B (zh) * 2009-01-05 2011-11-23 腾讯科技(深圳)有限公司 实现多路语音混音的方法、系统及节点设备
JP5201050B2 (ja) * 2009-03-27 2013-06-05 ブラザー工業株式会社 会議支援装置、会議支援方法、会議システム、会議支援プログラム
US8473420B2 (en) * 2009-06-26 2013-06-25 Microsoft Corporation Computational models for supporting situated interactions in multi-user scenarios
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US8363810B2 (en) * 2009-09-08 2013-01-29 Avaya Inc. Method and system for aurally positioning voice signals in a contact center environment
US8547880B2 (en) * 2009-09-30 2013-10-01 Avaya Inc. Method and system for replaying a portion of a multi-party audio interaction
US8843372B1 (en) * 2010-03-19 2014-09-23 Herbert M. Isenberg Natural conversational technology system and method
US8744065B2 (en) 2010-09-22 2014-06-03 Avaya Inc. Method and system for monitoring contact center transactions
US9736312B2 (en) * 2010-11-17 2017-08-15 Avaya Inc. Method and system for controlling audio signals in multiple concurrent conference calls
TW201225689A (en) * 2010-12-03 2012-06-16 Yare Technologies Inc Conference system capable of independently adjusting audio input
US9107012B2 (en) 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
US8934652B2 (en) 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US10875525B2 (en) 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US8811638B2 (en) 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US9159236B2 (en) 2011-12-01 2015-10-13 Elwha Llc Presentation of shared threat information in a transportation-related context
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US20130144619A1 (en) * 2011-12-01 2013-06-06 Richard T. Lord Enhanced voice conferencing
US9053096B2 (en) 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US9064152B2 (en) 2011-12-01 2015-06-23 Elwha Llc Vehicular threat detection based on image analysis
EP2615541A1 (en) * 2012-01-11 2013-07-17 Siemens Aktiengesellschaft Computer implemented method, apparatus, network server and computer program product
US8838516B2 (en) 2012-03-06 2014-09-16 Samsung Electronics Co., Ltd. Near real-time analysis of dynamic social and sensor data to interpret user situation
US9184791B2 (en) 2012-03-15 2015-11-10 Blackberry Limited Selective adaptive audio cancellation algorithm configuration
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
US9002768B2 (en) * 2012-05-12 2015-04-07 Mikhail Fedorov Human-computer interface system
US8924327B2 (en) * 2012-06-28 2014-12-30 Nokia Corporation Method and apparatus for providing rapport management
US10438591B1 (en) 2012-10-30 2019-10-08 Google Llc Hotword-based speaker recognition
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
US20140160996A1 (en) * 2012-12-07 2014-06-12 Rajant Corporation System and method for decentralized voice conferencing over dynamic networks
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
US9083782B2 (en) 2013-05-08 2015-07-14 Blackberry Limited Dual beamform audio echo reduction
CA2947324C (en) 2014-04-30 2019-09-17 Motorola Solutions, Inc. Method and apparatus for discriminating between voice signals
US9384738B2 (en) 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US11051702B2 (en) 2014-10-08 2021-07-06 University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9535905B2 (en) * 2014-12-12 2017-01-03 International Business Machines Corporation Statistical process control and analytics for translation supply chain operational management
WO2016157642A1 (ja) * 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
WO2016210012A1 (en) * 2015-06-22 2016-12-29 Loose Cannon Systems, Inc. Portable group communication device having audio playback and/or phone call capability
EP3350980B1 (en) * 2015-09-14 2021-11-03 Cogito Corporation Systems and methods for managing, analyzing, and providing visualizations of multi-party dialogs
US11144964B2 (en) * 2015-11-20 2021-10-12 Voicemonk Inc. System for assisting in marketing
US11769175B2 (en) 2015-11-20 2023-09-26 Voicemonk Inc. System for assisting in marketing
EP3414758B1 (en) * 2016-02-12 2020-09-23 Samsung Electronics Co., Ltd. Method and electronic device for performing voice based actions
US10451719B2 (en) 2016-06-22 2019-10-22 Loose Cannon Systems, Inc. System and method to indicate relative location of nodes in a group
EP3301896B1 (en) * 2016-09-28 2019-07-24 British Telecommunications public limited company Streamed communication
EP3301895B1 (en) * 2016-09-28 2019-07-24 British Telecommunications public limited company Streamed communication
US10135979B2 (en) * 2016-11-02 2018-11-20 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs by call center supervisors
US10158758B2 (en) 2016-11-02 2018-12-18 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs at call centers
US10888271B2 (en) 2016-12-08 2021-01-12 Louise M. Falevsky Systems, apparatus and methods for using biofeedback to facilitate a discussion
US9953650B1 (en) 2016-12-08 2018-04-24 Louise M Falevsky Systems, apparatus and methods for using biofeedback for altering speech
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
EP3811245A4 (en) 2018-06-19 2022-03-09 Ellipsis Health, Inc. MENTAL HEALTH ASSESSMENT SYSTEMS AND METHODS
US10956117B2 (en) 2018-12-04 2021-03-23 International Business Machines Corporation Conference system volume control
US11190468B2 (en) 2019-04-19 2021-11-30 Microsoft Technology Licensing, Llc Method and system of synchronizing communications in a communication environment
US11683282B2 (en) 2019-08-15 2023-06-20 Microsoft Technology Licensing, Llc Method and system of synchronizing communications
WO2022154958A1 (en) * 2021-01-15 2022-07-21 Mycelium, Inc. Virtual conferencing system with layered conversations
EP4191584A1 (en) * 2021-12-02 2023-06-07 Koninklijke Philips N.V. An audio apparatus and method of operating therefor
US20230388140A1 (en) * 2022-05-27 2023-11-30 Ricoh Company, Ltd. Information processing apparatus, information processing system, method for providing rhythm, and non-transitory recording medium
CN116939150B (zh) * 2023-09-14 2023-11-24 北京橙色风暴数字技术有限公司 一种基于机器视觉的多媒体平台监测系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04104683A (ja) * 1990-08-24 1992-04-07 Nec Eng Ltd 高能率画像圧縮符号化装置
JPH05300235A (ja) * 1992-04-17 1993-11-12 Anritsu Corp Isdn回線の信号無し検出装置
JPH10173726A (ja) * 1996-12-06 1998-06-26 Matsushita Electric Ind Co Ltd インターネット情報表示装置
JPH1155282A (ja) * 1997-08-05 1999-02-26 Nippon Telegr & Teleph Corp <Ntt> 中継回線帯域幅制御方法及びその装置
JP2000029812A (ja) * 1998-01-12 2000-01-28 Xerox Corp 会議の目的を支援するための会議オブジェクトを有するフリ―フォ―ムグラフィックスシステム
JP2003152793A (ja) * 2001-11-16 2003-05-23 Pioneer Electronic Corp 通信情報の帯域幅制御装置および方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1102020A (en) 1965-08-26 1968-02-07 Peter Heaton Improvements relating to digital telephone systems
US3699264A (en) 1971-03-02 1972-10-17 Gte Automatic Electric Lab Inc Conference circuit for pulse code modulated telephony
US4475190A (en) * 1982-05-27 1984-10-02 At&T Bell Laboratories Method and apparatus for controlling ports in a digital conference arrangement
US5557798A (en) * 1989-07-27 1996-09-17 Tibco, Inc. Apparatus and method for providing decoupling of data exchange details for providing high performance communication between software processes
US5113431A (en) 1989-10-31 1992-05-12 At&T Bell Laboratories Distributed control teleconferencing voice bridge
US5034947A (en) 1990-03-06 1991-07-23 Confertech International Whisper circuit for a conference call bridge including talker nulling and method therefor
US5410739A (en) * 1992-09-29 1995-04-25 The Titan Corporation Variable data message communication over voice communication channel
US5631967A (en) 1993-11-24 1997-05-20 Intel Corporation Processing audio signals using a state variable
US5533112A (en) 1994-03-31 1996-07-02 Intel Corporation Volume control in digital teleconferencing
CA2143591C (en) 1994-04-29 1999-01-26 David N. Horn Teleconferencing audio bridge
US5768263A (en) 1995-10-20 1998-06-16 Vtel Corporation Method for talk/listen determination and multipoint conferencing system using such method
US6574321B1 (en) * 1997-05-08 2003-06-03 Sentry Telecom Systems Inc. Apparatus and method for management of policies on the usage of telecommunications services
US6236854B1 (en) 1998-08-17 2001-05-22 Nortel Networks Limited Method and apparatus for controlling a conference call
US6556670B1 (en) * 1998-08-21 2003-04-29 Lucent Technologies Inc. Method for solving the music-on-hold problem in an audio conference
US6327567B1 (en) 1999-02-10 2001-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and system for providing spatialized audio in conference calls
DE60010915T2 (de) * 1999-10-18 2005-05-25 British Telecommunications P.L.C. Persönliches mobiles kommunikationsgerät
JP2005300235A (ja) 2004-04-07 2005-10-27 Yazaki Corp 計器用指針

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04104683A (ja) * 1990-08-24 1992-04-07 Nec Eng Ltd 高能率画像圧縮符号化装置
JPH05300235A (ja) * 1992-04-17 1993-11-12 Anritsu Corp Isdn回線の信号無し検出装置
JPH10173726A (ja) * 1996-12-06 1998-06-26 Matsushita Electric Ind Co Ltd インターネット情報表示装置
JPH1155282A (ja) * 1997-08-05 1999-02-26 Nippon Telegr & Teleph Corp <Ntt> 中継回線帯域幅制御方法及びその装置
JP2000029812A (ja) * 1998-01-12 2000-01-28 Xerox Corp 会議の目的を支援するための会議オブジェクトを有するフリ―フォ―ムグラフィックスシステム
JP2003152793A (ja) * 2001-11-16 2003-05-23 Pioneer Electronic Corp 通信情報の帯域幅制御装置および方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008113875A (ja) * 2006-11-06 2008-05-22 Advanced Telecommunication Research Institute International コミュニケーション誘発システム
JP2012503401A (ja) * 2008-09-18 2012-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ システム制御方法及び信号処理システム

Also Published As

Publication number Publication date
US7933226B2 (en) 2011-04-26
EP1526706A3 (en) 2009-12-16
EP1526706A2 (en) 2005-04-27
US20050088981A1 (en) 2005-04-28

Similar Documents

Publication Publication Date Title
JP2005130501A (ja) 複数人参加型の通信に動的変更可能なプロパティをそれぞれ少なくとも1個有する通信チャネルを提供する方法及びシステム
US8463600B2 (en) System and method for adjusting floor controls based on conversational characteristics of participants
US10586131B2 (en) Multimedia conferencing system for determining participant engagement
US7698141B2 (en) Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
KR102069933B1 (ko) 전자 통신들을 위한 출력 관리
US8817061B2 (en) Recognition of human gestures by a mobile phone
CN114079746A (zh) 视频会议中的错误音频设置的智能检测和自动纠正
US20130211826A1 (en) Audio Signals as Buffered Streams of Audio Signals and Metadata
CN105210355B (zh) 用于在电话呼叫的接收者判断不适合说话时应答电话呼叫的设备和相关方法
EP2342884B1 (en) Method of controlling a system and signal processing system
WO2014069122A1 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
JP5526134B2 (ja) 周辺電話技術システムにおける会話検出
WO2023040523A1 (zh) 音频信号的处理方法、装置、电子设备及存储介质
WO2022124040A1 (ja) 遠隔会議システム、通信端末、遠隔会議方法及びプログラム
WO2018180571A1 (ja) 情報処理装置、情報処理方法、プログラム
EP1453287B1 (en) Automatic management of conversational groups
EP2693429A1 (en) System and method for analyzing voice communications
JP7290366B2 (ja) 通信端末、遠隔会議方法及びプログラム
US11301883B1 (en) Voice survey collection and analysis
CN113726956A (zh) 一种来电接听控制方法、装置、终端设备及存储介质
JP2022135075A (ja) 制御装置、端末装置、可動装置、制御システムおよび方法
JP2024043588A (ja) メッセンジャーサービスでメッセージの表示を制限するための装置及び方法。
KR20220051690A (ko) 단말 장치, 이에 의해 수행되는 방법 및 인터페이싱 장치
CN114333810A (zh) 一种控制方法、装置和录音设备

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071015

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100520

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101102