JP2022128594A

JP2022128594A - 通信セッション品質の単語ベース表現

Info

Publication number: JP2022128594A
Application number: JP2022024667A
Authority: JP
Inventors: チョプデカーサンデシュ; Chopdekar Sandesh; ヤシャヴァントデオーレプシュカー; Yashavant Deole Pushkar; ダガナヴィン; Daga Navin; シー．マチュラヴァレンタイン; C Matula Valentine
Original assignee: Avaya Management LP
Current assignee: Avaya Management LP
Priority date: 2021-02-23
Filing date: 2022-02-21
Publication date: 2022-09-02
Also published as: CN114974250A; US20220272141A1; US11870835B2

Abstract

【課題】セッション品質を示すための単語不一致のユーザ通知を可能にする。
【解決手段】第１の参加者によって操作される第１のエンドポイントと第２の参加者によって操作される第２のエンドポイントとの間の通信セッション中に、通信セッションに含めるために第１のエンドポイントによってキャプチャされたサウンドに基づいて、期間中に第１の参加者によって話された単語の第１の数を決定するステップと、通信セッションを介して第２のエンドポイントで受信されたオーディオに基づいて、期間中に単語の第２の数を決定するステップと、第１の数と第２の数との間に不一致が存在すると判定すると、第１の参加者および第２の参加者の少なくとも１つに不一致について通知するステップとを備えることを特徴とする方法が提供される。
【選択図】図１

Description

現代の通信セッション（例えば、オーディオ／ビデオ会議）中、情報は、通信セッションに関する事実を提供するモデレータまたは他の参加者に利用可能であり得る。情報は、参加者リスト、誰が話しているかの表示、誰がミュート中であるかの表示および／またはストリーミングビットレートなどのネットワーク統計を含み得る。ネットワーク統計は、通信セッションのサービス品質（ＱｏＳ）を理解するために使用され得る。しかしながら、ネットワークトポロジー、伝送プロトコルなどに関する情報を有さない可能性が高いほとんどのユーザにとって、ネットワーク統計は、ユーザがネットワーク問題が存在すると判断するのに有用ではないことがある。実際、典型的なユーザは、話している単語が通信セッションにおける他の参加者によって適切に聞かれているかどうかに最も関心がある場合がある。ネットワーク統計から問題を推測できない場合、話しているユーザは他の参加者に「皆さん聞こえますか」などの質問をする必要がある。このような質問は、問題が発生している場合、他の参加者には聞こえない可能性がある。

本明細書で開示される技術は、セッション品質を示すための単語不一致のユーザ通知を可能にする。特定の実施形態では、方法は、第１の参加者によって操作される第１のエンドポイントと第２の参加者によって操作される第２のエンドポイントとの間の通信セッション中に、通信セッションに含めるために第１のエンドポイントによってキャプチャされた音に基づいて、期間中に第１の参加者によって話された第１の数の単語を決定するステップを含む。方法はまた、通信セッションを介して第２のエンドポイントにおいて受信された音声に基づいて、期間中に第１の参加者によって話された単語の２の数を決定するステップを含む。第１の数と第２の数との間に不一致が存在すると判定すると、方法は、第１の参加者および第２の参加者の少なくとも１つに不一致を通知するステップを含む。

いくつかの実施形態では、方法は、第１の数および第２の数に関する情報を第１の参加者に提示するステップを含む。

いくつかの実施形態では、方法は、第２のエンドポイントから第２の数を示すメッセージを受信するステップと、メッセージを受信した後、第２の数を第１の数と比較して不一致を判定するステップとを含む。

いくつかの実施形態では、不一致は、第１の数と第２の数との間の差が単語の閾値数より大きいことを含む。

いくつかの実施形態では、方法は、第１の参加者によって話された単語のテキストトランスクリプトを生成するステップと、第２の参加者への提示のためにテキストトランスクリプトを第２のエンドポイントに転送するステップとを含む。それらの実施形態では、方法は、第２のエンドポイントにおいて受信された音声に基づいて第１の参加者によって話された単語の第２のテキストトランスクリプトを受信するステップと、テキストトランスクリプトに対して第２のテキストトランスクリプトから欠落している単語の指示を第１の参加者に提示するステップとを含み得る。

いくつかの実施形態では、不一致について第１の参加者および第２の参加者の少なくとも１つに通知するステップは、第２のエンドポイントを介して、第１の参加者によって話された単語のすべてよりも少ない単語が第２の参加者に対して再生されていることを示す警告を第２の参加者に提示するステップを含む。

いくつかの実施形態では、方法は、第２のエンドポイントを介して、第２の数を第１の数に関係付けるメトリックを提示するステップを含む。

いくつかの実施形態では、方法は、通信セッションを介して、通信セッションを容易にするサーバにおいて受信されたオーディオに基づいて、期間中に第１の参加者によって話された単語の第３の数を決定するステップと、第１の数と第３の数との間に第２の不一致が存在すると決定したことに応答して、第１のエンドポイントとサーバとの間に問題が存在することを第１の参加者に通知するステップとを含む。

いくつかの実施形態では、方法は、第２のエンドポイントにおけるオーディオにおけるパケット損失を監視するステップと、パケット損失がパケット損失閾値を満たすことを決定するステップとを含む。それらの実施形態では、第１の数を決定するステップおよび第２の数を決定するステップは、パケット損失がパケット損失閾値を満たすと決定するステップに応答して生じる。

別の実施形態では、１つまたは複数のコンピュータ可読記憶媒体と、１つまたは複数のコンピュータ可読記憶媒体に動作可能に結合された処理システムとを有する装置が提供される。１つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令は、処理システムによって読み取られ実行されると、第１の参加者によって操作される第１のエンドポイントと第２の参加者によって操作される第２のエンドポイントとの間の通信セッション中に、期間中に第１の参加者によって話された第１の数の単語を、通信セッションに含めるために第１のエンドポイントによってキャプチャされた音に基づいて決定するよう処理システムに指示する。プログラム命令はさらに、通信セッションを介して第２のエンドポイントにおいて受信された音声に基づいて、期間中に第１の参加者によって話された第２の数の単語を決定するように処理システムに指示する。第１の数と第２の数との間に不一致が存在すると決定すると、プログラム命令は、不一致について第１の参加者および第２の参加者の少なくとも１つに通知するように処理システムに指示する。

図１は、セッションで話された単語を使用して通信セッション品質を表すための実装を示す。図２は、セッションで話された単語を使用して通信セッション品質を表す動作を示す。図３は、セッションで話された単語を使用して通信セッション品質を表すための動作シナリオを示す。図４は、セッションで話された単語を使用して通信セッション品質を表すための実装を示す。図５は、セッションで話された単語を使用して通信セッション品質を表すための動作シナリオを示す。図６は、セッションで話された単語を使用して通信セッション品質を表すための別の動作シナリオを示す。図７は、セッションで話された単語を使用して通信セッション品質を表すための表示システムを示す。図８は、セッションで話された単語を使用して通信セッション品質を表す動作を示す。図９は、セッションで話された単語を使用して通信セッション品質を表すためのコンピューティングアーキテクチャを示す。

本明細書で提供される例は、エンドポイントの通信セッションが、ユーザの単語が通信セッションの他の参加者によって聞かれているかどうかについての情報をそのユーザに提供することを可能にする。例えば、ユーザによって話された単語が通信セッション上の別のエンドポイントにおいて別のユーザに提示されない場合、その事実をユーザに知らせる通知をユーザは提示されてもよい。通知を受信すると、ユーザは、少なくとも、それらの単語がすべて聞こえているわけではないことを考慮して発話を停止することができ、また、それらの単語が聞こえない理由のトラブルシューティングを開始することができる。ユーザは、理解されていないかもしれない他のユーザの反応やネットワーク統計に依存して、通信セッションで他のユーザが自分の単語を聞いていないことを推測する必要はない。

図１は、セッションで話された単語を使用して通信セッション品質を表すための実装１００を示す。実装１００は、通信セッションシステム１０１と、エンドポイント１０２と、エンドポイント１０３とを含む。ユーザ１２２はエンドポイント１０２を操作し、ユーザ１２３はエンドポイント１０３を操作する。エンドポイント１０２および通信セッションシステム１０１は、通信リンク１１１を介して通信する。エンドポイント１０３および通信セッションシステム１０１は、通信リンク１１２を介して通信する。通信リンク１１１～１１２は、直接のリンクとして示されているが、介在するシステム、ネットワークおよび／またはデバイスを含むことができる。

動作中、エンドポイント１０２およびエンドポイント１０３は、それぞれ、電話、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、会議室システムまたは通信セッションシステム１０１によって容易にされる通信セッションに接続することが可能な何らかの他のタイプのコンピューティングデバイスであり得る。通信セッションシステム１０１は、エンドポイント１０２およびエンドポイント１０３などの２つ以上のエンドポイント間の通信セッションを容易にする。いくつかの例では、通信セッションシステム１０１は、エンドポイント１０２とエンドポイント１０３との間のピアツーピア通信セッションを優先して省略されてもよい。通信セッションは、音声のみ（例えば、音声通話）であってもよくまたは少なくともビデオコンポーネント（例えば、ビデオ通話）を含んでもよい。通信セッション中、ユーザ１２２およびユーザ１２３は、それぞれのエンドポイント１０２および１０３がその音声をキャプチャし、通信セッションを介してその音声を転送することによって、互いに話すことができる。

図２は、セッションで話された単語を使用して通信セッション品質を表す動作２００を示す。動作２００において、ユーザ１２２およびユーザ１２３は、エンドポイント１０２とエンドポイント１０３との間で確立された通信セッションに対する参加者である。動作２００は、通信セッション中に、エンドポイント１０２および１０３の一方または両方が、ユーザ１２２によって話された単語の数がエンドポイント１０３によってユーザ１２３に提示される単語の数と不一致である場合に、それぞれのユーザ１２２および１２３にどのように通知し得るかの例である。動作２００において、エンドポイント１０２は、通信セッションに含めるためにエンドポイント１０２によってキャプチャされたサウンド１３１に基づいて、ある期間中にユーザ１２２によって話された単語の数を決定する（２０１）。サウンド１３１は、エンドポイント１０２によってオーディオ１３２に処理され、通信セッションを通じてエンドポイント１０２から転送される。いくつかの例では、音声テキスト変換アルゴリズム（例えば、自然言語処理（ＮＬＰ）アルゴリズム）が、サウンド１３１からキャプチャされた単語を認識するためにオーディオ１３２で使用されてもよく、次いで、時間期間中の単語が、単語の数に到達するためにカウントされる。他の例では、アルゴリズムは、実際の単語を認識する必要なしにオーディオ１３２において言われる単語の数をカウントするように訓練されるか、または構成されてもよい（例えば、音声の音調の変化および／または単語間の休止を認識することによって）。期間は、エンドポイント１０２とエンドポイント１０３との間のレイテンシまたはクロック差がエンドポイント１０２にエンドポイント１０３とは異なる期間を使用させないように、オーディオ１３２内で（例えば、オーディオ１３２のタイムスタンプ間で）測定される。期間は、任意の長さの時間であり得、時間単位（例えば、秒）または単語で測定され得る。期間は、単語がカウントされる一連の期間（例えば、連続する５秒の期間）の１つであってもよい。いくつかの例では、期間は、常に現在時刻（例えば、最後の５秒または最後の１０単語）から戻るローリング期間であるか、またはセッションが確立された時刻などの定義された開始点と現在時刻との間で測定され得る。場合によっては、ローリング期間は、ユーザに比較的迅速に不一致を通知することを依然として可能にしながら、偽陽性を回避することができる充分に長い持続時間に設定されてもよい。例えば、時間が１秒に設定される場合、単語数を処理／カウントするのに１回のエラーであっても、不一致が存在しなくても、不一致を示す可能性がある。同様に、ユーザは、１つの単語がここで見逃されてそこにいるかどうかを気にしないことがあるが、むしろ、単語が一貫してドロップされているかどうかを知ることを望むことがある。

通信セッションを介してオーディオ１３２を受信した後、エンドポイント１０３は、オーディオ１３２からの期間中にユーザ１２２によって話された単語の数を決定する（２０２）。この例では、オーディオ１３２は、エンドポイント１０３への経路上で通信セッションシステム１０１を通過するが、他の例では、オーディオ１３２の経路は、通信セッションシステム１０１をスキップしてもよい。エンドポイント１０３は、エンドポイント１０２が上記のオーディオ１３２を処理したのと同じ方法でオーディオ１３２を処理して単語の数を決定することができるが、エンドポイント１０３は、異なる方法で（例えば、異なるアルゴリズムを使用して）単語の数を決定することが可能である。いくつかの例では、アルゴリズムは、単語が理解可能でないと認識してもよく、その単語をカウントしない（例えば、オーディオ１３２がミッド単語をカットアウトする）。それらの例では、同様のアルゴリズムがエンドポイント１０２で使用された場合、エンドポイント１０２で決定された数もまたそのカウントにそのような単語を含まない。同様に、単語がエンドポイント１０２で理解可能であるがエンドポイント１０３では理解可能でない場合、エンドポイント１０２でのカウントに含まれ、エンドポイント１０３でのカウントには含まれない。

エンドポイント１０２によって決定された単語の数とエンドポイント１０３によって決定された単語の数との間に不一致が存在すると判定すると、ユーザ１２２およびユーザ１２３のいずれかまたは両方に不一致について通知される（２０３）。数が比較され、所定の閾値（例えば、互いの量またはパーセンテージ）と一致しないか、またはその範囲内にない場合、不一致が存在し得る。例えば、閾値は、エンドポイント１０３によって決定された数がエンドポイント１０２によって決定された数の少なくとも９０％でない場合、ユーザ通知がトリガされることを示してもよい。不一致は、通信セッションシステム１０１、エンドポイント１０２またはエンドポイント１０３において判定され得る。したがって、エンドポイント１０２およびエンドポイント１０３のいずれかまたは両方によって決定された数は、不一致判定を実行するシステムに転送され得る。例えば、エンドポイント１０２が不一致を判定する場合、エンドポイント１０３は、エンドポイント１０２によって判定された数と比較するために、メッセージにおいて判定された数をエンドポイント１０２に転送する。不一致が、そのユーザにユーザ通知を実際に提示するエンドポイント以外のシステムにおいて判定される場合、ユーザに通知することは、不一致を示すメッセージをエンドポイントに転送することを含み、これは、エンドポイントにユーザ通知を提示するようにトリガする。同様に、動作２００は、実装１００（すなわち、エンドポイント１０２／１０３および通信セッションシステム１０１）におけるシステムのうちの１つにおいて完全に実行されてもよくまたは動作２００は、システムにわたって分散されてもよいことを理解されたい。あるシステムが動作２００を実行する例では、決定ステップは、動作実行システムが、オーディオ１３２からの単語の数（例えば、エンドポイント１０２は、エンドポイント１０３から単語の数を受信する）を実際にカウントした別のシステムから単語の数を示すメッセージを受信することによって単語の数を決定することを含み得る。

ユーザ通知は、エンドポイント１０２によってユーザ１２２からキャプチャされた全単語よりも少ない単語がエンドポイント１０３によってユーザ１２３に提示されていることを、単にユーザ１２２および／またはユーザ１２３に示してもよい。ユーザ通知は、エンドポイント１０２／１０３の表示画面のグラフィック、エンドポイント１０２／１０３の光要素（例えば発光ダイオード）の照明、可聴通知（例えば、トーン、トーンパターン、音声メッセージなど）、振動通知またはユーザインターフェースがユーザに通知し得る何らかの他の様式（これらの組み合わせを含む）であり得る。いくつかの例では、通知は、期間（またはセッション全体などの他の何らかの期間）中にエンドポイント１０３において提示されていない単語の数を示すこと、または提示されていない特定の単語を示すことなど、不一致に関する追加の情報を含み得る。例えば、エンドポイント１０２およびエンドポイント１０３はそれぞれ、カウントされている単語のテキストトランスクリプトを生成し、２つのトランスクリプトを比較して、エンドポイント１０３のトランスクリプトから欠落している単語を識別し、次いで、エンドポイント１０２のトランスクリプトに、エンドポイント１０３のトランスクリプトからどの単語が欠落しているかの指示（例えば、強調表示）を提示することができる。エンドポイント１０３におけるそのようなトランスクリプトの提示は、エンドポイント１０３によるオーディオ１３２の提示から見逃されているユーザ１２２の言葉についてユーザ１２３に知らせるが、エンドポイント１０２によって提示される場合、ユーザ１２２にも有益であり得る。

有利には、ユーザ１２２およびユーザ１２３のいずれかまたは両方は、ネットワーク問題などの何かがユーザ１２２からキャプチャされた単語をユーザ１２３に提示させないときに通知される。いくつかの例では、動作２００は、同様に反対方向に（すなわち、エンドポイント１０３によってキャプチャされ、提示のためにエンドポイント１０２にオーディオとして転送される音に対して）実行され得る。同様に、動作２００は、通信セッションで２つより多いエンドポイントを用いて実行され得る。例えば、第３のエンドポイントが通信セッションにある場合、第３のエンドポイントは、上記の例におけるエンドポイント１０２と同様に機能する。不一致が判定された場合、ユーザ１２２および第３のエンドポイントのユーザのいずれかまたは両方に、不一致について通知される。その例では、ユーザ１２３は、おそらく、２つの他のシステム間の不一致を通知されないが、ユーザ１２３が有用な情報を発見し、したがって通知される状況があり得る。

図３は、セッション上で話された単語を使用して通信セッション品質を表すための動作シナリオ３００を示す。動作シナリオ３００は、エンドポイント１０２およびエンドポイント１０３によって実行されるステップに関する追加の詳細を有する動作２００の一例である。エンドポイント１０２は、ステップ１においてオーディオ１３２を生成するためにサウンド１３１をキャプチャする。エンドポイント１０２は、サウンド１３１をキャプチャするための内蔵マイクロフォン、エンドポイント１０２に接続された有線または無線周辺マイクロフォンまたはサウンド１３１をキャプチャするための何らかの他のタイプのマイクロフォンを使用することができる。サウンド１３１は、少なくともユーザ１２２からの音声を含むが、背景雑音などの他の音も含み得る。エンドポイント１０２は、ステップ２において、エンドポイント１０３との通信セッションを介してオーディオ１３２を転送する。エンドポイント１０２はまた、ステップ３において、オーディオ１３２を言語処理アルゴリズムで処理して、オーディオ１３２においてユーザ１２２によって話された単語を識別し、カウントする。ステップ２および３は、サウンド１３１がキャプチャされるときにリアルタイムで行われ得る。したがって、オーディオ１３２は、通信セッションにおけるリアルタイムユーザ通信の一部としてエンドポイント１０２からエンドポイント１０３にストリーミングされ得る。

オーディオ１３２がステップ４においてエンドポイント１０３によって受信されると、エンドポイント１０３はステップ５においてユーザ１２３に対してオーディオ１３２を再生する。エンドポイント１０３はまた、ステップ６において、オーディオ１３２を言語処理アルゴリズムで処理して、オーディオ１３２内でユーザ１２２によって話された単語を識別およびカウントし、単語カウント３０１を生成する。単語カウント３０１は、ステップ７においてエンドポイント１０２に送信される。ステップ４～７はすべて、エンドポイント１０３が単語カウント３０１でエンドポイント１０２を継続的に更新することができるように、リアルタイムで行われてもよい。場合によっては、単語カウント３０１は、新しいオーディオ１３２が受信されることから新しい単語カウント３０１が決定される前に、ある期間にわたってすべての単語（例えば、セッションのうち５秒間における増加）がカウントされると転送され得る。

ステップ８において単語カウント３０１を受信すると、ステップ９においてエンドポイント１０２は、単語カウント３０１を、オーディオ１３２内の同じ期間内の単語の数を表すステップ３においてカウントされた単語の数と比較する。エンドポイント１０２が、比較を介して、不一致が２つのカウントの間に存在すると判定する場合、エンドポイント１０２は、ステップ１０において、不一致についての通知３０２をユーザ１２２に提示する。この例では、エンドポイント１０３はユーザ１２３に通知しないが、他の例では、エンドポイント１０２は、不一致を示すメッセージをエンドポイント１０３に転送することができ、エンドポイント１０３は、通知３０２と同様の通知をユーザ１２３に提示することができる。また、不一致は、第１の期間中に存在し得ないので、ステップ１～９は、ステップ１０に移行する前に不一致が識別されるまで、後続の期間にわたって実行され得ることを理解されたい。

図４は、セッションで話された単語を使用して通信セッション品質を表すための実装４００を示す。実装４００は、通信セッションシステム４０１と、エンドポイント４０２～４０６と、通信ネットワーク４０７とを含む。通信ネットワーク４０７は、インターネットを含む、１つまたは複数のローカルエリアネットワークおよび／または広域コンピューティングネットワークを含み、それを介して、通信セッションシステム４０１およびエンドポイント４０２～４０６を含む。エンドポイント４０２～４０６はそれぞれ、電話、ラップトップコンピュータ、デスクトップワークステーション、タブレットコンピュータ、会議室システムまたは何らかの他のタイプのユーザ操作可能なコンピューティングデバイスを備えてもよい。通信セッションシステム４０１は、オーディオ／ビデオ会議サーバ、パケット通信サーバ、ウェブベースのプレゼンテーションサーバまたはエンドポイント間のユーザ通信セッションを容易にする何らかの他のタイプのコンピューティングシステムであってもよい。エンドポイント４０２～４０６はそれぞれ、エンドポイント４０２～４０６が通信セッションシステム４０１によって容易にされる通信セッションに接続し、本明細書で説明される単語不一致通知など、関連する特徴を提供することを可能にするクライアントアプリケーションを実行してもよい。

この例では、提示者エンドポイント４０６は、通信セッションシステム４０１によって容易にされる通信セッションで提示参加者であるユーザによって操作される。提示参加者は、通信セッションのモデレータであってもよく、指定された提示者（例えば、彼らのスクリーンを共有してもよく、そうでなければ情報を提示してもよい）であってもよく、単に現在の話者であってもよく、またはそうでなければ通信セッション中に現在出席していると見なされる者であってもよい。したがって、場合によっては、提示者エンドポイントは、通信セッションで誰が現在話しているか（または誰が指定されたプレゼンタであるか）に応じて変化し得るが、他の場合では、提示者エンドポイントは、通信セッション全体にわたって静的であり得る。

図５は、セッションで話された単語を使用して通信セッション品質を表すための動作シナリオ５００を示す。この例では、通信セッションシステム４０１は、エンドポイント４０２～４０６の各々によって決定された単語カウントと通信セッションシステム４０１自体とを比較して、参加者エンドポイント４０２～４０５のいずれかにおけるオーディオが、提示参加者から提示者エンドポイント４０６においてキャプチャされた単語を含まないかどうかを決定する。各ノードにおける単語カウントを比較することにより、通信セッションシステム４０１は、単語を欠落させる問題が存在する場所をより良く特定することができる。

動作シナリオ５００は、ステップ１において、提示者エンドポイント４０６がサウンド５０１をキャプチャして、エンドポイント４０２～４０６間の通信セッションでリアルタイムユーザ通信として転送するためのオーディオ５０２を生成することから始まる。オーディオ５０２から、提示者エンドポイント４０６は、所定の期間にわたってオーディオ５０２内の話された単語をカウントして、ステップ２において、その期間中にカウントされたワードの数を示す単語カウント５２６を作成する。ステップ３において、単語カウント５２６およびオーディオ５０２の両方が通信セッションシステム４０１に転送される。オーディオ５０２は、通信セッションを介してリアルタイムで転送され、単語カウント５２６は、オーディオ５０２からの帯域外メッセージにおいて、その期間の完了時に転送され得る。通信セッションシステム４０１は、ステップ４において、通信セッションにわたってリアルタイムで参加者エンドポイント４０２～４０５にオーディオ５０２を渡す。オーディオ５０２を受信した後、参加者エンドポイント４０２～４０５は、ステップ５において、オーディオ５０２で話された単語の自身のそれぞれの単語カウント５２２～５２５を決定し、通信セッションシステム４０１は、ステップ６において、オーディオ５０２で話された単語の自身の単語カウント５２１を決定する。単語カウント５２１～５２５はすべて、オーディオ５０２内で単語カウント５２６と同じ期間にわたって決定されることを理解されたい。図示されていないが、参加者エンドポイント４０２～４０５はまた、進行中の通信セッションの一部として、それぞれのユーザにリアルタイムでオーディオ５０２を再生することを理解されたい。

通信セッションシステム４０１は、ステップ７において、参加者エンドポイント４０２～４０５から単語カウント５２２～５２５を受信する。次いで、通信セッションシステム４０１は、単語カウント５２２～５２６を比較して、単語カウント５２６と単語カウント５２２～５２５のいずれかとの間に不一致が存在するかどうかを判定する。上述のように、単語カウントが単語カウント５２６より１単語少ない場合さえも、不一致が存在してもよく、または不一致として認定される前に単語カウントが単語カウント５２６より大きく異なること（例えば、５単語）を必要とする、より大きな閾値が存在してもよい。どの単語カウントが不一致であるかに基づいて、通信セッションシステム４０１は、どの２つのシステム間で、不一致を引き起こした可能性がある何か（例えば、ネットワーク問題）が発生しているかを識別することができる。例えば、通信セッションシステム４０１が、単語カウント５２５と単語カウント５２６との間にのみ不一致が存在すると判定する場合、通信セッションシステム４０１は、通信セッションシステム４０１と参加者エンドポイント４０５との間に、何かかが、参加者エンドポイント４０５で再生されたときにオーディオ５０２に単語を欠落させたと判定し、それは単語カウント５２５によって決定される。別の例では、通信セッションシステム４０１が、単語カウント５２２～５２５のすべてと単語カウント５２６との間に不一致が存在すると判定する場合、通信セッションシステム４０１と参加者エンドポイント４０２～４０５のすべてとの間の何か、または提示者エンドポイント４０６と通信セッションシステム４０１との間の何かが、単語の欠落を引き起こしている。この場合、通信セッションシステム４０１も単語カウント５２１を決定するので、単語カウント５２１と単語カウント５２６との間に不一致が存在する場合、通信セッションシステム４０１は、通信セッションシステム４０１と提示者エンドポイント４０６との間に何かが単語の欠落を引き起こしていると判断する。代替として、単語カウント５２１と単語カウント５２６との間に不一致が見つからない場合、通信セッションシステム４０１は、通信セッションシステム４０１と参加者エンドポイント４０２～４０５との間に何かが単語カウント５２６と単語カウント５２２～５２５との間に不一致を引き起こしていると判定する（例えば、オーディオ５０２が通信セッションシステム４０１によってトランスコードされる場合、そのトランスコードに問題があり得る）。

どのシステム間に不一致が存在するかを決定した後、通信セッションシステム４０１は、ステップ９において、接続アラート５０３のうちの１つを受信するエンドポイント４０２～４０６のユーザに提示するために、１つまたは複数の接続アラート５０３を転送する。この例では、接続アラート５０３は、単語不一致についてユーザに通知するだけでなく、通信経路のどこで不一致が生じているかについてもユーザに通知する。例えば、通信セッションシステム４０１と参加者エンドポイント４０５との間の何かが、参加者エンドポイント４０５におけるオーディオ５０２においてカウントされる単語の不一致を引き起こすと判定される場合、接続アラート５０３は、通信セッションシステム４０１と参加者エンドポイント４０５との間何かが、接続上で単語を失わせることをユーザに示す。アラート５０３は接続アラート５０３と呼ばれるが、接続アラート５０３間のネットワーク接続以外の要因が単語の欠落を引き起こす可能性があることを理解されたい。

接続アラート５０３は、エンドポイント４０２～４０６のすべてに、またはエンドポイント４０２～４０６の選択されたサブセット、例えば、提示者エンドポイント４０６および参加者エンドポイント４０２～４０５のうちの１つまたは複数である、決定された不一致のいずれかの端のエンドポイントに提供され得る。好ましくは、提示者エンドポイント４０６は常に不一致について通知され、その結果、提示者エンドポイント４０６の提示ユーザは、１人または複数のユーザが言われているあらゆるものを聞いていないことを認識することができる。次いで、提示者は、誰または何人のユーザが言われているものすべてを聞いていないかに応じて、話し続ける前に、キャリーオンまたは待機することを選択してもよい。会話の他方の端では、参加者エンドポイント４０２～４０５のうちの１つの参加者エンドポイントのユーザに、話されている単語が欠落していることを通知することによって、ユーザは、問題を潜在的にトラブルシューティングするか、または必要に応じて、提示者に話を繰り返すように求めることが可能になる。単語の欠落を経験していない可能性のある他のユーザに通知することは、提示者が対処する必要がある可能性のある別のエンドポイントでの問題についてユーザに通知することにも役立つ。これは、通信セッションでの経験に影響する。

問題がどこで引き起こされているかについての知識は、ユーザが問題を引き起こしている可能性があるものをトラブルシューティングするのに有用であり得る。例えば、単語カウント５２５と単語カウント５２１との間で不一致が判定されたときに参加者エンドポイント４０５に接続アラート５０３が提供される場合、次いで、参加者エンドポイント４０５のユーザは、接続アラート５０３を介して、提示者エンドポイント４０６において提示者によって話されたすべての単語が提示されていないこと、および通信セッションへの（すなわち、通信セッションシステム４０１への）接続に関する問題が原因であることを知らされる。その知識がなければ、代わりに、ユーザは欠落した単語の問題が、代わりに、提示者エンドポイント４０６の通信セッションへの接続によって引き起こされていると考えるかもしれない。したがって、接続アラート５０３は、エンドポイント４０２～４０６のユーザに、決定された単語カウントの不一致についてのより多くの情報を有利に提供し、その結果、適切な措置を取ることができる。

図６は、セッションで話された単語を使用して通信セッション品質を表すための動作シナリオ６００を示す。動作シナリオ６００は、提示者エンドポイント４０６において提示ユーザによって話されたどの単語がエンドポイント４０２～４０６の間の通信セッションで受信されたオーディオから欠落しているかを示すためにテキストトランスクリプトが生成される一例である。動作シナリオ６００は、ステップ１において、提示者エンドポイント４０６がサウンド６０１をキャプチャして、エンドポイント４０２～４０６間の通信セッションでリアルタイムユーザ通信として転送するためのオーディオ６０２を生成することから始まる。提示者エンドポイント４０６は、ステップ２でオーディオ６０２からトランスクリプト６２６を生成する。トランスクリプト６２６の生成は、音声テキスト変換アルゴリズムを使用して実行されてもよく、リアルタイムで（すなわち、単語がキャプチャされながら）実行されてもよい。上記の例では、トランスクリプトは、生成されたトランスクリプトから単語がカウントされ得るように生成されてもよく、これはまた、同様の理由で動作シナリオ６００において実行され得るが、説明されない。上記の例は、その中の単語をカウントした後にトランスクリプトに何も行わないことがあるが、この例におけるトランスクリプト６２６は、ステップ３においてメッセージで通信セッションシステム４０１に転送される。オーディオ６０２はまた、ステップ３において、通信セッションにわたってリアルタイムで通信セッションシステム４０１に転送される。トランスクリプト６２６はまた、リアルタイムで転送されてもよく（例えば、各単語は、アルゴリズムによって識別されるときに転送される）、または何らかの他の増分で（例えば、単語カウントのために使用される期間に対応する増分で、または何らかの他の増分で）転送されてもよい。

オーディオ６０２およびトランスクリプト６２６の両方は、ステップ４において、通信セッションシステム４０１から参加者エンドポイント４０２～４０５に転送される。オーディオ６０２はリアルタイムで転送され、トランスクリプト６２６は、提示者エンドポイント４０６から受信したのと同じ間隔で転送され、これもリアルタイムであり得る。オーディオ６０２を受信すると、参加者エンドポイント４０２～４０５は、ステップ５でそれぞれのトランスクリプト６２２～６２５を生成する。トランスクリプト６２２～６２５は、トランスクリプト６２６を生成するために使用されたのと同じアルゴリズムを使用して生成されてもよく、参加者エンドポイント４０２～４０５によってオーディオ６０２において単語が受信され、そこから再生されるときにリアルタイムで生成されてもよい。トランスクリプト６２６の単語は、ステップ６においてトランスクリプト６２２～６２５のうちの１つまたは複数から欠落している可能性がある単語を識別するために、トランスクリプト６２２～６２５の各々の中の単語と比較される。例えば、トランスクリプト６２６が、オーディオ６０２内の特定の時間に対応する単語「ａｃｔｉｏｎ」を含み、参加者エンドポイント４０２によって生成されたトランスクリプト６２２が、オーディオ６０２の特定の時間に関連して単語「ａｃｔｉｏｎ」を含まない場合（例えば、完全に欠落しているか、またはオーディオ劣化に起因して判定され得ない）、単語「ａｃｔｉｏｎ」は、欠落した単語である。単語を関連付けるタイムスタンプと比較して、単語が欠けていると判定するのではなく、参加者エンドポイント４０２は、欠落している単語を、欠落している単語の周囲の単語から識別することができる。上記の例では、トランスクリプト６２６は「ｙｏｕｎｅｅｄｔｏｔａｋｅａｃｔｉｏｎｏｎｔｈｉｓｍａｔｔｅｒ」という文を含み、トランスクリプト６２２は「ｙｏｕｎｅｅｄｔｏｔａｋｅｏｎｔｈｉｓｍａｔｔｅｒ」という文を含むことができる。参加者エンドポイント４０２は、トランスクリプト６２２が「ｔａｋｅ」から「ｏｎ」に直接移動し、「ａｃｔｉｏｎ」がそれらの間で欠落していることを認識する。トランスクリプト間の相違を認識する他の方法も使用することができる。

それにもかかわらず、単語がトランスクリプト６２２～６２５のうちの１つから欠落している場合、その単語は受信されたオーディオ６０２に含まれていないので、その単語は欠落していると仮定される。したがって、ステップ７において、参加者エンドポイント４０２～４０５は、欠落した単語（もしあれば）をそれぞれのユーザに提示する。欠落した単語のみが提示されてもよく、または、トランスクリプト６２６は、トランスクリプト６２６内のどの単語がオーディオ６０２内で受信されなかったかを提示内に示しながら提示されてもよい（例えば、受信されたオーディオ６０２から聞こえる単語は、ある色で表示されてもよく、欠落した単語は、別の色で表示されてもよく、または、何らかの他の方法で強調されてもよい）。一例では、トランスクリプト６２６は、通信セッション中にトランスクリプト６２６のより多くが受信されると、参加者エンドポイント４０２～４０５によって、単語の垂直列をスクロールする、またはディスプレイを横切って水平にスクロールするものとして提示され得る。好ましくは、トランスクリプト６２６は、単語の提示が、トランスクリプト６２６の表示された部分が生成されるオーディオ６０２の部分と実質的にリアルタイムで表示されるほど速く受信される。いくつかの場合では、欠落した単語が実質的にリアルタイムで識別され得る場合、単語が欠落していたと決定された参加者エンドポイント４０２～４０５のうちの１つによって再生されるときに、合成された音声を使用して、欠落した単語をオーディオ６０２に挿入することができる。欠落した単語がどのように提示されるかにかかわらず、参加者エンドポイント４０２～４０５のユーザに欠落した単語を提示することは、単語が欠落している（すなわち、受信されたオーディオ６０２の単語に不一致が存在する）ことを単に示すこと以外に、追加情報をユーザに提供する。

図７は、セッションで話された単語を使用して通信セッション品質を表すための表示システム７００を示す。表示システム７００は、ディスプレイ７１１およびカメラ７２１を含む。ディスプレイ７１１は、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、または以下で説明される画像を提示することが可能な何らかの他のタイプのディスプレイであり得る。カメラ７２１は、ディスプレイ７１１を見ている参加者のビデオを取り込むための光学系及び画像センサを含む。図示されないが、表示システム７００は、本明細書の他の場所で説明されるエンドポイントのための表示システムであってもよい。

ディスプレイ７１１は、参加者リスト７３４に示されるように、参加者７０２～７０６間のビデオ通信セッションに接続されたクライアントアプリケーションのための例示的なグラフィカルユーザインターフェース（ＧＵＩ）を表示している。参加者７０２は、表示システム７００のエンドポイントを操作している。ＧＵＩはまた、参加者ウィンドウ７３１～７３３および通話終了ボタン７４１を示し、これは、押下されると、表示システム７００における参加者を通信セッションから除去する。参加者７０６のリアルタイムビデオは参加者ウィンドウ７３１に示されており、これは、参加者７０６が現在話しているので、参加者ウィンドウ７３２および参加者ウィンドウ７３３よりも大きい。参加者ウィンドウ７３２は参加者７０３のリアルタイムビデオを示し、参加者ウィンドウ７３３は参加者７０４のリアルタイムビデオを示す。通信セッションの残りの参加者のビデオは、それらの参加者が３人の最近の話者の１人ではない、それらの参加者がビデオ有効化されていない、または何らかの他の理由で表示されないことがある。

この例では、参加者７０６によって話された単語の数と、表示システム７００のエンドポイントで受信された参加者７０６のオーディオから提示されている単語の数との間で不一致が判定されている。不一致は、表示システム７００のエンドポイントによって判定されてもよく、または別のエンドポイントもしくはシステムによって判定されてもよい。不一致について参加者７０２に通知するために、ＧＵＩは、参加者ウィンドウ７３１内に通知７３５を提示する。通知７３５は、参加者７０２のエンドポイントに提示されたときに単語が参加者７０６の発話からドロップされたことを示す視覚的警告である。いくつかの例では、通知７３５はまた、ドロップされた単語を引き起こしているネットワーク経路内のロケーションを示してもよい。例えば、参加者７０２のみがドロップされた単語を体験しており、他の参加者が体験していない場合、通知７３５は、ドロップされた単語が、参加者７０６の通信セッションへの接続など、他の何かではなく、参加者７０２のエンドポイントによって引き起こされていること（例えば、通信セッションへのエンドポイントの接続）を示すことができる。いくつかの例では、通知７３５は、どれくらいの単語がドロップされているかを示してもよく、不一致が判定された期間（例えば、最後の１０秒）を示してもよく、または不一致に関する何らかの他の情報を示してもよい。

通知７３５と同様の通知が、参加者７０６によって操作されているエンドポイントに表示されてもよい。これらの例において、通知はまた、参加者７０２～７０５のうちのどれがドロップされた単語を経験しているかを示し得る。参加者７０２～７０５のすべてがドロップされた単語を経験している場合、通知は、参加者７０６のエンドポイントがドロップされたワードを引き起こしていることを示し得る（たとえば、通信セッションへのエンドポイントの接続に問題があり得る）。

図８は、セッションで話された単語を使用して通信セッション品質を表すための動作８００を示す。動作８００は、いくつかの例では、動作２００の前に行われる。動作エンドポイント１０３において、エンドポイント１０３は、パケット損失について受信オーディオ１３２を監視する（８０１）。監視中、エンドポイント１０３は、パケット損失がパケット損失の閾値量を満たすかどうかを判定する（８０２）。パケット損失の閾値量は、好ましくは、オーディオ１３２がエンドポイント１０３に提示されるときに単語が欠落する結果となる可能性が高い損失の量に設定される。例えば、オーディオ１３２から偶然失われた１つまたは２つのパケットは、ユーザ１２３に単語が提示されていないかどうかに影響を及ぼすほどではないことがある。したがって、閾値は、ある単位時間当たりに失われたパケットの数（例えば、最後の５秒で失われたパケットの数）に対応するように設定される。

理想的には、監視中に決定されるパケット損失は、通信セッションが接続問題を有さないため、決して閾値を満たすことはない。しかしながら、エンドポイント１０３が、パケット損失の閾値量が満たされたと判定する場合、オーディオ１３２がエンドポイント１０３に提示されるとき、ユーザ１２２および／またはユーザ１２３にパケット損失が欠落している単語をもたらしたかどうかを通知することができるように、動作２００が実行される（８０３）。動作２００をトリガするために、エンドポイント１０３は、少なくともエンドポイント１０２に、直接、または通信セッションシステム１０１を通じて、動作２００が実行されるべきであることを通知する。この通知は、エンドポイント１０２とエンドポイント１０３の両方が、それらに必要とされるステップを実行することを知ることを保証する。動作２００は、閾値が満たされた後に生成／受信されたオーディオ１３２に対して実行され得る。いくつかの例では、動作２００は、損失パケットがパケット損失閾値を満たしたオーディオ１３２の部分に対して実行され得る。それらの例では、パケット損失が決定されたオーディオ１３２の少なくとも部分は、オーディオ１３２のその部分における単語の数が動作２００中にステップ２０２において決定され得るように記憶され得る（例えば、エンドポイント１０３においてバッファリングまたはキャッチされる）。エンドポイント１０２におけるオーディオ１３２の対応する部分も同様に記憶され、その結果、単語の数もそこで決定することができる。

動作２００の前に動作８００を実行することは、パケット損失が閾値を満たす後まで単語をカウントするためのリソース（例えばメモリ空間、処理サイクルなど）を使用する必要がない点で有利である。動作２００が実行されると、エンドポイント１０３によって検出されたパケット損失は、どのパケット損失が関与するかを知ることなくユーザによってより容易に理解され得るという点で、ユーザ１２２および／またはユーザ１２３に表される。すなわち、単に、決定されたパケット損失が発生していることをユーザ１２２および／またはユーザ１２３に通知する（これはいくつかの実施例でも行われ得る）のではなく、ユーザ１２２および／またはユーザ１２３は、ユーザが実際に経験している（すなわち、単語が欠落／ドロップされている）パケット損失の結果について通知される。

動作８００は、エンドポイント１０３が方法ステップを実行する文脈において上記で説明されているが、動作８００はまた、エンドポイント１０２または通信セッションシステム１０１において少なくとも部分的に実行され得ることを理解されたい。例えば、エンドポイント１０２または通信セッションシステム１０１は、パケット損失を監視するようにエンドポイント１０２に指示してもよく（８０１）、次いで、エンドポイント１０２または通信セッションシステム１０１が閾値が満たされるかどうかを判定することができるように、閾値が満たされるという通知をエンドポイント１０３から受信すること、またはいくつかのパケット損失をエンドポイント１０３から受信することのいずれかによって、パケット損失が閾値を満たすと判定してもよい（８０２）。次いで、エンドポイント１０２または通信セッションシステム１０１は、閾値が満たされていると判定すると、動作２００の実行をトリガする（８０３）。

図９は、セッションで話された単語を使用して通信セッション品質を表すためのコンピューティングアーキテクチャ９００を示す。コンピューティングアーキテクチャ９００は、通信セッションシステム１０１／４０１およびエンドポイント１０２、１０３および４０２～４０６のための例示的なコンピューティングアーキテクチャであるが、システム１０１～１０３および４０１～４０６は、代替の構成を使用してもよい。コンピューティングアーキテクチャ９００は、通信インターフェース９０１と、ユーザインターフェース９０２と、処理システム９０３とを備える。処理システム９０３は、通信インターフェース９０１およびユーザインターフェース９０２にリンクされる。処理システム９０３は、処理回路９０５と、オペレーティングソフトウェア９０７を記憶するメモリデバイス９０６とを含む。

通信インターフェース９０１は、ネットワークカード、ポート、ＲＦトランシーバ、処理回路およびソフトウェア、またはいくつかの他の通信デバイスなどの通信リンクを介して通信する構成要素を備える。通信インターフェース９０１は、金属リンク、無線リンク、または光リンクを介して通信するように構成され得る。通信インターフェース９０１は、ＴＤＭ、ＩＰ、Ｅｔｈｅｒｎｅｔ、光ネットワーキング、ワイヤレスプロトコル、通信シグナリング、またはそれらの組合せを含む何らかの他の通信フォーマットを使用するように構成され得る。

ユーザインターフェース９０２は、ユーザとインタラクトする構成要素を含む。ユーザインターフェース９０２は、キーボード、ディスプレイスクリーン、マウス、タッチパッド、または何らかの他のユーザ入力／出力装置を含み得る。ユーザインターフェース９０２は、いくつかの例では省略され得る。

処理回路９０５は、マイクロプロセッサと、メモリデバイス９０６からオペレーティングソフトウェア９０７を取り出して実行する他の回路とを備える。メモリデバイス９０６は、ディスクドライブ、フラッシュドライブ、データ記憶回路、または何らかの他のメモリ装置などのコンピュータ可読記憶媒体を備える。いずれの例においても、メモリデバイス９０６の記憶媒体は伝搬信号とはみなされない。オペレーティングソフトウェア９０７は、コンピュータプログラム、ファームウェア、または機械可読処理命令の何らかの他の形態を含む。オペレーティングソフトウェア９０７は、不一致モジュール９０８を含む。オペレーティングソフトウェア９０７は、オペレーティングシステム、ユーティリティ、ドライバ、ネットワークインターフェース、アプリケーション、または何らかの他のタイプのソフトウェアをさらに含み得る。処理回路９０５によって実行されると、オペレーティングソフトウェア９０７は、本明細書に記載されるように、処理システム９０３にコンピューティングアーキテクチャ９００を動作させるように指示する。

特に、第１の参加者によって操作される第１のエンドポイントと第２の参加者によって操作される第２のエンドポイントとの間の通信セッション（いずれもコンピューティングアーキテクチャ９００であってもよい）中、不一致モジュール９０８は、処理システム９０３に、通信セッションに含めるために第１のエンドポイントによってキャプチャされたサウンドに基づいて、期間中に第１の参加者によって話された単語の第１の数を決定し、通信セッションを介して第２のエンドポイントで受信されたオーディオに基づいて、期間中に単語の第２の数を決定することを指示する。第１の数と第２の数との間に不一致が存在すると判定すると、不一致モジュール９０８は、処理システム９０３に第１の参加者および第２の参加者の少なくとも１つに不一致について通知することを指示する。

本明細書に含まれる説明および図面は、特許請求される発明の特定の実装を記載する。本発明の原理を教示する目的で、いくつかの従来の態様は簡略化または省略されている。さらに、これらの実装形態からのいくつかの変形形態は、本発明の趣旨の範囲内に入ることが理解されよう。上記で説明した特徴は、様々な方法で組み合わせて複数の実装形態を形成することができることも理解されよう。結果として、本発明は、上述の特定の実装形態に限定されず、特許請求の範囲およびそれらの均等物によってのみ限定される。

Claims

第１の参加者によって操作される第１のエンドポイントと第２の参加者によって操作される第２のエンドポイントとの間の通信セッション中に、
前記通信セッションに含めるために前記第１のエンドポイントによってキャプチャされたサウンドに基づいて、期間中に前記第１の参加者によって話された単語の第１の数を決定するステップと、
前記通信セッションを介して前記第２のエンドポイントで受信されたオーディオに基づいて、前記期間中に前記第１の参加者によって話された前記単語の第２の数を決定するステップと、
前記第１の数と前記第２の数との間に不一致が存在すると判定すると、前記第１の参加者および前記第２の参加者の少なくとも１つに前記不一致について通知するステップとを備えることを特徴とする方法。
前記第２のエンドポイントから前記第２の数を示すメッセージを受信するステップと、
前記メッセージを受信後、前記不一致を判定するために前記第２の数を前記第１の数と比較するステップとを備えることを特徴とする請求項１に記載の方法。
前記不一致は、前記第１の数と前記第２の数との間の差が単語の閾値数よりも大きいことを含むことを特徴とする請求項１に記載の方法。
前記第１の参加者によって話された前記単語のテキストトランスクリプトを生成するステップと、
前記第２のエンドポイントで受信された前記オーディオに基づいて、前記第１の参加者によって話された前記単語の第２のテキストトランスクリプトを受信するステップと、
前記テキストトランスクリプトに対して前記第２のテキストトランスクリプトから欠落している単語の指示を前記第１の参加者に提示するステップとを備えることを特徴とする請求項１に記載の方法。
前記通信セッションを介して前記通信セッションを容易にするサーバで受信されたオーディオに基づいて、前記期間中に前記第１の参加者によって話された前記単語の第３の数を決定するステップと、
前記第１の数と前記第３の数との間に第２の不一致が存在すると判定することに応答して、前記第１のエンドポイントと前記サーバとの間に問題が存在することを前記第１の参加者に通知するステップとを備えることを特徴とする請求項１に記載の方法。
１つまたは複数のコンピュータ可読媒体と、
前記１つまたは複数のコンピュータ可読媒体と動作可能に結合される処理システムと、
前記１つまたは複数のコンピュータ可読媒体に記憶されるプログラム命令とを備える装置であって、前記プログラム命令は、前記処理システムによって読み取られ、実行された場合において：
第１の参加者によって操作される第１のエンドポイントと第２の参加者によって操作される第２のエンドポイントとの間の通信セッション中に、
前記通信セッションに含めるために前記第１のエンドポイントによってキャプチャされたサウンドに基づいて、期間中に前記第１の参加者によって話された単語の第１の数を決定するステップと、
前記通信セッションを介して前記第２のエンドポイントで受信されたオーディオに基づいて、前記期間中に前記単語の第２の数を決定するステップと、
前記第１の数と前記第２の数との間に不一致が存在すると判定すると、前記第１の参加者および前記第２の参加者の少なくとも１つに前記不一致について通知するステップとを実行することを前記処理システムに指示することを特徴とする装置。
前記プログラム命令は、
前記第２のエンドポイントから前記第２の数を示すメッセージを受信するステップと、
前記メッセージを受信後、前記不一致を判定するために前記第２の数を前記第１の数と比較するステップとを実行することを前記処理システムに指示することを特徴とする請求項６に記載の装置。
前記不一致は、前記第１の数と前記第２の数との間の差が単語の閾値数よりも大きいことを含むことを特徴とする請求項６に記載の装置。
前記プログラム命令は、
前記第１の参加者によって話された前記単語のテキストトランスクリプトを生成するステップと、
前記第２のエンドポイントで受信された前記オーディオに基づいて、前記第１の参加者によって話された前記単語の第２のテキストトランスクリプトを受信するステップと、
前記第１の参加者に、前記テキストトランスクリプトに対して前記第２のテキストトランスクリプトから欠落している単語の表示を提示するステップとを実行することを前記処理システムに指示することを特徴とする請求項６に記載の装置。
前記プログラム命令は、
前記通信セッションを介して前記通信セッションを容易にするサーバで受信されたオーディオに基づいて、前記期間中に前記第１の参加者によって話された前記単語の第３の数を決定するステップと、
前記第１の数と前記第３の数との間に第２の不一致が存在すると判定することに応答して、前記第１の参加者に前記第１のエンドポイントと前記サーバとの間に問題が存在することを通知するステップとを実行することを前記処理システムに指示することを特徴とする請求項６に記載の装置。