JP2022128594A - 通信セッション品質の単語ベース表現 - Google Patents

通信セッション品質の単語ベース表現 Download PDF

Info

Publication number
JP2022128594A
JP2022128594A JP2022024667A JP2022024667A JP2022128594A JP 2022128594 A JP2022128594 A JP 2022128594A JP 2022024667 A JP2022024667 A JP 2022024667A JP 2022024667 A JP2022024667 A JP 2022024667A JP 2022128594 A JP2022128594 A JP 2022128594A
Authority
JP
Japan
Prior art keywords
endpoint
participant
communication session
words
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2022024667A
Other languages
English (en)
Inventor
チョプデカー サンデシュ
Chopdekar Sandesh
ヤシャヴァント デオーレ プシュカー
Yashavant Deole Pushkar
ダガ ナヴィン
Daga Navin
シー. マチュラ ヴァレンタイン
C Matula Valentine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avaya Management LP
Original Assignee
Avaya Management LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avaya Management LP filed Critical Avaya Management LP
Publication of JP2022128594A publication Critical patent/JP2022128594A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Figure 2022128594000001
【課題】セッション品質を示すための単語不一致のユーザ通知を可能にする。
【解決手段】第1の参加者によって操作される第1のエンドポイントと第2の参加者によって操作される第2のエンドポイントとの間の通信セッション中に、通信セッションに含めるために第1のエンドポイントによってキャプチャされたサウンドに基づいて、期間中に第1の参加者によって話された単語の第1の数を決定するステップと、通信セッションを介して第2のエンドポイントで受信されたオーディオに基づいて、期間中に単語の第2の数を決定するステップと、第1の数と第2の数との間に不一致が存在すると判定すると、第1の参加者および第2の参加者の少なくとも1つに不一致について通知するステップとを備えることを特徴とする方法が提供される。
【選択図】図1

Description

現代の通信セッション(例えば、オーディオ/ビデオ会議)中、情報は、通信セッションに関する事実を提供するモデレータまたは他の参加者に利用可能であり得る。情報は、参加者リスト、誰が話しているかの表示、誰がミュート中であるかの表示および/またはストリーミングビットレートなどのネットワーク統計を含み得る。ネットワーク統計は、通信セッションのサービス品質(QoS)を理解するために使用され得る。しかしながら、ネットワークトポロジー、伝送プロトコルなどに関する情報を有さない可能性が高いほとんどのユーザにとって、ネットワーク統計は、ユーザがネットワーク問題が存在すると判断するのに有用ではないことがある。実際、典型的なユーザは、話している単語が通信セッションにおける他の参加者によって適切に聞かれているかどうかに最も関心がある場合がある。ネットワーク統計から問題を推測できない場合、話しているユーザは他の参加者に「皆さん聞こえますか」などの質問をする必要がある。このような質問は、問題が発生している場合、他の参加者には聞こえない可能性がある。
本明細書で開示される技術は、セッション品質を示すための単語不一致のユーザ通知を可能にする。特定の実施形態では、方法は、第1の参加者によって操作される第1のエンドポイントと第2の参加者によって操作される第2のエンドポイントとの間の通信セッション中に、通信セッションに含めるために第1のエンドポイントによってキャプチャされた音に基づいて、期間中に第1の参加者によって話された第1の数の単語を決定するステップを含む。方法はまた、通信セッションを介して第2のエンドポイントにおいて受信された音声に基づいて、期間中に第1の参加者によって話された単語の2の数を決定するステップを含む。第1の数と第2の数との間に不一致が存在すると判定すると、方法は、第1の参加者および第2の参加者の少なくとも1つに不一致を通知するステップを含む。
いくつかの実施形態では、方法は、第1の数および第2の数に関する情報を第1の参加者に提示するステップを含む。
いくつかの実施形態では、方法は、第2のエンドポイントから第2の数を示すメッセージを受信するステップと、メッセージを受信した後、第2の数を第1の数と比較して不一致を判定するステップとを含む。
いくつかの実施形態では、不一致は、第1の数と第2の数との間の差が単語の閾値数より大きいことを含む。
いくつかの実施形態では、方法は、第1の参加者によって話された単語のテキストトランスクリプトを生成するステップと、第2の参加者への提示のためにテキストトランスクリプトを第2のエンドポイントに転送するステップとを含む。それらの実施形態では、方法は、第2のエンドポイントにおいて受信された音声に基づいて第1の参加者によって話された単語の第2のテキストトランスクリプトを受信するステップと、テキストトランスクリプトに対して第2のテキストトランスクリプトから欠落している単語の指示を第1の参加者に提示するステップとを含み得る。
いくつかの実施形態では、不一致について第1の参加者および第2の参加者の少なくとも1つに通知するステップは、第2のエンドポイントを介して、第1の参加者によって話された単語のすべてよりも少ない単語が第2の参加者に対して再生されていることを示す警告を第2の参加者に提示するステップを含む。
いくつかの実施形態では、方法は、第2のエンドポイントを介して、第2の数を第1の数に関係付けるメトリックを提示するステップを含む。
いくつかの実施形態では、方法は、通信セッションを介して、通信セッションを容易にするサーバにおいて受信されたオーディオに基づいて、期間中に第1の参加者によって話された単語の第3の数を決定するステップと、第1の数と第3の数との間に第2の不一致が存在すると決定したことに応答して、第1のエンドポイントとサーバとの間に問題が存在することを第1の参加者に通知するステップとを含む。
いくつかの実施形態では、方法は、第2のエンドポイントにおけるオーディオにおけるパケット損失を監視するステップと、パケット損失がパケット損失閾値を満たすことを決定するステップとを含む。それらの実施形態では、第1の数を決定するステップおよび第2の数を決定するステップは、パケット損失がパケット損失閾値を満たすと決定するステップに応答して生じる。
別の実施形態では、1つまたは複数のコンピュータ可読記憶媒体と、1つまたは複数のコンピュータ可読記憶媒体に動作可能に結合された処理システムとを有する装置が提供される。1つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令は、処理システムによって読み取られ実行されると、第1の参加者によって操作される第1のエンドポイントと第2の参加者によって操作される第2のエンドポイントとの間の通信セッション中に、期間中に第1の参加者によって話された第1の数の単語を、通信セッションに含めるために第1のエンドポイントによってキャプチャされた音に基づいて決定するよう処理システムに指示する。プログラム命令はさらに、通信セッションを介して第2のエンドポイントにおいて受信された音声に基づいて、期間中に第1の参加者によって話された第2の数の単語を決定するように処理システムに指示する。第1の数と第2の数との間に不一致が存在すると決定すると、プログラム命令は、不一致について第1の参加者および第2の参加者の少なくとも1つに通知するように処理システムに指示する。
図1は、セッションで話された単語を使用して通信セッション品質を表すための実装を示す。 図2は、セッションで話された単語を使用して通信セッション品質を表す動作を示す。 図3は、セッションで話された単語を使用して通信セッション品質を表すための動作シナリオを示す。 図4は、セッションで話された単語を使用して通信セッション品質を表すための実装を示す。 図5は、セッションで話された単語を使用して通信セッション品質を表すための動作シナリオを示す。 図6は、セッションで話された単語を使用して通信セッション品質を表すための別の動作シナリオを示す。 図7は、セッションで話された単語を使用して通信セッション品質を表すための表示システムを示す。 図8は、セッションで話された単語を使用して通信セッション品質を表す動作を示す。 図9は、セッションで話された単語を使用して通信セッション品質を表すためのコンピューティングアーキテクチャを示す。
本明細書で提供される例は、エンドポイントの通信セッションが、ユーザの単語が通信セッションの他の参加者によって聞かれているかどうかについての情報をそのユーザに提供することを可能にする。例えば、ユーザによって話された単語が通信セッション上の別のエンドポイントにおいて別のユーザに提示されない場合、その事実をユーザに知らせる通知をユーザは提示されてもよい。通知を受信すると、ユーザは、少なくとも、それらの単語がすべて聞こえているわけではないことを考慮して発話を停止することができ、また、それらの単語が聞こえない理由のトラブルシューティングを開始することができる。ユーザは、理解されていないかもしれない他のユーザの反応やネットワーク統計に依存して、通信セッションで他のユーザが自分の単語を聞いていないことを推測する必要はない。
図1は、セッションで話された単語を使用して通信セッション品質を表すための実装100を示す。実装100は、通信セッションシステム101と、エンドポイント102と、エンドポイント103とを含む。ユーザ122はエンドポイント102を操作し、ユーザ123はエンドポイント103を操作する。エンドポイント102および通信セッションシステム101は、通信リンク111を介して通信する。エンドポイント103および通信セッションシステム101は、通信リンク112を介して通信する。通信リンク111~112は、直接のリンクとして示されているが、介在するシステム、ネットワークおよび/またはデバイスを含むことができる。
動作中、エンドポイント102およびエンドポイント103は、それぞれ、電話、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、会議室システムまたは通信セッションシステム101によって容易にされる通信セッションに接続することが可能な何らかの他のタイプのコンピューティングデバイスであり得る。通信セッションシステム101は、エンドポイント102およびエンドポイント103などの2つ以上のエンドポイント間の通信セッションを容易にする。いくつかの例では、通信セッションシステム101は、エンドポイント102とエンドポイント103との間のピアツーピア通信セッションを優先して省略されてもよい。通信セッションは、音声のみ(例えば、音声通話)であってもよくまたは少なくともビデオコンポーネント(例えば、ビデオ通話)を含んでもよい。通信セッション中、ユーザ122およびユーザ123は、それぞれのエンドポイント102および103がその音声をキャプチャし、通信セッションを介してその音声を転送することによって、互いに話すことができる。
図2は、セッションで話された単語を使用して通信セッション品質を表す動作200を示す。動作200において、ユーザ122およびユーザ123は、エンドポイント102とエンドポイント103との間で確立された通信セッションに対する参加者である。動作200は、通信セッション中に、エンドポイント102および103の一方または両方が、ユーザ122によって話された単語の数がエンドポイント103によってユーザ123に提示される単語の数と不一致である場合に、それぞれのユーザ122および123にどのように通知し得るかの例である。動作200において、エンドポイント102は、通信セッションに含めるためにエンドポイント102によってキャプチャされたサウンド131に基づいて、ある期間中にユーザ122によって話された単語の数を決定する(201)。サウンド131は、エンドポイント102によってオーディオ132に処理され、通信セッションを通じてエンドポイント102から転送される。いくつかの例では、音声テキスト変換アルゴリズム(例えば、自然言語処理(NLP)アルゴリズム)が、サウンド131からキャプチャされた単語を認識するためにオーディオ132で使用されてもよく、次いで、時間期間中の単語が、単語の数に到達するためにカウントされる。他の例では、アルゴリズムは、実際の単語を認識する必要なしにオーディオ132において言われる単語の数をカウントするように訓練されるか、または構成されてもよい(例えば、音声の音調の変化および/または単語間の休止を認識することによって)。期間は、エンドポイント102とエンドポイント103との間のレイテンシまたはクロック差がエンドポイント102にエンドポイント103とは異なる期間を使用させないように、オーディオ132内で(例えば、オーディオ132のタイムスタンプ間で)測定される。期間は、任意の長さの時間であり得、時間単位(例えば、秒)または単語で測定され得る。期間は、単語がカウントされる一連の期間(例えば、連続する5秒の期間)の1つであってもよい。いくつかの例では、期間は、常に現在時刻(例えば、最後の5秒または最後の10単語)から戻るローリング期間であるか、またはセッションが確立された時刻などの定義された開始点と現在時刻との間で測定され得る。場合によっては、ローリング期間は、ユーザに比較的迅速に不一致を通知することを依然として可能にしながら、偽陽性を回避することができる充分に長い持続時間に設定されてもよい。例えば、時間が1秒に設定される場合、単語数を処理/カウントするのに1回のエラーであっても、不一致が存在しなくても、不一致を示す可能性がある。同様に、ユーザは、1つの単語がここで見逃されてそこにいるかどうかを気にしないことがあるが、むしろ、単語が一貫してドロップされているかどうかを知ることを望むことがある。
通信セッションを介してオーディオ132を受信した後、エンドポイント103は、オーディオ132からの期間中にユーザ122によって話された単語の数を決定する(202)。この例では、オーディオ132は、エンドポイント103への経路上で通信セッションシステム101を通過するが、他の例では、オーディオ132の経路は、通信セッションシステム101をスキップしてもよい。エンドポイント103は、エンドポイント102が上記のオーディオ132を処理したのと同じ方法でオーディオ132を処理して単語の数を決定することができるが、エンドポイント103は、異なる方法で(例えば、異なるアルゴリズムを使用して)単語の数を決定することが可能である。いくつかの例では、アルゴリズムは、単語が理解可能でないと認識してもよく、その単語をカウントしない(例えば、オーディオ132がミッド単語をカットアウトする)。それらの例では、同様のアルゴリズムがエンドポイント102で使用された場合、エンドポイント102で決定された数もまたそのカウントにそのような単語を含まない。同様に、単語がエンドポイント102で理解可能であるがエンドポイント103では理解可能でない場合、エンドポイント102でのカウントに含まれ、エンドポイント103でのカウントには含まれない。
エンドポイント102によって決定された単語の数とエンドポイント103によって決定された単語の数との間に不一致が存在すると判定すると、ユーザ122およびユーザ123のいずれかまたは両方に不一致について通知される(203)。数が比較され、所定の閾値(例えば、互いの量またはパーセンテージ)と一致しないか、またはその範囲内にない場合、不一致が存在し得る。例えば、閾値は、エンドポイント103によって決定された数がエンドポイント102によって決定された数の少なくとも90%でない場合、ユーザ通知がトリガされることを示してもよい。不一致は、通信セッションシステム101、エンドポイント102またはエンドポイント103において判定され得る。したがって、エンドポイント102およびエンドポイント103のいずれかまたは両方によって決定された数は、不一致判定を実行するシステムに転送され得る。例えば、エンドポイント102が不一致を判定する場合、エンドポイント103は、エンドポイント102によって判定された数と比較するために、メッセージにおいて判定された数をエンドポイント102に転送する。不一致が、そのユーザにユーザ通知を実際に提示するエンドポイント以外のシステムにおいて判定される場合、ユーザに通知することは、不一致を示すメッセージをエンドポイントに転送することを含み、これは、エンドポイントにユーザ通知を提示するようにトリガする。同様に、動作200は、実装100(すなわち、エンドポイント102/103および通信セッションシステム101)におけるシステムのうちの1つにおいて完全に実行されてもよくまたは動作200は、システムにわたって分散されてもよいことを理解されたい。あるシステムが動作200を実行する例では、決定ステップは、動作実行システムが、オーディオ132からの単語の数(例えば、エンドポイント102は、エンドポイント103から単語の数を受信する)を実際にカウントした別のシステムから単語の数を示すメッセージを受信することによって単語の数を決定することを含み得る。
ユーザ通知は、エンドポイント102によってユーザ122からキャプチャされた全単語よりも少ない単語がエンドポイント103によってユーザ123に提示されていることを、単にユーザ122および/またはユーザ123に示してもよい。ユーザ通知は、エンドポイント102/103の表示画面のグラフィック、エンドポイント102/103の光要素(例えば発光ダイオード)の照明、可聴通知(例えば、トーン、トーンパターン、音声メッセージなど)、振動通知またはユーザインターフェースがユーザに通知し得る何らかの他の様式(これらの組み合わせを含む)であり得る。いくつかの例では、通知は、期間(またはセッション全体などの他の何らかの期間)中にエンドポイント103において提示されていない単語の数を示すこと、または提示されていない特定の単語を示すことなど、不一致に関する追加の情報を含み得る。例えば、エンドポイント102およびエンドポイント103はそれぞれ、カウントされている単語のテキストトランスクリプトを生成し、2つのトランスクリプトを比較して、エンドポイント103のトランスクリプトから欠落している単語を識別し、次いで、エンドポイント102のトランスクリプトに、エンドポイント103のトランスクリプトからどの単語が欠落しているかの指示(例えば、強調表示)を提示することができる。エンドポイント103におけるそのようなトランスクリプトの提示は、エンドポイント103によるオーディオ132の提示から見逃されているユーザ122の言葉についてユーザ123に知らせるが、エンドポイント102によって提示される場合、ユーザ122にも有益であり得る。
有利には、ユーザ122およびユーザ123のいずれかまたは両方は、ネットワーク問題などの何かがユーザ122からキャプチャされた単語をユーザ123に提示させないときに通知される。いくつかの例では、動作200は、同様に反対方向に(すなわち、エンドポイント103によってキャプチャされ、提示のためにエンドポイント102にオーディオとして転送される音に対して)実行され得る。同様に、動作200は、通信セッションで2つより多いエンドポイントを用いて実行され得る。例えば、第3のエンドポイントが通信セッションにある場合、第3のエンドポイントは、上記の例におけるエンドポイント102と同様に機能する。不一致が判定された場合、ユーザ122および第3のエンドポイントのユーザのいずれかまたは両方に、不一致について通知される。その例では、ユーザ123は、おそらく、2つの他のシステム間の不一致を通知されないが、ユーザ123が有用な情報を発見し、したがって通知される状況があり得る。
図3は、セッション上で話された単語を使用して通信セッション品質を表すための動作シナリオ300を示す。動作シナリオ300は、エンドポイント102およびエンドポイント103によって実行されるステップに関する追加の詳細を有する動作200の一例である。エンドポイント102は、ステップ1においてオーディオ132を生成するためにサウンド131をキャプチャする。エンドポイント102は、サウンド131をキャプチャするための内蔵マイクロフォン、エンドポイント102に接続された有線または無線周辺マイクロフォンまたはサウンド131をキャプチャするための何らかの他のタイプのマイクロフォンを使用することができる。サウンド131は、少なくともユーザ122からの音声を含むが、背景雑音などの他の音も含み得る。エンドポイント102は、ステップ2において、エンドポイント103との通信セッションを介してオーディオ132を転送する。エンドポイント102はまた、ステップ3において、オーディオ132を言語処理アルゴリズムで処理して、オーディオ132においてユーザ122によって話された単語を識別し、カウントする。ステップ2および3は、サウンド131がキャプチャされるときにリアルタイムで行われ得る。したがって、オーディオ132は、通信セッションにおけるリアルタイムユーザ通信の一部としてエンドポイント102からエンドポイント103にストリーミングされ得る。
オーディオ132がステップ4においてエンドポイント103によって受信されると、エンドポイント103はステップ5においてユーザ123に対してオーディオ132を再生する。エンドポイント103はまた、ステップ6において、オーディオ132を言語処理アルゴリズムで処理して、オーディオ132内でユーザ122によって話された単語を識別およびカウントし、単語カウント301を生成する。単語カウント301は、ステップ7においてエンドポイント102に送信される。ステップ4~7はすべて、エンドポイント103が単語カウント301でエンドポイント102を継続的に更新することができるように、リアルタイムで行われてもよい。場合によっては、単語カウント301は、新しいオーディオ132が受信されることから新しい単語カウント301が決定される前に、ある期間にわたってすべての単語(例えば、セッションのうち5秒間における増加)がカウントされると転送され得る。
ステップ8において単語カウント301を受信すると、ステップ9においてエンドポイント102は、単語カウント301を、オーディオ132内の同じ期間内の単語の数を表すステップ3においてカウントされた単語の数と比較する。エンドポイント102が、比較を介して、不一致が2つのカウントの間に存在すると判定する場合、エンドポイント102は、ステップ10において、不一致についての通知302をユーザ122に提示する。この例では、エンドポイント103はユーザ123に通知しないが、他の例では、エンドポイント102は、不一致を示すメッセージをエンドポイント103に転送することができ、エンドポイント103は、通知302と同様の通知をユーザ123に提示することができる。また、不一致は、第1の期間中に存在し得ないので、ステップ1~9は、ステップ10に移行する前に不一致が識別されるまで、後続の期間にわたって実行され得ることを理解されたい。
図4は、セッションで話された単語を使用して通信セッション品質を表すための実装400を示す。実装400は、通信セッションシステム401と、エンドポイント402~406と、通信ネットワーク407とを含む。通信ネットワーク407は、インターネットを含む、1つまたは複数のローカルエリアネットワークおよび/または広域コンピューティングネットワークを含み、それを介して、通信セッションシステム401およびエンドポイント402~406を含む。エンドポイント402~406はそれぞれ、電話、ラップトップコンピュータ、デスクトップワークステーション、タブレットコンピュータ、会議室システムまたは何らかの他のタイプのユーザ操作可能なコンピューティングデバイスを備えてもよい。通信セッションシステム401は、オーディオ/ビデオ会議サーバ、パケット通信サーバ、ウェブベースのプレゼンテーションサーバまたはエンドポイント間のユーザ通信セッションを容易にする何らかの他のタイプのコンピューティングシステムであってもよい。エンドポイント402~406はそれぞれ、エンドポイント402~406が通信セッションシステム401によって容易にされる通信セッションに接続し、本明細書で説明される単語不一致通知など、関連する特徴を提供することを可能にするクライアントアプリケーションを実行してもよい。
この例では、提示者エンドポイント406は、通信セッションシステム401によって容易にされる通信セッションで提示参加者であるユーザによって操作される。提示参加者は、通信セッションのモデレータであってもよく、指定された提示者(例えば、彼らのスクリーンを共有してもよく、そうでなければ情報を提示してもよい)であってもよく、単に現在の話者であってもよく、またはそうでなければ通信セッション中に現在出席していると見なされる者であってもよい。したがって、場合によっては、提示者エンドポイントは、通信セッションで誰が現在話しているか(または誰が指定されたプレゼンタであるか)に応じて変化し得るが、他の場合では、提示者エンドポイントは、通信セッション全体にわたって静的であり得る。
図5は、セッションで話された単語を使用して通信セッション品質を表すための動作シナリオ500を示す。この例では、通信セッションシステム401は、エンドポイント402~406の各々によって決定された単語カウントと通信セッションシステム401自体とを比較して、参加者エンドポイント402~405のいずれかにおけるオーディオが、提示参加者から提示者エンドポイント406においてキャプチャされた単語を含まないかどうかを決定する。各ノードにおける単語カウントを比較することにより、通信セッションシステム401は、単語を欠落させる問題が存在する場所をより良く特定することができる。
動作シナリオ500は、ステップ1において、提示者エンドポイント406がサウンド501をキャプチャして、エンドポイント402~406間の通信セッションでリアルタイムユーザ通信として転送するためのオーディオ502を生成することから始まる。オーディオ502から、提示者エンドポイント406は、所定の期間にわたってオーディオ502内の話された単語をカウントして、ステップ2において、その期間中にカウントされたワードの数を示す単語カウント526を作成する。ステップ3において、単語カウント526およびオーディオ502の両方が通信セッションシステム401に転送される。オーディオ502は、通信セッションを介してリアルタイムで転送され、単語カウント526は、オーディオ502からの帯域外メッセージにおいて、その期間の完了時に転送され得る。通信セッションシステム401は、ステップ4において、通信セッションにわたってリアルタイムで参加者エンドポイント402~405にオーディオ502を渡す。オーディオ502を受信した後、参加者エンドポイント402~405は、ステップ5において、オーディオ502で話された単語の自身のそれぞれの単語カウント522~525を決定し、通信セッションシステム401は、ステップ6において、オーディオ502で話された単語の自身の単語カウント521を決定する。単語カウント521~525はすべて、オーディオ502内で単語カウント526と同じ期間にわたって決定されることを理解されたい。図示されていないが、参加者エンドポイント402~405はまた、進行中の通信セッションの一部として、それぞれのユーザにリアルタイムでオーディオ502を再生することを理解されたい。
通信セッションシステム401は、ステップ7において、参加者エンドポイント402~405から単語カウント522~525を受信する。次いで、通信セッションシステム401は、単語カウント522~526を比較して、単語カウント526と単語カウント522~525のいずれかとの間に不一致が存在するかどうかを判定する。上述のように、単語カウントが単語カウント526より1単語少ない場合さえも、不一致が存在してもよく、または不一致として認定される前に単語カウントが単語カウント526より大きく異なること(例えば、5単語)を必要とする、より大きな閾値が存在してもよい。どの単語カウントが不一致であるかに基づいて、通信セッションシステム401は、どの2つのシステム間で、不一致を引き起こした可能性がある何か(例えば、ネットワーク問題)が発生しているかを識別することができる。例えば、通信セッションシステム401が、単語カウント525と単語カウント526との間にのみ不一致が存在すると判定する場合、通信セッションシステム401は、通信セッションシステム401と参加者エンドポイント405との間に、何かかが、参加者エンドポイント405で再生されたときにオーディオ502に単語を欠落させたと判定し、それは単語カウント525によって決定される。別の例では、通信セッションシステム401が、単語カウント522~525のすべてと単語カウント526との間に不一致が存在すると判定する場合、通信セッションシステム401と参加者エンドポイント402~405のすべてとの間の何か、または提示者エンドポイント406と通信セッションシステム401との間の何かが、単語の欠落を引き起こしている。この場合、通信セッションシステム401も単語カウント521を決定するので、単語カウント521と単語カウント526との間に不一致が存在する場合、通信セッションシステム401は、通信セッションシステム401と提示者エンドポイント406との間に何かが単語の欠落を引き起こしていると判断する。代替として、単語カウント521と単語カウント526との間に不一致が見つからない場合、通信セッションシステム401は、通信セッションシステム401と参加者エンドポイント402~405との間に何かが単語カウント526と単語カウント522~525との間に不一致を引き起こしていると判定する(例えば、オーディオ502が通信セッションシステム401によってトランスコードされる場合、そのトランスコードに問題があり得る)。
どのシステム間に不一致が存在するかを決定した後、通信セッションシステム401は、ステップ9において、接続アラート503のうちの1つを受信するエンドポイント402~406のユーザに提示するために、1つまたは複数の接続アラート503を転送する。この例では、接続アラート503は、単語不一致についてユーザに通知するだけでなく、通信経路のどこで不一致が生じているかについてもユーザに通知する。例えば、通信セッションシステム401と参加者エンドポイント405との間の何かが、参加者エンドポイント405におけるオーディオ502においてカウントされる単語の不一致を引き起こすと判定される場合、接続アラート503は、通信セッションシステム401と参加者エンドポイント405との間何かが、接続上で単語を失わせることをユーザに示す。アラート503は接続アラート503と呼ばれるが、接続アラート503間のネットワーク接続以外の要因が単語の欠落を引き起こす可能性があることを理解されたい。
接続アラート503は、エンドポイント402~406のすべてに、またはエンドポイント402~406の選択されたサブセット、例えば、提示者エンドポイント406および参加者エンドポイント402~405のうちの1つまたは複数である、決定された不一致のいずれかの端のエンドポイントに提供され得る。好ましくは、提示者エンドポイント406は常に不一致について通知され、その結果、提示者エンドポイント406の提示ユーザは、1人または複数のユーザが言われているあらゆるものを聞いていないことを認識することができる。次いで、提示者は、誰または何人のユーザが言われているものすべてを聞いていないかに応じて、話し続ける前に、キャリーオンまたは待機することを選択してもよい。会話の他方の端では、参加者エンドポイント402~405のうちの1つの参加者エンドポイントのユーザに、話されている単語が欠落していることを通知することによって、ユーザは、問題を潜在的にトラブルシューティングするか、または必要に応じて、提示者に話を繰り返すように求めることが可能になる。単語の欠落を経験していない可能性のある他のユーザに通知することは、提示者が対処する必要がある可能性のある別のエンドポイントでの問題についてユーザに通知することにも役立つ。これは、通信セッションでの経験に影響する。
問題がどこで引き起こされているかについての知識は、ユーザが問題を引き起こしている可能性があるものをトラブルシューティングするのに有用であり得る。例えば、単語カウント525と単語カウント521との間で不一致が判定されたときに参加者エンドポイント405に接続アラート503が提供される場合、次いで、参加者エンドポイント405のユーザは、接続アラート503を介して、提示者エンドポイント406において提示者によって話されたすべての単語が提示されていないこと、および通信セッションへの(すなわち、通信セッションシステム401への)接続に関する問題が原因であることを知らされる。その知識がなければ、代わりに、ユーザは欠落した単語の問題が、代わりに、提示者エンドポイント406の通信セッションへの接続によって引き起こされていると考えるかもしれない。したがって、接続アラート503は、エンドポイント402~406のユーザに、決定された単語カウントの不一致についてのより多くの情報を有利に提供し、その結果、適切な措置を取ることができる。
図6は、セッションで話された単語を使用して通信セッション品質を表すための動作シナリオ600を示す。動作シナリオ600は、提示者エンドポイント406において提示ユーザによって話されたどの単語がエンドポイント402~406の間の通信セッションで受信されたオーディオから欠落しているかを示すためにテキストトランスクリプトが生成される一例である。動作シナリオ600は、ステップ1において、提示者エンドポイント406がサウンド601をキャプチャして、エンドポイント402~406間の通信セッションでリアルタイムユーザ通信として転送するためのオーディオ602を生成することから始まる。提示者エンドポイント406は、ステップ2でオーディオ602からトランスクリプト626を生成する。トランスクリプト626の生成は、音声テキスト変換アルゴリズムを使用して実行されてもよく、リアルタイムで(すなわち、単語がキャプチャされながら)実行されてもよい。上記の例では、トランスクリプトは、生成されたトランスクリプトから単語がカウントされ得るように生成されてもよく、これはまた、同様の理由で動作シナリオ600において実行され得るが、説明されない。上記の例は、その中の単語をカウントした後にトランスクリプトに何も行わないことがあるが、この例におけるトランスクリプト626は、ステップ3においてメッセージで通信セッションシステム401に転送される。オーディオ602はまた、ステップ3において、通信セッションにわたってリアルタイムで通信セッションシステム401に転送される。トランスクリプト626はまた、リアルタイムで転送されてもよく(例えば、各単語は、アルゴリズムによって識別されるときに転送される)、または何らかの他の増分で(例えば、単語カウントのために使用される期間に対応する増分で、または何らかの他の増分で)転送されてもよい。
オーディオ602およびトランスクリプト626の両方は、ステップ4において、通信セッションシステム401から参加者エンドポイント402~405に転送される。オーディオ602はリアルタイムで転送され、トランスクリプト626は、提示者エンドポイント406から受信したのと同じ間隔で転送され、これもリアルタイムであり得る。オーディオ602を受信すると、参加者エンドポイント402~405は、ステップ5でそれぞれのトランスクリプト622~625を生成する。トランスクリプト622~625は、トランスクリプト626を生成するために使用されたのと同じアルゴリズムを使用して生成されてもよく、参加者エンドポイント402~405によってオーディオ602において単語が受信され、そこから再生されるときにリアルタイムで生成されてもよい。トランスクリプト626の単語は、ステップ6においてトランスクリプト622~625のうちの1つまたは複数から欠落している可能性がある単語を識別するために、トランスクリプト622~625の各々の中の単語と比較される。例えば、トランスクリプト626が、オーディオ602内の特定の時間に対応する単語「action」を含み、参加者エンドポイント402によって生成されたトランスクリプト622が、オーディオ602の特定の時間に関連して単語「action」を含まない場合(例えば、完全に欠落しているか、またはオーディオ劣化に起因して判定され得ない)、単語「action」は、欠落した単語である。単語を関連付けるタイムスタンプと比較して、単語が欠けていると判定するのではなく、参加者エンドポイント402は、欠落している単語を、欠落している単語の周囲の単語から識別することができる。上記の例では、トランスクリプト626は「you need to take action on this matter」という文を含み、トランスクリプト622は「you need to take on this matter」という文を含むことができる。参加者エンドポイント402は、トランスクリプト622が「take」から「on」に直接移動し、「action」がそれらの間で欠落していることを認識する。トランスクリプト間の相違を認識する他の方法も使用することができる。
それにもかかわらず、単語がトランスクリプト622~625のうちの1つから欠落している場合、その単語は受信されたオーディオ602に含まれていないので、その単語は欠落していると仮定される。したがって、ステップ7において、参加者エンドポイント402~405は、欠落した単語(もしあれば)をそれぞれのユーザに提示する。欠落した単語のみが提示されてもよく、または、トランスクリプト626は、トランスクリプト626内のどの単語がオーディオ602内で受信されなかったかを提示内に示しながら提示されてもよい(例えば、受信されたオーディオ602から聞こえる単語は、ある色で表示されてもよく、欠落した単語は、別の色で表示されてもよく、または、何らかの他の方法で強調されてもよい)。一例では、トランスクリプト626は、通信セッション中にトランスクリプト626のより多くが受信されると、参加者エンドポイント402~405によって、単語の垂直列をスクロールする、またはディスプレイを横切って水平にスクロールするものとして提示され得る。好ましくは、トランスクリプト626は、単語の提示が、トランスクリプト626の表示された部分が生成されるオーディオ602の部分と実質的にリアルタイムで表示されるほど速く受信される。いくつかの場合では、欠落した単語が実質的にリアルタイムで識別され得る場合、単語が欠落していたと決定された参加者エンドポイント402~405のうちの1つによって再生されるときに、合成された音声を使用して、欠落した単語をオーディオ602に挿入することができる。欠落した単語がどのように提示されるかにかかわらず、参加者エンドポイント402~405のユーザに欠落した単語を提示することは、単語が欠落している(すなわち、受信されたオーディオ602の単語に不一致が存在する)ことを単に示すこと以外に、追加情報をユーザに提供する。
図7は、セッションで話された単語を使用して通信セッション品質を表すための表示システム700を示す。表示システム700は、ディスプレイ711およびカメラ721を含む。ディスプレイ711は、陰極線管(CRT)、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、または以下で説明される画像を提示することが可能な何らかの他のタイプのディスプレイであり得る。カメラ721は、ディスプレイ711を見ている参加者のビデオを取り込むための光学系及び画像センサを含む。図示されないが、表示システム700は、本明細書の他の場所で説明されるエンドポイントのための表示システムであってもよい。
ディスプレイ711は、参加者リスト734に示されるように、参加者702~706間のビデオ通信セッションに接続されたクライアントアプリケーションのための例示的なグラフィカルユーザインターフェース(GUI)を表示している。参加者702は、表示システム700のエンドポイントを操作している。GUIはまた、参加者ウィンドウ731~733および通話終了ボタン741を示し、これは、押下されると、表示システム700における参加者を通信セッションから除去する。参加者706のリアルタイムビデオは参加者ウィンドウ731に示されており、これは、参加者706が現在話しているので、参加者ウィンドウ732および参加者ウィンドウ733よりも大きい。参加者ウィンドウ732は参加者703のリアルタイムビデオを示し、参加者ウィンドウ733は参加者704のリアルタイムビデオを示す。通信セッションの残りの参加者のビデオは、それらの参加者が3人の最近の話者の1人ではない、それらの参加者がビデオ有効化されていない、または何らかの他の理由で表示されないことがある。
この例では、参加者706によって話された単語の数と、表示システム700のエンドポイントで受信された参加者706のオーディオから提示されている単語の数との間で不一致が判定されている。不一致は、表示システム700のエンドポイントによって判定されてもよく、または別のエンドポイントもしくはシステムによって判定されてもよい。不一致について参加者702に通知するために、GUIは、参加者ウィンドウ731内に通知735を提示する。通知735は、参加者702のエンドポイントに提示されたときに単語が参加者706の発話からドロップされたことを示す視覚的警告である。いくつかの例では、通知735はまた、ドロップされた単語を引き起こしているネットワーク経路内のロケーションを示してもよい。例えば、参加者702のみがドロップされた単語を体験しており、他の参加者が体験していない場合、通知735は、ドロップされた単語が、参加者706の通信セッションへの接続など、他の何かではなく、参加者702のエンドポイントによって引き起こされていること(例えば、通信セッションへのエンドポイントの接続)を示すことができる。いくつかの例では、通知735は、どれくらいの単語がドロップされているかを示してもよく、不一致が判定された期間(例えば、最後の10秒)を示してもよく、または不一致に関する何らかの他の情報を示してもよい。
通知735と同様の通知が、参加者706によって操作されているエンドポイントに表示されてもよい。これらの例において、通知はまた、参加者702~705のうちのどれがドロップされた単語を経験しているかを示し得る。参加者702~705のすべてがドロップされた単語を経験している場合、通知は、参加者706のエンドポイントがドロップされたワードを引き起こしていることを示し得る(たとえば、通信セッションへのエンドポイントの接続に問題があり得る)。
図8は、セッションで話された単語を使用して通信セッション品質を表すための動作800を示す。動作800は、いくつかの例では、動作200の前に行われる。動作エンドポイント103において、エンドポイント103は、パケット損失について受信オーディオ132を監視する(801)。監視中、エンドポイント103は、パケット損失がパケット損失の閾値量を満たすかどうかを判定する(802)。パケット損失の閾値量は、好ましくは、オーディオ132がエンドポイント103に提示されるときに単語が欠落する結果となる可能性が高い損失の量に設定される。例えば、オーディオ132から偶然失われた1つまたは2つのパケットは、ユーザ123に単語が提示されていないかどうかに影響を及ぼすほどではないことがある。したがって、閾値は、ある単位時間当たりに失われたパケットの数(例えば、最後の5秒で失われたパケットの数)に対応するように設定される。
理想的には、監視中に決定されるパケット損失は、通信セッションが接続問題を有さないため、決して閾値を満たすことはない。しかしながら、エンドポイント103が、パケット損失の閾値量が満たされたと判定する場合、オーディオ132がエンドポイント103に提示されるとき、ユーザ122および/またはユーザ123にパケット損失が欠落している単語をもたらしたかどうかを通知することができるように、動作200が実行される(803)。動作200をトリガするために、エンドポイント103は、少なくともエンドポイント102に、直接、または通信セッションシステム101を通じて、動作200が実行されるべきであることを通知する。この通知は、エンドポイント102とエンドポイント103の両方が、それらに必要とされるステップを実行することを知ることを保証する。動作200は、閾値が満たされた後に生成/受信されたオーディオ132に対して実行され得る。いくつかの例では、動作200は、損失パケットがパケット損失閾値を満たしたオーディオ132の部分に対して実行され得る。それらの例では、パケット損失が決定されたオーディオ132の少なくとも部分は、オーディオ132のその部分における単語の数が動作200中にステップ202において決定され得るように記憶され得る(例えば、エンドポイント103においてバッファリングまたはキャッチされる)。エンドポイント102におけるオーディオ132の対応する部分も同様に記憶され、その結果、単語の数もそこで決定することができる。
動作200の前に動作800を実行することは、パケット損失が閾値を満たす後まで単語をカウントするためのリソース(例えばメモリ空間、処理サイクルなど)を使用する必要がない点で有利である。動作200が実行されると、エンドポイント103によって検出されたパケット損失は、どのパケット損失が関与するかを知ることなくユーザによってより容易に理解され得るという点で、ユーザ122および/またはユーザ123に表される。すなわち、単に、決定されたパケット損失が発生していることをユーザ122および/またはユーザ123に通知する(これはいくつかの実施例でも行われ得る)のではなく、ユーザ122および/またはユーザ123は、ユーザが実際に経験している(すなわち、単語が欠落/ドロップされている)パケット損失の結果について通知される。
動作800は、エンドポイント103が方法ステップを実行する文脈において上記で説明されているが、動作800はまた、エンドポイント102または通信セッションシステム101において少なくとも部分的に実行され得ることを理解されたい。例えば、エンドポイント102または通信セッションシステム101は、パケット損失を監視するようにエンドポイント102に指示してもよく(801)、次いで、エンドポイント102または通信セッションシステム101が閾値が満たされるかどうかを判定することができるように、閾値が満たされるという通知をエンドポイント103から受信すること、またはいくつかのパケット損失をエンドポイント103から受信することのいずれかによって、パケット損失が閾値を満たすと判定してもよい(802)。次いで、エンドポイント102または通信セッションシステム101は、閾値が満たされていると判定すると、動作200の実行をトリガする(803)。
図9は、セッションで話された単語を使用して通信セッション品質を表すためのコンピューティングアーキテクチャ900を示す。コンピューティングアーキテクチャ900は、通信セッションシステム101/401およびエンドポイント102、103および402~406のための例示的なコンピューティングアーキテクチャであるが、システム101~103および401~406は、代替の構成を使用してもよい。コンピューティングアーキテクチャ900は、通信インターフェース901と、ユーザインターフェース902と、処理システム903とを備える。処理システム903は、通信インターフェース901およびユーザインターフェース902にリンクされる。処理システム903は、処理回路905と、オペレーティングソフトウェア907を記憶するメモリデバイス906とを含む。
通信インターフェース901は、ネットワークカード、ポート、RFトランシーバ、処理回路およびソフトウェア、またはいくつかの他の通信デバイスなどの通信リンクを介して通信する構成要素を備える。通信インターフェース901は、金属リンク、無線リンク、または光リンクを介して通信するように構成され得る。通信インターフェース901は、TDM、IP、Ethernet、光ネットワーキング、ワイヤレスプロトコル、通信シグナリング、またはそれらの組合せを含む何らかの他の通信フォーマットを使用するように構成され得る。
ユーザインターフェース902は、ユーザとインタラクトする構成要素を含む。ユーザインターフェース902は、キーボード、ディスプレイスクリーン、マウス、タッチパッド、または何らかの他のユーザ入力/出力装置を含み得る。ユーザインターフェース902は、いくつかの例では省略され得る。
処理回路905は、マイクロプロセッサと、メモリデバイス906からオペレーティングソフトウェア907を取り出して実行する他の回路とを備える。メモリデバイス906は、ディスクドライブ、フラッシュドライブ、データ記憶回路、または何らかの他のメモリ装置などのコンピュータ可読記憶媒体を備える。いずれの例においても、メモリデバイス906の記憶媒体は伝搬信号とはみなされない。オペレーティングソフトウェア907は、コンピュータプログラム、ファームウェア、または機械可読処理命令の何らかの他の形態を含む。オペレーティングソフトウェア907は、不一致モジュール908を含む。オペレーティングソフトウェア907は、オペレーティングシステム、ユーティリティ、ドライバ、ネットワークインターフェース、アプリケーション、または何らかの他のタイプのソフトウェアをさらに含み得る。処理回路905によって実行されると、オペレーティングソフトウェア907は、本明細書に記載されるように、処理システム903にコンピューティングアーキテクチャ900を動作させるように指示する。
特に、第1の参加者によって操作される第1のエンドポイントと第2の参加者によって操作される第2のエンドポイントとの間の通信セッション(いずれもコンピューティングアーキテクチャ900であってもよい)中、不一致モジュール908は、処理システム903に、通信セッションに含めるために第1のエンドポイントによってキャプチャされたサウンドに基づいて、期間中に第1の参加者によって話された単語の第1の数を決定し、通信セッションを介して第2のエンドポイントで受信されたオーディオに基づいて、期間中に単語の第2の数を決定することを指示する。第1の数と第2の数との間に不一致が存在すると判定すると、不一致モジュール908は、処理システム903に第1の参加者および第2の参加者の少なくとも1つに不一致について通知することを指示する。
本明細書に含まれる説明および図面は、特許請求される発明の特定の実装を記載する。本発明の原理を教示する目的で、いくつかの従来の態様は簡略化または省略されている。さらに、これらの実装形態からのいくつかの変形形態は、本発明の趣旨の範囲内に入ることが理解されよう。上記で説明した特徴は、様々な方法で組み合わせて複数の実装形態を形成することができることも理解されよう。結果として、本発明は、上述の特定の実装形態に限定されず、特許請求の範囲およびそれらの均等物によってのみ限定される。

Claims (10)

  1. 第1の参加者によって操作される第1のエンドポイントと第2の参加者によって操作される第2のエンドポイントとの間の通信セッション中に、
    前記通信セッションに含めるために前記第1のエンドポイントによってキャプチャされたサウンドに基づいて、期間中に前記第1の参加者によって話された単語の第1の数を決定するステップと、
    前記通信セッションを介して前記第2のエンドポイントで受信されたオーディオに基づいて、前記期間中に前記第1の参加者によって話された前記単語の第2の数を決定するステップと、
    前記第1の数と前記第2の数との間に不一致が存在すると判定すると、前記第1の参加者および前記第2の参加者の少なくとも1つに前記不一致について通知するステップとを備えることを特徴とする方法。
  2. 前記第2のエンドポイントから前記第2の数を示すメッセージを受信するステップと、
    前記メッセージを受信後、前記不一致を判定するために前記第2の数を前記第1の数と比較するステップとを備えることを特徴とする請求項1に記載の方法。
  3. 前記不一致は、前記第1の数と前記第2の数との間の差が単語の閾値数よりも大きいことを含むことを特徴とする請求項1に記載の方法。
  4. 前記第1の参加者によって話された前記単語のテキストトランスクリプトを生成するステップと、
    前記第2のエンドポイントで受信された前記オーディオに基づいて、前記第1の参加者によって話された前記単語の第2のテキストトランスクリプトを受信するステップと、
    前記テキストトランスクリプトに対して前記第2のテキストトランスクリプトから欠落している単語の指示を前記第1の参加者に提示するステップとを備えることを特徴とする請求項1に記載の方法。
  5. 前記通信セッションを介して前記通信セッションを容易にするサーバで受信されたオーディオに基づいて、前記期間中に前記第1の参加者によって話された前記単語の第3の数を決定するステップと、
    前記第1の数と前記第3の数との間に第2の不一致が存在すると判定することに応答して、前記第1のエンドポイントと前記サーバとの間に問題が存在することを前記第1の参加者に通知するステップとを備えることを特徴とする請求項1に記載の方法。
  6. 1つまたは複数のコンピュータ可読媒体と、
    前記1つまたは複数のコンピュータ可読媒体と動作可能に結合される処理システムと、
    前記1つまたは複数のコンピュータ可読媒体に記憶されるプログラム命令とを備える装置であって、前記プログラム命令は、前記処理システムによって読み取られ、実行された場合において:
    第1の参加者によって操作される第1のエンドポイントと第2の参加者によって操作される第2のエンドポイントとの間の通信セッション中に、
    前記通信セッションに含めるために前記第1のエンドポイントによってキャプチャされたサウンドに基づいて、期間中に前記第1の参加者によって話された単語の第1の数を決定するステップと、
    前記通信セッションを介して前記第2のエンドポイントで受信されたオーディオに基づいて、前記期間中に前記単語の第2の数を決定するステップと、
    前記第1の数と前記第2の数との間に不一致が存在すると判定すると、前記第1の参加者および前記第2の参加者の少なくとも1つに前記不一致について通知するステップとを実行することを前記処理システムに指示することを特徴とする装置。
  7. 前記プログラム命令は、
    前記第2のエンドポイントから前記第2の数を示すメッセージを受信するステップと、
    前記メッセージを受信後、前記不一致を判定するために前記第2の数を前記第1の数と比較するステップとを実行することを前記処理システムに指示することを特徴とする請求項6に記載の装置。
  8. 前記不一致は、前記第1の数と前記第2の数との間の差が単語の閾値数よりも大きいことを含むことを特徴とする請求項6に記載の装置。
  9. 前記プログラム命令は、
    前記第1の参加者によって話された前記単語のテキストトランスクリプトを生成するステップと、
    前記第2のエンドポイントで受信された前記オーディオに基づいて、前記第1の参加者によって話された前記単語の第2のテキストトランスクリプトを受信するステップと、
    前記第1の参加者に、前記テキストトランスクリプトに対して前記第2のテキストトランスクリプトから欠落している単語の表示を提示するステップとを実行することを前記処理システムに指示することを特徴とする請求項6に記載の装置。
  10. 前記プログラム命令は、
    前記通信セッションを介して前記通信セッションを容易にするサーバで受信されたオーディオに基づいて、前記期間中に前記第1の参加者によって話された前記単語の第3の数を決定するステップと、
    前記第1の数と前記第3の数との間に第2の不一致が存在すると判定することに応答して、前記第1の参加者に前記第1のエンドポイントと前記サーバとの間に問題が存在することを通知するステップとを実行することを前記処理システムに指示することを特徴とする請求項6に記載の装置。
JP2022024667A 2021-02-23 2022-02-21 通信セッション品質の単語ベース表現 Ceased JP2022128594A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/182,512 2021-02-23
US17/182,512 US11870835B2 (en) 2021-02-23 2021-02-23 Word-based representation of communication session quality

Publications (1)

Publication Number Publication Date
JP2022128594A true JP2022128594A (ja) 2022-09-02

Family

ID=82901127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022024667A Ceased JP2022128594A (ja) 2021-02-23 2022-02-21 通信セッション品質の単語ベース表現

Country Status (3)

Country Link
US (1) US11870835B2 (ja)
JP (1) JP2022128594A (ja)
CN (1) CN114974250A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11870835B2 (en) * 2021-02-23 2024-01-09 Avaya Management L.P. Word-based representation of communication session quality
WO2024072583A1 (en) * 2022-09-29 2024-04-04 Microsoft Technology Licensing, Llc Conferencing session quality monitoring

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209731A (ja) * 2010-03-30 2011-10-20 Polycom Inc ビデオ会議に翻訳を追加するための方法及びシステム
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
JP2019220067A (ja) * 2018-06-22 2019-12-26 コニカミノルタ株式会社 会議システム、会議サーバ及びプログラム
JP2020184763A (ja) * 2019-05-07 2020-11-12 アバイア インコーポレーテッド 人工知能決定による表情に基づくビデオコールルーティング及び管理
US20220059075A1 (en) * 2020-08-19 2022-02-24 Sorenson Ip Holdings, Llc Word replacement in transcriptions

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7058566B2 (en) * 2001-01-24 2006-06-06 Consulting & Clinical Psychology, Ltd. System and method for computer analysis of computer generated communications to produce indications and warning of dangerous behavior
WO2003005258A2 (en) * 2001-07-05 2003-01-16 Koninklijke Philips Electronics N.V. Method of providing an account information and method of and device for transcribing of dictations
US8392186B2 (en) * 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US9031222B2 (en) * 2011-08-09 2015-05-12 Cisco Technology, Inc. Automatic supervisor intervention for calls in call center based upon video and/or speech analytics of calls
US9275636B2 (en) * 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
US9620128B2 (en) * 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9563693B2 (en) * 2014-08-25 2017-02-07 Adobe Systems Incorporated Determining sentiments of social posts based on user feedback
KR20180084394A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 발화 완료 감지 방법 및 이를 구현한 전자 장치
US20190204998A1 (en) * 2017-12-29 2019-07-04 Google Llc Audio book positioning
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US11669860B2 (en) * 2019-12-11 2023-06-06 Google Llc Methods, systems, and media for automated compliance determination of content items
US11328732B2 (en) * 2020-09-16 2022-05-10 International Business Machines Corporation Generating summary text compositions
US11929074B2 (en) * 2021-02-11 2024-03-12 Dell Products L.P. Automatically generating a meeting summary for an information handling system
US11870835B2 (en) * 2021-02-23 2024-01-09 Avaya Management L.P. Word-based representation of communication session quality

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209731A (ja) * 2010-03-30 2011-10-20 Polycom Inc ビデオ会議に翻訳を追加するための方法及びシステム
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
JP2019220067A (ja) * 2018-06-22 2019-12-26 コニカミノルタ株式会社 会議システム、会議サーバ及びプログラム
JP2020184763A (ja) * 2019-05-07 2020-11-12 アバイア インコーポレーテッド 人工知能決定による表情に基づくビデオコールルーティング及び管理
US20220059075A1 (en) * 2020-08-19 2022-02-24 Sorenson Ip Holdings, Llc Word replacement in transcriptions

Also Published As

Publication number Publication date
CN114974250A (zh) 2022-08-30
US20220272141A1 (en) 2022-08-25
US11870835B2 (en) 2024-01-09

Similar Documents

Publication Publication Date Title
EP2901669B1 (en) Near-end indication that the end of speech is received by the far end in an audio or video conference
US9509953B2 (en) Media detection and packet distribution in a multipoint conference
JP2022128594A (ja) 通信セッション品質の単語ベース表現
US8121277B2 (en) Catch-up playback in a conferencing system
US20100188475A1 (en) Method of controlling a video conference
US9379999B2 (en) Audio power based media bandwidth management
US20080101221A1 (en) Method and System For Communication Session Under Conditions Of Bandwidth Starvation
WO2019099397A1 (en) System and methods for testing a video conference call using a virtual assistant
US20190121605A1 (en) Monitoring Environmental Noise and Data Packets to Display a Transcription of Call Audio
US10142476B1 (en) Call reconnection
JP2016521470A (ja) 通信システムのための外部往復待ち時間測定
US20220319537A1 (en) Detection of audio issues on a communication session from video analysis
US10477019B2 (en) Contact center administration via text stream interaction
JP2006229903A (ja) 会議支援システム及び会議支援方法、並びにコンピュータ・プログラム
WO2023075980A1 (en) Real-time video-based audience reaction sentiment analysis
JP2020036225A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2022060349A1 (en) Indications of received audio quality of calls
US20220086391A1 (en) User notification using a light emitter associated with a video camera
US20220068287A1 (en) Systems and methods for moderating noise levels in a communication session
US11595462B2 (en) In-call feedback to far end device of near end device constraints
JP2005244384A (ja) 受信品質通知方法、受信品質通知装置及び受信品質通知プログラム
JP2016046720A (ja) 管理装置、端末装置、伝送システム、伝送方法およびプログラム
US11750409B2 (en) Computer-implemented method of performing a WebRTC-based communication and collaboration session and WebRTC-based communication and collaboration platform
TWI717770B (zh) 通訊狀態的判斷方法及通訊裝置
US20240187269A1 (en) Recommendation Based On Video-based Audience Sentiment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220322

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230926