JP2023503219A

JP2023503219A - 複数のデータソースを用いた発話転写

Info

Publication number: JP2023503219A
Application number: JP2022521089A
Authority: JP
Inventors: ヴィンセントチャールズチョン，; チョンシュアンパイ，; ヤティンサシャション，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-11-20
Filing date: 2020-10-31
Publication date: 2023-01-27
Also published as: KR20220104769A; US11749285B2; US20220139400A1; CN114981886A; WO2021101695A1; US20210151058A1; US11227602B2; EP4062402A1

Abstract

本開示は、オーディオ、イメージ、および他のデータを用いた発話の転写を記載する。複数人の話者と関連付けられたオーディオデータを取り込むように構成されたオーディオ取り込みシステムと、複数人の話者のうちの１人または複数人のイメージを取り込むように構成されたイメージ取り込みシステムと、発話処理エンジンと、を備えたシステムが記載される。発話処理エンジンは、オーディオデータ中の複数の発話セグメントを認識することと、複数の発話セグメントのうちの発話セグメントごとに、イメージに基づいて、発話セグメントと関連付けられた話者を識別することと、複数の発話セグメントそれぞれを転写して、複数の発話セグメントのうちの発話セグメントごとに、発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成することと、転写を解析して、転写に由来する付加データを生成することと、を行うように構成されていてもよい。
【選択図】図１Ａ

Description

本開示は、一般的には発話転写システムに関し、より詳細には、複数人の発話の転写に関する。

発話認識の普及が進み、テレビ（ＴＶ）、コンピュータ、タブレット、スマートフォン、およびスピーカに付加されることが多くなっている。たとえば、多くのスマート機器では、ユーザが発話したコマンドまたは質問に基づくサービスを実行可能である。このような機器では、発話認識を用いることにより、取り込んだオーディオに基づいてユーザのコマンドおよび質問を識別した後、動作の実行または応答情報の識別を行う。

一般的に、本開示は、オーディオ、イメージ、および他のデータを用いて発話を転写するシステムおよび方法を記載する。いくつかの例において、システムは、発話認識、話者識別、および視覚的パターン認識の各技術を組み合わせて、２人以上のユーザ間の相互作用の完全転写を生成するようにしてもよい。たとえば、このようなシステムでは、オーディオデータおよびイメージデータを取り込み、オーディオデータ中の複数の発話セグメントを認識し、イメージデータに基づいて、各発話セグメントと関連付けられた話者を識別し、複数の発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成するようにしてもよい。いくつかの例においては、人工知能（ＡＩ）／機械学習（ＭＬ）モデルのトレーニングによって、１人または複数人の識別話者からの発話を認識して転写するようにしてもよい。いくつかの例において、システムは、イメージデータ中の口唇が動いている１つまたは複数の顔の検出に基づいて、発話の認識および／または話者の識別を行うようにしてもよい。さらに、このようなシステムでは、転写を解析して、転写において記載された会集もしくはイベントに対するカレンダ招待、転写において識別されたトピックと関連する情報、転写において識別されたタスクを含むタスクリスト、要約、（たとえば、相互作用に存在しない人、トピックに関するユーザ、もしくは相互作用において論じられる人に対する）通知、統計値（たとえば、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語に関する情報、話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、「つなぎ」が使用された回数、話者の声量、または話者の感情等）を含む付加データを転写から生成するようにしてもよい。いくつかの例において、発話転写は、発話、会話、または相互作用がほぼリアルタイムまたは一見してほぼリアルタイムで起こっている間に実行される。他の例において、発話転写は、発話、会話、または相互作用が終了した後に実行される。

いくつかの例において、本明細書に記載の技術は、イメージデータを取り込むイメージ取り込み機器（たとえば、カメラ）およびオーディオデータを取り込むオーディオ取り込み機器（たとえば、マイク）を備えたヘッドマウントディスプレイ（ＨＭＤ）またはコンピュータ機器によって実行される。いくつかの例において、ＨＭＤまたはコンピュータ機器は、ユーザ間の相互作用においてユーザごとに取り込まれる発話セグメントのすべてを転写するようにしてもよい。他の例において、ＨＭＤは、当該ＨＭＤを着用しているユーザに対する発話セグメントのみを転写するようにしてもよく、ＨＭＤ、コンピュータ機器、および／または転写システムは任意選択として、他のＨＭＤおよび／またはコンピュータ機器から受信した個々の転写を組み合わせるようにしてもよい。

本発明の第１の態様によれば、複数人の話者と関連付けられたオーディオデータを取り込むように構成されたオーディオ取り込みシステムと、複数人の話者のうちの１人または複数人のイメージを取り込むように構成されたイメージ取り込みシステムと、オーディオデータ中の複数の発話セグメントを認識することと、複数の発話セグメントのうちの発話セグメントごとに、イメージに基づいて、発話セグメントと関連付けられた話者を識別することと、複数の発話セグメントそれぞれを転写して、複数の発話セグメントのうちの発話セグメントごとに、発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成することと、転写を解析して、転写に由来する付加データを生成することと、を行うように構成された発話処理エンジンと、を備えたシステムが提供される。

複数の発話セグメントを認識するため、発話処理エンジンは、イメージに基づいて、複数の発話セグメントを認識するようにさらに構成されていてもよい。

複数の発話セグメントのうちの発話セグメントごとに、話者を識別するため、発話処理エンジンは、イメージ中の１つまたは複数の顔を検出するようにさらに構成されていてもよい。

発話処理エンジンは、各発話セグメントと関連付けられた話者の識別情報に基づいて、１つまたは複数の発話認識モデルを選定するようにさらに構成されていてもよい。

複数の発話セグメントのうちの発話セグメントごとに、話者を識別するため、発話処理エンジンは、口唇が動いているイメージ中の１つまたは複数の顔を検出するようにさらに構成されていてもよい。

発話処理エンジンは、外部データにアクセスするようにさらに構成されていてもよい。複数の発話セグメントのうちの発話セグメントごとに、話者を識別するため、発話処理エンジンは、外部データに基づいて、話者を識別するようにさらに構成されていてもよい。

外部データは、カレンダ情報および場所情報のうちの１つまたは複数を含んでいてもよい。

このシステムは、ユーザが着用可能なヘッドマウントディスプレイ（ＨＭＤ）をさらに備えていてもよい。１つまたは複数の発話認識モデルは、ユーザの音声認識モデルを含んでいてもよい。発話処理エンジンは、複数の発話セグメントの属性に基づいて、ＨＭＤのユーザを複数の発話セグメントの話者として識別するようにさらに構成されていてもよい。ＨＭＤは、人工現実感コンテンツを出力するように構成されていてもよい。人工現実感コンテンツは、ビデオストリームおよびオーディオストリームを含む仮想会議アプリケーションを含んでいてもよい。

オーディオ取り込みシステムは、マイクアレイを備えていてもよい。

付加データは、転写において記載された会集もしくはイベントに対するカレンダ招待、転写において識別されたトピックと関連する情報、ならびに／または転写において識別されたタスクを含むタスクリストのうちの１つまたは複数を含んでいてもよい。

付加データは、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語に関する情報、話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値のうちの少なくとも１つを含んでいてもよい。

付加データは、複数人の話者のうちの少なくとも１人と関連付けられた発話セグメントの修正版を含むオーディオストリームを含んでいてもよい。

この方法は、外部データにアクセスすることと、複数の発話セグメントのうちの発話セグメントごとに、外部データに基づいて、話者を識別することと、をさらに含んでいてもよい。外部データは、カレンダ情報および場所情報のうちの１つまたは複数を含んでいてもよい。

本発明の第２の態様によれば、複数人の話者と関連付けられたオーディオデータを取り込むことと、複数人の話者のうちの１人または複数人のイメージを取り込むことと、オーディオデータ中の複数の発話セグメントを認識することと、複数の発話セグメントのうちの発話セグメントごとに、イメージに基づいて、発話セグメントと関連付けられた話者を識別することと、複数の発話セグメントそれぞれを転写して、複数の発話セグメントのうちの発話セグメントごとに、発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成することと、転写を解析して、転写に由来する付加データを生成することと、を含む方法が提供される。

本開示の第３の態様によれば、実行された場合に、複数人の話者と関連付けられたオーディオデータを取り込むことと、複数人の話者のうちの１人または複数人のイメージを取り込むことと、オーディオデータ中の複数の発話セグメントを認識することと、複数の発話セグメントのうちの発話セグメントごとに、イメージに基づいて、発話セグメントと関連付けられた話者を識別することと、複数の発話セグメントそれぞれを転写して、複数の発話セグメントのうちの発話セグメントごとに、発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成することと、転写を解析して、転写に由来する付加データを生成することと、を行うようにコンピュータシステムの処理回路を設定する命令を含むコンピュータ可読記憶媒体が提供される。

これらの技術には、さまざまな技術的利点および実用性がある。たとえば、本開示の１つまたは複数の態様に係る技術は、転写から付加データを生成可能な発話転写システムを提供し得る。付加データを自動的に生成することによって、本開示の技術に係るシステムは、コマンドまたは質問が発せられたことまたは発せられることを当該システムに知らせる特定の単語（たとえば、「ウェイク」ワード）をユーザが発話する必要なく、場合によっては、特定のコマンドも指示もなく、サービスをユーザに提供可能である。これにより、ユーザのシステムとの相互作用が容易化され、ユーザが別のユーザと相互作用する方法に対して相互作用がより一致することで、システムとの相互作用がより自然となり得る。

本開示の技術の１つまたは複数の例の詳細については、添付の図面および以下の説明に示す。これら技術の他の特徴、目的、および利点については、以下の説明、図面、および特許請求の範囲から明らかとなるであろう。

本開示の技術に係る、発話転写を実行する例示的なシステムを示した図である。本開示の技術に係る、発話転写を実行する例示的なシステムを示した図である。本開示の技術に係る、発話転写を実行する例示的なシステムを示した図である。本開示の技術に係る、例示的なＨＭＤを示した図である。本開示の技術に係る、例示的なＨＭＤを示した図である。本開示の技術に係る、図１Ａ、図１Ｂの人工現実感システムのＨＭＤの例示的なインスタンスによって発話転写が実行される一例を示したブロック図である。本開示の技術に係る、図１Ａ、図１Ｂの人工現実感システムの転写システムおよびＨＭＤの例示的なインスタンスによって発話転写が実行される例示的な実施態様を示したブロック図である。本開示の技術に係る、図１Ｃのシステムのコンピュータ機器の例示的なインスタンスによって発話転写が実行される例示的な実施態様を示したブロック図である。本開示の態様に係る、発話を転写して解析する方法の例示的な動作を示したフローチャートである。本開示の技術に係る、オーディオデータおよび転写を示した図である。本開示の態様に係る、発話を転写する方法の例示的な動作を示したフローチャートである。本開示の態様に係る、発話セグメントの話者を識別する方法の例示的な動作を示したフローチャートである。本開示の態様に係る、潜在的な話者モデルを識別する方法の例示的な動作を示したフローチャートである。本開示の態様に係る、分散機器に対して発話を転写する方法の例示的な動作を示したフローチャートである。

図面および説明の全体を通して、同様の参照文字は、同様の要素を表す。

図１Ａは、本開示の技術に係る、発話転写を実行するシステム１０Ａを示した図である。図１Ａの例において、システム１０Ａは、ヘッドマウントディスプレイ（ＨＭＤ）を具備する人工現実感システムである。図示のように、ＨＭＤ１１２は通常、ユーザ１１０が着用するものであり、人工現実感コンテンツ１２２をユーザ１１０に提示する電子ディスプレイおよび光学アセンブリを具備する。また、ＨＭＤ１１２は、当該ＨＭＤ１１２の運動を追跡する１つまたは複数の運動センサ（たとえば、加速度計）と、周囲の物理環境のオーディオデータを取り込む１つまたは複数のオーディオ取り込み機器（たとえば、マイク）と、周囲の物理環境のイメージデータを取り込む１つまたは複数のイメージ取り込み機器（たとえば、カメラ、赤外線（ＩＲ）検出器、ドップラーレーダ、ラインスキャナ）と、を具備する。ＨＭＤ１１２は、ネットワーク１０４を介して、任意の形態のコンピュータリソースに対応し得る転写システム１０６と連通しているものとして示している。たとえば、転写システム１０６は、物理的なコンピュータ機器であってもよいし、サービスをクライアント機器ならびに他の機器もしくはシステムに提供するクラウドコンピュータシステム、サーバファーム、および／またはサーバクラスタ（または、その一部）の構成要素であってもよい。したがって、転写システム１０６は、１つまたは複数の物理的なコンピュータ機器、仮想コンピュータ機器、仮想マシン、コンテナ、および／または他の仮想化コンピュータ機器を表していてもよい。いくつかの例示的な実施態様において、ＨＭＤ１１２は、独立型モバイル人工現実感システムとして動作する。

ネットワーク１０４は、インターネットであってもよいし、如何なるパブリックまたはプライベート通信ネットワーク等のネットワークを含んでいてもよいし、このようなネットワークを表していてもよい。たとえば、ネットワーク１０４は、コンピュータシステム、サーバ、およびコンピュータ機器間の伝送データの転送を可能にするセルラー、Ｗｉ－Ｆｉ（登録商標）、ＺｉｇＢｅｅ、Ｂｌｕｅｔｏｏｔｈ、近距離無線通信（ＮＦＣ）、衛星、エンタープライズ、サービスプロバイダ、および／または他種のネットワークであってもよいし、これらを含んでいてもよい。クライアント機器、サーバ機器、または他の機器のうちの１つまたは複数が任意の好適な通信技術を使用することにより、ネットワーク１０４を介してデータ、コマンド、制御信号、および／または他の情報を送受信するようにしてもよい。ネットワーク１０４は、１つまたは複数のネットワークハブ、ネットワークスイッチ、ネットワークルータ、衛星用アンテナ、またはその他任意のネットワーク装置を具備していてもよい。このような機器または構成要素は、動作可能に相互結合されることにより、コンピュータ、機器、または他の構成要素間（たとえば、１つまたは複数のクライアント機器またはシステムと１つまたは複数のサーバ機器またはシステムとの間）の情報交換を可能にしていてもよい。図１Ｂに示す機器またはシステムはそれぞれ、１つまたは複数のネットワークリンクを用いることにより、ネットワーク１０４に対して動作可能に結合されていてもよい。

一般的に、人工現実感システム１０Ａは、現実世界の３Ｄ物理環境から取り込まれた情報を使用して、ユーザ１１０に表示する人工現実感コンテンツ１２２をレンダリングする。図１Ａの例において、ユーザ１１０は、ＨＭＤ１１２上で実行されている人工現実感アプリケーションにより構成およびレンダリングされた人工現実感コンテンツ１２２を視聴する。人工現実感コンテンツ１２２Ａは、仮想またはビデオ会議アプリケーション、社会的交流アプリケーション、移動指示アプリケーション、代替世界アプリケーション、ナビゲーションアプリケーション、教育アプリケーション、ゲームアプリケーション、トレーニングまたはシミュレーションアプリケーション、拡張現実感アプリケーション、仮想現実感アプリケーション、または人工現実感を実現する他種のアプリケーションに従ってレンダリングされたコンテンツに対応していてもよい。いくつかの例において、人工現実感コンテンツ１２２は、現実世界のイメージおよび仮想物体の混合物（たとえば、複合現実感および／または拡張現実感）を含んでいてもよい。

動作時、人工現実感アプリケーションは、参照フレーム（通常は、ＨＭＤ１１２の視点）に対する姿勢情報を追跡および演算することによって、ユーザ１１０に表示する人工現実感コンテンツ１２２を構成する。ＨＭＤ１１２を参照フレームとして使用し、ＨＭＤ１１２の現在の推定姿勢によって決定される現在の視野１３０に基づいて、人工現実感アプリケーションは、いくつかの例において、ユーザ１１０の現実世界の３Ｄ物理環境に少なくとも一部が重なり得る３Ｄ人工現実感コンテンツをレンダリングする。このプロセスにおいて、人工現実感アプリケーションは、移動情報およびユーザコマンド等、ＨＭＤ１１２から受信した検知データと、いくつかの例においては、外部カメラ等の任意の外部センサからのデータと、を使用して、ユーザ１１０による運動等、現実世界の物理環境内の３Ｄ情報を取り込む。人工現実感アプリケーションは、検知データに基づいて、ＨＭＤ１１２の参照フレームに対する現在の姿勢を決定し、このＨＭＤ１１２の現在の姿勢に従って、人工現実感コンテンツ１２２をレンダリングする。

より具体的に、本明細書において別途説明する通り、ＨＭＤ１１２のイメージ取り込み機器は、当該イメージ取り込み機器１３８の視野１３０内の現実世界の物理環境中の物体を表すイメージデータを取り込む。これらの物体には、人１０１Ａおよび１０２Ａを含み得る。視野１３０は通常、ＨＭＤ１１２の視点と対応する。

図１Ａは、ユーザ１１０が人１０１Ａおよび１０２Ａと相互作用するシーンを示している。両人１０１Ａおよび１０２ＡがＨＭＤ１１２の視野１３０中に存在するため、ＨＭＤ１１２は、人１０１Ａおよび１０２Ａのオーディオデータおよびイメージデータを取り込むことができる。ＨＭＤ１１２Ａは、ユーザ１１０に対する人工現実感コンテンツ１２２において人１０１Ｂおよび１０２Ｂを表示するようにしてもよく、これらはそれぞれ、人１０１Ａおよび１０２Ａに対応する。いくつかの例においては、人１０１Ｂおよび／または１０２Ｂがそれぞれ、人１０１Ａおよび１０２Ａの無修正イメージであってもよい。他の例においては、人１０１Ｂおよび／または人１０２Ｂが人１０１Ｂおよび／または人１０２Ｂに対応するアバター（または、その他任意の仮想表現）であってもよい。

図１Ａに示す例においては、ユーザ１１０が「こんにちは、ジャックとスティーブ。調子はどう？」と言えば、人１０１Ａが「メアリーはどこ？」と返す。このシーンにおいて、ＨＭＤ１１２は、イメージデータおよびオーディオデータを取り込み、ＨＭＤ１１２の発話処理エンジン（図示せず）は、取り込まれたオーディオデータ中の発話セグメントを認識するとともに、各発話セグメントと関連付けられた話者を識別するように構成されていてもよい。たとえば、発話処理エンジンは、オーディオデータ中の発話セグメント「こんにちは、ジャックとスティーブ。調子はどう？」および「メアリーはどこ？」を認識するようにしてもよい。いくつかの例において、発話処理エンジンは、個々の単語（たとえば、「こんにちは」、「ジャック」、「と」、「スティーブ」等）または１つもしくは複数の単語の任意の組み合わせを発話セグメントとして認識するようにしてもよい。いくつかの例において、発話処理エンジンは、ユーザ１１０に対して格納された音声認識モデル（たとえば、格納された音声認識モデルに発話セグメントの属性が類似すること）および／または音の強さ（たとえば、声量）に基づいて、ユーザ１１０を「こんにちは、ジャックとスティーブ。調子はどう？」の話者として識別するようにしてもよい。

いくつかの例において、発話処理エンジンは、イメージデータ中の口唇が動いている顔を検出して、発話セグメント（たとえば、発話セグメントの開始および終了）の認識ならびに／または話者の識別を行うように構成されていてもよい。たとえば、発話処理エンジンは、人１０１Ａおよび１０２Ａの顔を検出し、発話セグメント「メアリーはどこ？」と関連付けられたオーディオを取り込んでいる間、人１０１Ａの口１０３が動いていることを検出するようにしてもよい。発話処理エンジンは、この情報に基づいて、人１０１Ａを当該発話セグメントの話者として決定するようにしてもよい。別の例において、発話処理エンジンは、人１０１Ａが発話している間（たとえば、人１０１Ａの口唇が動き、オーディオデータが取り込まれている間）、ユーザ１１０が人１０１Ａに注目しているため、人１０１Ａが話者であると決定するようにしてもよい。また、いくつかの例において、発話処理エンジンは、たとえば場所情報（たとえば、ＧＰＳ座標）またはカレンダ情報等の他の情報を取得して、話者または潜在的な話者モデルを識別する。たとえば、発話処理エンジンは、カレンダ会集情報を用いて、人１０１Ａおよび１０２Ａを識別するようにしてもよい。

発話処理エンジンは、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成するようにしてもよい。また、発話処理エンジンは、転写を解析して、転写に由来する付加データを生成するようにしてもよい。たとえば、図１Ａに示す例において、発話処理エンジンは、発話セグメント「メアリーはどこ？」を転写し、カレンダ情報を解析して、メアリーが会集の招待を断ったものと判定するようにしてもよい。そして、発話処理エンジンは、アラート１０５を生成し、そのアラートを人工現実感コンテンツ１２２においてユーザ１１０に表示するようにしてもよい。このようにして、発話処理エンジンは、ユーザ１１０が人１０１Ａに応答するのを補助し得る。

発話処理エンジンは、転写において記載された会集もしくはイベントに対するカレンダ招待、転写において識別されたトピックと関連する情報、または転写において識別されたタスクを含むタスクリスト等の他の付加データを生成するようにしてもよい。いくつかの例において、発話処理エンジンは、通知を生成するようにしてもよい。たとえば、処理エンジンは、人１０１Ａがメアリーについて尋ねていることを示す通知を生成し、当該通知をメアリーに送信するようにしてもよい。いくつかの例において、発話処理エンジンは、話者が発話する単語の数、話者の口調、話者の声量、話者が使用するつなぎ語に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を生成するようにしてもよい。また、発話処理エンジンは、複数人の話者のうちの少なくとも１人と関連付けられた発話セグメントの修正版を生成するようにしてもよい。たとえば、発話処理エンジンは、１人または複数人の話者の音声が別の音声（たとえば、漫画のキャラクタの音声または有名人の音声）で置き換えられたオーディオまたはビデオファイルを生成するようにしてもよいし、オーディオまたはビデオファイル中の１つまたは複数の発話セグメントを置き換えるようにしてもよい。

いくつかの例において、発話処理エンジンは、転写システム１０６に含まれていてもよい。たとえば、ＨＭＤ１１２は、オーディオおよびイメージデータを取り込み、ネットワーク１０４を介して、オーディオおよびイメージデータを転写システム１０６に送信するようにしてもよい。転写システム１０６は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成するようにしてもよい。

本明細書に記載の技術のうちの１つまたは複数には、さまざまな技術的利点および実用性が考えられる。たとえば、本開示の１つまたは複数の態様に係る発話転写システムが転写から付加データを生成可能である。付加データを自動的に生成することによって、本開示の技術に係るシステムは、ユーザが「ウェイク」ワードを発話する必要も、コマンドまたは指示を入力する必要さえもなく、サービスをユーザに提供可能である。これにより、ユーザのシステムとの相互作用が容易化され、ユーザが別のユーザと相互作用する方法に対して相互作用がより一致することで、システムとの相互作用がより自然となり得る。

図１Ｂは、本開示の技術に係る、発話転写を実行する例示的なシステムを示した図である。本例においては、ユーザ１１０が１１２Ａを着用し、人１０１ＡがＨＭＤ１１２Ｂを着用し、人１０２Ａが１１２Ｃを着用している。いくつかの例において、ユーザ１１０、１０１Ａ、および／または１０３Ａは、同じ物理環境に存在していてもよいし、異なる物理環境に存在していてもよい。図１Ｂにおいて、ＨＭＤ１１２は、ユーザ１１０に対する人工現実感コンテンツ１２３において人１０１Ｂおよび１０２Ｂを表示するようにしてもよい。本例において、人工現実感コンテンツ１２３は、ＨＭＤ１１２Ｂおよび１１２Ｃそれぞれからのビデオストリームおよびオーディオストリームを含む仮想会議アプリケーションを含む。いくつかの例においては、人１０１Ｂおよび／または１０２Ｂがそれぞれ、人１０１Ａおよび１０２Ａの無修正イメージであってもよい。他の例においては、人１０１Ｂおよび／または人１０２Ｂが人１０１Ｂおよび／または人１０２Ｂに対応するアバター（または、その他任意の仮想表現）であってもよい。

図１Ｂに示す例において、ＨＭＤ１１２Ａ、１１２Ｂ、および１１２Ｃ（併せて、「ＨＭＤ１１２」）は、（たとえば、直接またはネットワーク１０４を介して）互いに無線通信する。ＨＭＤ１１２はそれぞれ、発話処理エンジン（図示せず）を具備していてもよい。いくつかの例において、ＨＭＤ１１２はそれぞれ、図１ＡのＨＭＤ１１２と実質的に同様に動作するようになっていてもよい。いくつかの例において、ＨＭＤ１１２Ａは、ユーザ１１０に対応する第１の発話認識モデルを格納していてもよく、ＨＭＤ１１２Ｂは、ユーザ１０１Ａに対応する第２の発話認識モデルを格納していてもよく、ＨＭＤ１１２Ｃは、ユーザ１０２Ａに対応する第３の発話認識モデルを格納していてもよい。いくつかの例において、ＨＭＤ１１２はそれぞれ、第１、第２、および第３の発話認識モデルのコピーを共有して格納していてもよい。

いくつかの例において、ＨＭＤ１１２はそれぞれ、オーディオデータおよび／またはイメージデータを取得する。たとえば、ＨＭＤ１１２はそれぞれ、その物理環境からオーディオデータおよびイメージデータを取り込むこと、ならびに／または、他のＨＭＤ１１２からオーディオデータおよび／もしくはイメージデータを取得すること、を行うようにしてもよい。いくつかの例において、各ＨＭＤ１１２は、当該ＨＭＤを着用しているユーザに対応する発話セグメントを転写するようにしてもよい。たとえば、ＨＭＤ１１２Ａは、ユーザ１１０に対応する１つまたは複数の発話セグメントのみを転写するようにしてもよいし、ＨＭＤ１１２Ｂは、ユーザ１０１Ａに対応する１つまたは複数の発話セグメントのみを転写するようにしてもよいし、ＨＭＤ１１２Ｃは、ユーザ１０２Ａに対応する１つまたは複数の発話セグメントのみを転写するようにしてもよい。たとえば、このような例において、ＨＭＤ１１２Ａは、その物理環境からオーディオデータおよび／またはイメージデータを取り込み、オーディオデータ中の発話セグメントを認識し、（たとえば、ユーザ１１０に対して格納された発話認識モデルに基づいて）ユーザ１１０に対応する発話セグメントを識別し、ユーザ１１０に対応する発話セグメントそれぞれを転写することになる。ＨＭＤ１１２はそれぞれ、個々の転写を転写システム１０６に送信することになる。システム１０６は、個々の転写を組み合わせて、完全転写を生成するとともに、完全転写を解析して、完全転写に由来する付加データを生成することになる。このように、ＨＭＤ１１２はそれぞれ、他のユーザの発話認識モデルを格納する必要がない。さらに、対応するユーザからの発話を転写する各ＨＭＤ１１２によれば、転写および／または話者識別情報の精度が向上し得る。

他の例において、ＨＭＤ１１２はそれぞれ、オーディオおよびイメージデータを取り込み、ネットワーク１０４を介して（たとえば、オーディオおよびビデオストリームにて）、オーディオおよびイメージデータを転写システム１０６に送信するようにしてもよい。転写システム１０６は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成するようにしてもよい。

図１Ｃは、本開示の技術に係る、発話転写を実行する例示的なシステム１０Ｂを示した図である。本例においては、ユーザ１１０、１０１、および１０２が同じ物理環境に存在し、コンピュータ機器１２０がオーディオおよび／またはイメージデータを取り込む。他の例においては、異なる物理環境に位置付けられた１人または複数人の他のユーザがユーザ１１０、１０１、および１０２との相互作用の一部であってもよく、コンピュータ機器１２０によって容易化される。図１Ｃのコンピュータ機器１２０は、単一のコンピュータ機器として示しており、携帯電話、タブレット、スマートウォッチ、ゲームコンソール、ワークステーション、デスクトップコンピュータ、ラップトップ、補助装置、専用卓上機器、または他のコンピュータ機器に対応していてもよい。他の例において、コンピュータ機器１２０は、複数のコンピュータ機器に分散していてもよい。

いくつかの例において、コンピュータ機器１２０は、図１Ａおよび図１ＢにおいてＨＭＤ１１２を参照しつつ上述したのと同様の転写動作を実行可能である。たとえば、コンピュータ機器１２０の発話処理エンジン（図示せず）は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成するようにしてもよい。別の例においては、コンピュータ機器１２０がオーディオおよび／またはイメージデータを取り込み、このオーディオおよび／またはイメージデータを転写システムに送信し、その後、転写システム１０６の発話処理エンジンは、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成する。

遠隔のユーザおよび／または異なる物理環境のユーザを含む相互作用をコンピュータ機器１２０が容易化する例において、コンピュータ機器１２０は、遠隔のユーザに対応する機器からのオーディオ情報ならびにイメージもしくはビデオ情報の任意の表示（たとえば、オーディオおよび／またはビデオストリーム）を使用して、オーディオストリーム中の発話セグメントを認識し、オーディオストリーム中の発話セグメントそれぞれと関連付けられた話者（たとえば、遠隔のユーザ）を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者（遠隔の話者を含む）の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成するようにしてもよい。

図２Ａは、本開示の１つまたは複数の技術に従って動作するように構成された例示的なＨＭＤ１１２を示した図である。図２ＡのＨＭＤ１１２は、図１ＡのＨＭＤ１１２または図１ＢのＨＭＤ１１２Ａ、１１２Ｂ、および１１２Ｃの一例であってもよい。ＨＭＤ１１２は、本明細書に記載の技術を実現するように構成された独立型モバイル人工現実感システムとして動作するようになっていてもよいし、図１Ａ、図１Ｂのシステム１０Ａのようなシステムの一部であってもよい。

本例において、ＨＭＤ１１２は、前部剛体と、当該ＨＭＤ１１２をユーザに固定するバンドと、を具備する。また、ＨＭＤ１１２は、人工現実感コンテンツをユーザに提示するように構成された内向き電子ディスプレイ２０３を具備する。電子ディスプレイ２０３は、液晶ディスプレイ（ＬＣＤ）、量子ドットディスプレイ、ドットマトリクスディスプレイ、発光ダイオード（ＬＥＤ）ディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、陰極線管（ＣＲＴ）ディスプレイ、Ｅインク、またはモノクロ、カラー、もしくは視覚的出力を生成し得るその他任意の種類のディスプレイ等、任意好適な表示技術であってもよい。いくつかの例において、電子ディスプレイは、別個のイメージをユーザの各眼に与える立体表示ディスプレイである。いくつかの例においては、ＨＭＤ１１２およびユーザの現在の視点に従って人工現実感コンテンツをレンダリングするためにＨＭＤ１１２の位置および配向を追跡する際、ＨＭＤ１１２の前部剛体に対するディスプレイ２０３の既知の配向および位置が参照フレーム（ローカル原点とも称する）として使用される。また、参照フレームは、ＨＭＤ１１２の位置および配向の追跡に際しても使用され得る。他の例において、ＨＭＤ１１２は、メガネまたはゴーグル等、他のウェアラブルヘッドマウントディスプレイの形態であってもよい。

図２Ａにさらに示すように、本例において、ＨＭＤ１１２は、当該ＨＭＤ１１２の現在の加速度を示すデータを出力する１つもしくは複数の加速度計（慣性計測ユニットまたは「ＩＭＵ」とも称する）、当該ＨＭＤ１１２の場所を示すデータを出力するＧＰＳセンサ、当該ＨＭＤ１１２のさまざまな物体からの距離を示すデータを出力するレーダもしくはソナー、または当該ＨＭＤ１１２もしくは物理環境内の他の物体の場所もしくは配向を示す他のセンサ等、１つまたは複数の運動センサ２０６をさらに具備する。さらに、ＨＭＤ１１２は、生のイメージおよびオーディオデータをそれぞれ取り込むように構成された統合イメージ取り込み機器２０８Ａおよび２０８Ｂ（併せて、任意数のイメージ取り込み機器を含み得る「イメージ取り込みシステム２０８」）（たとえば、ビデオカメラ、スチルカメラ、ＩＲスキャナ、ＵＶスキャナ、レーザスキャナ、ドップラレーダスキャナ、デプススキャナ）ならびにオーディオ取り込みシステム２０９（たとえば、マイク）を具備していてもよい。いくつかの態様において、イメージ取り込みシステム２０８は、電磁スペクトルの可視スペクトルおよび不可視スペクトル（たとえば、ＩＲ光）からイメージデータを取り込むことができる。イメージ取り込みシステム２０８は、可視スペクトルからイメージデータを取り込む１つまたは複数のイメージ取り込み機器と、不可視スペクトルからイメージデータを取り込む１つまたは複数の別個のイメージ取り込み機器と、を含んでいてもよいし、これらが同じ１つまたは複数のイメージ取り込み機器において組み合わされていてもよい。より具体的に、イメージ取り込みシステム２０８は、通常はＨＭＤ１１２の視点と対応する当該イメージ取り込みシステム２０８の視野１３０内の物理環境中の物体を表すイメージデータを取り込み、オーディオ取り込みシステム２０９は、ＨＭＤ１１２の近傍（オーディオ取り込み機器の３６０°範囲内）のオーディオデータを取り込む。いくつかの例において、オーディオ取り込みシステム２０９は、ＨＭＤ１１２に対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよい。ＨＭＤ１１２は、内部電源と、プログラム可能な動作を実行して検知データの処理および人工現実感コンテンツのディスプレイ２０３への提示を行う動作環境を提供する１つまたは複数のプロセッサ、メモリ、およびハードウェアを有する１つまたは複数のプリント配線板と、を含み得る内部制御ユニット２１０を具備する。

一例において、本明細書に記載の技術によれば、制御ユニット２１０は、オーディオ取り込みシステム２０９により取り込まれたオーディオデータ中の発話セグメントを認識し、各発話セグメントと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成し、転写を解析して、転写に由来する付加データを生成するように構成されている。いくつかの例において、制御ユニット２１０は、（たとえば、オーディオデータおよび／もしくはイメージデータが取り込まれた際または相互作用が完了した後、ほぼリアルタイムまたは一見してほぼリアルタイムに）ネットワーク１０４を介して、オーディオデータおよび／またはイメージデータが転写システム１０６へと送信されるようにする。

図２Ｂは、本開示の技術に係る、例示的なＨＭＤ１１２を示した図である。図２Ｂに示すように、ＨＭＤ１１２は、メガネの形態であってもよい。図２ＡのＨＭＤ１１２は、図１Ａ、図１ＢのＨＭＤ１１２のいずれかの一例であってもよい。ＨＭＤ１１２は、図１Ａおよび図１Ｂのシステム１０Ａのようなシステムの一部であってもよいし、本明細書に記載の技術を実現するように構成された独立型モバイルシステムとして動作するようになっていてもよい。

本例において、ＨＭＤ１１２は、当該ＨＭＤ１１２をユーザの鼻に乗せられるブリッジを含む前部フレームと、ユーザの耳の上に延びて当該ＨＭＤ１１２をユーザに固定するテンプル（または「アーム」）と、を備えたメガネである。また、図２ＢのＨＭＤ１１２は、人工現実感コンテンツをユーザに提示するように構成された内向き電子ディスプレイ２０３Ａおよび２０３Ｂ（併せて、「電子ディスプレイ２０３」）を具備する。電子ディスプレイ２０３は、液晶ディスプレイ（ＬＣＤ）、量子ドットディスプレイ、ドットマトリクスディスプレイ、発光ダイオード（ＬＥＤ）ディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、陰極線管（ＣＲＴ）ディスプレイ、Ｅインク、またはモノクロ、カラー、もしくは視覚的出力を生成し得るその他任意の種類のディスプレイ等、任意好適な表示技術であってもよい。図２Ｂに示す例において、電子ディスプレイ２０３は、別個のイメージをユーザの各眼に与える立体表示ディスプレイを構成する。いくつかの例においては、ＨＭＤ１１２およびユーザの現在の視点に従って人工現実感コンテンツをレンダリングするためにＨＭＤ１１２の位置および配向を追跡する際、ＨＭＤ１１２の前部フレームに対するディスプレイ２０３の既知の配向および位置が参照フレーム（ローカル原点とも称する）として使用される。

図２Ｂにさらに示すように、本例において、ＨＭＤ１１２は、当該ＨＭＤ１１２の現在の加速度を示すデータを出力する１つもしくは複数の加速度計（慣性計測ユニットまたは「ＩＭＵ」とも称する）、当該ＨＭＤ１１２の場所を示すデータを出力するＧＰＳセンサ、当該ＨＭＤ１１２のさまざまな物体からの距離を示すデータを出力するレーダもしくはソナー、または当該ＨＭＤ１１２もしくは物理環境内の他の物体の場所もしくは配向を示す他のセンサ等、１つまたは複数の運動センサ２０６をさらに具備する。さらに、ＨＭＤ１１２は、イメージおよびオーディオデータをそれぞれ取り込むように構成された統合イメージ取り込み機器２０８Ａおよび２０８Ｂ（併せて、「イメージ取り込みシステム２０８」）（たとえば、ビデオカメラ、スチルカメラ、ＩＲスキャナ、ＵＶスキャナ、レーザスキャナ、ドップラレーダスキャナ、デプススキャナ）ならびにオーディオ取り込みシステム２０９（たとえば、マイク）を具備していてもよい。いくつかの態様において、イメージ取り込みシステム２０８は、電磁スペクトルの可視スペクトルおよび不可視スペクトル（たとえば、ＩＲ光）からイメージデータを取り込むことができる。イメージ取り込みシステム２０８は、可視スペクトルからイメージデータを取り込む１つまたは複数のイメージ取り込み機器と、不可視スペクトルからイメージデータを取り込む１つまたは複数の別個のイメージ取り込み機器と、を含んでいてもよいし、これらが同じ１つまたは複数のイメージ取り込み機器において組み合わされていてもよい。より具体的に、イメージ取り込みシステム２０８は、通常はＨＭＤ１１２の視点と対応する当該イメージ取り込みシステム２０８の視野１３０内の物理環境中の物体を表すイメージデータを取り込み、オーディオ取り込みシステム２０９は、ＨＭＤ１１２の近傍（オーディオ取り込み機器の３６０°範囲内）のオーディオデータを取り込む。ＨＭＤ１１２は、内部電源と、プログラム可能な動作を実行して検知データの処理および人工現実感コンテンツのディスプレイ２０３への提示を行う動作環境を提供する１つまたは複数のプロセッサ、メモリ、およびハードウェアを有する１つまたは複数のプリント配線板と、を含み得る内部制御ユニット２１０を具備する。本明細書に記載の技術によれば、図２Ｂの制御ユニット２１０は、図２Ａの制御ユニット２１０と同様に動作するように構成されている。

図３は、本開示の技術に係る、図１Ａ、図１Ｂの人工現実感システムのＨＭＤ１１２の例示的なインスタンスによって発話転写が実行される一例を示したブロック図である。図３の例において、ＨＭＤ１１２は、本明細書に記載の技術に従って、イメージおよびオーディオデータの取り込み、話者の識別、転写、および解析動作を実行する。

本例において、ＨＭＤ１１２は、いくつかの例においてオペレーティングシステム３０５（たとえば、埋め込み型リアルタイムマルチタスクオペレーティングシステムであってもよいし、他種のオペレーティングシステムであってもよい）を実行するコンピュータプラットフォームを提供する１つまたは複数のプロセッサ３０２およびメモリ３０４を具備する。一方、オペレーティングシステム３０５は、１つまたは複数のソフトウェアコンポーネント３１７を実行するマルチタスク動作環境を提供する。プロセッサ３０２は、表示装置、イメージ取り込み機器、他のＨＭＤ等の他の機器と通信するためのＩ／Ｏインターフェースを提供する１つまたは複数のＩ／Ｏインターフェース３１５に結合されている。さらに、１つまたは複数のＩ／Ｏインターフェース３１５は、ネットワーク１０４等のネットワークと通信するための１つまたは複数の有線または無線ネットワークインターフェースコントローラ（ＮＩＣ）を具備していてもよい。また、プロセッサ３０２は、電子ディスプレイ２０３、運動センサ２０６、イメージ取り込みシステム２０８、およびオーディオ取り込みシステム２０９に結合されている。いくつかの例において、プロセッサ３０２およびメモリ３０４は、別個の離散構成要素であってもよい。他の例において、メモリ３０４は、単一の集積回路内でプロセッサ３０２とともに配置されたオンチップメモリであってもよい。イメージ取り込みシステム２０８およびオーディオ取り込みシステム２０９は、イメージデータおよびオーディオデータをそれぞれ取得するように構成されている。

一般的に、アプリケーションエンジン３２０は、人工現実感アプリケーション（たとえば、転写アプリケーション、音声アシスタントアプリケーション、仮想会議アプリケーション、ゲームアプリケーション、ナビゲーションアプリケーション、教育アプリケーション、トレーニングまたはシミュレーションアプリケーション等）を提供および提示する機能を含む。アプリケーションエンジン３２０は、たとえば人工現実感アプリケーションをＨＭＤ１１２で実現するための１つまたは複数のソフトウェアパッケージ、ソフトウェアライブラリ、ハードウェアドライバ、および／またはアプリケーションプログラムインターフェース（ＡＰＩ）を含んでいてもよい。アプリケーションエンジン３２０による制御に応答して、レンダリングエンジン３２２は、ＨＭＤ１１２のアプリケーションエンジン３４０によってユーザに表示する３Ｄ人工現実感コンテンツを生成する。

アプリケーションエンジン３４０およびレンダリングエンジン３２２は、姿勢トラッカ３２６による決定の通り、参照フレーム内のＨＭＤ１１２に対する現在の姿勢情報（通常は、ＨＭＤ１１２の視点）に従って、ユーザ１１０に表示する人工コンテンツを構成する。現在の視点に基づいて、レンダリングエンジン３２２は、３Ｄ人工現実感コンテンツを構成するが、これは場合により、ユーザ１１０の現実世界の３Ｄ環境に少なくとも一部が重なり得る。このプロセスにおいては、ＨＭＤ１１２から受信した検知データおよびユーザコマンドに対して姿勢トラッカ３２６が作用することにより、現実世界の環境内の３Ｄ情報（ユーザ１１０による運動等）および／またはユーザ１１０に関する特徴追跡情報を取り込む。いくつかの例において、アプリケーションエンジン３４０およびレンダリングエンジン３２２は、本開示の技術に係る転写アプリケーションまたは音声アシスタントアプリケーションに対する１つまたは複数のユーザインターフェースを生成およびレンダリングして表示することができる。たとえば、アプリケーションエンジン３４０およびレンダリングエンジン３２２は、転写および／または付加データを表示するユーザインターフェースを生成およびレンダリングして表示するようにしてもよい。

ＨＭＤ１１２のソフトウェアアプリケーション３１７は、転写アプリケーションを含む人工現実感アプリケーション全体を提供するように動作する。本例において、ソフトウェアアプリケーション３１７は、レンダリングエンジン３２２、アプリケーションエンジン３４０、姿勢トラッカ３２６、発話処理エンジン３４１、イメージデータ３３０、オーディオデータ３３２、話者モデル３３４、および転写３３６を含む。いくつかの例において、ＨＭＤ１１２は、ユーザの場所情報、カレンダイベントデータ（たとえば、招待者、確認者、会集トピック）を含む他のデータを（たとえば、メモリ３０４に）格納していてもよい。いくつかの例においては、イメージデータ３３０、オーディオデータ３３２、話者モデル３３４、および／または転写３３６がリポジトリまたはキャッシュを表していてもよい。

発話処理エンジン３４１は、オーディオデータ３３２中の発話の転写に関する機能を実行するとともに、本開示の技術に従って、転写を解析する。いくつかの例において、発話処理エンジン３４１は、発話認識エンジン３４２、話者識別器３４４、発話転写器３４６、および音声アシスタントアプリケーション３４８を含む。

発話認識エンジン３４２は、オーディオデータ３３２中の１つまたは複数の発話セグメントの認識に関する機能を実行する。いくつかの例において、発話認識エンジン３４２は、オーディオデータ３３２中の１つまたは複数の発話セグメントを（たとえば、生のアナログデータとは別個に）格納する。発話セグメントには、１つまたは複数の発話単語を含み得る。たとえば、発話セグメントとしては、単一の単語、２つ以上の単語、あるいは句または完全な文が可能である。いくつかの例において、発話認識エンジン３４２は、任意の発話認識技術を使用して、オーディオデータ３３２中の１つまたは複数の発話セグメントを認識する。たとえば、オーディオデータ３３２がアナログデータを含んでいてもよく、発話認識エンジン３４２は、アナログ－デジタル変換器（ＡＤＣ）を用いてアナログデータをデジタルデータに変換し、デジタル化オーディオデータ中のノイズをフィルタリングし、フィルタリングしたデジタル化オーディオデータに１つまたは複数の統計モデル（たとえば、隠れマルコフモデルまたはニューラルネットワーク）を適用して、１つまたは複数の発話セグメントを認識するようにしてもよい。いくつかの例において、発話認識エンジン３４２は、１つまたは複数の特定のユーザ（たとえば、図１Ａ～図１Ｃのユーザ１１０）の発話を認識するようにトレーニングされた人工知能（ＡＩ）／機械学習（ＭＬ）モデルを適用するようにしてもよい。いくつかの例において、ＡＩ／ＭＬモデルは、ユーザからのトレーニングフィードバックを受け、発話認識決定を調整するようにしてもよい。いくつかの例において、発話認識エンジン３４２は、イメージデータ３３０に基づいて、オーディオデータ３３２中の１つまたは複数の発話セグメントを認識するようにしてもよい。たとえば、発話認識エンジン３４２は、イメージデータ中の口唇が動いている顔を検出して、発話セグメント（たとえば、発話セグメントの開始および終了）を認識するように構成されていてもよい。

話者識別器３４４は、発話認識エンジン３４２により認識された１つまたは複数の発話セグメントそれぞれと関連付けられた話者の識別に関する機能を実行する。たとえば、話者識別器３４４は、イメージデータ３３０中の口唇が動いている顔を検出して、話者または潜在的な話者を認識するように構成されていてもよい。別の例において、オーディオ取り込みシステム２０９は、ＨＭＤ１１２に対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよく、話者識別器３４４は、当該方向性情報およびイメージデータ３３０に基づいて、話者または潜在的な話者を識別するようにしてもよい（たとえば、話者識別器３４４は、発話セグメント「メアリーはどこ？」に関する方向性情報に基づいて、図１中の人１０１Ａを識別するようにしてもよい）。さらに別の例において、話者識別器３４４は、ユーザが注目している相手に基づいて（たとえば、ＨＭＤ１１２の視野に基づいて）、話者を識別することになる。いくつかの例において、話者識別器３４４は、各発話セグメントのハッシュ値または埋め込み値を決定し、（たとえば、話者モデル３３４から）潜在的な話者モデルを取得し、ハッシュ値を潜在的な話者モデルと比較し、ハッシュ値に最も近い話者モデルを識別するようにしてもよい。話者識別器３４４は、外部データ、イメージデータ３３０（たとえば、口唇が動いている検出した顔）、および／またはユーザ入力に基づいて、潜在的な話者モデルを識別するようにしてもよい。たとえば、話者識別器３４４は、カレンダ情報（たとえば、確認された会集招待者もしくは潜在的な会集招待者に関する情報）、イメージデータ３３０において識別された１つもしくは複数の顔、場所情報（たとえば、他の人と関連付けられた人もしくは機器のＨＭＤ１１２に対する近接情報）、ならびに／またはユーザ入力により選択された潜在的な話者モデルに基づいて、潜在的な話者を識別するようにしてもよい。いくつかの例において、発話セグメントのハッシュ値と最も近い話者モデルとの差が閾値差以上である場合、話者識別器３４４は、ハッシュ値に基づいて新たな話者モデルを生成するとともに、この新たな話者モデルを発話セグメントに関連付けるようにしてもよい。発話セグメントのハッシュ値と最も近い話者モデルとの差が閾値差未満である場合、話者識別器３４４は、最も近い話者モデルと関連付けられた話者を発話セグメントの話者として識別するようにしてもよい。いくつかの例において、話者モデル３３４は、さまざまな話者のハッシュ値（または、他の音声属性）を含んでいてもよい。いくつかの例において、話者モデル３３４は、１人または複数人の話者（たとえば、図１Ａ～図１Ｃの人１１０、１０１、１０２）の発話を識別するようにトレーニングされたＡＩ／ＭＬモデルを含んでいてもよい。いくつかの例において、ＡＩ／ＭＬモデルは、ユーザからのトレーニングフィードバックを受け、話者識別決定を調整するようにしてもよい。また、話者モデル３３４は、話者識別器３４４により自動生成された話者識別子（ＩＤ）、名称、もしくはラベル（たとえば、「話者１」、「話者２」等）、または、Ｉ／Ｏインターフェース３１５を介してユーザにより手動入力された話者識別子（ＩＤ）、名称、もしくはラベル（たとえば、「ジャック」、「スティーブ」、「ボス」等）を含んでいてもよい。いくつかの例において、話者モデル３３４はそれぞれ、話者の１つもしくは複数のイメージならびに／または話者の顔のハッシュ値を含んでいてもよい。

いくつかの例において、話者識別器３４４は、ＨＭＤ１１２のユーザによる発話セグメントを識別するように構成されていてもよい。たとえば、話者識別器３４４は、ＨＭＤ１１２のユーザ（たとえば、ユーザ１１０）に固有の話者モデルを適用して、ユーザと関連付けられた１つまたは複数の発話セグメントを識別するようにしてもよい（たとえば、発話セグメントの属性がユーザ話者モデルに類似することに基づいて、ユーザ１１０による発話セグメントを識別するようにしてもよい）。言い換えると、話者識別器３４４は、ＨＭＤ１１２のユーザによる発話セグメントに対して、発話認識エンジン３４２により認識された１つまたは複数の発話セグメントをフィルタリングするようにしてもよい。

発話転写器３４６は、発話認識エンジン３４２により認識された発話セグメントの転写に関する機能を実行する。たとえば、発話転写器３４６は、話者識別器３４４により識別された１人または複数人の話者の指定とともに、発話認識エンジン３４２により認識された１つまたは複数の発話セグメントのテキスト出力を生成する。いくつかの例において、発話転写器３４６は、発話認識エンジン３４２により認識され、ＨＭＤ１１２のユーザ（たとえば、ユーザ１１０）と関連付けられた１つまたは複数の発話セグメントのテキスト出力を生成する。言い換えると、いくつかの例において、発話転写器３４６は、話者識別器３４４により識別されたＨＭＤ１１２のユーザによる１つまたは複数の発話セグメントのテキスト出力のみを生成する。いずれにせよ、発話転写器３４６はその後、テキスト出力を転写３３６に格納する。

音声アシスタントアプリケーション３４８は、転写を解析して、転写に由来する付加データを生成することに関する機能を実行する。たとえば、音声アシスタントアプリケーション３４８は、転写において記載された会集もしくはイベントのカレンダ招待（たとえば、発話セグメント「金曜日の朝一番にもう一度タッチベースしよう」に対応）、転写において識別されたトピックと関連する情報（たとえば、図１Ａに示すように、会集招待者が会集の招待を断ったことの通知、相互作用に存在しない人への通知）、または転写において識別されたタスクを含むタスクリスト（たとえば、発話セグメント「会集後に先月の営業報告書を送ってください」に対応するタスク項目）等の付加データを生成するようにしてもよい。いくつかの例において、音声アシスタントアプリケーション３４８は、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語（たとえば、「えーと」、「うーん」、「えー」、「まあ」等）に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を生成するようにしてもよい。また、音声アシスタントアプリケーション３４８は、複数人の話者のうちの少なくとも１人と関連付けられた発話セグメントの修正版を生成するようにしてもよい。たとえば、音声アシスタントアプリケーション３４８は、１人または複数人の話者の音声が別の音声（たとえば、漫画の音声または有名人の音声）で置き換えられたオーディオまたはビデオファイルを生成するようにしてもよいし、オーディオまたはビデオファイル中の１つまたは複数の発話セグメントの言語を置き換えるようにしてもよい。

上述の通り、話者モデル３３４は、さまざまなＡＩ／ＭＬモデルを含み得る。これらのＡＩ／ＭＬモデルには、人工ニューラルネットワーク（ＡＮＮ）、決定木、サポートベクターネットワーク、ベイズネットワーク、遺伝的アルゴリズム、線形回帰、ロジスティック回帰、線形判別分析、ナイーブベイズ、ｋ近傍法、学習ベクトル量子化、サポートベクターマシン、ランダム決定フォレスト、またはその他任意の既知のＡＩ／ＭＬ数学的モデルを含み得る。これらのＡＩ／ＭＬモデルは、オーディオデータを処理して、発話セグメントの認識および／または発話セグメントの話者の識別を行うようにトレーニングされていてもよい。たとえば、これらのＡＩ／ＭＬモデルは、オーディオデータ３３２中の発話および／または特定の音声を認識するようにトレーニングされていてもよい。いくつかの例において、これらのＡＩ／ＭＬモデルは、イメージデータ中の潜在的な話者を識別するようにトレーニングされていてもよい。たとえば、これらのＡＩ／ＭＬモデルは、イメージデータ３３０中の人（たとえば、顔）および／または動いている口唇を認識するようにトレーニングされていてもよい。いくつかの例において、話者モデル３３４は、１人もしくは複数人のユーザに対する一組の発話データならびに／または１人もしくは複数人のユーザに対応する一組のイメージでトレーニングされていてもよい。１つまたは複数の態様において、イメージデータ３３０、オーディオデータ３３２、話者モデル３３４、および／または転写３３６それぞれに格納された情報は、リポジトリ、データベース、マップ、探索木、またはその他任意のデータ構造に格納可能である。いくつかの例においては、イメージデータ３３０、オーディオデータ３３２、話者モデル３３４、および／または転写３３６がＨＭＤ１１２から分離されていてよい（たとえば、図１Ａのネットワーク１０４を介してＨＭＤ１１２と連通した別個のデータベースであってもよい）。

運動センサ２０６には、ＨＭＤ１１２の現在の加速度を示すデータを出力する１つもしくは複数の加速度計（慣性計測ユニットまたは「ＩＭＵ」とも称する）、ＨＭＤ１１２のさまざまな物体からの距離を示すデータを出力するレーダもしくはソナー、またはＨＭＤ１１２もしくは物理環境内の他の物体の場所もしくは配向を示す他のセンサ等のセンサを含み得る。

図４は、本開示の技術に係る、図１Ａ、図１Ｂの人工現実感システムの転写システムおよびＨＭＤの例示的なインスタンスによって発話転写が実行される例示的な実施態様を示したブロック図である。図４の例において、ＨＭＤ１１２は、オーディオおよび／またはイメージデータを取り込み、このオーディオおよび／またはイメージデータを転写システム１０６に送信する。転写システム１０６の発話認識エンジン４４１は、本明細書に記載の技術のうちの１つまたは複数に従って、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成する。

本例においては、図３と同様に、ＨＭＤ１１２は、いくつかの例においてオペレーティングシステム３０５（たとえば、埋め込み型リアルタイムマルチタスクオペレーティングシステムであってもよいし、他種のオペレーティングシステムであってもよい）を実行するコンピュータプラットフォームを提供する１つまたは複数のプロセッサ３０２およびメモリ３０４を具備する。一方、オペレーティングシステム３０５は、１つまたは複数のソフトウェアコンポーネント３１７を実行するマルチタスク動作環境を提供する。さらに、プロセッサ３０２は、電子ディスプレイ２０３、運動センサ２０６、イメージ取り込みシステム２０８、およびオーディオ取り込みシステム２０９に結合されている。いくつかの例において、ＨＭＤ１１２は、図３に示すその他の構成要素のいずれかをさらに具備する。たとえば、ＨＭＤ１１２は、発話処理エンジン３４１（発話認識エンジン３４２、話者識別器３４４、発話転写器３４６、および音声アシスタントアプリケーション３４８を含む）、イメージデータ３３０、オーディオデータ３３２、話者モデル３３４、および転写３３６を含んでいてもよい。

一般的に、転写システム１０６は、ＨＭＤ１１２から受信したオーディオおよび／またはイメージデータを処理して、オーディオデータに含まれる発話セグメント中の１人または複数人の話者の指定を含む転写を生成するとともに、転写に由来する付加データから付加データを生成する機器である。いくつかの例において、転写システム１０６は、サーバ、ワークステーション、デスクトップコンピュータ、ラップトップ、またはゲームコンソール等の単一のコンピュータ機器である。他の例においては、プロセッサ４１２および／またはメモリ４１４等の転写システム１０６の少なくとも一部がクラウドコンピュータシステム、データセンタ全体に分散していてもよいし、インターネット、別のパブリックまたはプライベート通信ネットワーク（たとえば、ブロードバンド、セルラー、Ｗｉ－Ｆｉ、ならびに／またはコンピュータシステム、サーバ、およびコンピュータ機器間でデータを伝送する他種の通信ネットワーク）等のネットワーク全体に分散していてもよい。

図４の例において、転写システム１０６は、いくつかの例においてオペレーティングシステム４１６（たとえば、埋め込み型リアルタイムマルチタスクオペレーティングシステムであってもよいし、他種のオペレーティングシステムであってもよい）を実行するコンピュータプラットフォームを提供する１つまたは複数のプロセッサ４１２およびメモリ４１４を具備する。一方、オペレーティングシステム４１６は、１つまたは複数のソフトウェアコンポーネント４１７を実行するマルチタスク動作環境を提供する。プロセッサ４１２は、キーボード、マウス、ゲームコントローラ、表示装置、イメージ取り込み機器、ＨＭＤ等の他の機器と通信するためのＩ／Ｏインターフェースを提供する１つまたは複数のＩ／Ｏインターフェース４１５に結合されている。さらに、１つまたは複数のＩ／Ｏインターフェース４１５は、ネットワーク１０４等のネットワークと通信するための１つまたは複数の有線または無線ネットワークインターフェースコントローラ（ＮＩＣ）を具備していてもよい。プロセッサ３０２、４１２はそれぞれ、マルチコアプロセッサ、コントローラ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または同等の個別もしくは集積論理回路のうちのいずれか１つまたは複数を含んでいてもよい。メモリ３０４、４１４は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、プログラム可能リードオンリーメモリ（ＰＲＯＭ）、消去可能プログラム可能リードオンリーメモリ（ＥＰＲＯＭ）、電子的消去可能プログラム可能リードオンリーメモリ（ＥＥＰＲＯＭ）、およびフラッシュメモリ等、データおよび実行可能ソフトウェア命令を格納する如何なる形態のメモリを含んでいてもよい。

転写システム１０６のソフトウェアアプリケーション４１７は、転写アプリケーションを提供するように動作する。本例において、ソフトウェアアプリケーション４１７は、レンダリングエンジン４２２、アプリケーションエンジン４４０、姿勢トラッカ４２６、発話処理エンジン４４１、イメージデータ４３０、オーディオデータ４３２、話者モデル４３４、および転写４３６を含む。図３の発話処理エンジン３４１と同様に、発話処理エンジン４４１は、発話認識エンジン４４２、話者識別器４４４、発話転写器４４６、および音声アシスタントアプリケーション４４８を含む。

一般的に、アプリケーションエンジン４４０は、人工現実感アプリケーション（たとえば、転写アプリケーション、音声アシスタントアプリケーション、仮想会議アプリケーション、ゲームアプリケーション、ナビゲーションアプリケーション、教育アプリケーション、トレーニングまたはシミュレーションアプリケーション等）を提供および提示する機能を含む。アプリケーションエンジン４０は、たとえば人工現実感アプリケーションをコンピュータシステム１２０で実現するための１つまたは複数のソフトウェアパッケージ、ソフトウェアライブラリ、ハードウェアドライバ、および／またはアプリケーションプログラムインターフェース（ＡＰＩ）を含んでいてもよい。アプリケーションエンジン４４０による制御に応答して、レンダリングエンジン４２２は、ＨＭＤ１１２のアプリケーションエンジン３４０によってユーザに表示する３Ｄ人工現実感コンテンツを生成する。

アプリケーションエンジン４４０およびレンダリングエンジン４２２は、姿勢トラッカ３２６による決定の通り、参照フレーム内のＨＭＤ１１２に対する現在の姿勢情報（通常は、ＨＭＤ１１２の視点）に従って、ユーザ１１０に表示する人工コンテンツを構成することに関する機能を実行する。現在の視点に基づいて、レンダリングエンジン４２２は、３Ｄ人工現実感コンテンツを構成するが、これは場合により、ユーザ１１０の現実世界の３Ｄ環境に少なくとも一部が重なり得る。このプロセスにおいては、ＨＭＤ１１２上のセンサからのイメージデータ４３０、いくつかの例においては、外部カメラ等の外部センサからのデータ等、ＨＭＤ１１２から受信した検知データに対して姿勢トラッカ４２６が作用することにより、現実世界の環境内の３Ｄ情報（ユーザ１１０による運動等）および／またはユーザ１１０に関する特徴追跡情報を取り込む。検知データに基づいて、コンピュータシステム１２０は、１つまたは複数のＩ／Ｏインターフェース３１５、４１５を介してＨＭＤ１１２に送り、ユーザ１１０に表示する人工現実感コンテンツを構成する。いくつかの例において、アプリケーションエンジン４４０およびレンダリングエンジン４２２は、本開示の技術に係るマルチメディアクエリアプリケーションに対する１つまたは複数のユーザインターフェースを生成およびレンダリングして表示することができる。たとえば、アプリケーションエンジン４４０およびレンダリングエンジン４２２は、転写および／または付加データを表示するユーザインターフェースを生成およびレンダリングして表示するようにしてもよい。

発話認識エンジン４４２は、（図３の発話認識エンジン３４２を参照して上述した通り）ＨＭＤ１１２から受信したオーディオデータ４３２中の１つまたは複数の発話セグメントの認識に関する機能を実行する。いくつかの例において、発話認識エンジン４４２は、オーディオデータ４３２中の１つまたは複数の発話セグメントを（たとえば、生のアナログデータとは別個に）格納する。発話セグメントには、１つまたは複数の発話単語を含み得る。たとえば、発話セグメントとしては、単一の単語、２つ以上の単語、あるいは句または完全な文が可能である。

話者識別器４４４は、発話認識エンジン４４２により認識された１つまたは複数の発話セグメントそれぞれと関連付けられた話者の識別に関する機能を実行する。たとえば、話者識別器４４４は、イメージデータ４３０中の口唇が動いている顔を検出して、話者または潜在的な話者を認識するように構成されていてもよい。別の例において、ＨＭＤ１１２のオーディオ取り込みシステム２０９は、ＨＭＤ１１２に対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよく、話者識別器４４４は、当該方向性情報およびイメージデータ４３０に基づいて、話者または潜在的な話者を識別するようにしてもよい（たとえば、話者識別器４４４は、発話セグメント「メアリーはどこ？」に関する方向性情報に基づいて、図１中の人１０１Ａを識別するようにしてもよい）。さらに別の例において、話者識別器４４４は、ユーザが注目している相手に基づいて（たとえば、ＨＭＤ１１２の視野に基づいて）、話者を識別することになる。

いくつかの例において、話者識別器４４４は、各発話セグメントのハッシュ値または埋め込み値を決定し、（たとえば、話者モデル４３４から）潜在的な話者モデルを取得し、ハッシュ値を潜在的な話者モデルと比較し、ハッシュ値に最も近い話者モデルを識別するようにしてもよい。話者識別器４４４は、ＨＭＤ１１２から受信した外部データ、イメージデータ４３０（たとえば、口唇が動いている検出した顔）、および／またはユーザ入力に基づいて、潜在的な話者モデルを識別するようにしてもよい。たとえば、話者識別器３４４は、カレンダ情報（たとえば、確認された会集招待者もしくは潜在的な会集招待者に関する情報）、ＨＭＤ１１２から受信したイメージデータ４３０において識別された１つもしくは複数の顔、場所情報（たとえば、他の人と関連付けられた人もしくは機器のＨＭＤ１１２に対する近接情報）、ならびに／またはユーザ入力により選択された潜在的な話者モデルに基づいて、潜在的な話者を識別するようにしてもよい。いくつかの例において、発話セグメントのハッシュ値と最も近い話者モデルとの差が閾値差以上である場合、話者識別器４４４は、ハッシュ値に基づいて新たな話者モデルを生成するとともに、この新たな話者モデルを発話セグメントに関連付けるようにしてもよい。いくつかの例において、発話セグメントのハッシュ値と最も近い話者モデルとの差が閾値差未満である場合、話者識別器４４４は、最も近い話者モデルと関連付けられた話者を発話セグメントの話者として識別する。いくつかの例において、話者モデル４３４は、さまざまな話者のハッシュ値を含んでいてもよい。

いくつかの例において、話者識別器４４４は、ＨＭＤ１１２のユーザによる発話セグメントを識別するように構成されていてもよい。たとえば、話者識別器４４４は、ＨＭＤ１１２のユーザ（たとえば、ユーザ１１０）に固有の話者モデルを適用して、ユーザと関連付けられた１つまたは複数の発話セグメントを識別するようにしてもよい（たとえば、発話セグメントの属性がユーザ話者モデルに類似することに基づいて、ユーザ１１０による発話セグメントを識別するようにしてもよい）。

図３に関して上述した発話転写器３４６と同様に、発話転写器４４６は、発話認識エンジン４４２により認識された発話セグメントの転写に関する機能を実行する。たとえば、発話転写器４４６は、話者識別器４４４により識別された１人または複数人の話者の指定とともに、発話認識エンジン４４２により認識された１つまたは複数の発話セグメントのテキスト出力を生成し、このテキスト出力を転写４３６に格納する。いくつかの例において、発話転写器３４６は、話者識別器４４４により識別されたＨＭＤ１１２のユーザによる１つまたは複数の発話セグメントのテキスト出力のみを生成する。いくつかの例において、発話処理エンジン４４１は、テキスト出力をＨＭＤ１１２に送信する。

音声アシスタントアプリケーション４４８は、転写を解析して、転写に由来する付加データを生成することに関する機能を実行する。たとえば、音声アシスタントアプリケーション４４８は、転写において記載された会集もしくはイベントのカレンダ招待（たとえば、発話セグメント「金曜日の朝一番にもう一度タッチベースしよう」に対応）、転写において識別されたトピックと関連する情報（たとえば、図１Ａに示すように、会集招待者が会集の招待を断ったことの通知、相互作用に存在しない人への通知）、または転写において識別されたタスクを含むタスクリスト（たとえば、発話セグメント「会集後に先月の営業報告書を送ってください」に対応するタスク項目）等の付加データを生成するようにしてもよい。いくつかの例において、音声アシスタントアプリケーション４４８は、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語（たとえば、「えーと」、「うーん」、「えー」、「まあ」等）に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を生成するようにしてもよい。また、音声アシスタントアプリケーション４４８は、複数人の話者のうちの少なくとも１人と関連付けられた発話セグメントの修正版を生成するようにしてもよい。たとえば、音声アシスタントアプリケーション３４８は、１人または複数人の話者の音声が別の音声（たとえば、漫画の音声または有名人の音声）で置き換えられたオーディオまたはビデオファイルを生成するようにしてもよいし、オーディオまたはビデオファイル中の１つまたは複数の発話セグメントの言語を置き換えるようにしてもよい。いくつかの例において、発話処理エンジン４４１は、付加データをＨＭＤ１１２に送信する。

図３に関して上述した話者モデル３３４と同様に、話者モデル４３４は、さまざまなＡＩ／ＭＬモデルを含み得る。これらのＡＩ／ＭＬモデルは、オーディオデータを処理して、発話セグメントの認識および／または発話セグメントの話者の識別を行うようにトレーニングされていてもよい。たとえば、これらのＡＩ／ＭＬモデルは、オーディオデータ４３２中の発話および／または特定の音声を認識するようにトレーニングされていてもよい。いくつかの例において、これらのＡＩ／ＭＬモデルは、イメージデータ中の潜在的な話者を識別するようにトレーニングされていてもよい。たとえば、これらのＡＩ／ＭＬモデルは、イメージデータ４３０中の人（たとえば、顔）および／または動いている口唇を認識するようにトレーニングされていてもよい。いくつかの例において、話者モデル３３４は、１人もしくは複数人のユーザに対する一組の発話データならびに／または１人もしくは複数人のユーザに対応する一組のイメージでトレーニングされていてもよい。いくつかの例において、ＡＩ／ＭＬモデルは、（たとえば、Ｉ／Ｏインターフェース４１５を介して）ユーザからのトレーニングフィードバックを受け、話者識別決定を調整するようにしてもよい。また、話者モデル３３４は、話者識別器３４４により自動生成された話者識別子、名称、もしくはラベル（たとえば、「話者１」、「話者２」等）、または、Ｉ／Ｏインターフェース４１５を介してユーザにより手動入力された話者識別子、名称、もしくはラベル（たとえば、「ジャック」、「スティーブ」、「ボス」等）を含んでいてもよい。いくつかの例において、話者モデル３３４はそれぞれ、話者の１つもしくは複数のイメージならびに／または話者の顔のハッシュ値を含んでいてもよい。

いくつかの例において、転写システム１０６は、２つ以上のＨＭＤ（たとえば、図１ＢのＨＭＤ１１２）からオーディオおよび／またはイメージデータを受信する。いくつかの例において、各ＨＭＤは、同じ物理環境または（たとえば、図１Ｂに示すように）異なる物理環境のオーディオおよび／またはイメージデータを送信するようにしてもよい。２つ以上の異なるソースからの同じ環境に関するオーディオおよび／またはイメージデータを取り込むことにより、より多くの情報を取り込み可能となる。たとえば、２つ以上の異なる視点からのイメージデータが取り込まれるようになっていてもよいし、環境の２つの異なる点からのオーディオデータが取り込まれるようになっていてもよく、これによって、異なる音を取り込み可能となり得る。いくつかの例において、転写システム１０６は、すべてのＨＭＤから受信したデータにより、単一の転写を生成する。

図５は、本開示の技術に係る、図１Ｃのシステムのコンピュータ機器１２０の例示的なインスタンスによって発話転写が実行される例示的な実施態様を示したブロック図である。図５の例において、コンピュータ機器１２０は、図３のＨＭＤ１１２を参照して上述した通り、イメージおよびオーディオデータの取り込み、話者の識別、転写、および解析動作を実行する。

本例において、コンピュータ機器１２０は、いくつかの例においてオペレーティングシステム５０５（たとえば、埋め込み型リアルタイムマルチタスクオペレーティングシステムであってもよいし、他種のオペレーティングシステムであってもよい）を実行するコンピュータプラットフォームを提供する１つまたは複数のプロセッサ５０２およびメモリ５０４を具備する。一方、オペレーティングシステム５０５は、１つまたは複数のソフトウェアコンポーネント５１７を実行するマルチタスク動作環境を提供する。プロセッサ５０２は、キーボード、マウス、ゲームコントローラ、表示装置、イメージ取り込み機器、他のＨＭＤ等の他の機器と通信するためのＩ／Ｏインターフェースを提供する１つまたは複数のＩ／Ｏインターフェース５１５に結合されている。さらに、１つまたは複数のＩ／Ｏインターフェース５１５は、ネットワーク１０４等のネットワークと通信するための１つまたは複数の有線または無線ネットワークインターフェースコントローラ（ＮＩＣ）を具備していてもよい。また、プロセッサ５０２は、電子ディスプレイ５０３、イメージ取り込みシステム５０８、およびオーディオ取り込みシステム５０９に結合されている。イメージ取り込みシステム２０８およびオーディオ取り込みシステム２０９は、イメージデータおよびオーディオデータをそれぞれ取得するように構成されている。

図５のコンピュータ機器１２０は、単一のコンピュータ機器として示しており、携帯電話、タブレット、スマートウォッチ、ゲームコンソール、ワークステーション、デスクトップコンピュータ、ラップトップ、または他のコンピュータ機器に対応していてもよい。他の例において、コンピュータ機器１２０は、分散コンピュータネットワーク、データセンタ、またはクラウドコンピュータシステム等、複数のコンピュータ機器に分散していてもよい。

コンピュータシステムのソフトウェアアプリケーション５１７は、転写アプリケーションを提供するように動作する。図３および図４それぞれのソフトウェアアプリケーション３１７および４１７と同様に、ソフトウェアアプリケーション５１７は、レンダリングエンジン５２２、アプリケーションエンジン５４０、発話処理エンジン５４１、イメージデータ５３０、オーディオデータ５３２、話者モデル５３４、および転写５３６を含む。図３および図４それぞれの発話処理エンジン３４１および４４１と同様に、発話処理エンジン５４１は、発話認識エンジン５４２、話者識別器５４４、発話転写器５４６、および音声アシスタントアプリケーション５４８を含む。

ＨＭＤ１１２が（たとえば、図３に関して上述した通り）オーディオおよび／またはイメージデータを処理するのと同様に、コンピュータシステム１２０は、オーディオおよび／またはイメージデータを取り込み、このオーディオおよび／またはイメージデータを転写システム１０６に送信し、転写システム１０６の発話認識エンジン４４１は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成する。

いくつかの例において、図５のコンピュータ機器１２０は単に、イメージデータ５３０およびオーディオデータ５３２を取り込んで、当該データを転写システム１０６に送信する。転写システム１０６は、（たとえば、図４に関して上述した通り）ＨＭＤ１１２から受信したオーディオおよび／またはイメージデータを処理して、オーディオデータに含まれる発話セグメント中の１人または複数人の話者の指定を含む転写を生成するとともに、転写に由来する付加データから付加データを生成するのと同様に、コンピュータ機器１２０から受信したオーディオおよび／またはイメージデータを処理する。

いくつかの例において、転写システム１０６は、図４のＨＭＤ１１２および図５のコンピュータ機器１２０の両者からオーディオおよび／またはイメージデータを受信する。いくつかの例において、ＨＭＤ１１２およびコンピュータ機器１２０は、同じ物理環境または異なる物理環境のオーディオおよび／またはイメージデータを送信するようにしてもよい。２つ以上の異なるソースからの同じ環境に関するオーディオおよび／またはイメージデータを取り込むことにより、より多くの情報を取り込み可能となる。たとえば、２つ以上の異なる視点からのイメージデータが取り込まれるようになっていてもよいし、環境の２つの異なる点からのオーディオデータが取り込まれるようになっていてもよく、これによって、異なる音を取り込み可能となり得る。いくつかの例において、転写システム１０６は、コンピュータ機器１２０からのデータを処理するのと同一または同様に、ＨＭＤ１１２からのデータを処理し（その逆もまた同様）、ＨＭＤ１１２およびコンピュータ機器１２０から受信したデータにより、単一の転写を生成する。

図６は、本開示の態様に係る、発話を転写して解析する方法の例示的な動作を示したフローチャート６００である。いくつかの例においては、図６に示す１つまたは複数の動作がＨＭＤ１１２、コンピュータ機器１２０、および／または転写システム１０６により実行されるようになっていてもよい。

ＨＭＤ１１２のオーディオ取り込みシステム２０９およびイメージ取り込みシステム２０８ならびに／またはコンピュータ機器１２０のオーディオ取り込みシステム５０９およびイメージ取り込みシステム５０８は、オーディオおよびイメージデータを取り込む（６０２）。いくつかの例において、オーディオおよび／またはイメージデータは、自動または手動で取り込まれる。たとえば、ＨＭＤ１１２および／またはコンピュータシステム１２０のオーディオおよび／またはイメージ取り込みシステムは、電源オンとなった場合にいつも、オーディオおよび／またはイメージデータを取り込むように構成されていてもよい。いくつかの例において、ＨＭＤ１１２のマルチメディア取り込みシステム１３８および／またはコンピュータシステム１３０のマルチメディアシステム１３８は、データ取り込みを開始するユーザ入力ならびに／または転写、仮想会議、もしくは音声アシスタントアプリケーションの開始に応答して、マルチメディアデータを取り込むように構成されていてもよい。いくつかの例において、ＨＭＤ１１２および／またはコンピュータ機器１２０は、（たとえば、リアルタイム、ほぼリアルタイム、または相互作用が完了した後に）オーディオおよび／またはイメージデータを転写システム１０６に送信するようにしてもよい。

発話処理エンジン３４１、４４１、または５４１は、イメージデータを用いてオーディオデータを転写する（６０４）。たとえば、発話処理エンジン３４１、４４１、または５４１は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成するようにしてもよい。

その後、音声アシスタントアプリケーション３４８、４４８、または５４８は、転写を解析して、転写に由来する付加データを生成する（６０６）。たとえば、音声アシスタントアプリケーション３４８、４４８、または５４８は、転写において記載された会集もしくはイベントのカレンダ招待（たとえば、発話セグメント「金曜日の朝一番にもう一度タッチベースしよう」に対応）、転写において識別されたトピックと関連する情報（たとえば、図１Ａに示すように、会集招待者が会集の招待を断ったことの通知、相互作用に存在しない人への通知）、または転写において識別されたタスクを含むタスクリスト（たとえば、発話セグメント「会集後に先月の営業報告書を送ってください」に対応するタスク項目）等の付加データを生成するようにしてもよい。

いくつかの例において、付加データは、（たとえば、セグメントまたは転写全体につき）話者が発話する単語の数、話者の口調、話者が使用するつなぎ語（たとえば、「えーと」、「うーん」、「えー」、「まあ」等）に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を含んでいてもよい。また、音声アシスタントアプリケーション３４８、４４８、または５４８は、複数人の話者のうちの少なくとも１人と関連付けられた発話セグメントの修正版を生成するようにしてもよい。たとえば、音声アシスタントアプリケーション３４８、４４８、または５４８は、１人または複数人の話者の音声が別の音声（たとえば、漫画の音声または有名人の音声）で置き換えられたオーディオまたはビデオファイルを生成するようにしてもよいし、オーディオまたはビデオファイル中の１つまたは複数の発話セグメントの言語を置き換えるようにしてもよい。いくつかの例において、音声アシスタントアプリケーション３４８、４４８、または５４８は、リアルタイム（たとえば、オーディオおよびイメージデータが取り込まれた際）、ほぼリアルタイム、相互作用が完了した後、またはＨＭＤ１１２もしくはコンピュータ機器１２０がイメージまたはイメージデータの取り込みを停止した後に、転写を解析する。

図７は、本開示の技術に係る、オーディオデータ７０２および転写７０６を示している。図７に示す例において、オーディオデータ７０２は、ＨＭＤ１１２のオーディオ取り込みシステム２０９またはコンピュータ機器１２０のオーディオ取り込みシステム５０９により取り込まれたアナログデータに対応する。発話認識エンジン３４２、４４２、または５５２は、オーディオデータ７０２中の発話セグメント７０４Ａ、７０４Ｂ、７０４Ｃ（併せて、「発話セグメント７０４」）を認識して、対応する転写発話セグメント７０６Ａ、７０６Ｂ、および７０６Ｃ（併せて、「転写７０６」）を生成する。発話セグメント７０４はそれぞれ、完全な文を含む一方、１つまたは複数の単語を含んでいてもよい。たとえば、発話セグメントは、必ずしも完全な文を含まず、単語または句を１つだけ含んでいてもよい。いくつかの例において、発話認識エンジン３４２、４４２、または５５２は、１つまたは複数の単語を組み合わせて、図７に示すような完全な文を含む発話セグメントを構成するようにしてもよい。

図７に示す例において、話者識別器３４４、４４４、または５４４は、（たとえば、図３～図５を参照して上述した通り、話者モデルおよび／またはイメージデータに基づいて）「話者１」を発話セグメント７０６Ａおよび７０６Ｂの話者として識別し、「話者２」を発話セグメント７０６Ｃの話者として識別する。いくつかの例において、ラベルまたは識別子「話者１」および「話者２」（結果としての転写に挿入される）は、話者識別器３４４、４４４、または５４４により自動生成されるようになっていてもよい。他の例において、これらの識別子またはラベルは、ユーザにより手動入力されるようになっていてもよいし、名称（たとえば、「ジャック」、「スティーブ」、「ボス」等）を含んでいてもよい。いずれにせよ、これらのラベル、識別子、または名称は、転写において、発話セグメントのソースである話者を指定し得る。

いくつかの例において、音声アシスタントアプリケーション３４８、４４８、または５４８は、転写７０６を解析して、付加データを生成するようにしてもよい。たとえば、音声アシスタントアプリケーション３４８、４４８、または５４８は、通知（たとえば、図１Ａに示すような「メアリーは会集の招待を断った」という通知）を生成するようにしてもよい。いくつかの例において、付加データは、（たとえば、セグメントまたは転写全体につき）話者が発話する単語の数、話者の口調、話者が使用するつなぎ語（たとえば、「えーと」、「うーん」、「えー」、「まあ」等）に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を含んでいてもよい。別の例において、音声アシスタントアプリケーション３４８、４４８、または５４８は、話者１および／または話者２の音声が別の音声（たとえば、漫画の音声または有名人の音声）で置き換えられたオーディオまたはビデオデータを生成するようにしてもよいし、オーディオまたはビデオファイル中のいずれかの発話セグメント７０４の言語を置き換えるようにしてもよい。

図８は、本開示の態様に係る、発話を転写する方法の例示的な動作を示したフローチャート８００である。フローチャート８００は、図６のフローチャート６００の要素６０４で発話処理エンジン３４１、４４１、または５４１により実行される機能の一例である。

まず、発話認識エンジン３４２、４４２、または５４２は、オーディオデータ（たとえば、オーディオデータ３３２、４３２、５３２、または７０２）中の１つまたは複数の発話セグメントを認識する（８０２）。たとえば、発話認識エンジン３４２、４４２、または５４２は、アナログ－デジタル変換器（ＡＤＣ）を用いてアナログオーディオデータ７０２をデジタルデータに変換し、デジタル化オーディオデータ中のノイズをフィルタリングし、フィルタリングしたデジタル化オーディオデータに１つまたは複数の統計モデル（たとえば、隠れマルコフモデルまたはニューラルネットワーク）を適用して、図７の発話セグメント７０６Ａを認識するようにしてもよい。いくつかの例において、発話認識エンジン３４２、４４２、または５４２は、１人または複数人の特定のユーザ（たとえば、図１Ａ～図１Ｃのユーザ１１０）の発話を認識するようにトレーニングされたＡＩ／ＭＬモデルをオーディオデータ７０２に適用するようにしてもよい。たとえば、発話認識エンジン３４２、４４２、または５４２は、ＨＭＤ１１２のユーザ（ユーザ１１０）の発話のみを認識するようにトレーニングされたＡＩ／ＭＬモデルを適用するようにしてもよい。いくつかの例において、ＡＩ／ＭＬモデルは、ユーザからのトレーニングフィードバックを受け、発話認識決定を調整するようにしてもよい。いくつかの例において、発話認識エンジン３４２、４４２、または５４２は、イメージデータ３３０、４３０、または５３０に基づいて、オーディオデータ３３２、４３２、または５３２中の１つまたは複数の発話セグメントを認識するようにしてもよい。たとえば、発話認識エンジン３４２、４４２、または５４２は、イメージデータ中の口唇が動いている顔を検出して、発話セグメント（たとえば、発話セグメントの開始および終了）を認識するように構成されていてもよい。

話者識別器３４４、４４４、または５４４は、認識された発話セグメントと関連付けられた話者を識別する（８０４）。たとえば、話者識別器３４４、４４４、または５４４は、図７の発話セグメント７０４Ａの音の強さ（たとえば、声量）に基づいて、話者１をセグメント７０４Ａの話者として識別するようにしてもよい（たとえば、音の強さは、図１ＢのＨＭＤ１１２Ａのユーザからの発話に対してより大きくなる）。別の例において、話者識別器３４４、４４４、または５４４は、ＨＭＤ１１２のイメージ取り込みシステム２０８および／またはコンピュータ機器１２０のイメージ取り込みシステム５０８により取り込まれたイメージデータを用いて、話者２を図７のセグメント７０４Ｃの話者として識別するようにしてもよい。たとえば、話者識別器３４４、４４４、または５４４は、イメージデータ３３０、４３０、または５３０中の口唇が動いている顔を検出して話者を識別するように構成されていてもよく、また、口唇が動いている検出した顔および／またはイメージデータの焦点（たとえば、ユーザ１１０が話者を見ていることを示唆する）に基づいて、話者を識別するようにしてもよい。別の例において、ＨＭＤ１１２またはコンピュータシステム１２０それぞれのオーディオ取り込みシステム２０９または５０９は、ＨＭＤ１１２またはコンピュータ機器１２０それぞれに対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよく、話者識別器３４４、４４４、または５４４は、当該方向性情報ならびにイメージデータ３３０、４３０、もしくは５３０に基づいて、話者または潜在的な話者を識別するようにしてもよい。

話者識別器３４４、４４４、または５４４は、認識された発話セグメントに話者識別子をタグ付けする（８０６）。たとえば、話者識別器３４４、４４４、または５４４は、図７の発話セグメント７０４Ａに識別子「話者１」をタグ付けする。図７に関して上述した通り、いくつかの例において、話者識別器３４４、４４４、または５４４は、転写７０６に含める識別子「話者１」を自動的に生成する。他の例においては、ユーザ、管理者、または他のソースが１つまたは複数のセグメントの識別子、ラベル、または名称を入力する。これらのラベル、識別子、または名称は、転写において、発話セグメントの話者を指定し得る。

発話転写器３４６、４４６、または５４６は、発話認識エンジン３４２、４４２、または５４２により認識された発話セグメントを転写する（８０８）。たとえば、発話転写器３４６、４４６、または５４６は、図７のセグメント７０４Ａに対するテキスト出力７０６Ａを生成する。発話処理エンジン３４１、４４１、または５４１は次に、発話認識エンジン３４２、４４２、または５４２がオーディオデータ（たとえば、オーディオデータ３３２、４３２、５３２、または７０２）中の１つまたは複数の別の発話セグメントを認識したかを判定する（８１０）。発話認識エンジン３４２、４４２、または５４２が１つまたは複数の別の発話セグメントを認識した場合は（８１０の「はい」分岐）、要素８０４～８１０が繰り返される。たとえば、発話認識エンジン３４２、４４２、または５４２が発話セグメント７０４Ｂを認識すると（８０２）、話者識別器３４４、４４４、または５４４が話者１を発話セグメント７０４Ｂの話者として識別し（８０４）、話者１が話者である旨の指定を発話セグメント７０４Ｂにタグ付けし、発話転写器３４６、４４６、または５４６が発話セグメント７０４Ｂを転写する。このプロセスは、別の発話セグメントが認識されなくなる（たとえば、相互作用が終了となるか、オーディオ／イメージデータが取り込まれなくなるか、または全オーディオデータの処理か完了する）まで継続し（８１０の「いいえ」分岐）、転写が完了となる（８１２）（たとえば、図６においてフローチャート６００が６０６に継続し得る）。

いくつかの例において、フローチャート８００では、２つ以上のソース（たとえば、
２つ以上のＨＭＤ１１２および／またはコンピュータ機器１２０）から受信したオーディオおよび／またはイメージデータ（たとえば、オーディオおよび／またはビデオストリームまたはファイル）を処理する。当該例においては、フローチャート８００の動作がオーディオデータストリームまたはファイルごとに繰り返されるようになっていてもよい。いくつかの例において、フローチャート８００では、各オーディオデータストリームまたはファイルの転写を組み合わせて、転写中の各発話セグメントの話者の指定を含む単一の完全転写を生成することになる。たとえば、フローチャート８００では、各オーディオデータファイルまたはストリームからのタイムスタンプを用いて、転写を組み合わせるようにしてもよい。

図９は、本開示の態様に係る、発話セグメントの話者を識別する方法の例示的な動作を示したフローチャート９００である。フローチャート９００は、図８のフローチャート８００の要素８０４で話者識別器３４４、４４４、または５４４により実行される機能の一例である。

話者識別器３４４、４４４、５４４は、発話セグメントの発話セグメントハッシュ値を決定するようにしてもよい（９０２）。たとえば、発話処理エンジン３４１、４４１、または５４１は、認識された各発話セグメントを別個のファイル（たとえば、一時ファイル）に格納するようにしてもよい。これらのファイルには、アナログオーディオデータまたは（たとえば、発話以外のノイズがフィルタリングされた）オーディオデータのデジタル化版を含み得る。話者識別器は、これら個々のファイルにハッシュ関数を適用して、各発話セグメントの発話セグメントハッシュ値を決定するようにしてもよい。話者識別器３４４、４４４、５４４は、話者モデル３３４、４３４、または５３４から潜在的な話者モデルを取得し（９０４）、潜在的な話者モデルのハッシュ値に対して、発話セグメントハッシュ値を比較するようにしてもよい（９０６）。話者識別器３４４、４４４、５４４は、ハッシュ値が発話セグメントハッシュ値に最も近い話者モデルを識別する（９０８）。

発話セグメントハッシュ値と最も近い話者モデルとの差が閾値差以上である場合（９１０の「いいえ」分岐）、話者識別器３４４、４４４、または５４４は、発話セグメントハッシュ値に基づいて、新たな話者モデルを生成するようにしてもよい（９１６）。たとえば、話者識別器３４４、４４４、または５４４は、発話セグメントハッシュ値に対して新たな話者識別子（ＩＤ）を決定し、この新たな話者ＩＤおよび発話セグメントハッシュ値を新たな話者モデルとして話者モデル３３４、４３４、または５３４に格納することになる。そして、話者識別器３４４、４４４、または５４４は、この新たな話者ＩＤを発話セグメントの話者として返すことになる（９１８）（たとえば、図８においては、新たな話者ＩＤでフローチャート８００が８０６に継続し得る）。

発話セグメントの発話セグメントハッシュ値と最も近い話者モデルのハッシュ値との差が閾値差未満である場合（９１０の「はい」分岐）、話者識別器３４４、４４４、または５４４は、発話セグメントハッシュ値に基づいて、最も近い話者モデルを更新する（９１２）。たとえば、最も近い話者モデルのハッシュ値は、当該話者と関連付けられたすべての発話セグメントの平均ハッシュ値を含んでいてもよく、話者識別器３４４、４４４、または５４４は、発話セグメントハッシュ値を当該平均に組み込むようにしてもよい。そして、話者識別器３４４、４４４、または５４４は、最も近い話者モデルの話者ＩＤを発話セグメントの話者として返すことになる（９１４）（たとえば、図８においては、最も近い話者モデルと関連付けられた話者ＩＤでフローチャート８００が８０６に継続し得る）。

図１０は、本開示の態様に係る、潜在的な話者モデルを識別する方法の例示的な動作を示したフローチャート１０００である。フローチャート１０００は、図９のフローチャート９００の要素９０４で話者識別器３４４、４４４、または５４４により実行される機能の一例である。

話者識別器３４４、４４４、または５４４は、多くの入力に基づいて、潜在的な話者モデルを識別するようにしてもよい（１０１０）。たとえば、話者識別器３４４、４４４、または５４４は、外部データを取得し（１００２）、当該外部データを処理して、１つまたは複数の潜在的な話者モデルを識別するようにしてもよい（１０１０）。いくつかの例において、外部データは、１人または複数人のユーザの場所情報（たとえば、ＧＰＳ座標）を含んでいてもよい。たとえば、話者識別器３４４、４４４、または５４４は、ＨＭＤ１１２またはコンピュータ機器１２０の近傍（たとえば、５０フィート以内）の１人または複数人のユーザ（あるいは、１人または複数人のユーザと関連付けられた機器）を決定し、当該情報を用いて、（たとえば、話者モデル３３４、４３４、または５３４から）これらのユーザ／機器と関連付けられた話者モデルを得るようにしてもよい。いくつかの例において、外部情報は、会集の招待者情報、会集の場所情報、および各招待者が会集に参加する予定であるかの表示等、カレンダ情報を含み得る。いくつかの例において、話者識別器３４４、４４４、または５４４は、カレンダ情報中のすべての招待者に対応する話者モデルを識別することになる。他の例において、話者識別器３４４、４４４、または５４４は、会集に参加する予定であるカレンダ情報中のすべての招待者に対応する話者モデルを識別することになる。

いくつかの例において、話者識別器３４４、４４４、または５４４は、イメージデータを取得し（１００４）、当該イメージデータを処理して、１つまたは複数の潜在的な話者モデルを識別するようにしてもよい（１０１０）。たとえば、話者識別器３４４、４４４、または５４４は、イメージデータ中の顔を検出し、（たとえば、話者モデル３３４、４３４、または５３４から）検出した顔と関連付けられた話者モデルを識別するように構成されていてもよい。他の例において、話者識別器３４４、４４４、または５４４は、オーディオデータにおいて認識された発話セグメントに対応するイメージデータ中の口唇が動いている顔を検出し、（たとえば、話者モデル３３４、４３４、または５３４から）検出した口唇が動いている顔と関連付けられた話者モデルを識別するように構成されていてもよい。いくつかの例において、話者識別器３４４、４４４、または５４４は、イメージ中の顔および／または口唇が動いている顔を識別するようにトレーニングされたＡＩ／ＭＬモデルをイメージデータに適用するようにしてもよい。別の例において、ＨＭＤ１１２またはコンピュータシステム１２０それぞれのオーディオ取り込みシステム２０９または５０９は、ＨＭＤ１１２またはコンピュータ機器１２０それぞれに対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよく、話者識別器３４４、４４４、または５４４は、当該方向性情報およびイメージデータにおいて検出された顔に基づいて、話者または潜在的な話者を識別するようにしてもよい。たとえば、話者識別器３４４、４４４、または５４４は、図７の発話セグメント７０４に関する方向性情報および図１Ｃ中の人１０１Ａの顔に対する当該方向性の対応に基づいて、話者２を発話セグメント７０４Ｃの話者として識別するようにしてもよい。さらに別の例において、話者識別器３４４、４４４、または５４４は、ユーザが注目している相手に基づいて（たとえば、ＨＭＤ１１２の視野に基づいて）、話者を識別することになる。

いくつかの例において、話者識別器３４４、４４４、または５４４は、ユーザ入力を受け付け（１００６）、当該ユーザ入力を処理して、１つまたは複数の潜在的な話者モデルを識別するようにしてもよい（１０１０）。たとえば、話者または話者モデル（たとえば、話者モデル３３４、４３４、または５３４）を識別するようにしてもよい。他の例においては、外部データまたはイメージデータに基づいて識別された潜在的な話者モデルをユーザが確認するようにしてもよい。

図１１は、本開示の態様に係る、分散機器に対して発話を転写する方法の例示的な動作を示したフローチャート１１００である。いくつかの例においては、図１１に示す１つまたは複数の動作がＨＭＤ１１２、コンピュータ機器１２０、および／または転写システム１０６により実行されるようになっていてもよい。

ＨＭＤ１１２のオーディオ取り込みシステム２０９およびイメージ取り込みシステム２０８ならびに／またはコンピュータ機器１２０のオーディオ取り込みシステム５０９およびイメージ取り込みシステム５０８は、オーディオおよびイメージデータを取り込む（１１０２）。たとえば、２つ以上のＨＭＤ１１２および／またはコンピュータ機器１２０が（たとえば、同じ物理環境または異なる物理環境から）オーディオおよび／またはイメージデータを取り込むようにしてもよい。

発話処理エンジン３４１、４４１、または５４１は、ユーザ話者モデル（たとえば、機器のユーザに固有の話者モデル）を用いて機器ごとに、イメージデータを用いてオーディオデータを転写する（１１０４）。たとえば、図１Ｂにおいては、ＨＭＤ１１２Ａの発話処理エンジンが（たとえば、ユーザ１１０に固有の話者モデルを用いて）ユーザ１１０に対応する発話セグメントを転写し、ＨＭＤ１１２Ｂの発話処理エンジンが（たとえば、ユーザ１０１Ａに固有の話者モデルを用いて）ユーザ１０１Ａに対応する発話セグメントを転写し、ＨＭＤ１１２Ｃの発話処理エンジンが（たとえば、ユーザ１０２Ａに固有の話者モデルを用いて）ユーザ１０２Ａに対応する発話セグメントを転写する。いくつかの例において、ユーザは、ＨＭＤ１１２またはコンピュータ機器１２０にログインするか、あるいは、自身をユーザとして識別する。他の例において、ＨＭＤ１１２またはコンピュータ機器１２０は、（たとえば、上述の音声および／または顔認識技術を用いて）ユーザを自動的に識別する。たとえば、発話処理エンジン３４１、４４１、または５４１は、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成する。いくつかの例においては、図１ＣのＨＭＤ１１２Ａ、１１２Ｂ、および／または１１２Ｃのいずれかがオーディオおよびイメージデータを取り込み、（たとえば、図４に関して上述した通り）当該オーディオおよびイメージデータを転写システム１０６に送信して転写を行うようにしてもよい。たとえば、転写システム１０６は、図１ＣのＨＭＤ１１２Ａ、１１２Ｂ、および／または１１２Ｃのうちの１つまたは複数からオーディオおよびイメージデータを受信し、機器ごとにオーディオデータを転写するようにしてもよい。

その後、発話処理エンジン３４１、４４１、または５４１は、２つ以上のＨＭＤ１１２および／またはコンピュータ機器１２０により取り込まれたオーディオデータ中の発話セグメントに対応する転写すべてを組み合わせて、各転写発話セグメントと関連付けられた話者／ユーザの指定を含む１つの完全転写を生成する。たとえば、ＨＭＤ１１２Ａ、１１２Ｂ、および１１２Ｃはそれぞれ、ユーザ１１０、１０１Ａ、および１０２Ａから取り込まれた発話の個々の転写をそれぞれ、転写システム１０６に送信するようにしてもよく、転写システム１０６が個々の転写を組み合わせることになる。別の例において、ＨＭＤ１１２Ｂおよび１１２Ｃは、ユーザ１０１Ａおよび１０２Ａから取り込まれた発話の個々の転写をそれぞれ、ＨＭＤ１１２Ａに送信するようにしてもよく、ＨＭＤ１１２Ａが個々の転写を組み合わせることになる。その後、いくつかの例において、音声アシスタントアプリケーション３４８、４４８、または５４８は、任意選択として個々の転写および／または完全転写を解析し、（図６に関して上述した通り）転写に由来する付加データを生成する。

本開示に記載の技術は、少なくとも一部がハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせにて実装されていてもよい。たとえば、１つまたは複数のマイクロプロセッサ、ＤＳＰ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマグルゲートアレイ（ＦＰＧＡ）、またはその他任意同等の集積もしくは個別論理回路のほか、このようなコンポーネントの任意の組み合わせ等、１つまたは複数のプロセッサにおいて、上記技術の種々態様が実装されていてもよい。用語「プロセッサ（ｐｒｏｃｅｓｓｏｒ）」または「処理回路（ｐｒｏｃｅｓｓｉｎｇｃｉｒｃｕｉｔｒｙ）」は一般的に、上記論理回路のいずれか（単独もしくは他の論理回路との組み合わせ）またはその他任意同等の回路を表す。また、ハードウェアで構成される制御ユニットが本開示の技術のうちの１つまたは複数を実行するようになっていてもよい。

上記のようなハードウェア、ソフトウェア、およびファームウェアは、同じ機器または別個の機器内での実装により、本開示に記載のさまざまな動作および機能に対応していてもよい。また、上記ユニット、モジュール、またはコンポーネントのいずれもが個別ながら相互利用可能な論理デバイスとして、一体的または別個に実装されていてもよい。異なる機能をモジュールまたはユニットとして表すことは、異なる機能的側面の強調を意図しており、このようなモジュールまたはユニットを別個のハードウェアまたはソフトウェアコンポーネントにより実現する必要があることを必ずしも暗示しない。むしろ、１つまたは複数のモジュールまたはユニットと関連付けられた機能は、別個のハードウェアまたはソフトウェアコンポーネントにより実行されるようになっていてもよいし、共通または別個のハードウェアまたはソフトウェアコンポーネントに統合されていてもよい。

また、本開示に記載の技術は、命令を含むコンピュータ可読媒体（コンピュータ可読記憶媒体等）において具現化または符号化されていてもよい。コンピュータ可読記憶媒体に埋め込まれた命令または符号化された命令は、たとえば実行された場合に、プログラム可能なプロセッサまたは他のプロセッサに上記方法を実行させ得る。コンピュータ可読記憶媒体としては、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、プログラム可能リードオンリーメモリ（ＰＲＯＭ）、消去可能プログラム可能リードオンリーメモリ（ＥＰＲＯＭ）、電子的消去可能プログラム可能リードオンリーメモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、ハードディスク、ＣＤ－ＲＯＭ、フロッピーディスク、カセット、磁気媒体、光学媒体、または他のコンピュータ可読媒体が挙げられる。

本明細書で種々例として説明した通り、本開示の技術は、人工現実感システムを含んでいてもよいし、人工現実感システムと併せて実装されていてもよい。上述の通り、人工現実感は、ユーザへの提示前に何らかの調整がなされた現実感の形態であって、たとえば仮想現実感（ＶＲ）、拡張現実感（ＡＲ）、複合現実感（ＭＲ）、混成現実感、またはこれらの何らかの組み合わせおよび／もしくは派生物が挙げられる。人工現実感コンテンツとしては、完全生成コンテンツまたは取り込みコンテンツ（たとえば、現実世界の写真）と組み合わされた生成コンテンツが挙げられる。人工現実感コンテンツとしては、ビデオ、オーディオ、触覚フィードバック、またはこれらの何らかの組み合わせが挙げられ、これらのいずれもが単一のチャネルで提示されるようになっていてもよいし、複数のチャネル（視聴者に３次元効果を与える立体ビデオ等）で提示されるようになっていてもよい。また、いくつかの実施形態において、人工現実感は、たとえば人工現実感におけるコンテンツ生成のための使用および／または人工現実感における使用（たとえば、人工現実感における活動のための使用）がなされるアプリケーション、製品、付属品、サービス、またはこれらの何らかの組み合わせと関連付けられていてもよい。人工現実感コンテンツを提供する人工現実感システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ（ＨＭＤ）、独立型ＨＭＤ、モバイル機器もしくはコンピュータシステム、または人工現実感コンテンツを１人もしくは複数人の視聴者に提供可能なその他任意のハードウェアプラットフォーム等、さまざまなプラットフォーム上に実装されていてもよい。

特定の実施形態においては、コンピュータシステムの１つまたは複数のオブジェクト（たとえば、コンテンツまたは他種のオブジェクト）が１つまたは複数のプライバシ設定と関連付けられている場合がある。１つまたは複数のオブジェクトは、たとえばソーシャルネットワーキングシステム、クライアントシステム、サードパーティシステム、ソーシャルネットワーキングアプリケーション、メッセージングアプリケーション、写真共有アプリケーション、またはその他任意の好適なコンピュータシステムもしくはアプリケーション等、任意好適なコンピュータシステムまたはアプリケーションに格納されていてもよいし、あるいは、任意好適なコンピュータシステムまたはアプリケーションと関連付けられていてもよい。本明細書において論じる例は、オンラインソーシャルネットワークを背景とするが、これらのプライバシ設定は、その他任意の好適なコンピュータシステムに適用されていてもよい。オブジェクトのプライバシ設定（または、「アクセス設定」）は、たとえばオブジェクトとの関連、認証サーバ上のインデックス化、別の好適な様態、またはこれらの任意好適な組み合わせ等、任意好適な様態で格納されていてもよい。オブジェクトのプライバシ設定は、オブジェクト（または、オブジェクトと関連付けられた特定の情報）がオンラインソーシャルネットワーク内でアクセス、格納、あるいは使用（たとえば、閲覧、共有、修正、コピー、実行、表面化、または特定）可能となる様子を指定し得る。オブジェクトのプライバシ設定によって特定のユーザまたは他のエンティティが当該オブジェクトにアクセス可能となる場合、このオブジェクトは、当該ユーザまたは他のエンティティに対して「可視」と表され得る。非限定的な一例として、オンラインソーシャルネットワークのユーザは、ユーザプロファイルページ上の職務経歴情報にアクセスし得る一組のユーザを識別する当該ユーザプロファイルページのプライバシ設定を指定して、他のユーザの当該情報へのアクセスを除外するようにしてもよい。

特定の実施形態において、オブジェクトのプライバシ設定は、オブジェクトと関連付けられた特定の情報へのアクセスが許可されるべきではないユーザまたは他のエンティティの「ブロックリスト」を指定していてもよい。特定の実施形態において、ブロックリストには、サードパーティエンティティを含んでいてもよい。ブロックリストは、オブジェクトが可視とならない１人または複数人のユーザまたはエンティティを指定していてもよい。非限定的な一例として、ユーザは、当該ユーザと関連付けられた写真アルバムにアクセスできない一組のユーザを指定することにより、これらユーザの写真アルバムへのアクセスを除外するようにしてもよい（一方で、場合によっては、指定の一組のユーザに含まれない特定のユーザが写真アルバムにアクセスできるようにしてもよい）。特定の実施形態において、プライバシ設定は、特定のソーシャルグラフ要素と関連付けられていてもよい。ノードまたはエッジ等のソーシャルグラフ要素のプライバシ設定は、オンラインソーシャルネットワークを用いてソーシャルグラフ要素、当該ソーシャルグラフ要素と関連付けられた情報、または当該ソーシャルグラフ要素と関連付けられたオブジェクトにアクセス可能な方法を指定していてもよい。非限定的な一例として、特定の写真に対応する特定のコンセプトノードは、写真においてタグ付けされたユーザおよび写真においてタグ付けされたユーザの友達のみが当該写真にアクセス可能である旨を指定したプライバシ設定を有していてもよい。特定の実施形態において、プライバシ設定によれば、ユーザは、それぞれのコンテンツ、情報、もしくは行動のソーシャルネットワーキングシステムによる格納／記録または他のシステム（たとえば、サードパーティシステム）との共有をオプトイン可能であってもよいし、オプトアウト可能であってもよい。本開示は、特定の様態での特定のプライバシ設定の使用を記載するが、任意好適な様態での任意好適なプライバシ設定の使用も考えられる。

特定の実施形態において、プライバシ設定は、ソーシャルグラフの１つまたは複数のノードまたはエッジに基づいていてもよい。プライバシ設定は、ソーシャルグラフの１つまたは複数のエッジまたはエッジタイプに対して指定されていてもよいし、ソーシャルグラフの１つまたは複数のノードまたはノードタイプに関して指定されていてもよい。２つのノードを接続する特定のエッジに適用されたプライバシ設定は、ノードに対応する２つのエンティティ間の関係がオンラインソーシャルネットワーク上の他のユーザにとって可視であるかを管理していてもよい。同様に、特定のノードに適用されたプライバシ設定は、ノードに対応するユーザまたはコンセプトがオンラインソーシャルネットワーク上の他のユーザにとって可視であるかを管理していてもよい。非限定的な一例としては、第１のユーザがソーシャルネットワーキングシステムに対してオブジェクトを共有していてもよい。このオブジェクトは、エッジによって第１のユーザのユーザノードに接続されたコンセプトノードと関連付けられていてもよい。第１のユーザは、オブジェクトのコンセプトノードにつながる特定のエッジに適用されるプライバシ設定を指定するようにしてもよいし、コンセプトノードにつながるすべてのエッジに適用されるプライバシ設定を指定するようにしてもよい。非限定的な別の例として、第１のユーザは、特定のオブジェクトタイプの一組のオブジェクト（たとえば、一組のイメージ）を共有していてもよい。第１のユーザは、特定のプライバシ設定を有するものとして当該特定のオブジェクトタイプの第１のユーザと関連付けられたすべてのオブジェクトに関するプライバシ設定を指定するようにしてもよい（たとえば、第１のユーザにより投稿されたすべてのイメージが第１のユーザの友達および／またはイメージにおいてタグ付けされたユーザに対してのみ可視である旨を指定するようにしてもよい）。

特定の実施形態において、ソーシャルネットワーキングシステムは、（たとえば、ウェブページ、モジュール、１つもしくは複数のダイアログボックス、またはその他任意の好適なインターフェースにおいて）「プライバシウィザード」を第１のユーザに提示して、第１のユーザによる１つまたは複数のプライバシ設定の指定を補助するようにしてもよい。プライバシウィザードは、指示、好適なプライバシ関連情報、現在のプライバシ設定、プライバシ設定の変更もしくは確認を指定する第１のユーザからの１つもしくは複数の入力を受け付ける１つもしくは複数の入力フィールド、またはこれらの任意好適な組み合わせを表示していてもよい。特定の実施形態において、ソーシャルネットワーキングシステムは、第１のユーザの現在のプライバシ設定を第１のユーザに表示可能な「ダッシュボード」機能を第１のユーザに提供していてもよい。ダッシュボード機能は、任意適当なタイミングで（たとえば、ダッシュボード機能を求める第１のユーザからの入力後、特定のイベントまたはトリガ動作の発生後に）第１のユーザに表示されるようになっていてもよい。ダッシュボード機能によれば、第１のユーザは、当該第１のユーザの現在のプライバシ設定を任意のタイミングで任意好適な様態に修正可能となり得る（たとえば、第１のユーザをプライバシウィザードにリダイレクトする）。

オブジェクトと関連付けられたプライバシ設定は、アクセス許可またはアクセス拒否の任意好適な粒度を指定していてもよい。非限定的な一例として、アクセスまたはアクセス拒否は、特定のユーザ（たとえば、自身、自身のルームメイト、自身の上司のみ）、特定の分離範囲内のユーザ（たとえば、友達、友達の友達）、ユーザグループ（たとえば、ゲームクラブ、自身の家族）、ユーザネットワーク（たとえば、特定の雇用主の従業員、特定の大学の学生もしくは卒業生）、すべてのユーザ（「公開」）、ユーザ無し（「非公開」）、サードパーティシステム、特定のアプリケーション（たとえば、サードパーティアプリケーション、外部ウェブサイト）のユーザ、他の好適なエンティティ、またはこれらの任意好適な組み合わせに対して指定されていてもよい。本開示は、アクセス許可またはアクセス拒否の特定の粒度を記載するが、アクセス許可またはアクセス拒否の任意好適な粒度も考えられる。

特定の実施形態においては、１つまたは複数のサーバがプライバシ設定を行う認証／プライバシサーバであってもよい。データストアに格納された特定のオブジェクトに対するユーザ（または、他のエンティティ）からのリクエストに応答して、ソーシャルネットワーキングシステムは、当該オブジェクトに対するリクエストをデータストアに送信するようにしてもよい。このリクエストは、当該リクエストと関連付けられたユーザを識別していてもよく、オブジェクトと関連付けられたプライバシ設定に基づいて、ユーザが当該オブジェクトへのアクセスを許可されているものと認証サーバが判定した場合にのみ、オブジェクトがユーザ（または、ユーザのクライアントシステム）に送信されるようになっていてもよい。要求しているユーザがオブジェクトへのアクセスを許可されていない場合、認証サーバは、要求されたオブジェクトがデータストアから読み出されないようにしてもよいし、要求されたオブジェクトがユーザに送信されないようにしてもよい。検索クエリの背景においては、問い合わせているユーザがオブジェクトへのアクセスを許可されている場合（たとえば、オブジェクトのプライバシ設定によって、問い合わせているユーザへの表面化、発見、あるいは可視化が可能な場合）のみ、オブジェクトが検索結果として提供されるようになっていてもよい。特定の実施形態において、オブジェクトは、ユーザのニュースフィードを通じてユーザに可視化されているコンテンツを表していてもよい。非限定的な一例として、１つまたは複数のオブジェクトは、ユーザの「トレンド」ページに対して可視であってもよい。特定の実施形態においては、オブジェクトが特定のユーザに対応していてもよい。このオブジェクトは、特定のユーザと関連付けられたコンテンツであってもよいし、ソーシャルネットワーキングシステムまたは他のコンピュータシステムに格納された特定ユーザのアカウントまたは情報であってもよい。非限定的な一例として、第１のユーザは、オンラインソーシャルネットワークの「知り合いかも（ＰｅｏｐｌｅＹｏｕＭａｙＫｎｏｗ）」機能を通じて、または、第１のユーザの友達リストを見て、オンラインソーシャルネットワークの１人または複数人の第２のユーザを見る場合がある。非限定的な一例として、第１のユーザは、それぞれのニュースフィードまたは友達リストにおいて特定の第２のユーザと関連付けられたオブジェクトを見たくない旨を指定するようにしてもよい。オブジェクトのプライバシ設定によってユーザへの表面化、発見、または可視化が可能となっていない場合は、当該オブジェクトが検索結果から除外されるようになっていてもよい。本開示は、特定の様態でのプライバシ設定の実行を記載するが、任意好適な様態でのプライバシ設定の実行も考えられる。

特定の実施形態においては、ユーザと関連付けられた同じタイプの異なるオブジェクトが異なるプライバシ設定を有していてもよい。ユーザと関連付けられた異なるタイプのオブジェクトが異なるタイプのプライバシ設定を有していてもよい。非限定的な一例として、第１のユーザは、当該第１のユーザのステータス更新が公開されているものの、第１のユーザが共有するイメージについては、オンラインソーシャルネットワーク上の第１のユーザの友達に対してのみ可視化される旨を指定するようにしてもよい。非限定的な別の例として、ユーザは、個々のユーザ、友達の友達、フォロワ、ユーザグループ、または法人エンティティ等の異なるタイプのエンティティに対して、異なるプライバシ設定を指定するようにしてもよい。非限定的な別の例として、第１のユーザは、当該第１のユーザが投稿したビデオを閲覧可能なユーザグループを指定する一方、第１のユーザの雇用主にはビデオを閲覧させないようにしてもよい。特定の実施形態においては、異なるユーザグループまたはユーザ構成に対して異なるプライバシ設定が提供されていてもよい。非限定的な一例として、第１のユーザは、当該第１のユーザと同じ大学に通う他のユーザが第１のユーザの写真を閲覧可能な一方、第１のユーザの家族である他のユーザについては、同じ写真を閲覧できない旨を指定するようにしてもよい。

特定の実施形態において、ソーシャルネットワーキングシステムは、特定のオブジェクトタイプのオブジェクトごとに、１つまたは複数のデフォルトのプライバシ設定を提供していてもよい。デフォルトに設定されたオブジェクトのプライバシ設定は、オブジェクトと関連付けられたユーザにより変更されるようになっていてもよい。非限定的な一例として、第１のユーザにより投稿されたすべてのイメージは、第１のユーザの友達に対してのみ可視であるデフォルトのプライバシ設定を有していてもよく、特定のイメージに対して、第１のユーザは、友達および友達の友達に対して可視化されるように、当該イメージのプライバシ設定を変更するようにしてもよい。

特定の実施形態においては、プライバシ設定によって、ソーシャルネットワーキングシステムが如何なる目的でも、ユーザと関連付けられた特定のオブジェクトまたは情報を受信、収集、記録、または格納可能であるかを第１のユーザが（たとえば、オプトインではなくオプトアウトによって）指定可能であってもよい。特定の実施形態においては、プライバシ設定によって、ユーザと関連付けられた特定のオブジェクトまたは情報に対する特定のアプリケーションまたはプロセスのアクセス、格納、または使用が可能であるかを第１のユーザが指定可能であってもよい。プライバシ設定によって、第１のユーザは、オブジェクトまたは情報に対する特定のアプリケーションまたはプロセスのアクセス、格納、または使用をオプトイン可能であってもよいし、オプトアウト可能であってもよい。ソーシャルネットワーキングシステムは、このような情報にアクセスすることにより、他の如何なる目的でも当該情報にアクセスすることなく、特定の機能またはサービスを第１のユーザに提供するようにしてもよい。このようなオブジェクトまたは情報に対するアクセス、格納、または使用の前に、ソーシャルネットワーキングシステムは、オブジェクトまたは情報に対するアクセス、格納、または使用を可能にするアプリケーションまたはプロセス（存在する場合）を動作許可に先立って指定するプライバシ設定の提供をユーザに指示するようにしてもよい。非限定的な一例として、第１のユーザは、オンラインソーシャルネットワークと関連するアプリケーション（たとえば、メッセージングアプリ）を介して、メッセージを第２のユーザに送信するようにしてもよく、また、ソーシャルネットワーキングシステムがこのようなメッセージを格納すべきでなない旨のプライバシ設定を指定するようにしてもよい。

特定の実施形態においては、第１のユーザと関連付けられた特定タイプのオブジェクトまたは情報に対するソーシャルネットワーキングシステムのアクセス、格納、または使用が可能であるかをユーザが指定するようにしてもよい。非限定的な一例として、第１のユーザは、ソーシャルネットワーキングシステムを通じて第１のユーザにより送信されたイメージをソーシャルネットワーキングシステムが格納できない旨を指定するようにしてもよい。非限定的な別の例として、第１のユーザは、当該第１のユーザから特定の第２のユーザに送信されたメッセージをソーシャルネットワーキングシステムが格納できない旨を指定するようにしてもよい。非限定的なさらに別の例として、第１のユーザは、特定のアプリケーションを介して送信されたすべてのオブジェクトをソーシャルネットワーキングシステムが保存できる旨を指定するようにしてもよい。

特定の実施形態においては、プライバシ設定によって、第１のユーザと関連付けられた特定のオブジェクトまたは情報に特定のクライアントシステムまたはサードパーティシステムからアクセス可能であるかを第１のユーザが指定可能であってもよい。プライバシ設定によって、第１のユーザは、特定の機器（たとえば、ユーザのスマートフォン上の電話帳）、特定のアプリケーション（たとえば、メッセージングアプリ）、または特定のシステム（たとえば、電子メールサーバ）からのオブジェクトまたは情報へのアクセスをオプトイン可能であってもよいし、オプトアウト可能であってもよい。また、各機器、システム、もしくはアプリケーションに関するデフォルトのプライバシ設定をソーシャルネットワーキングシステムが提供すること、ならびに／または、背景ごとの特定のプライバシ設定の指定を第１のユーザに指示することが可能である。非限定的な一例として、第１のユーザは、ソーシャルネットワーキングシステムの場所情報サービス機能を利用して、ユーザに近いレストラン等の場所のお薦めを提供するようにしてもよい。第１のユーザのデフォルトのプライバシ設定は、第１のユーザのクライアント機器から提供された場所情報をソーシャルネットワーキングシステムが使用して場所ベースのサービスを提供可能な一方、第１のユーザの場所情報を格納することも、如何なるサードパーティシステムに提供することも不可能である旨を指定していてもよい。その後、第１のユーザは、プライバシ設定を更新して、場所情報のサードパーティイメージ共有アプリケーションによる使用により、写真のジオタグ付けを可能にしてもよい。

Claims

複数人の話者と関連付けられたオーディオデータを取り込むように構成されたオーディオ取り込みシステムと、
前記複数人の話者のうちの１人または複数人のイメージを取り込むように構成されたイメージ取り込みシステムと、
発話処理エンジンであって、
前記オーディオデータ中の複数の発話セグメントを認識することと、
前記複数の発話セグメントのうちの発話セグメントごとに、前記イメージに基づいて、前記発話セグメントと関連付けられた話者を識別することと、
前記複数の発話セグメントそれぞれを転写して、前記複数の発話セグメントのうちの発話セグメントごとに、前記発話セグメントと関連付けられた前記話者の指定を含む前記複数の発話セグメントの転写を生成することと、
前記転写を解析して、前記転写に由来する付加データを生成することと、
を行うように構成された発話処理エンジンと、
を備えたシステム。
前記複数の発話セグメントを認識するため、前記発話処理エンジンが、前記イメージに基づいて、前記複数の発話セグメントを認識するようにさらに構成され、
好ましくは、前記複数の発話セグメントのうちの発話セグメントごとに、前記話者を識別するため、前記発話処理エンジンが、前記イメージ中の１つまたは複数の顔を検出するようにさらに構成される、請求項１に記載のシステム。
前記発話処理エンジンが、各発話セグメントと関連付けられた前記話者の識別情報に基づいて、１つまたは複数の発話認識モデルを選定するようにさらに構成される、請求項２に記載のシステム。
前記複数の発話セグメントのうちの発話セグメントごとに、前記話者を識別するため、前記発話処理エンジンが、口唇が動いている前記イメージ中の１つまたは複数の顔を検出するようにさらに構成される、請求項３に記載のシステム。
前記発話処理エンジンが、外部データにアクセスするようにさらに構成され、
前記複数の発話セグメントのうちの発話セグメントごとに、前記話者を識別するため、前記発話処理エンジンが、
前記外部データに基づいて、前記話者を識別するようにさらに構成され、
好ましくは、前記外部データが、カレンダ情報および場所情報のうちの１つまたは複数を含む、請求項１から４のいずれか一項に記載のシステム。
ユーザが着用可能なヘッドマウントディスプレイ（ＨＭＤ）をさらに備え、
前記１つまたは複数の発話認識モデルが、前記ユーザの音声認識モデルを含み、
好ましくは、前記ＨＭＤが、人工現実感コンテンツを出力するように構成され、前記人工現実感コンテンツが、ビデオストリームおよびオーディオストリームを含む仮想会議アプリケーションを含む、請求項３から５のいずれか一項に記載のシステム。
ユーザが着用可能なヘッドマウントディスプレイ（ＨＭＤ）をさらに備え、前記発話処理エンジンが、前記複数の発話セグメントの属性に基づいて、前記ＨＭＤの前記ユーザを前記複数の発話セグメントの前記話者として識別するようにさらに構成される、請求項３から５のいずれか一項に記載のシステム。
前記オーディオ取り込みシステムが、マイクアレイを備え、
好ましくは、前記付加データが、前記複数人の話者のうちの少なくとも１人と関連付けられた前記発話セグメントの修正版を含むオーディオストリームを含む、請求項１から７のいずれか一項に記載のシステム。
前記付加データが、前記転写において記載された会集もしくはイベントに対するカレンダ招待、前記転写において識別されたトピックと関連する情報、または前記転写において識別されたタスクを含むタスクリストのうちの１つまたは複数を含む、請求項１から８のいずれか一項に記載のシステム。
前記付加データが、前記話者が発話する単語の数、前記話者の口調、前記話者が使用するつなぎ語に関する情報、前記話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、前記転写の要約、または前記話者の感情を含む前記転写に関する統計値のうちの少なくとも１つを含む、請求項１から９のいずれか一項に記載のシステム。
複数人の話者と関連付けられたオーディオデータを取り込むことと、
前記複数人の話者のうちの１人または複数人のイメージを取り込むことと、
前記オーディオデータ中の複数の発話セグメントを認識することと、
前記複数の発話セグメントのうちの発話セグメントごとに、前記イメージに基づいて、前記発話セグメントと関連付けられた話者を識別することと、
前記複数の発話セグメントそれぞれを転写して、前記複数の発話セグメントのうちの発話セグメントごとに、前記発話セグメントと関連付けられた前記話者の指定を含む前記複数の発話セグメントの転写を生成することと、
前記転写を解析して、前記転写に由来する付加データを生成することと、
を含む方法。
外部データにアクセスすることと、
前記複数の発話セグメントのうちの発話セグメントごとに、前記外部データに基づいて、前記話者を識別することと、
をさらに含み、
好ましくは、前記外部データが、カレンダ情報および場所情報のうちの１つまたは複数を含む、請求項１１に記載の方法。
前記付加データが、前記転写において記載された会集もしくはイベントに対するカレンダ招待、前記転写において識別されたトピックと関連する情報、または前記転写において識別されたタスクを含むタスクリストのうちの１つまたは複数を含む、請求項１１または１２に記載の方法。
前記付加データが、前記話者が発話する単語の数、前記話者の口調、前記話者が使用するつなぎ語に関する情報、前記話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、前記転写の要約、または前記話者の感情を含む前記転写に関する統計値のうちの少なくとも１つを含む、請求項１１から１３のいずれか一項に記載の方法。
実行された場合に、
複数人の話者と関連付けられたオーディオデータを取り込むことと、
前記複数人の話者のうちの１人または複数人のイメージを取り込むことと、
前記オーディオデータ中の複数の発話セグメントを認識することと、
前記複数の発話セグメントのうちの発話セグメントごとに、前記イメージに基づいて、前記発話セグメントと関連付けられた話者を識別することと、
前記複数の発話セグメントそれぞれを転写して、前記複数の発話セグメントのうちの発話セグメントごとに、前記発話セグメントと関連付けられた前記話者の指定を含む前記複数の発話セグメントの転写を生成することと、
前記転写を解析して、前記転写に由来する付加データを生成することと、
を行うようにコンピュータシステムの処理回路を設定する命令を含むコンピュータ可読記憶媒体。