JP2023503219A - 複数のデータソースを用いた発話転写 - Google Patents

複数のデータソースを用いた発話転写 Download PDF

Info

Publication number
JP2023503219A
JP2023503219A JP2022521089A JP2022521089A JP2023503219A JP 2023503219 A JP2023503219 A JP 2023503219A JP 2022521089 A JP2022521089 A JP 2022521089A JP 2022521089 A JP2022521089 A JP 2022521089A JP 2023503219 A JP2023503219 A JP 2023503219A
Authority
JP
Japan
Prior art keywords
speech
speaker
user
hmd
transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022521089A
Other languages
English (en)
Inventor
ヴィンセント チャールズ チョン,
チョンシュアン パイ,
ヤティン サシャ ション,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Meta Platforms Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meta Platforms Technologies LLC filed Critical Meta Platforms Technologies LLC
Publication of JP2023503219A publication Critical patent/JP2023503219A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Optics & Photonics (AREA)
  • Hospice & Palliative Care (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Child & Adolescent Psychology (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

Figure 2023503219000001
本開示は、オーディオ、イメージ、および他のデータを用いた発話の転写を記載する。複数人の話者と関連付けられたオーディオデータを取り込むように構成されたオーディオ取り込みシステムと、複数人の話者のうちの1人または複数人のイメージを取り込むように構成されたイメージ取り込みシステムと、発話処理エンジンと、を備えたシステムが記載される。発話処理エンジンは、オーディオデータ中の複数の発話セグメントを認識することと、複数の発話セグメントのうちの発話セグメントごとに、イメージに基づいて、発話セグメントと関連付けられた話者を識別することと、複数の発話セグメントそれぞれを転写して、複数の発話セグメントのうちの発話セグメントごとに、発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成することと、転写を解析して、転写に由来する付加データを生成することと、を行うように構成されていてもよい。
【選択図】図1A

Description

本開示は、一般的には発話転写システムに関し、より詳細には、複数人の発話の転写に関する。
発話認識の普及が進み、テレビ(TV)、コンピュータ、タブレット、スマートフォン、およびスピーカに付加されることが多くなっている。たとえば、多くのスマート機器では、ユーザが発話したコマンドまたは質問に基づくサービスを実行可能である。このような機器では、発話認識を用いることにより、取り込んだオーディオに基づいてユーザのコマンドおよび質問を識別した後、動作の実行または応答情報の識別を行う。
一般的に、本開示は、オーディオ、イメージ、および他のデータを用いて発話を転写するシステムおよび方法を記載する。いくつかの例において、システムは、発話認識、話者識別、および視覚的パターン認識の各技術を組み合わせて、2人以上のユーザ間の相互作用の完全転写を生成するようにしてもよい。たとえば、このようなシステムでは、オーディオデータおよびイメージデータを取り込み、オーディオデータ中の複数の発話セグメントを認識し、イメージデータに基づいて、各発話セグメントと関連付けられた話者を識別し、複数の発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成するようにしてもよい。いくつかの例においては、人工知能(AI)/機械学習(ML)モデルのトレーニングによって、1人または複数人の識別話者からの発話を認識して転写するようにしてもよい。いくつかの例において、システムは、イメージデータ中の口唇が動いている1つまたは複数の顔の検出に基づいて、発話の認識および/または話者の識別を行うようにしてもよい。さらに、このようなシステムでは、転写を解析して、転写において記載された会集もしくはイベントに対するカレンダ招待、転写において識別されたトピックと関連する情報、転写において識別されたタスクを含むタスクリスト、要約、(たとえば、相互作用に存在しない人、トピックに関するユーザ、もしくは相互作用において論じられる人に対する)通知、統計値(たとえば、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語に関する情報、話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、「つなぎ」が使用された回数、話者の声量、または話者の感情等)を含む付加データを転写から生成するようにしてもよい。いくつかの例において、発話転写は、発話、会話、または相互作用がほぼリアルタイムまたは一見してほぼリアルタイムで起こっている間に実行される。他の例において、発話転写は、発話、会話、または相互作用が終了した後に実行される。
いくつかの例において、本明細書に記載の技術は、イメージデータを取り込むイメージ取り込み機器(たとえば、カメラ)およびオーディオデータを取り込むオーディオ取り込み機器(たとえば、マイク)を備えたヘッドマウントディスプレイ(HMD)またはコンピュータ機器によって実行される。いくつかの例において、HMDまたはコンピュータ機器は、ユーザ間の相互作用においてユーザごとに取り込まれる発話セグメントのすべてを転写するようにしてもよい。他の例において、HMDは、当該HMDを着用しているユーザに対する発話セグメントのみを転写するようにしてもよく、HMD、コンピュータ機器、および/または転写システムは任意選択として、他のHMDおよび/またはコンピュータ機器から受信した個々の転写を組み合わせるようにしてもよい。
本発明の第1の態様によれば、複数人の話者と関連付けられたオーディオデータを取り込むように構成されたオーディオ取り込みシステムと、複数人の話者のうちの1人または複数人のイメージを取り込むように構成されたイメージ取り込みシステムと、オーディオデータ中の複数の発話セグメントを認識することと、複数の発話セグメントのうちの発話セグメントごとに、イメージに基づいて、発話セグメントと関連付けられた話者を識別することと、複数の発話セグメントそれぞれを転写して、複数の発話セグメントのうちの発話セグメントごとに、発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成することと、転写を解析して、転写に由来する付加データを生成することと、を行うように構成された発話処理エンジンと、を備えたシステムが提供される。
複数の発話セグメントを認識するため、発話処理エンジンは、イメージに基づいて、複数の発話セグメントを認識するようにさらに構成されていてもよい。
複数の発話セグメントのうちの発話セグメントごとに、話者を識別するため、発話処理エンジンは、イメージ中の1つまたは複数の顔を検出するようにさらに構成されていてもよい。
発話処理エンジンは、各発話セグメントと関連付けられた話者の識別情報に基づいて、1つまたは複数の発話認識モデルを選定するようにさらに構成されていてもよい。
複数の発話セグメントのうちの発話セグメントごとに、話者を識別するため、発話処理エンジンは、口唇が動いているイメージ中の1つまたは複数の顔を検出するようにさらに構成されていてもよい。
発話処理エンジンは、外部データにアクセスするようにさらに構成されていてもよい。複数の発話セグメントのうちの発話セグメントごとに、話者を識別するため、発話処理エンジンは、外部データに基づいて、話者を識別するようにさらに構成されていてもよい。
外部データは、カレンダ情報および場所情報のうちの1つまたは複数を含んでいてもよい。
このシステムは、ユーザが着用可能なヘッドマウントディスプレイ(HMD)をさらに備えていてもよい。1つまたは複数の発話認識モデルは、ユーザの音声認識モデルを含んでいてもよい。発話処理エンジンは、複数の発話セグメントの属性に基づいて、HMDのユーザを複数の発話セグメントの話者として識別するようにさらに構成されていてもよい。HMDは、人工現実感コンテンツを出力するように構成されていてもよい。人工現実感コンテンツは、ビデオストリームおよびオーディオストリームを含む仮想会議アプリケーションを含んでいてもよい。
オーディオ取り込みシステムは、マイクアレイを備えていてもよい。
付加データは、転写において記載された会集もしくはイベントに対するカレンダ招待、転写において識別されたトピックと関連する情報、ならびに/または転写において識別されたタスクを含むタスクリストのうちの1つまたは複数を含んでいてもよい。
付加データは、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語に関する情報、話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値のうちの少なくとも1つを含んでいてもよい。
付加データは、複数人の話者のうちの少なくとも1人と関連付けられた発話セグメントの修正版を含むオーディオストリームを含んでいてもよい。
この方法は、外部データにアクセスすることと、複数の発話セグメントのうちの発話セグメントごとに、外部データに基づいて、話者を識別することと、をさらに含んでいてもよい。外部データは、カレンダ情報および場所情報のうちの1つまたは複数を含んでいてもよい。
付加データは、転写において記載された会集もしくはイベントに対するカレンダ招待、転写において識別されたトピックと関連する情報、ならびに/または転写において識別されたタスクを含むタスクリストのうちの1つまたは複数を含んでいてもよい。
付加データは、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語に関する情報、話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値のうちの少なくとも1つを含んでいてもよい。
本発明の第2の態様によれば、複数人の話者と関連付けられたオーディオデータを取り込むことと、複数人の話者のうちの1人または複数人のイメージを取り込むことと、オーディオデータ中の複数の発話セグメントを認識することと、複数の発話セグメントのうちの発話セグメントごとに、イメージに基づいて、発話セグメントと関連付けられた話者を識別することと、複数の発話セグメントそれぞれを転写して、複数の発話セグメントのうちの発話セグメントごとに、発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成することと、転写を解析して、転写に由来する付加データを生成することと、を含む方法が提供される。
本開示の第3の態様によれば、実行された場合に、複数人の話者と関連付けられたオーディオデータを取り込むことと、複数人の話者のうちの1人または複数人のイメージを取り込むことと、オーディオデータ中の複数の発話セグメントを認識することと、複数の発話セグメントのうちの発話セグメントごとに、イメージに基づいて、発話セグメントと関連付けられた話者を識別することと、複数の発話セグメントそれぞれを転写して、複数の発話セグメントのうちの発話セグメントごとに、発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成することと、転写を解析して、転写に由来する付加データを生成することと、を行うようにコンピュータシステムの処理回路を設定する命令を含むコンピュータ可読記憶媒体が提供される。
これらの技術には、さまざまな技術的利点および実用性がある。たとえば、本開示の1つまたは複数の態様に係る技術は、転写から付加データを生成可能な発話転写システムを提供し得る。付加データを自動的に生成することによって、本開示の技術に係るシステムは、コマンドまたは質問が発せられたことまたは発せられることを当該システムに知らせる特定の単語(たとえば、「ウェイク」ワード)をユーザが発話する必要なく、場合によっては、特定のコマンドも指示もなく、サービスをユーザに提供可能である。これにより、ユーザのシステムとの相互作用が容易化され、ユーザが別のユーザと相互作用する方法に対して相互作用がより一致することで、システムとの相互作用がより自然となり得る。
本開示の技術の1つまたは複数の例の詳細については、添付の図面および以下の説明に示す。これら技術の他の特徴、目的、および利点については、以下の説明、図面、および特許請求の範囲から明らかとなるであろう。
本開示の技術に係る、発話転写を実行する例示的なシステムを示した図である。 本開示の技術に係る、発話転写を実行する例示的なシステムを示した図である。 本開示の技術に係る、発話転写を実行する例示的なシステムを示した図である。 本開示の技術に係る、例示的なHMDを示した図である。 本開示の技術に係る、例示的なHMDを示した図である。 本開示の技術に係る、図1A、図1Bの人工現実感システムのHMDの例示的なインスタンスによって発話転写が実行される一例を示したブロック図である。 本開示の技術に係る、図1A、図1Bの人工現実感システムの転写システムおよびHMDの例示的なインスタンスによって発話転写が実行される例示的な実施態様を示したブロック図である。 本開示の技術に係る、図1Cのシステムのコンピュータ機器の例示的なインスタンスによって発話転写が実行される例示的な実施態様を示したブロック図である。 本開示の態様に係る、発話を転写して解析する方法の例示的な動作を示したフローチャートである。 本開示の技術に係る、オーディオデータおよび転写を示した図である。 本開示の態様に係る、発話を転写する方法の例示的な動作を示したフローチャートである。 本開示の態様に係る、発話セグメントの話者を識別する方法の例示的な動作を示したフローチャートである。 本開示の態様に係る、潜在的な話者モデルを識別する方法の例示的な動作を示したフローチャートである。 本開示の態様に係る、分散機器に対して発話を転写する方法の例示的な動作を示したフローチャートである。
図面および説明の全体を通して、同様の参照文字は、同様の要素を表す。
図1Aは、本開示の技術に係る、発話転写を実行するシステム10Aを示した図である。図1Aの例において、システム10Aは、ヘッドマウントディスプレイ(HMD)を具備する人工現実感システムである。図示のように、HMD112は通常、ユーザ110が着用するものであり、人工現実感コンテンツ122をユーザ110に提示する電子ディスプレイおよび光学アセンブリを具備する。また、HMD112は、当該HMD112の運動を追跡する1つまたは複数の運動センサ(たとえば、加速度計)と、周囲の物理環境のオーディオデータを取り込む1つまたは複数のオーディオ取り込み機器(たとえば、マイク)と、周囲の物理環境のイメージデータを取り込む1つまたは複数のイメージ取り込み機器(たとえば、カメラ、赤外線(IR)検出器、ドップラーレーダ、ラインスキャナ)と、を具備する。HMD112は、ネットワーク104を介して、任意の形態のコンピュータリソースに対応し得る転写システム106と連通しているものとして示している。たとえば、転写システム106は、物理的なコンピュータ機器であってもよいし、サービスをクライアント機器ならびに他の機器もしくはシステムに提供するクラウドコンピュータシステム、サーバファーム、および/またはサーバクラスタ(または、その一部)の構成要素であってもよい。したがって、転写システム106は、1つまたは複数の物理的なコンピュータ機器、仮想コンピュータ機器、仮想マシン、コンテナ、および/または他の仮想化コンピュータ機器を表していてもよい。いくつかの例示的な実施態様において、HMD112は、独立型モバイル人工現実感システムとして動作する。
ネットワーク104は、インターネットであってもよいし、如何なるパブリックまたはプライベート通信ネットワーク等のネットワークを含んでいてもよいし、このようなネットワークを表していてもよい。たとえば、ネットワーク104は、コンピュータシステム、サーバ、およびコンピュータ機器間の伝送データの転送を可能にするセルラー、Wi-Fi(登録商標)、ZigBee、Bluetooth、近距離無線通信(NFC)、衛星、エンタープライズ、サービスプロバイダ、および/または他種のネットワークであってもよいし、これらを含んでいてもよい。クライアント機器、サーバ機器、または他の機器のうちの1つまたは複数が任意の好適な通信技術を使用することにより、ネットワーク104を介してデータ、コマンド、制御信号、および/または他の情報を送受信するようにしてもよい。ネットワーク104は、1つまたは複数のネットワークハブ、ネットワークスイッチ、ネットワークルータ、衛星用アンテナ、またはその他任意のネットワーク装置を具備していてもよい。このような機器または構成要素は、動作可能に相互結合されることにより、コンピュータ、機器、または他の構成要素間(たとえば、1つまたは複数のクライアント機器またはシステムと1つまたは複数のサーバ機器またはシステムとの間)の情報交換を可能にしていてもよい。図1Bに示す機器またはシステムはそれぞれ、1つまたは複数のネットワークリンクを用いることにより、ネットワーク104に対して動作可能に結合されていてもよい。
一般的に、人工現実感システム10Aは、現実世界の3D物理環境から取り込まれた情報を使用して、ユーザ110に表示する人工現実感コンテンツ122をレンダリングする。図1Aの例において、ユーザ110は、HMD112上で実行されている人工現実感アプリケーションにより構成およびレンダリングされた人工現実感コンテンツ122を視聴する。人工現実感コンテンツ122Aは、仮想またはビデオ会議アプリケーション、社会的交流アプリケーション、移動指示アプリケーション、代替世界アプリケーション、ナビゲーションアプリケーション、教育アプリケーション、ゲームアプリケーション、トレーニングまたはシミュレーションアプリケーション、拡張現実感アプリケーション、仮想現実感アプリケーション、または人工現実感を実現する他種のアプリケーションに従ってレンダリングされたコンテンツに対応していてもよい。いくつかの例において、人工現実感コンテンツ122は、現実世界のイメージおよび仮想物体の混合物(たとえば、複合現実感および/または拡張現実感)を含んでいてもよい。
動作時、人工現実感アプリケーションは、参照フレーム(通常は、HMD112の視点)に対する姿勢情報を追跡および演算することによって、ユーザ110に表示する人工現実感コンテンツ122を構成する。HMD112を参照フレームとして使用し、HMD112の現在の推定姿勢によって決定される現在の視野130に基づいて、人工現実感アプリケーションは、いくつかの例において、ユーザ110の現実世界の3D物理環境に少なくとも一部が重なり得る3D人工現実感コンテンツをレンダリングする。このプロセスにおいて、人工現実感アプリケーションは、移動情報およびユーザコマンド等、HMD112から受信した検知データと、いくつかの例においては、外部カメラ等の任意の外部センサからのデータと、を使用して、ユーザ110による運動等、現実世界の物理環境内の3D情報を取り込む。人工現実感アプリケーションは、検知データに基づいて、HMD112の参照フレームに対する現在の姿勢を決定し、このHMD112の現在の姿勢に従って、人工現実感コンテンツ122をレンダリングする。
より具体的に、本明細書において別途説明する通り、HMD112のイメージ取り込み機器は、当該イメージ取り込み機器138の視野130内の現実世界の物理環境中の物体を表すイメージデータを取り込む。これらの物体には、人101Aおよび102Aを含み得る。視野130は通常、HMD112の視点と対応する。
図1Aは、ユーザ110が人101Aおよび102Aと相互作用するシーンを示している。両人101Aおよび102AがHMD112の視野130中に存在するため、HMD112は、人101Aおよび102Aのオーディオデータおよびイメージデータを取り込むことができる。HMD112Aは、ユーザ110に対する人工現実感コンテンツ122において人101Bおよび102Bを表示するようにしてもよく、これらはそれぞれ、人101Aおよび102Aに対応する。いくつかの例においては、人101Bおよび/または102Bがそれぞれ、人101Aおよび102Aの無修正イメージであってもよい。他の例においては、人101Bおよび/または人102Bが人101Bおよび/または人102Bに対応するアバター(または、その他任意の仮想表現)であってもよい。
図1Aに示す例においては、ユーザ110が「こんにちは、ジャックとスティーブ。調子はどう?」と言えば、人101Aが「メアリーはどこ?」と返す。このシーンにおいて、HMD112は、イメージデータおよびオーディオデータを取り込み、HMD112の発話処理エンジン(図示せず)は、取り込まれたオーディオデータ中の発話セグメントを認識するとともに、各発話セグメントと関連付けられた話者を識別するように構成されていてもよい。たとえば、発話処理エンジンは、オーディオデータ中の発話セグメント「こんにちは、ジャックとスティーブ。調子はどう?」および「メアリーはどこ?」を認識するようにしてもよい。いくつかの例において、発話処理エンジンは、個々の単語(たとえば、「こんにちは」、「ジャック」、「と」、「スティーブ」等)または1つもしくは複数の単語の任意の組み合わせを発話セグメントとして認識するようにしてもよい。いくつかの例において、発話処理エンジンは、ユーザ110に対して格納された音声認識モデル(たとえば、格納された音声認識モデルに発話セグメントの属性が類似すること)および/または音の強さ(たとえば、声量)に基づいて、ユーザ110を「こんにちは、ジャックとスティーブ。調子はどう?」の話者として識別するようにしてもよい。
いくつかの例において、発話処理エンジンは、イメージデータ中の口唇が動いている顔を検出して、発話セグメント(たとえば、発話セグメントの開始および終了)の認識ならびに/または話者の識別を行うように構成されていてもよい。たとえば、発話処理エンジンは、人101Aおよび102Aの顔を検出し、発話セグメント「メアリーはどこ?」と関連付けられたオーディオを取り込んでいる間、人101Aの口103が動いていることを検出するようにしてもよい。発話処理エンジンは、この情報に基づいて、人101Aを当該発話セグメントの話者として決定するようにしてもよい。別の例において、発話処理エンジンは、人101Aが発話している間(たとえば、人101Aの口唇が動き、オーディオデータが取り込まれている間)、ユーザ110が人101Aに注目しているため、人101Aが話者であると決定するようにしてもよい。また、いくつかの例において、発話処理エンジンは、たとえば場所情報(たとえば、GPS座標)またはカレンダ情報等の他の情報を取得して、話者または潜在的な話者モデルを識別する。たとえば、発話処理エンジンは、カレンダ会集情報を用いて、人101Aおよび102Aを識別するようにしてもよい。
発話処理エンジンは、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成するようにしてもよい。また、発話処理エンジンは、転写を解析して、転写に由来する付加データを生成するようにしてもよい。たとえば、図1Aに示す例において、発話処理エンジンは、発話セグメント「メアリーはどこ?」を転写し、カレンダ情報を解析して、メアリーが会集の招待を断ったものと判定するようにしてもよい。そして、発話処理エンジンは、アラート105を生成し、そのアラートを人工現実感コンテンツ122においてユーザ110に表示するようにしてもよい。このようにして、発話処理エンジンは、ユーザ110が人101Aに応答するのを補助し得る。
発話処理エンジンは、転写において記載された会集もしくはイベントに対するカレンダ招待、転写において識別されたトピックと関連する情報、または転写において識別されたタスクを含むタスクリスト等の他の付加データを生成するようにしてもよい。いくつかの例において、発話処理エンジンは、通知を生成するようにしてもよい。たとえば、処理エンジンは、人101Aがメアリーについて尋ねていることを示す通知を生成し、当該通知をメアリーに送信するようにしてもよい。いくつかの例において、発話処理エンジンは、話者が発話する単語の数、話者の口調、話者の声量、話者が使用するつなぎ語に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を生成するようにしてもよい。また、発話処理エンジンは、複数人の話者のうちの少なくとも1人と関連付けられた発話セグメントの修正版を生成するようにしてもよい。たとえば、発話処理エンジンは、1人または複数人の話者の音声が別の音声(たとえば、漫画のキャラクタの音声または有名人の音声)で置き換えられたオーディオまたはビデオファイルを生成するようにしてもよいし、オーディオまたはビデオファイル中の1つまたは複数の発話セグメントを置き換えるようにしてもよい。
いくつかの例において、発話処理エンジンは、転写システム106に含まれていてもよい。たとえば、HMD112は、オーディオおよびイメージデータを取り込み、ネットワーク104を介して、オーディオおよびイメージデータを転写システム106に送信するようにしてもよい。転写システム106は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成するようにしてもよい。
本明細書に記載の技術のうちの1つまたは複数には、さまざまな技術的利点および実用性が考えられる。たとえば、本開示の1つまたは複数の態様に係る発話転写システムが転写から付加データを生成可能である。付加データを自動的に生成することによって、本開示の技術に係るシステムは、ユーザが「ウェイク」ワードを発話する必要も、コマンドまたは指示を入力する必要さえもなく、サービスをユーザに提供可能である。これにより、ユーザのシステムとの相互作用が容易化され、ユーザが別のユーザと相互作用する方法に対して相互作用がより一致することで、システムとの相互作用がより自然となり得る。
図1Bは、本開示の技術に係る、発話転写を実行する例示的なシステムを示した図である。本例においては、ユーザ110が112Aを着用し、人101AがHMD112Bを着用し、人102Aが112Cを着用している。いくつかの例において、ユーザ110、101A、および/または103Aは、同じ物理環境に存在していてもよいし、異なる物理環境に存在していてもよい。図1Bにおいて、HMD112は、ユーザ110に対する人工現実感コンテンツ123において人101Bおよび102Bを表示するようにしてもよい。本例において、人工現実感コンテンツ123は、HMD112Bおよび112Cそれぞれからのビデオストリームおよびオーディオストリームを含む仮想会議アプリケーションを含む。いくつかの例においては、人101Bおよび/または102Bがそれぞれ、人101Aおよび102Aの無修正イメージであってもよい。他の例においては、人101Bおよび/または人102Bが人101Bおよび/または人102Bに対応するアバター(または、その他任意の仮想表現)であってもよい。
図1Bに示す例において、HMD112A、112B、および112C(併せて、「HMD112」)は、(たとえば、直接またはネットワーク104を介して)互いに無線通信する。HMD112はそれぞれ、発話処理エンジン(図示せず)を具備していてもよい。いくつかの例において、HMD112はそれぞれ、図1AのHMD112と実質的に同様に動作するようになっていてもよい。いくつかの例において、HMD112Aは、ユーザ110に対応する第1の発話認識モデルを格納していてもよく、HMD112Bは、ユーザ101Aに対応する第2の発話認識モデルを格納していてもよく、HMD112Cは、ユーザ102Aに対応する第3の発話認識モデルを格納していてもよい。いくつかの例において、HMD112はそれぞれ、第1、第2、および第3の発話認識モデルのコピーを共有して格納していてもよい。
いくつかの例において、HMD112はそれぞれ、オーディオデータおよび/またはイメージデータを取得する。たとえば、HMD112はそれぞれ、その物理環境からオーディオデータおよびイメージデータを取り込むこと、ならびに/または、他のHMD112からオーディオデータおよび/もしくはイメージデータを取得すること、を行うようにしてもよい。いくつかの例において、各HMD112は、当該HMDを着用しているユーザに対応する発話セグメントを転写するようにしてもよい。たとえば、HMD112Aは、ユーザ110に対応する1つまたは複数の発話セグメントのみを転写するようにしてもよいし、HMD112Bは、ユーザ101Aに対応する1つまたは複数の発話セグメントのみを転写するようにしてもよいし、HMD112Cは、ユーザ102Aに対応する1つまたは複数の発話セグメントのみを転写するようにしてもよい。たとえば、このような例において、HMD112Aは、その物理環境からオーディオデータおよび/またはイメージデータを取り込み、オーディオデータ中の発話セグメントを認識し、(たとえば、ユーザ110に対して格納された発話認識モデルに基づいて)ユーザ110に対応する発話セグメントを識別し、ユーザ110に対応する発話セグメントそれぞれを転写することになる。HMD112はそれぞれ、個々の転写を転写システム106に送信することになる。システム106は、個々の転写を組み合わせて、完全転写を生成するとともに、完全転写を解析して、完全転写に由来する付加データを生成することになる。このように、HMD112はそれぞれ、他のユーザの発話認識モデルを格納する必要がない。さらに、対応するユーザからの発話を転写する各HMD112によれば、転写および/または話者識別情報の精度が向上し得る。
他の例において、HMD112はそれぞれ、オーディオおよびイメージデータを取り込み、ネットワーク104を介して(たとえば、オーディオおよびビデオストリームにて)、オーディオおよびイメージデータを転写システム106に送信するようにしてもよい。転写システム106は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成するようにしてもよい。
図1Cは、本開示の技術に係る、発話転写を実行する例示的なシステム10Bを示した図である。本例においては、ユーザ110、101、および102が同じ物理環境に存在し、コンピュータ機器120がオーディオおよび/またはイメージデータを取り込む。他の例においては、異なる物理環境に位置付けられた1人または複数人の他のユーザがユーザ110、101、および102との相互作用の一部であってもよく、コンピュータ機器120によって容易化される。図1Cのコンピュータ機器120は、単一のコンピュータ機器として示しており、携帯電話、タブレット、スマートウォッチ、ゲームコンソール、ワークステーション、デスクトップコンピュータ、ラップトップ、補助装置、専用卓上機器、または他のコンピュータ機器に対応していてもよい。他の例において、コンピュータ機器120は、複数のコンピュータ機器に分散していてもよい。
いくつかの例において、コンピュータ機器120は、図1Aおよび図1BにおいてHMD112を参照しつつ上述したのと同様の転写動作を実行可能である。たとえば、コンピュータ機器120の発話処理エンジン(図示せず)は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成するようにしてもよい。別の例においては、コンピュータ機器120がオーディオおよび/またはイメージデータを取り込み、このオーディオおよび/またはイメージデータを転写システムに送信し、その後、転写システム106の発話処理エンジンは、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成する。
遠隔のユーザおよび/または異なる物理環境のユーザを含む相互作用をコンピュータ機器120が容易化する例において、コンピュータ機器120は、遠隔のユーザに対応する機器からのオーディオ情報ならびにイメージもしくはビデオ情報の任意の表示(たとえば、オーディオおよび/またはビデオストリーム)を使用して、オーディオストリーム中の発話セグメントを認識し、オーディオストリーム中の発話セグメントそれぞれと関連付けられた話者(たとえば、遠隔のユーザ)を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者(遠隔の話者を含む)の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成するようにしてもよい。
図2Aは、本開示の1つまたは複数の技術に従って動作するように構成された例示的なHMD112を示した図である。図2AのHMD112は、図1AのHMD112または図1BのHMD112A、112B、および112Cの一例であってもよい。HMD112は、本明細書に記載の技術を実現するように構成された独立型モバイル人工現実感システムとして動作するようになっていてもよいし、図1A、図1Bのシステム10Aのようなシステムの一部であってもよい。
本例において、HMD112は、前部剛体と、当該HMD112をユーザに固定するバンドと、を具備する。また、HMD112は、人工現実感コンテンツをユーザに提示するように構成された内向き電子ディスプレイ203を具備する。電子ディスプレイ203は、液晶ディスプレイ(LCD)、量子ドットディスプレイ、ドットマトリクスディスプレイ、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、陰極線管(CRT)ディスプレイ、Eインク、またはモノクロ、カラー、もしくは視覚的出力を生成し得るその他任意の種類のディスプレイ等、任意好適な表示技術であってもよい。いくつかの例において、電子ディスプレイは、別個のイメージをユーザの各眼に与える立体表示ディスプレイである。いくつかの例においては、HMD112およびユーザの現在の視点に従って人工現実感コンテンツをレンダリングするためにHMD112の位置および配向を追跡する際、HMD112の前部剛体に対するディスプレイ203の既知の配向および位置が参照フレーム(ローカル原点とも称する)として使用される。また、参照フレームは、HMD112の位置および配向の追跡に際しても使用され得る。他の例において、HMD112は、メガネまたはゴーグル等、他のウェアラブルヘッドマウントディスプレイの形態であってもよい。
図2Aにさらに示すように、本例において、HMD112は、当該HMD112の現在の加速度を示すデータを出力する1つもしくは複数の加速度計(慣性計測ユニットまたは「IMU」とも称する)、当該HMD112の場所を示すデータを出力するGPSセンサ、当該HMD112のさまざまな物体からの距離を示すデータを出力するレーダもしくはソナー、または当該HMD112もしくは物理環境内の他の物体の場所もしくは配向を示す他のセンサ等、1つまたは複数の運動センサ206をさらに具備する。さらに、HMD112は、生のイメージおよびオーディオデータをそれぞれ取り込むように構成された統合イメージ取り込み機器208Aおよび208B(併せて、任意数のイメージ取り込み機器を含み得る「イメージ取り込みシステム208」)(たとえば、ビデオカメラ、スチルカメラ、IRスキャナ、UVスキャナ、レーザスキャナ、ドップラレーダスキャナ、デプススキャナ)ならびにオーディオ取り込みシステム209(たとえば、マイク)を具備していてもよい。いくつかの態様において、イメージ取り込みシステム208は、電磁スペクトルの可視スペクトルおよび不可視スペクトル(たとえば、IR光)からイメージデータを取り込むことができる。イメージ取り込みシステム208は、可視スペクトルからイメージデータを取り込む1つまたは複数のイメージ取り込み機器と、不可視スペクトルからイメージデータを取り込む1つまたは複数の別個のイメージ取り込み機器と、を含んでいてもよいし、これらが同じ1つまたは複数のイメージ取り込み機器において組み合わされていてもよい。より具体的に、イメージ取り込みシステム208は、通常はHMD112の視点と対応する当該イメージ取り込みシステム208の視野130内の物理環境中の物体を表すイメージデータを取り込み、オーディオ取り込みシステム209は、HMD112の近傍(オーディオ取り込み機器の360°範囲内)のオーディオデータを取り込む。いくつかの例において、オーディオ取り込みシステム209は、HMD112に対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよい。HMD112は、内部電源と、プログラム可能な動作を実行して検知データの処理および人工現実感コンテンツのディスプレイ203への提示を行う動作環境を提供する1つまたは複数のプロセッサ、メモリ、およびハードウェアを有する1つまたは複数のプリント配線板と、を含み得る内部制御ユニット210を具備する。
一例において、本明細書に記載の技術によれば、制御ユニット210は、オーディオ取り込みシステム209により取り込まれたオーディオデータ中の発話セグメントを認識し、各発話セグメントと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む複数の発話セグメントの転写を生成し、転写を解析して、転写に由来する付加データを生成するように構成されている。いくつかの例において、制御ユニット210は、(たとえば、オーディオデータおよび/もしくはイメージデータが取り込まれた際または相互作用が完了した後、ほぼリアルタイムまたは一見してほぼリアルタイムに)ネットワーク104を介して、オーディオデータおよび/またはイメージデータが転写システム106へと送信されるようにする。
図2Bは、本開示の技術に係る、例示的なHMD112を示した図である。図2Bに示すように、HMD112は、メガネの形態であってもよい。図2AのHMD112は、図1A、図1BのHMD112のいずれかの一例であってもよい。HMD112は、図1Aおよび図1Bのシステム10Aのようなシステムの一部であってもよいし、本明細書に記載の技術を実現するように構成された独立型モバイルシステムとして動作するようになっていてもよい。
本例において、HMD112は、当該HMD112をユーザの鼻に乗せられるブリッジを含む前部フレームと、ユーザの耳の上に延びて当該HMD112をユーザに固定するテンプル(または「アーム」)と、を備えたメガネである。また、図2BのHMD112は、人工現実感コンテンツをユーザに提示するように構成された内向き電子ディスプレイ203Aおよび203B(併せて、「電子ディスプレイ203」)を具備する。電子ディスプレイ203は、液晶ディスプレイ(LCD)、量子ドットディスプレイ、ドットマトリクスディスプレイ、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、陰極線管(CRT)ディスプレイ、Eインク、またはモノクロ、カラー、もしくは視覚的出力を生成し得るその他任意の種類のディスプレイ等、任意好適な表示技術であってもよい。図2Bに示す例において、電子ディスプレイ203は、別個のイメージをユーザの各眼に与える立体表示ディスプレイを構成する。いくつかの例においては、HMD112およびユーザの現在の視点に従って人工現実感コンテンツをレンダリングするためにHMD112の位置および配向を追跡する際、HMD112の前部フレームに対するディスプレイ203の既知の配向および位置が参照フレーム(ローカル原点とも称する)として使用される。
図2Bにさらに示すように、本例において、HMD112は、当該HMD112の現在の加速度を示すデータを出力する1つもしくは複数の加速度計(慣性計測ユニットまたは「IMU」とも称する)、当該HMD112の場所を示すデータを出力するGPSセンサ、当該HMD112のさまざまな物体からの距離を示すデータを出力するレーダもしくはソナー、または当該HMD112もしくは物理環境内の他の物体の場所もしくは配向を示す他のセンサ等、1つまたは複数の運動センサ206をさらに具備する。さらに、HMD112は、イメージおよびオーディオデータをそれぞれ取り込むように構成された統合イメージ取り込み機器208Aおよび208B(併せて、「イメージ取り込みシステム208」)(たとえば、ビデオカメラ、スチルカメラ、IRスキャナ、UVスキャナ、レーザスキャナ、ドップラレーダスキャナ、デプススキャナ)ならびにオーディオ取り込みシステム209(たとえば、マイク)を具備していてもよい。いくつかの態様において、イメージ取り込みシステム208は、電磁スペクトルの可視スペクトルおよび不可視スペクトル(たとえば、IR光)からイメージデータを取り込むことができる。イメージ取り込みシステム208は、可視スペクトルからイメージデータを取り込む1つまたは複数のイメージ取り込み機器と、不可視スペクトルからイメージデータを取り込む1つまたは複数の別個のイメージ取り込み機器と、を含んでいてもよいし、これらが同じ1つまたは複数のイメージ取り込み機器において組み合わされていてもよい。より具体的に、イメージ取り込みシステム208は、通常はHMD112の視点と対応する当該イメージ取り込みシステム208の視野130内の物理環境中の物体を表すイメージデータを取り込み、オーディオ取り込みシステム209は、HMD112の近傍(オーディオ取り込み機器の360°範囲内)のオーディオデータを取り込む。HMD112は、内部電源と、プログラム可能な動作を実行して検知データの処理および人工現実感コンテンツのディスプレイ203への提示を行う動作環境を提供する1つまたは複数のプロセッサ、メモリ、およびハードウェアを有する1つまたは複数のプリント配線板と、を含み得る内部制御ユニット210を具備する。本明細書に記載の技術によれば、図2Bの制御ユニット210は、図2Aの制御ユニット210と同様に動作するように構成されている。
図3は、本開示の技術に係る、図1A、図1Bの人工現実感システムのHMD112の例示的なインスタンスによって発話転写が実行される一例を示したブロック図である。図3の例において、HMD112は、本明細書に記載の技術に従って、イメージおよびオーディオデータの取り込み、話者の識別、転写、および解析動作を実行する。
本例において、HMD112は、いくつかの例においてオペレーティングシステム305(たとえば、埋め込み型リアルタイムマルチタスクオペレーティングシステムであってもよいし、他種のオペレーティングシステムであってもよい)を実行するコンピュータプラットフォームを提供する1つまたは複数のプロセッサ302およびメモリ304を具備する。一方、オペレーティングシステム305は、1つまたは複数のソフトウェアコンポーネント317を実行するマルチタスク動作環境を提供する。プロセッサ302は、表示装置、イメージ取り込み機器、他のHMD等の他の機器と通信するためのI/Oインターフェースを提供する1つまたは複数のI/Oインターフェース315に結合されている。さらに、1つまたは複数のI/Oインターフェース315は、ネットワーク104等のネットワークと通信するための1つまたは複数の有線または無線ネットワークインターフェースコントローラ(NIC)を具備していてもよい。また、プロセッサ302は、電子ディスプレイ203、運動センサ206、イメージ取り込みシステム208、およびオーディオ取り込みシステム209に結合されている。いくつかの例において、プロセッサ302およびメモリ304は、別個の離散構成要素であってもよい。他の例において、メモリ304は、単一の集積回路内でプロセッサ302とともに配置されたオンチップメモリであってもよい。イメージ取り込みシステム208およびオーディオ取り込みシステム209は、イメージデータおよびオーディオデータをそれぞれ取得するように構成されている。
一般的に、アプリケーションエンジン320は、人工現実感アプリケーション(たとえば、転写アプリケーション、音声アシスタントアプリケーション、仮想会議アプリケーション、ゲームアプリケーション、ナビゲーションアプリケーション、教育アプリケーション、トレーニングまたはシミュレーションアプリケーション等)を提供および提示する機能を含む。アプリケーションエンジン320は、たとえば人工現実感アプリケーションをHMD112で実現するための1つまたは複数のソフトウェアパッケージ、ソフトウェアライブラリ、ハードウェアドライバ、および/またはアプリケーションプログラムインターフェース(API)を含んでいてもよい。アプリケーションエンジン320による制御に応答して、レンダリングエンジン322は、HMD112のアプリケーションエンジン340によってユーザに表示する3D人工現実感コンテンツを生成する。
アプリケーションエンジン340およびレンダリングエンジン322は、姿勢トラッカ326による決定の通り、参照フレーム内のHMD112に対する現在の姿勢情報(通常は、HMD112の視点)に従って、ユーザ110に表示する人工コンテンツを構成する。現在の視点に基づいて、レンダリングエンジン322は、3D人工現実感コンテンツを構成するが、これは場合により、ユーザ110の現実世界の3D環境に少なくとも一部が重なり得る。このプロセスにおいては、HMD112から受信した検知データおよびユーザコマンドに対して姿勢トラッカ326が作用することにより、現実世界の環境内の3D情報(ユーザ110による運動等)および/またはユーザ110に関する特徴追跡情報を取り込む。いくつかの例において、アプリケーションエンジン340およびレンダリングエンジン322は、本開示の技術に係る転写アプリケーションまたは音声アシスタントアプリケーションに対する1つまたは複数のユーザインターフェースを生成およびレンダリングして表示することができる。たとえば、アプリケーションエンジン340およびレンダリングエンジン322は、転写および/または付加データを表示するユーザインターフェースを生成およびレンダリングして表示するようにしてもよい。
HMD112のソフトウェアアプリケーション317は、転写アプリケーションを含む人工現実感アプリケーション全体を提供するように動作する。本例において、ソフトウェアアプリケーション317は、レンダリングエンジン322、アプリケーションエンジン340、姿勢トラッカ326、発話処理エンジン341、イメージデータ330、オーディオデータ332、話者モデル334、および転写336を含む。いくつかの例において、HMD112は、ユーザの場所情報、カレンダイベントデータ(たとえば、招待者、確認者、会集トピック)を含む他のデータを(たとえば、メモリ304に)格納していてもよい。いくつかの例においては、イメージデータ330、オーディオデータ332、話者モデル334、および/または転写336がリポジトリまたはキャッシュを表していてもよい。
発話処理エンジン341は、オーディオデータ332中の発話の転写に関する機能を実行するとともに、本開示の技術に従って、転写を解析する。いくつかの例において、発話処理エンジン341は、発話認識エンジン342、話者識別器344、発話転写器346、および音声アシスタントアプリケーション348を含む。
発話認識エンジン342は、オーディオデータ332中の1つまたは複数の発話セグメントの認識に関する機能を実行する。いくつかの例において、発話認識エンジン342は、オーディオデータ332中の1つまたは複数の発話セグメントを(たとえば、生のアナログデータとは別個に)格納する。発話セグメントには、1つまたは複数の発話単語を含み得る。たとえば、発話セグメントとしては、単一の単語、2つ以上の単語、あるいは句または完全な文が可能である。いくつかの例において、発話認識エンジン342は、任意の発話認識技術を使用して、オーディオデータ332中の1つまたは複数の発話セグメントを認識する。たとえば、オーディオデータ332がアナログデータを含んでいてもよく、発話認識エンジン342は、アナログ-デジタル変換器(ADC)を用いてアナログデータをデジタルデータに変換し、デジタル化オーディオデータ中のノイズをフィルタリングし、フィルタリングしたデジタル化オーディオデータに1つまたは複数の統計モデル(たとえば、隠れマルコフモデルまたはニューラルネットワーク)を適用して、1つまたは複数の発話セグメントを認識するようにしてもよい。いくつかの例において、発話認識エンジン342は、1つまたは複数の特定のユーザ(たとえば、図1A~図1Cのユーザ110)の発話を認識するようにトレーニングされた人工知能(AI)/機械学習(ML)モデルを適用するようにしてもよい。いくつかの例において、AI/MLモデルは、ユーザからのトレーニングフィードバックを受け、発話認識決定を調整するようにしてもよい。いくつかの例において、発話認識エンジン342は、イメージデータ330に基づいて、オーディオデータ332中の1つまたは複数の発話セグメントを認識するようにしてもよい。たとえば、発話認識エンジン342は、イメージデータ中の口唇が動いている顔を検出して、発話セグメント(たとえば、発話セグメントの開始および終了)を認識するように構成されていてもよい。
話者識別器344は、発話認識エンジン342により認識された1つまたは複数の発話セグメントそれぞれと関連付けられた話者の識別に関する機能を実行する。たとえば、話者識別器344は、イメージデータ330中の口唇が動いている顔を検出して、話者または潜在的な話者を認識するように構成されていてもよい。別の例において、オーディオ取り込みシステム209は、HMD112に対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよく、話者識別器344は、当該方向性情報およびイメージデータ330に基づいて、話者または潜在的な話者を識別するようにしてもよい(たとえば、話者識別器344は、発話セグメント「メアリーはどこ?」に関する方向性情報に基づいて、図1中の人101Aを識別するようにしてもよい)。さらに別の例において、話者識別器344は、ユーザが注目している相手に基づいて(たとえば、HMD112の視野に基づいて)、話者を識別することになる。いくつかの例において、話者識別器344は、各発話セグメントのハッシュ値または埋め込み値を決定し、(たとえば、話者モデル334から)潜在的な話者モデルを取得し、ハッシュ値を潜在的な話者モデルと比較し、ハッシュ値に最も近い話者モデルを識別するようにしてもよい。話者識別器344は、外部データ、イメージデータ330(たとえば、口唇が動いている検出した顔)、および/またはユーザ入力に基づいて、潜在的な話者モデルを識別するようにしてもよい。たとえば、話者識別器344は、カレンダ情報(たとえば、確認された会集招待者もしくは潜在的な会集招待者に関する情報)、イメージデータ330において識別された1つもしくは複数の顔、場所情報(たとえば、他の人と関連付けられた人もしくは機器のHMD112に対する近接情報)、ならびに/またはユーザ入力により選択された潜在的な話者モデルに基づいて、潜在的な話者を識別するようにしてもよい。いくつかの例において、発話セグメントのハッシュ値と最も近い話者モデルとの差が閾値差以上である場合、話者識別器344は、ハッシュ値に基づいて新たな話者モデルを生成するとともに、この新たな話者モデルを発話セグメントに関連付けるようにしてもよい。発話セグメントのハッシュ値と最も近い話者モデルとの差が閾値差未満である場合、話者識別器344は、最も近い話者モデルと関連付けられた話者を発話セグメントの話者として識別するようにしてもよい。いくつかの例において、話者モデル334は、さまざまな話者のハッシュ値(または、他の音声属性)を含んでいてもよい。いくつかの例において、話者モデル334は、1人または複数人の話者(たとえば、図1A~図1Cの人110、101、102)の発話を識別するようにトレーニングされたAI/MLモデルを含んでいてもよい。いくつかの例において、AI/MLモデルは、ユーザからのトレーニングフィードバックを受け、話者識別決定を調整するようにしてもよい。また、話者モデル334は、話者識別器344により自動生成された話者識別子(ID)、名称、もしくはラベル(たとえば、「話者1」、「話者2」等)、または、I/Oインターフェース315を介してユーザにより手動入力された話者識別子(ID)、名称、もしくはラベル(たとえば、「ジャック」、「スティーブ」、「ボス」等)を含んでいてもよい。いくつかの例において、話者モデル334はそれぞれ、話者の1つもしくは複数のイメージならびに/または話者の顔のハッシュ値を含んでいてもよい。
いくつかの例において、話者識別器344は、HMD112のユーザによる発話セグメントを識別するように構成されていてもよい。たとえば、話者識別器344は、HMD112のユーザ(たとえば、ユーザ110)に固有の話者モデルを適用して、ユーザと関連付けられた1つまたは複数の発話セグメントを識別するようにしてもよい(たとえば、発話セグメントの属性がユーザ話者モデルに類似することに基づいて、ユーザ110による発話セグメントを識別するようにしてもよい)。言い換えると、話者識別器344は、HMD112のユーザによる発話セグメントに対して、発話認識エンジン342により認識された1つまたは複数の発話セグメントをフィルタリングするようにしてもよい。
発話転写器346は、発話認識エンジン342により認識された発話セグメントの転写に関する機能を実行する。たとえば、発話転写器346は、話者識別器344により識別された1人または複数人の話者の指定とともに、発話認識エンジン342により認識された1つまたは複数の発話セグメントのテキスト出力を生成する。いくつかの例において、発話転写器346は、発話認識エンジン342により認識され、HMD112のユーザ(たとえば、ユーザ110)と関連付けられた1つまたは複数の発話セグメントのテキスト出力を生成する。言い換えると、いくつかの例において、発話転写器346は、話者識別器344により識別されたHMD112のユーザによる1つまたは複数の発話セグメントのテキスト出力のみを生成する。いずれにせよ、発話転写器346はその後、テキスト出力を転写336に格納する。
音声アシスタントアプリケーション348は、転写を解析して、転写に由来する付加データを生成することに関する機能を実行する。たとえば、音声アシスタントアプリケーション348は、転写において記載された会集もしくはイベントのカレンダ招待(たとえば、発話セグメント「金曜日の朝一番にもう一度タッチベースしよう」に対応)、転写において識別されたトピックと関連する情報(たとえば、図1Aに示すように、会集招待者が会集の招待を断ったことの通知、相互作用に存在しない人への通知)、または転写において識別されたタスクを含むタスクリスト(たとえば、発話セグメント「会集後に先月の営業報告書を送ってください」に対応するタスク項目)等の付加データを生成するようにしてもよい。いくつかの例において、音声アシスタントアプリケーション348は、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語(たとえば、「えーと」、「うーん」、「えー」、「まあ」等)に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を生成するようにしてもよい。また、音声アシスタントアプリケーション348は、複数人の話者のうちの少なくとも1人と関連付けられた発話セグメントの修正版を生成するようにしてもよい。たとえば、音声アシスタントアプリケーション348は、1人または複数人の話者の音声が別の音声(たとえば、漫画の音声または有名人の音声)で置き換えられたオーディオまたはビデオファイルを生成するようにしてもよいし、オーディオまたはビデオファイル中の1つまたは複数の発話セグメントの言語を置き換えるようにしてもよい。
上述の通り、話者モデル334は、さまざまなAI/MLモデルを含み得る。これらのAI/MLモデルには、人工ニューラルネットワーク(ANN)、決定木、サポートベクターネットワーク、ベイズネットワーク、遺伝的アルゴリズム、線形回帰、ロジスティック回帰、線形判別分析、ナイーブベイズ、k近傍法、学習ベクトル量子化、サポートベクターマシン、ランダム決定フォレスト、またはその他任意の既知のAI/ML数学的モデルを含み得る。これらのAI/MLモデルは、オーディオデータを処理して、発話セグメントの認識および/または発話セグメントの話者の識別を行うようにトレーニングされていてもよい。たとえば、これらのAI/MLモデルは、オーディオデータ332中の発話および/または特定の音声を認識するようにトレーニングされていてもよい。いくつかの例において、これらのAI/MLモデルは、イメージデータ中の潜在的な話者を識別するようにトレーニングされていてもよい。たとえば、これらのAI/MLモデルは、イメージデータ330中の人(たとえば、顔)および/または動いている口唇を認識するようにトレーニングされていてもよい。いくつかの例において、話者モデル334は、1人もしくは複数人のユーザに対する一組の発話データならびに/または1人もしくは複数人のユーザに対応する一組のイメージでトレーニングされていてもよい。1つまたは複数の態様において、イメージデータ330、オーディオデータ332、話者モデル334、および/または転写336それぞれに格納された情報は、リポジトリ、データベース、マップ、探索木、またはその他任意のデータ構造に格納可能である。いくつかの例においては、イメージデータ330、オーディオデータ332、話者モデル334、および/または転写336がHMD112から分離されていてよい(たとえば、図1Aのネットワーク104を介してHMD112と連通した別個のデータベースであってもよい)。
運動センサ206には、HMD112の現在の加速度を示すデータを出力する1つもしくは複数の加速度計(慣性計測ユニットまたは「IMU」とも称する)、HMD112のさまざまな物体からの距離を示すデータを出力するレーダもしくはソナー、またはHMD112もしくは物理環境内の他の物体の場所もしくは配向を示す他のセンサ等のセンサを含み得る。
図4は、本開示の技術に係る、図1A、図1Bの人工現実感システムの転写システムおよびHMDの例示的なインスタンスによって発話転写が実行される例示的な実施態様を示したブロック図である。図4の例において、HMD112は、オーディオおよび/またはイメージデータを取り込み、このオーディオおよび/またはイメージデータを転写システム106に送信する。転写システム106の発話認識エンジン441は、本明細書に記載の技術のうちの1つまたは複数に従って、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成する。
本例においては、図3と同様に、HMD112は、いくつかの例においてオペレーティングシステム305(たとえば、埋め込み型リアルタイムマルチタスクオペレーティングシステムであってもよいし、他種のオペレーティングシステムであってもよい)を実行するコンピュータプラットフォームを提供する1つまたは複数のプロセッサ302およびメモリ304を具備する。一方、オペレーティングシステム305は、1つまたは複数のソフトウェアコンポーネント317を実行するマルチタスク動作環境を提供する。さらに、プロセッサ302は、電子ディスプレイ203、運動センサ206、イメージ取り込みシステム208、およびオーディオ取り込みシステム209に結合されている。いくつかの例において、HMD112は、図3に示すその他の構成要素のいずれかをさらに具備する。たとえば、HMD112は、発話処理エンジン341(発話認識エンジン342、話者識別器344、発話転写器346、および音声アシスタントアプリケーション348を含む)、イメージデータ330、オーディオデータ332、話者モデル334、および転写336を含んでいてもよい。
一般的に、転写システム106は、HMD112から受信したオーディオおよび/またはイメージデータを処理して、オーディオデータに含まれる発話セグメント中の1人または複数人の話者の指定を含む転写を生成するとともに、転写に由来する付加データから付加データを生成する機器である。いくつかの例において、転写システム106は、サーバ、ワークステーション、デスクトップコンピュータ、ラップトップ、またはゲームコンソール等の単一のコンピュータ機器である。他の例においては、プロセッサ412および/またはメモリ414等の転写システム106の少なくとも一部がクラウドコンピュータシステム、データセンタ全体に分散していてもよいし、インターネット、別のパブリックまたはプライベート通信ネットワーク(たとえば、ブロードバンド、セルラー、Wi-Fi、ならびに/またはコンピュータシステム、サーバ、およびコンピュータ機器間でデータを伝送する他種の通信ネットワーク)等のネットワーク全体に分散していてもよい。
図4の例において、転写システム106は、いくつかの例においてオペレーティングシステム416(たとえば、埋め込み型リアルタイムマルチタスクオペレーティングシステムであってもよいし、他種のオペレーティングシステムであってもよい)を実行するコンピュータプラットフォームを提供する1つまたは複数のプロセッサ412およびメモリ414を具備する。一方、オペレーティングシステム416は、1つまたは複数のソフトウェアコンポーネント417を実行するマルチタスク動作環境を提供する。プロセッサ412は、キーボード、マウス、ゲームコントローラ、表示装置、イメージ取り込み機器、HMD等の他の機器と通信するためのI/Oインターフェースを提供する1つまたは複数のI/Oインターフェース415に結合されている。さらに、1つまたは複数のI/Oインターフェース415は、ネットワーク104等のネットワークと通信するための1つまたは複数の有線または無線ネットワークインターフェースコントローラ(NIC)を具備していてもよい。プロセッサ302、412はそれぞれ、マルチコアプロセッサ、コントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または同等の個別もしくは集積論理回路のうちのいずれか1つまたは複数を含んでいてもよい。メモリ304、414は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、プログラム可能リードオンリーメモリ(PROM)、消去可能プログラム可能リードオンリーメモリ(EPROM)、電子的消去可能プログラム可能リードオンリーメモリ(EEPROM)、およびフラッシュメモリ等、データおよび実行可能ソフトウェア命令を格納する如何なる形態のメモリを含んでいてもよい。
転写システム106のソフトウェアアプリケーション417は、転写アプリケーションを提供するように動作する。本例において、ソフトウェアアプリケーション417は、レンダリングエンジン422、アプリケーションエンジン440、姿勢トラッカ426、発話処理エンジン441、イメージデータ430、オーディオデータ432、話者モデル434、および転写436を含む。図3の発話処理エンジン341と同様に、発話処理エンジン441は、発話認識エンジン442、話者識別器444、発話転写器446、および音声アシスタントアプリケーション448を含む。
一般的に、アプリケーションエンジン440は、人工現実感アプリケーション(たとえば、転写アプリケーション、音声アシスタントアプリケーション、仮想会議アプリケーション、ゲームアプリケーション、ナビゲーションアプリケーション、教育アプリケーション、トレーニングまたはシミュレーションアプリケーション等)を提供および提示する機能を含む。アプリケーションエンジン40は、たとえば人工現実感アプリケーションをコンピュータシステム120で実現するための1つまたは複数のソフトウェアパッケージ、ソフトウェアライブラリ、ハードウェアドライバ、および/またはアプリケーションプログラムインターフェース(API)を含んでいてもよい。アプリケーションエンジン440による制御に応答して、レンダリングエンジン422は、HMD112のアプリケーションエンジン340によってユーザに表示する3D人工現実感コンテンツを生成する。
アプリケーションエンジン440およびレンダリングエンジン422は、姿勢トラッカ326による決定の通り、参照フレーム内のHMD112に対する現在の姿勢情報(通常は、HMD112の視点)に従って、ユーザ110に表示する人工コンテンツを構成することに関する機能を実行する。現在の視点に基づいて、レンダリングエンジン422は、3D人工現実感コンテンツを構成するが、これは場合により、ユーザ110の現実世界の3D環境に少なくとも一部が重なり得る。このプロセスにおいては、HMD112上のセンサからのイメージデータ430、いくつかの例においては、外部カメラ等の外部センサからのデータ等、HMD112から受信した検知データに対して姿勢トラッカ426が作用することにより、現実世界の環境内の3D情報(ユーザ110による運動等)および/またはユーザ110に関する特徴追跡情報を取り込む。検知データに基づいて、コンピュータシステム120は、1つまたは複数のI/Oインターフェース315、415を介してHMD112に送り、ユーザ110に表示する人工現実感コンテンツを構成する。いくつかの例において、アプリケーションエンジン440およびレンダリングエンジン422は、本開示の技術に係るマルチメディアクエリアプリケーションに対する1つまたは複数のユーザインターフェースを生成およびレンダリングして表示することができる。たとえば、アプリケーションエンジン440およびレンダリングエンジン422は、転写および/または付加データを表示するユーザインターフェースを生成およびレンダリングして表示するようにしてもよい。
発話認識エンジン442は、(図3の発話認識エンジン342を参照して上述した通り)HMD112から受信したオーディオデータ432中の1つまたは複数の発話セグメントの認識に関する機能を実行する。いくつかの例において、発話認識エンジン442は、オーディオデータ432中の1つまたは複数の発話セグメントを(たとえば、生のアナログデータとは別個に)格納する。発話セグメントには、1つまたは複数の発話単語を含み得る。たとえば、発話セグメントとしては、単一の単語、2つ以上の単語、あるいは句または完全な文が可能である。
話者識別器444は、発話認識エンジン442により認識された1つまたは複数の発話セグメントそれぞれと関連付けられた話者の識別に関する機能を実行する。たとえば、話者識別器444は、イメージデータ430中の口唇が動いている顔を検出して、話者または潜在的な話者を認識するように構成されていてもよい。別の例において、HMD112のオーディオ取り込みシステム209は、HMD112に対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよく、話者識別器444は、当該方向性情報およびイメージデータ430に基づいて、話者または潜在的な話者を識別するようにしてもよい(たとえば、話者識別器444は、発話セグメント「メアリーはどこ?」に関する方向性情報に基づいて、図1中の人101Aを識別するようにしてもよい)。さらに別の例において、話者識別器444は、ユーザが注目している相手に基づいて(たとえば、HMD112の視野に基づいて)、話者を識別することになる。
いくつかの例において、話者識別器444は、各発話セグメントのハッシュ値または埋め込み値を決定し、(たとえば、話者モデル434から)潜在的な話者モデルを取得し、ハッシュ値を潜在的な話者モデルと比較し、ハッシュ値に最も近い話者モデルを識別するようにしてもよい。話者識別器444は、HMD112から受信した外部データ、イメージデータ430(たとえば、口唇が動いている検出した顔)、および/またはユーザ入力に基づいて、潜在的な話者モデルを識別するようにしてもよい。たとえば、話者識別器344は、カレンダ情報(たとえば、確認された会集招待者もしくは潜在的な会集招待者に関する情報)、HMD112から受信したイメージデータ430において識別された1つもしくは複数の顔、場所情報(たとえば、他の人と関連付けられた人もしくは機器のHMD112に対する近接情報)、ならびに/またはユーザ入力により選択された潜在的な話者モデルに基づいて、潜在的な話者を識別するようにしてもよい。いくつかの例において、発話セグメントのハッシュ値と最も近い話者モデルとの差が閾値差以上である場合、話者識別器444は、ハッシュ値に基づいて新たな話者モデルを生成するとともに、この新たな話者モデルを発話セグメントに関連付けるようにしてもよい。いくつかの例において、発話セグメントのハッシュ値と最も近い話者モデルとの差が閾値差未満である場合、話者識別器444は、最も近い話者モデルと関連付けられた話者を発話セグメントの話者として識別する。いくつかの例において、話者モデル434は、さまざまな話者のハッシュ値を含んでいてもよい。
いくつかの例において、話者識別器444は、HMD112のユーザによる発話セグメントを識別するように構成されていてもよい。たとえば、話者識別器444は、HMD112のユーザ(たとえば、ユーザ110)に固有の話者モデルを適用して、ユーザと関連付けられた1つまたは複数の発話セグメントを識別するようにしてもよい(たとえば、発話セグメントの属性がユーザ話者モデルに類似することに基づいて、ユーザ110による発話セグメントを識別するようにしてもよい)。
図3に関して上述した発話転写器346と同様に、発話転写器446は、発話認識エンジン442により認識された発話セグメントの転写に関する機能を実行する。たとえば、発話転写器446は、話者識別器444により識別された1人または複数人の話者の指定とともに、発話認識エンジン442により認識された1つまたは複数の発話セグメントのテキスト出力を生成し、このテキスト出力を転写436に格納する。いくつかの例において、発話転写器346は、話者識別器444により識別されたHMD112のユーザによる1つまたは複数の発話セグメントのテキスト出力のみを生成する。いくつかの例において、発話処理エンジン441は、テキスト出力をHMD112に送信する。
音声アシスタントアプリケーション448は、転写を解析して、転写に由来する付加データを生成することに関する機能を実行する。たとえば、音声アシスタントアプリケーション448は、転写において記載された会集もしくはイベントのカレンダ招待(たとえば、発話セグメント「金曜日の朝一番にもう一度タッチベースしよう」に対応)、転写において識別されたトピックと関連する情報(たとえば、図1Aに示すように、会集招待者が会集の招待を断ったことの通知、相互作用に存在しない人への通知)、または転写において識別されたタスクを含むタスクリスト(たとえば、発話セグメント「会集後に先月の営業報告書を送ってください」に対応するタスク項目)等の付加データを生成するようにしてもよい。いくつかの例において、音声アシスタントアプリケーション448は、話者が発話する単語の数、話者の口調、話者が使用するつなぎ語(たとえば、「えーと」、「うーん」、「えー」、「まあ」等)に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を生成するようにしてもよい。また、音声アシスタントアプリケーション448は、複数人の話者のうちの少なくとも1人と関連付けられた発話セグメントの修正版を生成するようにしてもよい。たとえば、音声アシスタントアプリケーション348は、1人または複数人の話者の音声が別の音声(たとえば、漫画の音声または有名人の音声)で置き換えられたオーディオまたはビデオファイルを生成するようにしてもよいし、オーディオまたはビデオファイル中の1つまたは複数の発話セグメントの言語を置き換えるようにしてもよい。いくつかの例において、発話処理エンジン441は、付加データをHMD112に送信する。
図3に関して上述した話者モデル334と同様に、話者モデル434は、さまざまなAI/MLモデルを含み得る。これらのAI/MLモデルは、オーディオデータを処理して、発話セグメントの認識および/または発話セグメントの話者の識別を行うようにトレーニングされていてもよい。たとえば、これらのAI/MLモデルは、オーディオデータ432中の発話および/または特定の音声を認識するようにトレーニングされていてもよい。いくつかの例において、これらのAI/MLモデルは、イメージデータ中の潜在的な話者を識別するようにトレーニングされていてもよい。たとえば、これらのAI/MLモデルは、イメージデータ430中の人(たとえば、顔)および/または動いている口唇を認識するようにトレーニングされていてもよい。いくつかの例において、話者モデル334は、1人もしくは複数人のユーザに対する一組の発話データならびに/または1人もしくは複数人のユーザに対応する一組のイメージでトレーニングされていてもよい。いくつかの例において、AI/MLモデルは、(たとえば、I/Oインターフェース415を介して)ユーザからのトレーニングフィードバックを受け、話者識別決定を調整するようにしてもよい。また、話者モデル334は、話者識別器344により自動生成された話者識別子、名称、もしくはラベル(たとえば、「話者1」、「話者2」等)、または、I/Oインターフェース415を介してユーザにより手動入力された話者識別子、名称、もしくはラベル(たとえば、「ジャック」、「スティーブ」、「ボス」等)を含んでいてもよい。いくつかの例において、話者モデル334はそれぞれ、話者の1つもしくは複数のイメージならびに/または話者の顔のハッシュ値を含んでいてもよい。
いくつかの例において、転写システム106は、2つ以上のHMD(たとえば、図1BのHMD112)からオーディオおよび/またはイメージデータを受信する。いくつかの例において、各HMDは、同じ物理環境または(たとえば、図1Bに示すように)異なる物理環境のオーディオおよび/またはイメージデータを送信するようにしてもよい。2つ以上の異なるソースからの同じ環境に関するオーディオおよび/またはイメージデータを取り込むことにより、より多くの情報を取り込み可能となる。たとえば、2つ以上の異なる視点からのイメージデータが取り込まれるようになっていてもよいし、環境の2つの異なる点からのオーディオデータが取り込まれるようになっていてもよく、これによって、異なる音を取り込み可能となり得る。いくつかの例において、転写システム106は、すべてのHMDから受信したデータにより、単一の転写を生成する。
図5は、本開示の技術に係る、図1Cのシステムのコンピュータ機器120の例示的なインスタンスによって発話転写が実行される例示的な実施態様を示したブロック図である。図5の例において、コンピュータ機器120は、図3のHMD112を参照して上述した通り、イメージおよびオーディオデータの取り込み、話者の識別、転写、および解析動作を実行する。
本例において、コンピュータ機器120は、いくつかの例においてオペレーティングシステム505(たとえば、埋め込み型リアルタイムマルチタスクオペレーティングシステムであってもよいし、他種のオペレーティングシステムであってもよい)を実行するコンピュータプラットフォームを提供する1つまたは複数のプロセッサ502およびメモリ504を具備する。一方、オペレーティングシステム505は、1つまたは複数のソフトウェアコンポーネント517を実行するマルチタスク動作環境を提供する。プロセッサ502は、キーボード、マウス、ゲームコントローラ、表示装置、イメージ取り込み機器、他のHMD等の他の機器と通信するためのI/Oインターフェースを提供する1つまたは複数のI/Oインターフェース515に結合されている。さらに、1つまたは複数のI/Oインターフェース515は、ネットワーク104等のネットワークと通信するための1つまたは複数の有線または無線ネットワークインターフェースコントローラ(NIC)を具備していてもよい。また、プロセッサ502は、電子ディスプレイ503、イメージ取り込みシステム508、およびオーディオ取り込みシステム509に結合されている。イメージ取り込みシステム208およびオーディオ取り込みシステム209は、イメージデータおよびオーディオデータをそれぞれ取得するように構成されている。
図5のコンピュータ機器120は、単一のコンピュータ機器として示しており、携帯電話、タブレット、スマートウォッチ、ゲームコンソール、ワークステーション、デスクトップコンピュータ、ラップトップ、または他のコンピュータ機器に対応していてもよい。他の例において、コンピュータ機器120は、分散コンピュータネットワーク、データセンタ、またはクラウドコンピュータシステム等、複数のコンピュータ機器に分散していてもよい。
コンピュータシステムのソフトウェアアプリケーション517は、転写アプリケーションを提供するように動作する。図3および図4それぞれのソフトウェアアプリケーション317および417と同様に、ソフトウェアアプリケーション517は、レンダリングエンジン522、アプリケーションエンジン540、発話処理エンジン541、イメージデータ530、オーディオデータ532、話者モデル534、および転写536を含む。図3および図4それぞれの発話処理エンジン341および441と同様に、発話処理エンジン541は、発話認識エンジン542、話者識別器544、発話転写器546、および音声アシスタントアプリケーション548を含む。
HMD112が(たとえば、図3に関して上述した通り)オーディオおよび/またはイメージデータを処理するのと同様に、コンピュータシステム120は、オーディオおよび/またはイメージデータを取り込み、このオーディオおよび/またはイメージデータを転写システム106に送信し、転写システム106の発話認識エンジン441は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成し、転写を解析して、転写に由来する付加データを生成する。
いくつかの例において、図5のコンピュータ機器120は単に、イメージデータ530およびオーディオデータ532を取り込んで、当該データを転写システム106に送信する。転写システム106は、(たとえば、図4に関して上述した通り)HMD112から受信したオーディオおよび/またはイメージデータを処理して、オーディオデータに含まれる発話セグメント中の1人または複数人の話者の指定を含む転写を生成するとともに、転写に由来する付加データから付加データを生成するのと同様に、コンピュータ機器120から受信したオーディオおよび/またはイメージデータを処理する。
いくつかの例において、転写システム106は、図4のHMD112および図5のコンピュータ機器120の両者からオーディオおよび/またはイメージデータを受信する。いくつかの例において、HMD112およびコンピュータ機器120は、同じ物理環境または異なる物理環境のオーディオおよび/またはイメージデータを送信するようにしてもよい。2つ以上の異なるソースからの同じ環境に関するオーディオおよび/またはイメージデータを取り込むことにより、より多くの情報を取り込み可能となる。たとえば、2つ以上の異なる視点からのイメージデータが取り込まれるようになっていてもよいし、環境の2つの異なる点からのオーディオデータが取り込まれるようになっていてもよく、これによって、異なる音を取り込み可能となり得る。いくつかの例において、転写システム106は、コンピュータ機器120からのデータを処理するのと同一または同様に、HMD112からのデータを処理し(その逆もまた同様)、HMD112およびコンピュータ機器120から受信したデータにより、単一の転写を生成する。
図6は、本開示の態様に係る、発話を転写して解析する方法の例示的な動作を示したフローチャート600である。いくつかの例においては、図6に示す1つまたは複数の動作がHMD112、コンピュータ機器120、および/または転写システム106により実行されるようになっていてもよい。
HMD112のオーディオ取り込みシステム209およびイメージ取り込みシステム208ならびに/またはコンピュータ機器120のオーディオ取り込みシステム509およびイメージ取り込みシステム508は、オーディオおよびイメージデータを取り込む(602)。いくつかの例において、オーディオおよび/またはイメージデータは、自動または手動で取り込まれる。たとえば、HMD112および/またはコンピュータシステム120のオーディオおよび/またはイメージ取り込みシステムは、電源オンとなった場合にいつも、オーディオおよび/またはイメージデータを取り込むように構成されていてもよい。いくつかの例において、HMD112のマルチメディア取り込みシステム138および/またはコンピュータシステム130のマルチメディアシステム138は、データ取り込みを開始するユーザ入力ならびに/または転写、仮想会議、もしくは音声アシスタントアプリケーションの開始に応答して、マルチメディアデータを取り込むように構成されていてもよい。いくつかの例において、HMD112および/またはコンピュータ機器120は、(たとえば、リアルタイム、ほぼリアルタイム、または相互作用が完了した後に)オーディオおよび/またはイメージデータを転写システム106に送信するようにしてもよい。
発話処理エンジン341、441、または541は、イメージデータを用いてオーディオデータを転写する(604)。たとえば、発話処理エンジン341、441、または541は、オーディオデータ中の発話セグメントを認識し、発話セグメントそれぞれと関連付けられた話者を識別し、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成するようにしてもよい。
その後、音声アシスタントアプリケーション348、448、または548は、転写を解析して、転写に由来する付加データを生成する(606)。たとえば、音声アシスタントアプリケーション348、448、または548は、転写において記載された会集もしくはイベントのカレンダ招待(たとえば、発話セグメント「金曜日の朝一番にもう一度タッチベースしよう」に対応)、転写において識別されたトピックと関連する情報(たとえば、図1Aに示すように、会集招待者が会集の招待を断ったことの通知、相互作用に存在しない人への通知)、または転写において識別されたタスクを含むタスクリスト(たとえば、発話セグメント「会集後に先月の営業報告書を送ってください」に対応するタスク項目)等の付加データを生成するようにしてもよい。
いくつかの例において、付加データは、(たとえば、セグメントまたは転写全体につき)話者が発話する単語の数、話者の口調、話者が使用するつなぎ語(たとえば、「えーと」、「うーん」、「えー」、「まあ」等)に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を含んでいてもよい。また、音声アシスタントアプリケーション348、448、または548は、複数人の話者のうちの少なくとも1人と関連付けられた発話セグメントの修正版を生成するようにしてもよい。たとえば、音声アシスタントアプリケーション348、448、または548は、1人または複数人の話者の音声が別の音声(たとえば、漫画の音声または有名人の音声)で置き換えられたオーディオまたはビデオファイルを生成するようにしてもよいし、オーディオまたはビデオファイル中の1つまたは複数の発話セグメントの言語を置き換えるようにしてもよい。いくつかの例において、音声アシスタントアプリケーション348、448、または548は、リアルタイム(たとえば、オーディオおよびイメージデータが取り込まれた際)、ほぼリアルタイム、相互作用が完了した後、またはHMD112もしくはコンピュータ機器120がイメージまたはイメージデータの取り込みを停止した後に、転写を解析する。
図7は、本開示の技術に係る、オーディオデータ702および転写706を示している。図7に示す例において、オーディオデータ702は、HMD112のオーディオ取り込みシステム209またはコンピュータ機器120のオーディオ取り込みシステム509により取り込まれたアナログデータに対応する。発話認識エンジン342、442、または552は、オーディオデータ702中の発話セグメント704A、704B、704C(併せて、「発話セグメント704」)を認識して、対応する転写発話セグメント706A、706B、および706C(併せて、「転写706」)を生成する。発話セグメント704はそれぞれ、完全な文を含む一方、1つまたは複数の単語を含んでいてもよい。たとえば、発話セグメントは、必ずしも完全な文を含まず、単語または句を1つだけ含んでいてもよい。いくつかの例において、発話認識エンジン342、442、または552は、1つまたは複数の単語を組み合わせて、図7に示すような完全な文を含む発話セグメントを構成するようにしてもよい。
図7に示す例において、話者識別器344、444、または544は、(たとえば、図3~図5を参照して上述した通り、話者モデルおよび/またはイメージデータに基づいて)「話者1」を発話セグメント706Aおよび706Bの話者として識別し、「話者2」を発話セグメント706Cの話者として識別する。いくつかの例において、ラベルまたは識別子「話者1」および「話者2」(結果としての転写に挿入される)は、話者識別器344、444、または544により自動生成されるようになっていてもよい。他の例において、これらの識別子またはラベルは、ユーザにより手動入力されるようになっていてもよいし、名称(たとえば、「ジャック」、「スティーブ」、「ボス」等)を含んでいてもよい。いずれにせよ、これらのラベル、識別子、または名称は、転写において、発話セグメントのソースである話者を指定し得る。
いくつかの例において、音声アシスタントアプリケーション348、448、または548は、転写706を解析して、付加データを生成するようにしてもよい。たとえば、音声アシスタントアプリケーション348、448、または548は、通知(たとえば、図1Aに示すような「メアリーは会集の招待を断った」という通知)を生成するようにしてもよい。いくつかの例において、付加データは、(たとえば、セグメントまたは転写全体につき)話者が発話する単語の数、話者の口調、話者が使用するつなぎ語(たとえば、「えーと」、「うーん」、「えー」、「まあ」等)に関する情報、各話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、転写の要約、または話者の感情を含む転写に関する統計値を含んでいてもよい。別の例において、音声アシスタントアプリケーション348、448、または548は、話者1および/または話者2の音声が別の音声(たとえば、漫画の音声または有名人の音声)で置き換えられたオーディオまたはビデオデータを生成するようにしてもよいし、オーディオまたはビデオファイル中のいずれかの発話セグメント704の言語を置き換えるようにしてもよい。
図8は、本開示の態様に係る、発話を転写する方法の例示的な動作を示したフローチャート800である。フローチャート800は、図6のフローチャート600の要素604で発話処理エンジン341、441、または541により実行される機能の一例である。
まず、発話認識エンジン342、442、または542は、オーディオデータ(たとえば、オーディオデータ332、432、532、または702)中の1つまたは複数の発話セグメントを認識する(802)。たとえば、発話認識エンジン342、442、または542は、アナログ-デジタル変換器(ADC)を用いてアナログオーディオデータ702をデジタルデータに変換し、デジタル化オーディオデータ中のノイズをフィルタリングし、フィルタリングしたデジタル化オーディオデータに1つまたは複数の統計モデル(たとえば、隠れマルコフモデルまたはニューラルネットワーク)を適用して、図7の発話セグメント706Aを認識するようにしてもよい。いくつかの例において、発話認識エンジン342、442、または542は、1人または複数人の特定のユーザ(たとえば、図1A~図1Cのユーザ110)の発話を認識するようにトレーニングされたAI/MLモデルをオーディオデータ702に適用するようにしてもよい。たとえば、発話認識エンジン342、442、または542は、HMD112のユーザ(ユーザ110)の発話のみを認識するようにトレーニングされたAI/MLモデルを適用するようにしてもよい。いくつかの例において、AI/MLモデルは、ユーザからのトレーニングフィードバックを受け、発話認識決定を調整するようにしてもよい。いくつかの例において、発話認識エンジン342、442、または542は、イメージデータ330、430、または530に基づいて、オーディオデータ332、432、または532中の1つまたは複数の発話セグメントを認識するようにしてもよい。たとえば、発話認識エンジン342、442、または542は、イメージデータ中の口唇が動いている顔を検出して、発話セグメント(たとえば、発話セグメントの開始および終了)を認識するように構成されていてもよい。
話者識別器344、444、または544は、認識された発話セグメントと関連付けられた話者を識別する(804)。たとえば、話者識別器344、444、または544は、図7の発話セグメント704Aの音の強さ(たとえば、声量)に基づいて、話者1をセグメント704Aの話者として識別するようにしてもよい(たとえば、音の強さは、図1BのHMD112Aのユーザからの発話に対してより大きくなる)。別の例において、話者識別器344、444、または544は、HMD112のイメージ取り込みシステム208および/またはコンピュータ機器120のイメージ取り込みシステム508により取り込まれたイメージデータを用いて、話者2を図7のセグメント704Cの話者として識別するようにしてもよい。たとえば、話者識別器344、444、または544は、イメージデータ330、430、または530中の口唇が動いている顔を検出して話者を識別するように構成されていてもよく、また、口唇が動いている検出した顔および/またはイメージデータの焦点(たとえば、ユーザ110が話者を見ていることを示唆する)に基づいて、話者を識別するようにしてもよい。別の例において、HMD112またはコンピュータシステム120それぞれのオーディオ取り込みシステム209または509は、HMD112またはコンピュータ機器120それぞれに対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよく、話者識別器344、444、または544は、当該方向性情報ならびにイメージデータ330、430、もしくは530に基づいて、話者または潜在的な話者を識別するようにしてもよい。
話者識別器344、444、または544は、認識された発話セグメントに話者識別子をタグ付けする(806)。たとえば、話者識別器344、444、または544は、図7の発話セグメント704Aに識別子「話者1」をタグ付けする。図7に関して上述した通り、いくつかの例において、話者識別器344、444、または544は、転写706に含める識別子「話者1」を自動的に生成する。他の例においては、ユーザ、管理者、または他のソースが1つまたは複数のセグメントの識別子、ラベル、または名称を入力する。これらのラベル、識別子、または名称は、転写において、発話セグメントの話者を指定し得る。
発話転写器346、446、または546は、発話認識エンジン342、442、または542により認識された発話セグメントを転写する(808)。たとえば、発話転写器346、446、または546は、図7のセグメント704Aに対するテキスト出力706Aを生成する。発話処理エンジン341、441、または541は次に、発話認識エンジン342、442、または542がオーディオデータ(たとえば、オーディオデータ332、432、532、または702)中の1つまたは複数の別の発話セグメントを認識したかを判定する(810)。発話認識エンジン342、442、または542が1つまたは複数の別の発話セグメントを認識した場合は(810の「はい」分岐)、要素804~810が繰り返される。たとえば、発話認識エンジン342、442、または542が発話セグメント704Bを認識すると(802)、話者識別器344、444、または544が話者1を発話セグメント704Bの話者として識別し(804)、話者1が話者である旨の指定を発話セグメント704Bにタグ付けし、発話転写器346、446、または546が発話セグメント704Bを転写する。このプロセスは、別の発話セグメントが認識されなくなる(たとえば、相互作用が終了となるか、オーディオ/イメージデータが取り込まれなくなるか、または全オーディオデータの処理か完了する)まで継続し(810の「いいえ」分岐)、転写が完了となる(812)(たとえば、図6においてフローチャート600が606に継続し得る)。
いくつかの例において、フローチャート800では、2つ以上のソース(たとえば、
2つ以上のHMD112および/またはコンピュータ機器120)から受信したオーディオおよび/またはイメージデータ(たとえば、オーディオおよび/またはビデオストリームまたはファイル)を処理する。当該例においては、フローチャート800の動作がオーディオデータストリームまたはファイルごとに繰り返されるようになっていてもよい。いくつかの例において、フローチャート800では、各オーディオデータストリームまたはファイルの転写を組み合わせて、転写中の各発話セグメントの話者の指定を含む単一の完全転写を生成することになる。たとえば、フローチャート800では、各オーディオデータファイルまたはストリームからのタイムスタンプを用いて、転写を組み合わせるようにしてもよい。
図9は、本開示の態様に係る、発話セグメントの話者を識別する方法の例示的な動作を示したフローチャート900である。フローチャート900は、図8のフローチャート800の要素804で話者識別器344、444、または544により実行される機能の一例である。
話者識別器344、444、544は、発話セグメントの発話セグメントハッシュ値を決定するようにしてもよい(902)。たとえば、発話処理エンジン341、441、または541は、認識された各発話セグメントを別個のファイル(たとえば、一時ファイル)に格納するようにしてもよい。これらのファイルには、アナログオーディオデータまたは(たとえば、発話以外のノイズがフィルタリングされた)オーディオデータのデジタル化版を含み得る。話者識別器は、これら個々のファイルにハッシュ関数を適用して、各発話セグメントの発話セグメントハッシュ値を決定するようにしてもよい。話者識別器344、444、544は、話者モデル334、434、または534から潜在的な話者モデルを取得し(904)、潜在的な話者モデルのハッシュ値に対して、発話セグメントハッシュ値を比較するようにしてもよい(906)。話者識別器344、444、544は、ハッシュ値が発話セグメントハッシュ値に最も近い話者モデルを識別する(908)。
発話セグメントハッシュ値と最も近い話者モデルとの差が閾値差以上である場合(910の「いいえ」分岐)、話者識別器344、444、または544は、発話セグメントハッシュ値に基づいて、新たな話者モデルを生成するようにしてもよい(916)。たとえば、話者識別器344、444、または544は、発話セグメントハッシュ値に対して新たな話者識別子(ID)を決定し、この新たな話者IDおよび発話セグメントハッシュ値を新たな話者モデルとして話者モデル334、434、または534に格納することになる。そして、話者識別器344、444、または544は、この新たな話者IDを発話セグメントの話者として返すことになる(918)(たとえば、図8においては、新たな話者IDでフローチャート800が806に継続し得る)。
発話セグメントの発話セグメントハッシュ値と最も近い話者モデルのハッシュ値との差が閾値差未満である場合(910の「はい」分岐)、話者識別器344、444、または544は、発話セグメントハッシュ値に基づいて、最も近い話者モデルを更新する(912)。たとえば、最も近い話者モデルのハッシュ値は、当該話者と関連付けられたすべての発話セグメントの平均ハッシュ値を含んでいてもよく、話者識別器344、444、または544は、発話セグメントハッシュ値を当該平均に組み込むようにしてもよい。そして、話者識別器344、444、または544は、最も近い話者モデルの話者IDを発話セグメントの話者として返すことになる(914)(たとえば、図8においては、最も近い話者モデルと関連付けられた話者IDでフローチャート800が806に継続し得る)。
図10は、本開示の態様に係る、潜在的な話者モデルを識別する方法の例示的な動作を示したフローチャート1000である。フローチャート1000は、図9のフローチャート900の要素904で話者識別器344、444、または544により実行される機能の一例である。
話者識別器344、444、または544は、多くの入力に基づいて、潜在的な話者モデルを識別するようにしてもよい(1010)。たとえば、話者識別器344、444、または544は、外部データを取得し(1002)、当該外部データを処理して、1つまたは複数の潜在的な話者モデルを識別するようにしてもよい(1010)。いくつかの例において、外部データは、1人または複数人のユーザの場所情報(たとえば、GPS座標)を含んでいてもよい。たとえば、話者識別器344、444、または544は、HMD112またはコンピュータ機器120の近傍(たとえば、50フィート以内)の1人または複数人のユーザ(あるいは、1人または複数人のユーザと関連付けられた機器)を決定し、当該情報を用いて、(たとえば、話者モデル334、434、または534から)これらのユーザ/機器と関連付けられた話者モデルを得るようにしてもよい。いくつかの例において、外部情報は、会集の招待者情報、会集の場所情報、および各招待者が会集に参加する予定であるかの表示等、カレンダ情報を含み得る。いくつかの例において、話者識別器344、444、または544は、カレンダ情報中のすべての招待者に対応する話者モデルを識別することになる。他の例において、話者識別器344、444、または544は、会集に参加する予定であるカレンダ情報中のすべての招待者に対応する話者モデルを識別することになる。
いくつかの例において、話者識別器344、444、または544は、イメージデータを取得し(1004)、当該イメージデータを処理して、1つまたは複数の潜在的な話者モデルを識別するようにしてもよい(1010)。たとえば、話者識別器344、444、または544は、イメージデータ中の顔を検出し、(たとえば、話者モデル334、434、または534から)検出した顔と関連付けられた話者モデルを識別するように構成されていてもよい。他の例において、話者識別器344、444、または544は、オーディオデータにおいて認識された発話セグメントに対応するイメージデータ中の口唇が動いている顔を検出し、(たとえば、話者モデル334、434、または534から)検出した口唇が動いている顔と関連付けられた話者モデルを識別するように構成されていてもよい。いくつかの例において、話者識別器344、444、または544は、イメージ中の顔および/または口唇が動いている顔を識別するようにトレーニングされたAI/MLモデルをイメージデータに適用するようにしてもよい。別の例において、HMD112またはコンピュータシステム120それぞれのオーディオ取り込みシステム209または509は、HMD112またはコンピュータ機器120それぞれに対するオーディオソースの方向性に関する情報を取り込み得るマイクアレイを備えていてもよく、話者識別器344、444、または544は、当該方向性情報およびイメージデータにおいて検出された顔に基づいて、話者または潜在的な話者を識別するようにしてもよい。たとえば、話者識別器344、444、または544は、図7の発話セグメント704に関する方向性情報および図1C中の人101Aの顔に対する当該方向性の対応に基づいて、話者2を発話セグメント704Cの話者として識別するようにしてもよい。さらに別の例において、話者識別器344、444、または544は、ユーザが注目している相手に基づいて(たとえば、HMD112の視野に基づいて)、話者を識別することになる。
いくつかの例において、話者識別器344、444、または544は、ユーザ入力を受け付け(1006)、当該ユーザ入力を処理して、1つまたは複数の潜在的な話者モデルを識別するようにしてもよい(1010)。たとえば、話者または話者モデル(たとえば、話者モデル334、434、または534)を識別するようにしてもよい。他の例においては、外部データまたはイメージデータに基づいて識別された潜在的な話者モデルをユーザが確認するようにしてもよい。
図11は、本開示の態様に係る、分散機器に対して発話を転写する方法の例示的な動作を示したフローチャート1100である。いくつかの例においては、図11に示す1つまたは複数の動作がHMD112、コンピュータ機器120、および/または転写システム106により実行されるようになっていてもよい。
HMD112のオーディオ取り込みシステム209およびイメージ取り込みシステム208ならびに/またはコンピュータ機器120のオーディオ取り込みシステム509およびイメージ取り込みシステム508は、オーディオおよびイメージデータを取り込む(1102)。たとえば、2つ以上のHMD112および/またはコンピュータ機器120が(たとえば、同じ物理環境または異なる物理環境から)オーディオおよび/またはイメージデータを取り込むようにしてもよい。
発話処理エンジン341、441、または541は、ユーザ話者モデル(たとえば、機器のユーザに固有の話者モデル)を用いて機器ごとに、イメージデータを用いてオーディオデータを転写する(1104)。たとえば、図1Bにおいては、HMD112Aの発話処理エンジンが(たとえば、ユーザ110に固有の話者モデルを用いて)ユーザ110に対応する発話セグメントを転写し、HMD112Bの発話処理エンジンが(たとえば、ユーザ101Aに固有の話者モデルを用いて)ユーザ101Aに対応する発話セグメントを転写し、HMD112Cの発話処理エンジンが(たとえば、ユーザ102Aに固有の話者モデルを用いて)ユーザ102Aに対応する発話セグメントを転写する。いくつかの例において、ユーザは、HMD112またはコンピュータ機器120にログインするか、あるいは、自身をユーザとして識別する。他の例において、HMD112またはコンピュータ機器120は、(たとえば、上述の音声および/または顔認識技術を用いて)ユーザを自動的に識別する。たとえば、発話処理エンジン341、441、または541は、発話セグメントそれぞれを転写して、各発話セグメントと関連付けられた話者の指定を含む転写を生成する。いくつかの例においては、図1CのHMD112A、112B、および/または112Cのいずれかがオーディオおよびイメージデータを取り込み、(たとえば、図4に関して上述した通り)当該オーディオおよびイメージデータを転写システム106に送信して転写を行うようにしてもよい。たとえば、転写システム106は、図1CのHMD112A、112B、および/または112Cのうちの1つまたは複数からオーディオおよびイメージデータを受信し、機器ごとにオーディオデータを転写するようにしてもよい。
その後、発話処理エンジン341、441、または541は、2つ以上のHMD112および/またはコンピュータ機器120により取り込まれたオーディオデータ中の発話セグメントに対応する転写すべてを組み合わせて、各転写発話セグメントと関連付けられた話者/ユーザの指定を含む1つの完全転写を生成する。たとえば、HMD112A、112B、および112Cはそれぞれ、ユーザ110、101A、および102Aから取り込まれた発話の個々の転写をそれぞれ、転写システム106に送信するようにしてもよく、転写システム106が個々の転写を組み合わせることになる。別の例において、HMD112Bおよび112Cは、ユーザ101Aおよび102Aから取り込まれた発話の個々の転写をそれぞれ、HMD112Aに送信するようにしてもよく、HMD112Aが個々の転写を組み合わせることになる。その後、いくつかの例において、音声アシスタントアプリケーション348、448、または548は、任意選択として個々の転写および/または完全転写を解析し、(図6に関して上述した通り)転写に由来する付加データを生成する。
本開示に記載の技術は、少なくとも一部がハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせにて実装されていてもよい。たとえば、1つまたは複数のマイクロプロセッサ、DSP、特定用途向け集積回路(ASIC)、フィールドプログラマグルゲートアレイ(FPGA)、またはその他任意同等の集積もしくは個別論理回路のほか、このようなコンポーネントの任意の組み合わせ等、1つまたは複数のプロセッサにおいて、上記技術の種々態様が実装されていてもよい。用語「プロセッサ(processor)」または「処理回路(processing circuitry)」は一般的に、上記論理回路のいずれか(単独もしくは他の論理回路との組み合わせ)またはその他任意同等の回路を表す。また、ハードウェアで構成される制御ユニットが本開示の技術のうちの1つまたは複数を実行するようになっていてもよい。
上記のようなハードウェア、ソフトウェア、およびファームウェアは、同じ機器または別個の機器内での実装により、本開示に記載のさまざまな動作および機能に対応していてもよい。また、上記ユニット、モジュール、またはコンポーネントのいずれもが個別ながら相互利用可能な論理デバイスとして、一体的または別個に実装されていてもよい。異なる機能をモジュールまたはユニットとして表すことは、異なる機能的側面の強調を意図しており、このようなモジュールまたはユニットを別個のハードウェアまたはソフトウェアコンポーネントにより実現する必要があることを必ずしも暗示しない。むしろ、1つまたは複数のモジュールまたはユニットと関連付けられた機能は、別個のハードウェアまたはソフトウェアコンポーネントにより実行されるようになっていてもよいし、共通または別個のハードウェアまたはソフトウェアコンポーネントに統合されていてもよい。
また、本開示に記載の技術は、命令を含むコンピュータ可読媒体(コンピュータ可読記憶媒体等)において具現化または符号化されていてもよい。コンピュータ可読記憶媒体に埋め込まれた命令または符号化された命令は、たとえば実行された場合に、プログラム可能なプロセッサまたは他のプロセッサに上記方法を実行させ得る。コンピュータ可読記憶媒体としては、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、プログラム可能リードオンリーメモリ(PROM)、消去可能プログラム可能リードオンリーメモリ(EPROM)、電子的消去可能プログラム可能リードオンリーメモリ(EEPROM)、フラッシュメモリ、ハードディスク、CD-ROM、フロッピーディスク、カセット、磁気媒体、光学媒体、または他のコンピュータ可読媒体が挙げられる。
本明細書で種々例として説明した通り、本開示の技術は、人工現実感システムを含んでいてもよいし、人工現実感システムと併せて実装されていてもよい。上述の通り、人工現実感は、ユーザへの提示前に何らかの調整がなされた現実感の形態であって、たとえば仮想現実感(VR)、拡張現実感(AR)、複合現実感(MR)、混成現実感、またはこれらの何らかの組み合わせおよび/もしくは派生物が挙げられる。人工現実感コンテンツとしては、完全生成コンテンツまたは取り込みコンテンツ(たとえば、現実世界の写真)と組み合わされた生成コンテンツが挙げられる。人工現実感コンテンツとしては、ビデオ、オーディオ、触覚フィードバック、またはこれらの何らかの組み合わせが挙げられ、これらのいずれもが単一のチャネルで提示されるようになっていてもよいし、複数のチャネル(視聴者に3次元効果を与える立体ビデオ等)で提示されるようになっていてもよい。また、いくつかの実施形態において、人工現実感は、たとえば人工現実感におけるコンテンツ生成のための使用および/または人工現実感における使用(たとえば、人工現実感における活動のための使用)がなされるアプリケーション、製品、付属品、サービス、またはこれらの何らかの組み合わせと関連付けられていてもよい。人工現実感コンテンツを提供する人工現実感システムは、ホストコンピュータシステムに接続されたヘッドマウントディスプレイ(HMD)、独立型HMD、モバイル機器もしくはコンピュータシステム、または人工現実感コンテンツを1人もしくは複数人の視聴者に提供可能なその他任意のハードウェアプラットフォーム等、さまざまなプラットフォーム上に実装されていてもよい。
特定の実施形態においては、コンピュータシステムの1つまたは複数のオブジェクト(たとえば、コンテンツまたは他種のオブジェクト)が1つまたは複数のプライバシ設定と関連付けられている場合がある。1つまたは複数のオブジェクトは、たとえばソーシャルネットワーキングシステム、クライアントシステム、サードパーティシステム、ソーシャルネットワーキングアプリケーション、メッセージングアプリケーション、写真共有アプリケーション、またはその他任意の好適なコンピュータシステムもしくはアプリケーション等、任意好適なコンピュータシステムまたはアプリケーションに格納されていてもよいし、あるいは、任意好適なコンピュータシステムまたはアプリケーションと関連付けられていてもよい。本明細書において論じる例は、オンラインソーシャルネットワークを背景とするが、これらのプライバシ設定は、その他任意の好適なコンピュータシステムに適用されていてもよい。オブジェクトのプライバシ設定(または、「アクセス設定」)は、たとえばオブジェクトとの関連、認証サーバ上のインデックス化、別の好適な様態、またはこれらの任意好適な組み合わせ等、任意好適な様態で格納されていてもよい。オブジェクトのプライバシ設定は、オブジェクト(または、オブジェクトと関連付けられた特定の情報)がオンラインソーシャルネットワーク内でアクセス、格納、あるいは使用(たとえば、閲覧、共有、修正、コピー、実行、表面化、または特定)可能となる様子を指定し得る。オブジェクトのプライバシ設定によって特定のユーザまたは他のエンティティが当該オブジェクトにアクセス可能となる場合、このオブジェクトは、当該ユーザまたは他のエンティティに対して「可視」と表され得る。非限定的な一例として、オンラインソーシャルネットワークのユーザは、ユーザプロファイルページ上の職務経歴情報にアクセスし得る一組のユーザを識別する当該ユーザプロファイルページのプライバシ設定を指定して、他のユーザの当該情報へのアクセスを除外するようにしてもよい。
特定の実施形態において、オブジェクトのプライバシ設定は、オブジェクトと関連付けられた特定の情報へのアクセスが許可されるべきではないユーザまたは他のエンティティの「ブロックリスト」を指定していてもよい。特定の実施形態において、ブロックリストには、サードパーティエンティティを含んでいてもよい。ブロックリストは、オブジェクトが可視とならない1人または複数人のユーザまたはエンティティを指定していてもよい。非限定的な一例として、ユーザは、当該ユーザと関連付けられた写真アルバムにアクセスできない一組のユーザを指定することにより、これらユーザの写真アルバムへのアクセスを除外するようにしてもよい(一方で、場合によっては、指定の一組のユーザに含まれない特定のユーザが写真アルバムにアクセスできるようにしてもよい)。特定の実施形態において、プライバシ設定は、特定のソーシャルグラフ要素と関連付けられていてもよい。ノードまたはエッジ等のソーシャルグラフ要素のプライバシ設定は、オンラインソーシャルネットワークを用いてソーシャルグラフ要素、当該ソーシャルグラフ要素と関連付けられた情報、または当該ソーシャルグラフ要素と関連付けられたオブジェクトにアクセス可能な方法を指定していてもよい。非限定的な一例として、特定の写真に対応する特定のコンセプトノードは、写真においてタグ付けされたユーザおよび写真においてタグ付けされたユーザの友達のみが当該写真にアクセス可能である旨を指定したプライバシ設定を有していてもよい。特定の実施形態において、プライバシ設定によれば、ユーザは、それぞれのコンテンツ、情報、もしくは行動のソーシャルネットワーキングシステムによる格納/記録または他のシステム(たとえば、サードパーティシステム)との共有をオプトイン可能であってもよいし、オプトアウト可能であってもよい。本開示は、特定の様態での特定のプライバシ設定の使用を記載するが、任意好適な様態での任意好適なプライバシ設定の使用も考えられる。
特定の実施形態において、プライバシ設定は、ソーシャルグラフの1つまたは複数のノードまたはエッジに基づいていてもよい。プライバシ設定は、ソーシャルグラフの1つまたは複数のエッジまたはエッジタイプに対して指定されていてもよいし、ソーシャルグラフの1つまたは複数のノードまたはノードタイプに関して指定されていてもよい。2つのノードを接続する特定のエッジに適用されたプライバシ設定は、ノードに対応する2つのエンティティ間の関係がオンラインソーシャルネットワーク上の他のユーザにとって可視であるかを管理していてもよい。同様に、特定のノードに適用されたプライバシ設定は、ノードに対応するユーザまたはコンセプトがオンラインソーシャルネットワーク上の他のユーザにとって可視であるかを管理していてもよい。非限定的な一例としては、第1のユーザがソーシャルネットワーキングシステムに対してオブジェクトを共有していてもよい。このオブジェクトは、エッジによって第1のユーザのユーザノードに接続されたコンセプトノードと関連付けられていてもよい。第1のユーザは、オブジェクトのコンセプトノードにつながる特定のエッジに適用されるプライバシ設定を指定するようにしてもよいし、コンセプトノードにつながるすべてのエッジに適用されるプライバシ設定を指定するようにしてもよい。非限定的な別の例として、第1のユーザは、特定のオブジェクトタイプの一組のオブジェクト(たとえば、一組のイメージ)を共有していてもよい。第1のユーザは、特定のプライバシ設定を有するものとして当該特定のオブジェクトタイプの第1のユーザと関連付けられたすべてのオブジェクトに関するプライバシ設定を指定するようにしてもよい(たとえば、第1のユーザにより投稿されたすべてのイメージが第1のユーザの友達および/またはイメージにおいてタグ付けされたユーザに対してのみ可視である旨を指定するようにしてもよい)。
特定の実施形態において、ソーシャルネットワーキングシステムは、(たとえば、ウェブページ、モジュール、1つもしくは複数のダイアログボックス、またはその他任意の好適なインターフェースにおいて)「プライバシウィザード」を第1のユーザに提示して、第1のユーザによる1つまたは複数のプライバシ設定の指定を補助するようにしてもよい。プライバシウィザードは、指示、好適なプライバシ関連情報、現在のプライバシ設定、プライバシ設定の変更もしくは確認を指定する第1のユーザからの1つもしくは複数の入力を受け付ける1つもしくは複数の入力フィールド、またはこれらの任意好適な組み合わせを表示していてもよい。特定の実施形態において、ソーシャルネットワーキングシステムは、第1のユーザの現在のプライバシ設定を第1のユーザに表示可能な「ダッシュボード」機能を第1のユーザに提供していてもよい。ダッシュボード機能は、任意適当なタイミングで(たとえば、ダッシュボード機能を求める第1のユーザからの入力後、特定のイベントまたはトリガ動作の発生後に)第1のユーザに表示されるようになっていてもよい。ダッシュボード機能によれば、第1のユーザは、当該第1のユーザの現在のプライバシ設定を任意のタイミングで任意好適な様態に修正可能となり得る(たとえば、第1のユーザをプライバシウィザードにリダイレクトする)。
オブジェクトと関連付けられたプライバシ設定は、アクセス許可またはアクセス拒否の任意好適な粒度を指定していてもよい。非限定的な一例として、アクセスまたはアクセス拒否は、特定のユーザ(たとえば、自身、自身のルームメイト、自身の上司のみ)、特定の分離範囲内のユーザ(たとえば、友達、友達の友達)、ユーザグループ(たとえば、ゲームクラブ、自身の家族)、ユーザネットワーク(たとえば、特定の雇用主の従業員、特定の大学の学生もしくは卒業生)、すべてのユーザ(「公開」)、ユーザ無し(「非公開」)、サードパーティシステム、特定のアプリケーション(たとえば、サードパーティアプリケーション、外部ウェブサイト)のユーザ、他の好適なエンティティ、またはこれらの任意好適な組み合わせに対して指定されていてもよい。本開示は、アクセス許可またはアクセス拒否の特定の粒度を記載するが、アクセス許可またはアクセス拒否の任意好適な粒度も考えられる。
特定の実施形態においては、1つまたは複数のサーバがプライバシ設定を行う認証/プライバシサーバであってもよい。データストアに格納された特定のオブジェクトに対するユーザ(または、他のエンティティ)からのリクエストに応答して、ソーシャルネットワーキングシステムは、当該オブジェクトに対するリクエストをデータストアに送信するようにしてもよい。このリクエストは、当該リクエストと関連付けられたユーザを識別していてもよく、オブジェクトと関連付けられたプライバシ設定に基づいて、ユーザが当該オブジェクトへのアクセスを許可されているものと認証サーバが判定した場合にのみ、オブジェクトがユーザ(または、ユーザのクライアントシステム)に送信されるようになっていてもよい。要求しているユーザがオブジェクトへのアクセスを許可されていない場合、認証サーバは、要求されたオブジェクトがデータストアから読み出されないようにしてもよいし、要求されたオブジェクトがユーザに送信されないようにしてもよい。検索クエリの背景においては、問い合わせているユーザがオブジェクトへのアクセスを許可されている場合(たとえば、オブジェクトのプライバシ設定によって、問い合わせているユーザへの表面化、発見、あるいは可視化が可能な場合)のみ、オブジェクトが検索結果として提供されるようになっていてもよい。特定の実施形態において、オブジェクトは、ユーザのニュースフィードを通じてユーザに可視化されているコンテンツを表していてもよい。非限定的な一例として、1つまたは複数のオブジェクトは、ユーザの「トレンド」ページに対して可視であってもよい。特定の実施形態においては、オブジェクトが特定のユーザに対応していてもよい。このオブジェクトは、特定のユーザと関連付けられたコンテンツであってもよいし、ソーシャルネットワーキングシステムまたは他のコンピュータシステムに格納された特定ユーザのアカウントまたは情報であってもよい。非限定的な一例として、第1のユーザは、オンラインソーシャルネットワークの「知り合いかも(People You May Know)」機能を通じて、または、第1のユーザの友達リストを見て、オンラインソーシャルネットワークの1人または複数人の第2のユーザを見る場合がある。非限定的な一例として、第1のユーザは、それぞれのニュースフィードまたは友達リストにおいて特定の第2のユーザと関連付けられたオブジェクトを見たくない旨を指定するようにしてもよい。オブジェクトのプライバシ設定によってユーザへの表面化、発見、または可視化が可能となっていない場合は、当該オブジェクトが検索結果から除外されるようになっていてもよい。本開示は、特定の様態でのプライバシ設定の実行を記載するが、任意好適な様態でのプライバシ設定の実行も考えられる。
特定の実施形態においては、ユーザと関連付けられた同じタイプの異なるオブジェクトが異なるプライバシ設定を有していてもよい。ユーザと関連付けられた異なるタイプのオブジェクトが異なるタイプのプライバシ設定を有していてもよい。非限定的な一例として、第1のユーザは、当該第1のユーザのステータス更新が公開されているものの、第1のユーザが共有するイメージについては、オンラインソーシャルネットワーク上の第1のユーザの友達に対してのみ可視化される旨を指定するようにしてもよい。非限定的な別の例として、ユーザは、個々のユーザ、友達の友達、フォロワ、ユーザグループ、または法人エンティティ等の異なるタイプのエンティティに対して、異なるプライバシ設定を指定するようにしてもよい。非限定的な別の例として、第1のユーザは、当該第1のユーザが投稿したビデオを閲覧可能なユーザグループを指定する一方、第1のユーザの雇用主にはビデオを閲覧させないようにしてもよい。特定の実施形態においては、異なるユーザグループまたはユーザ構成に対して異なるプライバシ設定が提供されていてもよい。非限定的な一例として、第1のユーザは、当該第1のユーザと同じ大学に通う他のユーザが第1のユーザの写真を閲覧可能な一方、第1のユーザの家族である他のユーザについては、同じ写真を閲覧できない旨を指定するようにしてもよい。
特定の実施形態において、ソーシャルネットワーキングシステムは、特定のオブジェクトタイプのオブジェクトごとに、1つまたは複数のデフォルトのプライバシ設定を提供していてもよい。デフォルトに設定されたオブジェクトのプライバシ設定は、オブジェクトと関連付けられたユーザにより変更されるようになっていてもよい。非限定的な一例として、第1のユーザにより投稿されたすべてのイメージは、第1のユーザの友達に対してのみ可視であるデフォルトのプライバシ設定を有していてもよく、特定のイメージに対して、第1のユーザは、友達および友達の友達に対して可視化されるように、当該イメージのプライバシ設定を変更するようにしてもよい。
特定の実施形態においては、プライバシ設定によって、ソーシャルネットワーキングシステムが如何なる目的でも、ユーザと関連付けられた特定のオブジェクトまたは情報を受信、収集、記録、または格納可能であるかを第1のユーザが(たとえば、オプトインではなくオプトアウトによって)指定可能であってもよい。特定の実施形態においては、プライバシ設定によって、ユーザと関連付けられた特定のオブジェクトまたは情報に対する特定のアプリケーションまたはプロセスのアクセス、格納、または使用が可能であるかを第1のユーザが指定可能であってもよい。プライバシ設定によって、第1のユーザは、オブジェクトまたは情報に対する特定のアプリケーションまたはプロセスのアクセス、格納、または使用をオプトイン可能であってもよいし、オプトアウト可能であってもよい。ソーシャルネットワーキングシステムは、このような情報にアクセスすることにより、他の如何なる目的でも当該情報にアクセスすることなく、特定の機能またはサービスを第1のユーザに提供するようにしてもよい。このようなオブジェクトまたは情報に対するアクセス、格納、または使用の前に、ソーシャルネットワーキングシステムは、オブジェクトまたは情報に対するアクセス、格納、または使用を可能にするアプリケーションまたはプロセス(存在する場合)を動作許可に先立って指定するプライバシ設定の提供をユーザに指示するようにしてもよい。非限定的な一例として、第1のユーザは、オンラインソーシャルネットワークと関連するアプリケーション(たとえば、メッセージングアプリ)を介して、メッセージを第2のユーザに送信するようにしてもよく、また、ソーシャルネットワーキングシステムがこのようなメッセージを格納すべきでなない旨のプライバシ設定を指定するようにしてもよい。
特定の実施形態においては、第1のユーザと関連付けられた特定タイプのオブジェクトまたは情報に対するソーシャルネットワーキングシステムのアクセス、格納、または使用が可能であるかをユーザが指定するようにしてもよい。非限定的な一例として、第1のユーザは、ソーシャルネットワーキングシステムを通じて第1のユーザにより送信されたイメージをソーシャルネットワーキングシステムが格納できない旨を指定するようにしてもよい。非限定的な別の例として、第1のユーザは、当該第1のユーザから特定の第2のユーザに送信されたメッセージをソーシャルネットワーキングシステムが格納できない旨を指定するようにしてもよい。非限定的なさらに別の例として、第1のユーザは、特定のアプリケーションを介して送信されたすべてのオブジェクトをソーシャルネットワーキングシステムが保存できる旨を指定するようにしてもよい。
特定の実施形態においては、プライバシ設定によって、第1のユーザと関連付けられた特定のオブジェクトまたは情報に特定のクライアントシステムまたはサードパーティシステムからアクセス可能であるかを第1のユーザが指定可能であってもよい。プライバシ設定によって、第1のユーザは、特定の機器(たとえば、ユーザのスマートフォン上の電話帳)、特定のアプリケーション(たとえば、メッセージングアプリ)、または特定のシステム(たとえば、電子メールサーバ)からのオブジェクトまたは情報へのアクセスをオプトイン可能であってもよいし、オプトアウト可能であってもよい。また、各機器、システム、もしくはアプリケーションに関するデフォルトのプライバシ設定をソーシャルネットワーキングシステムが提供すること、ならびに/または、背景ごとの特定のプライバシ設定の指定を第1のユーザに指示することが可能である。非限定的な一例として、第1のユーザは、ソーシャルネットワーキングシステムの場所情報サービス機能を利用して、ユーザに近いレストラン等の場所のお薦めを提供するようにしてもよい。第1のユーザのデフォルトのプライバシ設定は、第1のユーザのクライアント機器から提供された場所情報をソーシャルネットワーキングシステムが使用して場所ベースのサービスを提供可能な一方、第1のユーザの場所情報を格納することも、如何なるサードパーティシステムに提供することも不可能である旨を指定していてもよい。その後、第1のユーザは、プライバシ設定を更新して、場所情報のサードパーティイメージ共有アプリケーションによる使用により、写真のジオタグ付けを可能にしてもよい。

Claims (15)

  1. 複数人の話者と関連付けられたオーディオデータを取り込むように構成されたオーディオ取り込みシステムと、
    前記複数人の話者のうちの1人または複数人のイメージを取り込むように構成されたイメージ取り込みシステムと、
    発話処理エンジンであって、
    前記オーディオデータ中の複数の発話セグメントを認識することと、
    前記複数の発話セグメントのうちの発話セグメントごとに、前記イメージに基づいて、前記発話セグメントと関連付けられた話者を識別することと、
    前記複数の発話セグメントそれぞれを転写して、前記複数の発話セグメントのうちの発話セグメントごとに、前記発話セグメントと関連付けられた前記話者の指定を含む前記複数の発話セグメントの転写を生成することと、
    前記転写を解析して、前記転写に由来する付加データを生成することと、
    を行うように構成された発話処理エンジンと、
    を備えたシステム。
  2. 前記複数の発話セグメントを認識するため、前記発話処理エンジンが、前記イメージに基づいて、前記複数の発話セグメントを認識するようにさらに構成され、
    好ましくは、前記複数の発話セグメントのうちの発話セグメントごとに、前記話者を識別するため、前記発話処理エンジンが、前記イメージ中の1つまたは複数の顔を検出するようにさらに構成される、請求項1に記載のシステム。
  3. 前記発話処理エンジンが、各発話セグメントと関連付けられた前記話者の識別情報に基づいて、1つまたは複数の発話認識モデルを選定するようにさらに構成される、請求項2に記載のシステム。
  4. 前記複数の発話セグメントのうちの発話セグメントごとに、前記話者を識別するため、前記発話処理エンジンが、口唇が動いている前記イメージ中の1つまたは複数の顔を検出するようにさらに構成される、請求項3に記載のシステム。
  5. 前記発話処理エンジンが、外部データにアクセスするようにさらに構成され、
    前記複数の発話セグメントのうちの発話セグメントごとに、前記話者を識別するため、前記発話処理エンジンが、
    前記外部データに基づいて、前記話者を識別するようにさらに構成され、
    好ましくは、前記外部データが、カレンダ情報および場所情報のうちの1つまたは複数を含む、請求項1から4のいずれか一項に記載のシステム。
  6. ユーザが着用可能なヘッドマウントディスプレイ(HMD)をさらに備え、
    前記1つまたは複数の発話認識モデルが、前記ユーザの音声認識モデルを含み、
    好ましくは、前記HMDが、人工現実感コンテンツを出力するように構成され、前記人工現実感コンテンツが、ビデオストリームおよびオーディオストリームを含む仮想会議アプリケーションを含む、請求項3から5のいずれか一項に記載のシステム。
  7. ユーザが着用可能なヘッドマウントディスプレイ(HMD)をさらに備え、前記発話処理エンジンが、前記複数の発話セグメントの属性に基づいて、前記HMDの前記ユーザを前記複数の発話セグメントの前記話者として識別するようにさらに構成される、請求項3から5のいずれか一項に記載のシステム。
  8. 前記オーディオ取り込みシステムが、マイクアレイを備え、
    好ましくは、前記付加データが、前記複数人の話者のうちの少なくとも1人と関連付けられた前記発話セグメントの修正版を含むオーディオストリームを含む、請求項1から7のいずれか一項に記載のシステム。
  9. 前記付加データが、前記転写において記載された会集もしくはイベントに対するカレンダ招待、前記転写において識別されたトピックと関連する情報、または前記転写において識別されたタスクを含むタスクリストのうちの1つまたは複数を含む、請求項1から8のいずれか一項に記載のシステム。
  10. 前記付加データが、前記話者が発話する単語の数、前記話者の口調、前記話者が使用するつなぎ語に関する情報、前記話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、前記転写の要約、または前記話者の感情を含む前記転写に関する統計値のうちの少なくとも1つを含む、請求項1から9のいずれか一項に記載のシステム。
  11. 複数人の話者と関連付けられたオーディオデータを取り込むことと、
    前記複数人の話者のうちの1人または複数人のイメージを取り込むことと、
    前記オーディオデータ中の複数の発話セグメントを認識することと、
    前記複数の発話セグメントのうちの発話セグメントごとに、前記イメージに基づいて、前記発話セグメントと関連付けられた話者を識別することと、
    前記複数の発話セグメントそれぞれを転写して、前記複数の発話セグメントのうちの発話セグメントごとに、前記発話セグメントと関連付けられた前記話者の指定を含む前記複数の発話セグメントの転写を生成することと、
    前記転写を解析して、前記転写に由来する付加データを生成することと、
    を含む方法。
  12. 外部データにアクセスすることと、
    前記複数の発話セグメントのうちの発話セグメントごとに、前記外部データに基づいて、前記話者を識別することと、
    をさらに含み、
    好ましくは、前記外部データが、カレンダ情報および場所情報のうちの1つまたは複数を含む、請求項11に記載の方法。
  13. 前記付加データが、前記転写において記載された会集もしくはイベントに対するカレンダ招待、前記転写において識別されたトピックと関連する情報、または前記転写において識別されたタスクを含むタスクリストのうちの1つまたは複数を含む、請求項11または12に記載の方法。
  14. 前記付加データが、前記話者が発話する単語の数、前記話者の口調、前記話者が使用するつなぎ語に関する情報、前記話者が発話する時間の割合、使用される不敬語に関する情報、使用される単語の長さに関する情報、前記転写の要約、または前記話者の感情を含む前記転写に関する統計値のうちの少なくとも1つを含む、請求項11から13のいずれか一項に記載の方法。
  15. 実行された場合に、
    複数人の話者と関連付けられたオーディオデータを取り込むことと、
    前記複数人の話者のうちの1人または複数人のイメージを取り込むことと、
    前記オーディオデータ中の複数の発話セグメントを認識することと、
    前記複数の発話セグメントのうちの発話セグメントごとに、前記イメージに基づいて、前記発話セグメントと関連付けられた話者を識別することと、
    前記複数の発話セグメントそれぞれを転写して、前記複数の発話セグメントのうちの発話セグメントごとに、前記発話セグメントと関連付けられた前記話者の指定を含む前記複数の発話セグメントの転写を生成することと、
    前記転写を解析して、前記転写に由来する付加データを生成することと、
    を行うようにコンピュータシステムの処理回路を設定する命令を含むコンピュータ可読記憶媒体。
JP2022521089A 2019-11-20 2020-10-31 複数のデータソースを用いた発話転写 Pending JP2023503219A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/689,662 2019-11-20
US16/689,662 US11227602B2 (en) 2019-11-20 2019-11-20 Speech transcription using multiple data sources
PCT/US2020/058432 WO2021101695A1 (en) 2019-11-20 2020-10-31 Speech transcription using multiple data sources

Publications (1)

Publication Number Publication Date
JP2023503219A true JP2023503219A (ja) 2023-01-27

Family

ID=73598958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022521089A Pending JP2023503219A (ja) 2019-11-20 2020-10-31 複数のデータソースを用いた発話転写

Country Status (6)

Country Link
US (2) US11227602B2 (ja)
EP (1) EP4062402A1 (ja)
JP (1) JP2023503219A (ja)
KR (1) KR20220104769A (ja)
CN (1) CN114981886A (ja)
WO (1) WO2021101695A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7392259B2 (ja) * 2018-12-04 2023-12-06 日本電気株式会社 学習支援装置、学習支援方法およびプログラム
US11869535B1 (en) * 2019-12-12 2024-01-09 Amazon Technologies, Inc. Character-level emotion detection
JP7248615B2 (ja) * 2020-03-19 2023-03-29 ヤフー株式会社 出力装置、出力方法及び出力プログラム
US11862168B1 (en) * 2020-03-30 2024-01-02 Amazon Technologies, Inc. Speaker disambiguation and transcription from multiple audio feeds
US11404051B2 (en) * 2020-05-21 2022-08-02 Bank Of America Corporation Textual analysis system for automatic language proficiency assessment
US20210407203A1 (en) * 2020-06-29 2021-12-30 Ilteris Canberk Augmented reality experiences using speech and text captions
US20220167052A1 (en) * 2020-11-20 2022-05-26 At&T Intellectual Property I, L.P. Dynamic, user-specific content adaptation
US20220374543A1 (en) * 2021-05-24 2022-11-24 Samsung Electronics Co., Ltd. Method and apparatus for removing privacy sensitive objects in an augmented reality system
WO2024043925A1 (en) * 2022-08-22 2024-02-29 Google Llc System, method, and devices for providing text interpretation to multiple co-watching devices

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6975991B2 (en) * 2001-01-31 2005-12-13 International Business Machines Corporation Wearable display system with indicators of speakers
US6973428B2 (en) * 2001-05-24 2005-12-06 International Business Machines Corporation System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition
US20070133437A1 (en) * 2005-12-13 2007-06-14 Wengrovitz Michael S System and methods for enabling applications of who-is-speaking (WIS) signals
US8700392B1 (en) 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US9324320B1 (en) 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
US10171908B1 (en) 2015-07-27 2019-01-01 Evernote Corporation Recording meeting audio via multiple individual smartphones
US10607609B2 (en) * 2016-08-12 2020-03-31 Magic Leap, Inc. Word flow annotation
US20180123813A1 (en) 2016-10-31 2018-05-03 Bragi GmbH Augmented Reality Conferencing System and Method
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
US10867610B2 (en) 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences

Also Published As

Publication number Publication date
KR20220104769A (ko) 2022-07-26
US11749285B2 (en) 2023-09-05
US20220139400A1 (en) 2022-05-05
CN114981886A (zh) 2022-08-30
WO2021101695A1 (en) 2021-05-27
US20210151058A1 (en) 2021-05-20
US11227602B2 (en) 2022-01-18
EP4062402A1 (en) 2022-09-28

Similar Documents

Publication Publication Date Title
CN112075075B (zh) 用于促进远程会议的方法和计算机化智能助理
US11749285B2 (en) Speech transcription using multiple data sources
US11509616B2 (en) Assistance during audio and video calls
US20220036013A1 (en) In-Call Experience Enhancement for Assistant Systems
KR102002979B1 (ko) 사람-대-사람 교류들을 가능하게 하기 위한 헤드 마운티드 디스플레이들의 레버리징
JP7056055B2 (ja) 情報処理装置、情報処理システム及びプログラム
JP2020502682A (ja) 対話型アシスタントモジュールによるアクセスの条件付き提供
US11006077B1 (en) Systems and methods for dynamically concealing sensitive information
JP2021185478A (ja) 代替インタフェースでのプレゼンテーションのための電子会話の解析
JP2024026295A (ja) 音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション
US20230274740A1 (en) Arbitrating between multiple potentially-responsive electronic devices
JP7152453B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
US20190377757A1 (en) Augmented reality service framework
US11627438B1 (en) Mobile device location-based in person meeting system, software, and computer readable media
US20230367960A1 (en) Summarization based on timing data
US20230072623A1 (en) Artificial Reality Device Capture Control and Sharing
CN116888574A (zh) 共存会话中的数字助理交互
KR20210001798A (ko) 적응형 다중 생체정보를 이용한 고수준 상황인지 기반의 스마트미러 챗봇 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230831