JP7348957B2 - コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング - Google Patents

コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング Download PDF

Info

Publication number
JP7348957B2
JP7348957B2 JP2021561012A JP2021561012A JP7348957B2 JP 7348957 B2 JP7348957 B2 JP 7348957B2 JP 2021561012 A JP2021561012 A JP 2021561012A JP 2021561012 A JP2021561012 A JP 2021561012A JP 7348957 B2 JP7348957 B2 JP 7348957B2
Authority
JP
Japan
Prior art keywords
content
audio data
computing device
captioning
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021561012A
Other languages
English (en)
Other versions
JP2022530201A (ja
Inventor
ブロック,アサ・ジョナス・イブリー
バーフォード,エリオット・チャールズ
トリパルディ,アンソニー・フェリーチェ
ピタロ,ステファニー・ビアンカ
ルイポルド,ヘザー・パトリシア
ケムラー,ブライアン
バン・デマン,ケルジー・ホープ
バー,ナダブ
ベリー,ロバート・ジェイムズ
コーエン,ダニエル
ラマノビッチ,ミッシェル
ヒューム,トーマス・ウィードン
ブロイエル,ニコール・キアナ
シュレシンジャー,ベンジャミン
リー,ジャスティン・ウーヨン
ロカール,ケビン
ローラン,エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2022530201A publication Critical patent/JP2022530201A/ja
Priority to JP2023146081A priority Critical patent/JP2023175757A/ja
Application granted granted Critical
Publication of JP7348957B2 publication Critical patent/JP7348957B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Description

背景
プロが制作した映画およびテレビ番組以外の大半の可聴コンテンツはキャプショニングされていないため、コンテンツは、難聴またはその他の理由でコンテンツを聞くことができない多くのユーザにとってアクセスしにくくなっている。いくつかの自動キャプショニングシステムが利用可能であるが、これらのシステムは高価で、複雑で、維持するのが困難である場合がある。自動キャプショニングシステムの中には、入力としてスピーカへの音声出力を必要とするものもあり、そのようなシステムは、静かな環境でキャプショニングを提供することには適さないであろう。自動キャプショニングシステムの維持に関わるコストおよび複雑さを回避するために、コンピューティングデバイスの中には、キャプショニングのためにコンテンツをリモートサーバにアップロードすることを必要とするクラウドベースのキャプショニングサービスにアクセスするものもあるが、それによって、もしかするとユーザのプライバシおよび利便性が減少する。
概要
ローカルのシステムレベルのサービスとしてコンテンツを自動的にキャプショニングするためのコンピューティングデバイスが記載されている。このコンピューティングデバイスは、入力としてスピーカに送られる音声信号に含まれる情報に頼ることが多い他のキャプショニングシステムとは異なって、コンテンツソース(たとえば、アプリケーション)から出力される音声データから直接キャプションを生成する。コンピューティングデバイスは、音声データにタグ付けされたメタデータ(たとえば、非音声部分)を分析して、音声データがキャプショニングに適しているか否かまたは音声データが他のタイプの音声データ(たとえば、システムサウンド効果)であるか否かを判断してもよい。
音声データがキャプショニングに適していることを特定したことに応答して、および、自動キャプショニングが(たとえば、ユーザ入力を介して)イネーブルにされると判断したことに応答して、コンピューティングデバイスは、機械学習モデルを使用して、音声データから解釈される可聴音の説明を迅速に生成する。コンピューティングデバイスは、可聴コンテンツのアプリケーションソースがどのようなものであろうと、コンピューティングデバイスがコンテンツの音声(たとえば、可聴音信号)を生成するか否かにかかわらず、可聴コンテンツの説明を視覚的に(たとえば、持続的なユーザインターフェイス要素として)提供することができる。このように、音声データが埋め込みキャプションを含んでいなくても、デバイスがサーバをキャプショニングに使用しない場合でも、およびコンピューティングデバイスがミュートされて可聴音を出力していない場合でも、コンピューティングデバイスは、コンテンツの可聴部分を説明するようにシステムレベルの音声をキャプショニングする。
スピーカのための入力として生成される音声信号ではなく元の音声データに頼ることによって、機械学習モデルは、コンテンツソースによって当初意図されたようにコンテンツからの音をより正確に表すキャプションを生成することができる。さらに、機械学習モデルを使用する前に音声データがキャプショニングに適しているか否かを判断することによって、コンピューティングデバイスは、ほぼ確実にキャプショニングに適したものを含んでいない音声データの部分を含む、コンテンツソースによって出力される全ての音声データを分析し過ぎることによってリソースを無駄にすることを回避できる。これにより、より小さなおよび/またはそれほど複雑でない機械学習モデルを使用することができるので、コンピューティングデバイスをより効率的に実行することができる。たとえば、機械学習モデルは、発話を自動的に認識して、発話を含む音声データのみを分析することができる。したがって、機械学習モデルは、音声データを生成するコンピューティングデバイスからローカルに発話を自動的に認識して音を自動的に分類することができ、それによってプライバシおよびオフライン利便性を向上させる。したがって、コンピューティングデバイスは、最低でも自動キャプショニングシステムに対するユーザ満足度を向上させることができるようにシステムレベルの音声を自動的にキャプショニングすることができる。医療ニーズを有するユーザは、このように音声データを自動的にキャプショニングするコンピューティングデバイス110にアクセスすることにより、クオリティ・オブ・ライフの向上を経験することができる。以前はコンテンツの可聴部分を聞くまたは理解することができなかったかもしれないユーザが、今では、医療ニーズを持たないその他のユーザと同様にコンテンツを楽しむことができる。
本開示全体にわたって、コンピューティングデバイスが情報(たとえば、音声データ)を分析し得る例が記載されている。しかし、コンピューティングデバイスは、データを使用するための明確な許可をコンピューティングデバイスのユーザから受け取って初めて、情報を使用してもよい。たとえば、コンピューティングデバイスで実行されるアプリケーションから出力される音声データをコンピューティングデバイスが分析する下記の状況では、個々のユーザは、コンピューティングデバイスのプログラムまたは特徴がたとえば自動キャプショニングのために音声データを収集して利用できるか否かを制御するための入力を提供する機会を与えられてもよい。個々のユーザは、どのようなプログラムが音声データに対処できてどのようなプログラムが音声データに対処できないかを常に制御してもよい。
また、収集された情報は、転送、格納、またはコンピューティングデバイスおよび/もしくはリモートコンピューティングシステムによって使用される前に、1つ以上の方法で事前処理されてもよく、その結果、個人を特定できる情報は除去される。たとえば、例示的なコンピューティングデバイスは、(たとえば、他のデバイスで実行されるモデルを訓練するために)音声データから生成されたキャプションを別のデバイスと共有する前に、音声データを事前処理して、データに埋め込まれたいかなるユーザ特定情報またはデバイス特定情報も確実に除去されるようにしてもよい。したがって、ユーザは、ユーザおよびユーザのデバイスについての情報が収集されるか否か、ならびに収集される場合にはこのような情報がコンピューティングデバイスおよび/またはリモートコンピューティングシステムによってどのように使用され得るかを制御し得る。
一例では、コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法が記載されている。上記方法は、コンピューティングデバイスで実行されるアプリケーションから出力される音声データを、コンピューティングデバイスのオーディオミキサから取得するステップを含み、音声データは、コンテンツの可聴部分を示す非メタデータおよび任意にメタデータを含み、上記方法はさらに、任意に音声データのメタデータから、音声データが自動キャプショニングに適したタイプであるか否かを判断するステップを含む。上記方法はさらに、音声データがキャプショニングに適したタイプであると判断したことに応答して、コンテンツの可聴部分の説明を決定するステップと、コンテンツのビジュアル部分を表示しながら、表示のためにコンテンツの可聴部分の説明を出力するステップとを含む。
異なる例では、コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法が記載されている。上記方法は、コンピューティングデバイスが、コンピューティングデバイスで実行されるアプリケーションのグラフィカルユーザインターフェイスを表示するステップと、グラフィカルユーザインターフェイスを表示しながら、アプリケーションから出力される音声データを取得するステップとを含み、音声データは、コンテンツの可聴部分を示す非メタデータおよび任意にメタデータを含み、上記方法はさらに、任意に音声データのメタデータから、音声データが自動キャプショニングに適したタイプであるか否かを判断するステップを含む。上記方法はさらに、音声データがキャプショニングに適したタイプであると判断したことに応答して、コンテンツの可聴部分の説明を決定するステップと、コンテンツのビジュアル部分をアプリケーションのグラフィカルユーザインターフェイス内に表示しながら、表示のためにコンテンツの可聴部分の説明をアプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップとを含む。
さらに別の例では、コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法が記載されている。上記方法は、コンピューティングデバイスで実行されるアプリケーションからの音声データを自動的にキャプショニングするためのユーザ入力を受信するステップと、ユーザ入力を受信したことに応答して、コンピューティングデバイスで実行されるアプリケーションから出力される音声データを取得するステップとを含み、音声データは、コンテンツの可聴部分を含む。上記方法はさらに、任意に音声データのメタデータから、音声データがキャプショニングに適したタイプであるか否かを判断するステップと、音声データがキャプショニングに適したタイプであると判断したことに応答して、コンテンツの可聴部分の説明を決定するステップとを含む。上記方法はさらに、表示のためにコンテンツの可聴部分の説明をコンテンツのビジュアル部分から区別され、かつアプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップを含む。
さらなる例では、上記の例のいずれかに記載の方法を実行するように構成された少なくとも1つのプロセッサを含むコンピューティングデバイスが記載されている。
さらなる例では、上記の例のいずれかに記載の方法を実行するための手段を含むシステムが記載されている。
別の例では、実行されると上記の例のいずれかに記載の方法のいずれかを実行するようにコンピューティングデバイスのプロセッサを構成する命令を含むコンピュータ読取可能記憶媒体が記載されている。
1つ以上の実現例の詳細について添付の図面および以下の説明で説明する。他の特徴および利点は、説明および図面ならびに特許請求の範囲から明らかであろう。この概要は、詳細な説明および図面にさらに記載されている主題を紹介するために提供されている。したがって、この概要は、必須の特徴を記載していると見なされるべきではなく、クレームされている主題の範囲を限定するように使用されるべきでもない。
自動キャプショニングの1つ以上の局面の詳細について以下で説明する。説明および図中のさまざまな場面での同一の参照番号の使用は、同様の要素を示す。
音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスを示す概念図である。 音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスを示す別の概念図である。 音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスの機械学習モデルを示す概念図である。 音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスの動作の例を示すフローチャートである。 音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。 音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。 音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。 音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。 音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。 音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。 音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。
詳細な説明
プロが制作した映画およびテレビ番組以外の大半の可聴コンテンツはキャプショニングされていないため、コンテンツは、難聴またはその他の理由でコンテンツを聞くことができない多くのユーザにとってアクセスしにくくなっている。手動および自動キャプショニングシステムが存在するが、さまざまな欠点を抱えている。
たとえば、手動キャプショニングシステムの中には、事前に記録されたコンテンツに含まれる埋め込みキャプショニング情報に基づいて可聴コンテンツをキャプショニングするものもあれば、人間オペレータからの入力に基づいて(たとえば、ライブ一斉同報中に)コンテンツをキャプショニングするものもある。
いくつかの自動キャプショニングシステムが利用可能であるが、これらのシステムは高価で、複雑で、維持するのが困難である場合がある。たとえば、自動キャプショニングシステムは、キャプショニングのためのソースとしてサウンドシステムへの音声出力を必要とし得る。キャプショニングシステムは、最小音レベルを維持するためにこの音声出力を必要とし得て、このようなシステムを静かな環境での動作に適さなくする。さらに、音声出力は、キャプショニングのための単なる音よりも多くの可聴音(たとえば、システムサウンド、他の背景アプリケーションからの音)を含み得て、したがって、キャプショニングは、コンピューティングデバイスの全ての音声ソースからの全ての音を必要以上にかつ無差別にキャプショニングすることにより、より時間がかかり、リソースを無駄にする可能性がある。
いくつかの自動キャプショニングシステムは、アプリケーションベースであり、コンピューティングデバイス上でローカルに実行されてもよい。しかし、このようなシステムは、やはり、キャプショニングのためにインターネット接続を必要とし得る。たとえば、自動キャプショニングシステムの維持に関わるコストおよび複雑さを回避するために、コンピューティングデバイスは、キャプショニングのためにコンテンツをリモートサーバにアップロードすることを必要とするクラウドベースのキャプショニングサービスにアクセスすることができるが、それによって場合によってはユーザのプライバシおよび利便性が減少する。
可聴コンテンツの自動キャプショニングを効率的にかつ区別してイネーブルにするための技術について説明する。これらの技術は、(たとえば、インターネットへの)ネットワーク接続を必要とせず、サウンドシステムに伝えられる可聴信号からキャプションを生成しない。その代わりに、例示的なコンピューティングデバイスは、コンピューティングデバイスのオーディオミキサによって収集された音声データからキャプションを自動的に生成することができる。本明細書全体を通して使用される「音声データ」とは、システムオーディオミキサまたはサウンドエンジンに送られる、出力として音を生成するための音声信号に変換される情報を指す。音声データは、それに応答して生成される音声信号と対照をなす。
例示的なコンピューティングデバイスのオペレーティングシステムまたはプラットフォームは、さまざまなコンテンツソース(たとえば、アプリケーション)から出力される音声データを収集して、この音声データをミキシングして音声信号を生成するシステムレベルのオーディオミキサを含む。音声信号は、可聴音を生成するためにサウンドシステムによって増幅されてもよい。音声信号を無差別にキャプショニングする他のキャプショニングシステムとは異なって、例示的なコンピューティングデバイスは、キャプショニングに適したタイプの音声データからの可聴コンテンツのみをキャプショニングすることによって、可聴コンテンツを区別してキャプショニングする。
コンピューティングデバイスは、メタデータ(たとえば、音声データの非音声部分)を分析して、音声データがキャプショニングに適しているか否かまたは音声データが他のタイプの音声データ(たとえば、システムサウンド効果)であるか否かを判断してもよい。音声信号の中に見当たらないメタデータに頼ることにより、コンピューティングデバイスは、キャプショニングに適していない音声データを迅速に除去することができ、したがって、コンピューティングデバイスは、全てのコンテンツ、すなわちキャプショニング不可能なコンテンツまたはキャプショニングされるべきでないコンテンツさえもキャプショニングしようとする他のキャプショニングシステムのようにリソースを無駄にすることを回避できる。
キャプショニングのための音声データを特定したことに応答して、および、自動キャプショニングが(たとえば、ユーザ入力を介して)イネーブルにされたと判断したことに応答して、コンピューティングデバイスは、機械学習を使用して訓練された機械学習モデルを使用して、音声データから解釈される可聴音の説明を迅速に生成する。たとえば、コンピューティングデバイスは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルまたは他の機械学習モデルに頼って、話された音声のトランスクリプション(表記)を決定したり、話されたものではない音声からの特定の雑音およびこの特定の雑音の考えられる発生源を特定したりしてもよい。
コンピューティングデバイスは、可聴コンテンツのソースがどのようなものであっても、コンピューティングデバイスがコンテンツの音声(たとえば、可聴音信号)を生成するか否かにかかわらず、可聴コンテンツの説明を視覚的に(たとえば、持続的なユーザインターフェイス要素として)提供することができる。このように、コンテンツが埋め込みキャプションを含んでいなくても、およびコンピューティングデバイスがミュートされて音声信号を出力しなくても、コンピューティングデバイスは、コンテンツの可聴部分の説明を提供するシステムレベルのキャプショニング動作を実行する。
スピーカへの入力として使用される音声信号ではなく音声データに頼ることによって、機械学習モデルは、コンテンツソースによって当初意図されたように可聴コンテンツからの音をより正確に表すキャプションを生成する。アプリケーションまたは他のコンテンツソースからの音声データは、一般に、コンテンツソースから出力されてから変更されないので、可聴コンテンツをより正確に表し得る。他の自動キャプショニングシステムは、スピーカへの入力として意図される処理済みの音声信号に頼ってもよく、そのため、コンテンツソースによって意図されるものとの差を持ち込み得る。
さらに、機械学習モデルを説明に利用する前に音声データがキャプショニングに適しているか否かを判断することによって、コンピューティングデバイスは、ほぼ確実にキャプショニングに適したものを含んでいない音声データの部分を含む、コンテンツソースによって出力される全ての音声データを分析し過ぎることによってリソースを無駄にすることを回避する。これにより、コンピューティングデバイスは、より小さなおよび/またはそれほど複雑でない機械学習モデルを訓練および実行して、自動発話認識および自動音分類技術を実行することができる。このモデルは、キャプショニングに適していないであろうさまざまなタイプの音声データを無視するようにさらに訓練する必要はない。これにより、さらに、このモデルは、音声データが生成されるコンピューティングデバイス上でローカルに実行可能であり、プライバシおよびオフライン利便性を向上させる。
より正確なデータに頼ることにより、機械学習モデルの精度を向上させることができ、関連するデータのみに頼ることにより、機械学習モデルの効率を向上させることができ、自動キャプショニングシステムに対するユーザ満足度をさらに向上させることができる。また、医療ニーズを有するユーザは、このように音声データを自動的にキャプショニングするコンピューティングデバイス110にアクセスすることにより、クオリティ・オブ・ライフの向上を経験することができる。
説明は、場合によってはスピーカの名前または説明を特定しさえする話されたコンテンツのトランスクリプションを含み得る。場合によっては、可聴音は、話されたものではないコンテンツ、たとえば動物の鳴き声、環境音、および説明に関連している場合もあれば関連していない場合もある他の音を含む。説明は、対応する発生源(たとえば、吠えている犬)の特定を含むいくつかの話されたものではない音(たとえば、犬の吠え声)の説明さえ含んでもよい。
図1は、音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスを示す概念図である。コンピューティングデバイス100は、任意のタイプのモバイルまたは非モバイルコンピューティングデバイスであってもよい。モバイルコンピューティングデバイスとして、コンピューティングデバイスは、携帯電話、ラップトップコンピュータ、ウェアラブルデバイス(たとえば、腕時計、眼鏡、ヘッドホン、衣服)、タブレットデバイス、自動車/車両デバイス、携帯型ゲーミングデバイス、電子リーダデバイス、遠隔制御デバイス、または他のモバイルコンピューティングデバイスであってもよい。非モバイルコンピューティングデバイスとして、コンピューティングデバイス100は、サーバ、ネットワーク端末デバイス、デスクトップコンピュータ、テレビジョンデバイス、エンターテイメントセットトップデバイス、ストリーミングメディアデバイス、テーブルトップアシスタントデバイス、スピーカデバイス、サウンドシステム、非携帯型ゲーミングデバイス、ビジネス会議機器、または他の非モバイルコンピューティングデバイスであってもよい。
コンピューティングデバイス100は、スピーカコンポーネント104とディスプレイコンポーネント106と入力コンポーネント108とを含むユーザインターフェイスデバイス102を含む。コンピューティングデバイス100は、オペレーティングシステム110およびアプリケーション112も含む。コンピューティングデバイス100のこれらのおよび他のコンポーネントは、有線および無線バスおよびリンクの使用を含むさまざまな方法で通信可能に結合されている。コンピューティングデバイス100は、図1に示されているものよりも多くのまたは少ないコンポーネントを含んでいてもよい。
オペレーティングシステム110は、一般に、ユーザインターフェイスデバイス102および他の周辺装置を含むコンピューティングデバイス100の機能を制御する。オペレーティングシステム110は、アプリケーション112などのアプリケーションに実行環境を提供する。オペレーティングシステム110は、タスクスケジューリングおよび他の一般的機能を制御してもよく、一般にシステムレベルユーザインターフェイス114を介してそれを行う。
ユーザインターフェイスデバイス102は、オペレーティングシステム110によって制御されるシステムレベルユーザインターフェイス114への入力および出力を管理する。システムレベルユーザインターフェイス114は、自動キャプションを表示するための持続的なグラフィカル要素120を含む。システムレベルユーザインターフェイス114は、1つ以上のキャプション制御要素122Aおよび122Bをさらに含み、1つ以上のキャプション制御要素122Aおよび122Bは、選択された場合に、ユーザインターフェイス114が持続的なグラフィカル要素120を表示するか否かを含む、オペレーティングシステム110が音声データを自動的にキャプショニングするか否かを制御する。場合によっては、キャプション制御要素122Aおよび122Bは、コンピューティングデバイス100が音声データを自動的にキャプショニングしているか否かを示すアイコンを含み得る。システムレベルユーザインターフェイス114は、アプリケーション112のためのアプリケーションユーザインターフェイス116などの、コンピューティングデバイス100で実行される他のアプリケーションのユーザインターフェイスを表示してもよい。
ディスプレイコンポーネント106およびスピーカコンポーネント104は、別々のものであってもよく、または単一のコンポーネントとして一体化されていてもよい。ディスプレイコンポーネント106は、LED、OLEDおよびLCD技術を含む任意の好適な表示技術から作製することができる。スピーカコンポーネント104(たとえば、単一のスピーカまたは複数のスピーカ)は、入力として音声信号を受信し、この音声信号を可聴音に変換するように構成される。入力コンポーネント108は、マイク、存在感知デバイス、タッチスクリーン、マウス、キーボード、またはユーザ入力を受信するように構成された他のタイプのコンポーネントであってもよい。
ユーザインターフェイスデバイス102は、入力コンポーネント108によって検出された入力についての情報を出力してもよく、オペレーティングシステム110は、検出された入力をユーザインターフェイス114の要素に相関付けてもよい。入力コンポーネント108において入力(たとえば、ジェスチャ)を受信したことに応答して、オペレーティングシステム110および/またはアプリケーション112は、検出された入力についての情報をユーザインターフェイスデバイス102から受信してもよい。オペレーティングシステム110またはアプリケーション112は、入力に応答して機能を実行してもよい。たとえば、オペレーティングシステム110は、入力がキャプション制御要素122Aまたは122Bのいずれかの選択に対応すると判断し、これに応答して、音声データを自動的にキャプショニングしてもよい(または、自動的にキャプショニングすることを中止してもよい)。
アプリケーションユーザインターフェイス116は、映画、動画、映像、または埋め込み音声を有する他のコンテンツなどのメディアコンテンツ118を含む。メディアコンテンツ118は、任意のマルチメディアまたはソーシャルメディアコンテンツであってもよく、これは、映像プラットフォーム、ストリーミングプラットフォーム、ラジオ、ポッドキャスト、ビデオ、ビデオチャットアプリケーション、電話アプリケーション、または、コンピューティングデバイスで実行されるかもしくはコンピューティングデバイスからアクセス可能な音声データのその他のソースからのものを含む。
アプリケーション112は、メディアコンテンツ118をオペレーティングシステム110に出力してもよい。ディスプレイコンポーネント106を使用して、オペレーティングシステム110は、ユーザインターフェイスデバイス102に、アプリケーションユーザインターフェイス116内でメディアコンテンツ118の画像または他の視覚的表示を出力させることができる。コンピューティングデバイス100は、さらに、ユーザインターフェイスデバイス102に、メディアコンテンツ118から生成された音声信号をスピーカコンポーネント104に転送させることができる。このように、オペレーティングシステム110は、スピーカコンポーネント104に、ディスプレイコンポーネント106に表示される画像または他の映像と同時に音声を出力させる。
動作時、オペレーティングシステム110は、コンテンツの可聴部分を自動的にキャプショニングする。コンピューティングデバイスは、キャプショニングに使用される音声データをオペレーティングシステム110のオーディオミキサまたはサウンドエンジンから取得する。アプリケーション112からの音声データは、メディアコンテンツ118の可聴部分を含んでもよい。
たとえば、図1に示されるように、コンピューティングデバイス100のユーザは、ディスプレイコンポーネント106の画面上に表示されているメディアコンテンツ118を見ることによってアプリケーション112と対話してもよい。ユーザは、メディアコンテンツ118のキャプショニングをイネーブルにしたいと思うこともあるが、メディアコンテンツ118は、キャプショニングされていない音声データのみを含んでおり、アプリケーション112がキャプションを生成してメディアコンテンツ118に埋め込む方法はない。
それでも、ユーザ入力(たとえば、選択可能な制御要素122Bが表示されるディスプレイコンポーネント106の画面の場所に対応する入力コンポーネント108の場所におけるタッチジェスチャ)を受信したことに応答して、コンピューティングデバイス100は、アプリケーション112から出力されてオーディオミキサにおいて受信される同一の音声データを処理することによって、メディアコンテンツ118の可聴部分を自動的にキャプショニングしてもよい。
オーディオミキサは、アプリケーション112を含む、オペレーティングシステム110の実行環境内で実行されるさまざまなコンテンツソースから出力される全ての音声データを収集するように構成される。オーディオミキサは、コンテンツを生成するアプリケーションソースと、コンテンツから音を作成するスピーカコンポーネント104との間のインターフェイスを提供する。オーディオミキサは、未処理の音声データバイトストリームを管理し、音声データを分析し、出力対象の音声信号をユーザインターフェイスデバイス102のスピーカコンポーネント104または他の好適な出力コンポーネントに向かわせて、音を作成する。
スピーカコンポーネント104に送られる音声信号からの全ての音声データを無差別にキャプショニングするのではなく、オペレーティングシステム110は、メタデータに頼って、自動キャプショニングをキャプショニングに適したコンテンツの可聴部分に集中させてもよい。言い換えれば、オペレーティングシステム110は、メタデータに基づいて「キャプショニング可能な」音声データを特定し、全ての音声データがキャプショニング可能であると考えられる場合を除いて、全ての音声データをキャプショニングすることを控える。
メタデータのいくつかの例は、なぜアプリケーションソースが音声データを出力しているかを指定する使用インジケータを含む。オーディオミキサは、この使用インジケータを使用して、音声データに関するルーティング、焦点および音量決定を制御してもよい。メタデータは、音をどのように鳴らすべきであるかをさらに指定する他のフラグおよび音声/映像同期のための情報を含んでもよい。
メタデータは、アプリケーションソースが何を再生しているか(たとえば、音楽、映画、スピーチ、ソニフィケーション、不明)を指定するコンテンツタイプを含んでもよい。コンテンツタイプは、コンテンツの一般的カテゴリ(たとえば、あるタイプの映画ストリーミングサービスおよび別のタイプの音楽ストリーミングサービス)を表すことができる。オーディオミキサは、何らかの音声事後処理を選択的に構成し、タイプ識別子からの他の設定を調整することができる。タイプ識別子は、音声データが映画またはテレビ番組に付随するサウンドトラックについてのものである場合には映画タイプを指定してもよい。タイプ識別子は、コンテンツが歌(たとえば、必ずしもサウンドトラックではない)である場合には音楽タイプ識別子を指定してもよく、タイプ識別子は、コンテンツが話された音声(たとえば、ニュース放送、ビデオまたは電話通話)である場合には発話識別子を示してもよい。別の例として、コンテンツタイプは、音声データがユーザアクション(たとえば、キークリックを表す電子音またはサウンド効果)またはイベント(たとえば、ゲーム中のボーナス達成のための音など)に付随するように使用される通知、警告または音についてのものである場合にはソニフィケーションを示してもよい。
オーディオミキサがコンテンツタイプに頼ることに加えて、オペレーティングシステム110は、任意にメタデータに見られるコンテンツタイプ識別子に基づいてキャプショニングのための音声データを特定する。たとえば、オペレーティングシステム110は、映画、音楽またはスピーチといったタイプの音声データを自動的にキャプショニングするが、ソニフィケーションタイプの音声データ、または、未定義のもしくは他の方法で定義される他の音声データについては自動的にキャプショニングしない。このように、コンテンツタイプを使用して、オペレーティングシステム110は、音声データがキャプショニングを必要とする音声を有していそうであるか否か、または、音声データがキャプショニングのためのものではない他の音を示していそうであるか否かを判断することができる。
メディアコンテンツ118に関連付けられた音声データのタイプがキャプショニングに適していると判断したことに応答して、オペレーティングシステム110は、コンテンツ118の可聴部分の説明を決定する。たとえば、オペレーティングシステム110は、可聴コンテンツの説明をキャプションとして生成するように訓練された機械学習モデル(たとえば、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデル)を実行してもよい。機械学習モデルは、話された音声のためのトランスクリプションを含む、音の説明を学習することに適したいかなるタイプのモデルであってもよい。しかし、オペレーティングシステム110によって使用される機械学習モデルは、サイズが小さく、それほど複雑ではないであろう。なぜなら、機械学習モデルは、特定のタイプのコンテンツからの音および話された音声を特定するように訓練されるだけでよいからである。機械学習モデルは、オーディオミキサに送られる全ての音声データを処理する必要はなく、むしろキャプショニングのためのコンテンツを含んでいそうな特定の音声データを処理するだけでよい。これは、プライバシを危険にさらして利便性を犠牲にする、遠隔処理設備およびコンテンツのリモートアップローディングを必要とする他のキャプショニングシステムと対照をなす。
オペレーティングシステム110は、機械学習モデルから説明を受信して、説明をユーザに表示する。説明は、話された会話または歌のトランスクリプションを含み得る。説明は、音の文脈を特定してもよく、または話者、歌手もしくは個々の俳優もしくは演者を特定してもよい。説明は、音の説明、たとえば犬の音声が検出される場合には「犬が吠えている」またはドアをバタンと閉める音声に対しては「ドアが閉まった」を含んでもよい。
メディアコンテンツ118のビジュアル部分をアプリケーションユーザインターフェイス116内に表示しながら、オペレーティングシステム110は、表示のためにコンテンツの可聴部分の説明を出力する。たとえば、オペレーティングシステム110は、アプリケーションユーザインターフェイス116およびユーザインターフェイス114の他のグラフィカル要素の上に現れるユーザインターフェイス114のオーバーレイとして持続的な要素120を表示してもよい。ユーザは、表示画面の異なる領域に移動したり要素のサイズを拡大または縮小したりしてより多くのまたはより少ないキャプションを表示するように持続的な要素120を操作することができる。
スピーカのための入力として生成される音声信号ではなく元の音声データに頼ることによって、オペレーティングシステム110の機械学習モデルは、コンテンツソース(たとえば、アプリケーション112)によって当初意図されたようにメディアコンテンツ118からの音をより正確に表すキャプションを生成する。さらに、機械学習モデルを使用する前に音声データがキャプショニングに適しているか否かを判断することによって、オペレーティングシステム110は、ほぼ確実にキャプショニングに適したものを含んでいない音声データを含む、アプリケーション112によって出力される全ての音声データを分析し過ぎることによってリソースを無駄にすることを回避する。これにより、コンピューティングデバイス110は、より効率的な、より小さなおよび/またはそれほど複雑でない機械学習モデルを実行することができる。したがって、機械学習モデルは、音声データを生成するコンピューティングデバイス110からローカルに自動発話認識および自動音分類技術を実行することができ、それによってプライバシおよびオフライン利便性を向上させる。したがって、コンピューティングデバイス110は、最低でも自動キャプショニングシステムに対するユーザ満足度を向上させることができるようにシステムレベルの音声を自動的にキャプショニングすることができる。医療ニーズを有するユーザは、このように音声データを自動的にキャプショニングするコンピューティングデバイス110にアクセスすることにより、クオリティ・オブ・ライフの向上を経験することができる。
図2は、音声データを自動的にキャプショニングするように構成されたコンピューティングデバイス200を示す別の概念図である。コンピューティングデバイス200は、追加の詳細を有するコンピューティングデバイス100の一例である。図2に示されるように、コンピューティングデバイス200は、携帯電話100-1、ラップトップコンピュータ100-2、テレビ受像機/ディスプレイ100-3、デスクトップコンピュータ100-4、タブレットデバイス100-5、コンピュータ化された腕時計100-6もしくは他のウェアラブルデバイス、または車両100-7にインストールされたコンピューティングシステムであってもよい。
図1に示されるコンポーネントの各々に加えて、コンピューティングデバイス200は、1つ以上のプロセッサ202と、コンピュータ読取可能媒体204と、1つ以上のセンサ210と、1つ以上の入力/出力(I/O)デバイス212と、1つ以上の通信デバイス214とを含む。コンピュータ読取可能媒体212は、プロセッサ102によって実行されたときにアプリケーション112およびオペレーティングシステム110を実行する命令を含む。
プロセッサ202は、1つ以上のコントローラ、マイクロコントローラ、プロセッサ、マイクロプロセッサ、ハードウェアプロセッサ、ハードウェア処理ユニット、デジタル信号プロセッサ、グラフィックスプロセッサ、グラフィックス処理ユニットなどの任意の組み合わせを含んでもよい。プロセッサ202は、コンピュータによって実行可能な命令を処理してコンピューティングデバイス200の動作を制御する一体型のプロセッサおよびメモリサブシステム(たとえば、SoCとして実現される)であってもよい。
センサ210は、コンピューティングデバイスの物理的な動作環境および/またはコンピューティングデバイス200の特徴を示す文脈情報を、物理的な動作環境において機能しながら取得する。センサ210の例としては、動きセンサ、温度センサ、位置センサ、近接センサ、環境光センサ、湿度センサ、圧力センサなどが挙げられる。オペレーティングシステム110は、センサ210によって取得されるセンサ情報に従ってコンピューティングデバイス200の動作を適合させてもよい。
入力/出力デバイス212は、デバイス間、データネットワーク(たとえば、メッシュネットワーク、外部ネットワークなど)間および他のデバイス間の接続および/または通信リンクを提供するデータネットワークインターフェイスを含む、コンピューティングデバイス200ならびに他のデバイスおよび周辺装置との接続性を提供する。入力/出力デバイス212は、コンピューティングデバイス200を任意のタイプのコンポーネント、周辺装置および/または付属デバイスに結合するのに使用することができる。入力/出力デバイス212は、データ入力ポートも含み、このデータ入力ポートを介して、コンピューティングデバイス200へのユーザ入力、ならびに任意のタイプの通信データ、ならびに任意のコンテンツおよび/またはデータソースから受信される音声、映像および/または画像データなどの、任意のタイプのデータ、メディアコンテンツおよび/または入力を受信することができる。
通信デバイス214は、生成された任意のタイプのメディアコンテンツまたはアプリケーション112などのコンピューティングデバイス200で実行される受信したアプリケーションなどのデバイスデータ506の有線および/または無線通信を可能にする。通信デバイス214は、セルラーホン通信および/またはネットワークデータ通信のためのトランシーバも含み得る。
コンピュータ読取可能媒体204は、実行可能な命令(たとえば、ファームウェア、リカバリファームウェア、ソフトウェア、アプリケーション、モジュール、プログラム、機能など)およびデータ(たとえば、ユーザデータ、動作データ)の持続的および非持続的な格納をコンピューティングデバイス200に提供して、実行可能な命令の実行をサポートするように構成される。コンピュータ読取可能媒体204の例としては、揮発性メモリおよび不揮発性メモリ、固定式およびリムーバブルなメディアデバイス、ならびに、実行可能な命令を維持してデータをサポートする任意の好適なメモリデバイスまたは電子データストレージが挙げられる。コンピュータ読取可能媒体204は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、フラッシュメモリ、およびさまざまなメモリデバイス構成における他のタイプのストレージメモリのさまざまな実現例を含み得る。コンピュータ読取可能媒体204は、伝搬信号を除外する。コンピュータ読取可能媒体204は、ソリッドステートドライブ(SSD)またはハードディスクドライブ(HDD)であってもよい。図2の例におけるコンピュータ読取可能媒体204は、アプリケーション112と、オペレーティングシステム110とを含む。
コンピューティングデバイス200のオペレーティングシステム110は、オーディオミキサ206と、キャプションモジュール208とを含む。オーディオミキサ206およびキャプションモジュール208は、オペレーティングシステム110の専門のハードウェアまたはソフトウェアコンポーネントとして実現されてもよい。他の例では、オーディオミキサ206またはキャプションモジュール208は、たとえばオペレーティングシステム110にローカルにインストールされたシステムプラグインまたは追加のアドオンサービスとして、オペレーティングシステム110から切り離されて実現されてもよい。
オーディオミキサ206は、オペレーティングシステム110によって提供される動作環境内で実行されるアプリケーションによって生成される音声データを統合するように構成される。オーディオミキサ206は、アプリケーション112などのアプリケーションからの音声ストリームを組み合わせて、音声出力信号を生成し、この音声出力信号は、組み合わせられてスピーカコンポーネント206から出力されるときに、音声ストリームにコード化された音を再現する。オーディオミキサ206は、他の方法で音声信号を調整してもよく、たとえば焦点、意図および音量を制御してもよい。
キャプションモジュール208は、オーディオミキサ206によって(たとえば、バイトストリームとして)受信されたままの未処理の形態の音声データを自動的にキャプショニングするように構成される。キャプショニングのための全ての事後ミキシングされた音声信号を処理するのではなく、キャプションモジュール208は、オーディオミキサ206において受信された、キャプショニングに適している個々の事前ミキシングされた音声データのストリームを特定する。たとえば、キャプションモジュール208は、システム電子音およびベルの音などの通知またはソニフィケーションタイプの音声データではなく、話された音声タイプの音声データを自動的にキャプショニングしてもよい。キャプションモジュール208は、オーディオミキサ206によって受信されたバイトストリームにフィルタを適用して、キャプショニングに適したタイプの音声データを特定してもよい。キャプションモジュール208は、機械学習モデルを使用して、キャプショニングのために特定された音声データによって表される音の説明を決定する。
図3は、音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスの機械学習モデルを示す概念図である。機械学習モデル300は、キャプションモジュール208の一部であってもよい。すなわち、キャプションモジュール208は、必ずしも音声データを音に変換することなく、コード化された音声データを可聴コンテンツの詳細な説明またはキャプションに自動的に変換するために機械学習モデル300を含んでもよい。コンピューティングデバイス200は、機械学習モデル300をキャプションモジュール208の実行の一部として実行して、音声データ312に見られるコンテンツの可聴部分の説明318を決定してもよい。機械学習モデル300は、1つ以上のタイプの機械学習モデルを含んでもよく、これらの1つ以上のタイプの機械学習モデルは、組み合わせられて、音声データ312に応答して説明318を提供する単一のモデルにされる。
機械学習モデル300は、推論を実行するように構成され、機械学習モデル300は、音声データ312を入力として受信して、音声データ312から機械学習モデル300によって決定される音の説明318(たとえば、キャプション)を出力データとして提供するように訓練される。音声データ312に含まれる全ての注釈(すなわち、注釈付きデータ)に加えて、音声データ312は、キャプショニングのために注釈を付けられなかった注釈なしデータを含んでもよい。機械学習モデル300を使用して推論を実行することにより、キャプションモジュール208は、オペレーティングシステム110のセキュアエンクレーブ内からローカルに音声データ312を処理して、ユーザプライバシおよびセキュリティを確保する。
機械学習モデル300は、さまざまなタイプの機械学習モデルのうちの1つ以上であってもよく、またはさまざまなタイプの機械学習モデルのうちの1つ以上を含んでもよい。また、機械学習モデル300を訓練するのに使用される、本明細書に記載されている機械学習技術は、容易に交換可能であって組み合わせ可能であり得る。特定の例示的な技術について説明してきたが、多くの他の技術が存在しており、本開示の局面と併用することができる。機械学習モデル300は、分類、回帰、クラスタ化、異常検出、推奨生成および/または他のタスクを実行することができる。
機械学習モデル300は、教師あり学習技術を使用して訓練されることができ、たとえば機械学習モデル300は、音声データの対応する例から推論される説明の例を含む訓練データセットに基づいて訓練されることができる。機械学習モデル300は、教師なし学習技術を使用して訓練されることもできる。
機械学習モデル300は、1つ以上の人工ニューラルネットワーク(一種の「ニューラルネットワーク」)であってもよく、または1つ以上の人工ニューラルネットワークを含んでもよい。ニューラルネットワークとして、機械学習モデル300は、ニューロンまたはパーセプトロンと称される、接続されるかまたは完全には接続されていない一群のノードを含み得る。ニューラルネットワークとして、機械学習モデル300は、1つ以上の層に編成され得て、場合によっては、「ディープ」ネットワークとして構成されたときに複数の層を含み得る。ディープネットワークとして、機械学習モデル300は、入力層、出力層、および入力層と出力層との間に位置決めされた1つ以上の隠れ層を含み得る。
機械学習モデル300は、1つ以上の回帰型ニューラルネットワークであってもよく、または1つ以上の回帰型ニューラルネットワークを含んでもよい。たとえば、機械学習モデルは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルとして実現されてもよい。回帰型ニューラルネットワークの例としては、長・短期(LSTM)回帰型ニューラルネットワーク、ゲート付き回帰型ユニット、双方向回帰型ニューラルネットワーク、連続時間回帰型ニューラルネットワーク、ニューラルヒストリコンプレッサ、エコーステートネットワーク、エルマンネットワーク、ジョーダンネットワーク、再帰型ニューラルネットワーク、ホップフィールドネットワーク、完全回帰型ネットワーク、およびシーケンスツーシーケンス構成が挙げられる。
回帰型ニューラルネットワークのノードのうちの少なくとも一部は、周期を形成することができる。回帰型ニューラルネットワークとして構成されると、機械学習モデル300は、固有のシーケンシャルな性質を有する音声データ312などの、シーケンシャルな性質の入力データを処理するのに特に有用であろう。回帰型ニューラルネットワークは、回帰型または有向周期ノード接続を使用することにより、入力データシーケンスの以前の部分から入力データシーケンスの以後の部分に情報を渡すか、またはこの情報を保持することができる。たとえば、機械学習モデル300は、音声データ312の以前の部分と音声データ312の以後の部分との間の回帰型または有向周期ノード接続を使用することにより、以前の部分から以後の部分に情報を渡すか、またはこの情報を保持することができる。
定義上は、音声データ312は、シーケンシャルであり、時系列データ(たとえば、音データ対時間)を含み得る。回帰型ニューラルネットワークとして、機械学習モデル300は、音声データ312を経時的に分析して、音声データ312のキャプションを生成するための話された音および話されたものではないが関連する音を検出または予測することができる。より具体的には、音声データ312からのシーケンシャルな音は、(たとえば、自然言語処理、発話検出または処理のために)話された言葉を文で示すことができる。
機械学習モデル300は、1つ以上の畳み込みニューラルネットワークであってもよく、または1つ以上の畳み込みニューラルネットワークを含んでもよい。畳み込みニューラルネットワークは、学習したフィルタまたはカーネルを使用して入力データに対して畳み込みを実行する1つ以上の畳み込み層を含み得る。畳み込みニューラルネットワークは、静止画像または映像などの画像入力データを分析するときなどの視力問題の診断に有用であることが知られている。しかし、畳み込みニューラルネットワークは、シーケンシャルな音声データ312からキャプションを生成するときなどの音データの自然言語処理にも適用することができる。
機械学習モデル300は、音声データ312を入力データとして受信し、これに応答して説明318を出力データとして提供するように機械学習を使用して訓練されることができる。入力データは、音声データのさまざまなタイプ、形態または変形例を含み得る。例として、さまざまな実現例では、音声データ312は、アプリケーションからオーディオミキサに渡される未処理の事前ミキシングされた音声バイトストリームデータを含み得て、音声データ312は、処理済みのバイトストリームデータも含み得る。
音声データ312を受信したことに応答して、機械学習モデル300は、説明318を提供することができる。出力データは、出力データのさまざまなタイプ、形態または変形例を含み得る。例として、さまざまな実現例では、出力データは、表示されているビジュアルコンテンツに対応する可聴コンテンツの説明を含み得る。
機械学習モデル300は、オフラインの態様で訓練されてもよく、またはオンラインの態様で訓練されてもよい。オフライン訓練(バッチ学習としても知られている)では、機械学習モデル300は、静的な訓練データセット全体で訓練され、オンライン学習では、機械学習モデル300は、新たな訓練データが利用可能になったときに(たとえば、機械学習モデル300を使用して推論を実行している間に)連続的に訓練(または、再訓練)される。たとえば、機械学習モデル300は、最初は、可聴コンテンツに既に適用されているキャプション(たとえば、映画キャプション)を再現するように訓練され得る。機械学習モデル300を使用して音声データ312の説明を推論するので、説明および音声データ312の対応する部分は、機械学習モデル300が常に説明を改良することを可能にするための新たな訓練データとして、機械学習モデル300にフィードバックされ得る。ユーザは、エラーがあるとして特定の説明にフラグを立てるための入力を機械学習モデル300に提供する機会を与えられてもよい。説明が誤っているかもしれないという信号を機械学習モデル300の訓練に使用して、将来予測を向上させることもできる。
キャプションモジュール208の一部として、機械学習モデル300は、オペレーティングシステム110の一部であってもよく、そのため、自動キャプショニングのための音声データを安全かつプライベートに処理するようにセキュアエンクレーブに含まれてもよい。オペレーティングシステム110と対話するアプリケーションは、機械学習モデル300と対話して音声データ312を説明318に処理してもよい。たとえば、アプリケーション112は、アプリケーションプログラミングインターフェイス(API)(たとえば、全てのアプリケーションにわたって共通のパブリックなAPI)を使用して、オペレーティングシステム110を介してモデル300と通信してもよい。
図4は、音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスの動作400の例を示すフローチャートである。図1および図2のコンピューティングデバイス100または200が動作400を実行してもよい。動作400は、より多くのまたはより少ない動作を含んで、図4に示される順序とは異なる順序で実行されてもよい。動作400は、コンピューティングデバイス200の文脈において以下に記載されている。
402において、コンピューティングデバイス200は、個人データを利用して自動キャプショニングを実行するための同意を取得する。たとえば、コンピューティングデバイス200は、コンピューティングデバイス200が音声データを使用するための明確な許可をコンピューティングデバイス200のユーザから受け取って初めて、音声データを使用してキャプションを生成してもよい。
404において、コンピューティングデバイス200は、アプリケーションのグラフィカルユーザインターフェイスを表示する。たとえば、コンピューティングデバイス200は、ユーザインターフェイス114を表示してアプリケーションユーザインターフェイス116を表示するようにディスプレイコンポーネント108に指示してもよい。
404において、コンピューティングデバイス200は、コンテンツの可聴部分を含む音声データをアプリケーションから取得する。たとえば、アプリケーション112は、メディアコンテンツ118を翻訳して再生してもよい。キャプショニングを提供するために、たとえばメディアコンテンツ118が注釈付きキャプションを含まない場合には、キャプションモジュール208は、音声データがオーディオミキサ206において受信されたときに、アプリケーション112から出力される音声データを抽出してもよい。
406において、コンピューティングデバイス200は、音声データがキャプショニングに適しているか否かを判断する。たとえば、キャプションモジュール208は、通知音およびコンテンツに付随する他のタイプの音などの、キャプショニングを必要としないタイプの音声データを除去してもよい。キャプションモジュール208は、任意に音声データに埋め込まれたメタデータに見られるタイプ識別子に基づいて、音声データがキャプショニング用であるか否かを判断する。キャプションモジュール208は、任意に注釈(事前に作成されたキャプション)が音声データに含まれていることを示すメタデータに基づいて、音声データがキャプショニングに適しているか否かを判断する。音声データが既にキャプションを有していると判断したことに応答して、キャプションモジュール208は、自動キャプショニングを実行することをあきらめて、事前に追加されたキャプションを説明の中に表示してもよい。
オペレーティングシステム110およびオーディオミキサ206は、アプリケーションが出力に割り当て得るさまざまなタイプの音声データを定義してもよい。コンピューティングデバイス200で実行される他のアプリケーションのように、アプリケーション112は、APIを使用して、音声データをオーディオミキサ206に出力する。APIは、たとえばデータから決定される音声出力を正しくミキシングして分散させる際にオーディオミキサ206を支援するために、メタデータ内の音声データタイプを指定するためのパラメータを含んでもよい。音を導くために音声データタイプに頼る代わりに、キャプションモジュール208は、任意にメタデータに見られるタイプ識別子を使用して、キャプショニングを実行するか否かを迅速かつ容易に判断する。具体的には、キャプションモジュール208は、特定のタイプの音声データ、音声データの特定のフォーマット、期間、または他の品質および特徴を指定して、音声データをキャプショニングできるか否かを判断してもよい。キャプショニングに適しているであろういくつかのタイプの音声データは、映画タイプの音声データ、音楽タイプの音声データ、および話されたタイプの音声データを含む。対照的に、ソニフィケーションタイプの音声データおよび他の未定義の音声データタイプは、キャプショニングには適していないであろう。なぜなら、音がコンテンツではなくイベントまたはユーザアクションを伝えることを意図したものであるからである。
音声データがキャプショニングに適していない場合、414において、コンピューティングデバイス200は、コンテンツのビジュアル部分を表示する。たとえば、コンピューティングデバイス200は、ディスプレイコンポーネント108にメディアコンテンツ118を表示してもよい。
しかし、406において音声データがキャプショニングに適しているとコンピューティングデバイス200が判断した場合、コンピューティングデバイス200は、自動キャプショニングがユーザによって選択されたか否かに基づいて、データを自動的にキャプショニングするか否かを依然として判断する。たとえば、414において、ユーザがユーザインターフェイス114の設定メニューまたはオペレーティングシステム110において自動キャプショニングをイネーブルにしなかった場合、コンピューティングデバイス200は、音声データを自動的にキャプショニングすることを控えて、その代わりに、説明的なキャプションを生成することなくコンテンツのビジュアル部分を表示する。ユーザが設定メニューなどから適切なオプションを選択することによって自動キャプショニングをイネーブルにした場合、410において、キャプションモジュール208は、機械学習モデルを使用して、コンテンツの可聴部分のための説明を決定する。たとえば、キャプションモジュール208は、アプリケーション112などのアプリケーションから出力される未処理の音声データを取り込むように訓練される回帰型ニューラルネットワークに基づいてエンドツーエンド自動発話認識モデルを実行して、音声データから話された言葉および話されたものではない音を特定して、最終的に、話された言葉を書き言葉に起こし、話されたものではない音を、キャプションとして表示するための音の書き言葉による説明に変換してもよい。
キャプションモジュール208は、さまざまな方法でトランスクリプトおよび音の書き言葉による説明の精度を向上させることができ、このさまざまな方法は、コンピューティングデバイス200の文脈に基づいてエンドツーエンド自動発話認識モデルにバイアスをかけることによる方法を含む。たとえば、キャプションモジュール208は、画面上に表示されたコンテンツのビジュアル部分または他の情報に基づいてモデルにバイアスをかけてもよい。たとえば、可聴ナレーションを含むプレゼンテーション(たとえば、スライドショー)の可聴部分の説明を生成する際に、エンドツーエンド自動発話認識モデルは、説明を生成するために、プレゼンテーションのスライドに含まれるテキストまたは画像の部分を使用してバイアスをかけられてもよく、それによって説明の精度を向上させる。キャプションモジュール208は、位置情報およびコンピューティングデバイス200で実行される他のアプリケーションについての情報などの他のタイプの文脈情報を使用して、機械学習モデルにバイアスをかけてもよい。
412において、コンピューティングデバイス200は、説明を表示する。たとえば、キャプションモジュール208は、機械学習モデル300が未処理の音声ストリームをアプリケーション112から受信したときに生成される説明の表示を出力してもよい。
コンピューティングデバイス200は、場合によっては、説明を表示する前に説明の一部を翻訳することができる。たとえば、キャプションモジュール208は、オペレーティングシステム110から、ユーザの好ましい言語を判断し、任意に説明を生成しながら音声コンテンツを翻訳してもよく、その結果、説明のテキストは、音声コンテンツの元の言語ではなくユーザの好ましい言語で書かれる。このように、コンテンツの音声が中国語または英語などの異なる言語で記録されていたとしても、たとえば日本のユーザは、日本語または他の好ましい言語で可聴コンテンツの説明を見ることができる。
414において、コンピューティングデバイス200は、説明と同時にコンテンツのビジュアル部分を表示する。オペレーティングシステム110は、説明を持続的なグラフィカル要素にフォーマットしてもよく、ユーザは、表示のために出力されるメディアコンテンツ118の可聴部分の説明を読むためにアプリケーションユーザインターフェイスの上であちこち動き回ることができる。
図5A~図5Gの各々は、音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。図5A~図5Gは、コンピューティングデバイス200の文脈において連続して記載されている。
図5Aの例では、コンピューティングデバイス200は、ディスプレイコンポーネント108にユーザインターフェイス114を表示する。ユーザインターフェイス114は、オペレーティングシステム110に関連付けられ、アプリケーション112によって制御されるアプリケーションユーザインターフェイス116を表示する。アプリケーション112は、アプリケーションユーザインターフェイス116内にメディアコンテンツ118を含む。
図5Bは、設定メニュー502を表示するためのユーザ入力を受信したことに応答するユーザインターフェイス114のスクリーンショットである。図5Bの例では、設定メニュー502は、音量制御、警告音設定504、ミュート制御などを調整するための音声設定メニューである。また、コンピューティングデバイス200は、設定メニューの下方にキャプション制御要素122Aを表示する。コンピューティングデバイス200は、キャプション制御要素122Aのユーザ選択を検出したことに応答して、音声データを自動的にキャプショニングするためのユーザ入力を判断する。たとえば、図5Cは、選択に応答してキャプション制御要素122Aと置換されたキャプション制御要素122Bを示す。
場合によっては、キャプション制御要素122Bの選択を受信したことに応答して、コンピューティングデバイス200は、コンピューティングデバイス200上でコンテンツの可聴部分をキャプショニングすることを自動的に中止する。このように、制御要素122Aおよび122Bは、自動キャプショニングを迅速に開始および停止させることができる能力をユーザに提供する。
図5Dでは、選択に応答して、コンピューティングデバイスは、機械学習モデルを使用して、アプリケーション112から出力された音声データを自動的にキャプショニングする。コンピューティングデバイス200は、出力に関連付けられた信頼水準を含むキャプションモジュール208からの出力に基づいて、メディアコンテンツ118の可聴部分の説明を生成する。
オペレーティングシステム110は、ディスプレイコンポーネント108に、オペレーティングシステム110がユーザインターフェイス114内に含んでいる持続的な要素506内に説明を表示するようにさせてもよい。場合によっては、オペレーティングシステム110は、スピーカコンポーネント106(たとえば、コンピューティングデバイス200のスピーカ、ヘッドホンジャックまたは他のサウンドシステム)を使用してコンテンツの可聴部分を出力することを控えながら持続的な要素506を表示してもよい。他のキャプショニングシステムとは異なって、コンピューティングデバイス200は、可聴音を生成することなくコンテンツをキャプショニングすることができる。他の場合には、オペレーティングシステム110は、聴覚補助機能を提供して、スピーカコンポーネント106(たとえば、コンピューティングデバイス200のスピーカ、ヘッドホンジャックまたは他のサウンドシステム)を使用してコンテンツの可聴部分を出力しながら同時に持続的な要素506を表示してもよい。
図5Eの例では、コンピューティングデバイス200は、持続的な要素506をユーザインターフェイス114の第1の場所からユーザインターフェイス114の第2の場所に移動させており、これは、どのようにして持続的な要素506がメディアコンテンツ118から切り離されて区別されるかを示している。コンピューティングデバイス200のユーザは、ユーザインターフェイスの第1の場所に対応する入力コンポーネント110の場所においてジェスチャを提供し、ユーザインターフェイス114の第2の場所に対応する入力コンポーネントの異なる場所まで入力をドラッグすることができる。コンピューティングデバイス200は、持続的な要素506がジェスチャとともに移動するようにさせてもよい。
このように、図5Eの例は、持続的な要素506に関連付けられたユーザ入力を受信したことに応答して、コンピューティングデバイス200が持続的な要素をアプリケーションユーザインターフェイス116およびユーザインターフェイス114の第1の部分から区別されるように移動させて、アプリケーションユーザインターフェイス116およびユーザインターフェイス114の第2の異なる部分を見えにくくしてもよいことを示している。これにより、ユーザは、音声データがキャプショニングされて常にユーザインターフェイス114の上に表示されている間に、マルチタスキングを実行する、たとえばユーザインターフェイス116内に表示されているコンテンツをスクロールすることができる。
図5Fの例では、コンピューティングデバイス200は、持続的な要素506を第1のサイズから第2の(より大きなまたはより小さな)サイズに拡大しており、これは、どのようにして持続的な要素506がカスタマイズ可能であるかを示している。コンピューティングデバイス200のユーザは、持続的な要素を引き伸ばしたり持続的な要素を縮小したりするためのジェスチャを、持続的な要素506に対応する入力コンポーネント110の場所において提供することができる。場合によっては、持続的な要素506に関連付けられたユーザ入力を受信したことに応答して、コンピューティングデバイス200は、持続的な要素506のサイズを変更して、コンテンツの可聴部分から生成される以前または以後の説明を表示してもよい。このように、コンピューティングデバイス200は、ユーザ入力(たとえば、ジェスチャ)に対するサイズの変更に伴って持続的な要素506のサイズを変更させ、その結果、特定の時点でどれぐらいの説明が持続的な要素506に含まれるかを調整してもよい。
図5Gの例では、持続的な要素506内に表示されているコンテンツの可聴部分の説明は、コンテンツの可聴部分のさまざまな部分について話されたものの発生源または話されたものではないものの発生源を特定するテキストを含む。たとえば、持続的な要素506は、キャプションモジュール208の機械学習モデルが恐らくライオンからの大きなうなり声を特定したことを表示している。また、話されたものではない音声がコンテンツの可聴部分からの話された音声のトランスクリプションであることを示すテキストも持続的な要素506に含まれている。たとえば、メディアコンテンツ118の分かりやすいキャプションを提供するために、メディアコンテンツ118における記者の台詞のトランスクリプションは、ライオンのうなり声の表示の中またはその周辺に表示されている。
一般に、コンピューティングデバイス200は、持続的な要素506内の説明の一部として、雑音の説明および雑音の発生源の表示を含んでもよい。雑音は、動物を発生源とする動物雑音、環境要因からの環境雑音などを含んでもよい。キャプションモジュール208の機械学習モデルは、音声データからの話された音声および話されたものではない音声を特定し、これらの音声を、コンピューティングデバイス200のユーザが可聴コンテンツを理解するのに十分な説明により表現するように訓練される。
第1項
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスで実行されるアプリケーションから出力される音声データを、上記コンピューティングデバイスのオーディオミキサから取得するステップを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップと、上記音声データがキャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、上記コンテンツのビジュアル部分を表示しながら、表示のために上記コンテンツの上記可聴部分の上記説明を出力するステップとを備える、方法。
第2項
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第1項に記載の方法。
第3項
上記コンテンツの上記可聴部分の上記説明は、上記コンテンツの上記可聴部分からの話された音声のトランスクリプションを含む、第1項および第2項のいずれか1項に記載の方法。
第4項
上記コンテンツの上記可聴部分の上記説明は、上記コンテンツの上記可聴部分からの話されたものではない音声の説明を含む、第1項から第3項のいずれか1項に記載の方法。
第5項
上記話されたものではない音声は、特定の発生源からの雑音を含み、上記特定の発生源からの上記雑音の説明は、上記特定の発生源の表示を含む、第4項に記載の方法。
第6項
上記雑音は、動物を発生源とする動物雑音を含み、または上記雑音は、動物を発生源としない環境雑音を含む、第5項に記載の方法。
第7項
上記コンテンツの上記可聴部分の上記説明を決定するステップは、上記コンピューティングデバイスが、機械学習モデルを実行するステップを含み、上記機械学習モデルは、上記コンテンツの上記可聴部分の上記説明を決定するために音声データから説明を決定するように訓練される、第1項から第6項のいずれか1項に記載の方法。
第8項
上記機械学習モデルは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルを含む、第7項に記載の方法。
第9項
上記コンテンツの上記可聴部分を示す上記データは、キャプショニングのために注釈を付けられていない注釈なしデータを含む、第1項から第8項のいずれか1項に記載の方法。
第10項
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスが、上記コンピューティングデバイスで実行されるアプリケーションのグラフィカルユーザインターフェイスを表示するステップと、上記グラフィカルユーザインターフェイスを表示しながら、上記アプリケーションから出力される音声データを取得するステップとを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データが自動キャプショニングに適したタイプであるか否かを判断するステップと、上記音声データが自動キャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、上記コンテンツのビジュアル部分を上記アプリケーションの上記グラフィカルユーザインターフェイス内に表示しながら、表示のために上記コンテンツの上記可聴部分の上記説明を上記アプリケーションの上記グラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップとを備える、方法。
第11項
上記説明は、上記コンテンツの上記可聴部分から抽出された話された音声のトランスクリプション、または、上記コンテンツの上記可聴部分から抽出された話されたものではない音声を示すテキストのうちの少なくとも1つを含む、第10項に記載の方法。
第12項
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第10項から第11項のいずれか1項に記載の方法。
第13項
上記説明は、上記コンテンツの上記可聴部分のさまざまな部分について人間を発生源とするか人間以外を発生源とするかを特定するテキストを含む、第10項から第12項のいずれか1項に記載の方法。
第14項
上記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、上記コンテンツの上記可聴部分から生成される以前または以後の説明を表示するように上記持続的な要素のサイズを変更するステップをさらに備える、第10項から第13項のいずれか1項に記載の方法。
第15項
上記持続的な要素は、上記アプリケーションの上記グラフィカルユーザインターフェイスの第1の部分を見えにくくすることによって表示のために出力され、上記方法はさらに、上記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、上記アプリケーションの上記グラフィカルユーザインターフェイスの第2の部分を見えにくくするために、上記アプリケーションの上記グラフィカルユーザインターフェイスの上記第1の部分から区別されるように上記持続的な要素を移動させるステップを備える、第10項から第14項のいずれか1項に記載の方法。
第16項
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスで実行されるアプリケーションからの音声データを自動的にキャプショニングするためのユーザ入力を受信するステップと、上記ユーザ入力を受信したことに応答して、上記コンピューティングデバイスで実行される上記アプリケーションから出力される上記音声データを取得するステップとを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップと、上記音声データがキャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、表示のために上記コンテンツの上記可聴部分の上記説明を上記コンテンツのビジュアル部分から区別され、かつ上記アプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップとを備える、方法。
第17項
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第16項に記載の方法。
第18項
前記音声データを自動的にキャプショニングするための前記ユーザ入力を受信するステップは、前記コンピューティングデバイスの音声設定メニュー内にキャプション制御要素を表示するステップと、前記キャプション制御要素のユーザ選択を検出したことに応答して、前記音声データを自動的にキャプショニングするための前記ユーザ入力を受信するステップとを含む、第16項または第17項のいずれか1項に記載の方法。
第19項
前記キャプション制御要素の後続の選択を受信したことに応答して、前記コンピューティングデバイス上で前記コンテンツの前記可聴部分をキャプショニングすることを自動的に中止するステップをさらに備える、第18項に記載の方法。
第20項
前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記コンピューティングデバイスのスピーカ、ヘッドホンジャックまたは他のサウンドシステムを使用して前記コンテンツの前記可聴部分を出力することを控えながら前記説明を出力するステップを含む、第16項から第19項のいずれか1項に記載の方法。
第21項
前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記コンピューティングデバイスのスピーカ、ヘッドホンジャックまたは他のサウンドシステムを使用して前記コンテンツの前記可聴部分を出力しながら前記説明を出力するステップを含む、第16項から第19項のいずれか1項に記載の方法。
第22項
音声データの説明を決定するように機械学習モデルを訓練するステップをさらに備え、前記説明を決定するステップは、前記機械学習モデルを使用して前記説明を決定するステップを含む、第1項から第21項のいずれか1項に記載の方法。
第23項
前記機械学習モデルを訓練するステップは、以前にキャプショニングされたコンテンツを使用して、前記以前にキャプショニングされたコンテンツの音声から前記以前にキャプショニングされたコンテンツに埋め込まれたキャプションを推論するように前記機械学習モデルを構成するステップを含む、第22項に記載の方法。
第24項
前記機械学習モデルを訓練するステップは、前記機械学習モデルへの訓練入力として前記説明を使用するステップを含む、第22項に記載の方法。
第25項
第1項から第24項に記載の方法のいずれかを実行するように構成された少なくとも1つのプロセッサを備えるコンピューティングデバイス。
第26項
第1項から第24項に記載の方法のいずれかを実行するための手段を備えるシステム。
第27項
実行されると第1項から第24項に記載の方法のいずれかを実行するようにコンピューティングデバイスのプロセッサを構成する命令を備えるコンピュータ読取可能記憶媒体。
本開示のさまざまな好ましい実施形態が上記の説明に記載され、図面に示されているが、本開示はそれに限定されるものではなく、添付の特許請求の範囲内で実施されるようにさまざまに具体化されてもよいということがはっきりと理解されるべきである。上記の説明から、以下の特許請求の範囲によって規定される本開示の精神および範囲から逸脱することなくさまざまな変更がなされてもよいということが明らかであろう。

Claims (15)

  1. コンピュータによって実現される方法であって、
    コンピューティングデバイスのプロセッサが、前記コンピューティングデバイスで実行されるアプリケーションから出力される音声データを、前記コンピューティングデバイスのオーディオミキサから取得するステップを備え、前記音声データは、コンテンツの可聴部分を示す非メタデータと、当該音声データにタグ付けされたメタデータであって前記コンテンツのタイプを示すタイプ識別子を有したメタデータとを含み、前記方法はさらに、
    前記プロセッサが、前記音声データにタグ付けされた前記メタデータが有する前記タイプ識別子はャプショニングに適したコンテンツのタイプを示すか否かを判断するステップと、
    前記タイプ識別子がキャプショニングに適したタイプを示すと判断したことに応答して、前記プロセッサが、前記キャプショニングのために前記コンテンツの前記可聴部分の説明を決定するステップと、
    記プロセッサが、表示のために前記コンテンツの前記可聴部分の前記説明を出力するステップとを備える、方法。
  2. 前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記プロセッサが、表示のためにキャプション制御要素を出力するステップを、含み、
    前記キャプション制御要素は、前記コンピューティングデバイスが、前記キャプショニングを実施していることを示すアイコンを含む、請求項1に記載の方法。
  3. 前記コンテンツの前記可聴部分の前記説明は、前記コンテンツの前記可聴部分からの話された音声のトランスクリプションを含む、請求項1または2に記載の方法。
  4. 前記コンテンツの前記可聴部分の前記説明は、前記コンテンツの前記可聴部分からの話されたものではない音声の説明を含む、請求項1から3のいずれか1項に記載の方法。
  5. 前記話されたものではない音声は、特定の発生源からの雑音を含み、前記特定の発生源からの前記雑音の前記説明は、前記特定の発生源の表示を含む、請求項4に記載の方法。
  6. 前記雑音は、動物を発生源とする動物雑音を含み、または
    前記雑音は、動物を発生源としない環境雑音を含む、請求項5に記載の方法。
  7. 前記コンテンツの前記可聴部分の前記説明を決定するステップは、前記コンピューティングデバイスの前記プロセッサが、機械学習モデルを実行するステップを含み、前記機械学習モデルは、前記コンテンツの前記可聴部分の前記説明を決定するために前記音声データから説明を決定するように訓練される、請求項1から6のいずれか1項に記載の方法。
  8. 前記機械学習モデルは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルを含む、請求項7に記載の方法。
  9. 前記コンテンツの前記可聴部分を示す前記非メタデータは、キャプショニングのために注釈を付けられていない注釈なしデータを含む、請求項1から8のいずれか1項に記載の方法。
  10. 前記説明は、前記コンテンツの前記可聴部分から抽出された話されたものではない音声を示すテキストを含む、請求項1から9のいずれか1項に記載の方法。
  11. 前記説明は、前記コンテンツの前記可聴部分のさまざまな部分について人間を発生源とするか人間以外を発生源とするかを特定するテキストを含む、請求項1から10のいずれか1項に記載の方法。
  12. 前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記プロセッサが、表示のために、前記コンテンツのビジュアル部分から区別され、かつ前記アプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として、前記コンテンツの前記可聴部分の前記説明を出力するステップを含む、請求項1から11のいずれか1項に記載の方法。
  13. 前記プロセッサが、前記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、前記コンテンツの前記可聴部分から生成される以前または以後の説明を表示するように前記持続的な要素のサイズを変更するステップをさらに備える、請求項12に記載の方法。
  14. 請求項1から13のいずれか1項に記載の方法を実行するように構成された少なくとも1つのプロセッサを備えるコンピューティングデバイス。
  15. 請求項1から13のいずれか1項に記載の方法をプロセッサに実行させるプログラム。
JP2021561012A 2019-05-02 2019-06-03 コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング Active JP7348957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023146081A JP2023175757A (ja) 2019-05-02 2023-09-08 コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962842017P 2019-05-02 2019-05-02
US62/842,017 2019-05-02
PCT/US2019/035164 WO2020222851A1 (en) 2019-05-02 2019-06-03 Automatically captioning audible parts of content on a computing device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023146081A Division JP2023175757A (ja) 2019-05-02 2023-09-08 コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング

Publications (2)

Publication Number Publication Date
JP2022530201A JP2022530201A (ja) 2022-06-28
JP7348957B2 true JP7348957B2 (ja) 2023-09-21

Family

ID=66913088

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021561012A Active JP7348957B2 (ja) 2019-05-02 2019-06-03 コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
JP2023146081A Pending JP2023175757A (ja) 2019-05-02 2023-09-08 コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023146081A Pending JP2023175757A (ja) 2019-05-02 2023-09-08 コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング

Country Status (7)

Country Link
US (1) US20220148614A1 (ja)
EP (1) EP3963580A1 (ja)
JP (2) JP7348957B2 (ja)
KR (2) KR20240013294A (ja)
CN (1) CN113692619A (ja)
DE (1) DE112019007274T5 (ja)
WO (1) WO2020222851A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210350790A1 (en) * 2020-05-06 2021-11-11 Spotify Ab Systems and methods for inferring the language of media content item
US11857877B2 (en) * 2021-12-23 2024-01-02 Ati Technologies Ulc Automatic in-game subtitles and closed captions
DE102022003089A1 (de) 2022-08-23 2024-02-29 Mercedes-Benz Group AG Signalausgabevorrichtung und Kraftfahrzeug mit einer solchen Signalausgabevorrichtung
US12003825B1 (en) * 2022-09-21 2024-06-04 Amazon Technologies, Inc. Enhanced control of video subtitles

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005045503A (ja) 2003-07-28 2005-02-17 Toshiba Corp 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
JP2008079018A (ja) 2006-09-21 2008-04-03 Matsushita Electric Ind Co Ltd 字幕生成装置、字幕生成方法および字幕生成プログラム
JP2015212732A (ja) 2014-05-01 2015-11-26 日本放送協会 音喩認識装置、及びプログラム
WO2016075781A1 (ja) 2014-11-12 2016-05-19 富士通株式会社 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
US20170278525A1 (en) 2016-03-24 2017-09-28 Google Inc. Automatic smoothed captioning of non-speech sounds from audio

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7221405B2 (en) * 2001-01-31 2007-05-22 International Business Machines Corporation Universal closed caption portable receiver
US7050109B2 (en) * 2001-03-02 2006-05-23 General Instrument Corporation Methods and apparatus for the provision of user selected advanced close captions
JP4486030B2 (ja) * 2005-11-29 2010-06-23 京セラ株式会社 放送受信機能付き携帯通信端末
US20150228274A1 (en) * 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
WO2015038749A1 (en) * 2013-09-13 2015-03-19 Arris Enterprises, Inc. Content based video content segmentation
CN103561217A (zh) * 2013-10-14 2014-02-05 深圳创维数字技术股份有限公司 一种生成字幕的方法及终端
CN106331844A (zh) * 2016-08-17 2017-01-11 北京金山安全软件有限公司 一种媒体文件字幕的生成方法、装置及电子设备
US10679643B2 (en) * 2016-08-31 2020-06-09 Gregory Frederick Diamos Automatic audio captioning
CN106504754B (zh) * 2016-09-29 2019-10-18 浙江大学 一种根据音频输出的实时字幕生成方法
CN107277613A (zh) * 2017-05-31 2017-10-20 深圳Tcl新技术有限公司 字幕显示方法、终端及计算机可读存储介质
US10580457B2 (en) * 2017-06-13 2020-03-03 3Play Media, Inc. Efficient audio description systems and methods
US10977299B2 (en) * 2018-05-30 2021-04-13 Baidu Usa Llc Systems and methods for consolidating recorded content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005045503A (ja) 2003-07-28 2005-02-17 Toshiba Corp 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
JP2008079018A (ja) 2006-09-21 2008-04-03 Matsushita Electric Ind Co Ltd 字幕生成装置、字幕生成方法および字幕生成プログラム
JP2015212732A (ja) 2014-05-01 2015-11-26 日本放送協会 音喩認識装置、及びプログラム
WO2016075781A1 (ja) 2014-11-12 2016-05-19 富士通株式会社 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
US20170278525A1 (en) 2016-03-24 2017-09-28 Google Inc. Automatic smoothed captioning of non-speech sounds from audio

Also Published As

Publication number Publication date
JP2023175757A (ja) 2023-12-12
US20220148614A1 (en) 2022-05-12
WO2020222851A1 (en) 2020-11-05
DE112019007274T5 (de) 2022-01-20
KR20210151874A (ko) 2021-12-14
KR102629552B1 (ko) 2024-01-25
JP2022530201A (ja) 2022-06-28
KR20240013294A (ko) 2024-01-30
EP3963580A1 (en) 2022-03-09
CN113692619A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
JP7348957B2 (ja) コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
KR102290419B1 (ko) 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
CN107464555B (zh) 增强包含语音的音频数据的方法、计算装置和介质
CN104038827B (zh) 多媒体播放方法及装置
CN112449253B (zh) 交互式视频生成
US20210243528A1 (en) Spatial Audio Signal Filtering
US10684754B2 (en) Method of providing visual sound image and electronic device implementing the same
EP3701521B1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
EP3916538B1 (en) Creating a cinematic storytelling experience using network-addressable devices
US20220392437A1 (en) Voice-based word recognition systems
US11967338B2 (en) Systems and methods for a computerized interactive voice companion
US11587571B2 (en) Electronic apparatus and control method thereof
JP7070546B2 (ja) 情報処理装置および情報処理方法
US11902690B2 (en) Machine learning driven teleprompter
US11501208B2 (en) Rehearsal-based presentation assistance
CN115461709A (zh) 来自环境语音的分层场境特定动作
US12015865B2 (en) System and methods for evoking authentic emotions from live photographic and video subjects
US11513767B2 (en) Method and system for recognizing a reproduced utterance
CN114968164A (zh) 语音处理方法、系统、装置和终端设备
JP2022163217A (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
JP2021140485A (ja) 情報処理装置及び情報処理方法
CN114911346A (zh) 一种终端设备的交互方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211019

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230908

R150 Certificate of patent or registration of utility model

Ref document number: 7348957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150