JP7348957B2

JP7348957B2 - コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング

Info

Publication number: JP7348957B2
Application number: JP2021561012A
Authority: JP
Inventors: ブロック，アサ・ジョナス・イブリー; バーフォード，エリオット・チャールズ; トリパルディ，アンソニー・フェリーチェ; ピタロ，ステファニー・ビアンカ; ルイポルド，ヘザー・パトリシア; ケムラー，ブライアン; バン・デマン，ケルジー・ホープ; バー，ナダブ; ベリー，ロバート・ジェイムズ; コーエン，ダニエル; ラマノビッチ，ミッシェル; ヒューム，トーマス・ウィードン; ブロイエル，ニコール・キアナ; シュレシンジャー，ベンジャミン; リー，ジャスティン・ウーヨン; ロカール，ケビン; ローラン，エリック
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-05-02
Filing date: 2019-06-03
Publication date: 2023-09-21
Anticipated expiration: 2039-06-03
Also published as: JP2023175757A; US20220148614A1; WO2020222851A1; DE112019007274T5; KR20210151874A; KR102629552B1; JP2022530201A; KR20240013294A; EP3963580A1; CN113692619A

Description

背景
プロが制作した映画およびテレビ番組以外の大半の可聴コンテンツはキャプショニングされていないため、コンテンツは、難聴またはその他の理由でコンテンツを聞くことができない多くのユーザにとってアクセスしにくくなっている。いくつかの自動キャプショニングシステムが利用可能であるが、これらのシステムは高価で、複雑で、維持するのが困難である場合がある。自動キャプショニングシステムの中には、入力としてスピーカへの音声出力を必要とするものもあり、そのようなシステムは、静かな環境でキャプショニングを提供することには適さないであろう。自動キャプショニングシステムの維持に関わるコストおよび複雑さを回避するために、コンピューティングデバイスの中には、キャプショニングのためにコンテンツをリモートサーバにアップロードすることを必要とするクラウドベースのキャプショニングサービスにアクセスするものもあるが、それによって、もしかするとユーザのプライバシおよび利便性が減少する。

概要
ローカルのシステムレベルのサービスとしてコンテンツを自動的にキャプショニングするためのコンピューティングデバイスが記載されている。このコンピューティングデバイスは、入力としてスピーカに送られる音声信号に含まれる情報に頼ることが多い他のキャプショニングシステムとは異なって、コンテンツソース（たとえば、アプリケーション）から出力される音声データから直接キャプションを生成する。コンピューティングデバイスは、音声データにタグ付けされたメタデータ（たとえば、非音声部分）を分析して、音声データがキャプショニングに適しているか否かまたは音声データが他のタイプの音声データ（たとえば、システムサウンド効果）であるか否かを判断してもよい。

音声データがキャプショニングに適していることを特定したことに応答して、および、自動キャプショニングが（たとえば、ユーザ入力を介して）イネーブルにされると判断したことに応答して、コンピューティングデバイスは、機械学習モデルを使用して、音声データから解釈される可聴音の説明を迅速に生成する。コンピューティングデバイスは、可聴コンテンツのアプリケーションソースがどのようなものであろうと、コンピューティングデバイスがコンテンツの音声（たとえば、可聴音信号）を生成するか否かにかかわらず、可聴コンテンツの説明を視覚的に（たとえば、持続的なユーザインターフェイス要素として）提供することができる。このように、音声データが埋め込みキャプションを含んでいなくても、デバイスがサーバをキャプショニングに使用しない場合でも、およびコンピューティングデバイスがミュートされて可聴音を出力していない場合でも、コンピューティングデバイスは、コンテンツの可聴部分を説明するようにシステムレベルの音声をキャプショニングする。

スピーカのための入力として生成される音声信号ではなく元の音声データに頼ることによって、機械学習モデルは、コンテンツソースによって当初意図されたようにコンテンツからの音をより正確に表すキャプションを生成することができる。さらに、機械学習モデルを使用する前に音声データがキャプショニングに適しているか否かを判断することによって、コンピューティングデバイスは、ほぼ確実にキャプショニングに適したものを含んでいない音声データの部分を含む、コンテンツソースによって出力される全ての音声データを分析し過ぎることによってリソースを無駄にすることを回避できる。これにより、より小さなおよび／またはそれほど複雑でない機械学習モデルを使用することができるので、コンピューティングデバイスをより効率的に実行することができる。たとえば、機械学習モデルは、発話を自動的に認識して、発話を含む音声データのみを分析することができる。したがって、機械学習モデルは、音声データを生成するコンピューティングデバイスからローカルに発話を自動的に認識して音を自動的に分類することができ、それによってプライバシおよびオフライン利便性を向上させる。したがって、コンピューティングデバイスは、最低でも自動キャプショニングシステムに対するユーザ満足度を向上させることができるようにシステムレベルの音声を自動的にキャプショニングすることができる。医療ニーズを有するユーザは、このように音声データを自動的にキャプショニングするコンピューティングデバイス１１０にアクセスすることにより、クオリティ・オブ・ライフの向上を経験することができる。以前はコンテンツの可聴部分を聞くまたは理解することができなかったかもしれないユーザが、今では、医療ニーズを持たないその他のユーザと同様にコンテンツを楽しむことができる。

本開示全体にわたって、コンピューティングデバイスが情報（たとえば、音声データ）を分析し得る例が記載されている。しかし、コンピューティングデバイスは、データを使用するための明確な許可をコンピューティングデバイスのユーザから受け取って初めて、情報を使用してもよい。たとえば、コンピューティングデバイスで実行されるアプリケーションから出力される音声データをコンピューティングデバイスが分析する下記の状況では、個々のユーザは、コンピューティングデバイスのプログラムまたは特徴がたとえば自動キャプショニングのために音声データを収集して利用できるか否かを制御するための入力を提供する機会を与えられてもよい。個々のユーザは、どのようなプログラムが音声データに対処できてどのようなプログラムが音声データに対処できないかを常に制御してもよい。

また、収集された情報は、転送、格納、またはコンピューティングデバイスおよび／もしくはリモートコンピューティングシステムによって使用される前に、１つ以上の方法で事前処理されてもよく、その結果、個人を特定できる情報は除去される。たとえば、例示的なコンピューティングデバイスは、（たとえば、他のデバイスで実行されるモデルを訓練するために）音声データから生成されたキャプションを別のデバイスと共有する前に、音声データを事前処理して、データに埋め込まれたいかなるユーザ特定情報またはデバイス特定情報も確実に除去されるようにしてもよい。したがって、ユーザは、ユーザおよびユーザのデバイスについての情報が収集されるか否か、ならびに収集される場合にはこのような情報がコンピューティングデバイスおよび／またはリモートコンピューティングシステムによってどのように使用され得るかを制御し得る。

一例では、コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法が記載されている。上記方法は、コンピューティングデバイスで実行されるアプリケーションから出力される音声データを、コンピューティングデバイスのオーディオミキサから取得するステップを含み、音声データは、コンテンツの可聴部分を示す非メタデータおよび任意にメタデータを含み、上記方法はさらに、任意に音声データのメタデータから、音声データが自動キャプショニングに適したタイプであるか否かを判断するステップを含む。上記方法はさらに、音声データがキャプショニングに適したタイプであると判断したことに応答して、コンテンツの可聴部分の説明を決定するステップと、コンテンツのビジュアル部分を表示しながら、表示のためにコンテンツの可聴部分の説明を出力するステップとを含む。

異なる例では、コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法が記載されている。上記方法は、コンピューティングデバイスが、コンピューティングデバイスで実行されるアプリケーションのグラフィカルユーザインターフェイスを表示するステップと、グラフィカルユーザインターフェイスを表示しながら、アプリケーションから出力される音声データを取得するステップとを含み、音声データは、コンテンツの可聴部分を示す非メタデータおよび任意にメタデータを含み、上記方法はさらに、任意に音声データのメタデータから、音声データが自動キャプショニングに適したタイプであるか否かを判断するステップを含む。上記方法はさらに、音声データがキャプショニングに適したタイプであると判断したことに応答して、コンテンツの可聴部分の説明を決定するステップと、コンテンツのビジュアル部分をアプリケーションのグラフィカルユーザインターフェイス内に表示しながら、表示のためにコンテンツの可聴部分の説明をアプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップとを含む。

さらに別の例では、コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法が記載されている。上記方法は、コンピューティングデバイスで実行されるアプリケーションからの音声データを自動的にキャプショニングするためのユーザ入力を受信するステップと、ユーザ入力を受信したことに応答して、コンピューティングデバイスで実行されるアプリケーションから出力される音声データを取得するステップとを含み、音声データは、コンテンツの可聴部分を含む。上記方法はさらに、任意に音声データのメタデータから、音声データがキャプショニングに適したタイプであるか否かを判断するステップと、音声データがキャプショニングに適したタイプであると判断したことに応答して、コンテンツの可聴部分の説明を決定するステップとを含む。上記方法はさらに、表示のためにコンテンツの可聴部分の説明をコンテンツのビジュアル部分から区別され、かつアプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップを含む。

さらなる例では、上記の例のいずれかに記載の方法を実行するように構成された少なくとも１つのプロセッサを含むコンピューティングデバイスが記載されている。

さらなる例では、上記の例のいずれかに記載の方法を実行するための手段を含むシステムが記載されている。

別の例では、実行されると上記の例のいずれかに記載の方法のいずれかを実行するようにコンピューティングデバイスのプロセッサを構成する命令を含むコンピュータ読取可能記憶媒体が記載されている。

１つ以上の実現例の詳細について添付の図面および以下の説明で説明する。他の特徴および利点は、説明および図面ならびに特許請求の範囲から明らかであろう。この概要は、詳細な説明および図面にさらに記載されている主題を紹介するために提供されている。したがって、この概要は、必須の特徴を記載していると見なされるべきではなく、クレームされている主題の範囲を限定するように使用されるべきでもない。

自動キャプショニングの１つ以上の局面の詳細について以下で説明する。説明および図中のさまざまな場面での同一の参照番号の使用は、同様の要素を示す。

音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスを示す概念図である。音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスを示す別の概念図である。音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスの機械学習モデルを示す概念図である。音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスの動作の例を示すフローチャートである。音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。

詳細な説明
プロが制作した映画およびテレビ番組以外の大半の可聴コンテンツはキャプショニングされていないため、コンテンツは、難聴またはその他の理由でコンテンツを聞くことができない多くのユーザにとってアクセスしにくくなっている。手動および自動キャプショニングシステムが存在するが、さまざまな欠点を抱えている。

たとえば、手動キャプショニングシステムの中には、事前に記録されたコンテンツに含まれる埋め込みキャプショニング情報に基づいて可聴コンテンツをキャプショニングするものもあれば、人間オペレータからの入力に基づいて（たとえば、ライブ一斉同報中に）コンテンツをキャプショニングするものもある。

いくつかの自動キャプショニングシステムが利用可能であるが、これらのシステムは高価で、複雑で、維持するのが困難である場合がある。たとえば、自動キャプショニングシステムは、キャプショニングのためのソースとしてサウンドシステムへの音声出力を必要とし得る。キャプショニングシステムは、最小音レベルを維持するためにこの音声出力を必要とし得て、このようなシステムを静かな環境での動作に適さなくする。さらに、音声出力は、キャプショニングのための単なる音よりも多くの可聴音（たとえば、システムサウンド、他の背景アプリケーションからの音）を含み得て、したがって、キャプショニングは、コンピューティングデバイスの全ての音声ソースからの全ての音を必要以上にかつ無差別にキャプショニングすることにより、より時間がかかり、リソースを無駄にする可能性がある。

いくつかの自動キャプショニングシステムは、アプリケーションベースであり、コンピューティングデバイス上でローカルに実行されてもよい。しかし、このようなシステムは、やはり、キャプショニングのためにインターネット接続を必要とし得る。たとえば、自動キャプショニングシステムの維持に関わるコストおよび複雑さを回避するために、コンピューティングデバイスは、キャプショニングのためにコンテンツをリモートサーバにアップロードすることを必要とするクラウドベースのキャプショニングサービスにアクセスすることができるが、それによって場合によってはユーザのプライバシおよび利便性が減少する。

可聴コンテンツの自動キャプショニングを効率的にかつ区別してイネーブルにするための技術について説明する。これらの技術は、（たとえば、インターネットへの）ネットワーク接続を必要とせず、サウンドシステムに伝えられる可聴信号からキャプションを生成しない。その代わりに、例示的なコンピューティングデバイスは、コンピューティングデバイスのオーディオミキサによって収集された音声データからキャプションを自動的に生成することができる。本明細書全体を通して使用される「音声データ」とは、システムオーディオミキサまたはサウンドエンジンに送られる、出力として音を生成するための音声信号に変換される情報を指す。音声データは、それに応答して生成される音声信号と対照をなす。

例示的なコンピューティングデバイスのオペレーティングシステムまたはプラットフォームは、さまざまなコンテンツソース（たとえば、アプリケーション）から出力される音声データを収集して、この音声データをミキシングして音声信号を生成するシステムレベルのオーディオミキサを含む。音声信号は、可聴音を生成するためにサウンドシステムによって増幅されてもよい。音声信号を無差別にキャプショニングする他のキャプショニングシステムとは異なって、例示的なコンピューティングデバイスは、キャプショニングに適したタイプの音声データからの可聴コンテンツのみをキャプショニングすることによって、可聴コンテンツを区別してキャプショニングする。

コンピューティングデバイスは、メタデータ（たとえば、音声データの非音声部分）を分析して、音声データがキャプショニングに適しているか否かまたは音声データが他のタイプの音声データ（たとえば、システムサウンド効果）であるか否かを判断してもよい。音声信号の中に見当たらないメタデータに頼ることにより、コンピューティングデバイスは、キャプショニングに適していない音声データを迅速に除去することができ、したがって、コンピューティングデバイスは、全てのコンテンツ、すなわちキャプショニング不可能なコンテンツまたはキャプショニングされるべきでないコンテンツさえもキャプショニングしようとする他のキャプショニングシステムのようにリソースを無駄にすることを回避できる。

キャプショニングのための音声データを特定したことに応答して、および、自動キャプショニングが（たとえば、ユーザ入力を介して）イネーブルにされたと判断したことに応答して、コンピューティングデバイスは、機械学習を使用して訓練された機械学習モデルを使用して、音声データから解釈される可聴音の説明を迅速に生成する。たとえば、コンピューティングデバイスは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルまたは他の機械学習モデルに頼って、話された音声のトランスクリプション（表記）を決定したり、話されたものではない音声からの特定の雑音およびこの特定の雑音の考えられる発生源を特定したりしてもよい。

コンピューティングデバイスは、可聴コンテンツのソースがどのようなものであっても、コンピューティングデバイスがコンテンツの音声（たとえば、可聴音信号）を生成するか否かにかかわらず、可聴コンテンツの説明を視覚的に（たとえば、持続的なユーザインターフェイス要素として）提供することができる。このように、コンテンツが埋め込みキャプションを含んでいなくても、およびコンピューティングデバイスがミュートされて音声信号を出力しなくても、コンピューティングデバイスは、コンテンツの可聴部分の説明を提供するシステムレベルのキャプショニング動作を実行する。

スピーカへの入力として使用される音声信号ではなく音声データに頼ることによって、機械学習モデルは、コンテンツソースによって当初意図されたように可聴コンテンツからの音をより正確に表すキャプションを生成する。アプリケーションまたは他のコンテンツソースからの音声データは、一般に、コンテンツソースから出力されてから変更されないので、可聴コンテンツをより正確に表し得る。他の自動キャプショニングシステムは、スピーカへの入力として意図される処理済みの音声信号に頼ってもよく、そのため、コンテンツソースによって意図されるものとの差を持ち込み得る。

さらに、機械学習モデルを説明に利用する前に音声データがキャプショニングに適しているか否かを判断することによって、コンピューティングデバイスは、ほぼ確実にキャプショニングに適したものを含んでいない音声データの部分を含む、コンテンツソースによって出力される全ての音声データを分析し過ぎることによってリソースを無駄にすることを回避する。これにより、コンピューティングデバイスは、より小さなおよび／またはそれほど複雑でない機械学習モデルを訓練および実行して、自動発話認識および自動音分類技術を実行することができる。このモデルは、キャプショニングに適していないであろうさまざまなタイプの音声データを無視するようにさらに訓練する必要はない。これにより、さらに、このモデルは、音声データが生成されるコンピューティングデバイス上でローカルに実行可能であり、プライバシおよびオフライン利便性を向上させる。

より正確なデータに頼ることにより、機械学習モデルの精度を向上させることができ、関連するデータのみに頼ることにより、機械学習モデルの効率を向上させることができ、自動キャプショニングシステムに対するユーザ満足度をさらに向上させることができる。また、医療ニーズを有するユーザは、このように音声データを自動的にキャプショニングするコンピューティングデバイス１１０にアクセスすることにより、クオリティ・オブ・ライフの向上を経験することができる。

説明は、場合によってはスピーカの名前または説明を特定しさえする話されたコンテンツのトランスクリプションを含み得る。場合によっては、可聴音は、話されたものではないコンテンツ、たとえば動物の鳴き声、環境音、および説明に関連している場合もあれば関連していない場合もある他の音を含む。説明は、対応する発生源（たとえば、吠えている犬）の特定を含むいくつかの話されたものではない音（たとえば、犬の吠え声）の説明さえ含んでもよい。

図１は、音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスを示す概念図である。コンピューティングデバイス１００は、任意のタイプのモバイルまたは非モバイルコンピューティングデバイスであってもよい。モバイルコンピューティングデバイスとして、コンピューティングデバイスは、携帯電話、ラップトップコンピュータ、ウェアラブルデバイス（たとえば、腕時計、眼鏡、ヘッドホン、衣服）、タブレットデバイス、自動車／車両デバイス、携帯型ゲーミングデバイス、電子リーダデバイス、遠隔制御デバイス、または他のモバイルコンピューティングデバイスであってもよい。非モバイルコンピューティングデバイスとして、コンピューティングデバイス１００は、サーバ、ネットワーク端末デバイス、デスクトップコンピュータ、テレビジョンデバイス、エンターテイメントセットトップデバイス、ストリーミングメディアデバイス、テーブルトップアシスタントデバイス、スピーカデバイス、サウンドシステム、非携帯型ゲーミングデバイス、ビジネス会議機器、または他の非モバイルコンピューティングデバイスであってもよい。

コンピューティングデバイス１００は、スピーカコンポーネント１０４とディスプレイコンポーネント１０６と入力コンポーネント１０８とを含むユーザインターフェイスデバイス１０２を含む。コンピューティングデバイス１００は、オペレーティングシステム１１０およびアプリケーション１１２も含む。コンピューティングデバイス１００のこれらのおよび他のコンポーネントは、有線および無線バスおよびリンクの使用を含むさまざまな方法で通信可能に結合されている。コンピューティングデバイス１００は、図１に示されているものよりも多くのまたは少ないコンポーネントを含んでいてもよい。

オペレーティングシステム１１０は、一般に、ユーザインターフェイスデバイス１０２および他の周辺装置を含むコンピューティングデバイス１００の機能を制御する。オペレーティングシステム１１０は、アプリケーション１１２などのアプリケーションに実行環境を提供する。オペレーティングシステム１１０は、タスクスケジューリングおよび他の一般的機能を制御してもよく、一般にシステムレベルユーザインターフェイス１１４を介してそれを行う。

ユーザインターフェイスデバイス１０２は、オペレーティングシステム１１０によって制御されるシステムレベルユーザインターフェイス１１４への入力および出力を管理する。システムレベルユーザインターフェイス１１４は、自動キャプションを表示するための持続的なグラフィカル要素１２０を含む。システムレベルユーザインターフェイス１１４は、１つ以上のキャプション制御要素１２２Ａおよび１２２Ｂをさらに含み、１つ以上のキャプション制御要素１２２Ａおよび１２２Ｂは、選択された場合に、ユーザインターフェイス１１４が持続的なグラフィカル要素１２０を表示するか否かを含む、オペレーティングシステム１１０が音声データを自動的にキャプショニングするか否かを制御する。場合によっては、キャプション制御要素１２２Ａおよび１２２Ｂは、コンピューティングデバイス１００が音声データを自動的にキャプショニングしているか否かを示すアイコンを含み得る。システムレベルユーザインターフェイス１１４は、アプリケーション１１２のためのアプリケーションユーザインターフェイス１１６などの、コンピューティングデバイス１００で実行される他のアプリケーションのユーザインターフェイスを表示してもよい。

ディスプレイコンポーネント１０６およびスピーカコンポーネント１０４は、別々のものであってもよく、または単一のコンポーネントとして一体化されていてもよい。ディスプレイコンポーネント１０６は、ＬＥＤ、ＯＬＥＤおよびＬＣＤ技術を含む任意の好適な表示技術から作製することができる。スピーカコンポーネント１０４（たとえば、単一のスピーカまたは複数のスピーカ）は、入力として音声信号を受信し、この音声信号を可聴音に変換するように構成される。入力コンポーネント１０８は、マイク、存在感知デバイス、タッチスクリーン、マウス、キーボード、またはユーザ入力を受信するように構成された他のタイプのコンポーネントであってもよい。

ユーザインターフェイスデバイス１０２は、入力コンポーネント１０８によって検出された入力についての情報を出力してもよく、オペレーティングシステム１１０は、検出された入力をユーザインターフェイス１１４の要素に相関付けてもよい。入力コンポーネント１０８において入力（たとえば、ジェスチャ）を受信したことに応答して、オペレーティングシステム１１０および／またはアプリケーション１１２は、検出された入力についての情報をユーザインターフェイスデバイス１０２から受信してもよい。オペレーティングシステム１１０またはアプリケーション１１２は、入力に応答して機能を実行してもよい。たとえば、オペレーティングシステム１１０は、入力がキャプション制御要素１２２Ａまたは１２２Ｂのいずれかの選択に対応すると判断し、これに応答して、音声データを自動的にキャプショニングしてもよい（または、自動的にキャプショニングすることを中止してもよい）。

アプリケーションユーザインターフェイス１１６は、映画、動画、映像、または埋め込み音声を有する他のコンテンツなどのメディアコンテンツ１１８を含む。メディアコンテンツ１１８は、任意のマルチメディアまたはソーシャルメディアコンテンツであってもよく、これは、映像プラットフォーム、ストリーミングプラットフォーム、ラジオ、ポッドキャスト、ビデオ、ビデオチャットアプリケーション、電話アプリケーション、または、コンピューティングデバイスで実行されるかもしくはコンピューティングデバイスからアクセス可能な音声データのその他のソースからのものを含む。

アプリケーション１１２は、メディアコンテンツ１１８をオペレーティングシステム１１０に出力してもよい。ディスプレイコンポーネント１０６を使用して、オペレーティングシステム１１０は、ユーザインターフェイスデバイス１０２に、アプリケーションユーザインターフェイス１１６内でメディアコンテンツ１１８の画像または他の視覚的表示を出力させることができる。コンピューティングデバイス１００は、さらに、ユーザインターフェイスデバイス１０２に、メディアコンテンツ１１８から生成された音声信号をスピーカコンポーネント１０４に転送させることができる。このように、オペレーティングシステム１１０は、スピーカコンポーネント１０４に、ディスプレイコンポーネント１０６に表示される画像または他の映像と同時に音声を出力させる。

動作時、オペレーティングシステム１１０は、コンテンツの可聴部分を自動的にキャプショニングする。コンピューティングデバイスは、キャプショニングに使用される音声データをオペレーティングシステム１１０のオーディオミキサまたはサウンドエンジンから取得する。アプリケーション１１２からの音声データは、メディアコンテンツ１１８の可聴部分を含んでもよい。

たとえば、図１に示されるように、コンピューティングデバイス１００のユーザは、ディスプレイコンポーネント１０６の画面上に表示されているメディアコンテンツ１１８を見ることによってアプリケーション１１２と対話してもよい。ユーザは、メディアコンテンツ１１８のキャプショニングをイネーブルにしたいと思うこともあるが、メディアコンテンツ１１８は、キャプショニングされていない音声データのみを含んでおり、アプリケーション１１２がキャプションを生成してメディアコンテンツ１１８に埋め込む方法はない。

それでも、ユーザ入力（たとえば、選択可能な制御要素１２２Ｂが表示されるディスプレイコンポーネント１０６の画面の場所に対応する入力コンポーネント１０８の場所におけるタッチジェスチャ）を受信したことに応答して、コンピューティングデバイス１００は、アプリケーション１１２から出力されてオーディオミキサにおいて受信される同一の音声データを処理することによって、メディアコンテンツ１１８の可聴部分を自動的にキャプショニングしてもよい。

オーディオミキサは、アプリケーション１１２を含む、オペレーティングシステム１１０の実行環境内で実行されるさまざまなコンテンツソースから出力される全ての音声データを収集するように構成される。オーディオミキサは、コンテンツを生成するアプリケーションソースと、コンテンツから音を作成するスピーカコンポーネント１０４との間のインターフェイスを提供する。オーディオミキサは、未処理の音声データバイトストリームを管理し、音声データを分析し、出力対象の音声信号をユーザインターフェイスデバイス１０２のスピーカコンポーネント１０４または他の好適な出力コンポーネントに向かわせて、音を作成する。

スピーカコンポーネント１０４に送られる音声信号からの全ての音声データを無差別にキャプショニングするのではなく、オペレーティングシステム１１０は、メタデータに頼って、自動キャプショニングをキャプショニングに適したコンテンツの可聴部分に集中させてもよい。言い換えれば、オペレーティングシステム１１０は、メタデータに基づいて「キャプショニング可能な」音声データを特定し、全ての音声データがキャプショニング可能であると考えられる場合を除いて、全ての音声データをキャプショニングすることを控える。

メタデータのいくつかの例は、なぜアプリケーションソースが音声データを出力しているかを指定する使用インジケータを含む。オーディオミキサは、この使用インジケータを使用して、音声データに関するルーティング、焦点および音量決定を制御してもよい。メタデータは、音をどのように鳴らすべきであるかをさらに指定する他のフラグおよび音声／映像同期のための情報を含んでもよい。

メタデータは、アプリケーションソースが何を再生しているか（たとえば、音楽、映画、スピーチ、ソニフィケーション、不明）を指定するコンテンツタイプを含んでもよい。コンテンツタイプは、コンテンツの一般的カテゴリ（たとえば、あるタイプの映画ストリーミングサービスおよび別のタイプの音楽ストリーミングサービス）を表すことができる。オーディオミキサは、何らかの音声事後処理を選択的に構成し、タイプ識別子からの他の設定を調整することができる。タイプ識別子は、音声データが映画またはテレビ番組に付随するサウンドトラックについてのものである場合には映画タイプを指定してもよい。タイプ識別子は、コンテンツが歌（たとえば、必ずしもサウンドトラックではない）である場合には音楽タイプ識別子を指定してもよく、タイプ識別子は、コンテンツが話された音声（たとえば、ニュース放送、ビデオまたは電話通話）である場合には発話識別子を示してもよい。別の例として、コンテンツタイプは、音声データがユーザアクション（たとえば、キークリックを表す電子音またはサウンド効果）またはイベント（たとえば、ゲーム中のボーナス達成のための音など）に付随するように使用される通知、警告または音についてのものである場合にはソニフィケーションを示してもよい。

オーディオミキサがコンテンツタイプに頼ることに加えて、オペレーティングシステム１１０は、任意にメタデータに見られるコンテンツタイプ識別子に基づいてキャプショニングのための音声データを特定する。たとえば、オペレーティングシステム１１０は、映画、音楽またはスピーチといったタイプの音声データを自動的にキャプショニングするが、ソニフィケーションタイプの音声データ、または、未定義のもしくは他の方法で定義される他の音声データについては自動的にキャプショニングしない。このように、コンテンツタイプを使用して、オペレーティングシステム１１０は、音声データがキャプショニングを必要とする音声を有していそうであるか否か、または、音声データがキャプショニングのためのものではない他の音を示していそうであるか否かを判断することができる。

メディアコンテンツ１１８に関連付けられた音声データのタイプがキャプショニングに適していると判断したことに応答して、オペレーティングシステム１１０は、コンテンツ１１８の可聴部分の説明を決定する。たとえば、オペレーティングシステム１１０は、可聴コンテンツの説明をキャプションとして生成するように訓練された機械学習モデル（たとえば、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデル）を実行してもよい。機械学習モデルは、話された音声のためのトランスクリプションを含む、音の説明を学習することに適したいかなるタイプのモデルであってもよい。しかし、オペレーティングシステム１１０によって使用される機械学習モデルは、サイズが小さく、それほど複雑ではないであろう。なぜなら、機械学習モデルは、特定のタイプのコンテンツからの音および話された音声を特定するように訓練されるだけでよいからである。機械学習モデルは、オーディオミキサに送られる全ての音声データを処理する必要はなく、むしろキャプショニングのためのコンテンツを含んでいそうな特定の音声データを処理するだけでよい。これは、プライバシを危険にさらして利便性を犠牲にする、遠隔処理設備およびコンテンツのリモートアップローディングを必要とする他のキャプショニングシステムと対照をなす。

オペレーティングシステム１１０は、機械学習モデルから説明を受信して、説明をユーザに表示する。説明は、話された会話または歌のトランスクリプションを含み得る。説明は、音の文脈を特定してもよく、または話者、歌手もしくは個々の俳優もしくは演者を特定してもよい。説明は、音の説明、たとえば犬の音声が検出される場合には「犬が吠えている」またはドアをバタンと閉める音声に対しては「ドアが閉まった」を含んでもよい。

メディアコンテンツ１１８のビジュアル部分をアプリケーションユーザインターフェイス１１６内に表示しながら、オペレーティングシステム１１０は、表示のためにコンテンツの可聴部分の説明を出力する。たとえば、オペレーティングシステム１１０は、アプリケーションユーザインターフェイス１１６およびユーザインターフェイス１１４の他のグラフィカル要素の上に現れるユーザインターフェイス１１４のオーバーレイとして持続的な要素１２０を表示してもよい。ユーザは、表示画面の異なる領域に移動したり要素のサイズを拡大または縮小したりしてより多くのまたはより少ないキャプションを表示するように持続的な要素１２０を操作することができる。

スピーカのための入力として生成される音声信号ではなく元の音声データに頼ることによって、オペレーティングシステム１１０の機械学習モデルは、コンテンツソース（たとえば、アプリケーション１１２）によって当初意図されたようにメディアコンテンツ１１８からの音をより正確に表すキャプションを生成する。さらに、機械学習モデルを使用する前に音声データがキャプショニングに適しているか否かを判断することによって、オペレーティングシステム１１０は、ほぼ確実にキャプショニングに適したものを含んでいない音声データを含む、アプリケーション１１２によって出力される全ての音声データを分析し過ぎることによってリソースを無駄にすることを回避する。これにより、コンピューティングデバイス１１０は、より効率的な、より小さなおよび／またはそれほど複雑でない機械学習モデルを実行することができる。したがって、機械学習モデルは、音声データを生成するコンピューティングデバイス１１０からローカルに自動発話認識および自動音分類技術を実行することができ、それによってプライバシおよびオフライン利便性を向上させる。したがって、コンピューティングデバイス１１０は、最低でも自動キャプショニングシステムに対するユーザ満足度を向上させることができるようにシステムレベルの音声を自動的にキャプショニングすることができる。医療ニーズを有するユーザは、このように音声データを自動的にキャプショニングするコンピューティングデバイス１１０にアクセスすることにより、クオリティ・オブ・ライフの向上を経験することができる。

図２は、音声データを自動的にキャプショニングするように構成されたコンピューティングデバイス２００を示す別の概念図である。コンピューティングデバイス２００は、追加の詳細を有するコンピューティングデバイス１００の一例である。図２に示されるように、コンピューティングデバイス２００は、携帯電話１００－１、ラップトップコンピュータ１００－２、テレビ受像機／ディスプレイ１００－３、デスクトップコンピュータ１００－４、タブレットデバイス１００－５、コンピュータ化された腕時計１００－６もしくは他のウェアラブルデバイス、または車両１００－７にインストールされたコンピューティングシステムであってもよい。

図１に示されるコンポーネントの各々に加えて、コンピューティングデバイス２００は、１つ以上のプロセッサ２０２と、コンピュータ読取可能媒体２０４と、１つ以上のセンサ２１０と、１つ以上の入力／出力（Ｉ／Ｏ）デバイス２１２と、１つ以上の通信デバイス２１４とを含む。コンピュータ読取可能媒体２１２は、プロセッサ１０２によって実行されたときにアプリケーション１１２およびオペレーティングシステム１１０を実行する命令を含む。

プロセッサ２０２は、１つ以上のコントローラ、マイクロコントローラ、プロセッサ、マイクロプロセッサ、ハードウェアプロセッサ、ハードウェア処理ユニット、デジタル信号プロセッサ、グラフィックスプロセッサ、グラフィックス処理ユニットなどの任意の組み合わせを含んでもよい。プロセッサ２０２は、コンピュータによって実行可能な命令を処理してコンピューティングデバイス２００の動作を制御する一体型のプロセッサおよびメモリサブシステム（たとえば、ＳｏＣとして実現される）であってもよい。

センサ２１０は、コンピューティングデバイスの物理的な動作環境および／またはコンピューティングデバイス２００の特徴を示す文脈情報を、物理的な動作環境において機能しながら取得する。センサ２１０の例としては、動きセンサ、温度センサ、位置センサ、近接センサ、環境光センサ、湿度センサ、圧力センサなどが挙げられる。オペレーティングシステム１１０は、センサ２１０によって取得されるセンサ情報に従ってコンピューティングデバイス２００の動作を適合させてもよい。

入力／出力デバイス２１２は、デバイス間、データネットワーク（たとえば、メッシュネットワーク、外部ネットワークなど）間および他のデバイス間の接続および／または通信リンクを提供するデータネットワークインターフェイスを含む、コンピューティングデバイス２００ならびに他のデバイスおよび周辺装置との接続性を提供する。入力／出力デバイス２１２は、コンピューティングデバイス２００を任意のタイプのコンポーネント、周辺装置および／または付属デバイスに結合するのに使用することができる。入力／出力デバイス２１２は、データ入力ポートも含み、このデータ入力ポートを介して、コンピューティングデバイス２００へのユーザ入力、ならびに任意のタイプの通信データ、ならびに任意のコンテンツおよび／またはデータソースから受信される音声、映像および／または画像データなどの、任意のタイプのデータ、メディアコンテンツおよび／または入力を受信することができる。

通信デバイス２１４は、生成された任意のタイプのメディアコンテンツまたはアプリケーション１１２などのコンピューティングデバイス２００で実行される受信したアプリケーションなどのデバイスデータ５０６の有線および／または無線通信を可能にする。通信デバイス２１４は、セルラーホン通信および／またはネットワークデータ通信のためのトランシーバも含み得る。

コンピュータ読取可能媒体２０４は、実行可能な命令（たとえば、ファームウェア、リカバリファームウェア、ソフトウェア、アプリケーション、モジュール、プログラム、機能など）およびデータ（たとえば、ユーザデータ、動作データ）の持続的および非持続的な格納をコンピューティングデバイス２００に提供して、実行可能な命令の実行をサポートするように構成される。コンピュータ読取可能媒体２０４の例としては、揮発性メモリおよび不揮発性メモリ、固定式およびリムーバブルなメディアデバイス、ならびに、実行可能な命令を維持してデータをサポートする任意の好適なメモリデバイスまたは電子データストレージが挙げられる。コンピュータ読取可能媒体２０４は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、フラッシュメモリ、およびさまざまなメモリデバイス構成における他のタイプのストレージメモリのさまざまな実現例を含み得る。コンピュータ読取可能媒体２０４は、伝搬信号を除外する。コンピュータ読取可能媒体２０４は、ソリッドステートドライブ（ＳＳＤ）またはハードディスクドライブ（ＨＤＤ）であってもよい。図２の例におけるコンピュータ読取可能媒体２０４は、アプリケーション１１２と、オペレーティングシステム１１０とを含む。

コンピューティングデバイス２００のオペレーティングシステム１１０は、オーディオミキサ２０６と、キャプションモジュール２０８とを含む。オーディオミキサ２０６およびキャプションモジュール２０８は、オペレーティングシステム１１０の専門のハードウェアまたはソフトウェアコンポーネントとして実現されてもよい。他の例では、オーディオミキサ２０６またはキャプションモジュール２０８は、たとえばオペレーティングシステム１１０にローカルにインストールされたシステムプラグインまたは追加のアドオンサービスとして、オペレーティングシステム１１０から切り離されて実現されてもよい。

オーディオミキサ２０６は、オペレーティングシステム１１０によって提供される動作環境内で実行されるアプリケーションによって生成される音声データを統合するように構成される。オーディオミキサ２０６は、アプリケーション１１２などのアプリケーションからの音声ストリームを組み合わせて、音声出力信号を生成し、この音声出力信号は、組み合わせられてスピーカコンポーネント２０６から出力されるときに、音声ストリームにコード化された音を再現する。オーディオミキサ２０６は、他の方法で音声信号を調整してもよく、たとえば焦点、意図および音量を制御してもよい。

キャプションモジュール２０８は、オーディオミキサ２０６によって（たとえば、バイトストリームとして）受信されたままの未処理の形態の音声データを自動的にキャプショニングするように構成される。キャプショニングのための全ての事後ミキシングされた音声信号を処理するのではなく、キャプションモジュール２０８は、オーディオミキサ２０６において受信された、キャプショニングに適している個々の事前ミキシングされた音声データのストリームを特定する。たとえば、キャプションモジュール２０８は、システム電子音およびベルの音などの通知またはソニフィケーションタイプの音声データではなく、話された音声タイプの音声データを自動的にキャプショニングしてもよい。キャプションモジュール２０８は、オーディオミキサ２０６によって受信されたバイトストリームにフィルタを適用して、キャプショニングに適したタイプの音声データを特定してもよい。キャプションモジュール２０８は、機械学習モデルを使用して、キャプショニングのために特定された音声データによって表される音の説明を決定する。

図３は、音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスの機械学習モデルを示す概念図である。機械学習モデル３００は、キャプションモジュール２０８の一部であってもよい。すなわち、キャプションモジュール２０８は、必ずしも音声データを音に変換することなく、コード化された音声データを可聴コンテンツの詳細な説明またはキャプションに自動的に変換するために機械学習モデル３００を含んでもよい。コンピューティングデバイス２００は、機械学習モデル３００をキャプションモジュール２０８の実行の一部として実行して、音声データ３１２に見られるコンテンツの可聴部分の説明３１８を決定してもよい。機械学習モデル３００は、１つ以上のタイプの機械学習モデルを含んでもよく、これらの１つ以上のタイプの機械学習モデルは、組み合わせられて、音声データ３１２に応答して説明３１８を提供する単一のモデルにされる。

機械学習モデル３００は、推論を実行するように構成され、機械学習モデル３００は、音声データ３１２を入力として受信して、音声データ３１２から機械学習モデル３００によって決定される音の説明３１８（たとえば、キャプション）を出力データとして提供するように訓練される。音声データ３１２に含まれる全ての注釈（すなわち、注釈付きデータ）に加えて、音声データ３１２は、キャプショニングのために注釈を付けられなかった注釈なしデータを含んでもよい。機械学習モデル３００を使用して推論を実行することにより、キャプションモジュール２０８は、オペレーティングシステム１１０のセキュアエンクレーブ内からローカルに音声データ３１２を処理して、ユーザプライバシおよびセキュリティを確保する。

機械学習モデル３００は、さまざまなタイプの機械学習モデルのうちの１つ以上であってもよく、またはさまざまなタイプの機械学習モデルのうちの１つ以上を含んでもよい。また、機械学習モデル３００を訓練するのに使用される、本明細書に記載されている機械学習技術は、容易に交換可能であって組み合わせ可能であり得る。特定の例示的な技術について説明してきたが、多くの他の技術が存在しており、本開示の局面と併用することができる。機械学習モデル３００は、分類、回帰、クラスタ化、異常検出、推奨生成および／または他のタスクを実行することができる。

機械学習モデル３００は、教師あり学習技術を使用して訓練されることができ、たとえば機械学習モデル３００は、音声データの対応する例から推論される説明の例を含む訓練データセットに基づいて訓練されることができる。機械学習モデル３００は、教師なし学習技術を使用して訓練されることもできる。

機械学習モデル３００は、１つ以上の人工ニューラルネットワーク（一種の「ニューラルネットワーク」）であってもよく、または１つ以上の人工ニューラルネットワークを含んでもよい。ニューラルネットワークとして、機械学習モデル３００は、ニューロンまたはパーセプトロンと称される、接続されるかまたは完全には接続されていない一群のノードを含み得る。ニューラルネットワークとして、機械学習モデル３００は、１つ以上の層に編成され得て、場合によっては、「ディープ」ネットワークとして構成されたときに複数の層を含み得る。ディープネットワークとして、機械学習モデル３００は、入力層、出力層、および入力層と出力層との間に位置決めされた１つ以上の隠れ層を含み得る。

機械学習モデル３００は、１つ以上の回帰型ニューラルネットワークであってもよく、または１つ以上の回帰型ニューラルネットワークを含んでもよい。たとえば、機械学習モデルは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルとして実現されてもよい。回帰型ニューラルネットワークの例としては、長・短期（ＬＳＴＭ）回帰型ニューラルネットワーク、ゲート付き回帰型ユニット、双方向回帰型ニューラルネットワーク、連続時間回帰型ニューラルネットワーク、ニューラルヒストリコンプレッサ、エコーステートネットワーク、エルマンネットワーク、ジョーダンネットワーク、再帰型ニューラルネットワーク、ホップフィールドネットワーク、完全回帰型ネットワーク、およびシーケンスツーシーケンス構成が挙げられる。

回帰型ニューラルネットワークのノードのうちの少なくとも一部は、周期を形成することができる。回帰型ニューラルネットワークとして構成されると、機械学習モデル３００は、固有のシーケンシャルな性質を有する音声データ３１２などの、シーケンシャルな性質の入力データを処理するのに特に有用であろう。回帰型ニューラルネットワークは、回帰型または有向周期ノード接続を使用することにより、入力データシーケンスの以前の部分から入力データシーケンスの以後の部分に情報を渡すか、またはこの情報を保持することができる。たとえば、機械学習モデル３００は、音声データ３１２の以前の部分と音声データ３１２の以後の部分との間の回帰型または有向周期ノード接続を使用することにより、以前の部分から以後の部分に情報を渡すか、またはこの情報を保持することができる。

定義上は、音声データ３１２は、シーケンシャルであり、時系列データ（たとえば、音データ対時間）を含み得る。回帰型ニューラルネットワークとして、機械学習モデル３００は、音声データ３１２を経時的に分析して、音声データ３１２のキャプションを生成するための話された音および話されたものではないが関連する音を検出または予測することができる。より具体的には、音声データ３１２からのシーケンシャルな音は、（たとえば、自然言語処理、発話検出または処理のために）話された言葉を文で示すことができる。

機械学習モデル３００は、１つ以上の畳み込みニューラルネットワークであってもよく、または１つ以上の畳み込みニューラルネットワークを含んでもよい。畳み込みニューラルネットワークは、学習したフィルタまたはカーネルを使用して入力データに対して畳み込みを実行する１つ以上の畳み込み層を含み得る。畳み込みニューラルネットワークは、静止画像または映像などの画像入力データを分析するときなどの視力問題の診断に有用であることが知られている。しかし、畳み込みニューラルネットワークは、シーケンシャルな音声データ３１２からキャプションを生成するときなどの音データの自然言語処理にも適用することができる。

機械学習モデル３００は、音声データ３１２を入力データとして受信し、これに応答して説明３１８を出力データとして提供するように機械学習を使用して訓練されることができる。入力データは、音声データのさまざまなタイプ、形態または変形例を含み得る。例として、さまざまな実現例では、音声データ３１２は、アプリケーションからオーディオミキサに渡される未処理の事前ミキシングされた音声バイトストリームデータを含み得て、音声データ３１２は、処理済みのバイトストリームデータも含み得る。

音声データ３１２を受信したことに応答して、機械学習モデル３００は、説明３１８を提供することができる。出力データは、出力データのさまざまなタイプ、形態または変形例を含み得る。例として、さまざまな実現例では、出力データは、表示されているビジュアルコンテンツに対応する可聴コンテンツの説明を含み得る。

機械学習モデル３００は、オフラインの態様で訓練されてもよく、またはオンラインの態様で訓練されてもよい。オフライン訓練（バッチ学習としても知られている）では、機械学習モデル３００は、静的な訓練データセット全体で訓練され、オンライン学習では、機械学習モデル３００は、新たな訓練データが利用可能になったときに（たとえば、機械学習モデル３００を使用して推論を実行している間に）連続的に訓練（または、再訓練）される。たとえば、機械学習モデル３００は、最初は、可聴コンテンツに既に適用されているキャプション（たとえば、映画キャプション）を再現するように訓練され得る。機械学習モデル３００を使用して音声データ３１２の説明を推論するので、説明および音声データ３１２の対応する部分は、機械学習モデル３００が常に説明を改良することを可能にするための新たな訓練データとして、機械学習モデル３００にフィードバックされ得る。ユーザは、エラーがあるとして特定の説明にフラグを立てるための入力を機械学習モデル３００に提供する機会を与えられてもよい。説明が誤っているかもしれないという信号を機械学習モデル３００の訓練に使用して、将来予測を向上させることもできる。

キャプションモジュール２０８の一部として、機械学習モデル３００は、オペレーティングシステム１１０の一部であってもよく、そのため、自動キャプショニングのための音声データを安全かつプライベートに処理するようにセキュアエンクレーブに含まれてもよい。オペレーティングシステム１１０と対話するアプリケーションは、機械学習モデル３００と対話して音声データ３１２を説明３１８に処理してもよい。たとえば、アプリケーション１１２は、アプリケーションプログラミングインターフェイス（ＡＰＩ）（たとえば、全てのアプリケーションにわたって共通のパブリックなＡＰＩ）を使用して、オペレーティングシステム１１０を介してモデル３００と通信してもよい。

図４は、音声データを自動的にキャプショニングするように構成されたコンピューティングデバイスの動作４００の例を示すフローチャートである。図１および図２のコンピューティングデバイス１００または２００が動作４００を実行してもよい。動作４００は、より多くのまたはより少ない動作を含んで、図４に示される順序とは異なる順序で実行されてもよい。動作４００は、コンピューティングデバイス２００の文脈において以下に記載されている。

４０２において、コンピューティングデバイス２００は、個人データを利用して自動キャプショニングを実行するための同意を取得する。たとえば、コンピューティングデバイス２００は、コンピューティングデバイス２００が音声データを使用するための明確な許可をコンピューティングデバイス２００のユーザから受け取って初めて、音声データを使用してキャプションを生成してもよい。

４０４において、コンピューティングデバイス２００は、アプリケーションのグラフィカルユーザインターフェイスを表示する。たとえば、コンピューティングデバイス２００は、ユーザインターフェイス１１４を表示してアプリケーションユーザインターフェイス１１６を表示するようにディスプレイコンポーネント１０８に指示してもよい。

４０４において、コンピューティングデバイス２００は、コンテンツの可聴部分を含む音声データをアプリケーションから取得する。たとえば、アプリケーション１１２は、メディアコンテンツ１１８を翻訳して再生してもよい。キャプショニングを提供するために、たとえばメディアコンテンツ１１８が注釈付きキャプションを含まない場合には、キャプションモジュール２０８は、音声データがオーディオミキサ２０６において受信されたときに、アプリケーション１１２から出力される音声データを抽出してもよい。

４０６において、コンピューティングデバイス２００は、音声データがキャプショニングに適しているか否かを判断する。たとえば、キャプションモジュール２０８は、通知音およびコンテンツに付随する他のタイプの音などの、キャプショニングを必要としないタイプの音声データを除去してもよい。キャプションモジュール２０８は、任意に音声データに埋め込まれたメタデータに見られるタイプ識別子に基づいて、音声データがキャプショニング用であるか否かを判断する。キャプションモジュール２０８は、任意に注釈（事前に作成されたキャプション）が音声データに含まれていることを示すメタデータに基づいて、音声データがキャプショニングに適しているか否かを判断する。音声データが既にキャプションを有していると判断したことに応答して、キャプションモジュール２０８は、自動キャプショニングを実行することをあきらめて、事前に追加されたキャプションを説明の中に表示してもよい。

オペレーティングシステム１１０およびオーディオミキサ２０６は、アプリケーションが出力に割り当て得るさまざまなタイプの音声データを定義してもよい。コンピューティングデバイス２００で実行される他のアプリケーションのように、アプリケーション１１２は、ＡＰＩを使用して、音声データをオーディオミキサ２０６に出力する。ＡＰＩは、たとえばデータから決定される音声出力を正しくミキシングして分散させる際にオーディオミキサ２０６を支援するために、メタデータ内の音声データタイプを指定するためのパラメータを含んでもよい。音を導くために音声データタイプに頼る代わりに、キャプションモジュール２０８は、任意にメタデータに見られるタイプ識別子を使用して、キャプショニングを実行するか否かを迅速かつ容易に判断する。具体的には、キャプションモジュール２０８は、特定のタイプの音声データ、音声データの特定のフォーマット、期間、または他の品質および特徴を指定して、音声データをキャプショニングできるか否かを判断してもよい。キャプショニングに適しているであろういくつかのタイプの音声データは、映画タイプの音声データ、音楽タイプの音声データ、および話されたタイプの音声データを含む。対照的に、ソニフィケーションタイプの音声データおよび他の未定義の音声データタイプは、キャプショニングには適していないであろう。なぜなら、音がコンテンツではなくイベントまたはユーザアクションを伝えることを意図したものであるからである。

音声データがキャプショニングに適していない場合、４１４において、コンピューティングデバイス２００は、コンテンツのビジュアル部分を表示する。たとえば、コンピューティングデバイス２００は、ディスプレイコンポーネント１０８にメディアコンテンツ１１８を表示してもよい。

しかし、４０６において音声データがキャプショニングに適しているとコンピューティングデバイス２００が判断した場合、コンピューティングデバイス２００は、自動キャプショニングがユーザによって選択されたか否かに基づいて、データを自動的にキャプショニングするか否かを依然として判断する。たとえば、４１４において、ユーザがユーザインターフェイス１１４の設定メニューまたはオペレーティングシステム１１０において自動キャプショニングをイネーブルにしなかった場合、コンピューティングデバイス２００は、音声データを自動的にキャプショニングすることを控えて、その代わりに、説明的なキャプションを生成することなくコンテンツのビジュアル部分を表示する。ユーザが設定メニューなどから適切なオプションを選択することによって自動キャプショニングをイネーブルにした場合、４１０において、キャプションモジュール２０８は、機械学習モデルを使用して、コンテンツの可聴部分のための説明を決定する。たとえば、キャプションモジュール２０８は、アプリケーション１１２などのアプリケーションから出力される未処理の音声データを取り込むように訓練される回帰型ニューラルネットワークに基づいてエンドツーエンド自動発話認識モデルを実行して、音声データから話された言葉および話されたものではない音を特定して、最終的に、話された言葉を書き言葉に起こし、話されたものではない音を、キャプションとして表示するための音の書き言葉による説明に変換してもよい。

キャプションモジュール２０８は、さまざまな方法でトランスクリプトおよび音の書き言葉による説明の精度を向上させることができ、このさまざまな方法は、コンピューティングデバイス２００の文脈に基づいてエンドツーエンド自動発話認識モデルにバイアスをかけることによる方法を含む。たとえば、キャプションモジュール２０８は、画面上に表示されたコンテンツのビジュアル部分または他の情報に基づいてモデルにバイアスをかけてもよい。たとえば、可聴ナレーションを含むプレゼンテーション（たとえば、スライドショー）の可聴部分の説明を生成する際に、エンドツーエンド自動発話認識モデルは、説明を生成するために、プレゼンテーションのスライドに含まれるテキストまたは画像の部分を使用してバイアスをかけられてもよく、それによって説明の精度を向上させる。キャプションモジュール２０８は、位置情報およびコンピューティングデバイス２００で実行される他のアプリケーションについての情報などの他のタイプの文脈情報を使用して、機械学習モデルにバイアスをかけてもよい。

４１２において、コンピューティングデバイス２００は、説明を表示する。たとえば、キャプションモジュール２０８は、機械学習モデル３００が未処理の音声ストリームをアプリケーション１１２から受信したときに生成される説明の表示を出力してもよい。

コンピューティングデバイス２００は、場合によっては、説明を表示する前に説明の一部を翻訳することができる。たとえば、キャプションモジュール２０８は、オペレーティングシステム１１０から、ユーザの好ましい言語を判断し、任意に説明を生成しながら音声コンテンツを翻訳してもよく、その結果、説明のテキストは、音声コンテンツの元の言語ではなくユーザの好ましい言語で書かれる。このように、コンテンツの音声が中国語または英語などの異なる言語で記録されていたとしても、たとえば日本のユーザは、日本語または他の好ましい言語で可聴コンテンツの説明を見ることができる。

４１４において、コンピューティングデバイス２００は、説明と同時にコンテンツのビジュアル部分を表示する。オペレーティングシステム１１０は、説明を持続的なグラフィカル要素にフォーマットしてもよく、ユーザは、表示のために出力されるメディアコンテンツ１１８の可聴部分の説明を読むためにアプリケーションユーザインターフェイスの上であちこち動き回ることができる。

図５Ａ～図５Ｇの各々は、音声データを自動的にキャプショニングするコンピューティングデバイスのユーザインターフェイスの例を示すスクリーンショットである。図５Ａ～図５Ｇは、コンピューティングデバイス２００の文脈において連続して記載されている。

図５Ａの例では、コンピューティングデバイス２００は、ディスプレイコンポーネント１０８にユーザインターフェイス１１４を表示する。ユーザインターフェイス１１４は、オペレーティングシステム１１０に関連付けられ、アプリケーション１１２によって制御されるアプリケーションユーザインターフェイス１１６を表示する。アプリケーション１１２は、アプリケーションユーザインターフェイス１１６内にメディアコンテンツ１１８を含む。

図５Ｂは、設定メニュー５０２を表示するためのユーザ入力を受信したことに応答するユーザインターフェイス１１４のスクリーンショットである。図５Ｂの例では、設定メニュー５０２は、音量制御、警告音設定５０４、ミュート制御などを調整するための音声設定メニューである。また、コンピューティングデバイス２００は、設定メニューの下方にキャプション制御要素１２２Ａを表示する。コンピューティングデバイス２００は、キャプション制御要素１２２Ａのユーザ選択を検出したことに応答して、音声データを自動的にキャプショニングするためのユーザ入力を判断する。たとえば、図５Ｃは、選択に応答してキャプション制御要素１２２Ａと置換されたキャプション制御要素１２２Ｂを示す。

場合によっては、キャプション制御要素１２２Ｂの選択を受信したことに応答して、コンピューティングデバイス２００は、コンピューティングデバイス２００上でコンテンツの可聴部分をキャプショニングすることを自動的に中止する。このように、制御要素１２２Ａおよび１２２Ｂは、自動キャプショニングを迅速に開始および停止させることができる能力をユーザに提供する。

図５Ｄでは、選択に応答して、コンピューティングデバイスは、機械学習モデルを使用して、アプリケーション１１２から出力された音声データを自動的にキャプショニングする。コンピューティングデバイス２００は、出力に関連付けられた信頼水準を含むキャプションモジュール２０８からの出力に基づいて、メディアコンテンツ１１８の可聴部分の説明を生成する。

オペレーティングシステム１１０は、ディスプレイコンポーネント１０８に、オペレーティングシステム１１０がユーザインターフェイス１１４内に含んでいる持続的な要素５０６内に説明を表示するようにさせてもよい。場合によっては、オペレーティングシステム１１０は、スピーカコンポーネント１０６（たとえば、コンピューティングデバイス２００のスピーカ、ヘッドホンジャックまたは他のサウンドシステム）を使用してコンテンツの可聴部分を出力することを控えながら持続的な要素５０６を表示してもよい。他のキャプショニングシステムとは異なって、コンピューティングデバイス２００は、可聴音を生成することなくコンテンツをキャプショニングすることができる。他の場合には、オペレーティングシステム１１０は、聴覚補助機能を提供して、スピーカコンポーネント１０６（たとえば、コンピューティングデバイス２００のスピーカ、ヘッドホンジャックまたは他のサウンドシステム）を使用してコンテンツの可聴部分を出力しながら同時に持続的な要素５０６を表示してもよい。

図５Ｅの例では、コンピューティングデバイス２００は、持続的な要素５０６をユーザインターフェイス１１４の第１の場所からユーザインターフェイス１１４の第２の場所に移動させており、これは、どのようにして持続的な要素５０６がメディアコンテンツ１１８から切り離されて区別されるかを示している。コンピューティングデバイス２００のユーザは、ユーザインターフェイスの第１の場所に対応する入力コンポーネント１１０の場所においてジェスチャを提供し、ユーザインターフェイス１１４の第２の場所に対応する入力コンポーネントの異なる場所まで入力をドラッグすることができる。コンピューティングデバイス２００は、持続的な要素５０６がジェスチャとともに移動するようにさせてもよい。

このように、図５Ｅの例は、持続的な要素５０６に関連付けられたユーザ入力を受信したことに応答して、コンピューティングデバイス２００が持続的な要素をアプリケーションユーザインターフェイス１１６およびユーザインターフェイス１１４の第１の部分から区別されるように移動させて、アプリケーションユーザインターフェイス１１６およびユーザインターフェイス１１４の第２の異なる部分を見えにくくしてもよいことを示している。これにより、ユーザは、音声データがキャプショニングされて常にユーザインターフェイス１１４の上に表示されている間に、マルチタスキングを実行する、たとえばユーザインターフェイス１１６内に表示されているコンテンツをスクロールすることができる。

図５Ｆの例では、コンピューティングデバイス２００は、持続的な要素５０６を第１のサイズから第２の（より大きなまたはより小さな）サイズに拡大しており、これは、どのようにして持続的な要素５０６がカスタマイズ可能であるかを示している。コンピューティングデバイス２００のユーザは、持続的な要素を引き伸ばしたり持続的な要素を縮小したりするためのジェスチャを、持続的な要素５０６に対応する入力コンポーネント１１０の場所において提供することができる。場合によっては、持続的な要素５０６に関連付けられたユーザ入力を受信したことに応答して、コンピューティングデバイス２００は、持続的な要素５０６のサイズを変更して、コンテンツの可聴部分から生成される以前または以後の説明を表示してもよい。このように、コンピューティングデバイス２００は、ユーザ入力（たとえば、ジェスチャ）に対するサイズの変更に伴って持続的な要素５０６のサイズを変更させ、その結果、特定の時点でどれぐらいの説明が持続的な要素５０６に含まれるかを調整してもよい。

図５Ｇの例では、持続的な要素５０６内に表示されているコンテンツの可聴部分の説明は、コンテンツの可聴部分のさまざまな部分について話されたものの発生源または話されたものではないものの発生源を特定するテキストを含む。たとえば、持続的な要素５０６は、キャプションモジュール２０８の機械学習モデルが恐らくライオンからの大きなうなり声を特定したことを表示している。また、話されたものではない音声がコンテンツの可聴部分からの話された音声のトランスクリプションであることを示すテキストも持続的な要素５０６に含まれている。たとえば、メディアコンテンツ１１８の分かりやすいキャプションを提供するために、メディアコンテンツ１１８における記者の台詞のトランスクリプションは、ライオンのうなり声の表示の中またはその周辺に表示されている。

一般に、コンピューティングデバイス２００は、持続的な要素５０６内の説明の一部として、雑音の説明および雑音の発生源の表示を含んでもよい。雑音は、動物を発生源とする動物雑音、環境要因からの環境雑音などを含んでもよい。キャプションモジュール２０８の機械学習モデルは、音声データからの話された音声および話されたものではない音声を特定し、これらの音声を、コンピューティングデバイス２００のユーザが可聴コンテンツを理解するのに十分な説明により表現するように訓練される。

第１項
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスで実行されるアプリケーションから出力される音声データを、上記コンピューティングデバイスのオーディオミキサから取得するステップを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップと、上記音声データがキャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、上記コンテンツのビジュアル部分を表示しながら、表示のために上記コンテンツの上記可聴部分の上記説明を出力するステップとを備える、方法。

第２項
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第１項に記載の方法。

第３項
上記コンテンツの上記可聴部分の上記説明は、上記コンテンツの上記可聴部分からの話された音声のトランスクリプションを含む、第１項および第２項のいずれか１項に記載の方法。

第４項
上記コンテンツの上記可聴部分の上記説明は、上記コンテンツの上記可聴部分からの話されたものではない音声の説明を含む、第１項から第３項のいずれか１項に記載の方法。

第５項
上記話されたものではない音声は、特定の発生源からの雑音を含み、上記特定の発生源からの上記雑音の説明は、上記特定の発生源の表示を含む、第４項に記載の方法。

第６項
上記雑音は、動物を発生源とする動物雑音を含み、または上記雑音は、動物を発生源としない環境雑音を含む、第５項に記載の方法。

第７項
上記コンテンツの上記可聴部分の上記説明を決定するステップは、上記コンピューティングデバイスが、機械学習モデルを実行するステップを含み、上記機械学習モデルは、上記コンテンツの上記可聴部分の上記説明を決定するために音声データから説明を決定するように訓練される、第１項から第６項のいずれか１項に記載の方法。

第８項
上記機械学習モデルは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルを含む、第７項に記載の方法。

第９項
上記コンテンツの上記可聴部分を示す上記データは、キャプショニングのために注釈を付けられていない注釈なしデータを含む、第１項から第８項のいずれか１項に記載の方法。

第１０項
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスが、上記コンピューティングデバイスで実行されるアプリケーションのグラフィカルユーザインターフェイスを表示するステップと、上記グラフィカルユーザインターフェイスを表示しながら、上記アプリケーションから出力される音声データを取得するステップとを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データが自動キャプショニングに適したタイプであるか否かを判断するステップと、上記音声データが自動キャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、上記コンテンツのビジュアル部分を上記アプリケーションの上記グラフィカルユーザインターフェイス内に表示しながら、表示のために上記コンテンツの上記可聴部分の上記説明を上記アプリケーションの上記グラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップとを備える、方法。

第１１項
上記説明は、上記コンテンツの上記可聴部分から抽出された話された音声のトランスクリプション、または、上記コンテンツの上記可聴部分から抽出された話されたものではない音声を示すテキストのうちの少なくとも１つを含む、第１０項に記載の方法。

第１２項
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第１０項から第１１項のいずれか１項に記載の方法。

第１３項
上記説明は、上記コンテンツの上記可聴部分のさまざまな部分について人間を発生源とするか人間以外を発生源とするかを特定するテキストを含む、第１０項から第１２項のいずれか１項に記載の方法。

第１４項
上記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、上記コンテンツの上記可聴部分から生成される以前または以後の説明を表示するように上記持続的な要素のサイズを変更するステップをさらに備える、第１０項から第１３項のいずれか１項に記載の方法。

第１５項
上記持続的な要素は、上記アプリケーションの上記グラフィカルユーザインターフェイスの第１の部分を見えにくくすることによって表示のために出力され、上記方法はさらに、上記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、上記アプリケーションの上記グラフィカルユーザインターフェイスの第２の部分を見えにくくするために、上記アプリケーションの上記グラフィカルユーザインターフェイスの上記第１の部分から区別されるように上記持続的な要素を移動させるステップを備える、第１０項から第１４項のいずれか１項に記載の方法。

第１６項
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスで実行されるアプリケーションからの音声データを自動的にキャプショニングするためのユーザ入力を受信するステップと、上記ユーザ入力を受信したことに応答して、上記コンピューティングデバイスで実行される上記アプリケーションから出力される上記音声データを取得するステップとを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップと、上記音声データがキャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、表示のために上記コンテンツの上記可聴部分の上記説明を上記コンテンツのビジュアル部分から区別され、かつ上記アプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップとを備える、方法。

第１７項
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第１６項に記載の方法。

第１８項
前記音声データを自動的にキャプショニングするための前記ユーザ入力を受信するステップは、前記コンピューティングデバイスの音声設定メニュー内にキャプション制御要素を表示するステップと、前記キャプション制御要素のユーザ選択を検出したことに応答して、前記音声データを自動的にキャプショニングするための前記ユーザ入力を受信するステップとを含む、第１６項または第１７項のいずれか１項に記載の方法。

第１９項
前記キャプション制御要素の後続の選択を受信したことに応答して、前記コンピューティングデバイス上で前記コンテンツの前記可聴部分をキャプショニングすることを自動的に中止するステップをさらに備える、第１８項に記載の方法。

第２０項
前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記コンピューティングデバイスのスピーカ、ヘッドホンジャックまたは他のサウンドシステムを使用して前記コンテンツの前記可聴部分を出力することを控えながら前記説明を出力するステップを含む、第１６項から第１９項のいずれか１項に記載の方法。

第２１項
前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記コンピューティングデバイスのスピーカ、ヘッドホンジャックまたは他のサウンドシステムを使用して前記コンテンツの前記可聴部分を出力しながら前記説明を出力するステップを含む、第１６項から第１９項のいずれか１項に記載の方法。

第２２項
音声データの説明を決定するように機械学習モデルを訓練するステップをさらに備え、前記説明を決定するステップは、前記機械学習モデルを使用して前記説明を決定するステップを含む、第１項から第２１項のいずれか１項に記載の方法。

第２３項
前記機械学習モデルを訓練するステップは、以前にキャプショニングされたコンテンツを使用して、前記以前にキャプショニングされたコンテンツの音声から前記以前にキャプショニングされたコンテンツに埋め込まれたキャプションを推論するように前記機械学習モデルを構成するステップを含む、第２２項に記載の方法。

第２４項
前記機械学習モデルを訓練するステップは、前記機械学習モデルへの訓練入力として前記説明を使用するステップを含む、第２２項に記載の方法。

第２５項
第１項から第２４項に記載の方法のいずれかを実行するように構成された少なくとも１つのプロセッサを備えるコンピューティングデバイス。

第２６項
第１項から第２４項に記載の方法のいずれかを実行するための手段を備えるシステム。

第２７項
実行されると第１項から第２４項に記載の方法のいずれかを実行するようにコンピューティングデバイスのプロセッサを構成する命令を備えるコンピュータ読取可能記憶媒体。

本開示のさまざまな好ましい実施形態が上記の説明に記載され、図面に示されているが、本開示はそれに限定されるものではなく、添付の特許請求の範囲内で実施されるようにさまざまに具体化されてもよいということがはっきりと理解されるべきである。上記の説明から、以下の特許請求の範囲によって規定される本開示の精神および範囲から逸脱することなくさまざまな変更がなされてもよいということが明らかであろう。

Claims

コンピュータによって実現される方法であって、
コンピューティングデバイスのプロセッサが、前記コンピューティングデバイスで実行されるアプリケーションから出力される音声データを、前記コンピューティングデバイスのオーディオミキサから取得するステップを備え、前記音声データは、コンテンツの可聴部分を示す非メタデータと、当該音声データにタグ付けされたメタデータであって前記コンテンツのタイプを示すタイプ識別子を有したメタデータとを含み、前記方法はさらに、
前記プロセッサが、前記音声データにタグ付けされた前記メタデータが有する前記タイプ識別子は、キャプショニングに適したコンテンツのタイプを示すか否かを判断するステップと、
前記タイプ識別子がキャプショニングに適したタイプを示すと判断したことに応答して、前記プロセッサが、前記キャプショニングのために前記コンテンツの前記可聴部分の説明を決定するステップと、
前記プロセッサが、表示のために前記コンテンツの前記可聴部分の前記説明を出力するステップとを備える、方法。
前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記プロセッサが、表示のためにキャプション制御要素を出力するステップを、含み、
前記キャプション制御要素は、前記コンピューティングデバイスが、前記キャプショニングを実施していることを示すアイコンを含む、請求項１に記載の方法。
前記コンテンツの前記可聴部分の前記説明は、前記コンテンツの前記可聴部分からの話された音声のトランスクリプションを含む、請求項１または２に記載の方法。
前記コンテンツの前記可聴部分の前記説明は、前記コンテンツの前記可聴部分からの話されたものではない音声の説明を含む、請求項１から３のいずれか１項に記載の方法。
前記話されたものではない音声は、特定の発生源からの雑音を含み、前記特定の発生源からの前記雑音の前記説明は、前記特定の発生源の表示を含む、請求項４に記載の方法。
前記雑音は、動物を発生源とする動物雑音を含み、または
前記雑音は、動物を発生源としない環境雑音を含む、請求項５に記載の方法。
前記コンテンツの前記可聴部分の前記説明を決定するステップは、前記コンピューティングデバイスの前記プロセッサが、機械学習モデルを実行するステップを含み、前記機械学習モデルは、前記コンテンツの前記可聴部分の前記説明を決定するために前記音声データから説明を決定するように訓練される、請求項１から６のいずれか１項に記載の方法。
前記機械学習モデルは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルを含む、請求項７に記載の方法。
前記コンテンツの前記可聴部分を示す前記非メタデータは、キャプショニングのために注釈を付けられていない注釈なしデータを含む、請求項１から８のいずれか１項に記載の方法。
前記説明は、前記コンテンツの前記可聴部分から抽出された話されたものではない音声を示すテキストを含む、請求項１から９のいずれか１項に記載の方法。
前記説明は、前記コンテンツの前記可聴部分のさまざまな部分について人間を発生源とするか人間以外を発生源とするかを特定するテキストを含む、請求項１から１０のいずれか１項に記載の方法。
前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記プロセッサが、表示のために、前記コンテンツのビジュアル部分から区別され、かつ前記アプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として、前記コンテンツの前記可聴部分の前記説明を出力するステップを含む、請求項１から１１のいずれか１項に記載の方法。
前記プロセッサが、前記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、前記コンテンツの前記可聴部分から生成される以前または以後の説明を表示するように前記持続的な要素のサイズを変更するステップをさらに備える、請求項１２に記載の方法。
請求項１から１３のいずれか１項に記載の方法を実行するように構成された少なくとも１つのプロセッサを備えるコンピューティングデバイス。
請求項１から１３のいずれか１項に記載の方法をプロセッサに実行させるプログラム。