JP2022510528A - 表示されたテキストコンテンツの自動オーディオ再生 - Google Patents

表示されたテキストコンテンツの自動オーディオ再生 Download PDF

Info

Publication number
JP2022510528A
JP2022510528A JP2020561826A JP2020561826A JP2022510528A JP 2022510528 A JP2022510528 A JP 2022510528A JP 2020561826 A JP2020561826 A JP 2020561826A JP 2020561826 A JP2020561826 A JP 2020561826A JP 2022510528 A JP2022510528 A JP 2022510528A
Authority
JP
Japan
Prior art keywords
text content
user
computing devices
content
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020561826A
Other languages
English (en)
Other versions
JP7395505B2 (ja
Inventor
レイチェル・イラン・シンプソン
ベネディクト・デイヴィス
ギヨーム・ボニファス-チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2022510528A publication Critical patent/JP2022510528A/ja
Application granted granted Critical
Publication of JP7395505B2 publication Critical patent/JP7395505B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ディスプレイ上のテキストコンテンツの部分をスクロールするなどのユーザ入力アクションに応答して、テキストコンテンツの直感的なオーディオ再生を提供するオーディオ再生システム。テキストコンテンツを含むオーディオ(例えば、テキスト読み上げオーディオ)の再生は、デバイスディスプレイ上の特定の位置においてユーザ入力によって配置されているテキストコンテンツの一部に基づいて開始することができる。一例として、ユーザは、テキスト読み上げシステムに、デバイスのビューポートの1つまたは複数の再生セクションにおいて表示されたテキストコンテンツのオーディオ再生を実行させるために、(例えば、テキストコンテンツの特定の部分を具体的に選択するために、追加のタップまたはジェスチャを実行するようにユーザに要求するのではなく)ウェブページまたは他のコンテンツアイテムを単にスクロールすることができる。

Description

本開示は、一般的にテキストコンテンツのオーディオ再生に関する。より詳細には、本開示は、ディスプレイ上のテキストコンテンツの一部をスクロールするなどのユーザ入力アクションに応答して、テキストコンテンツの直感的なオーディオ再生を提供するシステムおよび方法に関する。
しばしば、テキスト読み上げ再生することを開始するためにテキストコンテンツの一部を選択することは、一連の複雑なメニューをナビゲートすることを必要とする。複雑な一連のメニューをナビゲートすることに慣れていない、またはそうすることに不安なユーザにとって、テキスト読み上げ再生するためのテキストコンテンツを選択することは、大きな課題である可能性がある。この複雑さは、一部のユーザがテキスト読み上げ機能を完全に無視することを引き起こす可能性がある。その他の場合、テキストコンテンツの一部のためにテキスト読み上げサービスにアクセスするために必要なプロセスをユーザに一通り説明するために、詳細なチュートリアルサービスの開発が必要になる可能性がある。
メニューナビゲーションに慣れている人でさえ、テキストを繰り返し選択するプロセスは、デバイスリソースの非効率的な使用およびユーザへのフラストレーションの源である可能性がある。例として、テキスト読み上げ再生するために記事内のいくつかの段落を選択したいユーザは、ユーザが再生したい段落ごとにメニューを繰り返しナビゲートすることを強いられる。別の例として、デバイスは、処理リソースおよびバッテリリソースを、各要求にサービス提供することに向けなければならない。
本開示の実施形態の態様および利点は、以下の説明の一部に記載され、または説明から学習することができ、または実施形態の実施を通じて学ぶことができる。
本開示の1つの例示的な態様は、コンピュータ実施方法に向けられている。方法は、1つまたは複数のコンピューティングデバイスによって、テキストコンテンツの複数の部分を含むコンテンツの1つまたは複数のアイテムを記述するデータを取得するステップを含む。方法は、1つまたは複数のコンピューティングデバイスによって、1つまたは複数のコンピューティングデバイスに関連付けられたディスプレイ上のテキストコンテンツの部分のうちの1つまたは複数のそれぞれの位置を示す位置データを決定するステップを含む。方法は、1つまたは複数のコンピューティングデバイスによって、ディスプレイに対するテキストコンテンツの部分のうちの1つまたは複数のそれぞれの位置を変更するユーザ入力を示すデータを受信するステップを含む。方法は、ユーザ入力を示すデータを受信するステップに応答して、1つまたは複数のコンピューティングデバイスによって、テキストコンテンツの部分のうちの1つまたは複数のそれぞれの更新された位置を示す更新位置データを決定するステップを含む。方法は、ユーザ入力を示すデータを受信するステップに応答して、1つまたは複数のコンピューティングデバイスによって、更新位置データに少なくとも部分的に基づいて、テキストコンテンツの第1の部分がディスプレイの再生領域内に配置されていることを識別するステップを含む。方法は、ユーザ入力を示すデータを受信するステップに応答して、1つまたは複数のコンピューティングデバイスによって、テキストコンテンツの第1の部分の少なくとも一部の読み上げを含むオーディオ信号の再生を引き起こすステップを含む。
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスに向けられている。
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照してよりよく理解されるようになるであろう。本明細書に組み込まれ、その一部を構成する添付図面は、本開示の例示的な実施形態を示し、説明とともに、関連する原理を説明するのに役立つ。
本開示の例示的な実施形態による例示的なコンピューティングシステムのブロック図である。 本開示の例示的な実施形態による例示的なコンピューティングデバイスのブロック図である。 本開示の例示的な実施形態による例示的なコンピューティングデバイスのブロック図である。 本開示の例示的な実施形態による、再生領域内に配置されているテキストコンテンツの第1の部分に関連するユーザインターフェースインタラクションを示す図である。 本開示の例示的な実施形態による、再生領域内に配置されているテキストコンテンツの第1の部分に関連するユーザインターフェースインタラクションを示す図である。 本開示の例示的な実施形態による、再生領域内に配置されているテキストコンテンツの第2の部分に関連するユーザインターフェースインタラクションを示す図である。 本開示の例示的な実施形態による、再生領域内に配置されているテキストコンテンツの第2の部分に関連するユーザインターフェースインタラクションを示す図である。 本開示の例示的な実施形態による、コンテンツの非構造化アイテムをテキストコンテンツの複数の部分に分割するための方法を示す図である。 本開示の例示的な実施形態による、コンテンツの非構造化アイテムをテキストコンテンツの複数の部分に分割するための方法を示す図である。 本開示の例示的な実施形態による、ユーザ再生領域設定を変更するためのユーザインターフェースを示す図である。 例示的な実施形態による、表示されたテキストコンテンツのオーディオ再生を実行する例示的な方法の流れ図である。 例示的な実施形態による、表示されたテキストコンテンツのオーディオ再生を停止する例示的な方法の流れ図である。
本開示の例示的な態様は、ディスプレイ上のテキストコンテンツの一部をスクロールするなどのユーザ入力アクションに応答して、テキストコンテンツの直感的なオーディオ再生を提供するシステムおよび方法に向けられている。具体的には、本明細書で説明するシステムおよび方法は、デバイスディスプレイ上の特定の位置においてユーザ入力によって配置されたテキストコンテンツを含むオーディオ(例えば、テキスト読み上げオーディオ)の再生に向けられている。したがって、一例として、ユーザは、テキスト読み上げシステムに、デバイスのビューポートの1つまたは複数の再生セクションにおいて表示されたテキストコンテンツのオーディオ再生を実行させるために、(例えば、テキストコンテンツの特定の部分を具体的に選択するために、追加のタップまたはジェスチャを実行するようにユーザに要求するのではなく)ウェブページまたは他のコンテンツアイテムを単にスクロールすることができる。提案された技法は、テキスト読み上げの読み出しのためのナビゲーション制御に対する強力な調整を表す。具体的には、タップまたはジェスチャの代わりにスクロールを介してテキスト読み上げを制御することによって、提案されたシステムは、初心者であるか、さもなければ技術的に洗練されていないユーザに、より直感的な再生制御を提供する。
一例として、コンピューティングデバイス(例えば、スマートフォンなどのユーザデバイス)は、テキストコンテンツの複数の部分(例えば、検索要求に対応する複数の検索結果)を含むコンテンツの1つまたは複数のアイテムを取得することができる。コンピューティングデバイスは、ユーザ入力(例えば、コンテンツをディスプレイの下にスクロールするスクロール操作)と、テキストコンテンツの各部分がコンピューティングデバイスのディスプレイ上のどこに移動されたかを示す対応する位置データとをさらに受信することができる。一例として、コンピューティングデバイスは、テキストコンテンツの第1の部分(例えば、検索結果)がディスプレイの上半分に移動されたことを示す位置データを受信することができる。より具体的には、テキストコンテンツの一部がディスプレイ上の再生領域に移動された場合、コンピューティングデバイスは、テキストコンテンツのその一部のうちの少なくとも一部を含むオーディオ再生を実行することができる。一例として、検索結果がディスプレイの再生領域に移動された場合、コンピューティングデバイスは、検索結果のコンテンツの要約を含むオーディオ信号の再生を提供することができる。別の例として、ニュース記事の段落がディスプレイの再生領域に移動された場合、コンピューティングデバイスは、段落全体の読み上げを含むオーディオ信号の再生を提供することができる。そのような方法で、ユーザは、オーディオ信号の再生を引き起こすために、テキストコンテンツの一部をディスプレイの特定の位置に意図的に移動させることができる。したがって、ユーザは、サービスを有効にするために、一連の複雑なメニューをナビゲートする代わりに、単一のユーザ入力で再生を開始することができる。いくつかの実装形態において、本明細書で説明する方法は、音声検索に応答して開始される。
本開示は、いくつかの技術的効果および利益を提供する。1つの例示的な技術的効果および利益として、本開示のシステムおよび方法は、コンピューティングデバイスを用いて操作を実行するために必要なユーザ入力の大幅な削減を可能にする。テキストコンテンツの一部が再生領域内に位置するときにテキストコンテンツの自動再生を提供することによって、ユーザは、もはや、テキストコンテンツの一部を選択し、次いでコンピューティングデバイスに再生を開始させる一連の入力を実行する必要はない。これらの追加のユーザとデバイスとのインタラクションの排除は、複雑な一連のユーザ入力を処理することに関連するかなりの処理リソース、バッテリリソース、およびメモリリソースを節約する。
別の例示的な技術的効果および利点として、本開示のシステムおよび方法は、デバイスインタラクションの複雑さと、デバイスサービスへのアクセスに関連する混乱とを実質的に低減する。例えば、ユーザは、以前、テキストコンテンツのオーディオ再生を可能にする一連のメニューインタラクションを暗記する必要があった。この暗記要件は、オーディオ再生メニューを操作する方法をユーザに教えるためのチュートリアルサービスの作成を必要とする可能性があり、これは、増大する開発コストとユーザのフラストレーションの両方につながる可能性がある。本開示のシステムおよび方法は、直感的な再生を自動的に提供し、低減したデバイスインタラクションの複雑さにつながり、ユーザチュートリアルサービスを作成する必要性を低減することによって、これらの要件を排除する。
上記の説明に加えて、本明細書で説明するシステム、プログラム、または機能がユーザ情報(例えば、ユーザのソーシャルネットワーク、ソーシャルアクション、または活動、職業、ユーザの好み、またはユーザの現在の場所に関する情報)の収集を可能にする可能性があるかどうか、およびいつ可能にする可能性があるかと、ユーザにサーバからコンテツまたは通信が送信されるかどうかの両方に関してユーザが選択を行うことを可能にする制御がユーザに提供されてもよい。加えて、特定のデータは、個人を特定できる情報が削除されるように、記憶または使用される前に1つまたは複数の方法で処理されてもよい。例えば、ユーザの識別情報は、ユーザについて個人を特定できる情報を決定することができないように処理されてもよく、または、ユーザの地理的位置は、ユーザの特定の場所を決定することができないように、位置情報が取得される場所で一般化(例えば、都市、郵便番号、または州レベル)されてもよい。したがって、ユーザは、ユーザに関するどのような情報が収集されるか、どのようにその情報が使用されるか、および、どのような情報がユーザに提供されるかを制御してもよい。
より具体的には、以前のテキストコンテンツ再生方法は、ユーザとデバイスとのインタラクションに関連するいくつかの問題を引き起こしてきた。一例として、以前の方法は、ユーザがインタラクションするためにディスプレイの一部にオーバレイされた再生メニュー項目の存在を必要とする。この再生メニュー項目は、ユーザが利用可能な表示スペースの量を低減する可能性があり、下にあるテキストコンテンツを潜在的に不明瞭にする可能性がある。別の例として、以前の方法は、一般に、ユーザによって直感的でないとみなされる可能性がある。例えば、以前の再生方法を利用するために必要な複雑な一連のステップは、すべてのユーザによって所有されることはめったにないある程度のユーザデバイスの知識を必要とした。提案されたシステムは、再生メニュー項目の必要性を排除し、テキストコンテンツ再生サービスを操作することに関連する学習曲線を大幅に低減することによって、これらの問題を解消する。
本開示の1つまたは複数のコンピューティングデバイスは、テキストコンテンツの一部を含むコンテンツのアイテムを取得することができる。いくつかの実装形態において、コンテンツのアイテムは、検索クエリに対する応答である1つまたは複数の検索結果とすることができる。一例として、1つまたは複数のコンピューティングデバイスは、検索クエリに応答して、テキストコンテンツの複数の部分(例えば、複数の検索結果のうちの各検索結果)を含むコンテンツのアイテム(例えば、複数の検索結果)を取得することができる。別の例として、コンテンツのアイテムは、テキストコンテンツの複数の部分(例えば、映画のリスト内の各映画)を含む単一の検索結果(例えば、最高のアクション映画のリスト)とすることができる。別の例として、コンテンツのアイテムは、ウェブページもしくはウェブ文書、テキスト文書(例えば、PDFまたはワードプロセッシング文書)、テキストコンテンツを含む画像(例えば、広告、ストリートサイネージなどを描写する、ユーザによってキャプチャされた画像)、および/またはテキストを含む任意の他のコンテンツとすることができる。
いくつかの実装形態において、テキストコンテンツの複数の部分は、カードフォーマットにおいて提示することができ、またはカードフォーマット内に含めることができる。カードフォーマットは、テキストコンテンツの一部をテキストコンテンツカード(例えば、テキストコンテンツの一部の様々なスニペットを含むカード)に構造化するのに役立つことができる。一例として、検索結果クエリの各検索結果は、それ自体のテキストコンテンツカードにおいて提示することができ、またはそれ自体のテキストコンテンツカード内に含めることができる。別の例として、複数の検索結果は、単一のテキストコンテンツカード内に要約することができる。テキストコンテンツカードは、オーディオ信号の再生を容易にする方法でテキストコンテンツの一部を組織化することができる。例として、テキストコンテンツカードは、検索結果に対応するウェブページのタイトルおよび関連するコンテキスト情報を強調してもよい。別のセクションでより詳細に説明するように、テキストコンテンツカードは、コンテンツの非構造化アイテムからのテキストコンテンツの1つまたは複数の部分を含むことができる。例えば、ニュース記事に対応する複数の段落は、コンテンツのアイテムに構造を提供するために、個々のテキストコンテンツカードにフォーマットすることができる。
いくつかの実装形態において、コンテンツのアイテムは、ウェブページまたは他の形式のウェブ文書とすることができる。テキストコンテンツの複数の部分は、それぞれ、段落、見出し、キャプション、またはテキストコンテンツの他のそのような分割によって分割することができる。一例として、コンテンツのアイテム(例えば、複数のニュース記事を含むアーカイブされた新聞ページ)は、複数のテキストコンテンツカードに構造化することができ、各テキストコンテンツカードは、コンテンツのアイテムからのテキストコンテンツの一部(例えば、ニュース記事のタイトルおよびニュース記事からの最初の段落)を表す。別の例として、単一のニュース記事を含むウェブページは、テキストコンテンツの一部に関連付けられた複数のテキストコンテンツカードに構造化することができ、各テキストコンテンツカードは、記事ヘッダまたはテキストコンテンツの段落のいずれかを含む。
いくつかの実装形態において、コンテンツのアイテムは、構造化されていないか、さもなければ非構造化テキストを含むことができる。非構造化コンテンツは、例えば、見出し、記事、段落などの間に明確な区別がない記事とすることができる。そのような場合、テキストコンテンツの部分を取得することは、非構造化テキストコンテンツからテキストコンテンツの複数の部分を決定することを含むことができる。一例として、非構造化コンテンツのウェブページまたは他のデジタルアイテムは、コンテンツのアイテムに関連付けられたデジタルマークアップ要素に少なくとも部分的に基づいて、テキストコンテンツの部分に分割することができる。例として、ウェブページは、ウェブページに関連付けられたメタデータ(例えば、ウェブページに関連付けられたハイパーテキストマークアップ言語段落タグ)に少なくとも部分的に基づいて、テキストコンテンツの部分に分割することができる。別の例として、いくつかの実装形態において、非構造化コンテンツをテキストコンテンツの部分に分割するために、機械知能(例えば、機械学習モデル)を使用することができる。例えば、ユーザフィードバック、ユーザが望む行動、または他の関連する訓練データに基づいて、機械知能は、コンテンツのアイテムをテキストコンテンツの部分に分割する場所を決定することができる。
本開示の別の態様によれば、1つまたは複数のコンピューティングデバイスは、コンピューティングデバイスディスプレイに対するテキストコンテンツの部分のうちの1つまたは複数の位置を決定することができる。いくつかの実装形態において、位置データは、コンテンツの部分がディスプレイ上に配置されているかどうかに関係なく、ディスプレイに対するテキストコンテンツのすべての部分の位置を示すことができる。例として、位置データは、テキストコンテンツの第1の部分がディスプレイの上部20%内にあることを示してもよい。別の例として、位置データは、現在表示されていないテキストコンテンツの第2の部分が、現在表示されているテキストコンテンツの1つまたは複数の部分の下の特定の距離に配置されていることを示してもよい。位置データは、例えば、コンテンツのアイテムを提示もしくは他の方法で処理しているアプリケーション(例えば、ブラウザアプリケーション)から、デバイスディスプレイを監視する別個のアプリケーションから、および/または、位置データの他のソースから取得することができる。
本開示の別の態様によれば、1つまたは複数のコンピューティングデバイスは、テキストコンテンツの部分の位置を変更するユーザ入力を受信することができる。ユーザ入力は、物理的なユーザアクションに対応することができる。一例として、ユーザは、タッチ入力を使用して(例えば、指またはスタイラスをタッチ感知ディスプレイ上に置き、上下にスライドさせることによって)ディスプレイを上下にスクロールすることができる。別の例として、ユーザは、音声コマンドを使用してディスプレイをスクロールすることができる。さらに別の例として、ユーザは、コンピューティングデバイスによって認識されるジェスチャまたは物理的運動を使用してディスプレイをスクロールすることができる。
ユーザ入力は、ディスプレイに対してテキストコンテンツの1つまたは複数の部分を移動させることによって、テキストコンテンツの1つまたは複数の部分のそれぞれの位置を変更することができる。一例として、ユーザスクロール入力は、テキストコンテンツの以前に表示されていた部分がディスプレイの上に配置されるように、ディスプレイを移動させることができる。別の例として、ユーザジェスチャ入力は、テキストコンテンツの一部をディスプレイの下半分からディスプレイの上半分に移動させることができる。
ユーザ入力を受信した後、1つまたは複数のコンピューティングデバイスは、テキストコンテンツの1つまたは複数の部分の更新された位置を決定することができる。一例として、ディスプレイ上に以前は配置されていなかったテキストコンテンツの一部(例えば、検索結果に関連付けられたテキストコンテンツカード)は、ディスプレイ上に配置された更新された位置を有することができる。別の例として、ディスプレイ上に以前に配置されていたコンテンツの一部は、ディスプレイ上に配置されていない更新された位置を有することができる。
本開示の別の態様によれば、1つまたは複数のコンピューティングデバイスは、テキストコンテンツの第1の部分がディスプレイの再生領域内に配置されていることを識別することができる。ディスプレイの再生領域は、テキストコンテンツの第1の部分に関連付けられたオーディオ再生を可能にする画面の領域とすることができる。一例として、テキストコンテンツの第1の部分が再生領域内に配置されている場合、1つまたは複数のコンピューティングデバイスは、テキストコンテンツのその部分を含むオーディオ再生を可能にすることができる。いくつかの実施形態において、再生領域内に配置されているものとして、テキストコンテンツの複数の部分を識別することができる。例えば、2つの(例えば、ディスプレイのサイズに対して)比較的小さいテキストコンテンツカードが、両方とも、ディスプレイの再生領域内に同時に収まってもよい。
いくつかの実施形態において、再生領域は、ディスプレイの矩形部分として定義することができる。再生領域のサイズおよび位置は、複数の方法で決定することができる。一例として、再生領域のサイズおよび位置は、ユーザの好みによって決定することができる。ユーザが再生領域の位置と寸法とを決定することを可能にする設定メニューが存在することができる。例えば、ユーザは、再生領域がディスプレイの中央に配置された小さい矩形であるべきであると判断することができる。別のユーザは、再生領域を拡大し、再生領域をディスプレイの最上部に配置することを選択してもよい。別の例として、再生領域のサイズおよび位置は、少なくとも部分的に機械知能(例えば、機械学習モデル)によって決定することができる。例えば、コンピューティングデバイスは、過去のユーザの行動を分析し、問題のユーザによって最も好まれる再生領域のサイズと位置とを決定するために、機械知能を使用することができる。代替的または追加的には、再生領域のサイズおよび位置は、事前定義することができ、および/または静的とすることができる。
いくつかの実施形態において、再生領域は、ユーザによってディスプレイの他の部分に移動させることができる。ユーザ入力は、テキストコンテンツの別の部分の上に配置するようにディスプレイの再生領域を移動させることができる。一例として、テキストコンテンツの複数の部分(例えば、複数のコラムを有するスキャンされた新聞記事)を表示することができる比較的大きいディスプレイを有するタブレットデバイスを操作する場合、ユーザは、下にあるコンテンツの位置を移動させることなく、再生領域をテキストコンテンツのある部分(例えば、段落)から別の部分にドラッグすることができる。このようにして、ユーザは、再生領域内に配置したいテキストコンテンツの部分を選択的に特定することができる。その結果、再生領域は、ユーザが再生領域を正確に移動させることをさらに可能にするために、視覚的効果(例えば、再生領域の領域に関連付けられた半透明の陰影)を有することができる。
いくつかの実施形態において、再生領域は、1つまたは複数の視覚的効果に関連付けることができる。一例として、再生領域は、再生領域のユーザ移動を可能にする半透明の陰影を有することができる。別の例として、再生領域以外のディスプレイの表示領域および/または部分は、視覚的効果を有することができる。例として、再生領域内に配置されたテキストを強調するために、画面の他のすべての部分が低下した輝度の視覚的効果および/またはぼやけた視覚的効果で覆われている間、再生領域は、視覚的効果を欠くことができる。いくつかの実施形態において、再生領域内に配置されたテキストコンテンツの部分は、1つまたは複数の視覚的効果を有することもできる。例として、個々の文字は、それらが再生領域内に配置されているとき、および/または、テキスト読み上げシステムによって再生されているとき、順次強調(例えば、拡大、太字化、強調表示など)することができる。別の例として、再生領域内に配置されたテキストコンテンツの1つまたは複数の部分全体を強調(例えば、拡大、太字化、強調表示など)することができ、ディスプレイの他の領域内に配置されたテキストコンテンツの1つまたは複数の部分を非強調(例えば、縮小、ディスプレイ外へ移動、ぼかし、暗化など)することができる。例として、テキストコンテンツカード内に含まれるコンテンツのタイトルは、オーディオ信号の再生内に含まれるので、強調表示することができる。
いくつかの実施形態において、コンピューティングデバイスは、テキストコンテンツの一部が再生領域内に表示されていることを識別する前に、ある期間一時停止することができる。ある期間一時停止することによって、コンピューティングデバイスは、ユーザがテキストコンテンツの一部を再生領域内に意図的に配置したこと(またはその逆)を確認することができる。一例として、期間は、ユーザの好みに基づいて決定することができる。別の例として、期間は、いくつかの他の要因(例えば、テキストコンテンツの部分の数、ユーザの以前の選択およびアクション、テキストコンテンツを移動させるユーザ入力など)に基づいて決定することができる。
本開示の別の態様によれば、1つまたは複数のコンピューティングデバイスは、テキストコンテンツの一部を含むオーディオ信号の再生を提供することができる。いくつかの実装形態において、オーディオ信号は、テキストコンテンツの第1の部分に関連するコンテキスト情報を含むことができる。コンテキスト情報は、要約、簡単な説明、タイトル、および/またはテキストコンテンツの第1の部分内に含まれるアイテムのリストを含むことができる。一例として、上位3つの結果を再生するだけで、20軒の地元のレストランのリストを含む検索結果を要約することができる。別の例として、映画Zにおけるすべての俳優のリストを、「映画Zにおける俳優のリスト」として簡単に説明することができる。別の例として、ニュース記事を含む検索結果のオーディオ信号は、ニュース記事のタイトルのみを含むことができる。いくつかの実施形態において、テキストコンテンツの第1の部分を含むオーディオ信号の再生後、1つまたは複数のコンピューティングデバイスは、テキストコンテンツの次の部分を含むオーディオ信号の再生を開始するために、テキストコンテンツの次の部分に自動的にスクロールすることができる。いくつかの実装形態において、オーディオ信号の再生は、最初のユーザ入力に依存する。例として、1つまたは複数のコンピューティングデバイスは、再生領域に隣接するボタンを使用してユーザ確認を要求することができ、ユーザは、オーディオ信号の再生を確認するためにボタンを押すことができる。
いくつかの実装形態において、オーディオ信号は、機械知能(例えば、機械学習モデル)によって少なくとも部分的に決定することができる。機械知能は、オーディオ信号内に含まれるべきテキストコンテンツの好ましい部分と部分のフォーマットとを決定するために使用することができる。一例として、機械学習モデルは、ユーザがテキストコンテンツの各部分の簡単な説明のみをオーディオ信号内に含めることを好むことを識別することができる。別の例として、機械学習モデルは、第2のユーザがテキストコンテンツの部分全体をオーディオ信号内に含めることを好むと決定することができる。別の例として、機械学習モデルは、第3のユーザが、含まれるべきテキストコンテンツのタイプに基づいてテキストコンテンツの様々な部分およびフォーマットがオーディオ信号内に含まれることを好むと決定することができる。
いくつかの実装形態において、オーディオ信号は、ある言語から別の言語へのテキストコンテンツの一部の変換をさらに含むことができる。オーディオ信号は、ユーザの好みに基づいて言語翻訳を提供することができる。例えば、ユーザは、外国語で書かれた文書を閲覧している場合がある。1つまたは複数のコンピューティングデバイスは、再生領域内に位置するテキストコンテンツの部分に対してオーディオ信号翻訳を選択的に提供することができる。これは、ユーザが翻訳されることを望むテキストコンテンツの位置を認識している場合、ユーザがテキストコンテンツの一部の特定の翻訳を迅速に受け取ることを可能にすることができる。
別の例として、再生ウィンドウに移動された認識されていないテキストコンテンツ(例えば、デジタル文字識別子のないスキャンされた文書)の一部における文字を認識するために、文字認識を選択的に実行することができる。コンピューティングデバイスは、テキストコンテンツの一部が再生ウィンドウ内に配置されるまで文字認識を実行するのを待つことができ、コンテンツのアイテム全体に対して文字認識を実行することに関連する時間および処理リソースを節約する。例として、ユーザは、認識されていないテキストコンテンツを含むPDF文書を閲覧する可能性がある。コンピューティングデバイスは、文字認識を実行し、認識された文字をオーディオ信号内に含める前に、PDFの一部が再生領域内に配置されるまで待つことができる。
いくつかの実装形態において、本明細書で説明する方法は、音声検索に応答して開始される。例として、ユーザタッチコマンドによって開始された検索は、再生領域内に位置するテキストコンテンツの第1の部分を含むオーディオ信号の再生をアクティブにしない。別の例として、ユーザ音声検索によって開始された検索は、再生領域内に位置するテキストコンテンツの第1の部分を含むオーディオ信号の再生をアクティブにする。
本開示の別の態様によれば、1つまたは複数のコンピューティングデバイスは、第2のユーザ入力に基づいてオーディオ信号の再生を停止することができる。より具体的には、コンピューティングデバイスは、再生領域内に現在配置されているテキストコンテンツの部分がユーザ入力によって再生領域外に移動された場合、オーディオ信号の再生を停止することができる。一例として、ユーザは、スクロール入力を実行し、現在のオーディオ信号内に含まれるテキストコンテンツの一部を再生領域外に移動させてもよい。テキストコンテンツの一部が再生領域外に移動された場合、コンピューティングデバイスは、再生を停止し、次いで、テキストコンテンツの新しい部分が再生領域内に配置されているかどうかを決定することができる。テキストコンテンツの新しい部分が再生領域内に配置されている場合、コンピューティングデバイスは、テキストコンテンツの新しい部分を含むオーディオ信号の再生を開始することができる。
本明細書で説明する機械知能(例えば、機械学習モデル)のいずれも、ユーザフィードバック(例えば、実行された動作が正しいかまたは正しくないというユーザ指示)に基づいて訓練することができる。グローバルモデルを生成(例えば、再訓練)するために、複数のユーザにわたってユーザフィードバックを集約することができ、および/または、パーソナル化されたモデルをパーソナル化(例えば、再訓練)するために、ユーザ固有のフィードバックを使用することができる。例として、ユーザフィードバックは、再生領域が間違ったサイズおよび/もしくは間違った位置であるかどうか、ならびに/または、コンテンツのアイテムがテキストコンテンツの複数の部分に正しく/間違って分割されているかどうかを示すことができる。ユーザフィードバックに基づいてモデルを再訓練することは、モデルのパフォーマンスを改善することを可能にすることができる。
したがって、本開示のシステムおよび方法は、ユーザ入力アクションに応答するテキストコンテンツの直感的な再生に加えて、テキスト要約および/または機械知能ベースのユーザ選好管理などの様々な他の付随的なサービスを提供する。したがって、本開示のシステムおよび方法は、複雑なメニューをナビゲートし、特定のコンテンツのオーディオ再生を引き起こすようにコンピューティングデバイスに指示することに固有の複雑さを劇的に低減することができる。
ここで図を参照し、本開示の例示的な実施形態についてさらに詳細に説明する。図1Aは、本開示の例示的な実施形態による例示的なコンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合された、ユーザコンピューティングデバイス102と、サーバコンピューティングシステム130と、訓練コンピューティングシステム150とを含む。
ユーザコンピューティングデバイス102は、例えば、パーソナルコンピューティングデバイス(例えば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(例えば、スマートフォンまたはタブレット)、ゲームコンソールもしくはコントローラ、ウェアラブルコンピューティングデバイス、組み込みコンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなどの、任意のタイプのコンピューティングデバイスとすることができる。
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112とメモリ114とを含む。1つまたは複数のプロセッサ112は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)とすることができ、動作可能に接続された1つのプロセッサまたは複数のプロセッサとすることができる。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ114は、データ116と、ユーザコンピューティングデバイス102に動作を実行させるためにプロセッサ112によって実行される命令118とを記憶することができる。
ユーザコンピューティングデバイス102は、本明細書で説明する再生体験を実装するオーディオ再生システム119を含むことができる。オーディオ再生システム119は、アプリケーション、プラグイン(例えば、ブラウザアプリケーションのためのプラグイン)、または、1つもしくは複数のプロセッサ112によって実施可能な他の形態のソフトウェアとすることができる。ユーザコンピューティングデバイス102は、コンテンツ190の1つまたは複数のアイテムに(例えば、ネットワーク180を介して、および/またはローカルメモリ114から)アクセスすることができ、オーディオ再生システム119は、コンテンツ190の1つまたは複数のアイテム内に含まれるテキストコンテンツ(例えば、複数の検索結果、単一の検索結果、テキスト文書、ウェブページ、ウェブ文書、PDF、画像など)のためのオーディオ再生体験を生成することができる。
いくつかの実装形態において、ユーザコンピューティングデバイス102(例えば、オーディオ再生システム119)は、1つまたは複数の機械学習モデル120を記憶または含むことができる。例えば、機械学習モデル120は、ニューラルネットワーク(例えば、深層ニューラルネットワーク)、または、非線形モデルおよび/もしくは線形モデルを含む他のタイプの機械学習モデルなどの、様々な機械学習モデルとすることができ、さもなければそれらを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク(例えば、長短期記憶リカレントニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形式のニューラルネットワークを含むことができる。
いくつかの実装形態において、1つまたは複数の機械学習モデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信し、ユーザコンピューティングデバイスメモリ114内に記憶し、次いで、1つまたは複数のプロセッサ112によって使用または他の方法で実施することができる。いくつかの実装形態において、ユーザコンピューティングデバイス102は、単一の機械学習モデル120の複数の並列インスタンスを実装することができる。
追加的または代替的に、1つまたは複数の機械学習モデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130内に含めるか、さもなければ、サーバコンピューティングシステム130によって記憶および実装することができる。例えば、機械学習モデル140は、ウェブサービス(例えば、セマンティックエンティティ識別サービス)の一部としてサーバコンピューティングシステム130によって実装することができる。したがって、1つもしくは複数のモデル120は、ユーザコンピューティングデバイス102によって記憶および実装することができ、ならびに/または、1つもしくは複数のモデル140は、サーバコンピューティングシステム130において記憶および実装することができる。
オーディオ再生システムは、TTSシステム121を含むこともできる。TTSシステムは、テキストの読み上げを含むオーディオ信号(例えば、図2Bのオーディオ信号212)を生成するために、任意の数のTTS技法を実行することができる。オーディオ再生システムは、再生領域ハンドラ123を含むこともできる。テキストコンテンツの1つまたは複数の部分は、再生領域ハンドラ123によって再生領域内に配置されるように決定することができる。再生領域ハンドラ123は、いくつかの要因(例えば、ユーザ設定、以前に分析されたユーザの行動、グローバルユーザ行動の機械学習分析など)に基づいて、再生領域の位置、サイズ、および感度をさらに決定することができる。
ユーザコンピューティングデバイス102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122を含むこともできる。例えば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(例えば、指またはスタイラス)のタッチに敏感なタッチ感知構成要素(例えば、タッチ感知ディスプレイスクリーンまたはタッチパッド)とすることができる。タッチ感知構成要素は、仮想キーボードの実装に役立つことができる。他の例示的なユーザ入力構成要素は、マイクロフォン、従来のキーボード、または、ユーザがユーザ入力を提供することができる他の手段を含む。
ユーザコンピューティングデバイス102は、1つまたは複数のスピーカ124を含むこともできる。スピーカ124は、デバイス102に物理的に接続することができ、またはデバイス102に物理的に接続しないことができる。スピーカ124は、スタンドアロンスピーカ、イヤフォンなどを含むことができる。
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132とメモリ134とを含む。1つまたは複数のプロセッサ132は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)とすることができ、動作可能に接続された1つのプロセッサまたは複数のプロセッサとすることができる。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実行させるためにプロセッサ132によって実行される命令138とを記憶することができる。
いくつかの実装形態において、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、さもなければそれらによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、逐次計算アーキテクチャ、並列計算アーキテクチャ、またはそれらのいくらかの組合せに従って動作することができる。
上記で説明したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習モデル140を記憶するか、または他の方法で含むことができる。例えば、モデル140は、様々な機械学習モデルとすることができ、さもなければそれらを含むことができる。例示的な機械学習モデルは、ニューラルネットワークまたは他の多層非線形モデルを含む。例示的なニューラルネットワークは、フィードフォワードニューラルネットワーク、深層ニューラルネットワーク、リカレントニューラルネットワーク、および畳み込みニューラルネットワークを含む。
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合された訓練コンピューティングシステム150とのインタラクションを介してモデル120および/または140を訓練することができる。訓練コンピューティングシステム150は、サーバコンピューティングシステム130から分離することができ、または、サーバコンピューティングシステム130の一部とすることができる。
訓練コンピューティングシステム150は、1つまたは複数のプロセッサ152とメモリ154とを含む。1つまたは複数のプロセッサ152は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)とすることができ、動作可能に接続された1つのプロセッサまたは複数のプロセッサとすることができる。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ154は、データ156と、訓練コンピューティングシステム150に動作を実行させるためにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態において、訓練コンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、さもなければそれらによって実装される。
訓練コンピューティングシステム150は、例えば、誤差逆伝播法などの様々な訓練または学習技法を使用して、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130において記憶された機械学習モデル120および/または140を訓練するモデルトレーナ160を含むことができる。いくつかの実装形態において、誤差逆伝播法を実行することは、打ち切り型通時的逆伝播(truncated backpropagation through time)を実行することを含むことができる。モデルトレーナ160は、訓練されているモデルの汎化能力を改善するために、いくつかの汎化技法(例えば、荷重減衰、ドロップアウトなど)を実行することができる。
具体的には、モデルトレーナ160は、訓練データ162のセットに基づいて機械学習モデル120および/または140を訓練することができる。訓練データ162は、例えば、様々な再生体験設定または動作に応答して実行されるユーザアクションを記述するユーザフィードバックまたはデータを含むことができる。
いくつかの実装形態において、ユーザが同意を提供した場合、訓練例は、ユーザコンピューティングデバイス102によって提供することができる。したがって、そのような実装形態において、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信したユーザ固有のデータにおいて、訓練コンピューティングシステム150によって訓練することができる。場合によっては、このプロセスは、モデルをパーソナル化することと呼ばれる場合がある。
モデルトレーナ160は、所望の機能を提供するために使用されるコンピュータロジックを含む。モデルトレーナ160は、ハードウェア、ファームウェア、および/または汎用プロセッサを制御するソフトウェアにおいて実装することができる。例えば、いくつかの実装形態において、モデルトレーナ160は、記憶デバイス上に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態において、モデルトレーナ160は、RAMハードディスク、または光学もしくは磁気媒体などの有形のコンピュータ可読記憶媒体内に記憶されたコンピュータ実行可能命令の1つまたは複数のセットを含む。
ネットワーク180は、ローカルエリアネットワーク(例えば、イントラネット)、ワイドエリアネットワーク(例えば、インターネット)、またはそれらのいくらかの組合せなどの任意のタイプの通信ネットワークとすることができ、任意の数の有線またはワイヤレスリンクを含むことができる。一般に、ネットワーク180を介する通信は、多種多様な通信プロトコル(例えば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(例えば、HTML、XML)、および/または保護方式(例えば、VPN、セキュアHTTP、SSL)を使用して、任意のタイプの有線および/またはワイヤレス接続を介して実行することができる。
図1Aは、本開示を実施するために使用することができる1つの例示的なコンピューティングシステムを示す。他のコンピューティングシステムを同様に使用することができる。例えば、いくつかの実装形態において、ユーザコンピューティングデバイス102は、モデルトレーナ160と訓練データセット162とを含むことができる。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルに訓練し、使用することができる。そのような実装形態のいくつかでは、ユーザコンピューティングデバイス102は、ユーザ固有のデータに基づいてモデル120をパーソナル化するようにモデルトレーナ160を実装することができる。
図1Bは、本開示の例示的な実施形態に従って実行する例示的なコンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスとすることができる。
コンピューティングデバイス10は、いくつかのアプリケーション(例えば、アプリケーション1~N)を含む。各アプリケーションは、それ自体の機械学習ライブラリと機械学習モデルとを含む。例えば、各アプリケーションは、機械学習モデルを含むことができる。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
図1Bに示すように、各アプリケーションは、例えば、1つもしくは複数のセンサ、コンテキストマネージャ、デバイス状態構成要素、および/または追加の構成要素などの、コンピューティングデバイスのいくつかの他の構成要素と通信することができる。いくつかの実装形態において、各アプリケーションは、API(例えば、公開API)を使用して各デバイス構成要素と通信することができる。いくつかの実装形態において、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。
図1Cは、本開示の例示的な実施形態に従って動作する例示的なコンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスとすることができる。
コンピューティングデバイス50は、いくつかのアプリケーション(例えば、アプリケーション1~N)を含む。各アプリケーションは、中央インテリジェンス層と通信する。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態において、各アプリケーションは、API(例えば、すべてのアプリケーションにわたって共通のAPI)を使用して中央インテリジェンス層(およびその中に記憶されたモデル)と通信することができる。
中央インテリジェンス層は、いくつかの機械学習モデルを含む。例えば、図1Cに示すように、それぞれの機械学習モデル(例えば、モデル)を、アプリケーションごとに提供し、中央インテリジェンス層によって管理することができる。他の実装形態において、2つ以上のアプリケーションが、単一の機械学習モデルを共有することができる。例えば、いくつかの実装形態において、中央インテリジェンス層は、すべてのアプリケーションについて単一のモデル(例えば、単一モデル)を提供することができる。いくつかの実装形態において、中央インテリジェンス層は、コンピューティングデバイス50のオペレーティングシステム内に含まれるか、さもなければコンピューティングデバイス50のオペレーティングシステムによって実装される。
中央インテリジェンス層は、中央デバイスデータ層と通信することができる。中央デバイスデータ層は、コンピューティングデバイス50のためのデータの集中型リポジトリとすることができる。図1Cに示すように、中央デバイスデータ層は、例えば、1つもしくは複数のセンサ、コンテキストマネージャ、デバイス状態構成要素、および/または追加の構成要素などの、コンピューティングデバイスのいくつかの他の構成要素と通信することができる。いくつかの実装形態において、中央デバイスデータ層は、API(例えば、プライベートAPI)を使用して各デバイス構成要素と通信することができる。
図2A~図2Bは、本開示の例示的な実施形態による、再生領域内に配置されているテキストコンテンツの第1の部分に関連するユーザインターフェースのインタラクションを示す。図2Aにおいて、コンピューティングデバイスディスプレイ200は、複数の表示要素を含む。表示要素は、検索クエリ202と、テキストコンテンツの部分204a~204e(例えば、検索結果)と、再生領域206とを含む。検索クエリ202に関連するテキスト結果の全体は、いくつかの実施形態では、コンテンツのアイテムと呼ばれる場合がある。図2に示すように、テキストコンテンツ204の部分は、複数の検索結果とすることができる。他の実施形態では、テキストコンテンツ204の部分は、単一の検索結果、ウェブ文書内の段落、ニュース記事内のコラムなどとすることができる。図3A~図3Bに示すように、コンテンツの非構造化アイテムをテキストコンテンツ204の部分に分割することができる。
テキストコンテンツ204の部分は、カードフォーマットにおいて提示することができ、またはカードフォーマット内に含めることができる。カードフォーマットは、テキストコンテンツの一部をテキストコンテンツカード(例えば、テキストコンテンツの一部の様々なスニペットを含むカード)に構造化するのに役立つことができる。一例として、検索クエリ202に関連付けられたテキストコンテンツ204の各部分は、それ自体のテキストコンテンツカードにおいて提示される。別の例として、テキストコンテンツ204の部分は、単一のテキストコンテンツカード内に要約することができる。テキストコンテンツカードは、オーディオ信号(例えば、オーディオ信号212)の再生を容易にする方法でテキストコンテンツの一部を組織化することができる。例として、テキストコンテンツ204の部分は、各々、関連するURL情報(例えば、テキストコンテンツの部分204b内に含まれる「movie-database >current-movies-in-production」ならびに関連する検索結果からのテキストコンテンツの選択された部分(例えば、テキストコンテンツの部分204d内に含まれる上位3つの映画)を含む。
再生領域206は、テキストコンテンツ204の第1の部分の少なくとも一部を含むオーディオ信号212の再生を可能にする画面の領域とすることができる。一例として、テキストコンテンツの第1の部分204bが、再生領域206内に配置される。コンピューティングデバイス200は、テキストコンテンツの第1の部分204bの少なくとも一部を含むオーディオ信号212の再生を可能にすることができる。オーディオ信号は、テキストコンテンツの第1の部分204bの一部を音声に変換することを含むことができる。オーディオ信号は、テキストコンテンツの第1の部分204bの第1の言語から第2の言語への変換をさらに含むことができる。オーディオ信号は、テキストコンテンツの第1の部分204bに関連するコンテキスト情報を含むこともできる。図4に示すように、オーディオ信号は、ユーザの好みに少なくとも部分的に基づくことができる。オーディオ信号は、機械知能(例えば、機械学習モデル120)に少なくとも部分的に基づくこともできる。いくつかの実施形態において、テキストコンテンツの複数の部分(例えば、204bおよび204c)を、再生領域内に配置されているものとして識別することができ、オーディオ信号212内に含めることができる。
いくつかの実施形態において、オーディオ信号212の再生は、テキストコンテンツの第1の部分204bが認識されていないテキストコンテンツを含んでいると決定することをさらに含むことができる。例として、テキストコンテンツの第1の部分204bは、認識されていないテキストコンテンツ(例えば、デジタル文字識別子のない新聞スキャンを含むPDF)を含むことができる。テキストコンテンツの第1の部分204bが認識されていないテキストコンテンツを含む場合、コンピューティングデバイス200は、認識されていないテキストコンテンツ内に含まれる文字を認識するために、文字認識を実行することができる。コンピューティングデバイス200は、文字認識を実行し、認識された文字をオーディオ信号内に含める前に、認識されていないテキストを含むテキストコンテンツの部分が再生領域内に配置されるまで待つことができる。
再生領域206は、ディスプレイの矩形部分として定義することができる。再生領域206のサイズおよび位置は、複数の方法で決定することができる。一例として、再生領域206のサイズおよび位置は、図4に示すように、ユーザの好みによって決定することができる。別の例として、再生領域206のサイズおよび位置は、少なくとも部分的に機械知能(例えば、機械学習モデル120)によって決定することができる。例えば、コンピューティングデバイス200は、過去のユーザの行動を分析し、問題のユーザによって最も好まれる再生領域206のサイズと位置とを決定するために、機械知能を使用することができる。代替的または追加的には、再生領域206のサイズおよび位置は、事前定義することができ、および/または静的とすることができる。
再生領域206は、ユーザによってディスプレイの他の部分に移動させることができる。ユーザ入力は、テキストコンテンツ204の別の部分の上に配置するようにディスプレイの再生領域206を移動させることができる。一例として、ユーザは、下にあるテキストコンテンツ204の部分の位置を移動させることなく、再生領域をテキストコンテンツの部分204bからテキストコンテンツの部分204cにドラッグすることができる。このようにして、ユーザは、再生領域206内に配置したいテキストコンテンツ204の部分を選択的に特定することができる。その結果、再生領域206は、ユーザが再生領域を正確に移動させることをさらに可能にするために、視覚的効果(例えば、再生領域の領域に関連付けられた半透明の陰影)を有することができる。しかしながら、再生領域206は、すべての実施形態において視覚的効果を必ずしも必要としない。
コンピューティングデバイス200は、テキストコンテンツ204の一部が再生領域内に表示されていることを識別する前に、ある期間一時停止することができる。ある期間一時停止することによって、コンピューティングデバイス200は、ユーザがテキストコンテンツ204の一部を再生領域内に意図的に配置したこと(またはその逆)を確認することができる。一例として、図4に示すように、期間は、ユーザの好みに基づいて決定することができる。別の例として、期間は、いくつかの他の要因(例えば、テキストコンテンツの部分の数、ユーザの以前の選択およびアクション、テキストコンテンツを移動させるユーザ入力など)に基づいて決定することができる。例えば、コンピューティングデバイス200は、テキストコンテンツの部分204bが再生領域206内に配置されていると決定する前に、1.5秒間一時停止してもよい。
図2Bにおいて、コンピューティングデバイスディスプレイ200は、テキストコンテンツ204の一部が再生領域206内に配置されていると決定することに関連する複数の視覚的効果(例えば、208、210、214)を含む。テキストコンテンツ204の一部が再生領域206内に配置されていると決定された場合、ディスプレイの非再生部分を非強調するために、非強調効果208を使用することができる。非強調効果208は、縮小効果、非再生部分のディスプレイ外への移動、ぼかし効果、暗化効果、または、ディスディスプレイの一部が再生領域ではないことを示すことを意図する他の効果を含むことができる。
再生領域206を強調するために、強調効果210を使用することができる。いくつかの実施形態において、強調効果210は、テキストコンテンツの一部が再生領域206内に配置されていると決定されたときに使用することができる。他の実施形態において、強調効果210は、テキストコンテンツの一部が再生領域206内に配置されていると決定されない場合であっても使用することができる。このようにして、強調効果210は、再生領域206をディスプレイ上の別の場所に移動させる際にユーザを支援することができる。
強調効果210は、半透明陰影強化、テキストの太字化、または、再生領域206の位置および寸法を強調することができる任意の他の効果とすることができる。加えて、再生領域内に配置されたテキストコンテンツの部分は、テキスト強調効果214を有することができる。テキスト強調効果214は、個々の文字が再生領域206内に配置されたとき、および/またはテキスト読み上げシステムによって再生されたときの、個々の文字の順次強調とすることができる。この順次強調は、テキストの拡大、太字化、強調表示などを含むことができる。例えば、図2Bに示すように、テキストコンテンツの一部の一部は、テキスト強調効果214によって太字化およびイタリック体化されている。別の例として、テキスト強調効果214は、再生領域206内に配置されたテキストコンテンツ204の部分全体を強調することができる(例えば、拡大、太字化、強調表示など)。
図2C~図2Dは、本開示の例示的な実施形態による、再生領域内に配置されているテキストコンテンツの第2の部分に関連するユーザインターフェースのインタラクションを示す。図2Cは、図2Aに示すものと同じ表示レイアウトを示し、同じ相対位置に配置された検索結果202とテキストコンテンツの部分204a~e(例えば、検索結果)とを含む。移動入力216は、図2Dに示すテキストコンテンツの部分の相対位置を変更する。例として、移動入力216が受信される前に、テキストコンテンツの第1の部分204bは、再生領域206内に配置される。移動入力216が受信された後、テキストコンテンツの第1の部分204bは、再生領域206の外側に配置されており、テキストコンテンツの第2の部分204cは、再生領域206の内側に配置されている。
いくつかの実施形態において、移動入力216は、ユーザ入力とすることができる。ユーザ入力は、物理的なユーザアクションに対応することができる。一例として、ユーザは、タッチ入力を使用して(例えば、指またはスタイラスをタッチ感知ディスプレイ上に置き、上下にスライドさせることによって)ディスプレイを上下にスクロールすることができる。別の例として、ユーザは、音声コマンドを使用してディスプレイをスクロールすることができる。さらに別の例として、ユーザは、コンピューティングデバイスによって認識されるジェスチャまたは物理的運動を使用してディスプレイをスクロールすることができる。
いくつかの実施形態において、移動入力216は、コンピュータで生成された入力とすることができる。例として、機械知能(例えば、機械学習モデル120)は、テキストコンテンツの部分を自動的に移動させることができる。自動的な移動は、以前のユーザの行動および/またはグローバルユーザ行動モデルに基づくことができる。別の例として、テキストコンテンツの部分の自動的な移動は、ユーザの好みに基づくことができる。ユーザは、ユーザによって決定された速度でコンテンツのアイテムをスクロールする「自動スクロール」機能を利用することができる。
テキストコンテンツの第1の部分204bを再生領域206の外側に移動させることは、テキストコンテンツの第1の部分204bのオーディオ信号再生を停止させることができる。一例として、ユーザは、移動入力216(例えば、スクロール入力)を実行し、現在のオーディオ信号再生内に含まれるテキストコンテンツの第1の部分204bを再生領域206の外側に移動させてもよい。テキストコンテンツの第1の部分204bが再生領域206の外側に移動された場合、コンピューティングデバイス200は、再生を停止し、次いで、テキストコンテンツの第2の部分204cが再生領域206内に配置されているかどうかを決定することができる。テキストコンテンツの第2の部分204cが再生領域206内に配置されている場合、コンピューティングデバイス200は、テキストコンテンツの第2の部分204cを含むオーディオ信号の再生を開始することができる。
図3A~図3Bは、本開示の例示的な実施形態による、コンテンツの非構造化アイテムをテキストコンテンツの複数の部分に分割するための方法を示す。図3Aは、タイトル302とコンテンツの非構造化アイテム304とを含む。タイトル302は、コンテンツの非構造化アイテム304またはそのソースのタイトルとすることができる。コンテンツのアイテム(例えば、コンテンツの非構造化アイテム304)は、非構造化されているか、さもなければ非構造化テキストを含むことができる。非構造化コンテンツは、例えば、見出し、記事、段落などの間に明確な区別がない記事とすることができる。そのような場合、テキストコンテンツの部分を取得することは、非構造化テキストコンテンツからテキストコンテンツの複数の部分を決定することを含むことができる。
図3Bは、テキストコンテンツ308の複数の部分(例えば、308a、308b、308c、308d、308e)に分割されたコンテンツの非構造化アイテム304を示す。コンテンツの非構造化アイテムは、いくつかの方法でテキストコンテンツの複数の部分に分割することができる。一例として、非構造化コンテンツのデジタルアイテムは、コンテンツのアイテムに関連付けられたデジタルマークアップ要素に少なくとも部分的に基づいて、テキストコンテンツの部分に分割することができる。例えば、コンテンツの非構造化アイテム304は、段落インデント306(例えば、306a、306b、306c、306d、306e)に関連付けられたデジタルマークアップ要素を含む。
段落インデント306が図3Aにおいて表示されているが、コンテンツの非構造化アイテムを分割するために、アクティブに表示されていないデジタルマークアップ要素を使用することもできる。例えば、コンテンツの非構造化アイテムをコンテンツの複数の部分に分割するために、ウェブページに関連付けられたメタデータ(例えば、見出しに関連付けられたハイパーテキストマークアップ言語見出しタグ)を使用することができる。別の例では、いくつかの実装形態では、非構造化コンテンツをテキストコンテンツの部分に分割するために、機械知能(例えば、機械学習モデル120)を使用することができる。例えば、ユーザフィードバック、ユーザが望む行動、および他の関連する訓練データに基づいて、機械知能が、コンテンツのアイテムをテキストコンテンツの部分に分割する場所を決定することができる。
図4は、本開示の例示的な実施形態による、ユーザ再生領域設定を変更するためのユーザインターフェースを示す。再生領域設定インターフェース400は、再生領域位置設定402と、再生領域寸法設定404と、再生領域開始時間設定406とを含む。いくつかの実装形態では、再生領域設定インターフェース400は、再生領域再生速度設定を含むことができる。再生速度設定は、再生領域内に配置されたテキストコンテンツの一部が読み取られる速度を少なくとも部分的に決定することができる。例として、再生領域速度設定を1.25の値に変更することは、オーディオ信号再生の速度を25%またはなにか他の量だけ上昇させることができる。別の例として、再生領域速度設定を0.5の値に変更することは、オーディオ信号再生の速度を50%またはなにか他の量だけ低下させることができる。
再生領域の位置は、ユーザ指定の再生領域位置設定402に基づいて決定することができる。例として、再生領域位置設定402は、ユーザが、コンピューティングデバイスのディスプレイに対応する再生領域の位置を決定することを可能にする。例えば、ユーザは、再生領域がディスプレイの中央に配置された小さい矩形であるべきであると決定することができる。別のユーザは、再生領域を拡大し、再生領域をディスプレイの最上部に配置することを選択してもよい。
再生領域の寸法は、ユーザ指定の再生領域寸法設定404に基づいて決定することができる。例として、ユーザは、再生領域のサイズおよび形状が、テキストコンテンツの2つの部分を含むのに十分な領域を提供する正方形であるべきであると決定することができる。別の例として、第2のユーザは、再生領域のサイズおよび形状が、新聞のコラムを含むのに十分な領域の矩形形状であるべきであると決定することができる。さらに別の例として、第3のユーザは、再生領域のサイズおよび形状が、テキストコンテンツの1つの部分のみに適合するのに十分な領域を提供する薄い矩形であるべきであると決定することができる。
再生領域の再生開始時間は、ユーザ指定の再生領域開始時間設定406に基づいて決定することができる。特定の開始時間(例えば、一時停止時間)を設定することは、ユーザが再生領域内にテキストコンテンツの一部を意図的に配置したこと(またはその逆)を保証するのに役立つことができる。一例として、ユーザは、テキストコンテンツの一部が再生領域内に位置すると決定した1/2秒後に再生が開始すべきであると指定することができる。別の例として、第2のユーザは、テキストコンテンツの一部が再生領域内に位置すると決定してから3秒後に再生が開始すべきであると指定することができる。
再生領域設定400(例えば、再生領域位置設定402、再生領域寸法設定404、再生領域開始時間設定406)は、機械知能(例えば、機械学習モデル120)によって少なくとも部分的に調整することができる。機械知能は、検出された非効率性に少なくとも部分的に基づいて、ユーザ指定の再生領域設定400を調整することができる。機械学習モデル120は、以前および現在のユーザの行動、グローバルなユーザの行動、ならびに/または他の要因に少なくとも部分的に基づいて訓練することができる。例えば、機械知能は、特定の再生領域位置設定402を指定したユーザが、再生領域位置設定402がユーザによってより好まれる地点に配置され得ることを示す行動を示すと決定することができる。いくつかの実施形態において、機械知能は、ユーザに通知することなく、関連する再生領域設定400を自動的に調整することを決定することができる。他の実施形態では、機械知能は、再生領域設定400を調整する前にユーザに通知することを決定することができる。
図5は、例示的な実施形態による、表示されたテキストコンテンツのオーディオ再生を実行する例示的な方法500の流れ図を示す。方法500は、例えば、図1のコンピューティングデバイスを使用して実施することができる。図5は、例示および説明の目的のために特定の順序で実行されるステップを示す。当業者は、本明細書で提供する開示を使用して、本明細書で説明する方法のいずれかの様々なステップを、本開示の範囲から逸脱することなく、様々な方法で、省略、再配置、同時実行、拡張、および/または修正することができることを理解するであろう。
502において、方法は、テキストコンテンツの複数の部分を含むコンテンツの1つまたは複数のアイテムを記述するデータを取得するステップを含むことができる。コンテンツのアイテムは、例えば、検索クエリに対する応答である1つまたは複数の検索結果とすることができる。一例として、1つまたは複数のコンピューティングデバイスは、検索クエリに応答して、テキストコンテンツの複数の部分(例えば、複数の検索結果のうちの各検索結果)を含むコンテンツのアイテム(例えば、複数の検索結果)を取得することができる。別の例として、コンテンツのアイテムは、テキストコンテンツの複数の部分(例えば、映画のリスト内の各映画)を含む単一の検索結果(例えば、最高のアクション映画のリスト)とすることができる。
テキストコンテンツの一部は、テキストコンテンツを含むコンテンツのアイテムの分割とすることができる。例として、コンテンツのアイテムは、テキストコンテンツの複数の部分に分割可能なウェブページまたはウェブ文書とすることができ、テキストコンテンツの各部分は、ウェブページまたはウェブ文書の段落である。テキストコンテンツの部分は、カードフォーマットにおいて提示することができ、またはカードフォーマット内に含めることができる。カードフォーマットは、テキストコンテンツの一部をテキストコンテンツカード(例えば、テキストコンテンツの一部の様々なスニペットを含むカード)に構造化するのに役立つことができる。一例として、検索結果クエリの各検索結果は、それ自体のテキストコンテンツカードにおいて提示することができ、またはそれ自体のテキストコンテンツカード内に含めることができる。別の例として、複数の検索結果は、単一のテキストコンテンツカード内に要約することができる。テキストコンテンツカードは、オーディオ信号の再生を容易にする方法でテキストコンテンツの一部を組織化することができる。例として、テキストコンテンツカードは、検索結果に対応するウェブページのタイトルおよび関連するコンテキスト情報を強調してもよい。
504において、方法は、1つまたは複数のコンピューティングデバイスに関連付けられたディスプレイ上のテキストコンテンツの部分のうちの1つまたは複数のそれぞれの位置を示す位置データを決定するステップを含むことができる。位置データは、コンテンツの部分がディスプレイ上に配置されているかどうかに関係なく、ディスプレイに対するテキストコンテンツのすべての部分の位置を示すことができる。例として、位置データは、テキストコンテンツの第1の部分がディスプレイの上部20%内にあることを示してもよい。別の例として、位置データは、現在表示されていないテキストコンテンツの第2の部分が、現在表示されているテキストコンテンツの1つまたは複数の部分の下の特定の距離に配置されていることを示してもよい。位置データは、例えば、コンテンツのアイテムを提示もしくは他の方法で処理しているアプリケーション(例えば、ブラウザアプリケーション)から、デバイスディスプレイを監視する別個のアプリケーションから、および/または、位置データの他のソースから取得することができる。
506において、方法は、ディスプレイに対するテキストコンテンツの1つまたは複数の部分のそれぞれの位置を変更するユーザ入力を示すデータを受信するステップを含むことができる。ユーザ入力は、物理的なユーザアクションに対応することができる。一例として、ユーザは、タッチ入力を使用して(例えば、指またはスタイラスをタッチ感知ディスプレイ上に置き、上下にスライドさせることによって)ディスプレイを上下にスクロールすることができる。別の例として、ユーザは、音声コマンドを使用してディスプレイをスクロールすることができる。さらに別の例として、ユーザは、コンピューティングデバイスによって認識されるジェスチャまたは物理的運動を使用してディスプレイをスクロールすることができる。
ユーザ入力は、ディスプレイに対してテキストコンテンツの1つまたは複数の部分を移動させることによって、テキストコンテンツの1つまたは複数の部分のそれぞれの位置を変更することができる。一例として、ユーザスクロール入力は、テキストコンテンツの以前に表示されていた部分がディスプレイの上に配置されるように、ディスプレイを移動させることができる。別の例として、ユーザジェスチャ入力は、テキストコンテンツの一部をディスプレイの下半分からディスプレイの上半分に移動させることができる。
508において、方法は、ユーザ入力を示すデータを受信するステップに応答して、テキストコンテンツの部分のうちの1つまたは複数のそれぞれの更新された位置を示す更新位置データを決定するステップを含むことができる。テキストコンテンツの1つまたは複数の部分が移動された後、更新位置データは、画面に対する新しいそれぞれの位置を示すことができる。一例として、以前にディスプレイ上に配置されていなかったテキストコンテンツの一部(例えば、検索結果に関連付けられたテキストコンテンツカード)は、ディスプレイ上に配置された更新された位置を有することができる。別の例として、以前にディスプレイ上に配置されていたコンテンツの一部は、ディスプレイ上に配置されていない更新された位置を有することができる。
510において、方法は、ユーザ入力を示すデータを受信するステップに応答して、更新位置データに少なくとも部分的に基づいて、テキストコンテンツの第1の部分がディスプレイの再生領域内に配置されていることを識別するステップを含むことができる。ディスプレイの再生領域は、テキストコンテンツの第1の部分に関連付けられたオーディオ再生を可能にする画面の領域とすることができる。一例として、テキストコンテンツの第1の部分が再生領域内に配置されている場合、1つまたは複数のコンピューティングデバイスは、テキストコンテンツのその部分を含むオーディオ再生を可能にすることができる。いくつかの実施形態において、再生領域内に配置されているものとして、テキストコンテンツの複数の部分を識別することができる。例えば、2つの(例えば、ディスプレイのサイズに対して)比較的小さいテキストコンテンツカードが、両方とも、ディスプレイの再生領域内に同時に収まってもよい。
いくつかの実施形態において、再生領域は、ディスプレイの矩形部分として定義することができる。再生領域のサイズおよび位置は、複数の方法で決定することができる。一例として、再生領域のサイズおよび位置は、ユーザの好みによって決定することができる。ユーザが再生領域の位置と寸法とを決定することを可能にする設定メニューが存在することができる。例えば、ユーザは、再生領域がディスプレイの中央に配置された小さい矩形であるべきであると判断することができる。別のユーザは、再生領域を拡大し、再生領域をディスプレイの最上部に配置することを選択してもよい。別の例として、再生領域のサイズおよび位置は、少なくとも部分的に機械知能(例えば、機械学習モデル)によって決定することができる。例えば、コンピューティングデバイスは、過去のユーザの行動を分析し、問題のユーザによって最も好まれる再生領域のサイズと位置とを決定するために、機械知能を使用することができる。代替的または追加的には、再生領域のサイズおよび位置は、事前定義することができ、および/または静的とすることができる。
512において、方法は、ユーザ入力を示すデータを受信するステップに応答して、テキストコンテンツの第1の部分の少なくとも一部の読み上げを含むオーディオ信号の再生を引き起こすステップを含むことができる。いくつかの実装形態において、オーディオ信号は、テキストコンテンツの第1の部分に関連するコンテキスト情報を含むことができる。コンテキスト情報は、要約、簡単な説明、タイトル、および/またはテキストコンテンツの第1の部分内に含まれるアイテムのリストを含むことができる。一例として、上位3つの結果を再生するだけで、20軒の地元のレストランのリストを含む検索結果を要約することができる。
いくつかの実装形態において、オーディオ信号は、機械知能(例えば、機械学習モデル)によって少なくとも部分的に決定することができる。機械知能は、オーディオ信号内に含まれるべきテキストコンテンツの好ましい部分と部分のフォーマットとを決定するために使用することができる。一例として、機械学習モデルは、ユーザがテキストコンテンツの各部分の簡単な説明のみをオーディオ信号内に含めることを好むことを識別することができる。別の例として、機械学習モデルは、第2のユーザがテキストコンテンツの部分全体をオーディオ信号内に含めることを好むと決定することができる。
いくつかの実装形態において、オーディオ信号は、ある言語から別の言語へのテキストコンテンツの一部の変換をさらに含むことができる。オーディオ信号は、ユーザの好みに基づいて言語翻訳を提供することができる。例えば、ユーザは、外国語で書かれた文書を閲覧している場合がある。1つまたは複数のコンピューティングデバイスは、再生領域内に位置するテキストコンテンツの部分に対してオーディオ信号翻訳を選択的に提供することができる。これは、ユーザが翻訳されることを望むテキストコンテンツの位置を認識している場合、ユーザがテキストコンテンツの一部の特定の翻訳を迅速に受け取ることを可能にすることができる。
図6は、例示的な実施形態による、表示されたテキストコンテンツのオーディオ再生を停止するための例示的な方法600の流れ図を示す。方法600は、例えば、図1のコンピューティングデバイスを使用して実施することができる。図6は、例示および説明の目的のために特定の順序で実行されるステップを示す。当業者は、本明細書で提供する開示を使用して、本明細書で説明する方法のいずれかの様々なステップを、本開示の範囲から逸脱することなく、様々な方法で、省略、再配置、同時実行、拡張、および/または修正することができることを理解するであろう。
602において、方法600は、ディスプレイに対するコンテンツの1つまたは複数の部分のそれぞれの位置を変更する第2のユーザ入力を示すデータを受信するステップを含むことができる。ユーザ入力は、物理的なユーザアクションに対応することができる。一例として、ユーザは、タッチ入力を使用して(例えば、指またはスタイラスをタッチ感知ディスプレイ上に置き、上下にスライドさせることによって)ディスプレイを上下にスクロールすることができる。ユーザ入力の他の例を図5に示す。
604において、方法600は、第2のユーザ入力を示すデータを受信するステップに応答して、テキストコンテンツの部分のうちの1つまたは複数のそれぞれの第2の更新された位置を示す更新位置データを決定するステップを含むことができる。テキストコンテンツの1つまたは複数の部分が移動された後、更新位置データは、画面に対するそれらの新しいそれぞれの位置を示すことができる。一例として、以前にディスプレイ上に配置されていなかったテキストコンテンツの一部(例えば、検索結果に関連付けられたテキストコンテンツカード)は、ディスプレイ上に配置された更新された位置を有することができる。
606において、方法600は、第2のユーザ入力を示すデータを受信するステップに応答して、第2の更新位置データに少なくとも部分的に基づいて、テキストコンテンツの第1の部分がディスプレイの再生領域の外側に配置されていることを識別するステップを含むことができる。例えば、現在再生されているオーディオ信号内に含まれていたテキストコンテンツの第1の部分は、ユーザ入力に応答して、オーディオ信号が依然として再生している間、再生領域の外側に移動させることができる。
608において、方法600は、第2のユーザ入力を示すデータを受信するステップに応答して、オーディオ信号の再生を停止するステップを含むことができる。ユーザ入力によって再生領域の外側に配置されたテキストコンテンツの一部を含むオーディオ信号が現在再生されている場合、コンピューティングデバイスは、オーディオ信号の再生を停止することができる。ユーザが望む場合、ユーザがテキストコンテンツの第1の部分を再生領域内に再配置することを可能にするために、オーディオ信号の停止を遅延させることができる。例として、コンピューティングデバイスは、再生領域の外側に移動されたテキストコンテンツの一部を含むオーディオ信号を停止する前に、3秒間一時停止することができる。これは、(例えば、偶発的に画面に触れて)偶発的に入力したユーザが、再生に影響が出る前にユーザの誤りを修正することを可能にする。いくつかの実施形態では、この一時停止は、ユーザ設定によって少なくとも部分的に決定することができる。他の実施形態では、この一時停止は、機械知能(例えば、機械学習モデル120)によって少なくとも部分的に決定することができる。
追加の開示
本明細書で説明する技術は、サービス、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに、そのようなシステムに対してとられるアクションおよびそのようなシステムからとられるアクション、およびそのようなシステムに送信される情報およびそのようなシステムから送信される情報を参照する。コンピュータベースのシステムの固有の柔軟性は、構成要素間のタスクおよび機能の様々な可能な構成、組合せ、および分割を可能にする。例えば、本明細書で説明するプロセスは、単一のデバイスもしくは構成要素、または、組み合わせて機能する複数のデバイスもしくは構成要素を使用して実施することができる。データベースおよびアプリケーションは、単一のシステム上に実装することができ、または、複数のシステムにわたって分散させることができる。分散された構成要素は、順次にまたは並列に動作することができる。
本主題について、その様々な特定の例示的な実施形態に関して詳細に説明してきたが、各例は、開示の限定ではなく、説明として提供される。当業者は、前述の理解を獲得すると、そのような実施形態の変更、変形、および同等物を容易に作り出すことができる。したがって、主題の開示は、当業者に容易に明らかであるような、本主題へのそのような修正、変形、および/または追加の包含を排除しない。例えば、ある実施形態の一部として図示または説明した特徴は、さらに他の実施形態をもたらすために別の実施形態とともに使用することができる。したがって、本開示は、そのような変更、変形、および同等物をカバーすることを意図している。
10 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム、システム
102 ユーザコンピューティングデバイス、デバイス
112 プロセッサ
114 メモリ、ローカルメモリ、ユーザコンピューティングデバイスメモリ
116 データ
118 命令
119 オーディオ再生システム
120 機械学習モデル、モデル
121 TTSシステム
122 ユーザ入力構成要素
123 再生領域ハンドラ
124 スピーカ
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 機械学習モデル、モデル
150 訓練コンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデルトレーナ
162 訓練データ、訓練データセット
180 ネットワーク
190 コンテンツ
200 コンピューティングデバイスディスプレイ、コンピューティングデバイス
202 検索クエリ、検索結果
204 テキストコンテンツ
204a~204e テキストコンテンツの部分
206 再生領域
208 非強調効果
210 強調効果
212 オーディオ信号
214 テキスト強調効果
216 移動入力
302 タイトル
304 非構造化アイテム
306 段落インデント
306a 段落インデント
306b 段落インデント
306c 段落インデント
306d 段落インデント
306e 段落インデント
308 テキストコンテンツ
308a テキストコンテンツの部分
308b テキストコンテンツの部分
308c テキストコンテンツの部分
308d テキストコンテンツの部分
308e テキストコンテンツの部分
400 再生領域設定インターフェース、再生領域設定
402 再生領域位置設定
404 再生領域寸法設定
406 再生領域開始時間設定

Claims (23)

  1. 表示されたテキストコンテンツのオーディオ再生を実行するためのコンピュータ実施方法であって、前記方法が、
    1つまたは複数のコンピューティングデバイスによって、テキストコンテンツの複数の部分を含むコンテンツの1つまたは複数のアイテムを記述するデータを取得するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記1つまたは複数のコンピューティングデバイスに関連付けられたディスプレイ上の前記テキストコンテンツの部分のうちの1つまたは複数のそれぞれの位置を示す位置データを決定するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、ディスプレイに対する前記テキストコンテンツの部分のうちの前記1つまたは複数の前記それぞれの位置を変更するユーザ入力を示すデータを受信するステップと、
    前記ユーザ入力を示す前記データを受信するステップに応答して、
    前記1つまたは複数のコンピューティングデバイスによって、前記テキストコンテンツの部分のうちの前記1つまたは複数のそれぞれの更新された位置を示す更新位置データを決定するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記更新位置データに少なくとも部分的に基づいて、テキストコンテンツの第1の部分が前記ディスプレイの再生領域内に配置されていることを識別するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記テキストコンテンツの第1の部分の少なくとも一部の読み上げを含むオーディオ信号の再生を引き起こすステップと、
    を含むコンピュータ実施方法。
  2. 前記ユーザ入力が、ユーザによって実行されるスクロール入力を含む、請求項1に記載のコンピュータ実施方法。
  3. 前記1つまたは複数のコンピューティングデバイスによって、前記再生領域内に配置された前記テキストコンテンツの第1の部分、または、前記再生領域以外の前記ディスプレイの1つもしくは複数の部分の一方または両方に、前記ディスプレイ上の1つまたは複数の視覚的効果を適用するステップをさらに含む、請求項1または2に記載のコンピュータ実施方法。
  4. 前記コンテンツのアイテムが、検索クエリに応答して生成された検索結果ページを含む、請求項1から3のいずれか一項に記載のコンピュータ実施方法。
  5. 前記テキストコンテンツの複数の部分が、前記検索クエリに対する応答である1つまたは複数の検索結果に少なくとも部分的に基づくテキストコンテンツカードを含む、請求項1から4のいずれか一項に記載のコンピュータ実施方法。
  6. 前記オーディオ信号が、前記テキストコンテンツの1つまたは複数の部分のテキスト読み上げ変換を含む、請求項1から5のいずれか一項に記載のコンピュータ実施方法。
  7. 前記オーディオ信号が、第1の言語から第2の言語への翻訳を含む、請求項1から6のいずれか一項に記載のコンピュータ実施方法。
  8. 前記オーディオ信号が、前記テキストコンテンツの第1の部分に関連するコンテキスト情報を含む、請求項1から7のいずれか一項に記載のコンピュータ実施方法。
  9. 前記テキストコンテンツの第1の部分の少なくとも一部の前記読み上げが、ユーザの好みに少なくとも部分的に基づく、請求項1から8のいずれか一項に記載のコンピュータ実施方法。
  10. 前記テキストコンテンツの第1の部分の少なくとも一部の前記読み上げが、機械学習モデルによって少なくとも部分的に決定される、請求項1から9のいずれか一項に記載のコンピュータ実施方法。
  11. 前記1つまたは複数のコンピューティングデバイスによって、前記テキストコンテンツの第1の部分の少なくとも一部の読み上げを含むオーディオ信号の再生を引き起こすステップが、
    前記1つまたは複数のコンピューティングデバイスによって、前記テキストコンテンツの第1の部分が認識されていないテキストコンテンツを含んでいると決定するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記認識されていないテキストコンテンツ内に含まれる文字を認識するステップと、
    をさらに含む、請求項1から10のいずれか一項に記載のコンピュータ実施方法。
  12. 前記1つまたは複数のコンピューティングデバイスによって、テキストコンテンツの複数の部分を含むコンテンツの1つまたは複数のアイテムを記述するデータを取得するステップが、
    前記1つまたは複数のコンピューティングデバイスによって、非構造化テキストコンテンツを取得するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記非構造化テキストコンテンツからテキストコンテンツの複数の部分を決定するステップと、
    をさらに含む、請求項1から11のいずれか一項に記載のコンピュータ実施方法。
  13. 前記1つまたは複数のコンピューティングデバイスによって、前記非構造化テキストコンテンツからテキストコンテンツの複数の部分を決定するステップが、機械学習モデルによって少なくとも部分的に決定される、請求項12に記載のコンピュータ実施方法。
  14. 前記1つまたは複数のコンピューティングデバイスによって、前記非構造化テキストコンテンツからテキストコンテンツの複数の部分を決定するステップが、少なくとも部分的に、前記非構造化テキストコンテンツに関連するメタデータにおいて決定される、請求項12に記載のコンピュータ実施方法。
  15. 前記ディスプレイの前記再生領域の位置が、ユーザの好みに少なくとも部分的に基づく、請求項1から14のいずれか一項に記載のコンピュータ実施方法。
  16. 前記ディスプレイの前記再生領域が、テキストコンテンツの複数の部分が前記再生領域内に配置されることを可能にするように構成される、請求項1から15のいずれか一項に記載のコンピュータ実施方法。
  17. 前記1つまたは複数のコンピューティングデバイスによって、前記更新位置データに少なくとも部分的に基づいて、テキストコンテンツの第1の部分が前記ディスプレイの再生領域内に配置されていることを識別するステップが、前記1つまたは複数のコンピューティングデバイスによって、前記ユーザ入力を示すデータを受信した後にある量の時間が経過したと決定するステップをさらに含む、請求項1から16のいずれか一項に記載のコンピュータ実施方法。
  18. 前記1つまたは複数のコンピューティングデバイスによって、前記更新位置データに少なくとも部分的に基づいて、テキストコンテンツの第1の部分が前記ディスプレイの再生領域内に配置されていることを識別するステップが、機械学習モデルに少なくとも部分的に基づく、請求項1から17のいずれか一項に記載のコンピュータ実施方法。
  19. 前記1つまたは複数のコンピューティングデバイスによって、前記ディスプレイに対する前記コンテンツの1つまたは複数の部分の前記それぞれの位置を変更する第2のユーザ入力を示すデータを受信するステップと、
    前記第2のユーザ入力を示す前記データを受信するステップに応答して、
    前記1つまたは複数のコンピューティングデバイスによって、前記テキストコンテンツの部分のうちの1つまたは複数のそれぞれの第2の更新された位置を示す更新位置データを決定するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記第2の更新位置データに少なくとも部分的に基づいて、前記テキストコンテンツの第1の部分が前記ディスプレイの前記再生領域の外側に配置されていることを識別するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記オーディオ信号の再生を停止するステップと、
    をさらに含む、請求項1から18のいずれか一項に記載のコンピュータ実施方法。
  20. ユーザ入力を示すデータに少なくとも部分的に基づいて、前記再生領域の位置を画面上の異なる位置に調整するステップをさらに含む、請求項1から19のいずれか一項に記載のコンピュータ実施方法。
  21. 1つまたは複数のプロセッサと、
    命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が前記1つまたは複数のプロセッサによって実行されると、コンピューティングデバイスに請求項1から20のいずれか一項に記載の方法を実行させる、1つまたは複数の非一時的コンピュータ可読媒体と、
    を備えるコンピューティングデバイス。
  22. 前記コンピューティングデバイスがモバイルコンピューティングデバイスを備える、請求項21に記載のコンピューティングデバイス。
  23. 命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1から20のいずれか一項に記載の方法を実行させる、1つまたは複数の非一時的コンピュータ可読媒体。
JP2020561826A 2019-11-14 2019-11-14 表示されたテキストコンテンツの自動オーディオ再生 Active JP7395505B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/061401 WO2021096507A1 (en) 2019-11-14 2019-11-14 Automatic audio playback of displayed textual content

Publications (2)

Publication Number Publication Date
JP2022510528A true JP2022510528A (ja) 2022-01-27
JP7395505B2 JP7395505B2 (ja) 2023-12-11

Family

ID=68848409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561826A Active JP7395505B2 (ja) 2019-11-14 2019-11-14 表示されたテキストコンテンツの自動オーディオ再生

Country Status (6)

Country Link
US (2) US11887581B2 (ja)
EP (1) EP3841458B1 (ja)
JP (1) JP7395505B2 (ja)
KR (2) KR20210059670A (ja)
CN (2) CN115454370A (ja)
WO (1) WO2021096507A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008871A1 (ja) * 2004-07-21 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US20110184738A1 (en) * 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
JP2012133662A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラムならびに該ビューワプログラムが記録された記録媒体
JP2012185323A (ja) * 2011-03-04 2012-09-27 Sharp Corp 再生装置、再生方法、プログラムおよび記録媒体
JP2013125372A (ja) * 2011-12-14 2013-06-24 Kyocera Corp 文字表示装置、補助情報出力プログラムおよび補助情報出力方法
JP2014222542A (ja) * 2014-08-06 2014-11-27 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム
JP2018072509A (ja) * 2016-10-27 2018-05-10 トッパン・フォームズ株式会社 音声読み上げ装置、音声読み上げシステム、音声読み上げ方法、およびプログラム
JP2019185470A (ja) * 2018-04-12 2019-10-24 株式会社Nttドコモ 情報処理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6324511B1 (en) 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
KR100719776B1 (ko) 2005-02-25 2007-05-18 에이디정보통신 주식회사 휴대형 코드인식 음성 합성출력장치
US9135333B2 (en) * 2008-07-04 2015-09-15 Booktrack Holdings Limited Method and system for making and playing soundtracks
KR101165201B1 (ko) 2010-05-28 2012-07-16 주식회사 인큐브테크 컨텐츠 제공 시스템의 변환서버
US9836271B2 (en) 2013-07-17 2017-12-05 Booktrack Holdings Limited Delivery of synchronised soundtracks for electronic media content
US10592095B2 (en) * 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
KR20160032880A (ko) 2014-09-17 2016-03-25 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
US9927957B1 (en) * 2014-12-11 2018-03-27 Audible, Inc. Rotary navigation of synchronized content
US9772816B1 (en) * 2014-12-22 2017-09-26 Google Inc. Transcription and tagging system
US9930463B2 (en) * 2016-03-31 2018-03-27 Sonos, Inc. Defect detection via audio playback
US10585956B2 (en) * 2017-09-20 2020-03-10 International Business Machines Corporation Media selection and display based on conversation topics
KR102318080B1 (ko) 2019-08-05 2021-10-27 엘지전자 주식회사 지능적인 tts 제공 방법 및 tts를 제공하는 지능형 컴퓨팅 디바이스
US11962547B2 (en) * 2019-09-27 2024-04-16 Snap Inc. Content item module arrangements

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008871A1 (ja) * 2004-07-21 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US20110184738A1 (en) * 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
JP2012133662A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラムならびに該ビューワプログラムが記録された記録媒体
JP2012185323A (ja) * 2011-03-04 2012-09-27 Sharp Corp 再生装置、再生方法、プログラムおよび記録媒体
JP2013125372A (ja) * 2011-12-14 2013-06-24 Kyocera Corp 文字表示装置、補助情報出力プログラムおよび補助情報出力方法
JP2014222542A (ja) * 2014-08-06 2014-11-27 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム
JP2018072509A (ja) * 2016-10-27 2018-05-10 トッパン・フォームズ株式会社 音声読み上げ装置、音声読み上げシステム、音声読み上げ方法、およびプログラム
JP2019185470A (ja) * 2018-04-12 2019-10-24 株式会社Nttドコモ 情報処理装置

Also Published As

Publication number Publication date
US11887581B2 (en) 2024-01-30
JP7395505B2 (ja) 2023-12-11
EP3841458B1 (en) 2024-07-03
CN113196227B (zh) 2022-09-09
KR20230042389A (ko) 2023-03-28
WO2021096507A1 (en) 2021-05-20
US20240127792A1 (en) 2024-04-18
CN115454370A (zh) 2022-12-09
US20230094174A1 (en) 2023-03-30
KR20210059670A (ko) 2021-05-25
EP3841458A1 (en) 2021-06-30
CN113196227A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
US11797606B2 (en) User interfaces for a podcast browsing and playback application
AU2019219760B2 (en) Systems, devices, and methods for dynamically providing user interface controls at a touch-sensitive secondary display
US11989252B2 (en) Using a web accessibility profile to introduce bundle display changes
US10699063B2 (en) Authoring content for digital books
CN109791465B (zh) 用于对文本进行注释的设备、方法和图形用户界面
US20110087974A1 (en) User interface controls including capturing user mood in response to a user cue
US20140215340A1 (en) Context based gesture delineation for user interaction in eyes-free mode
US12020681B2 (en) Systems and methods for a text-to-speech interface
CN112424853A (zh) 以对文本文档的音频回放进行补充的视觉内容为特点的文本到语音界面
US20220021749A1 (en) System and Method for Selecting and Providing Available Actions from One or More Computer Applications to a User
JP7395505B2 (ja) 表示されたテキストコンテンツの自動オーディオ再生
Chadha The Basics: Functional User Needs and Common Solutions
WO2020023068A1 (en) Systems and methods for a text-to-speech interface
JP2023172915A (ja) プログラム、情報処理装置、情報処理システム、情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230809

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231129

R150 Certificate of patent or registration of utility model

Ref document number: 7395505

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150