JP2015506000A - 音声コンテンツ管理のためのシステムおよび方法 - Google Patents

音声コンテンツ管理のためのシステムおよび方法 Download PDF

Info

Publication number
JP2015506000A
JP2015506000A JP2014538913A JP2014538913A JP2015506000A JP 2015506000 A JP2015506000 A JP 2015506000A JP 2014538913 A JP2014538913 A JP 2014538913A JP 2014538913 A JP2014538913 A JP 2014538913A JP 2015506000 A JP2015506000 A JP 2015506000A
Authority
JP
Japan
Prior art keywords
content
user
audio
voice
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014538913A
Other languages
English (en)
Inventor
ナサニエル・ティー・ブラッドレイ
ウィリアム・シー・オコナー
デイヴィッド・アイド
Original Assignee
オーディオアイ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オーディオアイ・インコーポレイテッド filed Critical オーディオアイ・インコーポレイテッド
Publication of JP2015506000A publication Critical patent/JP2015506000A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information

Abstract

例えば、視力のあるユーザによって、主に見ることが意図されたファイルを表す音声ファイルが作成されて、そのようなファイルを組み込む元のウェブサイトにおいてインスタンス化されるような元のファイルの階層を模擬する階層に組織化される。これにより、視覚的障害を有するユーザに、元のウェブサイトを模擬するような形で、音声ファイルに対するアクセスと、音声ファイルのナビゲーションとが提供される。

Description

本発明に一致する態様は、一般に、ウェブ上、モバイル電話上、およびmp3デバイス上で使用するために利用可能であり、かつ任意のユーザ、特に、視覚的に不自由でかつ視覚的障害を有するユーザが、音声キューに基づいて出力にアクセスしてナビゲートすることを可能にする音声認識可能なコンテンツを、作成し、管理し、かつそれにアクセスするためのデータ処理に関する。
ウェブサイトおよび多くのその他のコンピュータファイルおよびコンテンツは、それらのファイルを使用する人々がコンピュータモニタ上でファイルコンテンツを見ることができるのを仮定して作成される。ウェブサイトおよびその他のコンテンツはユーザがコンテンツに視覚的にアクセスすることを仮定して開発されているため、これらのサイトはたくさんのコンテンツを音声認識可能に伝えず、またこれらのサイトは、メニューおよびナビゲーションバーなど、ナビゲーションアーキテクチャを音声認識可能に伝えることもない。その結果、コンテンツを視覚的に見ることができないか、またはコンテンツに視覚的にアクセスすることができないユーザはそのようなウェブサイトを使用することが困難である。
従来のシステムは、視覚的障害を有するユーザおよびその他のユーザがウェブサイトを使用するのを助けるために開発されているが、これらのシステムは、多くの場合、ユーザのコンピュータにソフトウェアとハードウェアとをインストールすることを要求する。これらのシステムの多くは、画面読取り技術だけを単に使用するか、または画面読取り技術をプリント拡大ソフトウェアアプリケーションと組み合わせて使用する。これらのシステムは、費用がかかり、扱いにくく、不便であることが分かっている。さらに、そのような技術は、ユーザのコンピュータ上にインストールされるため、視覚的障害を有するユーザは、自らのコンピュータ上以外のどの場所でも従来のコンピュータファイルを効果的に使用することができない。その結果として、ウェブサイトおよびその他のコンピュータファイルは、多くの場合、ユーザにとって自宅以外のどの場所でもアクセス可能でない。
ユーザが何らかのタッチトーン電話を使用することによって一部のコンピュータ情報にアクセスするのを可能にすることによって、この問題を克服するためのいくつかの従来のシステムが開発されている。本質的に、発呼側は電話によって特殊なコンピュータにアクセスする。このコンピュータは、電話を介してユーザに再生可能な音声成分を含むコンピュータファイルに対するアクセスを有する。例えば、電話を介して、合成音声ソフトウェアによって音声ファイルに変換されているテキストファイルをユーザに再生することができる。一部のシステムは、すでに変換されている音声ファイルにアクセスし、一部は、ユーザのコマンドによって、オンザフライでテキストから音声に変換する。どのファイルを再生されるかを制御するために、ユーザはタッチトーンキーパッド上のキーを押下して、どの音声ファイルを再生するかをコンピュータに命令する音を送信する。
残念ながら、これらのシステムはやはり欠点を有する。大型ファイル、または複数の入れ子層を有するファイルは、システムを、ナビゲーションが困難であり、多くの場合、非常に苛立たしい、巨大な自動音声応答システムに変化させる。典型的には、テキストだけがユーザに再生される。ウェブサイト上にあるようなグラフィックス、音楽、画像、およびナビゲーションシステムは再生されない。さらに、コンピュータ生成音声の金属性の声の一部は、人間が行うような語尾変化を用いて意味を伝えず、特に、情報量が多い場合、聴くのが面倒である。
本発明に一致する方法およびシステムは、元来、(例えば、視力のあるユーザによって)見るために作成されたファイルから音声ファイルを作成することを実現する。元来、主に視力のあるユーザ用に作成されたファイルは、本明細書で、元のファイルと呼ばれる。元のファイルの組織化された収集物は、本明細書で、元のウェブサイトと呼ばれる。元のウェブサイト設計に基づいて、階層およびナビゲーションシステムを音声ファイルに割り当てて、元のウェブサイトのナビゲーションを模擬するような形で、音声ファイルに対するアクセスおよび音声ファイルのナビゲーションを提供することが可能である。
様々な実施形態で、本発明は、音声コンテンツを分配するためのシステムおよび方法を提供する。ユーザが音声コンテンツに変換するのを望む元のコンテンツ(例えば、ウェブページ、検索クエリなど)のユーザ選択が受信され、そのような変換が実行される。識別子が元のコンテンツおよび音声コンテンツと関連付けられる。次いで、音声コンテンツ形式で元のコンテンツにアクセスすることを要望することを示した、1人または複数のユーザによるアクセスのために、識別子と、関連する音声コンテンツとがネットワークデバイス内に記憶される。
本明細書に組み込まれ、かつ本明細書の一部を構成する添付の図面は、本発明に一致する方法およびシステムの実装を例示し、説明とともに、本発明に一致する利点および原理を説明するのに役立つ。
本発明の実施形態に関して使用するのに適した、ある相互接続ネットワークシステムを例示する図である。 図1に示された相互にネットワーク接続されたシステムに関連しうる、ある例示的なコンピュータネットワークを示す図である。 元のウェブサイトのある例示的なホームページを示す図である。 ウェブサイト内のページのある例示的な階層を示す図である。 本発明の実施形態に一致するキーボードナビゲーション構成を例示する図である。 本発明の実施形態に一致するコンピュータシステムおよびネットワークの構成要素同士の間の対話を例示する図である。 本発明の一実施形態に一致する、XMLフィード(feed)を音声に変換するためのある方法を例示する図である。 本発明の一実施形態に一致する、人間対応の(human-enabled)、ウェブサイトを音声に変換するためのある方法を例示する図である。 本発明の一実施形態に一致する、公開されたウェブサイトを音声に変換するためのある方法を例示する図である。 本発明の一実施形態に一致する、ウェブベースの写真の音声描写(audio description)を提供するためのある方法を例示する図である。 本発明の一実施形態に一致する、公開された対話形式を音声に変換するためのある方法を例示する図である。 本発明の一実施形態に一致する、ポッドキャストを索引付するためのある方法を例示する図である。 本発明の一実施形態に一致する、ある例示的なメディアプレイヤを示す図である。 本発明に一致する方法を実行するように構成可能な、あるコンピュータシステムを例示する図である。 本発明のある実施形態による通信環境の図的記述である。 本発明のある実施形態によるユーザ環境の図的記述である。 本発明のある実施形態によるコンピューティングシステムの図的記述である。 本発明のある実施形態による、元のコンテンツの音声変換を実行するためのあるプロセスの流れ図である。 本発明のある実施形態による、元のコンテンツの音声変換を実行するためのあるプロセスの流れ図である。 本発明のある実施形態による音声ユーザインターフェースの図的記述である。
本発明に一致する方法およびシステムは、元来、視力のあるユーザのために作成されたファイルから音声ファイルを作成する。元来主に視力のあるユーザ用に作成されたファイルは、本明細書で、元のファイルと呼ばれる。元のファイルの組織化された収集物は、本明細書で、元のウェブサイトと呼ばれる。これにより、元のウェブサイト設計に基づいて、階層およびナビゲーションシステムを音声ファイルに割り当てて、音声ファイルに対するアクセスおよび音声ファイルのナビゲーションを提供することが可能である。
音声ファイルは、ユーザのコンピュータを経由してアクセス可能である。ファイルを開けるとすぐに、音声認識可能なトーンまたはその他の音を再生することになるインジケータを元のファイル内に含め、それによって、そのファイルが音声認識可能にアクセス可能であることをユーザに示すことが可能である。その音を聞くとすぐに、ユーザは、関連する音声ファイルを開くようコンピュータに示す。音声ファイルのコンテンツは、ユーザのコンピュータ内に組み込み可能であるか、または独立型デバイスであってよい音声インターフェースを介して再生される。
ユーザは、ナビゲーションポータルを介して、キーストロークナビゲーションを使用して音声ファイルをナビゲートすることができる。音声入力デバイスを必要とするタッチトーン電話システムと違って、本発明に一致する実施形態は、トーンのないナビゲーションを利用することができる。本発明に一致する一実施形態では、ユーザは、ナビゲーションのためにナビゲーションポータルによって検出される音声コマンドを使用することができる。さらに別の実施形態では、ユーザは、ナビゲーションのためにタッチスクリーンを作動させる。ナビゲーションポータルは、コンピュータシステム上で実施可能であるが、電話内、テレビジョン内、携帯情報端末内、またはその他の同等のデバイス内で実施されることも可能である。
次に、添付の図面で例示される、本発明に一致する実装を詳細に参照する。
本発明に一致する一実施形態は、グローバルコンピュータネットワーク、例えば、インターネットの遠隔コンピュータ上でホストされる元のウェブページに適用可能である。図1は、一緒にネットワーク接続された遠隔コンピュータを介して互いと通信する、ユーザi...ユーザxとして示される、複数のユーザのコンピュータを例示する。本発明に一致する別の実施形態は、ローカルエリアネットワークまたは広域ネットワークなど、より小さなコンピュータネットワークに関して使用可能である。図2は、複数のユーザのコンピュータ21、22、23、および24がサーバ25を介して通信する、そのようなネットワークを例示する。この例では、それぞれのユーザのコンピュータは、音声ファイルを再生するための独立型音声インターフェース26を有することが可能である。あるいは、音声インターフェースをユーザのコンピュータ内に組み込むことが可能である。
本発明に一致する一実施形態では、サイト解析プロセスによって、元のファイルのテキスト、画像、音、およびその他のリッチメディアコンテンツを音声ファイルに変換することによって、音声ファイルを作成することが可能である。この実施形態では、人間が元のファイルのテキストを声に出して読み、音声が記録される。人間は非テキストファイルコンテンツとファイルナビゲーションオプションとをやはり声に出して描写し、この音声が記録される。音楽または音響効果など、非音声コンテンツも記録され、これらの様々な音声成分は1つまたは複数のファイル内に配置される。FLASH、HTML、XML、.NET、JAVA(登録商標)、またはストリーミングビデオに限定されないが、これらなど、任意のタイプのコンテンツを言葉、音楽、またはその他の音で音声認識可能に描写することができ、かつ音声ファイル内に組み込むことが可能である。音声インターフェースを介して音声ファイルが再生されると音を発するように、元来のコンピュータファイル設計に基づいて階層がそれぞれの音声ファイルに割り当てられる。ユーザは、ファイルのコンテンツのすべてまたは一部を聞くことができ、音声認識可能なナビゲーションキューに応答することによって、ファイル内をナビゲートすることができる。
この実施形態では、元のウェブサイトが音声認識可能なウェブサイトに変換される。元のウェブサイトのそれぞれのファイル、またはページが別個の音声ファイル、または音声ページに変換される。関連する音声ファイルの収集物は、遠隔コンピュータ上またはサーバ上に常駐しうる。例えば、図3は、元のウェブサイトのホームページ30を例示する。人間がホームページ30のテキストコンテンツ31を声に出して読み、音声が音声ファイル内に記録される。人間は、元のウェブサイト上で可視的な、それぞれ、「ログイン」、「製品」、「ショーケース」、「最新情報」、および「会社案内」であるメニューオプション32、33、34、35、36を声に出して言う。この音声も記録される。
同様に、人間が元のウェブサイト内の他のファイルのテキストコンテンツおよびメニューオプションを声に出して読み、音声が音声ファイル内に記録される。この例では、キー1がメニューオプション32「ログイン」に割り当てられ、キー2がメニューオプション33「製品」に割り当てられ、キー3がメニューオプション34「ショーケース」に割り当てられ、キー4がメニューオプション35「最新情報」に割り当てられ、キー5がメニューオプション36「会社案内」に割り当てられる。ウェブサイトの画像または色彩など、元のウェブサイトの他の視覚成分を音声で描写して、1つまたは複数の音声ファイル内に記録することも可能である。音楽効果または音響効果などの非可視成分を、音声ファイルに記録することも可能である。
図4は、元のウェブサイト40を形成する元のファイルのある例示的な階層を示す。メニューオプション32はユーザをファイル42に導くことになり、ファイル42は、次に、ファイル42i...vに導く。メニューオプション33はユーザをファイル43に導くことになり、ファイル43は、次に、ファイル43i...iiiに導く。元のウェブサイトのすべての元のファイルに関して、同様に、メニューオプション34はユーザをファイル44に導くことになり、ファイル44は、次に、ファイル44i...iv、に導く。音声ファイルの収集物は、図4に示される階層と実質的に類似の階層をたどり、音声認識可能に描写される音声認識可能なウェブサイトを形成することになる。
本発明に一致する一実施形態では、テキストがコンテンツ管理システム(CMS)内に入力されて、自動的に音声に変換される。テキストを獲得するとすぐに、AT&T Natural VoicesまたはMicrosoft Readerなど、第三者テキストツースピーチエンジン(third party text-to-speech engine)が起動し、.wavファイル、または.mp3ファイルなど、音声ファイルが作成される。音声ファイルは、標準サンプリングレートなど、標準仕様に従って符号化されうる。符号化されると、音声ファイルはコンテンツ配信ネットワーク(CDN)にアップロードされて、コンテンツアクセスのためにURLパスが確立される。音声コンテンツのURLパスは、ナビゲーションデータベース内のナビゲーション値と関連付けられる。ブラウジングの間に、ナビゲーションデータベースを使用して、ナビゲーション値を有するユーザ選択が音声コンテンツURLにマッピングされる。次いで、音声コンテンツが獲得されて、クライアントシステム上で再生される。
本発明に一致する別の実施形態では、シンジケート化されたウェブサイトフィードが読み取られて、構造化された情報文書が、音声対応の(audio enabled)ウェブサイトに変換される。一例では、シンジケート化されたウェブサイトフィードは、Really Simple Syndication(RSS)であり、構造情報文書はXMLファイルである。RSS URLは、まず、CMS内に入力される。RSSスクレイピング論理(scraping logic)がコンテンツ管理システム内に入力され、事前定義されたスケジュールに基づいて、RSSコンテンツ作成エンジンが起動する。RSSコンテンツ作成エンジンは、フィードから提供されたRSS構造に従って、コンテンツタイトル、記述、および順序をフィードから抽出する。ストーリコンテンツに対するURLパスがスクレイピングエンジン(scraping engine)内に展開されて、スクレイピング論理を使用してテキストが抽出される。次いで、コンテンツがフィルタリングされて、すべてのフォーマットテキストおよびフォーマットコードならびに非文脈的なテキストおよびコードを除去する。
タイトルと主なストーリコンテンツの両方に関するテキストツースピーチ変換が完了する。このとき、.wavファイルなど、音声フォーマットの変換されたタイトルおよびコンテンツがCDNにアップロードされて、コンテンツアクセスのためのURLパスが確立される。音声コンテンツのURLパスは、ナビゲーションデータベース内でナビゲーション値と関連付けられる。ブラウジングの間、ナビゲーションデータベースを使用して、ナビゲーション値を有するユーザ選択が音声コンテンツURLにマッピングされる。音声コンテンツが次いで獲得されて、クライアントシステム上で再生される。XML統合によって、コンテンツはメディアプレイヤ内のテキスト内に表示され、ファイルを通してキーストロークまたはクリックを使用して選択されたとき、ウェブ上で再生される。
サンプルRSSフィードファイルの構造が下に提示される:
Figure 2015506000
フィードファイルは複数の<item>タグを有することが可能であることに留意されたい。それぞれの<item>タグは、その項目に関する情報を提供するチャイルドタグを有する。<title>タグは、システムが、ある項目が最後にアクセスされて以来、その項目が変更されているかどうかを判断することを試みるときに、システムが読み取って、使用するタグである。メニューを作成または編集するユーザは、コンテンツタイプのうちの1つとしてRSSを選択するオプションを有する。ユーザがコンテンツタイプとしてRSSを選んだ場合、最終的にメニューコンテンツ作成につながるイベントのシーケンスは、以下の通り、すなわち、メニュー生成、読取り、スクレイピング、フィルタ処理、音声生成、およびXML生成である。
「コンテンツタイプ」フィールドで「RSSフィード」オプションが選択された場合、「メニュー名」フィールド、「フィード位置」フィールド、および「詳細オプション」フィールドが利用可能である。「メニュー名音声」フィールドでブラウズボタンをクリックすることは、ユーザに音声ファイルを選択させるためのダイアログボックスを起動させることができる。「保存」ボタンをクリックすることは、システム内に新しいメニューの詳細を保存することになる。新しいメニューは、それぞれの項目に関する音声を生成するために待ち行列に入ることになる。システムは、メニューに関するTTS変換を開始するスケジューラアプリケーションを実行する。このスケジューラは、フィードファイルのプル(pulling)を開始することも可能である。その後、制御は「リーディングエンジン」に移動することになる。「取消」ボタンをクリックすることは、そのページを終了することになる。スケジューラアプリケーションおよびリーディングエンジンが下で説明される。
本発明に一致する一実施形態では、ナビゲーションポータルは、少なくとも18個のキーを有するキーボードを含むことが可能である。図5に例示されるように、これらのキーは、10個の番号付けされたメニューオプションキーと、4個の方向性矢印キーと、スペースバーと、ホームキーと、音量調整のための2個のキーとを含むことが可能である。音量キーは、左括弧キーおよび右括弧キーであってよい。ナビゲーションシステムは、すべての参加するウェブサイトを通して標準であってよく、キーは以下のように機能しうる:
1から9と番号付けされたキーは関連するメニューオプションを選択する51、
0と番号付けされたキーはヘルプを選択する52、
上向き矢印は前方ナビゲーションを選択する53、
下向き矢印は後方ナビゲーションを選択する54、
右矢印キーは次のメニューオプションを選択する55、
左矢印キーは前のメニューオプションを選択する56、
スペースバーは音声トラックを繰り返す57、
ホームキーはメインメニューを選択する58、
右括弧キーは音声認識可能なウェブサイトの音量を上げる59、
左括弧キーは音声認識可能なウェブサイトの音量を下げる60。
これらのキーは、標準の数字10キーパッドレイアウトを使用して、またはタイプライターキーボードレイアウトもしくは番号電話キーパッドレイアウトなど、代替のレイアウトを使用して、図5に示されるようなクラスタの形で構成可能である。他のタイプのデバイスを使用して、コンピュータナビゲーションに命令することが可能である。例えば、器用でないユーザの場合、音声認識可能なウェブサイトをナビゲートするために、キーボードの代わりにあごスイッチ(chin switch)または息操作チューブを使用することが可能である。
図6は、本発明に一致する一実施形態の構成要素同士の間の対話を例示する。ウェブアプリケーション601は、それを介してユーザが本発明に一致するシステムと対話することができるウェブベースのポータルを提供する。アップロードされた音声ファイル、XMLデータファイル、およびRSSフィードは、ウェブアプリケーション601を経由してサーバ603に提供される。サーバ603は、RSSフィードを読み取るためのリーディングエンジン605と、RSSフィードの読取りをスケジュールするためのスケジューラアプリケーション607と、XMLおよびウェブページソースコードをスクレイピングするためのスクレイピングエンジン609と、スクレイプされたコンテンツをフィルタリングするためのフィルタリングエンジンと、テキストベースのウェブコンテンツを音声コンテンツに変換するためのテキストツースピーチ(TTS)エンジン611とを含む。サーバ603は、音声コンテンツをコンテンツ配信ネットワーク(CDN)613に提供し、コンテンツ配信ネットワーク(CDN)613は、次いで、ウェブアプリケーション601を介してコンテンツをユーザに提供することができる。サーバ603は、記憶および抽出のために、XMLデータファイルをデータベース617にさらに提供する。
リーディングエンジン605は、サーバ603上でスケジューラアプリケーション607によって定期的な間隔で起動する。リーディングエンジン605は、フィードファイルをプルして、そのフィードファイルを解析して、指定されたフィードURIからシンジケート化された項目のリストを組み立てる。フィードファイルがそのURIから初めてプルされるとき、リーディングエンジン605は、そのフィードファイルを検査して、そのファイル内の項目のリストを準備する。これらの項目は、それに関してフィードURIが指定されるメニュー(以下、「ベースメニュー」)に基づいて、サブメニューとして作成される。
このファイルが予め読み取られて、解析されている場合、それぞれの項目(すなわち、<item>タグのコンテンツ)は、ベースメニューに基づいて、それぞれの位置においてサブメニューと比較される。タイトルが整合しない場合、システムは、その項目が変更されていると仮定して、スクレイピングに関する候補として、新しい項目をマーキングすることになり、既存の項目は除去されることになる。一実施形態では、項目は、1つずつこのように比較される。項目が比較されると、このエンジンは制御をスクレイピングエンジン609に引き渡す。
スクレイピングエンジン609は、リーディングエンジン605によってスクレイピングするためにマーキングされた項目のリストを受け入れる。スクレイピングエンジン609は、これらの項目に関するコンテンツページに対する実際のリンク(URL)を1つずつ読み取り、それらのページからコンテンツの実際のフェッチを実行する。このコンテンツは、ページから「その状態のまま」獲得可能である。このコンテンツは、次いで、フィルタリングエンジン615に引き渡される。スクレイピングエンジン609によって引き渡されたコンテンツは未処理のHTMLコンテンツでありうる。未処理のHTMLコンテンツは、多くのクリーンでないHTML要素、スクリプトなどを含む場合がある。これらの要素は、フィルタリングエンジン615によって除去されて、「メニュー」コンテンツテキストとして、メニューシステム内に記憶するのに適した、人間が理解できるテキストコンテンツに行き着く。フィルタリングエンジン615は、これにより、システムのメニュー内に記憶するためにクリーンなコンテンツを出力する。このコンテンツは、次いで、コンテンツテキストとして、システム内でそれぞれのメニューに関して更新される。更新されたこのメニューは(すでにそうでない場合)非活性になり、コンテンツ音声生成のために待ち行列に入れられることになる。
TTSエンジン611によって実行された最近接する音声生成シーケンスでRSSフィードによって更新されているメニュー内の更新されたコンテンツに関して音声が生成される。最終的に、新しいメニュー名、コンテンツ、および音声ファイル名/音声ファイルパスを用いて「XMLデータ」ファイルを生成/更新することができる。これらのXMLファイルは、「メニュー」、「コンテンツ」を表示するために、または「音声」を再生するために、フロントエンドフラッシュアプリケーション(front-end flash application)によって使用可能である。ユーザの訪問時にトーンを活性化する、ウェブサイトが音声認識可能にアクセス可能であることを示すインジケータが元のウェブサイト内に含まれる。トーンを聞くとすぐに、ユーザは自らのキーボード上のキーを押下して、音声認識可能なウェブサイトに入る。元のウェブサイトは、閉じてもよく、または開いた状態のままであってもよい。ユーザは、次いで、キーストロークコマンドシステムを使用して、音声認識可能なウェブサイトをナビゲートすることができる。ユーザのコンピュータにおいて音声インターフェースを介してテキストおよびメニューを描写して、音声認識可能なウェブサイト内の他の音声ウェブファイルを聞くために、どのキーストロークを押下するかを示す音声認識可能なナレーションが再生される。ユーザは、これによって、視覚的な手掛かりなしに、ウェブサイトメニューをナビゲートして、コンテンツを早送りおよび巻き戻し、ウェブサイトからウェブサイトに移動することができる。
図7は、本発明の一実施形態に一致する、XMLフィードを音声に変換するためのある方法を例示する流れ図である。RSS XMLフィードをウェブアプリケーションに入力する(ステップ710)。コンテンツ管理システムによってXML/RSSパスを読み取り、テキストコンテンツをフィードから抽出して、メニュー内に索引付けして、ウェブベースのコンテンツURLと関連付ける(ステップ720)。作成されたそれぞれのメニュー項目に関して、サーバはウェブページと、ソースコードテキスト抽出に関する座標を提供するためのスクレイプ論理との関連性を作成して、テキストを抽出して、テキストをフィルタリングして、ソースコード参照を除去し、次いで、フィルタリングされたテキストをTTSエンジンに転送する(ステップ730)。次いで、TTSエンジンが起動して、CDNに転送される音声ファイルを作成し、ウェブアプリケーションに関するXMLデータをノードとしてデータベース内に記憶する(ステップ740)。
図8は、本発明の一実施形態に一致する、人間対応の、ウェブサイトを音声に変換するためのある方法を例示する流れ図である。まず、何らかのデジタルデバイスまたはデスクトップアプリケーションから人間の音声が記録される(ステップ810)。次いで、ユーザは管理パネルを介してメニューとコンテンツファイルとをアップロードして、コンテンツを.mp3ファイルフォーマットに変換して、索引付けして、意図されるデータベースコンテンツおよびメニューノードと関連付ける(ステップ820)。コンテンツを何らかの既存のまたは将来開発される音声ファイル形式に変換することができることを当業者は理解されよう。結果として生じるコンテンツを、他のユーザに配信するためにCDNに引き渡し、URLおよびテキストベースのラベルとしてデータベースに引き渡し、ナビゲーションのためのXMLデータとしてウェブアプリケーションに引き渡す(ステップ830)。
図9は、本発明の一実施形態に一致する、公開されたウェブサイトを音声に変換するためのある方法を例示する流れ図である。プリセットされたスケジュールでブラウザを通してウェブサイトコンテンツをプルする(ステップ910)。コンテンツ管理システムによってソースコードを読み取り、テキストコンテンツをソースコードから抽出して、メニュー内に索引付けして、ウェブベースのコンテンツURLと関連付ける(ステップ920)。作成されたそれぞれのメニュー項目に関して、サーバは、ウェブページとソースコードテキスト抽出に関する座標を提供するスクレイプ論理との関連性を作成して、テキストを抽出して、テキストをフィルタリングして、ソースコード参照を除去し、次いで、フィルタリングされたテキストをTTSエンジンに転送する(ステップ930)。次いで、TTSエンジンが起動し、CDNに転送される音声ファイルを作成して、ウェブアプリケーションに関するXMLデータをノードとしてデータベース内に記憶する(ステップ940)。
図10は、本発明の一実施形態に一致する、ウェブベースの写真の音声描写を提供するためのある方法を例示する流れ図である。ウェブベースのアプリケーションを介して写真をサーバに保存する(ステップ1010)。次いで、ウェブアプリケーションを介して写真のテキスト記述(text description)をアップロードする(ステップ1020)。あるいは、ユーザは、ウェブアプリケーションを介して、写真の音声描写(voice description)をアップロードすることができる。次いで、写真のテキスト記述をTTSエンジンに送信し、TTSエンジンは、その写真の音声認識可能な描写を作成して、その描写をCDNにアップロードする(ステップ1030)。
図11は、本発明の一実施形態に一致する、公開された対話形式を音声に変換するためのある方法を例示する流れ図である。ウェブアプリケーション内でテキスト入力を使用して既存のウェブベースの形式を再度作成する(ステップ1110)。テキストをTTSエンジンに転送し、TTSエンジンは、ウェブベースの形式で様々なフィールドに関する音声認識可能なプロンプトを作成する(ステップ1120)。エンドユーザは、次いで、この音声認識可能な形式にアクセスして、音声プロンプトに従って、データをそれらのフィールドに入力する(ステップ1130)。
図12は、本発明の一実施形態に一致する、ポッドキャストを索引付するためのある方法を例示する流れ図である。ウェブアプリケーションを介してポッドキャストに関するURLを入力する(ステップ1210)。サーバによってポッドキャストURLパスを読み取り、フィードからテキストメニュー名を作成して、メニュー内に索引付けして、コンテンツURLと関連付ける(ステップ1220)。TTSエンジンが起動して、メニュー項目コンテンツを音声認識可能なコンテンツメニューに変換する(ステップ1230)。次いで、音声認識可能なコンテンツメニューをCDNに引き渡し、ウェブアプリケーションからポッドキャストを指定するためのXMLを作成する(ステップ1240)。
図13は、本発明の一実施形態に一致する、ある例示的なメディアプレイヤを示す。本発明のある実施形態に一致するメディアプレイヤが次に説明される。いずれかの時点で、エンドユーザは、メインメニューに戻るための「ホーム」、ヘルプメニューに関する「#」、現在演奏中(now playing)ビューに関する「N」、検索に関する「S」、選好メニューに関する「P」を押下するオプションを有する。N現在演奏中は、音声制御、再生制御を表示する、選択されたタブである(このサンプルビューは音声トラックが再生されていると仮定するため、再生は強調表示されたオレンジ色である(#FF8737)。再生していない場合、一時停止ボタンが強調表示されるべきである。同様に、矢印キー、すなわち、「右」、「左」、「上」、「下」、または音声制御、すなわち「または」が押下されている場合、このボタンはオレンジを強調表示することが意図される。)。これらの制御の右側は、音声ファイルに関するメタデータを表示する「プレイヤ状況」領域である。再生している場合、「再生」が表示される。他の再生状況は、「バッファリング」、「一時停止」、「停止」を含むべきである。プレイヤは、(可能な場合)音声トラックが再生するビットレートをやはり表示することが可能である。次に、プレイヤは、トラックタイトル名を表示する(これは、所与の数の文字だけを表示すべきであり、トラックのタイトルが最大数の文字を超える場合、タイトルは切り捨てられて、その後に、3つのピリオド(「…」)が続くべきである)。この下に、読み手は、再生されている音声トラックの0から100の値を表示するナビゲーションバーを見ることができる。最後に、読み手は、現在のトラック時間表示、および総音声トラック時間表示を見ることができる。ユーザがプレイヤを終了して、通常のウェブサイトに戻るのを可能にするための(この場合も、押下された場合、強調表示されることになる)Escボタンが提供される。
N現在演奏中タブの下には、簡単なテキストキューを提供する、サウンドメッセージセンタによる「サーフ」が存在しうる。また、エンドユーザが「サブタイトル」をオンにした場合、これは読み取られているテキストが表示されることになる場所である。メッセージセンタの右側は、ナビゲーション選択であってよい。ナビゲーション選択のグレイの領域には、「/それ以上のナビゲーション情報(選択肢の「数」)」テキストが存在しうる。これはユーザがそのナビゲーションの経路をたどるのを助ける。例えば、6個のメニューオプションを有するホームページ上の場合、これは「/ホーム(6個のオプション)」を表示することになる。さらに、エンドユーザが、場合によっては、12個のメニューオプションを有する第5番目のメニューオプション(例えば、ニュース&イベント)を選んだ場合、ナビゲーションリストが更新することになり、テキスト領域は、このとき、「/ニュース&イベント(12個のオプション)」を表示することになる。12個のメニューオプションが存在する場合、「それ以上の選択肢>>」テキストがより広く出現することになり、エンドユーザは、ボタンをクリックすること(この場合も、ボタンをオレンジに強調表示することになる)によって、それらのオプションが何かを見るオプションを有することになる。同様に、何らかの所与のメニューに関して10個を超えるオプションが存在した場合、ナビゲーションリストは、自動的に進み、ナビゲーションボックスの左側の欄に6から10を、右の欄に11から15を表示することになる等々である。
検索ビューは、エンドユーザがデフォルトビュー(上記を参照されたい)内からSを押下したと仮定する。検索の前に、音声メニューは、エンドユーザが、エンドユーザがいる現在のサイトを検索するのを望むか、または、選択された場合、ユーザをサウンドポータルによるサーフに導くことになる「サウンドポータルによるサーフ」を検索するのを望むかを選ぶことを可能にすることができる。選択されると、エンドユーザは、次いで、その検索要求をタイプし始めるために自動的に待ち行列に入れられることになる。「音声キー再生」がオンである場合、読み手は自らのキーストロークを聞くことができる。また、読み手は、「メッセージセンタ」がその読み手が何を行っているかの有用なテキスト記述を表示することを理解することができる(すなわち、その表示は読み取られている一般テキストと一致する)。「/検索(2個のオプション)」テキストも表示されるが、これは読み手が検索タブ上にあり、そこから選ぶために2個のオプションが存在するためである。最後に、「検索メニュー」または「選好メニュー」のいずれかの中で(強調表示されたオレンジをトリガすることになる)「E」を押下することは、そのメニューを終了して、デフォルトビューに戻ることになる。
選好ビューは、ユーザがデフォルトビュー内からPを押下したと仮定する。まず、このタブは、ユーザの機械の帯域幅を表示する。これは、初めにプレイヤを開いたときに実行された、自動的に生成されるテストである。このビュー内から、音声を介して描写されている一般プロセスに関する情報を用いて「メッセージセンタ」が更新され、ナビゲーションオプションはこの選好タブ内からのオプションと一致する。第1のオプションは、「サブタイトル」を「オン」または「オフ」にすることである。オンである場合、メディアプレイヤは、メッセージセンタ表示欄内に読み取られているテキストを表示する。このタブ内の他のオプションは、「スクリーンリーダモード」、「音声キー押下」、および「拡大モード」をオンまたはオフにすることであろう。最後に、デフォルトビューまたは「プレイヤオンリー」を表示するオプションをユーザに与えることも可能である。「プレイヤオンリー」表示は、メッセージセンタおよびナビゲーションオプション欄を取り除く(隠す)ことになる。
本発明に一致するある実施形態は、管理者に第三者サイトを管理させる制御パネルを含むことが可能である。ユーザは、「サイト管理」メニューの下の管理パネル内に「第三者サイトの管理」リンクに対するアクセスを有することが可能である。管理者は、「サイト名」、「サイト連絡先」および「作成日」に関するグリッドをソートすることができる。サイト名をクリックすることは、制御を特定の第三者サイトに関するメニュー管理区分に移動させることができる。制御は、「第三者メニューの管理」に移動する。サイトURLをクリックすることは、そのサイトのホームページを新しいブラウザウィンドウ内に提示させることができる。このページは、第三者サイトに関するメディアプレイヤを表示することが可能である。アイコンをクリックすることは、制御を「第三者サイトの作成」に移動させることができる。「*」の接頭辞が付けられたフィールドが必要とされるフィールドである。ユーザ名および電子メールは、システム内で一意でなければならない。「作成」ボタンをクリックすることは、新しいアカウントを作成する。電子メールを管理者のアカウントに送信することが可能である。次いで、制御は前のページに移動する。「取消」ボタンをクリックすることは、無条件でページを終了する。「戻る」ボタンをクリックすることは、制御を前のページに移動させる。
図14を参照すると、本発明に一致する、先に説明されたような方法を実行するためのコンピューティングシステムとして構成可能な、ある例示的なコンピュータシステムが次に説明される。コンピュータシステム1401は、バス1403、または情報を通信するためのその他の通信機構と、情報を処理するために、バス1403に結合されたプロセッサ1405とを含む。コンピュータシステム1401は、プロセッサ1405によって実行されることになる情報および命令を記憶するためにバス1403に結合された、ランダムアクセスメモリ(RAM)またはその他の動的記憶デバイスなどの、メインメモリ1407をやはり含む。加えて、メインメモリ1407は、プロセッサ1405によって実行されることになる命令を実行する間に、一時的な変数またはその他の中間情報を記憶するために使用可能である。コンピュータシステム1401は、プロセッサ1405に関する静的情報および命令を記憶するためにバス1403に結合された読出し専用メモリ(ROM)1409またはその他の静的記憶デバイスをさらに含む。情報および命令を記憶するために、磁気ディスクまたは光ディスクなど、記憶デバイス1411が提供されて、バス1403に結合される。
一実施形態によれば、プロセッサ1405はメインメモリ1407内に含まれた1つまたは複数の命令の1つまたは複数のシーケンスを実行する。そのような命令は、記憶デバイス1411など、別のコンピュータ可読媒体からメインメモリ1407内に読み取られることが可能である。メインメモリ1407内の命令のシーケンスの実行は、プロセッサ1405に本明細書で説明されるプロセスステップを実行させる。マルチプロセッシング構成の1つまたは複数のプロセッサを用いて、メインメモリ1407内に含まれた命令のシーケンスを実行することも可能である。代替の実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて配線回路を使用することが可能である。したがって、実施形態は、ハードウェア回路とソフトウェアの何らかの特定の組合せに限定されない。
さらに、システム1401のシステムインターフェースおよびプロトコルをサポートするための命令はコンピュータ可読媒体に常駐しうる。「コンピュータ可読媒体」という用語は、本明細書で使用される場合、実行のためにプロセッサ1405に命令を提供することに関与する任意の媒体を指す。一般的な形式のコンピュータ可読媒体は、現在のまたは後に発見される、そこからコンピュータが読み取ることができる、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、CD-ROM、磁気媒体、光媒体もしくは物理媒体、RAM、PROM、およびEPROM、FLASH-EPROM、何らかのその他のメモリチップまたはメモリカートリッジ、あるいは任意のその他の媒体を含む。
コンピュータシステム1401は、バス1403に結合された通信インターフェース1419も含む。通信インターフェース1419は、ローカルネットワーク1423に接続されたネットワークリンク1421に対する双方向データ通信結合を提供する。ワイヤレスリンクを実施することも可能である。何らかのそのような実装では、通信インターフェース1419は、様々なタイプの情報を表すデジタルデータストリームを搬送する信号を送受信する。いくつかのコンピューティングプラットフォームおよび通信プラットフォームを通して、例示される実施形態を利用することが可能である。音声ファイルは任意の数のユーザまたは消費者にとって有用な場合があり、ある特定のグループ、障害のタイプ、または適用可能なユーザに重点が置かれないことに留意することが重要である。詳細には、例示される実施形態は、ワイヤレスネットワークおよびワイヤードネットワーク、ならびに独立型デバイスまたはネットワーク接続されたデバイスを通して有用でありうる。
次に、ある例示的な実施形態による通信環境1500を例示する図15を参照する。通信環境1500は、音声コンテンツを生成、再生、および管理するために利用可能な、任意の数のネットワークと、デバイスと、システムと、装置と、ソフトウェアアプリケーションと、命令とを含む。一実施形態では、通信環境1500は多数のネットワークを含む。例えば、通信環境1500は、クラウドネットワーク1502と、プライベートネットワーク1504と、パブリックネットワーク1506とを含むことが可能である。クラウドネットワークは、当技術分野でよく知られており、任意の数のハードウェア構成要素およびソフトウェア構成要素を含むことが可能である。
加えて、クラウドネットワーク1502は、任意の数の様式でアクセス可能である。例えば、クラウドネットワーク1502は、通信管理システム1508と、サーバ1510および1512と、データベース1514および1516と、セキュリティ1518とを含むことが可能である。クラウドネットワーク1502の構成要素は、元のコンテンツおよび音声ファイルを管理して、任意の数のユーザ、システム、またはその他のネットワークに分配するために利用可能な複数の構成要素を表す。例えば、サーバ1510および1512は、1つまたは複数の分散型ネットワークを表す場合があり、同様に、データベース1514および1516は、クラウドネットワーク1502によって分配および管理可能な任意のタイプのファイル、データ、情報、もしくはその他のコンテンツを記憶するための、別個のまたは統合されたデータベース管理システムおよびリポジトリを表す場合がある。加えて、クラウドネットワーク1502は任意の数のワイヤードデバイスおよびワイヤレスデバイスによって直接アクセス可能である。
セキュリティ1518は、クラウドネットワークを保護する、任意の数のハードウェア構成物またはソフトウェア構成物を表す場合がある。詳細には、セキュリティ1518は、ユーザがクラウドネットワーク1502を介してコンテンツにアクセスするか、または通信することが許可されていることを保証できる。セキュリティ1518は、通信環境のデバイスとクラウドネットワーク1502との間の通信ならびに、またはその通信に加えて、クラウドネットワーク1502が安全であることを確実にするための、任意の数のファイアーウォール、ソフトウェア、セキュリティスイート、遠隔アクセスシステム、ネットワーク標準およびネットワークプロトコル、ならびにネットワークトンネルを含むことが可能である。
通信環境1500のデバイスは、クラウドネットワーク1502、プライベートネットワーク1504、およびパブリックネットワーク1506と通信することができるか、もしくはそれらを介して通信することができる任意の数のデバイス、システム、装置、またはソフトウェアを表す。ハードウェアデバイスおよびソフトウェアの開発形式は、音声ファイルおよびその他の音声コンテンツにアクセスして、これらを管理するために、必要に応じて、これらのネットワークと通信することがやはり可能である。一実施形態では、クラウドネットワーク1502は、セットトップボックス1518、ディスプレイ1520、タブレット1522、ワイヤレスデバイス1524および1526、ラップトップ1528、コンピュータ1530、ならびに全地球測位システム(GPS)1531と通信することができる。タブレット1536は、プライベートネットワーク1504にアクセスすることができる、任意の数のデバイスを表す。
音声ユーザインターフェース1532は、本明細書で説明される、音声コンテンツを管理、生成、および抽出するためのユーザ対話、フィードバック、ならびに命令を可能にするために、コンピュータ1530、またはクラウドネットワーク1502と通信するデバイスのうちのいずれかによって利用可能である。独立型デバイス1534は、ユーザのニーズまたは選択に基づいて、ネットワークに選択的に接続するためにすべての通信ネットワークから接続解除されうるデバイスを表す。通信環境1500の成分は、一緒にまたは別々に、音声ファイル、音声ファイルの索引、ならびに、音声ファイル(および、必要に応じて、対応する元のファイル)に関するポインタ、リンク、もしくは識別子を記憶するための分散型ネットワークあるいはピアツーピアネットワークとして機能することも可能である。
プライベートネットワーク1504は、公衆にとって完全にアクセス可能でない民間のエンティティ、企業、個人、政府またはグループによって所有あるいは運営された1つもしくは複数のネットワークを表す。例えば、プライベートネットワーク1504は、下院議員、上院議員、州知事の事務所のプライベートネットワークなど、選択的なコンテンツをユーザに分配できる政府ネットワークを表す場合がある。プライベートネットワーク1504は、あるいは、従業員、クライアント、および消費者に利用可能にされたコンテンツに関する準拠法ならびに規則に準拠することを目指す企業ネットワークであってもよい。例えば、連邦要件は、一般的な従業員情報が音声認識可能である他にテキストで利用可能にされることを規定する場合がある。
パブリックネットワーク1506は、全体として、ネットワークなど、一般に、公衆専用の、または公衆にとって利用可能な、任意の数のネットワークを表す。当技術分野で知られているように、パブリックネットワーク1506は、コンピュータ1538など、任意の数のデバイスに利用可能でありうる。通信環境1500は、音声ファイルに変換するために、どのように元のファイルが抽出され、任意の数のネットワークおよびシステムを介して、音声ファイルを必要とするユーザ、または音声ファイルを利用することが可能なユーザに分配されうるかを例示する。
一実施形態では、デバイスは、ホームネットワークを通してコンテンツを交換することができる。一実施形態では、音声コンテンツを、ラップトップ1528を利用して生成および変換し、次いで、その後で、ワイヤレスデバイス1524、GPS1531、およびコンピュータ1530に分配することができる。あるいは、ユーザは、その音声コンテンツを記録するのを望む友人または家族のネットワークを利用して、その音声コンテンツに変換するために元のコンテンツを分配することができる。結果として、音声コンテンツの生成は、テキストコンテンツおよびグラフィカルコンテンツを介して通信するユーザにとって利用可能な同じソーシャルシステムならびにネットワークから恩恵を受けることができる。
一例では、ユーザは、自動的に、または家族の一員、友人、有給トランスクリプショニスト(transcriptionist)、もしくはその他の当事者によって、コンテンツが転写および描写される要求を送信することができる。次に、ボランティアもしくは選択された当事者は、リンクを選択すること、ファイルを開くこと、またはそうでない場合、コンテンツにアクセスすることによって、そのコンテンツを抽出する。そのコンテンツは、次いで、ユーザによって使用されるために、本明細書で説明されるように、音声コンテンツに転写される。音声認識可能なコンテンツは、次いで、共有、お気に入り、転送、通信などの特徴を使用して、任意のユーザのために、ソーシャルネットワークを介して分配可能である。一例では、家族の他の構成員が運転中または視覚的表示から離れている間に家族の手紙を聞くことができるように、その手紙を転写して共有することができる。
次に、ある例示的な実施形態によるユーザ環境1600を例示する図16を参照する。図16は、図15から選択的に組み合わされる、パブリックネットワーク1606と、セットトップボックス1618と、ディスプレイ1620と、コンピュータ1630とをさらに説明する。ユーザ環境1600を利用して、元のファイル、変換されたファイル、音声ファイル、またはユーザ環境1600のその他の典型的な通信を表すコンテンツ1602を送受信することができる。
一実施形態では、例示される実施形態を利用して、音声、ビデオ、またはセットトップボックス1618に分配されたメディアコンテンツ用のエンハンスドクローズドキャプション(enhanced closed captioning)用に利用可能なコンテンツ1602を分配することが可能である。セットトップボックス1618は、データ、情報、およびメディアコンテンツを管理、記憶、ならびに通信するために、個人ユーザもしくは通信サービスプロバイダによって利用されるか、またはそれらによって利用可能な、任意の数のデジタルビデオレコーダ、パーソナルビデオレコーダ、ゲームシステム、あるいはその他のネットワークボックスを表す場合がある。知られているメディアアプリケーションおよび機能性に加えて、セットトップボックス1618を利用して、インターネットをブラウズすること、ソーシャルネットワーキングアプリケーションを利用すること、またはそうでない場合、音声コンテンツに変換されうるテキストおよびグラフィックコンテンツを表示することも可能である。
一実施形態では、セットトップボックス1618を利用して、コンテンツ1602をリアルタイムでストリームすることが可能である。リアルタイムコンテンツは、ユーザによってアクセスするために、音声コンテンツに変換される必要がありうる元のファイルを含むことが可能である。コンテンツ1602は、ディスプレイ1620、またはセットトップボックス1618もしくはホームネットワークと通信する任意の数の他のデバイスに表示可能である。例えば、セットトップボックス1618、コンピュータ1630、ならびにその他のコンピューティングデバイスおよび通信デバイスは、ホームネットワークを介して互いと通信することができる。ホームネットワークは、ケーブル接続、光ファイバ接続、DSL線、衛星、インターフェース、または任意の数のその他のリンク、接続、もしくはインターフェースなど、ネットワーク接続を介して、パブリックネットワーク1606と通信することができる。
次に、ある例示的な実施形態によるコンピューティングシステム1700を例示する図17を参照する。コンピューティングシステム1700は、図15の通信環境1500の任意の数の商用デバイスまたはユーザデバイスを例示する。コンピューティングシステム1700は、元のファイル、抽出されたネットワークコンテンツ、およびコンピューティングシステム1700から送受信される音声ファイルを表すネットワークコンテンツ1702を送受信することができる。コンピューティングシステム1700は、ソーシャルネットワークウェブサイト1704を含めて、1つまたは複数のソーシャルネットワークウェブサイトと通信することも可能である。ソーシャルネットワークウェブサイト1704は、コンピューティングシステム1700が通信することが可能な1つもしくは複数のソーシャルネットワーキング、アプリケーション、あるいは電子メールまたは協調ウェブサイトを表す。
一実施形態では、ネットワークコンテンツ1702は、検索結果と、検索エンジンによって実行されるランク付けとを表す。ネットワークコンテンツ1702は、音声コンテンツに変換される検索結果およびランク付けでありうる。例えば、検索結果が要求されると、自動テキスト変換を実行することが可能である。あるいは、評判のよい検索が、それらの検索結果のそれぞれとの関連性に関して、日々変換されて、人間によって読み取られることも可能である。
別の実施形態では、ネットワークコンテンツ1702は、電子クーポンもしくは販売促進提供、電子商取引ウェブサイト、あるいは全地球測位情報またはナビゲーション情報である。例えば、コンテンツ生成器は、追加の消費者に影響が及ぶように、音声コンテンツを電子クーポンと関連付けることができる。電子クーポンは、テキストおよびグラフィックスベースとしてだけ提供されてよく、または電子クーポンに関して音声コンテンツとグループ化されてもよい。別の例では、ナビゲーション命令(すなわち、地点Aから地点Bまでの運転指示)を、個々の成分または命令と関連付けられた1つもしくは複数の音声ファイルに変換することが可能である。メディアプロバイダ、通信サービスプロバイダ、広告主などは、音声コンテンツを利用可能にすることによって、彼らがより多様性のあるクライアント、消費者、および当事者を引き付けることができることを見出すことができる。
一実施形態では、音声コンテンツを生成するために、コンピューティングシステム1700の音声インターフェース1704を利用することが可能である。元のコンテンツの一部を話すか、または転写して、生成された音声ファイルを元のコンテンツの選択された部分と関連付けることを望むユーザ。一実施形態では、この変換をグラフィックな方法で実行することが可能である。例えば、ユーザは、マウスおよびマウスポインタを利用して、指定された部分の上に移動させることが可能であり、次いで、指定された部分を有する音声コンテンツを記録するためのボタンを選択することが可能である。加えて、音声コンテンツを生成して、その音声コンテンツを元のコンテンツの対応する部分と関連付けるために、説明されるナビゲーションシステムおよびインターフェースを利用することも可能である。
ユーザが話されたコンテンツを元のコンテンツの指定された部分と関連付ける前に、元のコンテンツは、前に説明されたように、階層的フォーマットに自動的に変換されていることが可能である。あるいは、ユーザは、コンテンツの音声コンテンツへの変換を実行する前に、階層的フォーマット設定をグラフィックな方法で準備することが可能である。それぞれの検索結果をユーザによって強調表示することが可能であり、強調表示されると、記録するための音声コマンドまたはキーボードの選択は、ユーザが強調表示されたコンテンツを話すのをマイクロフォンが記録するのを可能にできる。一実施形態では、このシステムは、ユーザによる選択および変換記録のために、ウェブサイト、検索結果、文書、またはファイルの一部もしくはコンテンツを自動的に選択あるいはグループ化することが可能である。
コンピューティングシステム1700は、任意の数のハードウェア構成要素およびソフトウェア構成要素を含むことが可能である。一実施形態では、コンピューティングシステム1700は、プロセッサ1706と、メモリ1708と、ネットワークインターフェース1710と、音声論理部1712と、音声インターフェース1714と、ユーザ選好1716と、アーカイブ保管されたコンテンツ1718とを含む。
プロセッサは、命令のセットの実行を制御することが可能にされた回路または論理である。プロセッサは、1つもしくは複数のハードウェア要素およびソフトウェア要素を含めて、電子デバイスを制御して、ソフトウェア、命令、プログラム、およびアプリケーションを実行して、信号および情報を変換ならびに処理して、その他の関係するタスクを実行するのに適したマイクロプロセッサ、デジタル信号プロセッサ、特定用途向け集積回路(ASIC)、中央処理装置、またはその他のデバイスであってよい。プロセッサは、単一チップであってよく、または他のコンピューティング要素もしくは通信要素と統合されてもよい。
メモリは、その後、後の時点で抽出もしくはアクセスするために、データを記憶するように構成されたハードウェア要素、デバイス、または記録媒体である。メモリは、静的メモリであってよく、または動的メモリであってもよい。メモリは、データ、命令、および情報の記憶装置として適したハードディスク、ランダムアクセスメモリ、キャッシュ、取外し可能メディアドライブ、大容量記憶装置、または構成を含むことが可能である。一実施形態では、メモリおよびプロセッサを統合することが可能である。メモリは、任意のタイプの揮発性または不揮発性の記憶技法および記憶媒体を使用することが可能である。
音声論理部1712を利用して、本明細書で説明されるように、元のファイルからの音声ファイルの変換および管理を実行することが可能である。一実施形態では、音声論理部1712は、拡張された特徴および改善された音声コンテンツ生成機能を提供するために、周期的に更新可能なフィールドプログラマブルゲートアレイ、ブール論理、ファームウェア、またはその他の命令を含む。ユーザ選好1716は、音声論理部1712、および、加えて、コンピューティングシステム1700の機能性と動作とを管理するために、ユーザから受信される設定ならびに選択である。
一実施形態では、ユーザ選好1716をメモリ1708内に記憶することが可能である。アーカイブ保管されたコンテンツ1718は、コンピューティングシステム1700によって予め抽出された、または生成された音声コンテンツを表す場合がある。アーカイブ保管されたコンテンツ1718は、コンピューティングシステム1700のユーザによって後で使用するために記憶可能であり、加えて、コンピューティングシステム1700が分散型ネットワークの一部として機能できるように、コンピューティングシステム1700と通信する1つもしくは複数のデバイスまたはシステムあるいは接続によってアクセス可能である。結果として、ネットワークリソースを任意の数のデバイス間で共有することが可能である。アーカイブ保管されたコンテンツ1718は、コンピューティングシステム1700のメモリ1708あるいはその他のメモリシステムまたは記憶システムのうちの1つもしくは複数を表す場合がある。
アーカイブ保管されたコンテンツ1718は、コンピューティングシステム1700にダウンロードされたコンテンツを記憶することができる。アーカイブ保管されたコンテンツ1718は、コンピューティングシステム1700上で生成されたコンテンツを記憶することもできる。一実施形態では、選択されたとき、ユーザによって消費するために、フィード、ポッドキャスト、または自動的に抽出されたメディアコンテンツをアーカイブ保管されたコンテンツ1718に記憶することが可能である。
一実施形態では、コンピューティングシステム1700は、音声ファイルを生成して、利用可能にするために、ソーシャルネットワークウェブサイト1704と対話する。例えば、ユーザのホームページまたはウォールは、典型的には、テキスト、写真、およびビデオコンテンツすら含む場合がある。コンピューティングシステム1700およびソーシャルネットワークウェブサイト1704は、ソーシャルネットワークウェブサイト1704上のユーザのコンテンツのすべて、ならびにユーザによって抽出されたコンテンツが音声形式で利用可能であることを確実にするために通信することができる。例えば、ソーシャルネットワークウェブサイト1704は、従来の視覚ベースの取引の代わりに、コンテンツをブラウズすることまたは聞くことを好む個人用の音声コンテンツを含むウェブサイトのミラーイメージを作成することができる。一例では、ユーザは、運転中である場合があり、特定の掲示に対する意見を読むのではなく、それを聞くことを選択する場合がある。結果として、音声ファイルは、コンピューティングシステム1700の音声インターフェース1714の一部でありうるスピーカを介してユーザに再生するために、ソーシャルネットワークウェブサイト1704またはコンピューティングシステム1700のいずれかによって変換可能である。
別の実施形態では、ユーザは、コンテンツをソーシャルネットワーク、ブログ、または簡易ブログサイトに音声認識可能に掲示することを選択することができる。例えば、ユーザは、ワイヤレスデバイスを介して受信された音声コマンドを利用して、ソーシャルネットワーキングサイトをナビゲートして、意見を残すことができる。一実施形態では、ワイヤレスデバイスによって実行される専用アプリケーションは、掲示のためにユーザ音声を受信して、掲示を作成するために、ユーザの音声の自動的に合成されたバージョンまたはデフォルト音声を生成するように構成可能である。意見は、サイトをナビゲートすることを好む、ソーシャルネットワークのユーザ用にテキストに変換されることも可能である。本明細書で説明される専用キー割当てを利用して、ソーシャルネットワーキングサイトからのコンテンツを管理、生成、および抽出するために必要とされるコマンドまたは命令を提供することができる。生成当事者、または掲示当事者の声のように聞こえる音声コンテンツにアクセスすることが可能であることによって、ソーシャルネットワークの効果を拡張することが可能である。
音声システム管理を利用して、旧来のテキストおよび画像ベースのユーザインターフェースを介して利用可能な機能性、特徴、およびコンテンツのすべてにアクセスすることが可能である。一実施形態では、ユーザは、家族の構成員、友人、または有給トランスクリプショニストに対してコンテンツをはっきりさせ(parse out)、ユーザによって提出された音声コンテンツからテキストコンテンツを作成することができる。音声コンテンツが生成されると、その音声コンテンツを索引付けして、クラウドネットワーク、分散型ネットワーク、またはピアツーピアネットワークを介して分配することが可能である。一実施形態では、中央データベースシステムまたは通信管理システムは、知られている識別子または割り当てられた識別子を関連付けることによって、音声コンテンツに変換されている元のコンテンツを識別することができる。例えば、識別子は、通信サービスプロバイダ、コンテンツへの音声アクセスを奨励する非営利団体、または政府機関によって管理されたクラウドベースのサーバおよびデータベースシステムにアップロードされる元のコンテンツのデジタル署名またはフィンガープリントであってよい。受信された識別子は、同期して更新されている利用可能なコンテンツに対する更新を伴って、集中的にまたは分散して記憶可能な索引内にアーカイブ保管される。コンテンツ、関連する識別子、リンク、元のコンテンツ、および音声コンテンツを追跡ならびに更新するための任意の数のデータベース、表、索引、またはシステムを利用することが可能である。
次に、音声コンテンツを中央位置にアップロードすることができる。あるいは、分配されたコンテンツに対するリンクを、分散型サーバ、パーソナルコンピューティングデバイスまたは通信デバイス、ネットワークまたはネットワークリソースから抽出するために保存することが可能である。集中型モデルまたは分散型モデルを利用して、コンテンツに関する要求を経路付けて、満たすことが可能である。
次に図18のプロセスを参照すると、図18は、元のコンテンツの音声変換を実行するために動作可能なコンピューティングデバイスまたは通信デバイスによって実施可能である。図18のプロセスは、電子デバイスによって催促されたユーザ対話またはフィードバックの有無にかかわらず実行可能である。このプロセスは、ユーザがコンテンツを音声認識可能に抽出するのを試みることから開始できる(ステップ1802)。一実施形態では、コンテンツは、ユーザが利用しているまたは精査しているソーシャルネットワークからでありうる。別の実施形態では、コンテンツは電子書籍リーダまたはウェブパッド(すなわち、iPad)を介して利用可能である。
次に、システムは、コンテンツが音声認識可能に利用可能であるかどうかを判断する(ステップ1804)。コンテンツが音声認識可能に利用可能である場合、システムは音声コンテンツをユーザに再生する(ステップ1806)。システムは、アーカイブ保管されたコンテンツ、データベース、メモリ、ケーブル、ウェブサイト、リンク、およびその他のインジケータまたは記憶位置を検索することによって、コンテンツが音声認識可能に利用可能であるかどうかを判断することができる。システムが、ステップ1804の間にコンテンツが音声認識可能に利用可能でないと判断した場合、システムは、自動音声または人間の音声を利用するかどうかを判断することができる(ステップ1808)。ステップ1808の判断は、事前に確立されたユーザ選好に基づいて実行可能である。
別の実施形態では、ステップ1802など、音声コンテンツの選択時に、ユーザは自らが人間の音声でそのコンテンツを聞くことを望むか、または自動音声でそのコンテンツを聞くことを望むかを示すことができる。場合によっては、異なるユーザは、必要とされる変換時間、その音声の理解し易さ、およびその他の類似の選好または特性に基づいて、自動音声を好む場合、または人間の音声を好む場合がある。システムがステップ1808の間に自動音声を利用することを判断した場合、システムは、コンテンツの音声コンテンツへの自動変換を実行する(ステップ1810)。この変換プロセスは、先に説明されており、ユーザが即時に利用するために可能な限り早く実施されうる。
次に、システムは、音声コンテンツをユーザに引き続き再生する(ステップ1806)前に、変換された音声コンテンツを他のユーザのためにアーカイブ保管する(ステップ1812)。変換された音声コンテンツを他のユーザのためにアーカイブ保管することによって、音声処理リソースが保存され、あるユーザによって抽出されることが可能な音声コンテンツは、その後、そのコンテンツを抽出することを選択する任意の数の他のユーザによってより容易に抽出される。結果として、ユーザに対して音声コンテンツをより迅速に再生することができ、変換されたコンテンツを別個のシステム、デバイス、およびソフトウェアの間で通信できる限り、変換プロセスを冗長的に実行する必要はない。
システムがステップ1808で人間の音声を利用することを判断した場合、システムは、変換のために、コンテンツを指定された当事者に送信する(ステップ1814)。指定された当事者は、1人もしくは複数の請負業者またはボランティア、声を出してそのコンテンツを読み取るために個人を利用する変換センタあるいはその他のリソースもしくはプロセスであってよい。次に、システムは、変換された音声コンテンツを他のユーザのためにアーカイブ保管して(ステップ1812)、音声コンテンツをユーザに再生して(ステップ1806)、その後、プロセスを終了する。
次に、図19のプロセスを参照する。図19のプロセスは、音声変換が可能にされたコンピューティングデバイスもしくは通信デバイスによって、または本明細書で説明される他の電子デバイスによって同様に実行可能である。プロセスは、音声コンテンツに関するユーザ選好の選択を受信すること(ステップ1902)によって開始できる。ユーザ選好は、音声コンテンツの生成もしくは再生に関する任意の数の特性、要因、条件、または設定を含むことが可能である。例えば、ユーザは、非常にゆっくりと話す場合があり、ユーザ生成音声が利用されるとき、最高で通常速度の1.5倍まで加速することを好む場合がある。他の実施形態では、ユーザは、自らの声が認識可能でないことを望む場合があり、その結果、ユーザ音声が認識可能でないことを確実にするために、高さ、音量、速度、またはその他の要因などの特性を指定することができる。
次に、システムは音声サンプルが提供されることになるかどうかを判断する(ステップ1904)。システムは、ステップ1904の判断を下すために、ユーザと対話することができる。システムがステップ1904で音声サンプルが提供されることになると判断した場合、システムはユーザ生成音声またはその他の音声サンプルを受信する(ステップ1906)。一実施形態では、システムは、指定された文、段落、または特定のコンテンツを話すようにユーザに催促することができる。結果として、システムは、音声コンテンツを生成するための音声サンプルの音声特性を解析することができる。次に、システムはユーザ生成音声を合成することができる(ステップ1908)。ステップ1908の間、システムは、必要とされるすべての処理を完了して、ソーシャルネットワーキング掲載、全地球測位システム、ワイヤレスデバイスを介した通信、およびユーザによって生成された、またはユーザに関連するその他の音声コンテンツに関して利用可能なユーザ音声の合成された均等物あるいは近似を生成する。
次に、システムは、ユーザ合成音声を調整するかどうかを判断する(ステップ1910)。音声サンプルおよび合成されたユーザ音声が十分類似していないという判断に基づいて、またはユーザフィードバックに基づいて、調整が発生しうる。例えば、ユーザは、その音声が提供された音声サンプルにあまりにも類似しすぎているか、または十分類似していないことを単に判断することができ、結果として、ユーザはカスタマイズされたフィードバックまたは調整を合成された音声に提供することができる。次に、システムがステップ1910でユーザ合成音声を調整しないことを判断した場合、システムは、ユーザ選好に従って、音声コンテンツに関するユーザ合成音声を利用する(ステップ1912)。
システムがステップ1910でユーザ合成音声を調整することを判断した場合、システムは、高さおよび声音、音声速度、ならびに他の音声特性を調整するためのユーザ入力を受信する(ステップ1914)。ユーザが音声の音および特性に満足するまで、ステップ1914の調整を実行することが可能である。例えば、ユーザは、自らが合成音声の音および音声特徴に満足することを確実にするために、音声コンテンツに変換されて、ユーザ合成音声で再生された文またはテキスト入力を選択することができる。システムがステップ1904で音声サンプルが提供されないことを判断した場合、システムは、ユーザ選択に基づいて、自動的に生成された音声を提供することができる(ステップ1916)。例えば、開始点として、男性の声または女性の声を選択するようにユーザに催促することができる。システムは、次いで、ステップ1914で、高さおよび声音、音声速度、ならびにその他の音声特性を調整するためのユーザ入力を受信することが可能である。
次に、システムは、ユーザ選好に従って、音声コンテンツに関してユーザ合成音声を利用する(ステップ1912)。結果として、図19のプロセスの間に、ユーザは、開始点として、自らの声を利用することを選択することができるか、またはユーザと関連付けられることになる音声を生成する目的で調整するためのコンピュータ生成音声もしくは自動音声を利用することができる。一実施形態では、ユーザ選好は、特定のウェブサイト、プロフィール、または図19のプロセスの間に生成された1つもしくは複数の音声を利用できる、その他の設定を示すことができる。
次に図20を参照すると、図20は、音声ユーザインターフェース2000の一実施形態を例示する。一実施形態では、本明細書で説明されるプロセスのうちのいずれかとともに、音声ユーザインターフェースを利用することが可能である。例えば、音声ユーザインターフェース2000は、音声を生成または調整するために、図19のプロセスとともに利用可能である。一実施形態では、音声ユーザインターフェース2000は、ユーザ入力を提供して、選択を行うための、任意の数の選択要素またはインジケータを含むことが可能である。
一実施形態では、ユーザは、情報が他のユーザインターフェース2000を介してアクセス可能であることを確保するために、ユーザ名およびパスワードを提供することが要求されてもよい。ユーザは、音声ユーザインターフェース2000を利用して、ユーザ選好を選択し編集することができる。ユーザ選好は、セクション2002に示されるように、任意の数のデバイスに関して指定可能である。例えば、音声ユーザインターフェース2000を利用して、それを用いてユーザが音声コンテンツを生成することまたは抽出することができるパーソナルコンピュータ、携帯電話、GPS、セットトップボックス、ユーザ名に関連するソーシャルネットワーキングサイト、ウェブパッド、電子書籍リーダ、またはその他の電子デバイスに関して利用されるユーザ選好および音声を調整することができる。
セクション2004を利用して、図19において先に説明されたような、デフォルトユーザ音声またはユーザ合成音声を生成することができる。音声ユーザインターフェース2000を利用して、異なるデバイスまたはアプリケーションを用いて利用される、任意の数の異なる音声を作成することができる。例えば、ユーザは、仕事アプリケーションに関して、ある音声を利用し、ソーシャルアプリケーションに関して、もう1つの音声を利用することができる。それぞれの音声の適切性または選択は、その独自の選好に基づいて、ユーザに委ねられてよい。
セクション2006で、ユーザは、異なるデバイスおよびアプリケーションによって使用するためにユーザによって提供される入力に基づいて、自動的に生成または合成されている、任意の数の音声から選択することができる。一実施形態では、音声ユーザインターフェース2000は、いくつかの異なるデバイスまたはユーザに関して単一の個人もしくは管理者によって利用または管理されることが可能である。例えば、親は、その子どもたちのデバイスのそれぞれに関して利用される音声を指定すること、およびそれらの音声がどのように、いつ利用されるかを指定することができる。例えば、それらのメッセージがより現実的に思われ、場合によっては、子どもたちにとってより理解可能であるようにすら思われるようにするために、親からテキストを読み取るプログラムは、親の音声を利用してそれらのテキストメッセージを再生することができる。
本発明に一致する実施形態が例示および説明されているが、本発明の真の範囲から逸脱せずに、様々な変更および修正を行うことが可能であり、その要素に関して均等物を置換することができることを当業者は理解されよう。したがって、本発明は、開示された特定の実施形態に限定されないことが意図される。
21 コンピュータ
22 コンピュータ
23 コンピュータ
24 コンピュータ
25 サーバ
26 独立型音声インターフェース
30 ホームページ
31 テキストコンテンツ
32 メニューオプション
33 メニューオプション
34 メニューオプション
35 メニューオプション
36 メニューオプション
40 元のウェブサイト
42 ファイル
43 ファイル
44 ファイル
51 1から9と番号付けされたキー
52 0と番号付けされたキー
53 上向き矢印
54 下向き矢印
56 右矢印キー
57 スペースバー
58 ホームキー
59 右括弧キー
60 左括弧キー
601 ウェブアプリケーション
602 サーバ
605 リーディングエンジン
607 スケジューラアプリケーション
609 スクレイピングエンジン
611 テキストツースピーチ(TTS)エンジン
613 コンテンツ配信ネットワーク(CDN)
615 フィルタリングエンジン
617 データベース
1401 コンピュータシステム、システム
1403 バス
1405 プロセッサ
1407 メインメモリ
1409 読出し専用メモリ(ROM)
1411 記憶デバイス
1419 通信インターフェース
1421 ネットワークリンク
1500 通信環境
1502 クラウドネットワーク
1504 プライベートネットワーク
1506 パブリックネットワーク
1508 通信管理システム
1510 サーバ
1512 サーバ
1514 データベース
1516 データベース
1518 セキュリティ、セットトップボックス
1520 ディスプレイ
1522 タブレット
1524 ワイヤレスデバイス
1526 ワイヤレスデバイス
1528 ラップトップ
1530 コンピュータ
1531 全地球測位システム(GPS)
1532 音声ユーザインターフェース
1534 独立型デバイス
1536 タブレット
1600 ユーザ環境
1602 コンテンツ
1606 パブリックネットワーク
1618 セットトップボックス
1620 ディスプレイ
1630 コンピュータ
1700 コンピューティングシステム
1702 ネットワークコンテンツ
1704 ソーシャルネットワークウェブサイト
1706 プロセッサ
1708 メモリ
1710 ネットワークインターフェース
1712 音声論理部
1714 音声インターフェース
1716 ユーザ選好
1718 アーカイブ保管されたコンテンツ
2000 音声ユーザインターフェース、他のユーザインターフェース
2002 セクション
2004 セクション
2006 セクション

Claims (40)

  1. 音声コンテンツを分配するための方法であって、
    ユーザが元のコンテンツが音声コンテンツに変換されるのを望むことを示す、前記元のコンテンツのユーザ選択を受信するステップと、
    前記元のコンテンツを前記音声コンテンツに変換するステップと、
    識別子を前記元のコンテンツおよび前記音声コンテンツと関連付けるステップと、
    前記元のコンテンツを聞くことを選択する、1人または複数のユーザによってアクセスするために、前記識別子と、前記関連付けられた音声コンテンツとをネットワークデバイス内に記憶するステップと
    を含む方法。
  2. 複数の元のファイルから変換された複数の音声ファイルのそれぞれと関連付けられた識別子を索引付けするステップをさらに含み、索引がネットワーク接続を介して複数のユーザに利用可能な、請求項1に記載の方法。
  3. 識別子を前記索引付けするステップに応答して、前記索引を複数の複数のネットワークアクセスポイントに分配するステップをさらに含む、請求項2に記載の方法。
  4. 前記変換するステップが、前記元のコンテンツをトランスクリプショニストに送信して、前記元のコンテンツから前記音声コンテンツを生成するステップを含む、請求項1に記載の方法。
  5. 前記トランスクリプショニストが家族または友人である、請求項4に記載の方法。
  6. 前記元のコンテンツに関するユーザ選択を二次ユーザから受信するステップと、
    前記ユーザ選択を前記受信するステップに応答して、索引にアクセスして、前記元のコンテンツおよび前記音声コンテンツと関連付けられた前記識別子を判断するステップと、
    前記二次ユーザに再生するために、前記識別子と関連付けられた前記音声コンテンツを抽出するステップと
    をさらに含む、請求項1に記載の方法。
  7. 複数の識別子を複数の音声ファイルと関連付ける索引が、ユーザによる分散型アクセスのために複数の位置内に記憶される、請求項1に記載の方法。
  8. 前記複数の識別子のそれぞれを前記複数の音声ファイルと関連付ける前記索引がクラウドネットワーク内に記憶される、請求項7に記載の方法。
  9. 音声コンテンツの分配を実行するためのシステムであって、
    クラウドネットワークと通信することが可能にされた複数のユーザデバイスであって、前記複数のユーザデバイスのうちの1つが、ユーザが元のコンテンツが音声コンテンツに変換されるのを望むことを示す、前記元のコンテンツのユーザ選択を受信し、前記複数のユーザデバイスのうちの前記1つが、前記元のコンテンツの前記音声コンテンツへの変換を管理する、複数のユーザデバイスを含み、
    前記クラウドネットワークが、識別子を前記元のコンテンツおよび前記音声コンテンツと関連付けるように動作可能であり、前記元のコンテンツを聞くことを選択する、1人または複数のユーザによってアクセスするために、前記識別子と、関連する音声コンテンツとを記憶する
    システム。
  10. 前記複数のユーザデバイスが自動テキストツーボイス変換を実行して、前記音声コンテンツを生成する、請求項9に記載のシステム。
  11. 前記複数のユーザデバイスが前記元のコンテンツを指定された当事者に送信して、前記元のコンテンツを前記音声コンテンツに変換する、請求項9に記載のシステム。
  12. 前記指定された当事者が、前記元のコンテンツの階層を利用して前記音声コンテンツを生成するために人間の音声を利用する、請求項11に記載のシステム。
  13. 前記クラウドネットワークが、複数の識別子のそれぞれを複数の元のファイルから変換された複数の音声ファイルのそれぞれと関連付ける索引を記憶し、前記索引がネットワーク接続を介して前記複数のユーザデバイスに利用可能な、請求項9に記載のシステム。
  14. 前記音声コンテンツが前記複数のユーザデバイスのうちの1つによって抽出される、請求項9に記載のシステム。
  15. 命令のセットを実行するためのプロセッサと、
    命令の前記セットを記憶するためのメモリとを含み、命令の前記セットが、
    ユーザが元のコンテンツが音声コンテンツに変換されるのを望むことを示す、前記元のコンテンツのユーザ選択を受信し、
    前記元のコンテンツを前記音声コンテンツに変換し、
    識別子を前記元のコンテンツおよび前記音声コンテンツと関連付け、
    前記元のコンテンツを聞くことを選択する、1人または複数のユーザによってアクセスするために、前記識別子と、前記関連付けられた音声コンテンツとを記憶する
    ために、前記プロセッサによって実行される
    ネットワークデバイス。
  16. 命令の前記セットが、複数の元のファイルから変換された複数の音声ファイルのそれぞれと関連付けられた識別子を索引付けするためにさらに実行され、索引がネットワーク接続を介して複数のユーザに利用可能な、請求項15に記載のネットワークデバイス。
  17. 命令の前記セットが、識別子を索引付けすることに応答して、索引を複数のネットワークアクセスポイントに分配するためにさらに実行される、請求項15に記載のネットワークデバイス。
  18. 命令の前記セットが、前記元のコンテンツをトランスクリプショニストに送信し、前記元のコンテンツから前記音声コンテンツを生成するためにさらに実行される、請求項15に記載のネットワークデバイス。
  19. 命令の前記セットが、
    前記元のコンテンツに関するユーザ選択を二次ユーザから受信し、
    前記ユーザ選択を前記受信することに応答し、索引にアクセスし、前記元のコンテンツおよび前記音声コンテンツと関連付けられた前記識別子を判断し、
    前記二次ユーザに再生するために、前記識別子と関連付けられた前記音声コンテンツを抽出する
    ためにさらに実行される、請求項18に記載のネットワークデバイス。
  20. 複数の識別子を複数の音声ファイルと関連付ける索引が、ユーザによる分散型アクセスのために複数の位置内に記憶される、請求項15に記載のネットワークデバイス。
  21. ソーシャルネットワーキングに関する音声コンテンツを提供する方法であって、
    音声を選択するようにユーザに催促するステップと、
    ユーザ入力に応答して、音声の高さ、音声速度、および前記音声の音量を調整するステップと、
    ユーザ選好に応答して、前記音声を含む、1つまたは複数の音声を、前記ユーザによって生成されたソーシャルネットワーキングコンテンツと関連付けるステップと、
    前記ソーシャルネットワーキングコンテンツの選択に応答して、前記音声を利用して、前記ソーシャルネットワーキングコンテンツを音声認識可能に通信するステップと
    を含む方法。
  22. 前記音声が自動音声または合成音声を含む、請求項21に記載の方法。
  23. 音声サンプルを記録するステップと、
    前記音声サンプルを利用して、前記合成音声を生成して、前記ユーザの前記音声サンプルを近似させるステップと、
    前記音声として前記合成音声を利用するステップと
    をさらに含む、請求項22に記載の方法。
  24. 前記催促するステップが、前記ユーザ選好に従って、複数のソーシャルネットワークのそれぞれと関連付けるための複数の音声を生成するステップをさらに含む、請求項21に記載の方法。
  25. 音声高さに対する前記調整が声音を含む、請求項21に記載の方法。
  26. 前記ソーシャルネットワーキングコンテンツが前記ユーザによってオンラインで出された意見を含む、請求項21に記載の方法。
  27. 音声認識可能に前記通信するステップが、前記ソーシャルネットワーキングコンテンツを前記ソーシャルネットワーキングコンテンツにアクセスする複数のユーザのうちのいずれかに再生するステップを含む、請求項21に記載の方法。
  28. 前記選択するステップに応答して、再生するための音声ファイルとして、前記ソーシャルネットワーキングコンテンツと前記音声とを記憶するステップをさらに含む、請求項21に記載の方法。
  29. 音声をユーザと関連付けるためのシステムであって、
    クラウドネットワークと通信することが可能にされた複数のデバイスであって、前記複数のデバイスのうちの1つが、音声を選択するようにユーザに催促して、ユーザ入力に応答して、音声の高さおよび声音、音声速度、ならびに前記音声の音量を調整する、複数のデバイスを含み、
    前記クラウドネットワークが、ユーザ選好に応答して、前記音声を含む、1つまたは複数の音声を前記ユーザによって生成されたソーシャルネットワーキングコンテンツと関連付けて、前記ソーシャルネットワーキングコンテンツの選択に応答して、前記音声を利用して、前記ソーシャルネットワーキングコンテンツを再生するように動作可能である
    システム。
  30. 前記音声がテキストツーボイス変換を利用して生成された自動音声である、請求項29に記載のシステム。
  31. 前記複数のデバイスが、
    音声サンプルを記録し、
    前記音声を利用し、合成音声を生成し、前記ユーザの前記音声サンプルを近似させる
    ようにさらに動作可能な、請求項29に記載のシステム。
  32. 前記ソーシャルネットワーキングコンテンツが前記ユーザによってオンラインで出された意見を含む、請求項29に記載のシステム。
  33. 前記クラウドネットワークが、前記選択に応答して、再生するための音声ファイルとして前記ソーシャルネットワーキングコンテンツと前記音声とを記憶する、請求項29に記載のシステム。
  34. 前記ユーザが、1つまたは複数のデバイス内に記憶された前記ユーザ選好に従って、複数のソーシャルネットワークのそれぞれと関連付けるための複数の音声を生成する請求項29に記載のシステム。
  35. 命令のセットを実行するためのプロセッサと、
    命令の前記セットを記憶するためのメモリであって、命令の前記セットが、
    音声を選択するようにユーザに催促し、
    ユーザ入力に応答して、音声の高さ、音声速度、および前記音声の音量を調整し、
    ユーザ選好に応答して、前記音声を含む、1つまたは複数の音声を、前記ユーザによって生成されたソーシャルネットワーキングコンテンツと関連付け、
    前記ソーシャルネットワーキングコンテンツの選択に応答して、前記音声を利用し、前記ソーシャルネットワーキングコンテンツを音声認識可能に通信する
    ために、前記プロセッサによって実行される
    ネットワークデバイス。
  36. 命令の前記セットが、前記選択に応答して、再生するための音声ファイルとして、前記ソーシャルネットワーキングコンテンツと前記音声とを記憶するためにさらに実行される、請求項35に記載のネットワークデバイス。
  37. 前記ソーシャルネットワーキングコンテンツが前記ユーザがオンラインで出した意見を含む、請求項35に記載のネットワークデバイス。
  38. 命令の前記セットが、前記ユーザ選好に従って、複数のソーシャルネットワーク、複数のウェブサイト、複数のプロフィール、または複数の電子デバイスのそれぞれと関連付けるための複数の音声を生成するためにさらに実行される、請求項35に記載のネットワークデバイス。
  39. 前記音声が自動音声または合成音声を含む、請求項35に記載のネットワークデバイス。
  40. 命令の前記セットが、
    音声サンプルを記録して、
    前記音声サンプルを利用して、合成音声を生成して、前記ユーザの前記音声サンプルを近似させて、
    前記音声として前記合成音声を利用する
    ためにさらに実行される、請求項35に記載のネットワークデバイス。
JP2014538913A 2011-10-24 2012-10-24 音声コンテンツ管理のためのシステムおよび方法 Pending JP2015506000A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/280,184 2011-10-24
US13/280,184 US20120240045A1 (en) 2003-08-08 2011-10-24 System and method for audio content management
PCT/US2012/061620 WO2013063066A1 (en) 2011-10-24 2012-10-24 System and method for audio content management

Publications (1)

Publication Number Publication Date
JP2015506000A true JP2015506000A (ja) 2015-02-26

Family

ID=48168422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014538913A Pending JP2015506000A (ja) 2011-10-24 2012-10-24 音声コンテンツ管理のためのシステムおよび方法

Country Status (8)

Country Link
US (2) US20120240045A1 (ja)
EP (1) EP2771881A4 (ja)
JP (1) JP2015506000A (ja)
AU (1) AU2012328956A1 (ja)
BR (1) BR112014009867A2 (ja)
CA (1) CA2854990A1 (ja)
MX (1) MX2014004889A (ja)
WO (1) WO2013063066A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120240045A1 (en) * 2003-08-08 2012-09-20 Bradley Nathaniel T System and method for audio content management
US20110051718A1 (en) * 2008-01-04 2011-03-03 Band Tones,Llc Methods and apparatus for delivering audio content to a caller placed on hold
US8433577B2 (en) * 2011-09-27 2013-04-30 Google Inc. Detection of creative works on broadcast media
US8856272B2 (en) * 2012-01-08 2014-10-07 Harman International Industries, Incorporated Cloud hosted audio rendering based upon device and environment profiles
US9438589B2 (en) * 2012-04-19 2016-09-06 Martin Tomlinson Binding a digital file to a person's identity using biometrics
US10122710B2 (en) 2012-04-19 2018-11-06 Pq Solutions Limited Binding a data transaction to a person's identity using biometrics
US10229197B1 (en) 2012-04-20 2019-03-12 The Directiv Group, Inc. Method and system for using saved search results in menu structure searching for obtaining faster search results
US9451389B2 (en) * 2012-10-21 2016-09-20 Kadeer Beg Methods and systems for communicating greeting and informational content using NFC devices
US9986051B2 (en) * 2013-09-18 2018-05-29 Modiolegal, Llc Method and system for creation and distribution of narrated content
US10224056B1 (en) * 2013-12-17 2019-03-05 Amazon Technologies, Inc. Contingent device actions during loss of network connectivity
US9431002B2 (en) 2014-03-04 2016-08-30 Tribune Digital Ventures, Llc Real time popularity based audible content aquisition
US9606766B2 (en) 2015-04-28 2017-03-28 International Business Machines Corporation Creating an audio file sample based upon user preferences
US10394421B2 (en) 2015-06-26 2019-08-27 International Business Machines Corporation Screen reader improvements
US10452231B2 (en) * 2015-06-26 2019-10-22 International Business Machines Corporation Usability improvements for visual interfaces
US10261963B2 (en) 2016-01-04 2019-04-16 Gracenote, Inc. Generating and distributing playlists with related music and stories
US10867120B1 (en) 2016-03-18 2020-12-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10423709B1 (en) 2018-08-16 2019-09-24 Audioeye, Inc. Systems, devices, and methods for automated and programmatic creation and deployment of remediations to non-compliant web pages or user interfaces
US10896286B2 (en) 2016-03-18 2021-01-19 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US11727195B2 (en) 2016-03-18 2023-08-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10444934B2 (en) 2016-03-18 2019-10-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10235989B2 (en) 2016-03-24 2019-03-19 Oracle International Corporation Sonification of words and phrases by text mining based on frequency of occurrence
US10777201B2 (en) * 2016-11-04 2020-09-15 Microsoft Technology Licensing, Llc Voice enabled bot platform
US10565980B1 (en) * 2016-12-21 2020-02-18 Gracenote Digital Ventures, Llc Audio streaming of text-based articles from newsfeeds
US10419508B1 (en) 2016-12-21 2019-09-17 Gracenote Digital Ventures, Llc Saving media for in-automobile playout
US10019225B1 (en) 2016-12-21 2018-07-10 Gracenote Digital Ventures, Llc Audio streaming based on in-automobile detection
EP3657495A4 (en) * 2017-07-19 2020-05-27 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM
US10657954B2 (en) 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US11437029B2 (en) * 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US11398164B2 (en) * 2019-05-23 2022-07-26 Microsoft Technology Licensing, Llc Providing contextually relevant information for ambiguous link(s)
US11720747B2 (en) * 2019-06-11 2023-08-08 Matthew M. Tonuzi Method and apparatus for improved analysis of legal documents
US11087421B2 (en) * 2019-06-11 2021-08-10 Matthew M. Tonuzi Method and apparatus for improved analysis of legal documents
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
US11270603B1 (en) 2020-09-11 2022-03-08 Bank Of America Corporation Real-time disability identification and preferential interaction modification
CN113064561A (zh) * 2021-03-26 2021-07-02 珠海奔图电子有限公司 语音打印控制方法、装置及系统
JP2023000588A (ja) * 2021-06-18 2023-01-04 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231192A1 (en) * 2006-03-06 2011-09-22 O'conor William C System and Method for Audio Content Generation

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US7334050B2 (en) * 2000-06-07 2008-02-19 Nvidia International, Inc. Voice applications and voice-based interface
US6665642B2 (en) * 2000-11-29 2003-12-16 Ibm Corporation Transcoding system and method for improved access by users with special needs
US7194411B2 (en) * 2001-02-26 2007-03-20 Benjamin Slotznick Method of displaying web pages to enable user access to text information that the user has difficulty reading
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
US20090164304A1 (en) * 2001-11-14 2009-06-25 Retaildna, Llc Method and system for using a self learning algorithm to manage a progressive discount
US7653544B2 (en) * 2003-08-08 2010-01-26 Audioeye, Inc. Method and apparatus for website navigation by the visually impaired
US20120240045A1 (en) * 2003-08-08 2012-09-20 Bradley Nathaniel T System and method for audio content management
US7200560B2 (en) * 2002-11-19 2007-04-03 Medaline Elizabeth Philbert Portable reading device with display capability
US8170863B2 (en) * 2003-04-01 2012-05-01 International Business Machines Corporation System, method and program product for portlet-based translation of web content
US7275032B2 (en) * 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
US8953908B2 (en) * 2004-06-22 2015-02-10 Digimarc Corporation Metadata management and generation using perceptual features
US7554522B2 (en) * 2004-12-23 2009-06-30 Microsoft Corporation Personalization of user accessibility options
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
WO2008134625A1 (en) * 2007-04-26 2008-11-06 Ford Global Technologies, Llc Emotive advisory system and method
US20090043583A1 (en) * 2007-08-08 2009-02-12 International Business Machines Corporation Dynamic modification of voice selection based on user specific factors
US20100064053A1 (en) * 2008-09-09 2010-03-11 Apple Inc. Radio with personal dj
US20100036926A1 (en) * 2008-08-08 2010-02-11 Matthew Lawrence Ahart Platform and method for cross-channel communication
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
US8438485B2 (en) * 2009-03-17 2013-05-07 Unews, Llc System, method, and apparatus for generating, customizing, distributing, and presenting an interactive audio publication
US9043474B2 (en) * 2010-01-20 2015-05-26 Microsoft Technology Licensing, Llc Communication sessions among devices and interfaces with mixed capabilities
US20110239253A1 (en) * 2010-03-10 2011-09-29 West R Michael Peters Customizable user interaction with internet-delivered television programming

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231192A1 (en) * 2006-03-06 2011-09-22 O'conor William C System and Method for Audio Content Generation

Also Published As

Publication number Publication date
MX2014004889A (es) 2015-01-26
EP2771881A1 (en) 2014-09-03
US20120240045A1 (en) 2012-09-20
CA2854990A1 (en) 2013-05-02
AU2012328956A1 (en) 2014-05-22
EP2771881A4 (en) 2015-11-11
WO2013063066A1 (en) 2013-05-02
BR112014009867A2 (pt) 2017-04-18
US20150113410A1 (en) 2015-04-23

Similar Documents

Publication Publication Date Title
JP2015506000A (ja) 音声コンテンツ管理のためのシステムおよび方法
US7966184B2 (en) System and method for audible web site navigation
JP7459153B2 (ja) 音声駆動コンピューティングインフラストラクチャによるグラフィカルユーザインターフェースレンダリング管理
US20160234278A1 (en) Audio commenting and publishing system
KR102097097B1 (ko) 사용자-녹음 오디오의 생성 및 재생 촉진
US9275150B2 (en) System and method for search and display of content in the form of audio, video or audio-video
US8046229B2 (en) Method and apparatus for website navigation by the visually impaired
KR100361680B1 (ko) 맞춤형 콘텐츠 제공방법 및 시스템
US9190049B2 (en) Generating personalized audio programs from text content
US20080281783A1 (en) System and method for presenting media
KR20220058971A (ko) 인간 대 컴퓨터 다이얼로그들에 요청되지 않은 콘텐츠의 사전 통합
Alateeq et al. Voxento 2.0: a prototype voice-controlled interactive search engine for lifelogs
CN111557002A (zh) 安全处理环境中的数据传输
CN111279333B (zh) 对网络中的数字内容的基于语言的搜索
WO2010114756A1 (en) Method and system for conducting a contest
US20220197931A1 (en) Method Of Automating And Creating Challenges, Calls To Action, Interviews, And Questions
JP2010230948A (ja) コンテンツ配信システムおよびテキスト表示方法
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
US11823657B2 (en) Audio streaming of text-based articles from newsfeeds
Davis Synchronizing oral history text and speech: a tools overview
WO2020016646A1 (en) Method of automating and creating challenges, calls to action, interviews, and questions
JP2009086597A (ja) テキスト音声変換サービスシステム及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151130