JP2006323806A

JP2006323806A - テキストを音声に変換するシステムおよび方法

Info

Publication number: JP2006323806A
Application number: JP2005284421A
Authority: JP
Inventors: Dean A Racovolis; アンソニーラコボリスディーン; Steven H Mitchell; ハリスミッチェルスティーブン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-10-29
Filing date: 2005-09-29
Publication date: 2006-11-30
Also published as: EP1653444A3; KR20060051151A; CN1783212A; US20060106618A1; EP1653444A2

Abstract

【課題】少なくとも部分的にはテキストの文脈に基づいてテキストを音声に変換する方法を提供する。
【解決手段】テキスト本文は、音声に変換する前に構文解析する。各部分を分析して、その部分が、文脈を表し得る１つまたは複数の特定の属性をもつかどうかを決定する。各テキスト部分の音声への変換は、例えば、そのテキスト部分に対する１つまたは複数の変換パラメータ値を設定することによって、これらの属性に基づいて制御することができる。テキスト部分と関連する変換パラメータ値は、音声への変換を実行するために、テキスト音声変換エンジンに送ることができ、生成された音声は、オーディオファイルとして保存することができる。オーディオファイル中の１つまたは複数の位置にオーディオマーカを挿入する。
【選択図】図２

Description

本発明は、テキストを音声に変換するシステムおよび方法に関し、より詳細にはテキストの文脈（ｃｏｎｔｅｘｔ）に基づいてテキストを音声に変換するシステムおよび方法に関する。

今日の市場には、例えば、コンピュータでテキストを音声に変換する、様々なテキスト音声変換エンジン（ＴＳＥ：ｔｅｘｔ−ｔｏ−ｓｐｅｅｃｈｅｎｇｉｎｅ）が出回っている。一般に、これらのＴＳＥは、コンピュータ上で動作するアプリケーションによって起動される。アプリケーションは、標準的な音声アプリケーションプログラミングインターフェース（ＳＡＰＩ：ＳｐｅｅｃｈＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）においてプログラミングフック（ｐｒｏｇｒａｍｍｉｎｇｈｏｏｋ）を利用して、ＳＡＰＩに対してプログラミングコールを実行することにより、ＴＳＥを起動する。ＴＳＥは、テキストを音声に変換し、その音声をコンピュータのスピーカを介してユーザに聞かせる。例えば、いくつかのシステムは、電子メールのメッセージを音声として聞かせることによって、また場合によっては、ネットワーク上のユーザの電子メールサーバにアクセスしたユーザの電話を介して音声を聞かせることによって、ユーザがメッセージを聞けるようにする。

United States Patent Office Manual of Patent Examining Procedures (Eighth Edition, Revision 2, May 2004), Section 2111 03

大多数のＴＳＥによって再生される音声を聞いて好印象をもつ人はほとんどいない。テキストを変換した音声はしばしば、ロボットの声を聞くようだと評される。いくつかのＴＳＥは、より洗練されており、より人間らしい声で話す。しかし、そのようなＴＳＥであっても、やがては聞くに堪えなくなる。これは、ＴＳＥがテキストの構文を認識するように構成されており、テキストの文脈（ｃｏｎｔｅｘｔ）を認識するようには構成されていないためである。すなわち、ＴＳＥは、テキストの文法、構造、および内容を認識するように構成されており、事前定義された規則をこの認識に基づいて適用する。しかし、文が見出しの一部であるか、ボールド体もしくはイタリック体で書かれているか、すべて大文字で書かれているか、または中黒が先頭に付いているかどうかといったようなことは考慮しない。したがって、テキストは、文脈とは関係なく、常に同じ調子で変換される。しばらくすると、聞き手は、このような方式でテキストから変換された音声を聞くのにうんざりし、音声は余計なものに思い始める。

本明細書では、少なくとも部分的にはテキストの文脈に基づいて、テキストを音声に変換するシステムおよび方法について説明する。テキスト本文は、音声に変換する前に、構文解析することができる。テキストは構文解析して、例えば、節、章、ページ、段落、文および／または（例えば、句読点および文法上のその他の規則に基づく）文の部分、単語、または文字などの部分に分割することができる。各部分は、文脈（例えば、言語的文脈）を示唆し得る１つまたは複数の特定の属性をもつかどうかを決定するために分析することができる。例えば、テキストの部分がインデントされているか、中黒が先頭に付いているか、イタリック体で書かれているか、ボールド体で書かれているか、下線が引かれているか、二重下線が引かれているか、下付き文字か、上付き文字か、ある句読点が欠けているか、ある句読点を含んでいるか、テキストの他のフォントサイズと比べて異なるフォントサイズが使われているか、すべて大文字で書かれているか、タイトル文字で書かれているか、ある方法（例えば、右揃え、中央揃え、左揃え、または両端揃え）で行揃えが行われているか、見出しの少なくとも一部か、ヘッダもしくはフッタの少なくとも一部か、表内容（ＴＯＣ：ｔａｂｌｅｏｆｃｏｎｔｅｎｔｓ）の少なくとも一部か、脚注の少なくとも一部か、その他の属性をもつか、または上記の属性を任意に組み合わせたものをもつかどうかを決定することができる。テキストの部分の音声への変換は、例えば、その部分に対する１つまたは複数の変換パラメータ値を設定することによって、これらの属性に基づいて調整することができる。与えられたテキストの部分について、音量、拍子の速さ、声のアクセント、声の揺らぎ、音節の強調、当該部分の前および／または後の間、その他のパラメータ、および上記のパラメータの任意の適切な組合せのうち任意の変換パラメータの値を設定することができる。これらのパラメータの任意のものの値を設定することができ、与えられたテキストの部分と一緒にテキスト音声変換エンジン（ＴＳＥ）に送ることができる。例えば、標準的な音声ＡＰＩ（ＳＡＰＩ）に対して、あるＳＡＰＩパラメータへの値の設定を伴う、プログラミングコールを実行することができる。

テキストは、ユーザが選択することができ、例えば、ワードプロセッサ（例えば、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｏｒｄ）文書、表計算（例えば、Ｅｘｃｅｌ（商標））文書、プレゼンテーション（例えば、ＰｏｗｅｒＰｏｉｎｔ（登録商標））文書、電子メール（例えば、Ｏｕｔｌｏｏｋ（登録商標））メッセージ、または別のタイプの文書などのデジタル文書の全体とすることができる。あるいは、テキストは、例えば、上記の任意のものの部分など、文書の部分とすることができる。

得られた音声は、オーディオ再生装置に送り、（例えば、１つまたは複数のスピーカを使用して）音声を聞かせることができ、および／または記録媒体にオーディオファイル（例えば、圧縮オーディオファイル）として保存することができる。さらに、変換プロセスは、音声に（例えば、１つまたは複数の部分の間に）オーディオマーカを含めるステップを含むことができる。本明細書で使用する「オーディオマーカ」という用語は、オーディオファイル内においてオーディオファイル内容の部分同士の境界を示す標識を意味する。そのようなオーディオマーカは、例えば、オーディオファイルを構文解析し、オーディオファイルを操作し、オーディオファイルの１つまたは複数の部分を削除し、１つまたは複数の部分を並び替え、および／またはオーディオファイルに追加の内容を挿入するために利用することができる。例えば、オーディオマーカは、ポータブルオーディオ装置にオーディオファイルとして保存できる生成音声中に含めることができる。本明細書で使用する「ポータブルオーディオ装置」という用語は、携帯使用向きに作成および構成された、音を再生できる、例えば、ポータブルメディアプレーヤ（ＰＭＰ）、携帯情報端末（ＰＤＡ）、セル電話、ディクタフォン（ｄｉｃｔａｐｈｏｎｅ）、または別のタイプのポータブルオーディオ装置などの装置を意味する。

ユーザは、ポータブルオーディオ装置で生成音声を聞くことができ、ポータブルオーディオ装置は、ユーザが、例えば、音声中のオーディオマーカを用いて、音声の操作および編集を行えるように構成することができる。編集後、テキストが音声形態をとっていた間にユーザによって施された編集を含んだテキストに、音声を変換し戻すことができる。

上で説明した方式でテキストからオーディオファイルを作成し、それを編集することによって、ユーザは、例えば、運動や用足しなどの他の活動を同時に行いながら、文書およびその他の文献を聞き、また編集することができる。さらに、ユーザは、（より早く疲れやすい）目、手、および手首の代わりに、自らの耳と口を使用して、内容を聞き、また編集することができる。ある種の身体障害をもつ人々は、このようなシステムおよび方法によって、その他の方法では経験し、また編集することができない内容を、経験し、また編集することができるようになるであろう。

そのような文脈ベースのテキスト音声変換を可能にするシステムは、上で説明したような変換を制御する変換コントローラを含むことができる。コントローラは、例えば、ＴＳＥへのインターフェースとして機能するＳＡＰＩに対してプログラミングコールを実行することによってＴＳＥを制御するように構成することができる。さらに、変換コントローラは、例えば、ＭＰ３（ＭＰＥＧオーディオレイヤ−３）ファイルまたはＷＭＡ（Ｗｉｎｄｏｗｓ（登録商標）メディアオーディオ）ファイルなどの圧縮オーディオファイルに音声を圧縮する圧縮エンジンを制御するように構成することができる。あるいは、変換コントローラは、圧縮エンジンを使用せず、例えば、ＷＡＶファイルのように、音声を圧縮しないでおくこともできる。

変換コントローラは、プログラマによって構成定義することができ、および／またはシステムは、変換の１つまたは複数の態様をユーザが設定できるようにするユーザインターフェースを含むことができる。例えば、ユーザインターフェースは、テキストを構文解析してどのようなタイプの部分に分割するか、部分のどの属性を分析するか、また属性の分析に基づいて変換パラメータ値をどのような値にするかをユーザが設定できるようにすることができる。

本発明の一実施形態では、テキストの音声への変換は制御される。デジタルテキスト本文が受信され、構文解析を受けて複数の部分に分割される。各部分について、その部分が１つまたは複数の特定の属性をもっているかどうかが決定され、その部分が１つまたは複数の特定の属性をもっている場合、その部分の１つまたは複数の変換パラメータ値が設定される。複数の部分のデジタルテキストから音声への変換は制御される。変換パラメータ値が設定された少なくとも各部分について、その部分の変換は、少なくとも部分的には、その部分に対して設定された１つまたは複数の変換パラメータ値に基づいて行われる。

この実施形態の一態様では、変換制御は、音声に変換するために複数の部分をテキスト音声変換エンジンに送るステップを含み、このステップは、変換パラメータ値が設定された少なくとも各部分について、その部分の１つまたは複数の変換パラメータ値を送るステップを含む。

この実施形態の別の態様では、音声は、圧縮できるオーディオファイルとして保存される。

この実施形態の別の態様では、各部分の１つまたは複数の特定の属性は、その部分の文脈を表す。

この実施形態の別の態様では、音声は、オーディオ再生装置に送られる。

この実施形態のその他の態様では、テキスト本文は、複数の部分の各々が、節、章、ページ、段落、文、（例えば、句読点に基づく）少なくとも文の部分、単語、または文字にそれぞれなるように構文解析を受けて、複数の節、章、ページ、段落、文、少なくとも文の部分、単語、または文字に分割される。

この実施形態のさらに別の態様では、各部分について、その部分が、ある種のフォーマット属性および／または編成的属性をもつかどうかが決定される。

この実施形態の別の態様では、デジタルテキスト本文は、デジタル文書の一部分であるに過ぎない。

この実施形態の別の態様では、音声が１つまたは複数の位置にオーディオマーカを含むように変換が制御される。

この実施形態の様々な態様では、複数の部分の各々について分析する１つまたは複数の属性を指定すること、デジタルテキスト本文を構文解析してどのようなタイプの複数の部分に分割するかを指定すること、１つまたは複数の個々の属性に対応する１つまたは複数の変換パラメータ値を指定すること、あるいはオーディオマーカを挿入する１つまたは複数の位置を指定することのうち１つまたは複数をユーザが行えるようにする、ユーザインターフェースが提供される。

本発明の別の実施形態では、コンピュータで実行した結果、これまでの段落で説明した本発明の実施形態および／またはこれまでの段落で説明した１つまたは複数の実施形態の態様を実行するようにコンピュータに命令する命令を定義するコンピュータ可読信号を保存するコンピュータ読取り可能媒体が提供される。

別の実施形態では、テキストの音声への変換を制御するためのシステムが提供される。このシステムは、デジタルテキスト本文を受信し、デジタルテキスト本文を構文解析して複数の部分に分割する変換コントローラを含む。変換コントローラはまた、各部分について、その部分が１つまたは複数の特定の属性をもつかどうかを決定し、１つまたは複数の特定の属性をもつ各部分について、その部分の１つまたは複数の変換パラメータ値を設定するように動作する。変換コントローラはまた、複数の部分のデジタルテキストから音声への変換を制御するように、また変換パラメータ値が設定された少なくとも各部分については、その部分の変換を、少なくとも部分的には、その部分に対して設定された１つまたは複数の変換パラメータ値に基づいて制御するように動作する。

この実施形態の一態様では、変換コントローラはさらに、音声に変換するために複数の部分をテキスト音声変換エンジンに送るように、また変換パラメータ値が設定された少なくとも各部分については、その部分の１つまたは複数の変換パラメータ値も送るように動作する。

この実施形態の別の態様では、変換コントローラはさらに、圧縮できるオーディオファイルとして音声を保存するための制御を行うように動作する。

この実施形態のさらに別の態様では、変換コントローラはさらに、オーディオ再生装置に音声を送るための制御を行うように動作する。

この実施形態のその他の態様では、変換コントローラはさらに、テキスト本文を構文解析して、複数の部分の各々が、節、章、ページ、段落、文、（例えば、句読点に基づく）少なくとも文の部分、単語、または文字にそれぞれなるように、複数の節、章、ページ、段落、文、少なくとも文の部分、単語、または文字に分割するように動作する。

この実施形態の別の態様では、変換コントローラはさらに、各部分について、その部分が、ある種のフォーマット属性および／または編成的属性をもつかどうかを決定するように動作する。

この実施形態の別の態様では、変換コントローラはさらに、オーディオマーカが音声中の１つまたは複数の位置に含まれるように変換を制御するように動作する。

この実施形態のさらに別の態様では、システムはさらに、複数の部分の各々について分析する１つまたは複数の属性を指定すること、デジタルテキスト本文を構文解析してどのようなタイプの複数の部分に分割するかを指定すること、１つまたは複数の個々の属性に対応する１つまたは複数の変換パラメータ値を指定すること、あるいはオーディオマーカを挿入する１つまたは複数の位置を指定することのうち１つまたは複数をユーザが行えるようにする、ユーザインターフェースを含む。

本発明のその他の利点、新規な特徴、および目的、ならびに本発明の態様および実施形態は、本発明の態様および実施形態を含む、本発明についての以下の詳細な説明を、添付の図面と併せて考察することから明らかとなるだろうが、添付の図面は概略的であり、必ずしも実寸に比例して描かれてはいない。図面において、様々な図面に現れる同一またはほぼ同一の各構成要素は、単一の番号で表される。あえて図示しなくても、当業者が本発明を理解するのに支障がない場合、明瞭性のため、どの図面でも、すべての構成要素に番号が付されているわけではなく、本発明の各実施形態および態様の構成要素がすべて示されているわけではない。

ここで、少なくとも部分的にはテキストの文脈に基づいて、テキストを音声に変換するシステムおよび方法について説明する。これらのシステムおよび方法は、主として、生成音声をオーディオファイルに保存することに関して説明されるが、本発明は、そのように限定されるものではない。代替として、または生成音声をオーディオファイルとして保存するのに加えて、生成音声は、例えば、１つまたは複数のスピーカを介した音声の再生を制御するオーディオ生成装置に送ることもできる。

本発明の上記およびその他の実施形態の機能および利点は、以下で説明する実施例からより深く理解することができるであろう。以下の実施例は、より良い理解の助けとなることを、また本発明の利点を例示することを意図したものであり、本発明の完全な範囲を示すものではない。

詳細な説明または特許請求の範囲にかかわらず、本文書で使用される「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「備える（ｃａｒｒｙｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｃｏｎｔａｉｎｉｎｇ）」、「含む（ｉｎｖｏｌｖｉｎｇ）」などの語は、制限のないものと理解され、すなわち、限定することなく含むことを意味する。ただし、自動詞「から構成される（ｃｏｎｓｉｓｔｉｎｇｏｆ）」および「から基本的に構成される（ｃｏｎｓｉｓｔｉｎｇｅｓｓｅｎｔｉａｌｌｙｏｆ）」だけは、特許請求の範囲に関連して非特許文献１で説明されるように、それぞれ制限のある自動詞、一部制限のある自動詞である。

図１に、本発明のいくつかの実施形態による、テキストをオーディオファイル中の音声に変換し、オーディオファイルを編集するためのシステム１００の一実施形態を示した図を示す。システム１００は、そのようなシステムの例示的な一実施形態であるに過ぎず、本発明の様々な実施形態に説明上の背景を提供することを意図したものである。そのようなシステムの他の数々の実施は、例えば、システム１００の変形が可能であり、それらは本発明の範囲に包含されるものとする。例えば、図１には、ノート型またはラップトップ型コンピュータが示されているが、その他のタイプのコンピュータ、例えば、デスクトップＰＣまたはワークステーションも使用できることを理解されたい。さらに、システム１００は、例えば、コンピュータ１０２、ポータブルオーディオ装置１１２、または別のタイプの装置など、単一の装置で実施することもできる。

システム１００は、コネクション１１０によって互いに接続できる任意のコンピュータ１０２とポータブルオーディオ装置１１２を含むことができ、コネクション１１０は、例えば、ユニバーサルシリアルバス（ＵＳＢ）、または光接続もしくは無線接続を含む任意の適切なタイプのコネクションとすることができる。コンピュータ１０２は、アプリケーション（例えば、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｏｒｄ）実行の一部としてユーザインターフェース（例えば、グラフィカルユーザインターフェース（ＧＵＩ））によって制御されるユーザインターフェース表示１０４（例えば、ＧＵＩ表示）を表示可能なディスプレイ画面１０３を含むことができる。ユーザインターフェース表示は、書かれたテキスト１０５を表示することができる。本明細書で使用する「ユーザインターフェース」という用語は、アプリケーションの実行中にユーザがアプリケーションとインターフェースをとれるようにする、アプリケーションまたはアプリケーションの部分（すなわち、１組のコンピュータ可読命令）を意味する。ユーザインターフェースは、アプリケーションがどのようにユーザに情報を出力するか、例えば、コンピュータ画面またはその他の手段によって視覚的によるか、スピーカまたはその他の手段によって聴覚的によるか、ゲームコントローラまたはその他の手段によって手動的によるかを規定するコードを含むことができる。そのようなユーザインターフェースはまた、アプリケーションの実行中にユーザがどのように情報を入力するか、例えば、マイクロフォンを用いて聴覚的によるか、またはキーボード、マウス、ゲームコントローラ、トラックボール、タッチスクリーン、もしくはその他の手段を用いて手動的によるかを規定するコードを含むことができる。

ユーザインターフェースは、情報をユーザに視覚的に提示（すなわち、表示）する方法を規定することができ、ユーザが情報の視覚的提示（すなわち、表示）を操作し得る方法、および視覚的提示に基づいて情報を入力し得る方法を規定する。アプリケーションの実行中、ユーザインターフェースは、情報の視覚的提示を制御することができ、ユーザが視覚的提示を操作し、視覚的提示に基づいて情報を入力し得るようにすることができる。ユーザインターフェースのタイプは、ユーザがコマンドをタイプするコマンド駆動式インターフェース、ユーザがメニューから情報を選択するメニュー駆動式インターフェース、およびそれらの組合せから、一般にコンピュータのグラフィックス機能をより積極的に利用し、より柔軟性があり、また直感的で操作が容易であり、コマンド駆動式やメニュー駆動式のビジュアルユーザインターフェースよりも魅力的な「ルックアンドフィール」をもったＧＵＩにまでわたる。

本明細書では、ユーザインターフェースまたはＧＵＩによって提示される情報の視覚的提示は、それぞれ「ユーザインターフェース表示」または「ＧＵＩ表示」と呼ばれる。

表示１０４を提供するユーザインターフェースは、ユーザがデジタル文書またはその部分、例えば、部分１０６を選択できるように、また、例えば、ファイルメニュー１０９からメニュー項目１０８を選択することによって、選択テキストを音声に変換（すなわち、音声として保存）するようユーザが指定できるように構成することができる。その後、テキスト１０６の本文を音声に変換し、オーディオファイルとして保存することができる。オーディオファイルは、以下でより詳しく説明するように、オーディオファイルを再生し、操作し、編集し、またネットワークセグメント１１０を介してコンピュータ１０２に送り返すことのできるポータブルオーディオ装置１１２にダウンロードすることができる。

図１には示されていないが、メニュー１０９またはユーザインターフェース表示１０４の別の部品は、音声化した選択テキストをオーディオファイルとして保存するのに加えて、または保存する代わりに、選択テキストを音声として再生するかどうかのオプションをユーザに提供することができる。ユーザがこのオプションを選択した場合、選択テキストは、コンピュータ１０２またはコンピュータの周辺装置によって、音声として再生することができる。さらに、テキストから生成されたオーディオファイルは、ポータブルオーディオ装置１１２によって再生されるものに限定されず、コンピュータ１０２上に存在する１つまたは複数のアプリケーションを用いて再生できることを理解されたい。さらに、コンピュータ上に存在する機能として本明細書で説明される機能は、適切に作成および構成されたポータブルオーディオ装置に存在することができ、その反対も可能である。

図２は、本発明のいくつかの実施形態による、テキストを音声に変換するシステム２００の一実施例を示したブロック図兼データフロー図である。システム２００は、そのようなシステムの例示的な一実施形態であるに過ぎず、本発明の範囲を限定しようとするものではない。そのようなシステムの他の数々の実施は、例えば、システム２００の変形が可能であり、それらは本発明の範囲に包含されるものとする。

システム２００は、任意のユーザインターフェース２０６、変換コントローラ２０８、ＳＡＰＩ２２０、ＴＳＥ２２２、圧縮エンジン２２６、記録媒体２３０、およびその他の構成要素を含むことができる。本明細書で使用する「アプリケーションプログラミングインターフェース」または「ＡＰＩ」という用語は、機能を定義して、そのような機能がコンピュータ上でアプリケーションプログラムと連動して実行されるように構成する、１つまたは複数の他の１組のコンピュータ可読命令へのアクセスを提供する、１組の１つまたは複数のコンピュータ可読命令を意味する。ＡＰＩは、アプリケーションプログラムと特定のコンピュータ環境またはプラットフォーム（例えば、以下で説明するもの）との間の「接着剤」と考えることができ、１つまたは複数の特定のコンピュータプラットフォーム上で、または１つまたは複数のコンピュータ環境内で動作するアプリケーションを、プログラマがプログラムできるようにすることができる。

変換コントローラ２０８は、少なくとも部分的にはテキストの文脈に基づいて、テキストの音声への変換を制御するように構成することができ、任意の構文解析エンジン２１２、および圧縮コントローラ２１４を含むことができる。変換コントローラ２０８は、テキスト２０２と、おそらくはユーザ指定の変換制御値２０４とを受け取り、それらに基づいた音声生成を制御するように構成することができる。変換コントローラ２０８の挙動は、テキストを受け取る前に、例えば、プログラマによって、変換制御構成定義値２１０を使用して設定することができる。例えば、構成定義値２１０は、以下でより詳しく説明するように、変換コントローラのデフォルトの挙動を制御することができる。デフォルトの挙動は、１つまたは複数のユーザ指定の値２０４によって打ち消す（ｏｖｅｒｒｉｄｅ）ことができる。

構文解析エンジン２１２は、テキスト２０２の本文を構文解析して、ＳＡＰＩ２２０を介してＴＳＥ２２２に送ることができる変換入力２１６を生成するように構成することができる。構文解析エンジン２１２は、テキスト２０２を構文解析して、例えば、節、章、ページ、段落、文および／または（例えば、句読点および文法上のその他の規則に基づく）文の部分、単語、文字、またはその他のタイプの部分など、複数のタイプの部分のいずれかに分割するように構成することができる。例えば、構成定義値２１０は、構文解析エンジン２１２がテキストを構文解析してどのタイプの部分に分割するか、そのデフォルトタイプを設定することができる。このタイプは、ユーザ指定の変換制御値２０４に含まれるユーザ指定のタイプによって打ち消す（ｏｖｅｒｒｉｄｅ）ことができる。本明細書では、「複数」は、２以上を意味する。

構文解析エンジン２１２および変換コントローラ２０８は一般に、テキストがそこから選択されるアプリケーションによって提供される情報を利用するように、（例えば、構成定義値２１０および／またはユーザ指定値２０４を用いて）構成できることを理解されたい。例えば、多くのアプリケーションは、文書中の節、章、ページ、段落、文、文の部分、単語、および／または文字の境界を表す情報を維持する。変換コントローラ２０８およびその構成要素は、以下でより詳しく説明するように、この情報を利用して、テキストを構文解析し、分析するように構成することができる。例えば、Ｗｏｒｄ文書中で、Ｗｏｒｄは、テキスト本文を特別の「段落」と通常の「段落」に分割することができる。Ｗｏｒｄの「段落」は、必ずしも文法的な意味での段落に関連するとは限らないことを理解されたい。例えば、Ｗｏｒｄは、見出しを通常の段落ではなく、特別なタイプの段落として定義することができる。構文解析エンジン２１２は、この情報を利用し、Ｗｏｒｄテキスト本文を構文解析して、Ｗｏｒｄ段落に分割するように構成することができる。

構文解析エンジン２１２は、テキストを構文解析して、より細かい単位に分割するように構成することができる。例えば、構文解析エンジンは、テキスト中のピリオドを識別することによって、テキストを構文解析することができ、または、例えば、カンマ、セミコロン、コロン、ピリオド、およびハイフンなどの句読点に基づいて、テキストを構文解析することができる。この構成では、テキストは、文中の句読点に応じて、文および文の部分に分割することができる。さらに、構文解析エンジン２１２は、テキストを構文解析して、単語に分割するように構成することができる。

構文解析エンジン２１２は、テキストを構文解析した各部分を分析して、例えば、その部分が１つまたは複数の特定の属性（例えば、フォーマット属性および／または編成的属性）をもつかどうかを決定するように構成することができる。そのような属性は、部分の文脈を表すことができ、したがって、この文脈を反映するようにテキストを音声に変換する方法を変更するために使用することができる。例えば、構文解析エンジン２１２は、テキストの部分がインデントされているか、中黒が先頭に付いているか、イタリック体で書かれているか、ボールド体で書かれているか、下線が引かれているか、二重下線が引かれているか、下付き文字か、上付き文字か、ある句読点が欠けているか、ある句読点を含んでいるか、テキストの他のフォントサイズと比べて異なるフォントサイズが使われているか、すべて大文字で書かれているか、タイトル文字で書かれているか、ある方法（例えば、右揃え、中央揃え、左揃え、または両端揃え）で行揃えが行われているか、見出しの少なくとも一部か、ヘッダもしくはフッタの少なくとも一部か、ＴＯＣの少なくとも一部か、脚注の少なくとも一部か、その他の属性をもつか、または上記の属性を任意に組み合わせたものをもつかどうかを決定するように構成することができる。構文解析エンジンは、１つまたは複数のこれらの属性に基づいて、テキストの部分のその他の属性を決定するように構成することができる。例えば、構文解析エンジン２１２は、テキストの部分がピリオドで終了していない、中央に行揃えされている、すべて大文字で書かれている、タイトル文字で書かれている、下線が引かれている、またはボールド体で書かれているといった属性の１つまたは複数の組合せをもつ場合、そのテキストの部分が見出しであると決定するように構成することができる。

構文解析エンジンは、部分の１つまたは複数の変換パラメータ値を、例えば、その部分の１つまたは複数の決定された属性に基づいて、設定するように構成することができる。これらの１つまたは複数の変換パラメータ値を設定することによって、テキストの文脈に基づいて、そのテキストの部分を音声に変換するようにＴＳＥ２２２を制御することができ、その結果、テキストをより実際の人間の声らしく音声化することができ、またテキストの重要部分に強調を加えることができる。さらに、人間の声らしく聞こえる音声は一般に、聞き手にとって、ロボットのような音声よりも快適である。例えば、ＴＳＥ２２２は、受け取ったテキストの変換を制御するため、様々な変換パラメータ値の任意のものを用いて設定することができる。これらの変換パラメータ値には、音量、拍子の速さ、声のアクセント、声の揺らぎ、音節の強調、当該部分の前および／または後の間その他の変換パラメータ、および上記のパラメータの任意の適切な組合せが含まれ得る。構文解析エンジン２１２は、音声ＡＰＩ２２０を介して、任意のこれらの変換パラメータの値を設定するように構成することができる。

例えば、構文解析エンジン２１２は、テキストの部分が見出しであると決定した場合、生成音声の音量を（例えば、２％）上げ、拍子の速さを（５％）下げ、生成音声の前後に（０．２秒）間を置くように変換パラメータ値を設定する。

構文解析エンジン２１２は、生成音声中の１つまたは複数の位置にオーディオマーカを含めるように（例えば、値２１０および／または値２０４によって）構成することができる。例えば、テキストを構文解析して分割した各部分の間にオーディオマーカを含めれば、望ましいであろう。あるいは、これらの位置の一部またはその他の位置に、オーディオマーカを置くこともできる。ＴＳＥの中には、生成した音声にそのようなマーカ（しばしば「ブックマーク」と呼ばれる）を挿入する機能をもつものもある。構文解析エンジン２１２は、適切な変換パラメータ値を設定することによって、ＴＳＥのこの機能を利用するように構成することができる。これらのオーディオマーカは、例えば、図５および図６に関連して以下により詳しく説明するように、生成音声が保存されたオーディオファイルの内容を操作し、また編集するために後に利用することができる。

ユーザインターフェース２０６は、例えば、値の選択および／または入力をユーザが行えるようにするユーザインターフェース表示を提供することによって、ユーザがユーザ指定の変換制御値２０４を提供できるように構成することができる。そのようなユーザインターフェース表示は、メニュー、ドロップボックス、ラジオボタン、テキストボックス、コンボボックス、または値の入力および／または選択をユーザが行えるようにする他の様々なタイプのコントロールを含むことができる。

図２から少々それると、図３は、本発明のいくつかの実施形態による、構文解析エンジン２１２の構文解析機能の一実施例を示したブロック図兼データフロー図である。構文解析エンジン２１２は、見出し３０２および段落３０４、３０６を含むテキスト２０２を受け取ることができる。設定された変換制御値２１０およびユーザ指定の変換制御値２０４に基づいて、構文解析エンジン２１２は、テキスト２０２を構文解析してテキスト部分に分割し、そのテキスト部分の属性を分析し、１つまたは複数の変換パラメータ値を設定し、変換入力２１６を生成することができる。変換入力２１６は、段落３０６、段落３０４、見出し３０２にそれぞれ対応する、入力３０８、３１４、３２０を含むことができる。各変換入力３０８は、変換されたテキスト部分と、構文解析エンジン２１２によって提供された変換パラメータ値を含むことができる。例えば、変換入力３０８は、段落３０６に対応するテキスト部分３１２と、変換パラメータ値３１０を含むことができ、変換入力３１４は、段落３０４に対応するテキスト部分３１８と、変換パラメータ値３１６を含むことができ、変換入力３２０は、見出し３０２に対応するテキスト３２４と、変換パラメータ値３２２を含むことができる。変換入力２１６は、音声に変換された順序で、音声ＡＰＩ２２０に送ることができる。

構文解析エンジン２１２または変換コントローラ２０８の別の構成要素は、テキスト本文の変換が開始した時と終了した時に、（例えば、音声ＡＰＩに送られるテキスト部分の１つで、または異なる伝達手段によって）音声ＡＰＩに通知するように構成することができる。生成された音声をオーディオファイルに保存する一実施形態では、音声ＡＰＩ２２０は、開始通知を使用して、新しいオーディオファイルをオープンし、また終了通知を使用して、オーディオファイルをクローズすることができる。このようにして、変換コントローラは、１つのテキスト本文についての複数の変換入力がＴＳＥに送られたとしても、テキスト本文から１つのオーディオファイルを作成するよう制御することができる。

図２に戻ると、テキスト部分２１６を受け取ったことに応答して、ＴＳＥ２２２は、（例えば、非圧縮の）オーディオファイル２１８を生成することができ、そのオーディオファイルを、ＳＡＰＩ２２０を介して、圧縮コントローラ２１４に送ることができる。圧縮コントローラ２１４は、圧縮入力２２４として、オーディオファイル２１８を圧縮命令と一緒に圧縮エンジン２２６（例えば、Ｗｉｎｄｏｗｓ（登録商標）Ｍｅｄｉａ（登録商標）Ｅｎｃｏｄｅｒ）に送るように構成することができる。その後、圧縮エンジン２２６は、オーディオファイルを、記録媒体２３０に保存できる圧縮オーディオファイル２２８に圧縮することができる。

変換コントローラ２０８は、オーディオファイル２１８を生成するのに加えて、またはその代わりに、生成された音声２３２をオーディオ再生エンジン２３４に送るようにＴＳＥ２２２を制御するように構成することができる。オーディオ再生エンジン２３４は、音声を受け取ったことに応答して、直ちに音声を再生するように構成することができる。すなわち、テキスト本文は、音声に変換されて、直ちに再生され、および／または後で利用するためにオーディオファイルとして保存することができる。

システム２００とその構成要素は、ソフトウェア（例えば、Ｃ、Ｃ＃、Ｃ＋＋、Ｊａｖａ（登録商標）、またはそれらの組合せ）、ハードウェア（例えば、１つまたは複数の特定用途向け集積回路）、ファームウェア（例えば、電気的プログラム可能メモリ）、またはそれらの任意の組合せを用いて実施することができる。システム２００の１つまたは複数の構成要素は、単一の装置（例えば、コンピュータ）上に存在することができ、または１つまたは複数の構成要素は、独立した個々の装置上に存在することができる。さらに、各構成要素を、複数の装置に分散させ、１つまたは複数の装置を相互接続することができる。

さらに、システム２００の１つまたは複数の構成要素を含む１つまたは複数の装置の各々で、各構成要素は、システムの１つまたは複数の位置に存在することができる。例えば、システム２００の構成要素の異なる部分は、装置上のメモリの異なる領域（例えば、ＲＡＭ、ＲＯＭ、ディスクなど）に存在することができる。そのような１つまたは複数の装置の各々は、構成要素の中でも特に、１つまたは複数のプロセッサ、メモリシステム、ディスクストレージシステム、１つまたは複数のネットワークインターフェース、および様々な構成要素を相互接続する１つまたは複数のバスあるいはその他の内部通信リンクなどの複数の既知の構成要素を含むことができる。システム２００とその構成要素は、図７および図８に関連させて以下で説明するようなコンピュータシステムを用いて実施することができる。

図４は、本発明のいくつかの実施形態による、テキストを音声に変換する方法４００の一実施例を示したフローチャートである。方法４００は、テキストを音声に変換する方法の例示的な一実施形態であるに過ぎず、本発明の範囲を限定しようとするものではない。そのような方法の他の数々の実施が、例えば、方法４００の変形が可能であり、それらは本発明の範囲に包含されるものとする。方法４００は、追加の動作を含むことができる。さらに、方法４００の一部として実行される動作の順序は、図４に示された順序に限定されるものではなく、動作はその他の順序で実行することができ、および／または１つまたは複数の動作は、（少なくとも部分的には）直列してまたは並列して実行することができる。

動作４０２で、デジタルテキスト本文（例えば、デジタル形式で表現されたテキスト）が受け取られる。デジタルテキスト本文は、デジタル文書（例えば、上で説明した任意のタイプの文書）またはその部分とすることができる。

動作４０４で、デジタルテキスト本文が、例えば、システム２００の構文解析エンジン２１２に関連して上で説明したように、構文解析されて複数の部分に分割される。テキスト本文は、構文解析エンジン（例えば、エンジン２１２）を設定した構文解析値に基づいて、および／またはユーザによって提供された１つまたは複数の構文解析値に基づいて、構文解析することができる。

動作４０６で、各部分について、その部分が、例えば、図２に関連して上で説明したような属性など、１つまたは複数の特定の属性（例えば、フォーマット属性および／または編成的属性）をもつかどうかが決定される。これらの属性は、構文解析エンジンを設定した１つまたは複数の値またはユーザによって提供された１つまたは複数の値に基づいて、上で説明した構文解析エンジン２１２などの構文解析エンジンによって決定することができる。

動作４０８で、各部分について、その部分が動作４０６で決定された１つまたは複数の特定の属性をもつ場合、その部分の１つまたは複数の変換パラメータを設定することができる。変換パラメータ値は、システム２００に関連して上で説明したように、構文解析エンジンを設定した１つまたは複数の値またはユーザによって提供された１つまたは複数の変換パラメータ値に基づいて、構文解析エンジン（例えば、エンジン２１２）によって設定することができる。

いくつかの実施形態では、テキストの音声への変換は、図２に関連して説明したように、生成された音声（図示せず）中の１つまたは複数の位置へのオーディオマーカの挿入を含むことができる。それらのオーディオマーカが挿入される位置は、設定した値および／またはユーザ指定の値に基づくことができる。

動作４１０で、動作４０４で生成された複数の部分のデジタルテキストから音声への変換は、図２および図３に関連して上で説明したように、例えば、変換コントローラ（例えば、変換コントローラ２０８）によって制御することができる。この変換の制御には、少なくとも変換パラメータ値が設定された各部分について、少なくとも部分的には、その部分について設定された１つまたは複数の変換パラメータ値に基づいて、その部分の変換を行うことが含まれ得る。例えば、変換の制御には、図２および図３に関連して上で説明したように、複数の部分とそれらの部分に関連する変換パラメータ値とを、ＳＡＰＩ（例えば、ＳＡＰＩ２２０）を介して、ＴＳＥ（例えば、ＴＳＥ２２２）に送ることが含まれ得る。

いくつかの実施形態では、複数の部分の変換には、オーディオファイルを生成することと、複数の変換された部分（例えば、音声）をオーディオファイルに保存すること（動作４１２）と、オーディオファイルを圧縮オーディオファイルに圧縮すること（動作４１４）とが含まれ得る。例えば、ＴＳＥは、（例えば、非圧縮）オーディオファイルを生成して、それを圧縮命令と一緒に圧縮エンジンに送ることができ、圧縮エンジンは、圧縮オーディオファイルを生成することができる。いくつかの実施形態では、オーディオファイルを生成する代わりに、またはそれに加えて、例えば、１つまたは複数のスピーカから音声をオーディオとして再生できるオーディオ再生エンジンに、生成された音声を送ることができる。

方法４００はその動作を実行し、それらの方法および動作の様々な実施形態およびその変形は、個別にまたは組み合わせて、例えば、不揮発性記録媒体、集積回路メモリ要素、またはそれらの組合せなど、１つまたは複数のコンピュータ読取り可能媒体に有形に実施されるコンピュータ可読信号によって定義することができる。コンピュータ読取り可能媒体は、コンピュータによってアクセス可能な任意の利用可能な媒体とすることができる。例えば、コンピュータ読取り可能媒体には、コンピュータ記憶媒体と通信媒体が含まれ得るが、これらに限定されるものではない。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータといった情報を記憶するための任意の方法または技法で実施される、揮発性および不揮発性媒体、着脱可能および着脱不能媒体が含まれる。コンピュータ記憶媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、またはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、またはその他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶、またはその他の磁気記憶装置、その他のタイプの揮発性および不揮発性メモリ、所望の情報を記憶するのに使用でき、コンピュータによってアクセスできる、その他の任意の媒体、ならびに上記の任意の適切な組合せが含まれるが、これらに限定されるものではない。通信媒体は一般に、搬送波またはその他の移送機構などの変調データ信号中に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを表すものであり、任意の情報送達媒体を含む。「変調データ信号」という用語は、信号中に情報を符号化するための方式によって、１つまたは複数の特性を設定または変更された信号を意味する。例えば、通信媒体には、有線ネットワークまたは直接線接続などの有線媒体、音響、ＲＦ、赤外線、およびその他の無線媒体などの無線媒体、その他のタイプの通信媒体、ならびに上記の任意の適切な組合せが含まれるが、これらに限定されるものではない。

１つまたは複数のコンピュータ読取り可能媒体上に実施されるコンピュータ可読信号は、例えば、コンピュータによって実行された結果、本明細書で説明する１つまたは複数の機能（例えば、方法４００およびその動作）を実行するように、および／または様々な実施形態、変形、およびそれらの組合せを実行するようにコンピュータに命令する１つまたは複数のプログラムの一部として命令を定義することができる。そのような命令は、例えば、Ｊａｖａ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ、Ｃ、Ｃ＃、Ｃ＋＋、Ｆｏｒｔｒａｎ、Ｐａｓｃａｌ、Ｅｉｆｆｅｌ、Ｂａｓｉｃ、ＣＯＢＯＬなど、複数のプログラミング言語のいずれかで、またはそれらを様々に組み合わせて記述することができる。そのような命令が実施されたコンピュータ読取り可能媒体は、本明細書で説明するシステム１００、２００、３００、５００、６００、７００、または８００の１つまたは複数の構成要素上に存在することができ、１つまたは複数のそのような構成要素に分散させることができ、およびそれらの間を移動中であることができる。

コンピュータ読取り可能媒体は、そこに保存された命令をコンピュータシステム資源にロードして、本明細書で説明する本発明の態様を実施できるように、移送可能とすることができる。さらに、上で説明したコンピュータ読取り可能媒体に保存された命令は、ホストコンピュータ上で動作するアプリケーションプログラムの一部として実施される命令に限定されないことを理解されたい。他にも、命令は、上で説明した本発明の態様を実施するようにプロセッサをプログラムするのに利用できる任意のタイプのコンピュータコード（例えば、ソフトウェアまたはマイクロコード）として実施することができる。

コンピュータシステム、例えば、本明細書で説明した機能を実行する、図２、図３、および図６に関連して説明したコンピュータシステムの任意の単一の構成要素または複数の構成要素の集まりは一般に、そのような機能を制御する１つまたは複数のコントローラと考えることができることを理解されたい。１つまたは複数のコントローラは、専用ハードウェアおよび／またはファームウェアを用いて、上で説明した機能を実行するマイクロコードまたはソフトウェアを使用してプログラムされたプロセッサを用いて、または上記の任意の適切な組合せによってなど、数々の方法で実施することができる。

上で説明した方法４００および／またはシステム２００から（例えば、音声がそれから生成されたテキストの文脈に基づいて）生成された音声は、既存のテキスト音声生成による音声よりも聞き手には快適である。したがって、ユーザは、そのようなテキスト変換音声を聞いてもうんざりすることは少なくなり、テキスト形式によるよりも音声形式で内容を聞き、また編集することが多くなるであろう。さらに、例えば、ポータブルメディアプレーヤなどを使用することによって、その他の活動を行いながら同時に、（以下でより詳しく説明するように）オーディオファイルを聞き、また編集することができるので、作業者および学生は、それらの活動を妨げられることなく作業を行うことができる。その結果、作業者および学生は、より生産性を高めることができる。

ここまでテキストを音声に変換するためのシステムおよび方法の実施形態について説明してきたが、次に、オーディオファイル内の生成音声を聞き、操作し、および／または編集するいくつかの実施形態について説明する。これらの実施形態は主として、ポータブルオーディオ装置上のオーディオファイルを聞き、操作し、および／または編集することに関連して説明されるが、本発明はそのようなものに限定されず、例えば、デスクトップコンピュータなど、様々なタイプの装置上においてオーディオファイルを聞き、操作し、および／または編集できることを理解されたい。

図５は、オーディオファイルを聞き、操作し、および／または編集するためのポータブルオーディオプレーヤ５００およびヘッドセット５０２の一実施例を示した図である。（ヘッドセット５０２付きまたは無しの）プレーヤ５００は、例えば、システム２００および／または方法４００によって生成された音声など、テキストから変換された音声を含むオーディオファイルを聞き、操作し、および／または編集するのに使用することができる。

ポータブルオーディオ装置は、例えば、ＰＭＰ、ＰＤＡ、セルラ電話、ディクタフォン、別のタイプの装置、または上記の任意の適切な組合せなど、様々なタイプの装置のいずれかとすることができる。ポータブルオーディオプレーヤ５００は、ディスプレイウィンドウ５０４、録音ボタン５０６、マイクロフォン５０８、一時停止／再生ボタン５１０、後方スキップボタン５１２、停止ボタン５１４、前方スキップボタン５１６、録音ボタン５１８、およびコントロールスライダ５２０を含むことができる。スライダ５２０は、例えば、前方スキップ位置５２２、再生位置５２４、停止位置５２６、および後方スキップ位置５２８の複数の位置のいずれかにスライドすることができる。したがって、コントロールスライダ５２０および録音ボタン５０６は、ボタン５１２〜５１８によって提供されるコントロールと重複するコントロールを提供することができ、ボタン５１２〜５１８だけを使用したのでは難しいポータブルオーディオ装置の片手操作をユーザが行えるようにすることができる。装置５００はまた、ヘッドセット５０２に加えて、またはその代わりに、１つまたは複数のスピーカ（図示せず）を含むことができる。

再生／一時停止ボタン５１０は、ユーザが、オーディオの現在の部分、例えば、歌または音声の部分を再生できるようにし、またそれらを一時停止できるようにする。後方スキップボタン５１２および前方スキップボタン５１６は、ユーザがポータブルオーディオ装置に保存されたオーディオコンテンツ内を移動できるようにする移動コントロールである。例えば、これらのボタンは、オーディオマーカによって標識づけされた次または前の歌またはテキスト部分にユーザが移動できるようにする。装置５００は、例えば、早送りおよび巻き戻しコントロールなど、追加の移動コントロールを含むことができる。さらに、スキップコントロールは、ユーザがこれらのコントロールボタンの１つを押しっぱなしにした場合、または立て続けに２回押した場合に、追加の機能を提供するように構成することができる。

録音ボタン５０６、５１８は、以下でより詳しく説明するように、既存のオーディオファイルへの新しいオーディオコンテンツ（例えば、音声）の録音をユーザが開始できるようにする。その後、ユーザは、録音を開始するために、マイクロフォン５０８に声を吹き込むことができる。

図６は、ポータブルオーディオ装置上でオーディオファイルを再生し、操作し、および編集するためのシステムの一実施例を示したブロック図である。システム６００は、そのようなシステムの例示的な一実施形態であるに過ぎず、本発明の範囲を限定しようとするものではない。そのようなシステムの他の数々の実施が、例えば、システム６００の変形が可能であり、それらは本発明の範囲に包含されるものとする。システム６００は、例えば、システム２００および／または方法４００によって生成された音声など、テキストから変換された音声を含むオーディオファイルを聞き、操作し、および／または編集するのに使用することができる。

システム６００は、ポータブルオーディオ装置（例えば、装置５００）内に収めることができ、ユーザインターフェース６０６、マイクロフォン６０８、アナログ／デジタル（Ａ／Ｄ）変換器６１４、ディスプレイコントローラ６１８、編集コントローラ６１０、移動コントローラ６１２、再生エンジン６１６、デジタル／アナログ（Ｄ／Ａ）変換器６２０、メモリ６２４、およびその他の構成要素を含むことができる。ユーザ入力インターフェース６０６は、ポータブルオーディオ装置のユーザから、例えば、再生命令、移動命令、および録音命令などのユーザ命令を受け取るように構成することができる。その後、ユーザインターフェースは、これらの命令を適切な装置に渡すことができる。例えば、再生命令は、再生エンジン６１６に送ることができ、移動命令は、移動コントローラ６１２に送ることができ、編集命令は、編集コントローラ６１０に送ることができる。

ユーザ命令、ならびに編集コントローラおよび移動コントローラと交換される情報に応答して、再生エンジン６１６は、１つまたは複数のオーディオファイル６２８にアクセスすることができ、適切な場合には、デジタルオーディオ情報をＤ／Ａ変換器６２０に送ることによって、これらのオーディオファイルの再生を制御することができる。Ｄ／Ａ変換器６２０は、スピーカに送るアナログ信号６２２を生成することができる。編集命令、例えば、録音命令に応答して、編集コントローラ６１０は、生音６０２（例えば、ユーザの声）を受け取るマイクロフォンを制御することができ、Ａ／Ｄ変換器６１４およびオーディオ符号器（図示せず）による生音のデジタルオーディオへの変換を制御することができる。編集コントローラ６１０はさらに、録音命令に応答して、メモリ６２４のオーディオファイル６２８にアクセスし、生音から生成されたデジタルオーディオをオーディオファイルの適切な位置に挿入することができる。

例えば、移動コントロール５１２、５１６、または位置５２２または５２８にあるコントロールスライダ５２０を使用することで、ユーザは、オーディオマーカを利用して、オーディオファイル内の音声を挿入したいと望む（オーディオマーカによって標識づけされた）位置に移動することができる。その後、ユーザは、ユーザ命令６０４によって受け取られた録音ボタン５０６または５１８を押して、ユーザ命令をユーザ入力インターフェース６０６に受け取らせることができ、ユーザ入力インターフェース６０６は、この命令を編集コントローラ６１０に送ることができる。編集コントローラ６１０は、ユーザによって提供された生音６０２を感知し、符号化するために、マイクロフォン６０８、Ａ／Ｄ変換器６１４、およびオーディオ符号器を制御することができる。編集コントロールは、オーディオマーカによって指示されるユーザが移動した位置でオーディオファイルを分割し、オーディオマーカの所に符号化された音を挿入するように構成することができる。

その後、編集コントロールは、オーディオファイルをメモリ６２４に保存し戻すことができ、再生エンジン６１６は、ユーザからの命令に応答して、編集済オーディオファイルをメモリから再生することができる。ディスプレイコントローラ６１８は、ユーザから受け取る再生命令、移動命令、および編集命令に影響を与え得る表示情報の状態に従って、情報をディスプレイ５０４に表示するために、編集コントローラ６１０、移動コントローラ６１２、および再生コントローラ６１６と通信するように構成することができる。

システム６００とその構成要素は、ソフトウェア（例えば、Ｃ、Ｃ＃、Ｃ＋＋、Ｊａｖａ（登録商標）、またはそれらの組合せ）、ハードウェア（例えば、１つまたは複数の特定用途向け集積回路）、ファームウェア（例えば、電気的プログラム可能メモリ）、またはそれらの任意の組合せを用いて実施することができる。システム６００の１つまたは複数の構成要素は、単一の装置（例えば、ポータブルオーディオ装置）上に存在することができ、または１つまたは複数の構成要素は、独立した個々の装置上に存在することができる。さらに、各構成要素を、複数の装置に分散させ、１つまたは複数の装置を相互接続することができる。

さらに、システム６００の１つまたは複数の構成要素を含む１つまたは複数の装置の各々で、各構成要素は、システムの１つまたは複数の位置に存在することができる。例えば、システム６００の構成要素の異なる部分は、装置上のメモリの異なる領域（例えば、ＲＡＭ、ＲＯＭ、ディスクなど）に存在することができる。そのような１つまたは複数の装置の各々は、構成要素の中でも特に、１つまたは複数のプロセッサ、メモリシステム、ディスクストレージシステム、１つまたは複数のネットワークインターフェース、および様々な構成要素を相互接続する１つまたは複数のバスあるいはその他の内部通信リンクなどの複数の既知の構成要素を含むことができる。システム６００とその構成要素は、図７および図８に関連させて以下で説明するようなコンピュータシステムを用いて実施することができる。

本発明による様々な実施形態は、１つまたは複数のコンピュータシステム上で実施することができる。これらのコンピュータシステムは、例えば、ＩｎｔｅｌＰＥＮＴＩＵＭ（登録商標）タイプのプロセッサ、ＭｏｔｏｒｏｌａＰｏｗｅｒＰＣ、ＳｕｎＵｌｔｒａＳＰＡＲＣ、Ｈｅｗｌｅｔｔ−ＰａｃｋａｒｄＰＡ−ＲＩＳＣプロセッサ、またはその他の任意のタイプのプロセッサに基づくものなど、汎用コンピュータとすることができる。１つまたは複数の任意のタイプのコンピュータシステムは、本発明の様々な実施形態に従って、テキストを音声に変換し、および／またはポータブルオーディオ装置上で音声を編集するのに使用できることを理解されたい。さらに、ソフトウェア設計システムは、単一のコンピュータシステム上に存在することができ、またはコンピュータネットワークによって接続された複数のコンピュータに分散させることができる。

本発明の一実施形態による汎用コンピュータシステムは、テキストを音声に変換し、および／またはポータブルオーディオ装置上で音声を編集するように構成することができる。このシステムはその他の機能も実行でき、本発明が特定の機能または機能の組を有するように限定されるものではないことを理解されたい。

例えば、本発明の様々な態様は、図７に示すような汎用コンピュータシステム７００で動作する専用ソフトウェアとして実施することができる。コンピュータシステム７００は、ディスクドライブ、メモリ、またはデータを保存するためのその他の装置など、１つまたは複数のメモリ装置７０４に接続されるプロセッサ７０３を含むことができる。メモリ７０４は一般に、コンピュータシステム７００の動作中にプログラムおよびデータを格納するために使用される。コンピュータシステム７００の構成要素は、相互接続機構７０５によって結合することができ、相互接続機構７０５には、（例えば、同じマシン内に組み込まれた構成要素の間の）１つまたは複数のバス、および／または（例えば、独立した個々のマシン上に存在する構成要素の間の）ネットワークが含まれ得る。相互接続機構７０５は、システム７００のシステム構成要素で情報（例えば、データ、命令）を交換できるようにすることができる。コンピュータシステム７００はまた、例えば、キーボード、マウス、トラックボール、マイクロフォン、タッチスクリーンなどの１つまたは複数の入力装置７０２と、例えば、プリンタ装置、ディスプレイ画面、スピーカなどの１つまたは複数の出力装置７０１を含む。さらに、コンピュータシステム７００は、（相互接続機構７０５に加えて、またはその代わりとして）コンピュータシステム７００を通信ネットワークに接続する１つまたは複数のインターフェース（図示せず）を含むことができる。

図８により詳しく示すストレージシステム７０６は一般に、プロセッサによって実行されるプログラム、またはプログラムによって処理される媒体８０１に保存される情報を定義する信号が保存される、コンピュータで読み書き可能な不揮発性記録媒体８０１を含む。媒体は、例えば、ディスクまたはフラッシュメモリとすることができる。一般に、動作中、プロセッサは、不揮発性記録媒体８０１から、プロセッサが媒体８０１にアクセスするより高速に情報にアクセスできる別のメモリ８０２にデータを読み込む。このメモリ８０２は一般に、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）またはスタティックメモリ（ＳＲＡＭ）など、揮発性のランダムアクセスメモリである。これは、図示するように、ストレージシステム７０６内に、または図示されてはいないが、メモリシステム７０４内に配置することができる。プロセッサ７０３は一般に、集積回路メモリ７０４、８０２内のデータを操作し、処理が完了した後、そのデータを媒体８０１にコピーする。媒体８０１と集積回路メモリ７０４、８０２の間のデータ移動を管理するための様々な機構が知られているが、本発明はそのようなものに限定されない。本発明は、特定のメモリシステム７０４またはストレージシステム７０６に限定されるものではない。

コンピュータシステムは、特別にプログラムされた専用ハードウェア、例えば、特定用途向け集積回路（ＡＳＩＣ）を含むことができる。本発明の態様は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せで実施することができる。さらに、そのような方法、動作、システム、システム要素、およびそれらの構成要素は、上で説明したコンピュータシステムの一部として、または独立の構成要素として実施することができる。

コンピュータシステム７００は、本発明の様々な態様を実行できる１つのタイプのコンピュータシステムを例として示されているが、本発明の態様は、図７に示すようなコンピュータシステム上で実施されるものに限定されない。本発明の様々な態様は、異なるアーキテクチャをもつ１つまたは複数のコンピュータ上、または図７に示される構成要素上で実行することができる。

コンピュータシステム７００は、高水準プログラミング言語を使用してプログラム可能な汎用コンピュータシステムとすることができる。コンピュータシステム７００はまた、特別にプログラムされた専用ハードウェアを使用して実施することができる。コンピュータシステム７００では、プロセッサ７０３は一般に、ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎから入手可能なよく知られているＰｅｎｔｉｕｍ（登録商標）クラスのプロセッサなど、市販のプロセッサである。その他の多くのプロセッサが利用可能である。そのようなプロセッサは通常、例えば、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能なＷｉｎｄｏｗｓ（登録商標）９５、Ｗｉｎｄｏｗｓ（登録商標）９８、Ｗｉｎｄｏｗｓ（登録商標）ＮＴ、Ｗｉｎｄｏｗｓ（登録商標）２０００（Ｗｉｎｄｏｗｓ（登録商標）ＭＥ）、またはＷｉｎｄｏｗｓ（登録商標）ＸＰオペレーティングシステム、ＡｐｐｌｅＣｏｍｐｕｔｅｒから入手可能なＭＡＣＯＳＳｙｓｔｅｍＸ、ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓから入手可能なＳｏｌａｒｉｓＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、または様々な提供元から入手可能なＵＮＩＸ（登録商標）とすることができるオペレーティングシステムを実行する。その他の多くのオペレーティングシステムを使用することができる。

プロセッサとオペレーティングシステムは一緒に、アプリケーションプログラムが高水準プログラミング言語でそれ向けに記述されるコンピュータプラットフォームを定義する。本発明が特定のコンピュータシステムプラットフォーム、プロセッサ、オペレーティングシステム、またはネットワークに限定されるものではないことを理解されたい。また、本発明が特定のプログラミング言語またはコンピュータシステムに限定されるものでないことは当業者には明らかであろう。さらに、その他の適切なプログラミング言語およびその他の適切なコンピュータシステムも使用できることを理解されたい。

コンピュータシステムの１つまたは複数の部分は、通信ネットワークに結合された１つまたは複数のコンピュータシステム（図示せず）に分散させることができる。これらのコンピュータシステムも、汎用コンピュータシステムとすることができる。例えば、本発明の様々な態様は、１つまたは複数のクライアントコンピュータにサービスを提供するように（例えば、サーバ）、または分散システムの一部として全体的なタスクを実行するように構成された１つまたは複数のコンピュータシステムに分散させることができる。例えば、本発明の様々な態様は、本発明の様々な実施形態による様々な機能を実行する、１つまたは複数のサーバシステムに分散された構成要素を含む、クライアント−サーバシステム上で実行することができる。これらの構成要素は、通信プロトコル（例えば、ＴＣＰ／ＩＰ）を使用して通信ネットワーク（例えば、インターネット）を介して通信を行う、実行可能な中間コード（例えば、ＩＬ）または解釈可能コード（例えば、Ｊａｖａ（登録商標））とすることができる。

本発明は特定のシステムまたはシステムグループ上で実行されるものに限定されないことを理解されたい。また、本発明は特定の分散アーキテクチャ、ネットワーク、または通信プロトコルに限定されないことを理解されたい。

本発明の様々な実施形態は、ＳｍａｌｌＴａｌｋ、Ｊａｖａ（登録商標）、Ｃ＋＋、Ａｄａ、またはＣ＃（Ｃシャープ）などのオブジェクト指向プログラミング言語を使用してプログラムすることができる。その他のオブジェクト指向プログラミング言語も使用することができる。代替として、関数型プログラミング言語、スクリプト型プログラミング言語、および／または論理型プログラミング言語を使用することができる。本発明の様々な態様は、非プログラム環境（例えば、ＨＴＭＬ、ＸＭＬ、またはその他の形式で作成され、ブラウザプログラムのウィンドウ内に表示されたとき、グラフィカルユーザインターフェース（ＧＵＩ）の外観を提供し、またはその他の機能を実行する文書）で実施することができる。本発明の様々な態様は、プログラム要素、非プログラム要素、またはそれらの任意の組合せとして実施することができる。

本発明のいくつかの例示的な実施形態を説明してきたが、上述の実施形態が単に例示的なもので、限定的なものではなく、例を提示するに過ぎないことは、当業者には明らかであろう。数々の変更および他の例示的な実施形態が、当業者の視野内にあり、本発明の範囲内に包含されることが企図されている。特に、本明細書で提示された多くの実施例は、方法の動作またはシステム要素の特定の組合せを含むが、それらの動作およびそれらの要素を、同じ目的を達成するために、他の方法で組み合わせ得ることを理解されたい。一実施形態との関連でのみ説明された動作、要素、および機能は、その他の実施形態における同様の役割から排除されるものではない。さらに、添付の特許請求の範囲で説明する１つまたは複数の手段および機能の限定について、その手段は、説明される機能を実行するための本明細書で開示された手段に限定されるものではなく、範囲内にある説明される機能を実行するための現在知られているまたは将来開発される任意の等価な手段を含むものとする。

特許請求の範囲における請求項要素を修飾するための「第１の」、「第２の」、「第３の」などの序数詞の使用は、それによって、いかなる優先権、優先順位、１つの請求項要素と別の請求項要素との順序関係、または方法の動作を実行する時間的順序も含意するものではなく、請求項要素を区別するために、ある名称をもつ１つの請求項要素を（序数詞がなければ）同じ名称をもつ別の請求項要素から区別するラベルとして使用されるに過ぎない。

本発明のいくつかの実施形態による、テキストをオーディオファイル内の音声に変換し、またオーディオファイルを編集するシステムの一実施形態を示した図である。本発明のいくつかの実施形態による、テキストを音声に変換するシステムの一実施例を示したブロック図兼データフロー図である。本発明のいくつかの実施形態による、構文解析エンジンの機能の一実施例を示したブロック図兼データフロー図である。本発明のいくつかの実施形態による、テキストを音声に変換する方法の一実施例を示したフローチャートである。本発明のいくつかの実施形態による、オーディオファイルを再生し、操作し、および編集するポータブルオーディオプレーヤの一実施例を示した図である。本発明のいくつかの実施形態による、オーディオファイルを再生し、操作し、および編集するシステムの一実施例を示したブロック図兼データフロー図である。本発明のいくつかの実施形態を実施できるコンピュータシステムの一実施例を示したブロック図である。本発明のいくつかの実施形態を実施するコンピュータシステムの一部として使用できる記憶システムの一実施例を示したブロック図である。

符号の説明

１００システム
１０２コンピュータ
１０３ディスプレイ画面
１０４表示
１０５テキスト
１０６部分
１０８メニュー項目
１１０コネクション
１１２、５００ポータブルオーディオ装置
５０２ヘッドセット
５０４ディスプレイウィンドウ
５０８マイクロフォン
５２０コントロールスライダ

Claims

テキストの音声への変換を制御する方法であって、
（Ａ）デジタルテキスト本文を受け取るステップと、
（Ｂ）前記デジタルテキスト本文を構文解析して複数の部分に分割するステップと、
（Ｃ）各部分について、前記部分が１つまたは複数の特定の属性をもつかどうかを決定するステップと、
（Ｄ）各部分について、前記部分が１つまたは複数の前記特定の属性をもつ場合、前記部分の１つまたは複数の変換パラメータ値を設定するステップと、
（Ｅ）前記複数の部分のデジタルテキストから音声への変換を制御するステップであって、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記変換を少なくとも部分的には前記部分に対して設定された前記１つまたは複数の変換パラメータ値に基づいて行うことを含むことと、
を備えたことを特徴とする方法。
前記ステップ（Ｅ）は、音声に変換するために前記複数の部分をテキスト音声変換エンジンに送るステップであって、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記１つまたは複数の変換パラメータ値を送ることを含むことを含むことを特徴とする請求項１に記載の方法。
（Ｆ）前記音声をオーディオファイルとして保存するステップをさらに備えたことを特徴とする請求項１に記載の方法。
（Ｆ）前記音声をオーディオ再生装置に送るステップをさらに備えたことを特徴とする請求項１に記載の方法。
各部分の前記１つまたは複数の特定の属性は、前記部分の文脈を表すことを特徴とする請求項１に記載の方法。
前記ステップ（Ｂ）は、前記複数の部分の各々が単語であるように、前記テキスト本文を構文解析して複数の単語に分割するステップを含むことを特徴とする請求項１に記載の方法。
前記ステップ（Ｂ）は、前記複数の部分の各々が少なくとも文の部分であるように、前記テキスト本文を句読点に基づいて構文解析するステップを含むことを特徴とする請求項１に記載の方法。
前記ステップ（Ｂ）は、前記複数の部分の各々が文であるように、前記テキスト本文を構文解析して複数の文に分割するステップを含むことを特徴とする請求項１に記載の方法。
前記ステップ（Ｂ）は、前記複数の部分の各々が段落であるように、前記テキスト本文を構文解析して複数の段落に分割するステップを含むことを特徴とする請求項１に記載の方法。
前記ステップ（Ｂ）は、各部分について、前記部分がある種のフォーマット属性および／または編成的（ｏｒｇａｎｉｚａｔｉｏｎａｌ）属性をもつかどうかを決定するステップを含むことを特徴とする請求項１に記載の方法。
前記デジタルテキスト本文は、デジタル文書の一部分だけであることを特徴とする請求項１に記載の方法。
（Ｆ）前記音声中の１つまたは複数の位置にオーディオマーカが含まれるように前記変換を制御するステップをさらに備えたことを特徴とする請求項１に記載の方法。
（Ｆ）前記複数の部分の各々について分析する１つまたは複数の属性をユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項１に記載の方法。
（Ｆ）前記デジタルテキスト本文を構文解析してどのようなタイプの前記複数の部分に分割するかをユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項１に記載の方法。
（Ｆ）１つまたは複数の個々の属性に対応する１つまたは複数の変換パラメータ値をユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項１に記載の方法。
（Ｆ）オーディオマーカを挿入する１つまたは複数の位置をユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項１に記載の方法。
テキストの音声への変換を制御するシステムであって、
デジタルテキスト本文を受け取り、前記デジタルテキスト本文を構文解析して複数の部分に分割し、各部分について、前記部分が１つまたは複数の特定の属性をもつかどうかを決定し、１つまたは複数の前記特定の属性をもつ各部分について、前記部分の１つまたは複数の変換パラメータ値を設定し、前記複数の部分のデジタルテキストから音声への変換を制御し、その制御には、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記変換を少なくとも部分的には前記部分に対して設定された前記１つまたは複数の変換パラメータ値に基づいて行うことが含まれる変換コントローラを備えたことを特徴とするシステム。
前記変換コントローラはさらに、音声に変換するために前記複数の部分をテキスト音声変換エンジンに送るように動作し、その動作には、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記１つまたは複数の変換パラメータ値を送ることが含まれることを特徴とする請求項１７に記載のシステム。
前記変換コントローラはさらに、前記音声をオーディオファイルとして保存するための制御を行うように動作することを特徴とする請求項１７に記載のシステム。
各部分の前記１つまたは複数の特定の属性は、前記部分の文脈を表すことを特徴とする請求項１７に記載のシステム。
前記変換コントローラはさらに、前記音声をオーディオ再生装置に送るための制御を行うように動作することを特徴とする請求項１７に記載のシステム。
前記変換コントローラはさらに、前記複数の部分の各々が単語であるように、前記テキスト本文を構文解析して複数の単語に分割するように動作することを特徴とする請求項１７に記載のシステム。
前記変換コントローラはさらに、前記複数の部分の各々が少なくとも文の部分であるように、前記テキスト本文を句読点に基づいて構文解析するように動作することを特徴とする請求項１７に記載のシステム。
前記変換コントローラはさらに、前記複数の部分の各々が文であるように、前記テキスト本文を構文解析して複数の文に分割するように動作することを特徴とする請求項１７に記載のシステム。
前記変換コントローラはさらに、前記複数の部分の各々が段落であるように、前記テキスト本文を構文解析して複数の段落に分割するように動作することを特徴とする請求項１７に記載のシステム。
前記変換コントローラはさらに、各部分について、前記部分がある種のフォーマット属性および／または編成的属性をもつかどうかを決定するように動作することを特徴とする請求項１７に記載のシステム。
前記デジタルテキスト本文は、デジタル文書の一部分であることを特徴とする請求項１７に記載のシステム。
前記変換コントローラは、前記音声中の１つまたは複数の位置にオーディオマーカが含まれるように前記変換を制御するようにさらに動作することを特徴とする請求項１７に記載のシステム。
前記複数の部分の各々について分析する１つまたは複数の属性をユーザが指定できるようにするユーザインターフェースをさらに備えたことを特徴とする請求項１７に記載のシステム。
前記デジタルテキスト本文を構文解析してどのようなタイプの前記複数の部分に分割するかをユーザが指定できるようにするユーザインターフェースをさらに備えたことを特徴とする請求項１７に記載のシステム。
１つまたは複数の個々の属性に対応する１つまたは複数の変換パラメータ値をユーザが指定できるようにするユーザインターフェースをさらに備えたことを特徴とする請求項１７に記載のシステム。
オーディオマーカを挿入する１つまたは複数の位置をユーザが指定できるようにするユーザインターフェースをさらに備えたことを特徴とする請求項１７に記載のシステム。
コンピュータを制御する命令を定義するコンピュータ可読信号を保存するコンピュータ読取り可能媒体であって、その命令は、コンピュータで実行した結果、テキストの音声への変換を制御するプロセスを実行するようにコンピュータを制御し、前記プロセスは、
（Ａ）デジタルテキスト本文を受け取るステップと、
（Ｂ）前記デジタルテキスト本文を構文解析して複数の部分に分割するステップと、
（Ｃ）各部分について、前記部分が１つまたは複数の特定の属性をもつかどうかを決定するステップと、
（Ｄ）各部分について、前記部分が１つまたは複数の前記特定の属性をもつ場合、前記部分の１つまたは複数の変換パラメータ値を設定するステップと、
（Ｅ）前記複数の部分のデジタルテキストから音声への変換を制御するステップであって、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記変換を少なくとも部分的には前記部分に対して設定された前記１つまたは複数の変換パラメータ値に基づいて行うことを含むステップと、
を備えたことを特徴とするコンピュータ読取り可能媒体。
前記ステップ（Ｅ）は、音声に変換するために前記複数の部分をテキスト音声変換エンジンに送るステップであって、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記１つまたは複数の変換パラメータ値を送ることを含むことを含むことを特徴とする請求項３３に記載のコンピュータ読取り可能媒体。
前記プロセスは、
（Ｆ）前記音声をオーディオファイルとして保存するステップをさらに備えたことを特徴とする請求項３３に記載のコンピュータ読取り可能媒体。
各部分の前記１つまたは複数の特定の属性は、前記部分の文脈を表すことを特徴とする請求項３３に記載のコンピュータ読取り可能媒体。
前記ステップ（Ｂ）は、各部分について、前記部分がある種のフォーマット属性および／または編成的属性をもつかどうかを決定するステップを含むことを特徴とする請求項３３に記載のコンピュータ読取り可能媒体。
前記プロセスは、
（Ｆ）前記音声中の１つまたは複数の位置にオーディオマーカが含まれるように前記変換を制御するステップをさらに備えたことを特徴とする請求項３３に記載のコンピュータ読取り可能媒体。
前記プロセスは、
（Ｆ）前記複数の部分の各々について分析する１つまたは複数の属性をユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項３３に記載のコンピュータ読取り可能媒体。
前記プロセスは、
（Ｆ）１つまたは複数の個々の属性に対応する１つまたは複数の変換パラメータ値をユーザが指定できるようにする、および／または前記デジタルテキスト本文を構文解析してどのようなタイプの前記複数の部分に分割するかをユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項３３に記載のコンピュータ読取り可能媒体。