JP2006323806A - テキストを音声に変換するシステムおよび方法 - Google Patents

テキストを音声に変換するシステムおよび方法 Download PDF

Info

Publication number
JP2006323806A
JP2006323806A JP2005284421A JP2005284421A JP2006323806A JP 2006323806 A JP2006323806 A JP 2006323806A JP 2005284421 A JP2005284421 A JP 2005284421A JP 2005284421 A JP2005284421 A JP 2005284421A JP 2006323806 A JP2006323806 A JP 2006323806A
Authority
JP
Japan
Prior art keywords
conversion
text
speech
audio
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005284421A
Other languages
English (en)
Inventor
Dean A Racovolis
アンソニー ラコボリス ディーン
Steven H Mitchell
ハリス ミッチェル スティーブン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006323806A publication Critical patent/JP2006323806A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

【課題】少なくとも部分的にはテキストの文脈に基づいてテキストを音声に変換する方法を提供する。
【解決手段】テキスト本文は、音声に変換する前に構文解析する。各部分を分析して、その部分が、文脈を表し得る1つまたは複数の特定の属性をもつかどうかを決定する。各テキスト部分の音声への変換は、例えば、そのテキスト部分に対する1つまたは複数の変換パラメータ値を設定することによって、これらの属性に基づいて制御することができる。テキスト部分と関連する変換パラメータ値は、音声への変換を実行するために、テキスト音声変換エンジンに送ることができ、生成された音声は、オーディオファイルとして保存することができる。オーディオファイル中の1つまたは複数の位置にオーディオマーカを挿入する。
【選択図】図2

Description

本発明は、テキストを音声に変換するシステムおよび方法に関し、より詳細にはテキストの文脈(context)に基づいてテキストを音声に変換するシステムおよび方法に関する。
今日の市場には、例えば、コンピュータでテキストを音声に変換する、様々なテキスト音声変換エンジン(TSE:text−to−speech engine)が出回っている。一般に、これらのTSEは、コンピュータ上で動作するアプリケーションによって起動される。アプリケーションは、標準的な音声アプリケーションプログラミングインターフェース(SAPI:Speech Application Programming Interface)においてプログラミングフック(programming hook)を利用して、SAPIに対してプログラミングコールを実行することにより、TSEを起動する。TSEは、テキストを音声に変換し、その音声をコンピュータのスピーカを介してユーザに聞かせる。例えば、いくつかのシステムは、電子メールのメッセージを音声として聞かせることによって、また場合によっては、ネットワーク上のユーザの電子メールサーバにアクセスしたユーザの電話を介して音声を聞かせることによって、ユーザがメッセージを聞けるようにする。
United States Patent Office Manual of Patent Examining Procedures (Eighth Edition, Revision 2, May 2004), Section 2111 03
大多数のTSEによって再生される音声を聞いて好印象をもつ人はほとんどいない。テキストを変換した音声はしばしば、ロボットの声を聞くようだと評される。いくつかのTSEは、より洗練されており、より人間らしい声で話す。しかし、そのようなTSEであっても、やがては聞くに堪えなくなる。これは、TSEがテキストの構文を認識するように構成されており、テキストの文脈(context)を認識するようには構成されていないためである。すなわち、TSEは、テキストの文法、構造、および内容を認識するように構成されており、事前定義された規則をこの認識に基づいて適用する。しかし、文が見出しの一部であるか、ボールド体もしくはイタリック体で書かれているか、すべて大文字で書かれているか、または中黒が先頭に付いているかどうかといったようなことは考慮しない。したがって、テキストは、文脈とは関係なく、常に同じ調子で変換される。しばらくすると、聞き手は、このような方式でテキストから変換された音声を聞くのにうんざりし、音声は余計なものに思い始める。
本明細書では、少なくとも部分的にはテキストの文脈に基づいて、テキストを音声に変換するシステムおよび方法について説明する。テキスト本文は、音声に変換する前に、構文解析することができる。テキストは構文解析して、例えば、節、章、ページ、段落、文および/または(例えば、句読点および文法上のその他の規則に基づく)文の部分、単語、または文字などの部分に分割することができる。各部分は、文脈(例えば、言語的文脈)を示唆し得る1つまたは複数の特定の属性をもつかどうかを決定するために分析することができる。例えば、テキストの部分がインデントされているか、中黒が先頭に付いているか、イタリック体で書かれているか、ボールド体で書かれているか、下線が引かれているか、二重下線が引かれているか、下付き文字か、上付き文字か、ある句読点が欠けているか、ある句読点を含んでいるか、テキストの他のフォントサイズと比べて異なるフォントサイズが使われているか、すべて大文字で書かれているか、タイトル文字で書かれているか、ある方法(例えば、右揃え、中央揃え、左揃え、または両端揃え)で行揃えが行われているか、見出しの少なくとも一部か、ヘッダもしくはフッタの少なくとも一部か、表内容(TOC:table of contents)の少なくとも一部か、脚注の少なくとも一部か、その他の属性をもつか、または上記の属性を任意に組み合わせたものをもつかどうかを決定することができる。テキストの部分の音声への変換は、例えば、その部分に対する1つまたは複数の変換パラメータ値を設定することによって、これらの属性に基づいて調整することができる。与えられたテキストの部分について、音量、拍子の速さ、声のアクセント、声の揺らぎ、音節の強調、当該部分の前および/または後の間、その他のパラメータ、および上記のパラメータの任意の適切な組合せのうち任意の変換パラメータの値を設定することができる。これらのパラメータの任意のものの値を設定することができ、与えられたテキストの部分と一緒にテキスト音声変換エンジン(TSE)に送ることができる。例えば、標準的な音声API(SAPI)に対して、あるSAPIパラメータへの値の設定を伴う、プログラミングコールを実行することができる。
テキストは、ユーザが選択することができ、例えば、ワードプロセッサ(例えば、Microsoft(登録商標)Word)文書、表計算(例えば、Excel(商標))文書、プレゼンテーション(例えば、PowerPoint(登録商標))文書、電子メール(例えば、Outlook(登録商標))メッセージ、または別のタイプの文書などのデジタル文書の全体とすることができる。あるいは、テキストは、例えば、上記の任意のものの部分など、文書の部分とすることができる。
得られた音声は、オーディオ再生装置に送り、(例えば、1つまたは複数のスピーカを使用して)音声を聞かせることができ、および/または記録媒体にオーディオファイル(例えば、圧縮オーディオファイル)として保存することができる。さらに、変換プロセスは、音声に(例えば、1つまたは複数の部分の間に)オーディオマーカを含めるステップを含むことができる。本明細書で使用する「オーディオマーカ」という用語は、オーディオファイル内においてオーディオファイル内容の部分同士の境界を示す標識を意味する。そのようなオーディオマーカは、例えば、オーディオファイルを構文解析し、オーディオファイルを操作し、オーディオファイルの1つまたは複数の部分を削除し、1つまたは複数の部分を並び替え、および/またはオーディオファイルに追加の内容を挿入するために利用することができる。例えば、オーディオマーカは、ポータブルオーディオ装置にオーディオファイルとして保存できる生成音声中に含めることができる。本明細書で使用する「ポータブルオーディオ装置」という用語は、携帯使用向きに作成および構成された、音を再生できる、例えば、ポータブルメディアプレーヤ(PMP)、携帯情報端末(PDA)、セル電話、ディクタフォン(dictaphone)、または別のタイプのポータブルオーディオ装置などの装置を意味する。
ユーザは、ポータブルオーディオ装置で生成音声を聞くことができ、ポータブルオーディオ装置は、ユーザが、例えば、音声中のオーディオマーカを用いて、音声の操作および編集を行えるように構成することができる。編集後、テキストが音声形態をとっていた間にユーザによって施された編集を含んだテキストに、音声を変換し戻すことができる。
上で説明した方式でテキストからオーディオファイルを作成し、それを編集することによって、ユーザは、例えば、運動や用足しなどの他の活動を同時に行いながら、文書およびその他の文献を聞き、また編集することができる。さらに、ユーザは、(より早く疲れやすい)目、手、および手首の代わりに、自らの耳と口を使用して、内容を聞き、また編集することができる。ある種の身体障害をもつ人々は、このようなシステムおよび方法によって、その他の方法では経験し、また編集することができない内容を、経験し、また編集することができるようになるであろう。
そのような文脈ベースのテキスト音声変換を可能にするシステムは、上で説明したような変換を制御する変換コントローラを含むことができる。コントローラは、例えば、TSEへのインターフェースとして機能するSAPIに対してプログラミングコールを実行することによってTSEを制御するように構成することができる。さらに、変換コントローラは、例えば、MP3(MPEGオーディオレイヤ−3)ファイルまたはWMA(Windows(登録商標)メディアオーディオ)ファイルなどの圧縮オーディオファイルに音声を圧縮する圧縮エンジンを制御するように構成することができる。あるいは、変換コントローラは、圧縮エンジンを使用せず、例えば、WAVファイルのように、音声を圧縮しないでおくこともできる。
変換コントローラは、プログラマによって構成定義することができ、および/またはシステムは、変換の1つまたは複数の態様をユーザが設定できるようにするユーザインターフェースを含むことができる。例えば、ユーザインターフェースは、テキストを構文解析してどのようなタイプの部分に分割するか、部分のどの属性を分析するか、また属性の分析に基づいて変換パラメータ値をどのような値にするかをユーザが設定できるようにすることができる。
本発明の一実施形態では、テキストの音声への変換は制御される。デジタルテキスト本文が受信され、構文解析を受けて複数の部分に分割される。各部分について、その部分が1つまたは複数の特定の属性をもっているかどうかが決定され、その部分が1つまたは複数の特定の属性をもっている場合、その部分の1つまたは複数の変換パラメータ値が設定される。複数の部分のデジタルテキストから音声への変換は制御される。変換パラメータ値が設定された少なくとも各部分について、その部分の変換は、少なくとも部分的には、その部分に対して設定された1つまたは複数の変換パラメータ値に基づいて行われる。
この実施形態の一態様では、変換制御は、音声に変換するために複数の部分をテキスト音声変換エンジンに送るステップを含み、このステップは、変換パラメータ値が設定された少なくとも各部分について、その部分の1つまたは複数の変換パラメータ値を送るステップを含む。
この実施形態の別の態様では、音声は、圧縮できるオーディオファイルとして保存される。
この実施形態の別の態様では、各部分の1つまたは複数の特定の属性は、その部分の文脈を表す。
この実施形態の別の態様では、音声は、オーディオ再生装置に送られる。
この実施形態のその他の態様では、テキスト本文は、複数の部分の各々が、節、章、ページ、段落、文、(例えば、句読点に基づく)少なくとも文の部分、単語、または文字にそれぞれなるように構文解析を受けて、複数の節、章、ページ、段落、文、少なくとも文の部分、単語、または文字に分割される。
この実施形態のさらに別の態様では、各部分について、その部分が、ある種のフォーマット属性および/または編成的属性をもつかどうかが決定される。
この実施形態の別の態様では、デジタルテキスト本文は、デジタル文書の一部分であるに過ぎない。
この実施形態の別の態様では、音声が1つまたは複数の位置にオーディオマーカを含むように変換が制御される。
この実施形態の様々な態様では、複数の部分の各々について分析する1つまたは複数の属性を指定すること、デジタルテキスト本文を構文解析してどのようなタイプの複数の部分に分割するかを指定すること、1つまたは複数の個々の属性に対応する1つまたは複数の変換パラメータ値を指定すること、あるいはオーディオマーカを挿入する1つまたは複数の位置を指定することのうち1つまたは複数をユーザが行えるようにする、ユーザインターフェースが提供される。
本発明の別の実施形態では、コンピュータで実行した結果、これまでの段落で説明した本発明の実施形態および/またはこれまでの段落で説明した1つまたは複数の実施形態の態様を実行するようにコンピュータに命令する命令を定義するコンピュータ可読信号を保存するコンピュータ読取り可能媒体が提供される。
別の実施形態では、テキストの音声への変換を制御するためのシステムが提供される。このシステムは、デジタルテキスト本文を受信し、デジタルテキスト本文を構文解析して複数の部分に分割する変換コントローラを含む。変換コントローラはまた、各部分について、その部分が1つまたは複数の特定の属性をもつかどうかを決定し、1つまたは複数の特定の属性をもつ各部分について、その部分の1つまたは複数の変換パラメータ値を設定するように動作する。変換コントローラはまた、複数の部分のデジタルテキストから音声への変換を制御するように、また変換パラメータ値が設定された少なくとも各部分については、その部分の変換を、少なくとも部分的には、その部分に対して設定された1つまたは複数の変換パラメータ値に基づいて制御するように動作する。
この実施形態の一態様では、変換コントローラはさらに、音声に変換するために複数の部分をテキスト音声変換エンジンに送るように、また変換パラメータ値が設定された少なくとも各部分については、その部分の1つまたは複数の変換パラメータ値も送るように動作する。
この実施形態の別の態様では、変換コントローラはさらに、圧縮できるオーディオファイルとして音声を保存するための制御を行うように動作する。
この実施形態の別の態様では、各部分の1つまたは複数の特定の属性は、その部分の文脈を表す。
この実施形態のさらに別の態様では、変換コントローラはさらに、オーディオ再生装置に音声を送るための制御を行うように動作する。
この実施形態のその他の態様では、変換コントローラはさらに、テキスト本文を構文解析して、複数の部分の各々が、節、章、ページ、段落、文、(例えば、句読点に基づく)少なくとも文の部分、単語、または文字にそれぞれなるように、複数の節、章、ページ、段落、文、少なくとも文の部分、単語、または文字に分割するように動作する。
この実施形態の別の態様では、変換コントローラはさらに、各部分について、その部分が、ある種のフォーマット属性および/または編成的属性をもつかどうかを決定するように動作する。
この実施形態の別の態様では、デジタルテキスト本文は、デジタル文書の一部分であるに過ぎない。
この実施形態の別の態様では、変換コントローラはさらに、オーディオマーカが音声中の1つまたは複数の位置に含まれるように変換を制御するように動作する。
この実施形態のさらに別の態様では、システムはさらに、複数の部分の各々について分析する1つまたは複数の属性を指定すること、デジタルテキスト本文を構文解析してどのようなタイプの複数の部分に分割するかを指定すること、1つまたは複数の個々の属性に対応する1つまたは複数の変換パラメータ値を指定すること、あるいはオーディオマーカを挿入する1つまたは複数の位置を指定することのうち1つまたは複数をユーザが行えるようにする、ユーザインターフェースを含む。
本発明のその他の利点、新規な特徴、および目的、ならびに本発明の態様および実施形態は、本発明の態様および実施形態を含む、本発明についての以下の詳細な説明を、添付の図面と併せて考察することから明らかとなるだろうが、添付の図面は概略的であり、必ずしも実寸に比例して描かれてはいない。図面において、様々な図面に現れる同一またはほぼ同一の各構成要素は、単一の番号で表される。あえて図示しなくても、当業者が本発明を理解するのに支障がない場合、明瞭性のため、どの図面でも、すべての構成要素に番号が付されているわけではなく、本発明の各実施形態および態様の構成要素がすべて示されているわけではない。
ここで、少なくとも部分的にはテキストの文脈に基づいて、テキストを音声に変換するシステムおよび方法について説明する。これらのシステムおよび方法は、主として、生成音声をオーディオファイルに保存することに関して説明されるが、本発明は、そのように限定されるものではない。代替として、または生成音声をオーディオファイルとして保存するのに加えて、生成音声は、例えば、1つまたは複数のスピーカを介した音声の再生を制御するオーディオ生成装置に送ることもできる。
本発明の上記およびその他の実施形態の機能および利点は、以下で説明する実施例からより深く理解することができるであろう。以下の実施例は、より良い理解の助けとなることを、また本発明の利点を例示することを意図したものであり、本発明の完全な範囲を示すものではない。
詳細な説明または特許請求の範囲にかかわらず、本文書で使用される「含む(comprising)」、「含む(including)」、「備える(carrying)」、「有する(having)」、「含む(containing)」、「含む(involving)」などの語は、制限のないものと理解され、すなわち、限定することなく含むことを意味する。ただし、自動詞「から構成される(consisting of)」および「から基本的に構成される(consisting essentially of)」だけは、特許請求の範囲に関連して非特許文献1で説明されるように、それぞれ制限のある自動詞、一部制限のある自動詞である。
図1に、本発明のいくつかの実施形態による、テキストをオーディオファイル中の音声に変換し、オーディオファイルを編集するためのシステム100の一実施形態を示した図を示す。システム100は、そのようなシステムの例示的な一実施形態であるに過ぎず、本発明の様々な実施形態に説明上の背景を提供することを意図したものである。そのようなシステムの他の数々の実施は、例えば、システム100の変形が可能であり、それらは本発明の範囲に包含されるものとする。例えば、図1には、ノート型またはラップトップ型コンピュータが示されているが、その他のタイプのコンピュータ、例えば、デスクトップPCまたはワークステーションも使用できることを理解されたい。さらに、システム100は、例えば、コンピュータ102、ポータブルオーディオ装置112、または別のタイプの装置など、単一の装置で実施することもできる。
システム100は、コネクション110によって互いに接続できる任意のコンピュータ102とポータブルオーディオ装置112を含むことができ、コネクション110は、例えば、ユニバーサルシリアルバス(USB)、または光接続もしくは無線接続を含む任意の適切なタイプのコネクションとすることができる。コンピュータ102は、アプリケーション(例えば、Microsoft(登録商標)Word)実行の一部としてユーザインターフェース(例えば、グラフィカルユーザインターフェース(GUI))によって制御されるユーザインターフェース表示104(例えば、GUI表示)を表示可能なディスプレイ画面103を含むことができる。ユーザインターフェース表示は、書かれたテキスト105を表示することができる。本明細書で使用する「ユーザインターフェース」という用語は、アプリケーションの実行中にユーザがアプリケーションとインターフェースをとれるようにする、アプリケーションまたはアプリケーションの部分(すなわち、1組のコンピュータ可読命令)を意味する。ユーザインターフェースは、アプリケーションがどのようにユーザに情報を出力するか、例えば、コンピュータ画面またはその他の手段によって視覚的によるか、スピーカまたはその他の手段によって聴覚的によるか、ゲームコントローラまたはその他の手段によって手動的によるかを規定するコードを含むことができる。そのようなユーザインターフェースはまた、アプリケーションの実行中にユーザがどのように情報を入力するか、例えば、マイクロフォンを用いて聴覚的によるか、またはキーボード、マウス、ゲームコントローラ、トラックボール、タッチスクリーン、もしくはその他の手段を用いて手動的によるかを規定するコードを含むことができる。
ユーザインターフェースは、情報をユーザに視覚的に提示(すなわち、表示)する方法を規定することができ、ユーザが情報の視覚的提示(すなわち、表示)を操作し得る方法、および視覚的提示に基づいて情報を入力し得る方法を規定する。アプリケーションの実行中、ユーザインターフェースは、情報の視覚的提示を制御することができ、ユーザが視覚的提示を操作し、視覚的提示に基づいて情報を入力し得るようにすることができる。ユーザインターフェースのタイプは、ユーザがコマンドをタイプするコマンド駆動式インターフェース、ユーザがメニューから情報を選択するメニュー駆動式インターフェース、およびそれらの組合せから、一般にコンピュータのグラフィックス機能をより積極的に利用し、より柔軟性があり、また直感的で操作が容易であり、コマンド駆動式やメニュー駆動式のビジュアルユーザインターフェースよりも魅力的な「ルックアンドフィール」をもったGUIにまでわたる。
本明細書では、ユーザインターフェースまたはGUIによって提示される情報の視覚的提示は、それぞれ「ユーザインターフェース表示」または「GUI表示」と呼ばれる。
表示104を提供するユーザインターフェースは、ユーザがデジタル文書またはその部分、例えば、部分106を選択できるように、また、例えば、ファイルメニュー109からメニュー項目108を選択することによって、選択テキストを音声に変換(すなわち、音声として保存)するようユーザが指定できるように構成することができる。その後、テキスト106の本文を音声に変換し、オーディオファイルとして保存することができる。オーディオファイルは、以下でより詳しく説明するように、オーディオファイルを再生し、操作し、編集し、またネットワークセグメント110を介してコンピュータ102に送り返すことのできるポータブルオーディオ装置112にダウンロードすることができる。
図1には示されていないが、メニュー109またはユーザインターフェース表示104の別の部品は、音声化した選択テキストをオーディオファイルとして保存するのに加えて、または保存する代わりに、選択テキストを音声として再生するかどうかのオプションをユーザに提供することができる。ユーザがこのオプションを選択した場合、選択テキストは、コンピュータ102またはコンピュータの周辺装置によって、音声として再生することができる。さらに、テキストから生成されたオーディオファイルは、ポータブルオーディオ装置112によって再生されるものに限定されず、コンピュータ102上に存在する1つまたは複数のアプリケーションを用いて再生できることを理解されたい。さらに、コンピュータ上に存在する機能として本明細書で説明される機能は、適切に作成および構成されたポータブルオーディオ装置に存在することができ、その反対も可能である。
図2は、本発明のいくつかの実施形態による、テキストを音声に変換するシステム200の一実施例を示したブロック図兼データフロー図である。システム200は、そのようなシステムの例示的な一実施形態であるに過ぎず、本発明の範囲を限定しようとするものではない。そのようなシステムの他の数々の実施は、例えば、システム200の変形が可能であり、それらは本発明の範囲に包含されるものとする。
システム200は、任意のユーザインターフェース206、変換コントローラ208、SAPI220、TSE222、圧縮エンジン226、記録媒体230、およびその他の構成要素を含むことができる。本明細書で使用する「アプリケーションプログラミングインターフェース」または「API」という用語は、機能を定義して、そのような機能がコンピュータ上でアプリケーションプログラムと連動して実行されるように構成する、1つまたは複数の他の1組のコンピュータ可読命令へのアクセスを提供する、1組の1つまたは複数のコンピュータ可読命令を意味する。APIは、アプリケーションプログラムと特定のコンピュータ環境またはプラットフォーム(例えば、以下で説明するもの)との間の「接着剤」と考えることができ、1つまたは複数の特定のコンピュータプラットフォーム上で、または1つまたは複数のコンピュータ環境内で動作するアプリケーションを、プログラマがプログラムできるようにすることができる。
変換コントローラ208は、少なくとも部分的にはテキストの文脈に基づいて、テキストの音声への変換を制御するように構成することができ、任意の構文解析エンジン212、および圧縮コントローラ214を含むことができる。変換コントローラ208は、テキスト202と、おそらくはユーザ指定の変換制御値204とを受け取り、それらに基づいた音声生成を制御するように構成することができる。変換コントローラ208の挙動は、テキストを受け取る前に、例えば、プログラマによって、変換制御構成定義値210を使用して設定することができる。例えば、構成定義値210は、以下でより詳しく説明するように、変換コントローラのデフォルトの挙動を制御することができる。デフォルトの挙動は、1つまたは複数のユーザ指定の値204によって打ち消す(override)ことができる。
構文解析エンジン212は、テキスト202の本文を構文解析して、SAPI220を介してTSE222に送ることができる変換入力216を生成するように構成することができる。構文解析エンジン212は、テキスト202を構文解析して、例えば、節、章、ページ、段落、文および/または(例えば、句読点および文法上のその他の規則に基づく)文の部分、単語、文字、またはその他のタイプの部分など、複数のタイプの部分のいずれかに分割するように構成することができる。例えば、構成定義値210は、構文解析エンジン212がテキストを構文解析してどのタイプの部分に分割するか、そのデフォルトタイプを設定することができる。このタイプは、ユーザ指定の変換制御値204に含まれるユーザ指定のタイプによって打ち消す(override)ことができる。本明細書では、「複数」は、2以上を意味する。
構文解析エンジン212および変換コントローラ208は一般に、テキストがそこから選択されるアプリケーションによって提供される情報を利用するように、(例えば、構成定義値210および/またはユーザ指定値204を用いて)構成できることを理解されたい。例えば、多くのアプリケーションは、文書中の節、章、ページ、段落、文、文の部分、単語、および/または文字の境界を表す情報を維持する。変換コントローラ208およびその構成要素は、以下でより詳しく説明するように、この情報を利用して、テキストを構文解析し、分析するように構成することができる。例えば、Word文書中で、Wordは、テキスト本文を特別の「段落」と通常の「段落」に分割することができる。Wordの「段落」は、必ずしも文法的な意味での段落に関連するとは限らないことを理解されたい。例えば、Wordは、見出しを通常の段落ではなく、特別なタイプの段落として定義することができる。構文解析エンジン212は、この情報を利用し、Wordテキスト本文を構文解析して、Word段落に分割するように構成することができる。
構文解析エンジン212は、テキストを構文解析して、より細かい単位に分割するように構成することができる。例えば、構文解析エンジンは、テキスト中のピリオドを識別することによって、テキストを構文解析することができ、または、例えば、カンマ、セミコロン、コロン、ピリオド、およびハイフンなどの句読点に基づいて、テキストを構文解析することができる。この構成では、テキストは、文中の句読点に応じて、文および文の部分に分割することができる。さらに、構文解析エンジン212は、テキストを構文解析して、単語に分割するように構成することができる。
構文解析エンジン212は、テキストを構文解析した各部分を分析して、例えば、その部分が1つまたは複数の特定の属性(例えば、フォーマット属性および/または編成的属性)をもつかどうかを決定するように構成することができる。そのような属性は、部分の文脈を表すことができ、したがって、この文脈を反映するようにテキストを音声に変換する方法を変更するために使用することができる。例えば、構文解析エンジン212は、テキストの部分がインデントされているか、中黒が先頭に付いているか、イタリック体で書かれているか、ボールド体で書かれているか、下線が引かれているか、二重下線が引かれているか、下付き文字か、上付き文字か、ある句読点が欠けているか、ある句読点を含んでいるか、テキストの他のフォントサイズと比べて異なるフォントサイズが使われているか、すべて大文字で書かれているか、タイトル文字で書かれているか、ある方法(例えば、右揃え、中央揃え、左揃え、または両端揃え)で行揃えが行われているか、見出しの少なくとも一部か、ヘッダもしくはフッタの少なくとも一部か、TOCの少なくとも一部か、脚注の少なくとも一部か、その他の属性をもつか、または上記の属性を任意に組み合わせたものをもつかどうかを決定するように構成することができる。構文解析エンジンは、1つまたは複数のこれらの属性に基づいて、テキストの部分のその他の属性を決定するように構成することができる。例えば、構文解析エンジン212は、テキストの部分がピリオドで終了していない、中央に行揃えされている、すべて大文字で書かれている、タイトル文字で書かれている、下線が引かれている、またはボールド体で書かれているといった属性の1つまたは複数の組合せをもつ場合、そのテキストの部分が見出しであると決定するように構成することができる。
構文解析エンジンは、部分の1つまたは複数の変換パラメータ値を、例えば、その部分の1つまたは複数の決定された属性に基づいて、設定するように構成することができる。これらの1つまたは複数の変換パラメータ値を設定することによって、テキストの文脈に基づいて、そのテキストの部分を音声に変換するようにTSE222を制御することができ、その結果、テキストをより実際の人間の声らしく音声化することができ、またテキストの重要部分に強調を加えることができる。さらに、人間の声らしく聞こえる音声は一般に、聞き手にとって、ロボットのような音声よりも快適である。例えば、TSE222は、受け取ったテキストの変換を制御するため、様々な変換パラメータ値の任意のものを用いて設定することができる。これらの変換パラメータ値には、音量、拍子の速さ、声のアクセント、声の揺らぎ、音節の強調、当該部分の前および/または後の間その他の変換パラメータ、および上記のパラメータの任意の適切な組合せが含まれ得る。構文解析エンジン212は、音声API220を介して、任意のこれらの変換パラメータの値を設定するように構成することができる。
例えば、構文解析エンジン212は、テキストの部分が見出しであると決定した場合、生成音声の音量を(例えば、2%)上げ、拍子の速さを(5%)下げ、生成音声の前後に(0.2秒)間を置くように変換パラメータ値を設定する。
構文解析エンジン212は、生成音声中の1つまたは複数の位置にオーディオマーカを含めるように(例えば、値210および/または値204によって)構成することができる。例えば、テキストを構文解析して分割した各部分の間にオーディオマーカを含めれば、望ましいであろう。あるいは、これらの位置の一部またはその他の位置に、オーディオマーカを置くこともできる。TSEの中には、生成した音声にそのようなマーカ(しばしば「ブックマーク」と呼ばれる)を挿入する機能をもつものもある。構文解析エンジン212は、適切な変換パラメータ値を設定することによって、TSEのこの機能を利用するように構成することができる。これらのオーディオマーカは、例えば、図5および図6に関連して以下により詳しく説明するように、生成音声が保存されたオーディオファイルの内容を操作し、また編集するために後に利用することができる。
ユーザインターフェース206は、例えば、値の選択および/または入力をユーザが行えるようにするユーザインターフェース表示を提供することによって、ユーザがユーザ指定の変換制御値204を提供できるように構成することができる。そのようなユーザインターフェース表示は、メニュー、ドロップボックス、ラジオボタン、テキストボックス、コンボボックス、または値の入力および/または選択をユーザが行えるようにする他の様々なタイプのコントロールを含むことができる。
図2から少々それると、図3は、本発明のいくつかの実施形態による、構文解析エンジン212の構文解析機能の一実施例を示したブロック図兼データフロー図である。構文解析エンジン212は、見出し302および段落304、306を含むテキスト202を受け取ることができる。設定された変換制御値210およびユーザ指定の変換制御値204に基づいて、構文解析エンジン212は、テキスト202を構文解析してテキスト部分に分割し、そのテキスト部分の属性を分析し、1つまたは複数の変換パラメータ値を設定し、変換入力216を生成することができる。変換入力216は、段落306、段落304、見出し302にそれぞれ対応する、入力308、314、320を含むことができる。各変換入力308は、変換されたテキスト部分と、構文解析エンジン212によって提供された変換パラメータ値を含むことができる。例えば、変換入力308は、段落306に対応するテキスト部分312と、変換パラメータ値310を含むことができ、変換入力314は、段落304に対応するテキスト部分318と、変換パラメータ値316を含むことができ、変換入力320は、見出し302に対応するテキスト324と、変換パラメータ値322を含むことができる。変換入力216は、音声に変換された順序で、音声API220に送ることができる。
構文解析エンジン212または変換コントローラ208の別の構成要素は、テキスト本文の変換が開始した時と終了した時に、(例えば、音声APIに送られるテキスト部分の1つで、または異なる伝達手段によって)音声APIに通知するように構成することができる。生成された音声をオーディオファイルに保存する一実施形態では、音声API220は、開始通知を使用して、新しいオーディオファイルをオープンし、また終了通知を使用して、オーディオファイルをクローズすることができる。このようにして、変換コントローラは、1つのテキスト本文についての複数の変換入力がTSEに送られたとしても、テキスト本文から1つのオーディオファイルを作成するよう制御することができる。
図2に戻ると、テキスト部分216を受け取ったことに応答して、TSE222は、(例えば、非圧縮の)オーディオファイル218を生成することができ、そのオーディオファイルを、SAPI220を介して、圧縮コントローラ214に送ることができる。圧縮コントローラ214は、圧縮入力224として、オーディオファイル218を圧縮命令と一緒に圧縮エンジン226(例えば、Windows(登録商標)Media(登録商標)Encoder)に送るように構成することができる。その後、圧縮エンジン226は、オーディオファイルを、記録媒体230に保存できる圧縮オーディオファイル228に圧縮することができる。
変換コントローラ208は、オーディオファイル218を生成するのに加えて、またはその代わりに、生成された音声232をオーディオ再生エンジン234に送るようにTSE222を制御するように構成することができる。オーディオ再生エンジン234は、音声を受け取ったことに応答して、直ちに音声を再生するように構成することができる。すなわち、テキスト本文は、音声に変換されて、直ちに再生され、および/または後で利用するためにオーディオファイルとして保存することができる。
システム200とその構成要素は、ソフトウェア(例えば、C、C#、C++、Java(登録商標)、またはそれらの組合せ)、ハードウェア(例えば、1つまたは複数の特定用途向け集積回路)、ファームウェア(例えば、電気的プログラム可能メモリ)、またはそれらの任意の組合せを用いて実施することができる。システム200の1つまたは複数の構成要素は、単一の装置(例えば、コンピュータ)上に存在することができ、または1つまたは複数の構成要素は、独立した個々の装置上に存在することができる。さらに、各構成要素を、複数の装置に分散させ、1つまたは複数の装置を相互接続することができる。
さらに、システム200の1つまたは複数の構成要素を含む1つまたは複数の装置の各々で、各構成要素は、システムの1つまたは複数の位置に存在することができる。例えば、システム200の構成要素の異なる部分は、装置上のメモリの異なる領域(例えば、RAM、ROM、ディスクなど)に存在することができる。そのような1つまたは複数の装置の各々は、構成要素の中でも特に、1つまたは複数のプロセッサ、メモリシステム、ディスクストレージシステム、1つまたは複数のネットワークインターフェース、および様々な構成要素を相互接続する1つまたは複数のバスあるいはその他の内部通信リンクなどの複数の既知の構成要素を含むことができる。システム200とその構成要素は、図7および図8に関連させて以下で説明するようなコンピュータシステムを用いて実施することができる。
図4は、本発明のいくつかの実施形態による、テキストを音声に変換する方法400の一実施例を示したフローチャートである。方法400は、テキストを音声に変換する方法の例示的な一実施形態であるに過ぎず、本発明の範囲を限定しようとするものではない。そのような方法の他の数々の実施が、例えば、方法400の変形が可能であり、それらは本発明の範囲に包含されるものとする。方法400は、追加の動作を含むことができる。さらに、方法400の一部として実行される動作の順序は、図4に示された順序に限定されるものではなく、動作はその他の順序で実行することができ、および/または1つまたは複数の動作は、(少なくとも部分的には)直列してまたは並列して実行することができる。
動作402で、デジタルテキスト本文(例えば、デジタル形式で表現されたテキスト)が受け取られる。デジタルテキスト本文は、デジタル文書(例えば、上で説明した任意のタイプの文書)またはその部分とすることができる。
動作404で、デジタルテキスト本文が、例えば、システム200の構文解析エンジン212に関連して上で説明したように、構文解析されて複数の部分に分割される。テキスト本文は、構文解析エンジン(例えば、エンジン212)を設定した構文解析値に基づいて、および/またはユーザによって提供された1つまたは複数の構文解析値に基づいて、構文解析することができる。
動作406で、各部分について、その部分が、例えば、図2に関連して上で説明したような属性など、1つまたは複数の特定の属性(例えば、フォーマット属性および/または編成的属性)をもつかどうかが決定される。これらの属性は、構文解析エンジンを設定した1つまたは複数の値またはユーザによって提供された1つまたは複数の値に基づいて、上で説明した構文解析エンジン212などの構文解析エンジンによって決定することができる。
動作408で、各部分について、その部分が動作406で決定された1つまたは複数の特定の属性をもつ場合、その部分の1つまたは複数の変換パラメータを設定することができる。変換パラメータ値は、システム200に関連して上で説明したように、構文解析エンジンを設定した1つまたは複数の値またはユーザによって提供された1つまたは複数の変換パラメータ値に基づいて、構文解析エンジン(例えば、エンジン212)によって設定することができる。
いくつかの実施形態では、テキストの音声への変換は、図2に関連して説明したように、生成された音声(図示せず)中の1つまたは複数の位置へのオーディオマーカの挿入を含むことができる。それらのオーディオマーカが挿入される位置は、設定した値および/またはユーザ指定の値に基づくことができる。
動作410で、動作404で生成された複数の部分のデジタルテキストから音声への変換は、図2および図3に関連して上で説明したように、例えば、変換コントローラ(例えば、変換コントローラ208)によって制御することができる。この変換の制御には、少なくとも変換パラメータ値が設定された各部分について、少なくとも部分的には、その部分について設定された1つまたは複数の変換パラメータ値に基づいて、その部分の変換を行うことが含まれ得る。例えば、変換の制御には、図2および図3に関連して上で説明したように、複数の部分とそれらの部分に関連する変換パラメータ値とを、SAPI(例えば、SAPI220)を介して、TSE(例えば、TSE222)に送ることが含まれ得る。
いくつかの実施形態では、複数の部分の変換には、オーディオファイルを生成することと、複数の変換された部分(例えば、音声)をオーディオファイルに保存すること(動作412)と、オーディオファイルを圧縮オーディオファイルに圧縮すること(動作414)とが含まれ得る。例えば、TSEは、(例えば、非圧縮)オーディオファイルを生成して、それを圧縮命令と一緒に圧縮エンジンに送ることができ、圧縮エンジンは、圧縮オーディオファイルを生成することができる。いくつかの実施形態では、オーディオファイルを生成する代わりに、またはそれに加えて、例えば、1つまたは複数のスピーカから音声をオーディオとして再生できるオーディオ再生エンジンに、生成された音声を送ることができる。
方法400はその動作を実行し、それらの方法および動作の様々な実施形態およびその変形は、個別にまたは組み合わせて、例えば、不揮発性記録媒体、集積回路メモリ要素、またはそれらの組合せなど、1つまたは複数のコンピュータ読取り可能媒体に有形に実施されるコンピュータ可読信号によって定義することができる。コンピュータ読取り可能媒体は、コンピュータによってアクセス可能な任意の利用可能な媒体とすることができる。例えば、コンピュータ読取り可能媒体には、コンピュータ記憶媒体と通信媒体が含まれ得るが、これらに限定されるものではない。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータといった情報を記憶するための任意の方法または技法で実施される、揮発性および不揮発性媒体、着脱可能および着脱不能媒体が含まれる。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリ、またはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)、またはその他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶、またはその他の磁気記憶装置、その他のタイプの揮発性および不揮発性メモリ、所望の情報を記憶するのに使用でき、コンピュータによってアクセスできる、その他の任意の媒体、ならびに上記の任意の適切な組合せが含まれるが、これらに限定されるものではない。通信媒体は一般に、搬送波またはその他の移送機構などの変調データ信号中に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを表すものであり、任意の情報送達媒体を含む。「変調データ信号」という用語は、信号中に情報を符号化するための方式によって、1つまたは複数の特性を設定または変更された信号を意味する。例えば、通信媒体には、有線ネットワークまたは直接線接続などの有線媒体、音響、RF、赤外線、およびその他の無線媒体などの無線媒体、その他のタイプの通信媒体、ならびに上記の任意の適切な組合せが含まれるが、これらに限定されるものではない。
1つまたは複数のコンピュータ読取り可能媒体上に実施されるコンピュータ可読信号は、例えば、コンピュータによって実行された結果、本明細書で説明する1つまたは複数の機能(例えば、方法400およびその動作)を実行するように、および/または様々な実施形態、変形、およびそれらの組合せを実行するようにコンピュータに命令する1つまたは複数のプログラムの一部として命令を定義することができる。そのような命令は、例えば、Java(登録商標)、Visual Basic、C、C#、C++、Fortran、Pascal、Eiffel、Basic、COBOLなど、複数のプログラミング言語のいずれかで、またはそれらを様々に組み合わせて記述することができる。そのような命令が実施されたコンピュータ読取り可能媒体は、本明細書で説明するシステム100、200、300、500、600、700、または800の1つまたは複数の構成要素上に存在することができ、1つまたは複数のそのような構成要素に分散させることができ、およびそれらの間を移動中であることができる。
コンピュータ読取り可能媒体は、そこに保存された命令をコンピュータシステム資源にロードして、本明細書で説明する本発明の態様を実施できるように、移送可能とすることができる。さらに、上で説明したコンピュータ読取り可能媒体に保存された命令は、ホストコンピュータ上で動作するアプリケーションプログラムの一部として実施される命令に限定されないことを理解されたい。他にも、命令は、上で説明した本発明の態様を実施するようにプロセッサをプログラムするのに利用できる任意のタイプのコンピュータコード(例えば、ソフトウェアまたはマイクロコード)として実施することができる。
コンピュータシステム、例えば、本明細書で説明した機能を実行する、図2、図3、および図6に関連して説明したコンピュータシステムの任意の単一の構成要素または複数の構成要素の集まりは一般に、そのような機能を制御する1つまたは複数のコントローラと考えることができることを理解されたい。1つまたは複数のコントローラは、専用ハードウェアおよび/またはファームウェアを用いて、上で説明した機能を実行するマイクロコードまたはソフトウェアを使用してプログラムされたプロセッサを用いて、または上記の任意の適切な組合せによってなど、数々の方法で実施することができる。
上で説明した方法400および/またはシステム200から(例えば、音声がそれから生成されたテキストの文脈に基づいて)生成された音声は、既存のテキスト音声生成による音声よりも聞き手には快適である。したがって、ユーザは、そのようなテキスト変換音声を聞いてもうんざりすることは少なくなり、テキスト形式によるよりも音声形式で内容を聞き、また編集することが多くなるであろう。さらに、例えば、ポータブルメディアプレーヤなどを使用することによって、その他の活動を行いながら同時に、(以下でより詳しく説明するように)オーディオファイルを聞き、また編集することができるので、作業者および学生は、それらの活動を妨げられることなく作業を行うことができる。その結果、作業者および学生は、より生産性を高めることができる。
ここまでテキストを音声に変換するためのシステムおよび方法の実施形態について説明してきたが、次に、オーディオファイル内の生成音声を聞き、操作し、および/または編集するいくつかの実施形態について説明する。これらの実施形態は主として、ポータブルオーディオ装置上のオーディオファイルを聞き、操作し、および/または編集することに関連して説明されるが、本発明はそのようなものに限定されず、例えば、デスクトップコンピュータなど、様々なタイプの装置上においてオーディオファイルを聞き、操作し、および/または編集できることを理解されたい。
図5は、オーディオファイルを聞き、操作し、および/または編集するためのポータブルオーディオプレーヤ500およびヘッドセット502の一実施例を示した図である。(ヘッドセット502付きまたは無しの)プレーヤ500は、例えば、システム200および/または方法400によって生成された音声など、テキストから変換された音声を含むオーディオファイルを聞き、操作し、および/または編集するのに使用することができる。
ポータブルオーディオ装置は、例えば、PMP、PDA、セルラ電話、ディクタフォン、別のタイプの装置、または上記の任意の適切な組合せなど、様々なタイプの装置のいずれかとすることができる。ポータブルオーディオプレーヤ500は、ディスプレイウィンドウ504、録音ボタン506、マイクロフォン508、一時停止/再生ボタン510、後方スキップボタン512、停止ボタン514、前方スキップボタン516、録音ボタン518、およびコントロールスライダ520を含むことができる。スライダ520は、例えば、前方スキップ位置522、再生位置524、停止位置526、および後方スキップ位置528の複数の位置のいずれかにスライドすることができる。したがって、コントロールスライダ520および録音ボタン506は、ボタン512〜518によって提供されるコントロールと重複するコントロールを提供することができ、ボタン512〜518だけを使用したのでは難しいポータブルオーディオ装置の片手操作をユーザが行えるようにすることができる。装置500はまた、ヘッドセット502に加えて、またはその代わりに、1つまたは複数のスピーカ(図示せず)を含むことができる。
再生/一時停止ボタン510は、ユーザが、オーディオの現在の部分、例えば、歌または音声の部分を再生できるようにし、またそれらを一時停止できるようにする。後方スキップボタン512および前方スキップボタン516は、ユーザがポータブルオーディオ装置に保存されたオーディオコンテンツ内を移動できるようにする移動コントロールである。例えば、これらのボタンは、オーディオマーカによって標識づけされた次または前の歌またはテキスト部分にユーザが移動できるようにする。装置500は、例えば、早送りおよび巻き戻しコントロールなど、追加の移動コントロールを含むことができる。さらに、スキップコントロールは、ユーザがこれらのコントロールボタンの1つを押しっぱなしにした場合、または立て続けに2回押した場合に、追加の機能を提供するように構成することができる。
録音ボタン506、518は、以下でより詳しく説明するように、既存のオーディオファイルへの新しいオーディオコンテンツ(例えば、音声)の録音をユーザが開始できるようにする。その後、ユーザは、録音を開始するために、マイクロフォン508に声を吹き込むことができる。
図6は、ポータブルオーディオ装置上でオーディオファイルを再生し、操作し、および編集するためのシステムの一実施例を示したブロック図である。システム600は、そのようなシステムの例示的な一実施形態であるに過ぎず、本発明の範囲を限定しようとするものではない。そのようなシステムの他の数々の実施が、例えば、システム600の変形が可能であり、それらは本発明の範囲に包含されるものとする。システム600は、例えば、システム200および/または方法400によって生成された音声など、テキストから変換された音声を含むオーディオファイルを聞き、操作し、および/または編集するのに使用することができる。
システム600は、ポータブルオーディオ装置(例えば、装置500)内に収めることができ、ユーザインターフェース606、マイクロフォン608、アナログ/デジタル(A/D)変換器614、ディスプレイコントローラ618、編集コントローラ610、移動コントローラ612、再生エンジン616、デジタル/アナログ(D/A)変換器620、メモリ624、およびその他の構成要素を含むことができる。ユーザ入力インターフェース606は、ポータブルオーディオ装置のユーザから、例えば、再生命令、移動命令、および録音命令などのユーザ命令を受け取るように構成することができる。その後、ユーザインターフェースは、これらの命令を適切な装置に渡すことができる。例えば、再生命令は、再生エンジン616に送ることができ、移動命令は、移動コントローラ612に送ることができ、編集命令は、編集コントローラ610に送ることができる。
ユーザ命令、ならびに編集コントローラおよび移動コントローラと交換される情報に応答して、再生エンジン616は、1つまたは複数のオーディオファイル628にアクセスすることができ、適切な場合には、デジタルオーディオ情報をD/A変換器620に送ることによって、これらのオーディオファイルの再生を制御することができる。D/A変換器620は、スピーカに送るアナログ信号622を生成することができる。編集命令、例えば、録音命令に応答して、編集コントローラ610は、生音602(例えば、ユーザの声)を受け取るマイクロフォンを制御することができ、A/D変換器614およびオーディオ符号器(図示せず)による生音のデジタルオーディオへの変換を制御することができる。編集コントローラ610はさらに、録音命令に応答して、メモリ624のオーディオファイル628にアクセスし、生音から生成されたデジタルオーディオをオーディオファイルの適切な位置に挿入することができる。
例えば、移動コントロール512、516、または位置522または528にあるコントロールスライダ520を使用することで、ユーザは、オーディオマーカを利用して、オーディオファイル内の音声を挿入したいと望む(オーディオマーカによって標識づけされた)位置に移動することができる。その後、ユーザは、ユーザ命令604によって受け取られた録音ボタン506または518を押して、ユーザ命令をユーザ入力インターフェース606に受け取らせることができ、ユーザ入力インターフェース606は、この命令を編集コントローラ610に送ることができる。編集コントローラ610は、ユーザによって提供された生音602を感知し、符号化するために、マイクロフォン608、A/D変換器614、およびオーディオ符号器を制御することができる。編集コントロールは、オーディオマーカによって指示されるユーザが移動した位置でオーディオファイルを分割し、オーディオマーカの所に符号化された音を挿入するように構成することができる。
その後、編集コントロールは、オーディオファイルをメモリ624に保存し戻すことができ、再生エンジン616は、ユーザからの命令に応答して、編集済オーディオファイルをメモリから再生することができる。ディスプレイコントローラ618は、ユーザから受け取る再生命令、移動命令、および編集命令に影響を与え得る表示情報の状態に従って、情報をディスプレイ504に表示するために、編集コントローラ610、移動コントローラ612、および再生コントローラ616と通信するように構成することができる。
システム600とその構成要素は、ソフトウェア(例えば、C、C#、C++、Java(登録商標)、またはそれらの組合せ)、ハードウェア(例えば、1つまたは複数の特定用途向け集積回路)、ファームウェア(例えば、電気的プログラム可能メモリ)、またはそれらの任意の組合せを用いて実施することができる。システム600の1つまたは複数の構成要素は、単一の装置(例えば、ポータブルオーディオ装置)上に存在することができ、または1つまたは複数の構成要素は、独立した個々の装置上に存在することができる。さらに、各構成要素を、複数の装置に分散させ、1つまたは複数の装置を相互接続することができる。
さらに、システム600の1つまたは複数の構成要素を含む1つまたは複数の装置の各々で、各構成要素は、システムの1つまたは複数の位置に存在することができる。例えば、システム600の構成要素の異なる部分は、装置上のメモリの異なる領域(例えば、RAM、ROM、ディスクなど)に存在することができる。そのような1つまたは複数の装置の各々は、構成要素の中でも特に、1つまたは複数のプロセッサ、メモリシステム、ディスクストレージシステム、1つまたは複数のネットワークインターフェース、および様々な構成要素を相互接続する1つまたは複数のバスあるいはその他の内部通信リンクなどの複数の既知の構成要素を含むことができる。システム600とその構成要素は、図7および図8に関連させて以下で説明するようなコンピュータシステムを用いて実施することができる。
本発明による様々な実施形態は、1つまたは複数のコンピュータシステム上で実施することができる。これらのコンピュータシステムは、例えば、Intel PENTIUM(登録商標)タイプのプロセッサ、Motorola PowerPC、Sun UltraSPARC、Hewlett−Packard PA−RISCプロセッサ、またはその他の任意のタイプのプロセッサに基づくものなど、汎用コンピュータとすることができる。1つまたは複数の任意のタイプのコンピュータシステムは、本発明の様々な実施形態に従って、テキストを音声に変換し、および/またはポータブルオーディオ装置上で音声を編集するのに使用できることを理解されたい。さらに、ソフトウェア設計システムは、単一のコンピュータシステム上に存在することができ、またはコンピュータネットワークによって接続された複数のコンピュータに分散させることができる。
本発明の一実施形態による汎用コンピュータシステムは、テキストを音声に変換し、および/またはポータブルオーディオ装置上で音声を編集するように構成することができる。このシステムはその他の機能も実行でき、本発明が特定の機能または機能の組を有するように限定されるものではないことを理解されたい。
例えば、本発明の様々な態様は、図7に示すような汎用コンピュータシステム700で動作する専用ソフトウェアとして実施することができる。コンピュータシステム700は、ディスクドライブ、メモリ、またはデータを保存するためのその他の装置など、1つまたは複数のメモリ装置704に接続されるプロセッサ703を含むことができる。メモリ704は一般に、コンピュータシステム700の動作中にプログラムおよびデータを格納するために使用される。コンピュータシステム700の構成要素は、相互接続機構705によって結合することができ、相互接続機構705には、(例えば、同じマシン内に組み込まれた構成要素の間の)1つまたは複数のバス、および/または(例えば、独立した個々のマシン上に存在する構成要素の間の)ネットワークが含まれ得る。相互接続機構705は、システム700のシステム構成要素で情報(例えば、データ、命令)を交換できるようにすることができる。コンピュータシステム700はまた、例えば、キーボード、マウス、トラックボール、マイクロフォン、タッチスクリーンなどの1つまたは複数の入力装置702と、例えば、プリンタ装置、ディスプレイ画面、スピーカなどの1つまたは複数の出力装置701を含む。さらに、コンピュータシステム700は、(相互接続機構705に加えて、またはその代わりとして)コンピュータシステム700を通信ネットワークに接続する1つまたは複数のインターフェース(図示せず)を含むことができる。
図8により詳しく示すストレージシステム706は一般に、プロセッサによって実行されるプログラム、またはプログラムによって処理される媒体801に保存される情報を定義する信号が保存される、コンピュータで読み書き可能な不揮発性記録媒体801を含む。媒体は、例えば、ディスクまたはフラッシュメモリとすることができる。一般に、動作中、プロセッサは、不揮発性記録媒体801から、プロセッサが媒体801にアクセスするより高速に情報にアクセスできる別のメモリ802にデータを読み込む。このメモリ802は一般に、ダイナミックランダムアクセスメモリ(DRAM)またはスタティックメモリ(SRAM)など、揮発性のランダムアクセスメモリである。これは、図示するように、ストレージシステム706内に、または図示されてはいないが、メモリシステム704内に配置することができる。プロセッサ703は一般に、集積回路メモリ704、802内のデータを操作し、処理が完了した後、そのデータを媒体801にコピーする。媒体801と集積回路メモリ704、802の間のデータ移動を管理するための様々な機構が知られているが、本発明はそのようなものに限定されない。本発明は、特定のメモリシステム704またはストレージシステム706に限定されるものではない。
コンピュータシステムは、特別にプログラムされた専用ハードウェア、例えば、特定用途向け集積回路(ASIC)を含むことができる。本発明の態様は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せで実施することができる。さらに、そのような方法、動作、システム、システム要素、およびそれらの構成要素は、上で説明したコンピュータシステムの一部として、または独立の構成要素として実施することができる。
コンピュータシステム700は、本発明の様々な態様を実行できる1つのタイプのコンピュータシステムを例として示されているが、本発明の態様は、図7に示すようなコンピュータシステム上で実施されるものに限定されない。本発明の様々な態様は、異なるアーキテクチャをもつ1つまたは複数のコンピュータ上、または図7に示される構成要素上で実行することができる。
コンピュータシステム700は、高水準プログラミング言語を使用してプログラム可能な汎用コンピュータシステムとすることができる。コンピュータシステム700はまた、特別にプログラムされた専用ハードウェアを使用して実施することができる。コンピュータシステム700では、プロセッサ703は一般に、Intel Corporationから入手可能なよく知られているPentium(登録商標)クラスのプロセッサなど、市販のプロセッサである。その他の多くのプロセッサが利用可能である。そのようなプロセッサは通常、例えば、Microsoft Corporationから入手可能なWindows(登録商標)95、Windows(登録商標)98、Windows(登録商標) NT、Windows(登録商標)2000(Windows(登録商標)ME)、またはWindows(登録商標)XPオペレーティングシステム、Apple Computerから入手可能なMAC OS System X、Sun Microsystemsから入手可能なSolaris Operating System、または様々な提供元から入手可能なUNIX(登録商標)とすることができるオペレーティングシステムを実行する。その他の多くのオペレーティングシステムを使用することができる。
プロセッサとオペレーティングシステムは一緒に、アプリケーションプログラムが高水準プログラミング言語でそれ向けに記述されるコンピュータプラットフォームを定義する。本発明が特定のコンピュータシステムプラットフォーム、プロセッサ、オペレーティングシステム、またはネットワークに限定されるものではないことを理解されたい。また、本発明が特定のプログラミング言語またはコンピュータシステムに限定されるものでないことは当業者には明らかであろう。さらに、その他の適切なプログラミング言語およびその他の適切なコンピュータシステムも使用できることを理解されたい。
コンピュータシステムの1つまたは複数の部分は、通信ネットワークに結合された1つまたは複数のコンピュータシステム(図示せず)に分散させることができる。これらのコンピュータシステムも、汎用コンピュータシステムとすることができる。例えば、本発明の様々な態様は、1つまたは複数のクライアントコンピュータにサービスを提供するように(例えば、サーバ)、または分散システムの一部として全体的なタスクを実行するように構成された1つまたは複数のコンピュータシステムに分散させることができる。例えば、本発明の様々な態様は、本発明の様々な実施形態による様々な機能を実行する、1つまたは複数のサーバシステムに分散された構成要素を含む、クライアント−サーバシステム上で実行することができる。これらの構成要素は、通信プロトコル(例えば、TCP/IP)を使用して通信ネットワーク(例えば、インターネット)を介して通信を行う、実行可能な中間コード(例えば、IL)または解釈可能コード(例えば、Java(登録商標))とすることができる。
本発明は特定のシステムまたはシステムグループ上で実行されるものに限定されないことを理解されたい。また、本発明は特定の分散アーキテクチャ、ネットワーク、または通信プロトコルに限定されないことを理解されたい。
本発明の様々な実施形態は、SmallTalk、Java(登録商標)、C++、Ada、またはC#(Cシャープ)などのオブジェクト指向プログラミング言語を使用してプログラムすることができる。その他のオブジェクト指向プログラミング言語も使用することができる。代替として、関数型プログラミング言語、スクリプト型プログラミング言語、および/または論理型プログラミング言語を使用することができる。本発明の様々な態様は、非プログラム環境(例えば、HTML、XML、またはその他の形式で作成され、ブラウザプログラムのウィンドウ内に表示されたとき、グラフィカルユーザインターフェース(GUI)の外観を提供し、またはその他の機能を実行する文書)で実施することができる。本発明の様々な態様は、プログラム要素、非プログラム要素、またはそれらの任意の組合せとして実施することができる。
本発明のいくつかの例示的な実施形態を説明してきたが、上述の実施形態が単に例示的なもので、限定的なものではなく、例を提示するに過ぎないことは、当業者には明らかであろう。数々の変更および他の例示的な実施形態が、当業者の視野内にあり、本発明の範囲内に包含されることが企図されている。特に、本明細書で提示された多くの実施例は、方法の動作またはシステム要素の特定の組合せを含むが、それらの動作およびそれらの要素を、同じ目的を達成するために、他の方法で組み合わせ得ることを理解されたい。一実施形態との関連でのみ説明された動作、要素、および機能は、その他の実施形態における同様の役割から排除されるものではない。さらに、添付の特許請求の範囲で説明する1つまたは複数の手段および機能の限定について、その手段は、説明される機能を実行するための本明細書で開示された手段に限定されるものではなく、範囲内にある説明される機能を実行するための現在知られているまたは将来開発される任意の等価な手段を含むものとする。
特許請求の範囲における請求項要素を修飾するための「第1の」、「第2の」、「第3の」などの序数詞の使用は、それによって、いかなる優先権、優先順位、1つの請求項要素と別の請求項要素との順序関係、または方法の動作を実行する時間的順序も含意するものではなく、請求項要素を区別するために、ある名称をもつ1つの請求項要素を(序数詞がなければ)同じ名称をもつ別の請求項要素から区別するラベルとして使用されるに過ぎない。
本発明のいくつかの実施形態による、テキストをオーディオファイル内の音声に変換し、またオーディオファイルを編集するシステムの一実施形態を示した図である。 本発明のいくつかの実施形態による、テキストを音声に変換するシステムの一実施例を示したブロック図兼データフロー図である。 本発明のいくつかの実施形態による、構文解析エンジンの機能の一実施例を示したブロック図兼データフロー図である。 本発明のいくつかの実施形態による、テキストを音声に変換する方法の一実施例を示したフローチャートである。 本発明のいくつかの実施形態による、オーディオファイルを再生し、操作し、および編集するポータブルオーディオプレーヤの一実施例を示した図である。 本発明のいくつかの実施形態による、オーディオファイルを再生し、操作し、および編集するシステムの一実施例を示したブロック図兼データフロー図である。 本発明のいくつかの実施形態を実施できるコンピュータシステムの一実施例を示したブロック図である。 本発明のいくつかの実施形態を実施するコンピュータシステムの一部として使用できる記憶システムの一実施例を示したブロック図である。
符号の説明
100 システム
102 コンピュータ
103 ディスプレイ画面
104 表示
105 テキスト
106 部分
108 メニュー項目
110 コネクション
112、500 ポータブルオーディオ装置
502 ヘッドセット
504 ディスプレイウィンドウ
508 マイクロフォン
520 コントロールスライダ

Claims (40)

  1. テキストの音声への変換を制御する方法であって、
    (A)デジタルテキスト本文を受け取るステップと、
    (B)前記デジタルテキスト本文を構文解析して複数の部分に分割するステップと、
    (C)各部分について、前記部分が1つまたは複数の特定の属性をもつかどうかを決定するステップと、
    (D)各部分について、前記部分が1つまたは複数の前記特定の属性をもつ場合、前記部分の1つまたは複数の変換パラメータ値を設定するステップと、
    (E)前記複数の部分のデジタルテキストから音声への変換を制御するステップであって、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記変換を少なくとも部分的には前記部分に対して設定された前記1つまたは複数の変換パラメータ値に基づいて行うことを含むことと、
    を備えたことを特徴とする方法。
  2. 前記ステップ(E)は、音声に変換するために前記複数の部分をテキスト音声変換エンジンに送るステップであって、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記1つまたは複数の変換パラメータ値を送ることを含むことを含むことを特徴とする請求項1に記載の方法。
  3. (F)前記音声をオーディオファイルとして保存するステップをさらに備えたことを特徴とする請求項1に記載の方法。
  4. (F)前記音声をオーディオ再生装置に送るステップをさらに備えたことを特徴とする請求項1に記載の方法。
  5. 各部分の前記1つまたは複数の特定の属性は、前記部分の文脈を表すことを特徴とする請求項1に記載の方法。
  6. 前記ステップ(B)は、前記複数の部分の各々が単語であるように、前記テキスト本文を構文解析して複数の単語に分割するステップを含むことを特徴とする請求項1に記載の方法。
  7. 前記ステップ(B)は、前記複数の部分の各々が少なくとも文の部分であるように、前記テキスト本文を句読点に基づいて構文解析するステップを含むことを特徴とする請求項1に記載の方法。
  8. 前記ステップ(B)は、前記複数の部分の各々が文であるように、前記テキスト本文を構文解析して複数の文に分割するステップを含むことを特徴とする請求項1に記載の方法。
  9. 前記ステップ(B)は、前記複数の部分の各々が段落であるように、前記テキスト本文を構文解析して複数の段落に分割するステップを含むことを特徴とする請求項1に記載の方法。
  10. 前記ステップ(B)は、各部分について、前記部分がある種のフォーマット属性および/または編成的(organizational)属性をもつかどうかを決定するステップを含むことを特徴とする請求項1に記載の方法。
  11. 前記デジタルテキスト本文は、デジタル文書の一部分だけであることを特徴とする請求項1に記載の方法。
  12. (F)前記音声中の1つまたは複数の位置にオーディオマーカが含まれるように前記変換を制御するステップをさらに備えたことを特徴とする請求項1に記載の方法。
  13. (F)前記複数の部分の各々について分析する1つまたは複数の属性をユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項1に記載の方法。
  14. (F)前記デジタルテキスト本文を構文解析してどのようなタイプの前記複数の部分に分割するかをユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項1に記載の方法。
  15. (F)1つまたは複数の個々の属性に対応する1つまたは複数の変換パラメータ値をユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項1に記載の方法。
  16. (F)オーディオマーカを挿入する1つまたは複数の位置をユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項1に記載の方法。
  17. テキストの音声への変換を制御するシステムであって、
    デジタルテキスト本文を受け取り、前記デジタルテキスト本文を構文解析して複数の部分に分割し、各部分について、前記部分が1つまたは複数の特定の属性をもつかどうかを決定し、1つまたは複数の前記特定の属性をもつ各部分について、前記部分の1つまたは複数の変換パラメータ値を設定し、前記複数の部分のデジタルテキストから音声への変換を制御し、その制御には、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記変換を少なくとも部分的には前記部分に対して設定された前記1つまたは複数の変換パラメータ値に基づいて行うことが含まれる変換コントローラを備えたことを特徴とするシステム。
  18. 前記変換コントローラはさらに、音声に変換するために前記複数の部分をテキスト音声変換エンジンに送るように動作し、その動作には、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記1つまたは複数の変換パラメータ値を送ることが含まれることを特徴とする請求項17に記載のシステム。
  19. 前記変換コントローラはさらに、前記音声をオーディオファイルとして保存するための制御を行うように動作することを特徴とする請求項17に記載のシステム。
  20. 各部分の前記1つまたは複数の特定の属性は、前記部分の文脈を表すことを特徴とする請求項17に記載のシステム。
  21. 前記変換コントローラはさらに、前記音声をオーディオ再生装置に送るための制御を行うように動作することを特徴とする請求項17に記載のシステム。
  22. 前記変換コントローラはさらに、前記複数の部分の各々が単語であるように、前記テキスト本文を構文解析して複数の単語に分割するように動作することを特徴とする請求項17に記載のシステム。
  23. 前記変換コントローラはさらに、前記複数の部分の各々が少なくとも文の部分であるように、前記テキスト本文を句読点に基づいて構文解析するように動作することを特徴とする請求項17に記載のシステム。
  24. 前記変換コントローラはさらに、前記複数の部分の各々が文であるように、前記テキスト本文を構文解析して複数の文に分割するように動作することを特徴とする請求項17に記載のシステム。
  25. 前記変換コントローラはさらに、前記複数の部分の各々が段落であるように、前記テキスト本文を構文解析して複数の段落に分割するように動作することを特徴とする請求項17に記載のシステム。
  26. 前記変換コントローラはさらに、各部分について、前記部分がある種のフォーマット属性および/または編成的属性をもつかどうかを決定するように動作することを特徴とする請求項17に記載のシステム。
  27. 前記デジタルテキスト本文は、デジタル文書の一部分であることを特徴とする請求項17に記載のシステム。
  28. 前記変換コントローラは、前記音声中の1つまたは複数の位置にオーディオマーカが含まれるように前記変換を制御するようにさらに動作することを特徴とする請求項17に記載のシステム。
  29. 前記複数の部分の各々について分析する1つまたは複数の属性をユーザが指定できるようにするユーザインターフェースをさらに備えたことを特徴とする請求項17に記載のシステム。
  30. 前記デジタルテキスト本文を構文解析してどのようなタイプの前記複数の部分に分割するかをユーザが指定できるようにするユーザインターフェースをさらに備えたことを特徴とする請求項17に記載のシステム。
  31. 1つまたは複数の個々の属性に対応する1つまたは複数の変換パラメータ値をユーザが指定できるようにするユーザインターフェースをさらに備えたことを特徴とする請求項17に記載のシステム。
  32. オーディオマーカを挿入する1つまたは複数の位置をユーザが指定できるようにするユーザインターフェースをさらに備えたことを特徴とする請求項17に記載のシステム。
  33. コンピュータを制御する命令を定義するコンピュータ可読信号を保存するコンピュータ読取り可能媒体であって、その命令は、コンピュータで実行した結果、テキストの音声への変換を制御するプロセスを実行するようにコンピュータを制御し、前記プロセスは、
    (A)デジタルテキスト本文を受け取るステップと、
    (B)前記デジタルテキスト本文を構文解析して複数の部分に分割するステップと、
    (C)各部分について、前記部分が1つまたは複数の特定の属性をもつかどうかを決定するステップと、
    (D)各部分について、前記部分が1つまたは複数の前記特定の属性をもつ場合、前記部分の1つまたは複数の変換パラメータ値を設定するステップと、
    (E)前記複数の部分のデジタルテキストから音声への変換を制御するステップであって、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記変換を少なくとも部分的には前記部分に対して設定された前記1つまたは複数の変換パラメータ値に基づいて行うことを含むステップと、
    を備えたことを特徴とするコンピュータ読取り可能媒体。
  34. 前記ステップ(E)は、音声に変換するために前記複数の部分をテキスト音声変換エンジンに送るステップであって、変換パラメータ値が設定された少なくとも各部分について、前記部分の前記1つまたは複数の変換パラメータ値を送ることを含むことを含むことを特徴とする請求項33に記載のコンピュータ読取り可能媒体。
  35. 前記プロセスは、
    (F)前記音声をオーディオファイルとして保存するステップをさらに備えたことを特徴とする請求項33に記載のコンピュータ読取り可能媒体。
  36. 各部分の前記1つまたは複数の特定の属性は、前記部分の文脈を表すことを特徴とする請求項33に記載のコンピュータ読取り可能媒体。
  37. 前記ステップ(B)は、各部分について、前記部分がある種のフォーマット属性および/または編成的属性をもつかどうかを決定するステップを含むことを特徴とする請求項33に記載のコンピュータ読取り可能媒体。
  38. 前記プロセスは、
    (F)前記音声中の1つまたは複数の位置にオーディオマーカが含まれるように前記変換を制御するステップをさらに備えたことを特徴とする請求項33に記載のコンピュータ読取り可能媒体。
  39. 前記プロセスは、
    (F)前記複数の部分の各々について分析する1つまたは複数の属性をユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項33に記載のコンピュータ読取り可能媒体。
  40. 前記プロセスは、
    (F)1つまたは複数の個々の属性に対応する1つまたは複数の変換パラメータ値をユーザが指定できるようにする、および/または前記デジタルテキスト本文を構文解析してどのようなタイプの前記複数の部分に分割するかをユーザが指定できるようにするユーザインターフェースを提供するステップをさらに備えたことを特徴とする請求項33に記載のコンピュータ読取り可能媒体。

JP2005284421A 2004-10-29 2005-09-29 テキストを音声に変換するシステムおよび方法 Pending JP2006323806A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/977,777 US20060106618A1 (en) 2004-10-29 2004-10-29 System and method for converting text to speech

Publications (1)

Publication Number Publication Date
JP2006323806A true JP2006323806A (ja) 2006-11-30

Family

ID=35589316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005284421A Pending JP2006323806A (ja) 2004-10-29 2005-09-29 テキストを音声に変換するシステムおよび方法

Country Status (5)

Country Link
US (1) US20060106618A1 (ja)
EP (1) EP1653444A3 (ja)
JP (1) JP2006323806A (ja)
KR (1) KR20060051151A (ja)
CN (1) CN1783212A (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080022208A1 (en) * 2006-07-18 2008-01-24 Creative Technology Ltd System and method for personalizing the user interface of audio rendering devices
US9087507B2 (en) * 2006-09-15 2015-07-21 Yahoo! Inc. Aural skimming and scrolling
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
CN101320521A (zh) * 2008-04-16 2008-12-10 龚建良 一种默写方法
US20100312591A1 (en) * 2009-06-03 2010-12-09 Shih Pi Ta Technology Ltd. Automatic Vehicle Dispatch System and Method
US8290777B1 (en) * 2009-06-12 2012-10-16 Amazon Technologies, Inc. Synchronizing the playing and displaying of digital content
US20100332224A1 (en) * 2009-06-30 2010-12-30 Nokia Corporation Method and apparatus for converting text to audio and tactile output
CN102314778A (zh) * 2010-06-29 2012-01-11 鸿富锦精密工业(深圳)有限公司 电子阅读器
US8688435B2 (en) 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
JP4996750B1 (ja) 2011-01-31 2012-08-08 株式会社東芝 電子機器
CN102752019B (zh) * 2011-04-20 2015-01-28 深圳盒子支付信息技术有限公司 基于耳机插孔的数据发送、接收、传输方法及系统
WO2013015463A1 (ko) * 2011-07-22 2013-01-31 엘지전자 주식회사 이동 단말기 및 그 제어방법
US9275633B2 (en) 2012-01-09 2016-03-01 Microsoft Technology Licensing, Llc Crowd-sourcing pronunciation corrections in text-to-speech engines
KR102066750B1 (ko) * 2012-12-14 2020-01-15 주식회사 엘지유플러스 녹음 파일 제어 단말 장치 및 방법
KR20150024188A (ko) * 2013-08-26 2015-03-06 삼성전자주식회사 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치
CN105096932A (zh) * 2015-07-14 2015-11-25 百度在线网络技术(北京)有限公司 有声读物的语音合成方法和装置
CN105095422A (zh) * 2015-07-15 2015-11-25 百度在线网络技术(北京)有限公司 一种多媒体展示方法与装置和点读笔
US20170124043A1 (en) 2015-11-02 2017-05-04 Microsoft Technology Licensing, Llc Sound associated with cells in spreadsheets
US9990350B2 (en) 2015-11-02 2018-06-05 Microsoft Technology Licensing, Llc Videos associated with cells in spreadsheets
CN107886939B (zh) * 2016-09-30 2021-03-30 北京京东尚科信息技术有限公司 一种在客户端的中止-接续式文本语音播放方法和装置
US10489110B2 (en) * 2016-11-22 2019-11-26 Microsoft Technology Licensing, Llc Implicit narration for aural user interface
US10909978B2 (en) * 2017-06-28 2021-02-02 Amazon Technologies, Inc. Secure utterance storage
CN107731219B (zh) * 2017-09-06 2021-07-20 百度在线网络技术(北京)有限公司 语音合成处理方法、装置及设备
US20200034681A1 (en) * 2018-07-24 2020-01-30 Lorenzo Carver Method and apparatus for automatically converting spreadsheets into conversational robots (or bots) with little or no human programming required simply by identifying, linking to or speaking the spreadsheet file name or digital location
CN109947388B (zh) * 2019-04-15 2020-10-02 腾讯科技(深圳)有限公司 页面播读的控制方法、装置、电子设备及存储介质
CN110781651A (zh) * 2019-10-22 2020-02-11 合肥名阳信息技术有限公司 一种文字转语音插入停顿的方法
CN110767209B (zh) * 2019-10-31 2022-03-15 标贝(北京)科技有限公司 语音合成方法、装置、系统和存储介质
CN111199724A (zh) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 一种信息处理方法、设备及计算机可读存储介质
CN112750436B (zh) * 2020-12-29 2022-12-30 上海掌门科技有限公司 一种用于确定语音消息的目标播放速度的方法与设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6488599A (en) * 1987-09-30 1989-04-03 Matsushita Electric Ind Co Ltd Voice synthesizer

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69327774T2 (de) * 1992-11-18 2000-06-21 Canon Information Syst Inc Prozessor zur Umwandlung von Daten in Sprache und Ablaufsteuerung hierzu
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US6115686A (en) 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
JPH11327870A (ja) 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
US6785649B1 (en) * 1999-12-29 2004-08-31 International Business Machines Corporation Text formatting from speech
GB2357943B (en) * 1999-12-30 2004-12-08 Nokia Mobile Phones Ltd User interface for text to speech conversion
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
US6778961B2 (en) * 2000-05-17 2004-08-17 Wconect, Llc Method and system for delivering text-to-speech in a real time telephony environment
US7043432B2 (en) * 2001-08-29 2006-05-09 International Business Machines Corporation Method and system for text-to-speech caching
CA2516941A1 (en) * 2003-02-19 2004-09-02 Custom Speech Usa, Inc. A method for form completion using speech recognition and text comparison
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
US20060047704A1 (en) * 2004-08-31 2006-03-02 Kumar Chitra Gopalakrishnan Method and system for providing information services relevant to visual imagery

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6488599A (en) * 1987-09-30 1989-04-03 Matsushita Electric Ind Co Ltd Voice synthesizer

Also Published As

Publication number Publication date
EP1653444A3 (en) 2008-08-13
KR20060051151A (ko) 2006-05-19
CN1783212A (zh) 2006-06-07
US20060106618A1 (en) 2006-05-18
EP1653444A2 (en) 2006-05-03

Similar Documents

Publication Publication Date Title
JP2006323806A (ja) テキストを音声に変換するシステムおよび方法
US10381016B2 (en) Methods and apparatus for altering audio output signals
US20220230374A1 (en) User interface for generating expressive content
US8548618B1 (en) Systems and methods for creating narration audio
Arons Hyperspeech: Navigating in speech-only hypermedia
CA3058928A1 (en) Hands-free annotations of audio text
CN108885869B (zh) 控制包含语音的音频数据的回放的方法、计算设备和介质
KR101445869B1 (ko) 미디어 인터페이스
WO2003088208A1 (en) Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
KR20110019020A (ko) 텍스트 데이터의 처리 방법 및 장치
GB2444539A (en) Altering text attributes in a text-to-speech converter to change the output speech characteristics
CN111105776A (zh) 有声播放装置及其播放方法
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及系统
JP3279684B2 (ja) 音声インタフェース・ビルダ・システム
KR20070095569A (ko) 청킹을 이용한 언어학습 방법 및 이에 사용되는 청크 기록매체의 생성 방법
KR20180078197A (ko) 이 보이스북 편집장치 및 재생장치
US20140067399A1 (en) Method and system for reproduction of digital content
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
JP2020154057A (ja) 音声データのテキスト編集装置及び音声データのテキスト編集方法
JP2002268664A (ja) 音声変換装置及びプログラム
JP2016206591A (ja) 語学学習用コンテンツ配信システム、語学学習用コンテンツ生成装置、および、語学学習用コンテンツ再生プログラム
JP6922306B2 (ja) 音声再生装置、および音声再生プログラム
JP2003150182A (ja) 音声合成装置、音声合成装置の制御方法、音声合成制御プログラム及び記録媒体
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111004