JP2001188777A - 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法 - Google Patents

音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法

Info

Publication number
JP2001188777A
JP2001188777A JP2000329016A JP2000329016A JP2001188777A JP 2001188777 A JP2001188777 A JP 2001188777A JP 2000329016 A JP2000329016 A JP 2000329016A JP 2000329016 A JP2000329016 A JP 2000329016A JP 2001188777 A JP2001188777 A JP 2001188777A
Authority
JP
Japan
Prior art keywords
text
word
speech
document
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2000329016A
Other languages
English (en)
Inventor
Jeffrey C Reynar
スィー. レイナー ジェフリー
Erick Rucker
ラッカー エリック
Paul Kyong Hwan Kim
キョン ホワン キム ポール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2001188777A publication Critical patent/JP2001188777A/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 文書の選択部分に対応する音声を直感的な形
式で確実に再生し、音声データが欠落した部分を穴埋め
して音声再生する方法を提供する。 【解決手段】 多様なソースから入力を受け入れ、それ
ら入力をテキスト化し、そのテキストの中でユーザが選
択した箇所を読み上げる。ワードプロセッサ内の文書と
してテキストを表示し、口述データを検索可能音声デー
タとして短期または長期記憶装置に保存する。このテキ
ストは、ユーザによって自由に編集、変更、処理でき
る。ユーザは前記テキストの一部を選択し音声再生を要
求できる。選択されたテキストの各語を調べ、その語に
対して保存音声データが関連付けられていればその音声
データを取り出し再生する。関連付けられた音声データ
が無ければ、テキスト音声化登録語を検索し、検索した
語を代わりに再生する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は広く音声認識分野に
関する。さらに詳しくは、コンピュータ表示用のマルチ
ソース入力再生ユーティリティに関する。
【0002】
【従来の技術】パーソナルコンピュータの出現以来、コ
ンピュータとのヒューマンインタフェースは基本的にキ
ーボードであった。例えばコンピュータに情報を入力す
る場合、ユーザはそのコンピュータに付属するキーボー
ドで情報をタイプする。キーボードを補うため、他の入
力機器も使われてきた。例えばマウス、タッチパネルデ
ィスプレイ、統合ポインタ機器、スキャナである。ユー
ザはこれら入力機器を使うことにより、データやコマン
ドをコンピュータに入力する時間を短縮できた。
【0003】コンピュータベースの音声認識や音声認識
システムも、パーソナルコンピュータへのデータ入力お
よびコマンド入力に使われてきた。音声認識および音声
認識システムは、人の音声をコンピュータが理解できる
形式に変換する。コンピュータが音声認識システムを備
えれば、入力装置にデータを話すだけでデータ入力が行
われる。ユーザの会話速度は、従来のデータ入力より一
般に速い。従ってパーソナルコンピュータに音声認識お
よび音声認識システムを組み込むことの利点は、会話に
よるデータ入力の速度にある。
【0004】音声認識および音声認識システムを備えた
パーソナルコンピュータは、ユーザの効率を高めるた
め、職場での利用が進んでいる。音声認識および音声認
識システムは、様々な産業分野で様々な形で適用されて
いる。例えばドラゴン社、アイビーエム社、ラーンアウ
トアンドハウスパイ社は、音声認識および音声認識技術
を用いたコンピュータソフトウエアプログラムを開発し
た。音声認識プログラムに対してユーザが文書を音読し
たり口述すると、その音声認識プログラムは、ワードプ
ロセッサ等のパーソナルコンピュータで動作するアプリ
ケーションにユーザの話した語を直接入力する。
【0005】コンピュータベースの音声認識および音声
認識プログラムは、一般に人の音声を一連のデジタル周
波数に変換する。これら周波数は、あらかじめ記憶した
音素と呼ばれる語や音声要素と照合される。
【0006】音素は、音声中の各音を区別するための最
小単位である。各音素は、1つ以上の対応する異音を有
する。異音は、音素の音声表現である。1つの音素は、
多くの異音を有することがある。この場合、各異音は、
語中の音素の位置や、同一文字セットの言語における異
形発音により、わずかに異なった音を有する。例えば音
素「b」は、「boy(ボーイ)」と「beyond
(ビオンド)」とで発音が異なる。この時の各発音が音
素「b」の異音である。
【0007】前記ユーティリティは、これら音素を処理
し、各音素に最適なテキスト表現に基づいて、音素をテ
キストに変換する。その方法は当業者に良く知られてい
る。音素から変換したテキストは、ワードプロセッサ、
スプレッドシート、データベース、ウエブブラウザ等、
音声入力を受け取り、それを表示テキストやプログラム
コマンドに変換できるプログラムによって表示する。前
記マルチソース入力再生ユーティリティは、音声データ
を記憶することもできる。音声データは様々な形式で様
々な記憶媒体に記憶できる。例えば揮発性RAM、長期
保存用磁気記憶装置、CD−ROM等の光媒体に記憶で
きる。音声データは、さらに圧縮して記憶容量を縮小し
ても良い。前記ユーティリティは、記憶した音声データ
をその音声データから生成したテキストに関連付け、後
からの再生に利用できる。コンピュータが一連の周波数
の一致を正しく決定すれば、その部分の音声のコンピュ
ータ認識は完了する。周波数一致処理は、必要な情報が
コンピュータに集まるまで続ける。コンピュータは、音
声を記憶装置に格納し、話された単語に応答し、その音
声を文書のテキストに変換する。このテキストは、ワー
ドプロセッサプログラムで扱える形式、あるいはアプリ
ケーションプログラムの実行コマンドである。
【0008】最終的に市場に出回ることが期待されてい
るのは、自然会話入力システムである。このシステム
は、ユーザが特別の方法で喋らなくとも、コンピュータ
への音声入力を可能とし、コンピュータへのユーザコマ
ンドと入力情報とを区別できる。
【0009】現在の音声認識および音声認識システム
は、この進歩的技術に欠けているため、信頼性が足りな
い。ハードウエアおよびソフトウエアの改良にもかかわ
らず、最良の音声認識および音声認識システムでさえ、
97〜99%の信頼性しか確保できない。内的および外
的要因が音声認識および音声認識システムの信頼性に影
響する。認識技術自体の要因は、話者の言語における単
語や音素の数が有限なことであり、音声認識ソフトの話
者入力照合用語彙が有限なことである。地域的アクセン
ト、外部騒音、マイクロフォン品質等の環境要因は入力
品質を低下させるので、ユーザ音読語の周波数に影響を
与え、語照合や音素照合にエラーを生ずることがある。
【0010】このため、音声認識ソフトウエアがテキス
ト化した口述文書は、認識エラーを含むことが多い。タ
イピングエラーの場合、文字の移動などの単純ミスは、
特定したり訂正することが容易である。ところが認識エ
ラーは深刻な場合が多い。認識エラーは、文字の置き違
えや移動ではなく、同じ発音の単語の置き違えであるこ
とが多い。例えば古くからある音声認識エラーは、「音
声を認識(レコグナイズスピーチ、recognize
speech)」を「素敵な海辺を破壊(レッカナイ
スビーチ、wreck a nice beach」と
テキスト化してしまうことがある。これらは発音が似て
いるものの、意味が全く異なる。この種の認識エラーを
含む文書を校正する場合、即座に本来の語句を思い出す
ことが難しく、余計な混乱を招く。
【0011】従来このような混乱を最小にするため、音
読しながら文書を校正してきた。このやり方は、本来の
語句を特定する助けになる。音読すれば発音の類似性が
明らかになるからだ。しかし文書の口述と編集との間に
長い時間が空くと、ユーザは本来の語句が何であったか
を忘れがちである。
【0012】従来の音声認識製品は、この問題を解決す
るため、口述を音声データとして保存し、テキスト化し
た各語にその保存音声データを関係付ける。ユーザは単
語または一連のテキストを選択し、その選択部分に対応
する音声の再生を要求する。
【0013】これはユーザが本来のテキストを認識する
ための助けになるが、口述時と音声再生要求時との間に
ユーザが文書を編集した場合、深刻な問題が起きる。ユ
ーザは、混在した入力ソースの文書の一部を再生要求
し、その提示を受ける。
【0014】例えばユーザが「私はコンピュータが音声
を認識できたら良いと思う(I wish my co
mputer could recognize sp
eech)」と口述したとする。それを音声認識システ
ムが「私はコンピュータが素敵な海辺を破壊できたら良
いと思う(I wish my computerco
uld wreck a nice beach)」と
テキスト化したとする。次にユーザが「私(I)」と
「良いと思う(wish)」との間に「本当に(rea
lly)」とタイプしたとすれば、この文書は混在した
入力ソースを有する。ユーザが画面上で「私はコンピュ
ータが素敵な海辺を破壊できたら良いと本当に思う(I
really wish my computer
could wreck a nice beac
h)」を選択し再生を要求すると、「本当に(real
ly)」は口述ではなくタイプされたために、それに関
連付けられた音声データは無い。
【0015】この状況において、従来の音声認識システ
ムは、再生オプションを無効にする。あるいは、選択テ
キストに対する音声データが存在しないため再生不可能
である、とのエラーメッセージをユーザに返す。これに
よりユーザは、文書のどの部分をタイプしどの部分を口
述したかを思い出し、それから文書を再選択しなければ
ならない。この方法はユーザをいらいらさせる。なぜな
らユーザは、曖昧な記憶から口述を思い出し、音声再生
を行わねばならないからである。
【0016】
【発明が解決しようとする課題】このように本技術分野
においては、文書の選択部分に対応する音声を直感的な
形式で確実に再生する方法およびシステムが求められて
いる。また、音声データが欠落した部分を有する文書の
音声再生において、その欠落部分を穴埋めする方法およ
びシステムが求められている。
【0017】本発明は上記事情に鑑みてなされたもので
あり、その目的とするところは、音声をテキストに関連
付ける方法、コンピュータで文書を生成し読み上げる方
法、コンピュータでテキスト文書の音声再生を行う方
法、及び、文書内のテキストを編集し評価する方法を提
供することにある。
【0018】本発明の目的は、音声をテキストに関連付
けるコンピュータ、文書を生成し読み上げるコンピュー
タ、及び、テキスト文書の音声再生を行うコンピュータ
を提供することにある。
【0019】
【課題を解決するための手段】本発明は広く、パーソナ
ルコンピュータ用マルチソース入力再生ユーティリティ
である。このユーティリティは、複数の入力ソースから
入力を受け入れ、それら入力をテキストに変換し、その
テキストをディスプレイ画面に表示する。ユーザがテキ
ストを口述すると、ユーティリティはその音声入力を音
声データとして記憶媒体やシステムメモリに保存する。
音声入力から生成したテキストは、この保存音声データ
に関連付ける。筆記タブレットから文字化したテキス
ト、あるいはキーボードでタイプしたテキストは、音声
データとの関連付けが無い。ユーザはキーボード、マウ
ス等の入力機器を用いて前記テキストを必要に応じて編
集する。編集による変更は、一般にテキストへの直接タ
イピングによって行うので、その変更に関連付けた音声
データは保存されていない。
【0020】前記マルチソース入力再生ユーティリティ
は、ユーザが選択したテキストを音声化する。選択した
テキストの全てが保存音声データに関連付けられていれ
ば、その音声データを再生する。選択テキストの一部が
関連付け音声データを持っていなければ、前記ユーティ
リティはテキスト音声化(TTS)登録語を検索し、検
索した登録語によって保存音声データの再生を穴埋めす
る。従ってユーザがマルチソーステキストの一部を選択
して再生要求した場合、その部分の音声化は、利用可能
な再生用音声データと、必要に応じて導入したテキスト
音声化登録語との混在によって実現する。
【0021】本発明は、前記必要性に応えるため、非音
声入力を含む複数の入力方法を用いて入力したテキスト
を音声化するための簡単な方法を提供する。本方法は、
マルチソース文書において、関連付けられた音声データ
を持たない語についても、テキスト音声化登録語を検索
することにより、エラーメッセージを出すことなく、そ
の文書をコンピュータに音読させる。さらに本方法は、
全選択テキストの連続的再生を実現し、非口述テキスト
部をスキップすることがないため、ユーザの混乱を最小
にする。
【0022】
【発明の実施の形態】本発明の実施の形態は、マルチソ
ース入力再生ユーティリティである。このユーティリテ
ィは、様々な入力機器から様々なフォーマットのユーザ
入力を受け取り、そのユーザ入力をテキストに変換す
る。ユーザは、キーボード(タイプしたデータ用)、マ
イクロフォン(音声データ用)、スタイラスパッド(手
書き用)、タッチパッドまたはマウス(データグループ
からの要素選択用)等の様々な入力機器を用いて様々な
データフォーマットを入力できる。
【0023】ユーザ入力から変換した文書テキストは、
ディスプレイ装置に表示できる。表示装置は例えば、C
RTモニタ、タッチスクリーン、LCDディスプレイで
ある。ユーザは表示された文書テキストの一部を選択
し、音声再生要求を開始する。
【0024】本マルチソース入力再生ユーティリティ
は、アクセント、会話速度、背景騒音等の様々な要因に
より、ユーザの会話を誤認することがある。これら要因
により、前記ユーティリティは、ユーザが喋った異音に
一致しない音素を選択してしまう。すると文字化したテ
キストは不正確になる。
【0025】テキストが口述から大きく食い違うと、テ
キスト化した文書を見るだけでは元々何を口述したかを
思い出すのは難かしい。この場合、ユーザは画面上のテ
キストの一部を選択し、その選択テキストの元となった
音声を読み上げるよう、マルチソース入力再生ユーティ
リティに要求する。ユーザがテキストの一部を再生用に
選択すると、前記ユーティリティはその選択されたテキ
ストをハイライト表示し、ユーザに対して視覚的なフィ
ードバックを行う。このフィードバックは、選択テキス
トを異なる色で表示したり、点滅させたりする事でも良
い。選択テキストを他の部分よりも目立たせれば良い。
【0026】前記ユーティリティは次に、選択テキスト
に関連付けた音声データを検索し、その音声データをス
ピーカから再生する。音声データ再生中の文書部分に、
その箇所を明示する視覚的手掛かりを表示しても良い。
例えば音声再生中の語の上にカーソルやボールを表示
し、その表示を再生に従って移動させても良い。再生中
の音声に対応する画面上の語を点滅させたり、その語に
下線を付けても良い。
【0027】ユーザは、口述文書の編集、新しいテキス
トの追加、音声認識エラーの訂正を希望することがあ
る。この場合、再び音声モジュールを使うこともできる
が、通常は口述によらず、キーボードを用いて前記マル
チソース入力再生ユーティリティに変更を直接入力し、
文書の編集を行う。タッチパッドや筆記スタイラス等の
装置によって文書を訂正することもできる。
【0028】このように、文書はマルチソース入力を含
むことができる。文書の一部は音声を使って生成したも
のであり、他の部分はタイピングや手書きによって生成
したものである。
【0029】ユーザはマルチソース入力を含む文書の一
部の音声再生を要求できる。するとマルチソース入力再
生ユーティリティは、選択部分のうち音声データに関連
付けられている語と、そうでない語とを決定する。この
決定を行うに当たり、選択部分の最初から最後までの各
語を順次調べる。あるいは、音声データを利用可能なテ
キスト部分にポインタを設定し、対応する語グループの
記憶場所を示すことにより、語ごとのチェックを省略す
ることもできる。文書の選択部分内の語に関連付けた音
声データが無ければ、その語に対応するテキスト音声化
(TTS)登録語が存在するか否かを決定する。対応す
るTTS登録語があれば、その登録語を取り出し、再生
する。対応するTTS登録語が無ければ、その語を音素
に分解し、その音素に最適な異音に対応するTTS登録
語を検索し、その登録語を再生する。例えば姓「ヘメン
ウエイ(Hemenway)」は対応するTTS登録語
が無いであろう。この場合、その語を音素に分解し、そ
の音素に最適な異音を選択する。そして対応するTTS
登録語を選択し、再生する。この手順はその語の全ての
音素を音声化するまで続行する。
【0030】本マルチソース入力再生ユーティリティ
は、選択テキストを解析し、保存音声データに関連付け
られていない全ての語を決定し、これら関連付けの無い
語に近似のTTS登録語を1回で決定することもでき
る。すなわちTTSモジュールへの複数回のアクセスを
しない。この方法は、TTSアクセスを最小に保つこと
によってCPU使用を最小に押さえる。この方法は、音
声データに関連付けられている語の全てを取り出し、シ
ステムメモリに保持し、その間に各非関連付け語に対応
するTTS登録語を獲得する。その後、前記音声データ
とTTS登録語とを順次システムメモリから再生する。
すなわち記憶媒体から音声データとTTS登録語とを逐
次読み出すことをしない。
【0031】本ユーティリティは、再生前にTTS登録
語を速めたり遅くしたりすることにより、それを保存音
声データに合わせることができる。音声データ波形を分
析し、音声速度、ピッチ、トーン、音色等の情報を抽出
しても良い。その後、TTS登録語の対応する特性を変
化させることにより、話者の会話パターンにTTS登録
語の音声を近似できる。
【0032】変形した実施の形態として、テキストの口
述部分を元通りに音声再生しても良い。本実施の形態
は、「私はコンピュータが素敵な海辺を破壊できたら良
いと本当に思う(I really wish my
computer couldwreck a nic
e beach)」を、「私はコンピュータが音声を認
識できたら良いと思う(I wish my comp
uter couldrecognize speec
h)」と再生する。文書に対する編集改変やタイプによ
る追加が多いと、干渉が多すぎて、ユーザは音声再生を
追跡できないからである。
【0033】他の実施の形態は、タイプした語に対応す
る箇所を再生する時、一時停止を挿入する。「私はコン
ピュータが音声を認識できたら良いと思う(I wis
hmy computer could recogn
ize speech)」を編集して「私(I)」と
「良いと思う(wish)」の間に「本当に(real
ly)」を挿入した場合を考える。本実施例は、選択テ
キストを再生する時、「私は(I)」「一時停止」「コ
ンピュータが音声を認識できたら良いと思う(wish
my computer could recogn
ize speech)」と読み上げる。この一時停止
は、タイプした語「本当に(really)」の存在を
示す。一時停止箇所に到達すると音声が消えるので、ユ
ーザはそれを知ることができる。一時停止の期間を変え
ることにより、口述文書に挿入した文や段落を示唆する
こともできる。
【0034】アプリケーションの例としてワードプロセ
ッサを取り上げ本発明を説明したが、本発明は他の多く
のアプリケーションに適用可能である。例えばスプレッ
ドシート、ブラウザ、電子メールプログラム、音楽編曲
プログラム、CADプログラム、オペレーティングシス
テム等、当業者には明白なアプリケーションである。
【0035】本マルチソース入力再生ユーティリティ
は、以下に説明する様々なプログラムモジュールからな
る。当業者には明らかなように、これらモジュールは様
々な方法で組合せ可能であると共に、新しいプログラム
モジュールを作り出すことによって同様な結果をもたら
すことも可能である。例えば入力インタフェースやテキ
スト音声化モジュールは、オペレーティングシステムの
一部、ワードプロセッサの一部、あるいはスタンドアロ
ンでも良い。これについては後述する。また手書き認識
プログラムモジュール、音声認識プログラムモジュー
ル、入力システムは、独立したプログラムでも良く、ワ
ードプロセッサまたはオペレーティングシステムの部品
でも良く、これら3つをスタンドアロンにしてそれらを
パッケージにしたものでも良い。
【0036】(動作環境例)本発明の実施に適したコン
ピュータ環境100の概略を図1を参照して説明する。
一例としての動作環境100は、従来のパーソナルコン
ピュータシステム120を含む。このパーソナルコンピ
ュータシステムは、プロセッサ121と、システムメモ
リ122と、システムバス123とを含む。システムバ
ス123は、システムメモリ122をプロセッサ121
に接続する。システムメモリ122は、リードオンリメ
モリ(ROM)124とランダムアクセスメモリ(RA
M)125とを含む。ROM124は基本入出力システ
ム126(BIOS)を含む。このBIOSは基本ルー
チンを含む。この基本ルーチンは、起動時等にパーソナ
ルコンピュータ120内の各要素間の情報転送を支援す
る。
【0037】パーソナルコンピュータシステム120
は、ハードディスクドライブ127と、取出し可能磁気
ディスク129を読み書きするための磁気ディスクドラ
イブ128と、CD−ROM等の光媒体である取出し可
能光ディスク131を読み書きするための光ディスクド
ライブ130とをさらに含む。ハードディスクドライブ
127と磁気ディスクドライブ128と光ディスクドラ
イブ130とは、各々ハードディスクドライブインタフ
ェース132と磁気ディスクドライブインタフェース1
33と光ドライブインタフェース134とを介して、シ
ステムバス123に接続する。これらドライブおよび関
連するコンピュータ読取り可能媒体は、不揮発性記憶手
段をパーソナルコンピュータシステム120に提供す
る。ここに示したコンピュータ読取り可能媒体は、ハー
ドディスク、取出し可能磁気ディスク,およびCD−R
OMディスクだが、当業者には明らかなように、他のコ
ンピュータ読取り可能媒体を、一例として示した前記動
作環境に用いても良い。例えば磁気カセット、フラッシ
ュメモリカード、デジタルビデオディスク、ベルヌーイ
カートリッジ等を用いても良い。
【0038】ユーザは、キーボード140やマウス14
2等のポインティングデバイス等の入力装置を介して、
パーソナルコンピュータシステム120にコマンドや情
報を入力する。マイクロフォン161は、コンピュータ
システム120に会話等の音声入力を行うために使用す
る。ユーザは、コンピュータシステムに図や手書きのグ
ラフィック情報を入力する場合、スタイラスを用いて筆
記タブレット162にグラフィック情報を描く。コンピ
ュータシステム120は、他の入力装置(図示せず)と
してジョイスティック、ゲームパッド、衛星アンテナ、
スキャナ等を含んでも良い。マイクロフォン161は、
システムバスに接続したオーディオアダプタ160を介
してプロセッサ121に接続できる。他の入力装置は、
システムバスに接続したシリアルポートインタフェース
146を介してプロセッサ121に接続する場合が多
い。しかしながらゲームポート、ユニバーサルシリアル
バス(USB)等のインタフェースによって接続するこ
ともできる。
【0039】モニタ147等の表示装置は、ビデオアダ
プタ148等のインタフェースを介してシステムバス1
23に接続する。モニタに加え、パーソナルコンピュー
タシステムは、スピーカやプリンタ等の周辺出力装置
(図示せず)を一般に含む。
【0040】パーソナルコンピュータシステム120
は、ネットワーク環境で動作させ、1つ以上の遠隔コン
ピュータ149への論理接続を使用することもできる。
遠隔コンピュータ149は、サーバ、ルータ、ピア装
置、共通ネットワークノード等であり、一般に前記パー
ソナルコンピュータシステム120に関連して説明した
要素の多くあるいは全てを含む。ただし図1は記憶装置
150のみを示す。図1に示す論理接続は、ローカルエ
リアネットワーク(LAN)151と、ワイドエリアネ
ットワーク(WAN)152とを含む。このようなネッ
トワーク環境は、事務所、企業コンピュータネットワー
ク、イントラネット、およびインターネットにおいて普
及している。
【0041】LAN環境で使用する場合、パーソナルコ
ンピュータシステム120は、ネットワークインタフェ
ース153を介してローカルネットワーク151に接続
する。WAN環境で使用する場合、パーソナルコンピュ
ータシステム120は、一般にモデム154等の手段を
含み、インターネット等のワイドエリアネットワーク1
52を介して通信を確立する。モデム154は内蔵また
は外付けであり、シリアルポートインタフェース146
を介してシステムバス123に接続する。ネットワーク
環境の場合、パーソナルコンピュータシステム120の
プログラムモジュールは、遠隔記憶装置150に格納し
ても良い。図示のネットワーク接続は例であり、コンピ
ュータシステム間の通信リンクは他の手段で確立しても
良い。また本発明は、パーソナルコンピュータシステム
以外に、ホストまたはサーバコンピュータシステムでも
実現可能であり、CD−ROM以外の手段、例えばネッ
トワーク接続インタフェース153によってホストコン
ピュータシステムにデータを送ることができる。
【0042】多くのプログラムモジュールをコンピュー
タシステム120の駆動装置やRAM125に格納でき
る。プログラムモジュールは、コンピュータシステム1
20の機能を制御し、ユーザ、入出力装置、あるいは他
のコンピュータと対話する。プログラムモジュールは、
ルーチン、オペレーティングシステム135,アプリケ
ーションプログラムモジュール138,データ構造、ブ
ラウザ、他のソフトウエア部品、あるいはファームウエ
ア部品を含む。本発明は、テキスト音声化(TTS)モ
ジュール137、入力インタフェースプログラムモジュ
ール139等の1つ以上のプログラムモジュールにおい
て好適に実施できる。これらモジュールの各々は、発明
の詳細な説明に記載した方法に基づいている。
【0043】アプリケーションプログラムモジュール1
38は、本発明に関連して使用する様々なアプリケーシ
ョンからなる。図2はそのうちのいくつかを示す。これ
らプログラムモジュールの目的および相互作用は、図2
を参照して詳細に説明する。これらプログラムモジュー
ルは、ワードプロセッサプログラム210(ワシントン
州レドモンドのマイクロソフト社の製品であるワード
等)、テキスト音声化モジュール137,第1音声認識
プログラムモジュール240,および入力システム(I
ME)250を含む。
【0044】以下に説明する様々な手順を実行するため
の特定のプログラミング言語は説明しない。理由は、以
下の説明および添付図面における動作、処理段階、およ
び手順は、十分な開示を行っているため、当業者であれ
ばそれらに基づいて本発明の実施例を実施可能だからで
ある。さらに実施例の実行に使用可能なコンピュータお
よびオペレーティングシステムは多数あり、これら多く
の異なるシステムに適用可能な詳細コンピュータプログ
ラムを提示するのは困難だからである。特定コンピュー
タのユーザは、そのユーザの必要性および目的に最も適
した言語およびツールを知っているであろう。
【0045】当業者には明らかなように、本発明は他の
コンピュータシステム構成でも実施可能である。例えば
携帯装置、マルチプロセッサシステム、マイクロプロセ
ッサベースの消費者用電子機器、プログラム可能消費者
用電子機器、マイクロコンピュータ、メインフレームコ
ンピュータ等でも実施可能である。本発明は分散コンピ
ュータ環境でも実施可能である。分散コンピュータ環境
では、通信ネットワークでリンクした各遠隔処理装置に
よってタスクを実行し、プログラムモジュールを局所記
憶装置および遠隔記憶装置の両方に置くことができる。
【0046】(マルチソース入力再生ユーティリティの
構成)図2は、マルチソース入力再生ユーティリティ2
00を示すブロック図である。マルチソース入力再生ユ
ーティリティ200の目的は、複数のソースからユーザ
入力を受け取り、その入力を処理してテキスト化し、そ
のテキストを音声として再生することである。入力ソー
スは、例えば手書き、音声、タイピングである。
【0047】マルチソース入力再生ユーティリティ20
0は、いくつかのプログラムモジュールを備える。これ
らプログラムモジュールは、様々なソースからワードプ
ロセッサへのテキスト入力を可能にする。ユーザが入力
したデータをテキストに変換し、ディスプレイ画面に表
示する。ユーザは、音声データとして聞きたい部分のテ
キストを選択する。するとマルチソース入力再生ユーテ
ィリティ200は、適切なプログラムモジュールを介し
てその要求を処理し、音声を再生する。
【0048】マルチソース入力再生ユーティリティ20
0の代表的な入力ソースは、手書き認識プログラムモジ
ュール230、第1音声認識プログラムモジュール24
0、入力システム(IME)250、第2音声認識プロ
グラムモジュール240、および直接入力機器としての
キーボード140、マウス142等である。各入力プロ
グラムモジュールを順次説明する。
【0049】手書き認識プログラムモジュール230
は、ユーザから手書き入力280を受け取る。ユーザ
は、スタイラスやマウスで筆記タブレット162に手書
きしたり、タッチスクリーンによって手書き入力280
を生成する。手書き入力280は、オペレーティングシ
ステム135の筆記タブレットドライバモジュールによ
り、手書き認識プログラムモジュール230に転送す
る。
【0050】第1音声認識プログラムモジュール240
は、ユーザからの音声入力290を、マイクロフォン1
61を介して受け取る。このマイクロフォンは、オペレ
ーティングシステム135のマイクロフォンドライバモ
ジュールによって駆動する。音声は、同一発音で異なる
意味や綴りを有する語がたくさんあるため、解釈が難し
い場合が多い。第1音声認識プログラムモジュール24
0は、音声入力290を音素に分解し、各音素に基づい
たテキスト出力を生成する。さらに第1音声認識プログ
ラムモジュール240は、音声入力290を波形に変換
し、それを保存音声データ270として長期記憶媒体に
保存する。この保存音声データ270は、後から音声再
生用としてワードプロセッサ210からアクセスする。
【0051】入力システム(IME)250は、音声入
力を特定外国語の表意テキストに変換する。IME25
0への入力は、例えばキーボード140やマウス142
を介してコンピュータに入力されるタイプしたテキスト
であり、あるいはマイクロフォン161を介して入力さ
れる音声データである。
【0052】IME250は、アジア言語の表意文字を
生成する場合、特に有用である。これら言語は、キーボ
ードのキーよりもはるかに多い表意文字を有するため、
IME250が無ければ、コンピュータに特定の表意文
字を入力するのは難しい。例えば中国語IME250の
場合、ユーザは希望の中国語文字に対して英語文字音声
スペルをタイプする。多くの中国語文字は発音が類似し
ているため、タイプした音声スペルは、多くの異なる漢
字の1つを代表することがある。するとIME250
は、内部的に生成した候補リストから最も可能性の高い
候補を選択する。あるいはタイプした音声スペルに基づ
いて最適候補をかわるがわるユーザに提供し、ユーザは
正しいものを選択できる。この候補リストはユーザが提
供した音声スペルから、あるいはユーザの音声入力29
0に基づく音素セットから生成する。
【0053】IME250の機能を示すため、音声をコ
ンピュータに入力しそれを使って例えば日本語テキスト
を生成してみる。その音声は第2音声認識プログラムモ
ジュール240へ転送する。この第2音声認識プログラ
ムモジュール240は、第1音声認識プログラムモジュ
ール240とほぼ同様に動作するが、独立したユニット
として図示した。その理由は、第2音声認識プログラム
モジュール240は、異なる音声解釈エンジンと出力タ
イプを持つことができるからである。すなわち第2音声
認識プログラムモジュール240は、第1音声認識プロ
グラムモジュール240とは異なる言語を解釈できる。
【0054】第2音声認識プログラムモジュール240
は、英語音声から1つ以上の代替英語テキストを生成す
る。この代替英語テキストは、IME250への入力と
なり、IME250はその英語テキストを日本語文字に
変換する。IME250への各代替入力は、各別の候補
リストを作るが、これら候補リスト間には重複があり得
る。
【0055】IME250と第2音声認識プログラムモ
ジュール240とは、直接にインタフェースしない。例
えば第2音声認識プログラムモジュール240からIM
E250への入力は、インタフェースプログラムモジュ
ールを介して送る。このインタフェースプログラムモジ
ュールは、例えば入力インタフェース139である。こ
の入力インタフェースは、各入力ソースに直接接続す
る。
【0056】英語と日本語の例を挙げたが、会話認識プ
ログラムモジュール240とワードプロセッサ210
は、複数言語の入力を受け取り、表示できる。例えばワ
ードプロセッサ210は、ナスティリクのように、左か
ら右以外の方向に読まれる言語テキストを表示する構成
も可能である。またワードプロセッサ210は、ヘブラ
イ語やアラビア語のように、各文字の形が周囲の文字に
応じて変化するテキストも表示できる。
【0057】ワードプロセッサ210は、ユーザからの
入力を受け取り、入力インタフェース139を介して出
力を表示する。この出力は、ディスプレイ画面上のテキ
スト、またはスピーカを介しての音声データである。ワ
ードプロセッサ210は、マルチソース入力再生ユーテ
ィリティ200のユーザと、コンピュータプログラムモ
ジュールとの間のインタフェースを提供する。
【0058】ワードプロセッサ210は、入力インタフ
ェース139を介して、手書き入力280と音声入力2
90とに関して最適な代替テキストを受け取る。ある入
力、例えばキーボード140でのタイピングによって生
成されたテキストは、入力インタフェース139による
代替テキスト生成を必要とせず、受け取ったままの形で
転送される。ワードプロセッサ210は、全ソースデー
タを組合せ、マルチソーステキスト列を生成し、それを
ユーザに提供する。ワードプロセッサ210は、テキス
ト中の各ワードのソースをユーザに示すことはしないも
のの、ワードプロセッサは各テキスト要素のソースを記
録する。別の実施例は、各語のソースを様々な方法で示
すことができる。例えば各語を、その語の入力ソースに
応じて異なる色やフォントで表示することができる。
【0059】ユーザは、ワードプロセッサ210を用い
てテキストの一部を選択し、その選択部分の音声再生を
要求できる。ワードプロセッサは、選択テキストに関連
付けられた保存音声データ270を検索し、その音声デ
ータをスピーカ等の機器を介して再生する。選択テキス
トに関連付けられた保存音声データ270が無ければ、
ワードプロセッサ210は、入力インタフェース139
を介してテキスト音声化モジュール137に要求を送
り、選択テキストに対応するTTS登録語を検索させ
る。ワードプロセッサはその後、第1音声認識プログラ
ムモジュール240と入力インタフェース139を介し
て対応するTTS登録語を受け取り、それをスピーカを
介して再生する。ワードプロセッサ210は、選択テキ
スト内の各語を解析し、保存音声データ270またはT
TS登録語220を検索して再生する。マルチソース入
力再生ユーティリティ200のユーザは、保存音声デー
タとTTS登録語の組合せによる連続的な流れによる選
択テキストの音読を聞く。選択テキストの音声再生の詳
細は図5を参照して詳細に後述する。
【0060】(マルチソース入力再生ユーティリティ用
ユーザインタフェース)図3は、本発明の実施例に基づ
き口述文書サンプル300をディスプレイ画面147に
表示したところを示す。図2の音声入力290は、第1
音声認識プログラムモジュール240によって文字化さ
れ、ワードプロセッサ210によって口述文書サンプル
300として表示される。本例の口述文書は、詩の一節
である。第1音声認識プログラムモジュール240は、
口述の一部を誤認している。特に点線の四角で示す「白
いフランネルのズボン(white flannel
trousers:ホワイト フランネル トラウザ
ズ)」が「そりゃ日に焼けるから、ズボン(why t
an I trouser:ホワイ タン アイ トラ
ウザ)」となっており、第1音声認識プログラムモジュ
ール240は誤ったテキストに変換している。
【0061】図4は、文書300を編集したものであ
り、部分310が音声再生用に選択されている。図4に
おいて、誤認部は編集により適切な語が挿入されてい
る。すなわち「そりゃ日に焼けるから、ズボン(why
tan I trouser)」を「白いフランネル
のズボン(white flannel trouse
rs)」に置き換えている。また文書部分310は、音
声再生用に選択されている。文書300のうち、マルチ
ソース入力再生ユーティリティ200によって音声化す
る部分をユーザにフィードバックするため、再生するテ
キスト部分310をハイライト表示する。再生用に選択
したテキスト部分は、文書300の編集部分320を含
んでいることに注意したい。その編集がキーボードのタ
イピングでなされていれば、文書300はマルチソース
文書である。テキスト部分310はマルチソーステキス
ト部分である。「白いフランネルのズボン(white
flannel trousers)」は関連付けら
れた音声データを持たない。なぜならキーボードを使っ
て入力したからである。ユーティリティ200が再生を
開始すると、選択テキスト部310の「白いフランネル
のズボン(whiteflannel trouser
s)」は、テキスト音声化モジュール137が提供する
テキスト音声化登録語220を使って音声再生される。
【0062】ユーザフィードバックをさらに強化するた
め、マルチソース入力再生ユーティリティ200は、音
声再生する語の正確な指示を行うことができる。例えば
音声データまたはテキスト音声化登録語の再生に従っ
て、対応する語を点滅させたりその語の色を変えたりす
る。
【0063】(マルチソース入力再生ユーティリティの
動作)マルチソース入力再生ユーティリティ200の各
部動作を図5に基づき説明する。説明は図2の機能ブロ
ック図を適宜参照しながら行う。
【0064】図5は、文書の選択部分に対する音声再生
処理の詳細を示すフローチャートである。まずステップ
400において、ユーザはマルチソース入力再生ユーテ
ィリティ200によって音声再生する文書のテキスト部
分を選択する。再生用テキストを選択すると、ワードプ
ロセッサ210はステップ405において、テキスト部
分300の第1語の境界を決定する。一般に語の境界
は、スペース、アスタリスク、カンマ、ピリオド等の非
英数字である。しかしながら言語によっては区切り文字
がない。その場合、語の区切りを決定するための言語理
解形式を用いねばならない。各語の区切りが無い言語の
例は、日本語、中国語、タイ語である。以下の説明は、
区切られた語を「現在の語」と呼ぶ。
【0065】ワードプロセッサ210が現在の語の大き
さと境界とを決定すると、マルチソース入力再生ユーテ
ィリティ200は、ステップ410において、その語
が、先の口述において保存した保存音声データ270に
関連付けられているかを決定する。
【0066】ステップ410においてその語が保存音声
データ270に関連付けられていれば、マルチソース入
力再生ユーティリティ200は、その音声データをステ
ップ415において取り出す。ワードプロセッサ210
は、その保存音声データを入力インタフェース139に
要求し、該入力インタフェースはそのデータを磁気ディ
スクドライブ128等の媒体から取り出す。入力インタ
フェース139はその音声データをワードプロセッサ2
10に渡す。
【0067】ステップ415の後、マルチソース入力再
生ユーティリティ200はステップ420において、前
記音声データを再生する。一般にワードプロセッサ21
0は、独立したプログラムモジュールあるいはオペレー
ティングシステムの一部を用いて音声データを再生す
る。他の実施例において、ワードプロセッサは再生プロ
グラムモジュールを内蔵できる。
【0068】マルチソース入力再生ユーティリティ20
0は次に、ステップ405〜420で処理した語が、ス
テップ400においてユーザが選択したテキストの最後
の語であるかを決定する。選択範囲に語が残っていなけ
れば、ステップ460において終了する。語が残ってい
れば、マルチソース入力再生ユーティリティ200はス
テップ405に戻り、次の語の境界を決定する。
【0069】ユーティリティ200がステップ410に
おいて、現在の語に関連付けられた音声入力は無いと決
定した場合を説明する。例えば文書編集処理において、
ユーザがタイプした語をユーティリティ200が処理す
る場合である。この場合、ユーティリティ200は、現
在の語に対応するTTS登録語220があるか否かをチ
ェックする。すなわちワードプロセッサ210は、第1
音声認識プログラムモジュール240を介してTTSモ
ジュール137に対し、現在の語に対応するTTS登録
語があるか否かを問い合わせる。
【0070】対応するTTS登録語220があれば、T
TSモジュール137はそれを取り出し、入力インタフ
ェース139を介してワードプロセッサ210に渡す。
あるいはTTSモジュール137は、取り出すTTS登
録語を決定するに当たり、現在のTTS登録語の両側の
音素に対応する周囲のTTS登録語を調べ、周囲のTT
S登録語に音声的に最も一致するものを選択する。TT
Sモジュール137は、この処理をステップ430にお
いて行う。
【0071】ワードプロセッサがTTS登録語を受け取
ると、マルチソース入力再生ユーティリティ200は、
ステップ420においてそれを再生する。その詳細は保
存音声データ270の再生で説明したとおりである。あ
るいはステップ420における再生前に、TTS登録語
のピッチ、トーン、速度等の可聴特性をユーティリティ
200によって処理し、TTS登録語の音声を保存音声
データに近似させ、2タイプの音声再生間の不調和を最
小にしても良い。TTS登録語220を再生した後、ス
テップ455を前記通りに実行する。
【0072】現在の語に対応するTTS登録語が無けれ
ば、ワードプロセッサ210はステップ435におい
て、その語を音素に分解する。ステップ440において
ワードプロセッサは、第1音素を入力インタフェース1
39を介して第1音声認識プログラムモジュール240
に転送する。ステップ440の一部として、音声認識プ
ログラムモジュールは、テキスト音声化モジュール13
7に対し、第1音素に対応するTTS登録語220を要
求する。特に第1音声認識プログラムモジュール240
は、ワードプロセッサ210から受け取った音素を分析
し、TTSモジュールに対し、その音素の最適な異音か
らなるTTS登録語220を要求する。TTS登録語を
取り出しそれをワードプロセッサ210に転送してステ
ップ440を終了する。
【0073】(結論)マルチソース入力再生ユーティリ
ティ200は、ユーザが手動で再生速度を変えられる等
の追加機能を含んでも良い。ユーティリティ200は、
前記した以外の入力ソースからの入力を受け付けても良
い。例えば別の入力装置や異なるプログラムからの制御
信号を受け付けることができる。以上説明した本発明の
実施例は、それに基づいて多くの変更や追加を可能にす
る。すなわち前記説明は本発明の特定の実施例のみに関
しており、本発明には、請求の範囲に記載の本発明範囲
を逸脱することなく、多くの変更が可能である。
【0074】
【発明の効果】以上述べたように、本発明によれば、文
書の選択部分に対応する音声を直感的な形式で確実に再
生する方法およびシステムが提供できる。また、音声デ
ータが欠落した部分を有する文書の音声再生において、
その欠落部分を穴埋めする方法およびシステムが提供で
きる。
【0075】すなわち、本発明によれば、音声をテキス
トに関連付ける方法、コンピュータで文書を生成し読み
上げる方法、コンピュータでテキスト文書の音声再生を
行う方法、及び、文書内のテキストを編集し評価する方
法を提供できる。
【0076】本発明によれば、音声をテキストに関連付
けるコンピュータ、文書を生成し読み上げるコンピュー
タ、及び、テキスト文書の音声再生を行うコンピュータ
を提供できる。
【図面の簡単な説明】
【図1】本発明の実施例を動作させる環境の一例として
のパーソナルコンピュータを示すブロック図である。
【図2】マルチソース入力再生システムのソフトウエア
構成を示すブロック図である。
【図3】マルチソース入力再生システムを使用して入力
したテキスト文書の一部を示すディスプレイ画面であ
る。
【図4】編集済みテキスト文書の中で音声再生部分を選
択したところを示すディスプレイ画面である。
【図5】マルチソース文書の一部を選択し音声化する方
法を示す論理フローチャートである。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551B (72)発明者 エリック ラッカー アメリカ合衆国 98105 ワシントン州 シアトル フォーティエイス アヴェニュ ー 4316 (72)発明者 ポール キョン ホワン キム アメリカ合衆国 98107 ワシントン州 シアトル ナンバー205 エヌダブリュー サーティナインス ストリート 201 (54)【発明の名称】 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで 文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト 文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキ ストを編集し評価する方法

Claims (31)

    【特許請求の範囲】
  1. 【請求項1】 語を口述するステップと、 文書中の第1テキストとして前記口述語を文字化するス
    テップと、 前記口述を記憶媒体に保存するステップと、 前記口述の各語と前記テキストの要素とを関連付けるス
    テップと、 前記文書に第2テキストを挿入するステップと、 前記第2テキストにテキスト音声化登録語を関連付ける
    ステップとを有することを特徴とする音声をテキストに
    関連付ける方法。
  2. 【請求項2】 前記文書内における前記第1テキストと
    第2テキストの配置順序に従って前記口述とテキスト音
    声化登録語とを再生するステップをさらに有することを
    特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記第2テキストを第1口述語と第2口
    述語との間に挿入することを特徴とする請求項2に記載
    の方法。
  4. 【請求項4】 主第2テキストが前記口述語に先行し、
    副第2テキストが前記口述語に続くことを特徴とする請
    求項2に記載の方法。
  5. 【請求項5】 主第1テキストと副第1テキストとが、
    主第2テキストと副第2テキストとに交替することを特
    徴とする請求項2に記載の方法。
  6. 【請求項6】 語を口述する手段と、 文書中の第1テキストとして前記口述語を文字化する手
    段と、 前記口述を記憶媒体に保存する手段と、 前記口述の各語と前記テキストの要素とを関連付ける手
    段と、 前記文書に第2テキストを挿入する手段と、 前記第2テキストにテキスト音声化登録語を関連付ける
    手段とを有することを特徴とする音声をテキストに関連
    付けるコンピュータ。
  7. 【請求項7】 前記文書内における前記第1テキストと
    第2テキストの配置順序に従って前記口述とテキスト音
    声化登録語とを再生する手段をさらに有することを特徴
    とする請求項6に記載のコンピュータ。
  8. 【請求項8】 入力装置に少なくとも1つの語を発声入
    力するステップと、 前記語を文字化して文書に第1テキスト登録語として転
    写するステップと、 前記語を記憶媒体に保存するステップと、 前記語を前記第1テキスト登録語に関連付けるステップ
    と、 前記文書内に第2テキスト登録語をタイピング入力する
    ステップと、 前記第2テキスト登録語に対応するテキスト音声化登録
    語を前記第2テキスト登録語に関連付けるステップと、 前記文書内における前記第1および第2テキスト登録語
    の順序に従って前記語とテキスト音声化登録語とを再生
    するステップとを有することを特徴とするコンピュータ
    で文書を生成し読み上げる方法。
  9. 【請求項9】 前記語の音声特長を分析し、前記音声特
    長に合わせて前記テキスト音声化登録語の再生を調整す
    るステップをさらに有することを特徴とする請求項8に
    記載の方法。
  10. 【請求項10】 前記テキスト音声化登録語の韻律要素
    が調整されることを特徴とする請求項9に記載の方法。
  11. 【請求項11】 ディスプレイ画面に前記文書を表示す
    るステップと、前記テキスト音声化登録語に対応する前
    記語に影を付けるステップとをさらに有することを特徴
    とする請求項8に記載の方法。
  12. 【請求項12】 前記第1テキスト登録語が停止し前記
    第2テキスト登録語が開始する信号が非英数字文字の表
    示によって送られることを特徴とする請求項8に記載の
    方法。
  13. 【請求項13】 前記第1および第2テキスト登録語が
    絵文字を有することを特徴とする請求項8に記載の方
    法。
  14. 【請求項14】 前記絵文字が漢字であることを特徴と
    する請求項13に記載の方法。
  15. 【請求項15】 入力装置に少なくとも1つの語を発声
    入力する手段と、 前記語を文字化して文書に第1テキスト登録語として転
    写する手段と、 前記語を記憶媒体に保存する手段と、 前記語を前記第1テキスト登録語に関連付ける手段と、 前記文書内に第2テキスト登録語をタイピング入力する
    手段と、 前記第2テキスト登録語に対応するテキスト音声化登録
    語を前記第2テキスト登録語に関連付ける手段と、 前記文書内における前記第1および第2テキスト登録語
    の順序に従って前記語とテキスト音声化登録語とを再生
    する手段とを有することを特徴とする文書を生成し読み
    上げるコンピュータ。
  16. 【請求項16】 前記韻律要素がピッチと速度と音量で
    あることを特徴とする請求項10に記載の方法。
  17. 【請求項17】 前記第1および第2テキスト登録語
    が、周囲テキストに応じて形状を変化させることを特徴
    とする請求項8に記載の方法。
  18. 【請求項18】 前記第1および第2テキスト登録語が
    右から左へ読まれることを特徴とする請求項8に記載の
    方法。
  19. 【請求項19】 少なくとも1つの音素からなる少なく
    とも1つの語で、構成したテキストセットを選択するス
    テップと、 ユーザの口述音声入力が第1語に対応するか否かを決定
    するステップと、 ユーザの口述音声入力が第1語に対応すれば、音声出力
    装置を介して前記ユーザの口述音声入力を再生するステ
    ップと、 ユーザの口述音声入力が第1語に対応しなければ、複数
    のテキスト音声化登録語の1つが前記第1語に対応する
    か否かを決定するステップと、 1つのテキスト音声化登録語が前記第1語に対応すれ
    ば、音声出力装置を介して前記テキスト音声化登録語を
    再生するステップと、 1つのテキスト音声化登録語が前記第1語に対応しなけ
    れば、前記複数のテキスト音声化登録語のどれが前記音
    素に対応するかを決定するステップと、 前記複数のテキスト音声化登録語のどれが第1音素に対
    応するかの決定に応じて、音声出力装置を介して前記対
    応するテキスト音声化登録語を再生するステップとを有
    することを特徴とするコンピュータでテキスト文書の音
    声再生を行う方法。
  20. 【請求項20】 前記テキストセットが複数の語からな
    り、 前記第1語がユーザの口述音声入力に対応し、 第2語がテキスト音声化登録語に対応することを特徴と
    する請求項19に記載の方法。
  21. 【請求項21】 前記テキストセット内における前記第
    1語および第2語の順序に従って前記ユーザの口述音声
    入力とテキスト音声化登録語とを再生するステップをさ
    らに有することを特徴とする請求項19に記載の方法。
  22. 【請求項22】 対応するユーザの口述音声入力が無い
    複数の語を決定するステップと、 前記複数の語をテキスト音声化モジュールへ渡すステッ
    プと、 前記複数の語の各々についてテキスト音声化登録語を検
    索するステップとをさらに有することを特徴とする請求
    項19に記載の方法。
  23. 【請求項23】 少なくとも1つの音素からなる少なく
    とも1つの語で、構成したテキストセットを選択する手
    段と、 ユーザの口述音声入力が第1語に対応するか否かを決定
    する手段と、 ユーザの口述音声入力が第1語に対応すれば、音声出力
    装置を介して前記ユーザの口述音声入力を再生する手段
    と、 ユーザの口述音声入力が第1語に対応しなければ、複数
    のテキスト音声化登録語の1つが前記第1語に対応する
    か否かを決定する手段と、 1つのテキスト音声化登録語が前記第1語に対応すれ
    ば、音声出力装置を介して前記テキスト音声化登録語を
    再生する手段と、 1つのテキスト音声化登録語が前記第1語に対応しなけ
    れば、前記複数のテキスト音声化登録語のどれが前記音
    素に対応するかを決定する手段と、 前記複数のテキスト音声化登録語のどれが第1音素に対
    応するかの決定に応じて、音声出力装置を介して前記対
    応するテキスト音声化登録語を再生する手段とを有する
    ことを特徴とするテキスト文書の音声再生を行うコンピ
    ュータ。
  24. 【請求項24】 音声認識処理を用いて口述語を文書内
    の第1テキストセットに変換するステップと、 後からの音声再生のため、前記口述語を保存すると共に
    前記第1テキストに関連付けるステップと、 非音声命令を前記文書内の第2テキストセットに変換す
    るステップと、前記文書内における前記第1および第2
    テキストセットの順序に従って前記第1および第2テキ
    ストセットに対応する音声を再生し、前記音声の前記第
    1テキストセットに対応する部分は前記保存口述語の再
    生によって提供し、前記音声の前記第2テキストセット
    に対応する部分はテキスト音声化処理によって提供する
    ステップとを有することを特徴とする文書内のテキスト
    を編集し評価する方法。
  25. 【請求項25】 キーボードを用いて前記非音声命令を
    供給することを特徴とする請求項24に記載の方法。
  26. 【請求項26】 マウスを用いて前記非音声命令を供給
    することを特徴とする請求項24に記載の方法。
  27. 【請求項27】 口述語からテキストへの前記変換を音
    声認識処理を用いて行うことを特徴とする請求項24に
    記載の方法。
  28. 【請求項28】 前記第2テキストセットの音声再生を
    テキスト音声化処理を用いて行うことを特徴とする請求
    項24に記載の方法。
  29. 【請求項29】 手の動作によって前記非音声命令を供
    給することを特徴とする請求項24に記載の方法。
  30. 【請求項30】 筆記タブレットを用いて前記非音声命
    令を供給することを特徴とする請求項24に記載の方
    法。
  31. 【請求項31】 現在の再生に対応する視覚的手掛かり
    をディスプレイ画面に表示することを特徴とする請求項
    24に記載の方法。
JP2000329016A 1999-10-27 2000-10-27 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法 Ceased JP2001188777A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/428,259 US6446041B1 (en) 1999-10-27 1999-10-27 Method and system for providing audio playback of a multi-source document
US09/428259 1999-10-27

Publications (1)

Publication Number Publication Date
JP2001188777A true JP2001188777A (ja) 2001-07-10

Family

ID=23698146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000329016A Ceased JP2001188777A (ja) 1999-10-27 2000-10-27 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法

Country Status (6)

Country Link
US (1) US6446041B1 (ja)
EP (1) EP1096472B1 (ja)
JP (1) JP2001188777A (ja)
CN (1) CN1140871C (ja)
AT (1) ATE272882T1 (ja)
DE (1) DE60012655T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008871A1 (ja) * 2004-07-21 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JPWO2008062529A1 (ja) * 2006-11-24 2010-03-04 富士通株式会社 文書読上げ装置、文書読上げ装置を制御する制御方法及び文書読上げ装置を制御する制御プログラム
JP2011186483A (ja) * 2011-04-14 2011-09-22 Sharp Corp 情報処理装置及び情報処理方法
US8214216B2 (en) 2003-06-05 2012-07-03 Kabushiki Kaisha Kenwood Speech synthesis for synthesizing missing parts

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US7653748B2 (en) * 2000-08-10 2010-01-26 Simplexity, Llc Systems, methods and computer program products for integrating advertising within web content
US7383187B2 (en) * 2001-01-24 2008-06-03 Bevocal, Inc. System, method and computer program product for a distributed speech recognition tuning platform
ATE300084T1 (de) * 2001-03-16 2005-08-15 Koninkl Philips Electronics Nv Transkriptionsdienst mit abbruch der automatischen transkription
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
US7225126B2 (en) * 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
US20030046071A1 (en) * 2001-09-06 2003-03-06 International Business Machines Corporation Voice recognition apparatus and method
US7272564B2 (en) * 2002-03-22 2007-09-18 Motorola, Inc. Method and apparatus for multimodal communication with user control of delivery modality
US9165478B2 (en) * 2003-04-18 2015-10-20 International Business Machines Corporation System and method to enable blind people to have access to information printed on a physical document
JP4608650B2 (ja) * 2003-05-30 2011-01-12 独立行政法人産業技術総合研究所 既知音響信号除去方法及び装置
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
US7424154B2 (en) * 2003-11-10 2008-09-09 Microsoft Corporation Boxed and lined input panel
WO2005052785A2 (en) * 2003-11-28 2005-06-09 Koninklijke Philips Electronics N.V. Method and device for transcribing an audio signal
GB2428505B (en) * 2004-03-24 2009-01-07 Robert Harvey Rines Electronic & accoustic reading of printed material
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
WO2005116992A1 (en) * 2004-05-27 2005-12-08 Koninklijke Philips Electronics N.V. Method of and system for modifying messages
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
DE602005012410D1 (de) * 2004-09-08 2009-03-05 Panasonic Corp Anti chatter, antiklapper Zeitgeber für Anwendungs-Eingaben in einem DVD Wiedergabegerät.
US7395204B2 (en) * 2005-03-30 2008-07-01 Motorola, Inc. Methods and apparatus for providing push to talk text data
US7729478B1 (en) * 2005-04-12 2010-06-01 Avaya Inc. Change speed of voicemail playback depending on context
US8015009B2 (en) * 2005-05-04 2011-09-06 Joel Jay Harband Speech derived from text in computer presentation applications
DE102005021526A1 (de) * 2005-05-10 2006-11-23 Siemens Ag Verfahren und Vorrichtung zum Eingeben von Schriftzeichen in eine Datenverarbeitungsanlage
TWI270052B (en) * 2005-08-09 2007-01-01 Delta Electronics Inc System for selecting audio content by using speech recognition and method therefor
CN101110861B (zh) * 2006-07-18 2011-06-22 中兴通讯股份有限公司 一种在智能网中播放文本语音的系统和方法
US8831948B2 (en) 2008-06-06 2014-09-09 At&T Intellectual Property I, L.P. System and method for synthetically generated speech describing media content
US8121842B2 (en) * 2008-12-12 2012-02-21 Microsoft Corporation Audio output of a document from mobile device
US20100324895A1 (en) * 2009-01-15 2010-12-23 K-Nfb Reading Technology, Inc. Synchronization for document narration
US9009612B2 (en) * 2009-06-07 2015-04-14 Apple Inc. Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
FR2956515A1 (fr) * 2010-02-15 2011-08-19 France Telecom Procede de navigation dans un contenu sonore
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US8707195B2 (en) 2010-06-07 2014-04-22 Apple Inc. Devices, methods, and graphical user interfaces for accessibility via a touch-sensitive surface
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US9009592B2 (en) * 2010-06-22 2015-04-14 Microsoft Technology Licensing, Llc Population of lists and tasks from captured voice and audio content
US8452600B2 (en) * 2010-08-18 2013-05-28 Apple Inc. Assisted reader
US9953643B2 (en) * 2010-12-23 2018-04-24 Lenovo (Singapore) Pte. Ltd. Selective transmission of voice data
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8751971B2 (en) 2011-06-05 2014-06-10 Apple Inc. Devices, methods, and graphical user interfaces for providing accessibility using a touch-sensitive surface
WO2013046055A1 (en) * 2011-09-30 2013-04-04 Audionamix Extraction of single-channel time domain component from mixture of coherent information
US10192176B2 (en) 2011-10-11 2019-01-29 Microsoft Technology Licensing, Llc Motivation of task completion and personalization of tasks and lists
CN102945074B (zh) * 2011-10-12 2016-04-27 微软技术许可有限责任公司 根据所捕捉的语音和音频内容来填充列表和任务
US10571715B2 (en) 2011-11-04 2020-02-25 Massachusetts Eye And Ear Infirmary Adaptive visual assistive device
US8881269B2 (en) 2012-03-31 2014-11-04 Apple Inc. Device, method, and graphical user interface for integrating recognition of handwriting gestures with a screen reader
JP6045175B2 (ja) * 2012-04-05 2016-12-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム
US9135911B2 (en) * 2014-02-07 2015-09-15 NexGen Flight LLC Automated generation of phonemic lexicon for voice activated cockpit management systems
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
GB201516552D0 (en) * 2015-09-18 2015-11-04 Microsoft Technology Licensing Llc Keyword zoom
GB201516553D0 (en) 2015-09-18 2015-11-04 Microsoft Technology Licensing Llc Inertia audio scrolling
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10140973B1 (en) * 2016-09-15 2018-11-27 Amazon Technologies, Inc. Text-to-speech processing using previously speech processed data
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US10592203B2 (en) 2017-12-18 2020-03-17 Mitel Networks Corporation Device including a digital assistant for personalized speech playback and method of using same
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
DE102018213602B3 (de) 2018-08-13 2019-10-31 Audi Ag Verfahren zum Erzeugen einer Sprachansage als Rückmeldung zu einer handschriftlichen Nutzereingabe sowie entsprechende Bedienvorrichtung und Kraftfahrzeug
US11423073B2 (en) * 2018-11-16 2022-08-23 Microsoft Technology Licensing, Llc System and management of semantic indicators during document presentations

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664060A (en) * 1994-01-25 1997-09-02 Information Storage Devices Message management methods and apparatus
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6023678A (en) * 1998-03-27 2000-02-08 International Business Machines Corporation Using TTS to fill in for missing dictation audio
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6199042B1 (en) * 1998-06-19 2001-03-06 L&H Applications Usa, Inc. Reading system
US6151576A (en) * 1998-08-11 2000-11-21 Adobe Systems Incorporated Mixing digitized speech and text using reliability indices
US6064965A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Combined audio playback in speech recognition proofreader

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214216B2 (en) 2003-06-05 2012-07-03 Kabushiki Kaisha Kenwood Speech synthesis for synthesizing missing parts
WO2006008871A1 (ja) * 2004-07-21 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US7257534B2 (en) 2004-07-21 2007-08-14 Matsushita Electric Industrial Co., Ltd. Speech synthesis system for naturally reading incomplete sentences
JPWO2008062529A1 (ja) * 2006-11-24 2010-03-04 富士通株式会社 文書読上げ装置、文書読上げ装置を制御する制御方法及び文書読上げ装置を制御する制御プログラム
JP2011186483A (ja) * 2011-04-14 2011-09-22 Sharp Corp 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
DE60012655D1 (de) 2004-09-09
CN1303047A (zh) 2001-07-11
DE60012655T2 (de) 2005-07-28
ATE272882T1 (de) 2004-08-15
EP1096472A2 (en) 2001-05-02
EP1096472A3 (en) 2001-09-12
EP1096472B1 (en) 2004-08-04
US6446041B1 (en) 2002-09-03
CN1140871C (zh) 2004-03-03

Similar Documents

Publication Publication Date Title
JP2001188777A (ja) 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法
KR100378898B1 (ko) 발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템
US6490563B2 (en) Proofreading with text to speech feedback
US6801897B2 (en) Method of providing concise forms of natural commands
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6314397B1 (en) Method and apparatus for propagating corrections in speech recognition software
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4028375B2 (ja) 言語に無関係な音声ベースのサーチ・システム
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
JP2002117026A (ja) 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
JP2001184088A (ja) コンピュータ読取自在の記録媒体、及びバックグランド・オーディオ・リカバリー・システム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US20020049590A1 (en) Speech data recording apparatus and method for speech recognition learning
US5222188A (en) Method and apparatus for speech recognition based on subsyllable spellings
JP2003162524A (ja) 言語処理装置
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JPH09311775A (ja) 音声出力装置及びその方法
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP2001117922A (ja) 翻訳装置および翻訳方法、並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090226

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090728

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20091124