JP2001188777A

JP2001188777A - 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法

Info

Publication number: JP2001188777A
Application number: JP2000329016A
Authority: JP
Inventors: Jeffrey C Reynar; スィー．レイナージェフリー; Erick Rucker; ラッカーエリック; Paul Kyong Hwan Kim; キョンホワンキムポール
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1999-10-27
Filing date: 2000-10-27
Publication date: 2001-07-10
Also published as: DE60012655D1; CN1303047A; DE60012655T2; ATE272882T1; EP1096472A2; EP1096472A3; EP1096472B1; US6446041B1; CN1140871C

Abstract

(57)【要約】【課題】文書の選択部分に対応する音声を直感的な形
式で確実に再生し、音声データが欠落した部分を穴埋め
して音声再生する方法を提供する。【解決手段】多様なソースから入力を受け入れ、それ
ら入力をテキスト化し、そのテキストの中でユーザが選
択した箇所を読み上げる。ワードプロセッサ内の文書と
してテキストを表示し、口述データを検索可能音声デー
タとして短期または長期記憶装置に保存する。このテキ
ストは、ユーザによって自由に編集、変更、処理でき
る。ユーザは前記テキストの一部を選択し音声再生を要
求できる。選択されたテキストの各語を調べ、その語に
対して保存音声データが関連付けられていればその音声
データを取り出し再生する。関連付けられた音声データ
が無ければ、テキスト音声化登録語を検索し、検索した
語を代わりに再生する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は広く音声認識分野に
関する。さらに詳しくは、コンピュータ表示用のマルチ
ソース入力再生ユーティリティに関する。

【０００２】

【従来の技術】パーソナルコンピュータの出現以来、コ
ンピュータとのヒューマンインタフェースは基本的にキ
ーボードであった。例えばコンピュータに情報を入力す
る場合、ユーザはそのコンピュータに付属するキーボー
ドで情報をタイプする。キーボードを補うため、他の入
力機器も使われてきた。例えばマウス、タッチパネルデ
ィスプレイ、統合ポインタ機器、スキャナである。ユー
ザはこれら入力機器を使うことにより、データやコマン
ドをコンピュータに入力する時間を短縮できた。

【０００３】コンピュータベースの音声認識や音声認識
システムも、パーソナルコンピュータへのデータ入力お
よびコマンド入力に使われてきた。音声認識および音声
認識システムは、人の音声をコンピュータが理解できる
形式に変換する。コンピュータが音声認識システムを備
えれば、入力装置にデータを話すだけでデータ入力が行
われる。ユーザの会話速度は、従来のデータ入力より一
般に速い。従ってパーソナルコンピュータに音声認識お
よび音声認識システムを組み込むことの利点は、会話に
よるデータ入力の速度にある。

【０００４】音声認識および音声認識システムを備えた
パーソナルコンピュータは、ユーザの効率を高めるた
め、職場での利用が進んでいる。音声認識および音声認
識システムは、様々な産業分野で様々な形で適用されて
いる。例えばドラゴン社、アイビーエム社、ラーンアウ
トアンドハウスパイ社は、音声認識および音声認識技術
を用いたコンピュータソフトウエアプログラムを開発し
た。音声認識プログラムに対してユーザが文書を音読し
たり口述すると、その音声認識プログラムは、ワードプ
ロセッサ等のパーソナルコンピュータで動作するアプリ
ケーションにユーザの話した語を直接入力する。

【０００５】コンピュータベースの音声認識および音声
認識プログラムは、一般に人の音声を一連のデジタル周
波数に変換する。これら周波数は、あらかじめ記憶した
音素と呼ばれる語や音声要素と照合される。

【０００６】音素は、音声中の各音を区別するための最
小単位である。各音素は、１つ以上の対応する異音を有
する。異音は、音素の音声表現である。１つの音素は、
多くの異音を有することがある。この場合、各異音は、
語中の音素の位置や、同一文字セットの言語における異
形発音により、わずかに異なった音を有する。例えば音
素「ｂ」は、「ｂｏｙ（ボーイ）」と「ｂｅｙｏｎｄ
（ビオンド）」とで発音が異なる。この時の各発音が音
素「ｂ」の異音である。

【０００７】前記ユーティリティは、これら音素を処理
し、各音素に最適なテキスト表現に基づいて、音素をテ
キストに変換する。その方法は当業者に良く知られてい
る。音素から変換したテキストは、ワードプロセッサ、
スプレッドシート、データベース、ウエブブラウザ等、
音声入力を受け取り、それを表示テキストやプログラム
コマンドに変換できるプログラムによって表示する。前
記マルチソース入力再生ユーティリティは、音声データ
を記憶することもできる。音声データは様々な形式で様
々な記憶媒体に記憶できる。例えば揮発性ＲＡＭ、長期
保存用磁気記憶装置、ＣＤ−ＲＯＭ等の光媒体に記憶で
きる。音声データは、さらに圧縮して記憶容量を縮小し
ても良い。前記ユーティリティは、記憶した音声データ
をその音声データから生成したテキストに関連付け、後
からの再生に利用できる。コンピュータが一連の周波数
の一致を正しく決定すれば、その部分の音声のコンピュ
ータ認識は完了する。周波数一致処理は、必要な情報が
コンピュータに集まるまで続ける。コンピュータは、音
声を記憶装置に格納し、話された単語に応答し、その音
声を文書のテキストに変換する。このテキストは、ワー
ドプロセッサプログラムで扱える形式、あるいはアプリ
ケーションプログラムの実行コマンドである。

【０００８】最終的に市場に出回ることが期待されてい
るのは、自然会話入力システムである。このシステム
は、ユーザが特別の方法で喋らなくとも、コンピュータ
への音声入力を可能とし、コンピュータへのユーザコマ
ンドと入力情報とを区別できる。

【０００９】現在の音声認識および音声認識システム
は、この進歩的技術に欠けているため、信頼性が足りな
い。ハードウエアおよびソフトウエアの改良にもかかわ
らず、最良の音声認識および音声認識システムでさえ、
９７〜９９％の信頼性しか確保できない。内的および外
的要因が音声認識および音声認識システムの信頼性に影
響する。認識技術自体の要因は、話者の言語における単
語や音素の数が有限なことであり、音声認識ソフトの話
者入力照合用語彙が有限なことである。地域的アクセン
ト、外部騒音、マイクロフォン品質等の環境要因は入力
品質を低下させるので、ユーザ音読語の周波数に影響を
与え、語照合や音素照合にエラーを生ずることがある。

【００１０】このため、音声認識ソフトウエアがテキス
ト化した口述文書は、認識エラーを含むことが多い。タ
イピングエラーの場合、文字の移動などの単純ミスは、
特定したり訂正することが容易である。ところが認識エ
ラーは深刻な場合が多い。認識エラーは、文字の置き違
えや移動ではなく、同じ発音の単語の置き違えであるこ
とが多い。例えば古くからある音声認識エラーは、「音
声を認識（レコグナイズスピーチ、ｒｅｃｏｇｎｉｚｅ
ｓｐｅｅｃｈ）」を「素敵な海辺を破壊（レッカナイ
スビーチ、ｗｒｅｃｋａｎｉｃｅｂｅａｃｈ」と
テキスト化してしまうことがある。これらは発音が似て
いるものの、意味が全く異なる。この種の認識エラーを
含む文書を校正する場合、即座に本来の語句を思い出す
ことが難しく、余計な混乱を招く。

【００１１】従来このような混乱を最小にするため、音
読しながら文書を校正してきた。このやり方は、本来の
語句を特定する助けになる。音読すれば発音の類似性が
明らかになるからだ。しかし文書の口述と編集との間に
長い時間が空くと、ユーザは本来の語句が何であったか
を忘れがちである。

【００１２】従来の音声認識製品は、この問題を解決す
るため、口述を音声データとして保存し、テキスト化し
た各語にその保存音声データを関係付ける。ユーザは単
語または一連のテキストを選択し、その選択部分に対応
する音声の再生を要求する。

【００１３】これはユーザが本来のテキストを認識する
ための助けになるが、口述時と音声再生要求時との間に
ユーザが文書を編集した場合、深刻な問題が起きる。ユ
ーザは、混在した入力ソースの文書の一部を再生要求
し、その提示を受ける。

【００１４】例えばユーザが「私はコンピュータが音声
を認識できたら良いと思う（Ｉｗｉｓｈｍｙｃｏ
ｍｐｕｔｅｒｃｏｕｌｄｒｅｃｏｇｎｉｚｅｓｐ
ｅｅｃｈ）」と口述したとする。それを音声認識システ
ムが「私はコンピュータが素敵な海辺を破壊できたら良
いと思う（Ｉｗｉｓｈｍｙｃｏｍｐｕｔｅｒｃｏ
ｕｌｄｗｒｅｃｋａｎｉｃｅｂｅａｃｈ）」と
テキスト化したとする。次にユーザが「私（Ｉ）」と
「良いと思う（ｗｉｓｈ）」との間に「本当に（ｒｅａ
ｌｌｙ）」とタイプしたとすれば、この文書は混在した
入力ソースを有する。ユーザが画面上で「私はコンピュ
ータが素敵な海辺を破壊できたら良いと本当に思う（Ｉ
ｒｅａｌｌｙｗｉｓｈｍｙｃｏｍｐｕｔｅｒ
ｃｏｕｌｄｗｒｅｃｋａｎｉｃｅｂｅａｃ
ｈ）」を選択し再生を要求すると、「本当に（ｒｅａｌ
ｌｙ）」は口述ではなくタイプされたために、それに関
連付けられた音声データは無い。

【００１５】この状況において、従来の音声認識システ
ムは、再生オプションを無効にする。あるいは、選択テ
キストに対する音声データが存在しないため再生不可能
である、とのエラーメッセージをユーザに返す。これに
よりユーザは、文書のどの部分をタイプしどの部分を口
述したかを思い出し、それから文書を再選択しなければ
ならない。この方法はユーザをいらいらさせる。なぜな
らユーザは、曖昧な記憶から口述を思い出し、音声再生
を行わねばならないからである。

【００１６】

【発明が解決しようとする課題】このように本技術分野
においては、文書の選択部分に対応する音声を直感的な
形式で確実に再生する方法およびシステムが求められて
いる。また、音声データが欠落した部分を有する文書の
音声再生において、その欠落部分を穴埋めする方法およ
びシステムが求められている。

【００１７】本発明は上記事情に鑑みてなされたもので
あり、その目的とするところは、音声をテキストに関連
付ける方法、コンピュータで文書を生成し読み上げる方
法、コンピュータでテキスト文書の音声再生を行う方
法、及び、文書内のテキストを編集し評価する方法を提
供することにある。

【００１８】本発明の目的は、音声をテキストに関連付
けるコンピュータ、文書を生成し読み上げるコンピュー
タ、及び、テキスト文書の音声再生を行うコンピュータ
を提供することにある。

【００１９】

【課題を解決するための手段】本発明は広く、パーソナ
ルコンピュータ用マルチソース入力再生ユーティリティ
である。このユーティリティは、複数の入力ソースから
入力を受け入れ、それら入力をテキストに変換し、その
テキストをディスプレイ画面に表示する。ユーザがテキ
ストを口述すると、ユーティリティはその音声入力を音
声データとして記憶媒体やシステムメモリに保存する。
音声入力から生成したテキストは、この保存音声データ
に関連付ける。筆記タブレットから文字化したテキス
ト、あるいはキーボードでタイプしたテキストは、音声
データとの関連付けが無い。ユーザはキーボード、マウ
ス等の入力機器を用いて前記テキストを必要に応じて編
集する。編集による変更は、一般にテキストへの直接タ
イピングによって行うので、その変更に関連付けた音声
データは保存されていない。

【００２０】前記マルチソース入力再生ユーティリティ
は、ユーザが選択したテキストを音声化する。選択した
テキストの全てが保存音声データに関連付けられていれ
ば、その音声データを再生する。選択テキストの一部が
関連付け音声データを持っていなければ、前記ユーティ
リティはテキスト音声化（ＴＴＳ）登録語を検索し、検
索した登録語によって保存音声データの再生を穴埋めす
る。従ってユーザがマルチソーステキストの一部を選択
して再生要求した場合、その部分の音声化は、利用可能
な再生用音声データと、必要に応じて導入したテキスト
音声化登録語との混在によって実現する。

【００２１】本発明は、前記必要性に応えるため、非音
声入力を含む複数の入力方法を用いて入力したテキスト
を音声化するための簡単な方法を提供する。本方法は、
マルチソース文書において、関連付けられた音声データ
を持たない語についても、テキスト音声化登録語を検索
することにより、エラーメッセージを出すことなく、そ
の文書をコンピュータに音読させる。さらに本方法は、
全選択テキストの連続的再生を実現し、非口述テキスト
部をスキップすることがないため、ユーザの混乱を最小
にする。

【００２２】

【発明の実施の形態】本発明の実施の形態は、マルチソ
ース入力再生ユーティリティである。このユーティリテ
ィは、様々な入力機器から様々なフォーマットのユーザ
入力を受け取り、そのユーザ入力をテキストに変換す
る。ユーザは、キーボード（タイプしたデータ用）、マ
イクロフォン（音声データ用）、スタイラスパッド（手
書き用）、タッチパッドまたはマウス（データグループ
からの要素選択用）等の様々な入力機器を用いて様々な
データフォーマットを入力できる。

【００２３】ユーザ入力から変換した文書テキストは、
ディスプレイ装置に表示できる。表示装置は例えば、Ｃ
ＲＴモニタ、タッチスクリーン、ＬＣＤディスプレイで
ある。ユーザは表示された文書テキストの一部を選択
し、音声再生要求を開始する。

【００２４】本マルチソース入力再生ユーティリティ
は、アクセント、会話速度、背景騒音等の様々な要因に
より、ユーザの会話を誤認することがある。これら要因
により、前記ユーティリティは、ユーザが喋った異音に
一致しない音素を選択してしまう。すると文字化したテ
キストは不正確になる。

【００２５】テキストが口述から大きく食い違うと、テ
キスト化した文書を見るだけでは元々何を口述したかを
思い出すのは難かしい。この場合、ユーザは画面上のテ
キストの一部を選択し、その選択テキストの元となった
音声を読み上げるよう、マルチソース入力再生ユーティ
リティに要求する。ユーザがテキストの一部を再生用に
選択すると、前記ユーティリティはその選択されたテキ
ストをハイライト表示し、ユーザに対して視覚的なフィ
ードバックを行う。このフィードバックは、選択テキス
トを異なる色で表示したり、点滅させたりする事でも良
い。選択テキストを他の部分よりも目立たせれば良い。

【００２６】前記ユーティリティは次に、選択テキスト
に関連付けた音声データを検索し、その音声データをス
ピーカから再生する。音声データ再生中の文書部分に、
その箇所を明示する視覚的手掛かりを表示しても良い。
例えば音声再生中の語の上にカーソルやボールを表示
し、その表示を再生に従って移動させても良い。再生中
の音声に対応する画面上の語を点滅させたり、その語に
下線を付けても良い。

【００２７】ユーザは、口述文書の編集、新しいテキス
トの追加、音声認識エラーの訂正を希望することがあ
る。この場合、再び音声モジュールを使うこともできる
が、通常は口述によらず、キーボードを用いて前記マル
チソース入力再生ユーティリティに変更を直接入力し、
文書の編集を行う。タッチパッドや筆記スタイラス等の
装置によって文書を訂正することもできる。

【００２８】このように、文書はマルチソース入力を含
むことができる。文書の一部は音声を使って生成したも
のであり、他の部分はタイピングや手書きによって生成
したものである。

【００２９】ユーザはマルチソース入力を含む文書の一
部の音声再生を要求できる。するとマルチソース入力再
生ユーティリティは、選択部分のうち音声データに関連
付けられている語と、そうでない語とを決定する。この
決定を行うに当たり、選択部分の最初から最後までの各
語を順次調べる。あるいは、音声データを利用可能なテ
キスト部分にポインタを設定し、対応する語グループの
記憶場所を示すことにより、語ごとのチェックを省略す
ることもできる。文書の選択部分内の語に関連付けた音
声データが無ければ、その語に対応するテキスト音声化
（ＴＴＳ）登録語が存在するか否かを決定する。対応す
るＴＴＳ登録語があれば、その登録語を取り出し、再生
する。対応するＴＴＳ登録語が無ければ、その語を音素
に分解し、その音素に最適な異音に対応するＴＴＳ登録
語を検索し、その登録語を再生する。例えば姓「ヘメン
ウエイ（Ｈｅｍｅｎｗａｙ）」は対応するＴＴＳ登録語
が無いであろう。この場合、その語を音素に分解し、そ
の音素に最適な異音を選択する。そして対応するＴＴＳ
登録語を選択し、再生する。この手順はその語の全ての
音素を音声化するまで続行する。

【００３０】本マルチソース入力再生ユーティリティ
は、選択テキストを解析し、保存音声データに関連付け
られていない全ての語を決定し、これら関連付けの無い
語に近似のＴＴＳ登録語を１回で決定することもでき
る。すなわちＴＴＳモジュールへの複数回のアクセスを
しない。この方法は、ＴＴＳアクセスを最小に保つこと
によってＣＰＵ使用を最小に押さえる。この方法は、音
声データに関連付けられている語の全てを取り出し、シ
ステムメモリに保持し、その間に各非関連付け語に対応
するＴＴＳ登録語を獲得する。その後、前記音声データ
とＴＴＳ登録語とを順次システムメモリから再生する。
すなわち記憶媒体から音声データとＴＴＳ登録語とを逐
次読み出すことをしない。

【００３１】本ユーティリティは、再生前にＴＴＳ登録
語を速めたり遅くしたりすることにより、それを保存音
声データに合わせることができる。音声データ波形を分
析し、音声速度、ピッチ、トーン、音色等の情報を抽出
しても良い。その後、ＴＴＳ登録語の対応する特性を変
化させることにより、話者の会話パターンにＴＴＳ登録
語の音声を近似できる。

【００３２】変形した実施の形態として、テキストの口
述部分を元通りに音声再生しても良い。本実施の形態
は、「私はコンピュータが素敵な海辺を破壊できたら良
いと本当に思う（Ｉｒｅａｌｌｙｗｉｓｈｍｙ
ｃｏｍｐｕｔｅｒｃｏｕｌｄｗｒｅｃｋａｎｉｃ
ｅｂｅａｃｈ）」を、「私はコンピュータが音声を認
識できたら良いと思う（Ｉｗｉｓｈｍｙｃｏｍｐ
ｕｔｅｒｃｏｕｌｄｒｅｃｏｇｎｉｚｅｓｐｅｅｃ
ｈ）」と再生する。文書に対する編集改変やタイプによ
る追加が多いと、干渉が多すぎて、ユーザは音声再生を
追跡できないからである。

【００３３】他の実施の形態は、タイプした語に対応す
る箇所を再生する時、一時停止を挿入する。「私はコン
ピュータが音声を認識できたら良いと思う（Ｉｗｉｓ
ｈｍｙｃｏｍｐｕｔｅｒｃｏｕｌｄｒｅｃｏｇｎ
ｉｚｅｓｐｅｅｃｈ）」を編集して「私（Ｉ）」と
「良いと思う（ｗｉｓｈ）」の間に「本当に（ｒｅａｌ
ｌｙ）」を挿入した場合を考える。本実施例は、選択テ
キストを再生する時、「私は（Ｉ）」「一時停止」「コ
ンピュータが音声を認識できたら良いと思う（ｗｉｓｈ
ｍｙｃｏｍｐｕｔｅｒｃｏｕｌｄｒｅｃｏｇｎ
ｉｚｅｓｐｅｅｃｈ）」と読み上げる。この一時停止
は、タイプした語「本当に（ｒｅａｌｌｙ）」の存在を
示す。一時停止箇所に到達すると音声が消えるので、ユ
ーザはそれを知ることができる。一時停止の期間を変え
ることにより、口述文書に挿入した文や段落を示唆する
こともできる。

【００３４】アプリケーションの例としてワードプロセ
ッサを取り上げ本発明を説明したが、本発明は他の多く
のアプリケーションに適用可能である。例えばスプレッ
ドシート、ブラウザ、電子メールプログラム、音楽編曲
プログラム、ＣＡＤプログラム、オペレーティングシス
テム等、当業者には明白なアプリケーションである。

【００３５】本マルチソース入力再生ユーティリティ
は、以下に説明する様々なプログラムモジュールからな
る。当業者には明らかなように、これらモジュールは様
々な方法で組合せ可能であると共に、新しいプログラム
モジュールを作り出すことによって同様な結果をもたら
すことも可能である。例えば入力インタフェースやテキ
スト音声化モジュールは、オペレーティングシステムの
一部、ワードプロセッサの一部、あるいはスタンドアロ
ンでも良い。これについては後述する。また手書き認識
プログラムモジュール、音声認識プログラムモジュー
ル、入力システムは、独立したプログラムでも良く、ワ
ードプロセッサまたはオペレーティングシステムの部品
でも良く、これら３つをスタンドアロンにしてそれらを
パッケージにしたものでも良い。

【００３６】（動作環境例）本発明の実施に適したコン
ピュータ環境１００の概略を図１を参照して説明する。
一例としての動作環境１００は、従来のパーソナルコン
ピュータシステム１２０を含む。このパーソナルコンピ
ュータシステムは、プロセッサ１２１と、システムメモ
リ１２２と、システムバス１２３とを含む。システムバ
ス１２３は、システムメモリ１２２をプロセッサ１２１
に接続する。システムメモリ１２２は、リードオンリメ
モリ（ＲＯＭ）１２４とランダムアクセスメモリ（ＲＡ
Ｍ）１２５とを含む。ＲＯＭ１２４は基本入出力システ
ム１２６（ＢＩＯＳ）を含む。このＢＩＯＳは基本ルー
チンを含む。この基本ルーチンは、起動時等にパーソナ
ルコンピュータ１２０内の各要素間の情報転送を支援す
る。

【００３７】パーソナルコンピュータシステム１２０
は、ハードディスクドライブ１２７と、取出し可能磁気
ディスク１２９を読み書きするための磁気ディスクドラ
イブ１２８と、ＣＤ−ＲＯＭ等の光媒体である取出し可
能光ディスク１３１を読み書きするための光ディスクド
ライブ１３０とをさらに含む。ハードディスクドライブ
１２７と磁気ディスクドライブ１２８と光ディスクドラ
イブ１３０とは、各々ハードディスクドライブインタフ
ェース１３２と磁気ディスクドライブインタフェース１
３３と光ドライブインタフェース１３４とを介して、シ
ステムバス１２３に接続する。これらドライブおよび関
連するコンピュータ読取り可能媒体は、不揮発性記憶手
段をパーソナルコンピュータシステム１２０に提供す
る。ここに示したコンピュータ読取り可能媒体は、ハー
ドディスク、取出し可能磁気ディスク，およびＣＤ−Ｒ
ＯＭディスクだが、当業者には明らかなように、他のコ
ンピュータ読取り可能媒体を、一例として示した前記動
作環境に用いても良い。例えば磁気カセット、フラッシ
ュメモリカード、デジタルビデオディスク、ベルヌーイ
カートリッジ等を用いても良い。

【００３８】ユーザは、キーボード１４０やマウス１４
２等のポインティングデバイス等の入力装置を介して、
パーソナルコンピュータシステム１２０にコマンドや情
報を入力する。マイクロフォン１６１は、コンピュータ
システム１２０に会話等の音声入力を行うために使用す
る。ユーザは、コンピュータシステムに図や手書きのグ
ラフィック情報を入力する場合、スタイラスを用いて筆
記タブレット１６２にグラフィック情報を描く。コンピ
ュータシステム１２０は、他の入力装置（図示せず）と
してジョイスティック、ゲームパッド、衛星アンテナ、
スキャナ等を含んでも良い。マイクロフォン１６１は、
システムバスに接続したオーディオアダプタ１６０を介
してプロセッサ１２１に接続できる。他の入力装置は、
システムバスに接続したシリアルポートインタフェース
１４６を介してプロセッサ１２１に接続する場合が多
い。しかしながらゲームポート、ユニバーサルシリアル
バス（ＵＳＢ）等のインタフェースによって接続するこ
ともできる。

【００３９】モニタ１４７等の表示装置は、ビデオアダ
プタ１４８等のインタフェースを介してシステムバス１
２３に接続する。モニタに加え、パーソナルコンピュー
タシステムは、スピーカやプリンタ等の周辺出力装置
（図示せず）を一般に含む。

【００４０】パーソナルコンピュータシステム１２０
は、ネットワーク環境で動作させ、１つ以上の遠隔コン
ピュータ１４９への論理接続を使用することもできる。
遠隔コンピュータ１４９は、サーバ、ルータ、ピア装
置、共通ネットワークノード等であり、一般に前記パー
ソナルコンピュータシステム１２０に関連して説明した
要素の多くあるいは全てを含む。ただし図１は記憶装置
１５０のみを示す。図１に示す論理接続は、ローカルエ
リアネットワーク（ＬＡＮ）１５１と、ワイドエリアネ
ットワーク（ＷＡＮ）１５２とを含む。このようなネッ
トワーク環境は、事務所、企業コンピュータネットワー
ク、イントラネット、およびインターネットにおいて普
及している。

【００４１】ＬＡＮ環境で使用する場合、パーソナルコ
ンピュータシステム１２０は、ネットワークインタフェ
ース１５３を介してローカルネットワーク１５１に接続
する。ＷＡＮ環境で使用する場合、パーソナルコンピュ
ータシステム１２０は、一般にモデム１５４等の手段を
含み、インターネット等のワイドエリアネットワーク１
５２を介して通信を確立する。モデム１５４は内蔵また
は外付けであり、シリアルポートインタフェース１４６
を介してシステムバス１２３に接続する。ネットワーク
環境の場合、パーソナルコンピュータシステム１２０の
プログラムモジュールは、遠隔記憶装置１５０に格納し
ても良い。図示のネットワーク接続は例であり、コンピ
ュータシステム間の通信リンクは他の手段で確立しても
良い。また本発明は、パーソナルコンピュータシステム
以外に、ホストまたはサーバコンピュータシステムでも
実現可能であり、ＣＤ−ＲＯＭ以外の手段、例えばネッ
トワーク接続インタフェース１５３によってホストコン
ピュータシステムにデータを送ることができる。

【００４２】多くのプログラムモジュールをコンピュー
タシステム１２０の駆動装置やＲＡＭ１２５に格納でき
る。プログラムモジュールは、コンピュータシステム１
２０の機能を制御し、ユーザ、入出力装置、あるいは他
のコンピュータと対話する。プログラムモジュールは、
ルーチン、オペレーティングシステム１３５，アプリケ
ーションプログラムモジュール１３８，データ構造、ブ
ラウザ、他のソフトウエア部品、あるいはファームウエ
ア部品を含む。本発明は、テキスト音声化（ＴＴＳ）モ
ジュール１３７、入力インタフェースプログラムモジュ
ール１３９等の１つ以上のプログラムモジュールにおい
て好適に実施できる。これらモジュールの各々は、発明
の詳細な説明に記載した方法に基づいている。

【００４３】アプリケーションプログラムモジュール１
３８は、本発明に関連して使用する様々なアプリケーシ
ョンからなる。図２はそのうちのいくつかを示す。これ
らプログラムモジュールの目的および相互作用は、図２
を参照して詳細に説明する。これらプログラムモジュー
ルは、ワードプロセッサプログラム２１０（ワシントン
州レドモンドのマイクロソフト社の製品であるワード
等）、テキスト音声化モジュール１３７，第１音声認識
プログラムモジュール２４０，および入力システム（Ｉ
ＭＥ）２５０を含む。

【００４４】以下に説明する様々な手順を実行するため
の特定のプログラミング言語は説明しない。理由は、以
下の説明および添付図面における動作、処理段階、およ
び手順は、十分な開示を行っているため、当業者であれ
ばそれらに基づいて本発明の実施例を実施可能だからで
ある。さらに実施例の実行に使用可能なコンピュータお
よびオペレーティングシステムは多数あり、これら多く
の異なるシステムに適用可能な詳細コンピュータプログ
ラムを提示するのは困難だからである。特定コンピュー
タのユーザは、そのユーザの必要性および目的に最も適
した言語およびツールを知っているであろう。

【００４５】当業者には明らかなように、本発明は他の
コンピュータシステム構成でも実施可能である。例えば
携帯装置、マルチプロセッサシステム、マイクロプロセ
ッサベースの消費者用電子機器、プログラム可能消費者
用電子機器、マイクロコンピュータ、メインフレームコ
ンピュータ等でも実施可能である。本発明は分散コンピ
ュータ環境でも実施可能である。分散コンピュータ環境
では、通信ネットワークでリンクした各遠隔処理装置に
よってタスクを実行し、プログラムモジュールを局所記
憶装置および遠隔記憶装置の両方に置くことができる。

【００４６】（マルチソース入力再生ユーティリティの
構成）図２は、マルチソース入力再生ユーティリティ２
００を示すブロック図である。マルチソース入力再生ユ
ーティリティ２００の目的は、複数のソースからユーザ
入力を受け取り、その入力を処理してテキスト化し、そ
のテキストを音声として再生することである。入力ソー
スは、例えば手書き、音声、タイピングである。

【００４７】マルチソース入力再生ユーティリティ２０
０は、いくつかのプログラムモジュールを備える。これ
らプログラムモジュールは、様々なソースからワードプ
ロセッサへのテキスト入力を可能にする。ユーザが入力
したデータをテキストに変換し、ディスプレイ画面に表
示する。ユーザは、音声データとして聞きたい部分のテ
キストを選択する。するとマルチソース入力再生ユーテ
ィリティ２００は、適切なプログラムモジュールを介し
てその要求を処理し、音声を再生する。

【００４８】マルチソース入力再生ユーティリティ２０
０の代表的な入力ソースは、手書き認識プログラムモジ
ュール２３０、第１音声認識プログラムモジュール２４
０、入力システム（ＩＭＥ）２５０、第２音声認識プロ
グラムモジュール２４０、および直接入力機器としての
キーボード１４０、マウス１４２等である。各入力プロ
グラムモジュールを順次説明する。

【００４９】手書き認識プログラムモジュール２３０
は、ユーザから手書き入力２８０を受け取る。ユーザ
は、スタイラスやマウスで筆記タブレット１６２に手書
きしたり、タッチスクリーンによって手書き入力２８０
を生成する。手書き入力２８０は、オペレーティングシ
ステム１３５の筆記タブレットドライバモジュールによ
り、手書き認識プログラムモジュール２３０に転送す
る。

【００５０】第１音声認識プログラムモジュール２４０
は、ユーザからの音声入力２９０を、マイクロフォン１
６１を介して受け取る。このマイクロフォンは、オペレ
ーティングシステム１３５のマイクロフォンドライバモ
ジュールによって駆動する。音声は、同一発音で異なる
意味や綴りを有する語がたくさんあるため、解釈が難し
い場合が多い。第１音声認識プログラムモジュール２４
０は、音声入力２９０を音素に分解し、各音素に基づい
たテキスト出力を生成する。さらに第１音声認識プログ
ラムモジュール２４０は、音声入力２９０を波形に変換
し、それを保存音声データ２７０として長期記憶媒体に
保存する。この保存音声データ２７０は、後から音声再
生用としてワードプロセッサ２１０からアクセスする。

【００５１】入力システム（ＩＭＥ）２５０は、音声入
力を特定外国語の表意テキストに変換する。ＩＭＥ２５
０への入力は、例えばキーボード１４０やマウス１４２
を介してコンピュータに入力されるタイプしたテキスト
であり、あるいはマイクロフォン１６１を介して入力さ
れる音声データである。

【００５２】ＩＭＥ２５０は、アジア言語の表意文字を
生成する場合、特に有用である。これら言語は、キーボ
ードのキーよりもはるかに多い表意文字を有するため、
ＩＭＥ２５０が無ければ、コンピュータに特定の表意文
字を入力するのは難しい。例えば中国語ＩＭＥ２５０の
場合、ユーザは希望の中国語文字に対して英語文字音声
スペルをタイプする。多くの中国語文字は発音が類似し
ているため、タイプした音声スペルは、多くの異なる漢
字の１つを代表することがある。するとＩＭＥ２５０
は、内部的に生成した候補リストから最も可能性の高い
候補を選択する。あるいはタイプした音声スペルに基づ
いて最適候補をかわるがわるユーザに提供し、ユーザは
正しいものを選択できる。この候補リストはユーザが提
供した音声スペルから、あるいはユーザの音声入力２９
０に基づく音素セットから生成する。

【００５３】ＩＭＥ２５０の機能を示すため、音声をコ
ンピュータに入力しそれを使って例えば日本語テキスト
を生成してみる。その音声は第２音声認識プログラムモ
ジュール２４０へ転送する。この第２音声認識プログラ
ムモジュール２４０は、第１音声認識プログラムモジュ
ール２４０とほぼ同様に動作するが、独立したユニット
として図示した。その理由は、第２音声認識プログラム
モジュール２４０は、異なる音声解釈エンジンと出力タ
イプを持つことができるからである。すなわち第２音声
認識プログラムモジュール２４０は、第１音声認識プロ
グラムモジュール２４０とは異なる言語を解釈できる。

【００５４】第２音声認識プログラムモジュール２４０
は、英語音声から１つ以上の代替英語テキストを生成す
る。この代替英語テキストは、ＩＭＥ２５０への入力と
なり、ＩＭＥ２５０はその英語テキストを日本語文字に
変換する。ＩＭＥ２５０への各代替入力は、各別の候補
リストを作るが、これら候補リスト間には重複があり得
る。

【００５５】ＩＭＥ２５０と第２音声認識プログラムモ
ジュール２４０とは、直接にインタフェースしない。例
えば第２音声認識プログラムモジュール２４０からＩＭ
Ｅ２５０への入力は、インタフェースプログラムモジュ
ールを介して送る。このインタフェースプログラムモジ
ュールは、例えば入力インタフェース１３９である。こ
の入力インタフェースは、各入力ソースに直接接続す
る。

【００５６】英語と日本語の例を挙げたが、会話認識プ
ログラムモジュール２４０とワードプロセッサ２１０
は、複数言語の入力を受け取り、表示できる。例えばワ
ードプロセッサ２１０は、ナスティリクのように、左か
ら右以外の方向に読まれる言語テキストを表示する構成
も可能である。またワードプロセッサ２１０は、ヘブラ
イ語やアラビア語のように、各文字の形が周囲の文字に
応じて変化するテキストも表示できる。

【００５７】ワードプロセッサ２１０は、ユーザからの
入力を受け取り、入力インタフェース１３９を介して出
力を表示する。この出力は、ディスプレイ画面上のテキ
スト、またはスピーカを介しての音声データである。ワ
ードプロセッサ２１０は、マルチソース入力再生ユーテ
ィリティ２００のユーザと、コンピュータプログラムモ
ジュールとの間のインタフェースを提供する。

【００５８】ワードプロセッサ２１０は、入力インタフ
ェース１３９を介して、手書き入力２８０と音声入力２
９０とに関して最適な代替テキストを受け取る。ある入
力、例えばキーボード１４０でのタイピングによって生
成されたテキストは、入力インタフェース１３９による
代替テキスト生成を必要とせず、受け取ったままの形で
転送される。ワードプロセッサ２１０は、全ソースデー
タを組合せ、マルチソーステキスト列を生成し、それを
ユーザに提供する。ワードプロセッサ２１０は、テキス
ト中の各ワードのソースをユーザに示すことはしないも
のの、ワードプロセッサは各テキスト要素のソースを記
録する。別の実施例は、各語のソースを様々な方法で示
すことができる。例えば各語を、その語の入力ソースに
応じて異なる色やフォントで表示することができる。

【００５９】ユーザは、ワードプロセッサ２１０を用い
てテキストの一部を選択し、その選択部分の音声再生を
要求できる。ワードプロセッサは、選択テキストに関連
付けられた保存音声データ２７０を検索し、その音声デ
ータをスピーカ等の機器を介して再生する。選択テキス
トに関連付けられた保存音声データ２７０が無ければ、
ワードプロセッサ２１０は、入力インタフェース１３９
を介してテキスト音声化モジュール１３７に要求を送
り、選択テキストに対応するＴＴＳ登録語を検索させ
る。ワードプロセッサはその後、第１音声認識プログラ
ムモジュール２４０と入力インタフェース１３９を介し
て対応するＴＴＳ登録語を受け取り、それをスピーカを
介して再生する。ワードプロセッサ２１０は、選択テキ
スト内の各語を解析し、保存音声データ２７０またはＴ
ＴＳ登録語２２０を検索して再生する。マルチソース入
力再生ユーティリティ２００のユーザは、保存音声デー
タとＴＴＳ登録語の組合せによる連続的な流れによる選
択テキストの音読を聞く。選択テキストの音声再生の詳
細は図５を参照して詳細に後述する。

【００６０】（マルチソース入力再生ユーティリティ用
ユーザインタフェース）図３は、本発明の実施例に基づ
き口述文書サンプル３００をディスプレイ画面１４７に
表示したところを示す。図２の音声入力２９０は、第１
音声認識プログラムモジュール２４０によって文字化さ
れ、ワードプロセッサ２１０によって口述文書サンプル
３００として表示される。本例の口述文書は、詩の一節
である。第１音声認識プログラムモジュール２４０は、
口述の一部を誤認している。特に点線の四角で示す「白
いフランネルのズボン（ｗｈｉｔｅｆｌａｎｎｅｌ
ｔｒｏｕｓｅｒｓ：ホワイトフランネルトラウザ
ズ）」が「そりゃ日に焼けるから、ズボン（ｗｈｙｔ
ａｎＩｔｒｏｕｓｅｒ：ホワイタンアイトラ
ウザ）」となっており、第１音声認識プログラムモジュ
ール２４０は誤ったテキストに変換している。

【００６１】図４は、文書３００を編集したものであ
り、部分３１０が音声再生用に選択されている。図４に
おいて、誤認部は編集により適切な語が挿入されてい
る。すなわち「そりゃ日に焼けるから、ズボン（ｗｈｙ
ｔａｎＩｔｒｏｕｓｅｒ）」を「白いフランネル
のズボン（ｗｈｉｔｅｆｌａｎｎｅｌｔｒｏｕｓｅ
ｒｓ）」に置き換えている。また文書部分３１０は、音
声再生用に選択されている。文書３００のうち、マルチ
ソース入力再生ユーティリティ２００によって音声化す
る部分をユーザにフィードバックするため、再生するテ
キスト部分３１０をハイライト表示する。再生用に選択
したテキスト部分は、文書３００の編集部分３２０を含
んでいることに注意したい。その編集がキーボードのタ
イピングでなされていれば、文書３００はマルチソース
文書である。テキスト部分３１０はマルチソーステキス
ト部分である。「白いフランネルのズボン（ｗｈｉｔｅ
ｆｌａｎｎｅｌｔｒｏｕｓｅｒｓ）」は関連付けら
れた音声データを持たない。なぜならキーボードを使っ
て入力したからである。ユーティリティ２００が再生を
開始すると、選択テキスト部３１０の「白いフランネル
のズボン（ｗｈｉｔｅｆｌａｎｎｅｌｔｒｏｕｓｅｒ
ｓ）」は、テキスト音声化モジュール１３７が提供する
テキスト音声化登録語２２０を使って音声再生される。

【００６２】ユーザフィードバックをさらに強化するた
め、マルチソース入力再生ユーティリティ２００は、音
声再生する語の正確な指示を行うことができる。例えば
音声データまたはテキスト音声化登録語の再生に従っ
て、対応する語を点滅させたりその語の色を変えたりす
る。

【００６３】（マルチソース入力再生ユーティリティの
動作）マルチソース入力再生ユーティリティ２００の各
部動作を図５に基づき説明する。説明は図２の機能ブロ
ック図を適宜参照しながら行う。

【００６４】図５は、文書の選択部分に対する音声再生
処理の詳細を示すフローチャートである。まずステップ
４００において、ユーザはマルチソース入力再生ユーテ
ィリティ２００によって音声再生する文書のテキスト部
分を選択する。再生用テキストを選択すると、ワードプ
ロセッサ２１０はステップ４０５において、テキスト部
分３００の第１語の境界を決定する。一般に語の境界
は、スペース、アスタリスク、カンマ、ピリオド等の非
英数字である。しかしながら言語によっては区切り文字
がない。その場合、語の区切りを決定するための言語理
解形式を用いねばならない。各語の区切りが無い言語の
例は、日本語、中国語、タイ語である。以下の説明は、
区切られた語を「現在の語」と呼ぶ。

【００６５】ワードプロセッサ２１０が現在の語の大き
さと境界とを決定すると、マルチソース入力再生ユーテ
ィリティ２００は、ステップ４１０において、その語
が、先の口述において保存した保存音声データ２７０に
関連付けられているかを決定する。

【００６６】ステップ４１０においてその語が保存音声
データ２７０に関連付けられていれば、マルチソース入
力再生ユーティリティ２００は、その音声データをステ
ップ４１５において取り出す。ワードプロセッサ２１０
は、その保存音声データを入力インタフェース１３９に
要求し、該入力インタフェースはそのデータを磁気ディ
スクドライブ１２８等の媒体から取り出す。入力インタ
フェース１３９はその音声データをワードプロセッサ２
１０に渡す。

【００６７】ステップ４１５の後、マルチソース入力再
生ユーティリティ２００はステップ４２０において、前
記音声データを再生する。一般にワードプロセッサ２１
０は、独立したプログラムモジュールあるいはオペレー
ティングシステムの一部を用いて音声データを再生す
る。他の実施例において、ワードプロセッサは再生プロ
グラムモジュールを内蔵できる。

【００６８】マルチソース入力再生ユーティリティ２０
０は次に、ステップ４０５〜４２０で処理した語が、ス
テップ４００においてユーザが選択したテキストの最後
の語であるかを決定する。選択範囲に語が残っていなけ
れば、ステップ４６０において終了する。語が残ってい
れば、マルチソース入力再生ユーティリティ２００はス
テップ４０５に戻り、次の語の境界を決定する。

【００６９】ユーティリティ２００がステップ４１０に
おいて、現在の語に関連付けられた音声入力は無いと決
定した場合を説明する。例えば文書編集処理において、
ユーザがタイプした語をユーティリティ２００が処理す
る場合である。この場合、ユーティリティ２００は、現
在の語に対応するＴＴＳ登録語２２０があるか否かをチ
ェックする。すなわちワードプロセッサ２１０は、第１
音声認識プログラムモジュール２４０を介してＴＴＳモ
ジュール１３７に対し、現在の語に対応するＴＴＳ登録
語があるか否かを問い合わせる。

【００７０】対応するＴＴＳ登録語２２０があれば、Ｔ
ＴＳモジュール１３７はそれを取り出し、入力インタフ
ェース１３９を介してワードプロセッサ２１０に渡す。
あるいはＴＴＳモジュール１３７は、取り出すＴＴＳ登
録語を決定するに当たり、現在のＴＴＳ登録語の両側の
音素に対応する周囲のＴＴＳ登録語を調べ、周囲のＴＴ
Ｓ登録語に音声的に最も一致するものを選択する。ＴＴ
Ｓモジュール１３７は、この処理をステップ４３０にお
いて行う。

【００７１】ワードプロセッサがＴＴＳ登録語を受け取
ると、マルチソース入力再生ユーティリティ２００は、
ステップ４２０においてそれを再生する。その詳細は保
存音声データ２７０の再生で説明したとおりである。あ
るいはステップ４２０における再生前に、ＴＴＳ登録語
のピッチ、トーン、速度等の可聴特性をユーティリティ
２００によって処理し、ＴＴＳ登録語の音声を保存音声
データに近似させ、２タイプの音声再生間の不調和を最
小にしても良い。ＴＴＳ登録語２２０を再生した後、ス
テップ４５５を前記通りに実行する。

【００７２】現在の語に対応するＴＴＳ登録語が無けれ
ば、ワードプロセッサ２１０はステップ４３５におい
て、その語を音素に分解する。ステップ４４０において
ワードプロセッサは、第１音素を入力インタフェース１
３９を介して第１音声認識プログラムモジュール２４０
に転送する。ステップ４４０の一部として、音声認識プ
ログラムモジュールは、テキスト音声化モジュール１３
７に対し、第１音素に対応するＴＴＳ登録語２２０を要
求する。特に第１音声認識プログラムモジュール２４０
は、ワードプロセッサ２１０から受け取った音素を分析
し、ＴＴＳモジュールに対し、その音素の最適な異音か
らなるＴＴＳ登録語２２０を要求する。ＴＴＳ登録語を
取り出しそれをワードプロセッサ２１０に転送してステ
ップ４４０を終了する。

【００７３】（結論）マルチソース入力再生ユーティリ
ティ２００は、ユーザが手動で再生速度を変えられる等
の追加機能を含んでも良い。ユーティリティ２００は、
前記した以外の入力ソースからの入力を受け付けても良
い。例えば別の入力装置や異なるプログラムからの制御
信号を受け付けることができる。以上説明した本発明の
実施例は、それに基づいて多くの変更や追加を可能にす
る。すなわち前記説明は本発明の特定の実施例のみに関
しており、本発明には、請求の範囲に記載の本発明範囲
を逸脱することなく、多くの変更が可能である。

【００７４】

【発明の効果】以上述べたように、本発明によれば、文
書の選択部分に対応する音声を直感的な形式で確実に再
生する方法およびシステムが提供できる。また、音声デ
ータが欠落した部分を有する文書の音声再生において、
その欠落部分を穴埋めする方法およびシステムが提供で
きる。

【００７５】すなわち、本発明によれば、音声をテキス
トに関連付ける方法、コンピュータで文書を生成し読み
上げる方法、コンピュータでテキスト文書の音声再生を
行う方法、及び、文書内のテキストを編集し評価する方
法を提供できる。

【００７６】本発明によれば、音声をテキストに関連付
けるコンピュータ、文書を生成し読み上げるコンピュー
タ、及び、テキスト文書の音声再生を行うコンピュータ
を提供できる。

【図面の簡単な説明】

【図１】本発明の実施例を動作させる環境の一例として
のパーソナルコンピュータを示すブロック図である。

【図２】マルチソース入力再生システムのソフトウエア
構成を示すブロック図である。

【図３】マルチソース入力再生システムを使用して入力
したテキスト文書の一部を示すディスプレイ画面であ
る。

【図４】編集済みテキスト文書の中で音声再生部分を選
択したところを示すディスプレイ画面である。

【図５】マルチソース文書の一部を選択し音声化する方
法を示す論理フローチャートである。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５５１Ｂ (72)発明者エリックラッカーアメリカ合衆国 98105 ワシントン州シアトルフォーティエイスアヴェニュー 4316 (72)発明者ポールキョンホワンキムアメリカ合衆国 98107 ワシントン州シアトルナンバー205 エヌダブリューサーティナインスストリート 201 (54)【発明の名称】音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法

Claims

【特許請求の範囲】

【請求項１】語を口述するステップと、文書中の第１テキストとして前記口述語を文字化するス
テップと、前記口述を記憶媒体に保存するステップと、前記口述の各語と前記テキストの要素とを関連付けるス
テップと、前記文書に第２テキストを挿入するステップと、前記第２テキストにテキスト音声化登録語を関連付ける
ステップとを有することを特徴とする音声をテキストに
関連付ける方法。
【請求項２】前記文書内における前記第１テキストと
第２テキストの配置順序に従って前記口述とテキスト音
声化登録語とを再生するステップをさらに有することを
特徴とする請求項１に記載の方法。
【請求項３】前記第２テキストを第１口述語と第２口
述語との間に挿入することを特徴とする請求項２に記載
の方法。
【請求項４】主第２テキストが前記口述語に先行し、
副第２テキストが前記口述語に続くことを特徴とする請
求項２に記載の方法。
【請求項５】主第１テキストと副第１テキストとが、
主第２テキストと副第２テキストとに交替することを特
徴とする請求項２に記載の方法。
【請求項６】語を口述する手段と、文書中の第１テキストとして前記口述語を文字化する手
段と、前記口述を記憶媒体に保存する手段と、前記口述の各語と前記テキストの要素とを関連付ける手
段と、前記文書に第２テキストを挿入する手段と、前記第２テキストにテキスト音声化登録語を関連付ける
手段とを有することを特徴とする音声をテキストに関連
付けるコンピュータ。
【請求項７】前記文書内における前記第１テキストと
第２テキストの配置順序に従って前記口述とテキスト音
声化登録語とを再生する手段をさらに有することを特徴
とする請求項６に記載のコンピュータ。
【請求項８】入力装置に少なくとも１つの語を発声入
力するステップと、前記語を文字化して文書に第１テキスト登録語として転
写するステップと、前記語を記憶媒体に保存するステップと、前記語を前記第１テキスト登録語に関連付けるステップ
と、前記文書内に第２テキスト登録語をタイピング入力する
ステップと、前記第２テキスト登録語に対応するテキスト音声化登録
語を前記第２テキスト登録語に関連付けるステップと、前記文書内における前記第１および第２テキスト登録語
の順序に従って前記語とテキスト音声化登録語とを再生
するステップとを有することを特徴とするコンピュータ
で文書を生成し読み上げる方法。
【請求項９】前記語の音声特長を分析し、前記音声特
長に合わせて前記テキスト音声化登録語の再生を調整す
るステップをさらに有することを特徴とする請求項８に
記載の方法。
【請求項１０】前記テキスト音声化登録語の韻律要素
が調整されることを特徴とする請求項９に記載の方法。
【請求項１１】ディスプレイ画面に前記文書を表示す
るステップと、前記テキスト音声化登録語に対応する前
記語に影を付けるステップとをさらに有することを特徴
とする請求項８に記載の方法。
【請求項１２】前記第１テキスト登録語が停止し前記
第２テキスト登録語が開始する信号が非英数字文字の表
示によって送られることを特徴とする請求項８に記載の
方法。
【請求項１３】前記第１および第２テキスト登録語が
絵文字を有することを特徴とする請求項８に記載の方
法。
【請求項１４】前記絵文字が漢字であることを特徴と
する請求項１３に記載の方法。
【請求項１５】入力装置に少なくとも１つの語を発声
入力する手段と、前記語を文字化して文書に第１テキスト登録語として転
写する手段と、前記語を記憶媒体に保存する手段と、前記語を前記第１テキスト登録語に関連付ける手段と、前記文書内に第２テキスト登録語をタイピング入力する
手段と、前記第２テキスト登録語に対応するテキスト音声化登録
語を前記第２テキスト登録語に関連付ける手段と、前記文書内における前記第１および第２テキスト登録語
の順序に従って前記語とテキスト音声化登録語とを再生
する手段とを有することを特徴とする文書を生成し読み
上げるコンピュータ。
【請求項１６】前記韻律要素がピッチと速度と音量で
あることを特徴とする請求項１０に記載の方法。
【請求項１７】前記第１および第２テキスト登録語
が、周囲テキストに応じて形状を変化させることを特徴
とする請求項８に記載の方法。
【請求項１８】前記第１および第２テキスト登録語が
右から左へ読まれることを特徴とする請求項８に記載の
方法。
【請求項１９】少なくとも１つの音素からなる少なく
とも１つの語で、構成したテキストセットを選択するス
テップと、ユーザの口述音声入力が第１語に対応するか否かを決定
するステップと、ユーザの口述音声入力が第１語に対応すれば、音声出力
装置を介して前記ユーザの口述音声入力を再生するステ
ップと、ユーザの口述音声入力が第１語に対応しなければ、複数
のテキスト音声化登録語の１つが前記第１語に対応する
か否かを決定するステップと、１つのテキスト音声化登録語が前記第１語に対応すれ
ば、音声出力装置を介して前記テキスト音声化登録語を
再生するステップと、１つのテキスト音声化登録語が前記第１語に対応しなけ
れば、前記複数のテキスト音声化登録語のどれが前記音
素に対応するかを決定するステップと、前記複数のテキスト音声化登録語のどれが第１音素に対
応するかの決定に応じて、音声出力装置を介して前記対
応するテキスト音声化登録語を再生するステップとを有
することを特徴とするコンピュータでテキスト文書の音
声再生を行う方法。
【請求項２０】前記テキストセットが複数の語からな
り、前記第１語がユーザの口述音声入力に対応し、第２語がテキスト音声化登録語に対応することを特徴と
する請求項１９に記載の方法。
【請求項２１】前記テキストセット内における前記第
１語および第２語の順序に従って前記ユーザの口述音声
入力とテキスト音声化登録語とを再生するステップをさ
らに有することを特徴とする請求項１９に記載の方法。
【請求項２２】対応するユーザの口述音声入力が無い
複数の語を決定するステップと、前記複数の語をテキスト音声化モジュールへ渡すステッ
プと、前記複数の語の各々についてテキスト音声化登録語を検
索するステップとをさらに有することを特徴とする請求
項１９に記載の方法。
【請求項２３】少なくとも１つの音素からなる少なく
とも１つの語で、構成したテキストセットを選択する手
段と、ユーザの口述音声入力が第１語に対応するか否かを決定
する手段と、ユーザの口述音声入力が第１語に対応すれば、音声出力
装置を介して前記ユーザの口述音声入力を再生する手段
と、ユーザの口述音声入力が第１語に対応しなければ、複数
のテキスト音声化登録語の１つが前記第１語に対応する
か否かを決定する手段と、１つのテキスト音声化登録語が前記第１語に対応すれ
ば、音声出力装置を介して前記テキスト音声化登録語を
再生する手段と、１つのテキスト音声化登録語が前記第１語に対応しなけ
れば、前記複数のテキスト音声化登録語のどれが前記音
素に対応するかを決定する手段と、前記複数のテキスト音声化登録語のどれが第１音素に対
応するかの決定に応じて、音声出力装置を介して前記対
応するテキスト音声化登録語を再生する手段とを有する
ことを特徴とするテキスト文書の音声再生を行うコンピ
ュータ。
【請求項２４】音声認識処理を用いて口述語を文書内
の第１テキストセットに変換するステップと、後からの音声再生のため、前記口述語を保存すると共に
前記第１テキストに関連付けるステップと、非音声命令を前記文書内の第２テキストセットに変換す
るステップと、前記文書内における前記第１および第２
テキストセットの順序に従って前記第１および第２テキ
ストセットに対応する音声を再生し、前記音声の前記第
１テキストセットに対応する部分は前記保存口述語の再
生によって提供し、前記音声の前記第２テキストセット
に対応する部分はテキスト音声化処理によって提供する
ステップとを有することを特徴とする文書内のテキスト
を編集し評価する方法。
【請求項２５】キーボードを用いて前記非音声命令を
供給することを特徴とする請求項２４に記載の方法。
【請求項２６】マウスを用いて前記非音声命令を供給
することを特徴とする請求項２４に記載の方法。
【請求項２７】口述語からテキストへの前記変換を音
声認識処理を用いて行うことを特徴とする請求項２４に
記載の方法。
【請求項２８】前記第２テキストセットの音声再生を
テキスト音声化処理を用いて行うことを特徴とする請求
項２４に記載の方法。
【請求項２９】手の動作によって前記非音声命令を供
給することを特徴とする請求項２４に記載の方法。
【請求項３０】筆記タブレットを用いて前記非音声命
令を供給することを特徴とする請求項２４に記載の方
法。
【請求項３１】現在の再生に対応する視覚的手掛かり
をディスプレイ画面に表示することを特徴とする請求項
２４に記載の方法。