JP2002366345A - 文字処理装置および方法 - Google Patents

文字処理装置および方法

Info

Publication number
JP2002366345A
JP2002366345A JP2002092412A JP2002092412A JP2002366345A JP 2002366345 A JP2002366345 A JP 2002366345A JP 2002092412 A JP2002092412 A JP 2002092412A JP 2002092412 A JP2002092412 A JP 2002092412A JP 2002366345 A JP2002366345 A JP 2002366345A
Authority
JP
Japan
Prior art keywords
voice
character string
character
input
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002092412A
Other languages
English (en)
Inventor
Hiroaki Kaneki
宏明 鹿子木
Takeshi Fujimura
武志 藤村
Masayoshi Tadano
正義 只埜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority to JP2002092412A priority Critical patent/JP2002366345A/ja
Publication of JP2002366345A publication Critical patent/JP2002366345A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 音だけで音声認識結果の誤り部分を検出す
る。 【解決手段】 入力の音声を音声認識し、音声認識を未
確定のかな漢字混じり文字列として表示し、当該表示さ
れた文字列を文字処理した後、確定文字列を出力する文
字処理装置において、入力の音声を音声記憶手段202
に記憶し、記憶された音声と入力の音声の認識結果に基
づいて前記音声合成手段201により合成された音声と
を同時にそれぞれ再生出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力した文字を処
理する文字処理装置および方法に関し、より詳しくは、
音声認識により得られる文字列を処理する文字処理装置
および方法に関する。
【0002】
【従来の技術】従来この種の代表的な文字処理装置の処
理例を図1〜図3を参照して説明する。図1〜図3は音
声入力および入力音声の認識結果を文字処理するための
表示内容を示す。図1(A)において、文書処理画面1
においてユーザはアイコン1Aをマウスにより指定して
文字処理装置を起動する。文字入力装置はパーソナルコ
ンピュータが文字処理プログラムを実行することにより
実現される。
【0003】文字処理装置の起動により表示画面には図
1(B)のように文字入力用画面2が現れる。ユーザが
メニュー項目2Aを操作して音声入力モードに切り替え
ると、第1図(C)に示すように音声入力用のウィンド
ウ(アプレット)3が表示される。ここで、ボタン3A
をユーザがマウスにより操作するとマイクロフォンから
の音声入力が可能となる。たとえば、ユーザがマイクロ
ホンから「これはマイクのテストですと」と音声で入力
すると、コンピュータ内に搭載された音声認識プログラ
ムにより入力音声が音声認識される。最近では連続の音
声を認識することが可能となってきている。
【0004】入力音声信号は音素と呼ばれる音韻よりも
短い非常に短い時間長さに区切られ、信号の特徴成分が
抽出される。この特徴成分と、あらかじめコンピュータ
に用意してある特徴成分(音素の内容が判明している)
とを比較し、特徴成分が類似するものの音素内容を検出
することで、音素の音声認識を行う。認識の結果とし
て、得られた音素を時系列的に結合すると、音韻(母
音,子音)の文字が得られる。この文字を結合し、文法
的に区切られた文字列は音声認識用の辞書、すなわち、
音韻(読みを表す文字列)と、その読みに対応するかな
漢字混じり文字列(漢字のみを含む)を記載した辞書に
基づき、かな漢字混じり単語に変換され、図2(D)の
表示画面1内に表示される。
【0005】なお、音声認識用の辞書に上記音声信号の
特徴成分を単語単位で含め、単語単位で音声認識するよ
うな音声認識方法も提案されている。
【0006】音声認識では誤認識が生じることがあるの
で、通常、文字処理装置は、音声認識結果4内の文字を
削除したり、新しい文字をキーボード入力したり、他の
同音異義語を選択するなどの文字処理を行うことができ
る。
【0007】図2(D)の表示画面1中で、ユーザが文
字カールを文字「を」に合わせ、削除(Del)ボタン
を操作すると、文字カーソルで指示した文字(「を」)
を表示画面1上から削除することができる(図2の
(F)参照)。
【0008】さらに認識結果4の中の文字列「マイク」
を文字カーソルにより指定し、変換ボタンを操作する
と、図2(E)に示すように、指定された文字列と発音
が類似する単語、すなわち、音声認識で、類似度が高か
った1以上の音声認識候補がプルダウンメニュー5の形
態で表示される。ユーザはプルダウンメニュー5の中の
所望の単語を選択すると、これまでに表示されていた単
語が選択された単語と置換される。
【0009】このようにして、不要な文字を削除したり
(文字の挿入もある)、単語の置換を行った上で、図3
(G)のEnterボタン8をユーザが操作すると、音
声入力された文字列が確定し、ワードプロソフト等入力
された文字列を使用して情報処理を行うアプリケーショ
ンに確定した文字列が引き渡される。
【0010】一般的に文字処理される文字列にはアンダ
ーライン等が付されて表示され、確定後の文字列はアン
ダーラインが取り除かれる(図3(H)参照)。
【0011】
【発明が解決しようとする課題】音声入力による文字入
力方法は、ユーザがキーボードで文字入力を行わなくて
もよいという利点あある反面、誤認識結果を修正するた
めにはキーボード、あるいはマウスによるユーザの操作
が不可欠である。このため、キーボードあるいはマウス
の操作をできるだけ、なくすことが望まれている。
【0012】また、音声入力した文字列を音声合成し、
出力することで、合成音声と表示の文字列とを比較する
ことで、音声認識結果の誤りを検出する装置が提案され
ているが、この装置は音だけでは、誤認識部分を検出す
ることができないという解決すべき課題もあった。
【0013】さらに本願出願は本願に先立って、キーボ
ードから入力した文字列と音声で入力した文字列とを一
括して文字処理できるようにした文字処理装置を提案し
ているが、キーボード入力と、音声入力を併用する場合
には、打鍵の音がマイクロホンから混入し、音声の入力
と誤認識されてしまうという改善すべき課題があった。
【0014】そこで、本発明の目的は、音だけで音声認
識結果の誤り部分を検出することができる文字処理装置
を提供することにある。
【0015】
【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、入力の音声を音声認識
し、音声認識結果を未確定のかな漢字混じり文字列とし
て表示し、当該表示された文字列を文字処理した後、確
定文字列を出力する文字処理装置において、前記入力の
音声を記憶する音声記憶手段と、前記表示された文字列
について音声合成する音声合成手段と、読み上げ・プレ
イバックを指示する指示手段と、当該指示に応じて前記
音声記憶手段に記憶された音声と前記音声合成手段によ
り合成された音声とを同時にそれぞれ再生出力する出力
手段とを具えたことを特徴とする。
【0016】請求項2の発明は、入力の音声を音声認識
し、音声認識結果を未確定のかな漢字混じり文字列とし
てディスプレイに表示し、当該表示された文字列を文字
処理した後、確定文字列を出力する文字処理方法におい
て、前記入力の音声を記憶手段に記憶しておき、読み上
げ・プレイバックを指示する指示し、当該指示に応じて
前記表示された文字列について音声合成し、前記記憶手
段に記憶された音声と合成された音声とを同時にそれぞ
れ再生出力することを特徴とする。
【0017】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
【0018】最初に本発明に係わる文字処理方法を説明
する。本実施形態の文字処理方法には以下の新規機能を
有するので、各機能について順に説明していく。 (1)必要に応じて文字処理および確定処理を行えばよ
い音声連続入力機能 (2)単語指定するだけで、置換候補を自動表示する機
能 (3)置換候補に対する読みの表示および読みからかな
漢字への逆変換機能 (4)文字列を確定した後、再変換のために読みの類似
候補(音声認識候補)を表示する機能 (5)確定された文章を合成音声で再生出力(読み上げ
と称する)するとともに、合成音声と、入力音声とを一
緒に出力する読み上げ・プレイバック同時機能 (6)音声入力についての許可/禁止処理 (A)音声連続入力機能 従来では、音声認識結果として得られるかな漢字混じり
文については、その音声認識結果が正しいものであって
もユーザは確定の操作を行わなければならない。この操
作を改善したものが音声連続入力機能である。
【0019】ユーザが連続的に音声入力を行っていく
と、表示画面には、音声認識結果が図4(A)のように
表示されていく。本実施形態の特徴は、認識結果が所定
長さを超えようとすると、先に入力された音声の認識結
果、図4の例では、「日本××新聞社は臨時国会閉幕
に」が自動的に確定される。残りの文字列は確定前の文
字処理可能な状態のままとなる(図4(B)参照)。し
たがって、音声認識が正しい限り、ユーザは連続的に音
声入力を続ければよく、最後に、1回だけ、確定操作を
行えばよい。従来では、連続的に音声入力を行うと、そ
の長さ(たとえば、3文節)に制限があるので、たとえ
ば、3文節ごとに確定操作を行わなければならないの対
し、本実施形態では、最後の1回だけとなる。
【0020】また、入力音声をすべて自動確定せず、後
の音声認識結果は未確定としているので、誤認識結果を
修正することも可能となる。 (B)置換候補自動表示機能 従来では、確定前に音声認識結果の文字列を部分的に置
換する場合には、置換すべき文字列を指定し、置換候補
(いわゆる変換候補)の表示を特定のボタンで指示しな
ければならなかったのに対し、本実施形態では、置換す
べき文字列を図5(C)のように文字カーソル(図中の
|記号)で指定するだけで、自動的に置換候補が表示さ
れる。ユーザが図5(D)のように置換候補を選択し、
置換処理を行うことができる。また、ユーザが、この
後、文字カーソルを図6(E)に示すように認識結果の
最後尾に合わせると、文字処理可能状態から音声入力可
能状態となる。なお、表示画面に表示される文字列は音
声認識において、類似度が高い1以上の音声認識候補の
中のもっとも類似する文字列が使用されるが、類似度が
高い1以上の音声認識候補は保存され、この置換候補表
示機能における表示に使用される。 (C)読み候補の表示および逆読み機能(上述の(3)
の機能) 本実施形態では、音声認識結果を未確定状態としたま
ま、キーボードから入力した読みをも上記音声認識結果
とともに確定対象の文字列として扱うことができる。こ
のために、本実施形態では、音声入力され、表示されて
いて未確定の状態の文字列と、キーボードから入力した
読みの文字列とを一括して文字処理することができる。
このように2種の文字列が混在する状態で、かつ、未確
定の状態で任意の文字列を範囲指定し、変換の指示をユ
ーザが与えると、範囲指定された文字列について、漢字
変換用辞書が参照され、範囲指定された文字列と対応す
る1以上の文字列が漢字変換用辞書から抽出され、漢字
変換候補として図7の(A−1)の符号5のように表示
される。
【0021】なお、ここで、表示される変換候補は上記
(B)の機能で表示される候補(音声認識の類似度の高
い音声認識候補)とは異なる点に注意されたい。上記漢
字変換用辞書は、よみ、かな漢字混じり文字列について
の変換前の文字列と、この文字列に対応する変換後のか
な漢字文字列を複数組記載した辞書である。変換前の文
字列としては上述のよみを表す文字列、文法的、意味的
にまちがった誤記の文字列が含まれる。また、変換後の
文字列にはその1以上の読みが付加されている。
【0022】文字カーソル指定により表示された図7の
(A−1)のプルダウンメニューの中から図7の音声認
識候補の変換候補「失わ」をユーザが選択すると、表示
画面中の指定文字列がこの文字列と置換されることは述
べたが、本実施形態では確定操作を行わない限り、漢字
変換辞書から得られる他の文字列候補に置換できる。
【0023】確定のためにユーザが未確定の文字列を従
来と同様、文節単位で区切る。区切られた文字列の任意
の文字列を指定して変換キーを操作すると、図7(B)
のようにプルダウンメニュー5−1の形態で、漢字変換
用辞書から得られる置換候補が(この場合には1つ)表
示される。
【0024】ユーザが置換候補を選択した上で、読みの
表示を指示するとこの文字列のすべての文字列と読みと
が図7のプルダウンメニュー5−2に表示される。この
プルダウンメニュー5−2は、ユーザにより選択された
変換候補「失わせて」に対応し、漢字変換用辞書に記載
されている1以上の読みの候補を選択目的で表示する。
なお、このプルダウンメニュー5−2の中に、選択され
た置換候補「失わせて」も含まれていることに注意され
たい。
【0025】プルダウンメニュー5−2は読み(あるい
は置換候補)から、かな混じり漢字文字列を表示させる
ことができる。ユーザがプルダウンメニューの中の所望
の文字列、たとえば、「ひろうせて」を選択すると図7
の(A−2)のようにこの読みを持つかな混じり漢字文
字列が漢字変換用辞書から抽出され、その置換候補も表
示される(図7(A−2)参照、また、プルダウンメニ
ュー5−2の候補「いやおうせて」をユーザが選択する
とその文字列に対応した、読み候補を表示するためのプ
ルダウンメニューが図8の(C)のように表示される。
【0026】以上、説明したように、(C)の機能で
は、表示画面で範囲指定した文字列に対応し、かな漢字
変換用辞書に記載されている文字列をプルダウンメニュ
ー5に表示する。これにより、キーボードがら入力され
た文字列を漢字等に変換して、文字列を確定することが
できる。また、プルダウンメニュー5に所望の文字列が
ない場合は読みについてのプルダウンメニュー5−2を
介して、確定すべき文字列を検索することができる。 (D)確定後の読みの類似候補の表示機能 確定処理を行うと、確定された文字列は、通常、アプリ
ケーションに引き渡される。なお、音声認識機能を有し
ない従来例においては、確定後の文字列を選択するとか
な漢字変換時に表示された変換候補を再表示して、他の
変換候補と置換する機能を有する文字処理装置が提案さ
れている。
【0027】しかしながら、音声認識機能を有する従来
例では、文字列確定後に変換候補を再表示する機能は有
していない。そこで、本実施形態では、文字変換(置
換)処理に使用された類似単語候補、すなわち、図7の
(A−2)で表示される読みの類似文字列候補で、音声
認識時に音声認識候補として使用された文字列を確定後
の再変換処理においても表示する。図9の表示がこの処
理内容を示す。ユーザにより確定された文字列「失わせ
て」を選択し、再変換を不図示のメニューで指示する
と、文字カーソルの位置指定において表示されたものと
同じプルダウンメニュー6が表示される。
【0028】なお、図9の例では、選択候補は1つであ
るが、複数ある場合には、その複数の文字列が選択のた
めに表示される。このメニュー6においても読みが表示
され、読みの項目を選択すると読みを記載したプルダウ
ンメニューが表示される。 (E)プレイバック・読み上げ機能 音声認識された文字列を音声合成し、合成音声を出力す
る読み上げ機能を有する装置や、入力音声をそのまま再
生(プレイバック)するプレイバック機能を有する装置
は従来から知られているが、上記双方の機能を有する装
置はいまだない。本実施形態では音声認識された未確定
文字列について読み上げと、プレイバック機能を同時に
起動することができる。この2つの機能により、ユーザ
は目視に頼らず音だけで、音声認識結果の誤り部分を検
出することができる。 (F)音声入力についての許可/禁止処理 本実施形態では、キーボード12から入力が行われてい
る場合には、マイクロホン10から音声の入力があって
も、その入力を文字認識プログラムでは受け付けない。
これによりキーボード12の打鍵の音をマイクロホン1
0が拾って、音声認識において誤認識を生じるトラブル
を回避する。
【0029】以上の機能を実現するためのシステム構成
を図10および図11を参照して説明する。図10は文
字処理装置を搭載した情報処理処理装置、たとえば、パ
ーソナルコンピュータの外観を示す。
【0030】図10において、10は音声を入力するた
めのマイクロホン、11は音声入力され、音声認識され
た文字列、文字処理された後の確定文字列を表示するた
めのディスプレイである。12は文字処理対象の文字列
を入力するとともに、ディスプレイ11に表示された文
字カーソルを移動し、文字位置を指定するためのカーソ
ルキー(矢印キーとも呼ばれる)を有するキーボードで
ある。
【0031】13は表示画面の位置指定を行うためのポ
インティングデバイスであり、本実施形態ではマウスを
使用する。
【0032】図11は情報処理装置の代表的な内部構成
を示す。図11において、CPU201はHDD(ハー
ドディスク)203に保存されている文字処理プログラ
ムを実行することにより文字処理装置として機能する。
なお、CPU201は装置全体をもオペレーティングシ
ステムにしたがって制御する。
【0033】システムメモリ202はCPU201の演
算処理で使用するデータ、ディスプレイ11に表示する
データ、文字処理に関わるデータの記憶に使用される。
さらに、システム制御に必要なデータをもシステムメモ
リ202に記憶される。
【0034】HDD203には上述のオペレーティング
システム、文字処理プログラムの他、音声認識に使用す
る音声認識用辞書、音声認識プログラム、漢字変換用辞
書を保存する。
【0035】なお、HDD203に保存される上述のデ
ータは不図示のCDROMドライブを介してCDROM
から実装することができる。また、フロッピー(登録商
標)ディスクから上記データを実装する場合にはフロッ
ピー(登録商標)ディスクドライブが使用される。
【0036】204、206、208〜210は後述の
回路とバス211を接続する入出力インターフェース
(I/O)である。I/O204はCPU201から出
力される合成音声信号および音声信号をデジタル/アナ
ログ変換器205に転送する。デジタル信号からアナロ
グ信号に変換された合成音声信号および音声信号が左お
よび右のスピーカから再生される。
【0037】マイクロホン10から入力された音声はア
ナログ音声信号に変換され、アナログデジタル変換器2
07によりデジタル形態の音声信号に変換され、I/O
206を介してCPU201に引き渡される。
【0038】I/O208はキーボード12からの入力
情報をCPU201に転送する。I/O209はディス
プレイ11で表示するイメージデータを転送する。
【0039】以上の回路を有する文字処理システムの動
作説明に先立って、本実施形態の処理データの流れを図
12を参照して説明しておく。
【0040】マイクロホン10から入力された音声は音
声認識プログラム100により音声認識される。また、
入力音声は記憶装置(システムメモリ202)105に
記憶される。本実施形態の音声認識プログラムは隠れマ
ルコフモデルとよばれる音声の特徴を使用して音声認識
を行う。音声認識の結果としては入力音声(たとえば、
文節)に対して類似度が高い1以上のかな漢字混じり文
字列が得られる。この中のもっとも類似度が高い文字列
が文字処理プログラム102を介して表示される。類似
度の高い文字列は音声認識用辞書から従来と同様の音声
認識処理において抽出された後、文字処理プログラム1
02に引き渡される。
【0041】キーボード12から入力された読みの文字
列は文字処理プログラム102に引き渡され、かな混じ
り漢字(漢字のみの文字列、カタカナの文字列をも含
む)に変換される。なお、音声で入力された文字列と、
キー入力された文字列とを結合した文字列をも1つの文
字列としてかな混じり漢字の変換の対象とすることがで
きる。
【0042】文字処理プログラムはユーザの文字カーソ
ル操作、マウス操作、その他、挿入、削除等のキー操作
を受け付け、操作に応じて上述した文字処理方法にした
がって、文字処理を行う。読み上げ・プレイバック機能
が指示された場合には、記憶装置105に記憶された原
音声データ(入力の音声信号)と文字処理プログラムに
より音声合成された合成音声データは左右のスピーカ1
06から別個に同時に再生される。
【0043】文字処理プログラム102により文字処理
(漢字変換、挿入、削除)されて確定された文字列は文
書処理プログラム(ワープロソフト)104等文字列を
入力とするアプリケーションに引き渡される。なお、文
書処理プログラムによる処理中で範囲指定された確定文
字列について再変換の指示がユーザにより行われた場合
には、文字処理プログラム102に再変換の対象の文字
列が引き渡され、変換候補が表示画面に表示される。ユ
ーザの候補選択の後、確定された文字列は文書処理プロ
グラム104に引き渡されて、表示画面に表示される。
【0044】図12の回路の動作、主にCPU201の
処理内容を図13〜図18のフローチャートを参照して
説明する。これらのフローチャートに示す処理手順は文
字処理プログラムとして、CPU201の実行可能なプ
ログラム言語の形態でHDD203にあらかじめ保存さ
れている。CPU201の実行時にはHDD203から
システムメモリ202にロードされる。
【0045】図13は文字処理プログラムのメイン処理
手順を示す。図13の処理手順は入力イベント、すなわ
ち、マイクロホン10からの音声入力、キーボード12
からのキー入力、あるいはマウス13のいずれからか情
報入力があった場合に実行される。
【0046】以下に述べる音声許可フラグは音声の入力
が許可されているときにオン、音声の入力が許可されて
いない(禁止)場合にオフとなる。
【0047】マイクロホン10から音声入力があると、
CPU201は音声許可フラグがオンであることを確認
した上で、音声認識プログラムを起動し、入力の音声デ
ータを引き渡す。これにより、従来と同様の音声認識用
辞書を使用した音声認識処理が行われる(ステップS1
1)。音声の認識結果、この場合、文節単位での発声、
すなわち、読みの類似度の高い1以上のかな混じり漢字
文字列が後述の選択候補の表示のためにシステムメモリ
202に記憶され、もっとも類似度の高いかな混じり漢
字文字列がディスプレイ11に表示される(ステップS
12)。なお、このとき、従来と同様、未確定を表す点
線が表示の文字列に付される。
【0048】一方、キーボード12からの入力があるこ
とがステップS20で検出されると、システムメモリ2
02内の文字処理用の専用領域に入力情報が記憶される
とともに、ディスプレイ11にも表示される(ステップ
S21)。マウス13の操作により、文字処理関連の指
示が行われた場合には、その指示に応じた文字処理が行
われる(ステップS31)。種類ごとの文字処理につい
ては後述する。
【0049】図14は音声連続機能を実現するための処
理手順を示す。音声認識結果をシステムメモリ202に
記憶し、ディスプレイ11に表示する際に(図13のス
テップS11)、図14の処理手順が実行される。CP
U201はシステムメモリ202内の文字処理用専用領
域(以下、ワークエリアと略称する)に記憶されてお
り、未確定の文字数を計数する。
【0050】計数した文字数(あるいは文節数)、(た
だし、音声認識されたばかりの文字列でワークエリアに
記憶されていない文字列を含む)があらかじめ定めた文
字数(あるいは文節数)を超えている場合には、時間的
に早く記憶されている1文節の文字列(あるいは所定文
字数の文字列)、すなわち、先頭部の文字列を未確定か
ら確定に変更する(ステップS100→S101)。本
実施例では上記ワークエリアから表示用の文字記憶領域
に自動確定の文字列を削除する。次にワークエリア内の
未確定の文字数と文字認識された文字列の文字数の合計
を計算し(ステップS102)、再び、あらかじめ定め
た文字数との比較を行う(ステップS100)。以下、
ステップS100〜S102のループ処理を繰り返す。
これにより、今、音声認識された文字列をワークエリア
に記憶しても、オーバーフロー(記憶容量を越えるこ
と)を避けることができる。
【0051】ステップS100の判定がNOとなったと
きに、CPU201は音声認識された文字列をワークエ
リアに記憶するとともに、新たに記憶された文字列をこ
れまでに記憶されている文字列(未確定文字列と確定文
字列)とともに表示する(ステップS110→S12
0)。
【0052】以上の処理をCPU201が実行すること
により、ワークエリア内に記憶される未確定び文字数は
一定の値を超えることはなく、また、図4に示すように
先に音声で入力された文字列は文節単位で確定される。
以上が音声入力の場合の処理であるが、キーボード12
から連続的に文字列が入力された場合にも同様の処理を
行うことができる。
【0053】なお、音声認識結果として得られた1以上
の類似文字列のうち、もっとも類似する文字列がワーク
エリアに記憶され、1以上の類似文字列全体は、ワーク
エリアに記憶されたもっとも類似する文字列と関連付け
られてシステムメモリ202の別領域に記憶される。後
述するが、別領域に記憶された類似文字列は文字カーソ
ルの位置指定に応じた置換候補の表示に使用される。
【0054】図15は文字カーソルにより未確定文字列
の中の特定文字が指定された場合の処理内容を示す。こ
の処理手順は、文字カーソルがキーボード12のカーソ
ルキーもしくはマウス13により移動されたことをCP
U201が検出したときに、CPU201は文字処理関
連の指示ありと判断し、図13の処理手順をステップS
10〜S30→S31へと進め、図15の処理手順を実
行する。図15において、CPU201はカーソルキー
の位置が未確定文字列中に位置したことを検出すると、
指定された文字位置を含む文字列と対応する置換候補を
システムメモリ202から読み出して、図5の(C)の
ようにプルダウンメニューの形態で表示する(ステップ
S200→S210→S220→S230)。ユーザが
置換候補を選択すると、CPU201は選択された候補
と、現在、未確定文字列として表示されている文字列と
を置換する(ステップS250)。
【0055】本実施形態では、文字カーソルキーの位置
指定による置換候補の自動表示と関連させて、次のよう
な機能を用意している。ユーザが、文字カーソルにより
未確定文字列を指定した状態で、キーボード12の特定
のキー(たとえば、ENTERキー)を操作すると、そ
の操作が、ステップS220で検出され、文字カーソル
は未確定文字列の最後尾に移動し、以後、音声を使用し
た文字入力が許可された状態(音声許可フラグオン)と
なる。
【0056】次に、置換候補の読みの表示についての処
理を図16を参照して説明する。図16の処理手順は未
確定の文字列を確定するために、未確定の文字列を文節
単位に区切り、区切られた文字列の中の特定の文節をユ
ーザが指定して変換の指示を行ったときに実行される。
図16において、CPU201はユーザが変換対象の区
切り文字列の指定を受付け、キーボード12の変換キー
を操作すると、CPU201は指定された文字列につい
て関連する1以上の文字列、すなわち、同音異義語や、
カタカナだけの文字列、文法的に正しい文字列を漢字変
換用辞書から取得する。このとき、1以上の読みも共に
取得される(ステップS300→S310→S32
0)。
【0057】取得された文字列(置換候補)は図7の
(B)のように表示される(ステップS330)。ユー
ザが候補選択を行った上で読みの表示の指示をマウス1
3により行うと、CPU201は選択された文字列につ
いての読み候補(漢字変換用辞書から取得済み)を図7
(B)の符号5−2のように表示する(ステップS34
0→S350→S370、なお、選択されたかな混じり
漢字を含む)。
【0058】この読み候補をユーザが選択すると、CP
U201は同じ読みを持つ文字列(読みから逆引きの文
字列)を漢字変換用辞書から抽出し、表示する(ステッ
プS374、図7(A−2)参照)。ユーザが表示され
た文字列候補の中から所望の文字列を選択すると選択さ
れた文字列による置換が行われる(ステップS376→
S78)。以上説明したようにこの処理手順では、読み
からかな漢字混じり文字列を選択することも可能とな
る。
【0059】確定後の再変換処理において、漢字変換用
辞書のかわりに、システムメモリ202に記憶しておい
た類似文字列候補(音声認識候補)を使用する点は表示
する候補が異なるだけであり、詳細な処理手順の説明を
要しないであろう。
【0060】次に、プレイバック・読み上げ処理を図1
7を参照して説明する。図17の処理手順は、図1
(C)の音声アプレット3中に新たに設けられたプレイ
バック・読み上げ指示ボタンあるいは従来からあるプレ
イバックまたは読み上げボタンが操作されたときに実行
される。図17において、CPU201は操作ボタンの
種類をステップS400〜S420で判別する。プレイ
バックボタンが操作された場合には手順はステップS4
00→S401へと進み、従来と同様のプレイバック処
理(システムメモリ202に保存されている入力の音声
を再生する処理)。
【0061】また、読み上げボタンが操作された場合に
は、手順はステップS410→S411→S412と進
み、従来と同様、現在、表示されている未確定文字列に
ついて、CPU201は音声合成を行って、合成音声を
スピーカ106から再生出力する。
【0062】一方、プレイバック・再生ボタンが操作さ
れた場合には、読み上げのための音声合成データをたと
えば、左のスピーカ、入力の原音声を右のスピーカから
というように再生出力のスピーカを分けて原音声と、合
成音声を出力する(ステップS420→S430→S4
4)。
【0063】次に音声入力とキーボード入力の制御につ
いて図18を参照して説明する。
【0064】図18の処理手順は一定周期割り込みで実
行される。CPU201はキーボード12用のI/O2
08に保持されているキーコード信号を読み出し、キー
入力の有無を判定する。キー入力がある場合には、キー
コード信号が保持されていないので、これによりステッ
プS500の判定結果はYESとなり、手順はステップ
S501へと進む。
【0065】このステップで、CPU501はタイマー
の計数値をゼロにリセットして、音声許可フラグをオフ
し、音声の入力を禁止する。タイマーは1回のキーの押
下時間よりやや大きい非常に時間でカウントアップする
ものを使用する。連続的にキー入力がある場合には、ス
テップS500→S501→S502の手順が繰り返し
実行され、タイマーはカウントアップする前に再起動さ
れる。
【0066】一方、キー入力がなくなると、ステップS
100の判定結果がYES判定のとなる。したがって、
最後のキー入力で計時を開始したタイマーがカウントア
ップするまでは、音声許可フラグはオフ状態を続け、最
後のキー入力処理が終了するまでは音声入力処理が禁止
される。キー入力がなく、かつ、タイマーがカウントア
ップすると、手順は、ステップS500→S510→S
511へと進み、このステップで、音声許可フラグがオ
ンとなり音声の入力が許可される。この音声許可フラグ
のオンオフにしたがって。CPU201は図13のでの
音声入力、認識処理(ステップS11)を行う。
【0067】上述の実施形態の他に次の形態を実施でき
る。 1)上述の実施形態では文字カーソルの文字列指定で
は、音声認識で得られた1以上の認識候補を置換候補と
して表示し、確定のための変換の指示があったときには
漢字変換用辞書に記載された変換候補を表示している。
しかしながら、文字カーソルの指定や変換の指示で表示
する候補については、音声認識で得られた認識候補と、
漢字変換用辞書から得られる変換候補を混在されて表示
し、ユーザが選択することも可能である。 2)上述の実施形態では図9に示すように読みを表示し
ているが、この読みは漢字変換用変換辞書から取得して
もよいし、音声認識用辞書から取得するようにしてもよ
い。さらには双方の辞書から取得するようにしてもよい
こと勿論である。 3)本実施形態の漢字変換用辞書は、ワープロなどで使
用される判事変換用辞書と異なり、読みに加えて誤記の
かな漢字文字列をも変換前の文字列としている。このた
め、本実施形態の漢字変換用辞書は置換用辞書と考える
ことができる。置換の対象の文字列としては、上述の読
み、文法的に間違った文字列(誤記、仮名遣いの異なる
文字列、スペルの誤りのある英文字列をいわゆる置換辞
書に記載しておくことができる。 4)上述の実施形態では、パーソナルコンピュータに文
字処理装置を搭載する例を説明したが、音声で文字を入
力する各種の装置に対して本発明を適用することができ
る。
【0068】
【発明の効果】以上、説明したように、請求項1,2の
発明では、入力音声と合成音声とを同時に再生すること
で、音声のみで、表示の目視確認なしで音声認識結果の
正否の確認を行うことができる。
【図面の簡単な説明】
【図1】(A)〜(C)は音声入力のための操作の推移
を示す説明図である。
【図2】(D)〜(F)は音声入力のための操作の推移
を示す説明図である。
【図3】(G)および(H)は音声入力のための操作の
推移を示す説明図である。
【図4】(A)および(B)は連続音声についての音声
認識結果の処理の変化を示す説明図である。
【図5】(C)および(D)は置換候補の表示の一例を
示す説明図である。
【図6】(E)は文字カールの移動結果を示す説明図で
ある。
【図7】(A−1)、(A−2)、(B)は置換候補の
表示例を示す説明図である。
【図8】(C)は読みから逆引きした置換候補の表示例
を示す説明図である。
【図9】再変換時の置換候補の表示例を示す説明図であ
る。
【図10】音声処理装置を有する情報処理装置の外観を
示す構成図である。
【図11】図10の情報処理装置の内部構成を示すブロ
ック図である。
【図12】本発明実施例のデータの流れを示すブロック
図である。
【図13】本発明実施形態のメイン処理手順を示すフロ
ーチャートである。
【図14】入力文字の記憶、表示のための処理内容を示
すフローチャートである。
【図15】文字カーソルの指定に伴う置換候補の表示処
理を示すフローチャートである。
【図16】本発明実施形態の文字列置換、読み候補の表
示、読みからの逆引きのための処理を示すフローチャー
トである。
【図17】プレイバック・読み上げの処理内容を示すフ
ローチャートである。
【図18】キー入力に関連した音声入力制御の内容を示
すフローチャートである。
【符号の説明】
11 ディスプレイ 12 キーボード 13 マウス 201 CPU 202 システムメモリ 203 HDD
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤村 武志 東京都調布市調布ヶ丘1丁目18番1号 マ イクロソフト株式会社 マイクロソフト調 布技術センター内 (72)発明者 只埜 正義 東京都調布市調布ヶ丘1丁目18番1号 マ イクロソフト株式会社 マイクロソフト調 布技術センター内 Fターム(参考) 5B009 KB06 RD02

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力の音声を音声認識し、音声認識結果
    を未確定のかな漢字混じり文字列として表示し、当該表
    示された文字列を文字処理した後、確定文字列を出力す
    る文字処理装置において、 前記入力の音声を記憶する音声記憶手段と、 前記表示された文字列について音声合成する音声合成手
    段と、 読み上げ・プレイバックを指示する指示手段と、 当該指示に応じて前記音声記憶手段に記憶された音声と
    前記音声合成手段により合成された音声とを同時にそれ
    ぞれ再生出力する出力手段とを具えたことを特徴とする
    文字処理装置。
  2. 【請求項2】 入力の音声を音声認識し、音声認識結果
    を未確定のかな漢字混じり文字列としてディスプレイに
    表示し、当該表示された文字列を文字処理した後、確定
    文字列を出力する文字処理方法において、 前記入力の音声を記憶手段に記憶しておき、 読み上げ・プレイバックを指示する指示し、 当該指示に応じて前記表示された文字列について音声合
    成し、 前記記憶手段に記憶された音声と合成された音声とを同
    時にそれぞれ再生出力することを特徴とする文字処理方
    法。
JP2002092412A 2002-03-28 2002-03-28 文字処理装置および方法 Pending JP2002366345A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002092412A JP2002366345A (ja) 2002-03-28 2002-03-28 文字処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002092412A JP2002366345A (ja) 2002-03-28 2002-03-28 文字処理装置および方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP03493499A Division JP3795692B2 (ja) 1999-02-12 1999-02-12 文字処理装置および方法

Publications (1)

Publication Number Publication Date
JP2002366345A true JP2002366345A (ja) 2002-12-20

Family

ID=19193522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002092412A Pending JP2002366345A (ja) 2002-03-28 2002-03-28 文字処理装置および方法

Country Status (1)

Country Link
JP (1) JP2002366345A (ja)

Similar Documents

Publication Publication Date Title
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
JP3142803B2 (ja) テキストを音声に変換するシンセサイザ
US9236045B2 (en) Methods and apparatus for proofing of a text input
JP3795692B2 (ja) 文字処理装置および方法
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JPS61107430A (ja) 音声情報の編集装置
JP2003513389A (ja) 言語入力ユーザインタフェース
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2002091492A (ja) 音声補完方法、装置および記録媒体
WO2011064829A1 (ja) 情報処理装置
JPH1125098A (ja) 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP3483230B2 (ja) 発声情報作成装置
JP2006031725A (ja) 文字処理装置
JP2001042996A (ja) 文書作成装置、文書作成方法
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP2002366345A (ja) 文字処理装置および方法
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
JPH09325787A (ja) 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
JPH10143503A (ja) 音声ワードプロセッサ
JP2001014304A (ja) 文書作成装置、変換処理方法及び変換処理プログラムを記録した記録媒体
JP3280729B2 (ja) 発音記号作成装置
JP2000276189A (ja) 日本語ディクテーションシステム
JP3069532B2 (ja) かな漢字変換方法およびその装置並びにかな漢字変換方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050228

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060331