JP2001343995A - 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体 - Google Patents

音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体

Info

Publication number
JP2001343995A
JP2001343995A JP2000162091A JP2000162091A JP2001343995A JP 2001343995 A JP2001343995 A JP 2001343995A JP 2000162091 A JP2000162091 A JP 2000162091A JP 2000162091 A JP2000162091 A JP 2000162091A JP 2001343995 A JP2001343995 A JP 2001343995A
Authority
JP
Japan
Prior art keywords
word
dictionary
registered
recognition result
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000162091A
Other languages
English (en)
Inventor
Yasushi Ishizuka
靖 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000162091A priority Critical patent/JP2001343995A/ja
Publication of JP2001343995A publication Critical patent/JP2001343995A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】辞書上の読みの分からないアルファベット単語
や辞書登録されていないアルファベット単語を1文字ず
つ音声入力した場合でも、1つの単語としての認識結果
を正しく得る。 【解決手段】ユーザが音声入力したデータを音声認識辞
書を参照して音声認識処理する(A11,A12)。こ
こで、認識結果の中にアルファベット文字列が連続して
存在するか否かを判断し(A13)、存在する場合に
は、そのアルファベット文字列を1つの単語としてまと
め上げ処理した後(A14)、そのまとめ上げた後の単
語を認識結果として出力する(A15)。このように、
アルファベット文字列を1単語としてまとめ上げる処理
を行うことで、辞書上の読みの分からないアルファベッ
ト単語や辞書登録されていないアルファベット単語を1
文字ずつ音声入力した場合でも、1つの単語としての認
識結果を正しく得ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パーソナルコンピ
ュータやワードプロセッサ等において、音声入力により
文書を作成する場合に用いられる音声入力処理装置に係
り、特にアルファベット文字で構成される単語を音声入
力する際に用いて好適な音声入力処理装置と、同装置に
用いられる音声入力処理方法及び音声入力処理プログラ
ムを記録した記録媒体に関する。
【0002】
【従来の技術】例えばパーソナルコンピュータやワード
プロセッサ等では、音声認識ソフトを搭載して、音声入
力による文書作成を可能としたものがある。代表的な音
声認識ソフトとしては、日本電気株式会社の「Smar
t Voice Ver.2.0」や日本IBM株式会
社の「Via Voice98」などがある。
【0003】この種の音声認識ソフトでは、辞書に登録
されている単語に付けられている読みを音声で入力し
て、音声認識処理を行い、その認識結果として辞書の見
出しを出力する。アルファベット文字で構成される単語
(アルファベット単語)の入力についても同様であり、
アルファベット単語に付けられている読みを発話して入
力することになる。例えば、「Rupo」といったアル
ファベット単語が「るぽ」といった読みで辞書に登録さ
れている場合には、ユーザは「るぽ」といった読みを音
声で入力することで、「Rupo」といった単語を認識
結果として得ることができる。
【0004】しかしながら、アルファベット単語は平仮
名や漢字だけで構成される単語に比べて、辞書登録上の
読みが分からない場合が多く、例えば「ISO」という
アルファベット単語であれば、読みとして「あいえすお
ー」、「いそ」、「あいそ」など、複数の読みが考えら
れ、辞書に登録されている単語の読みと異なる読みを音
声入力することがある。辞書に登録されている単語の読
みと異なる読みを音声入力すると、正しい結果が得られ
ないことになる。
【0005】そこで、このような単語を間違いなく入力
するために、アルファベット単語については、その単語
を構成するアルファベット1文字ずつの読みを音声入力
して、その文字単位で音声認識を方法が採られている。
すなわち、上記「Rupo」といった単語であれば、
「あーるゆーぴーおー」といった読みを入力することに
なる。
【0006】
【発明が解決しようとする課題】上述したように、辞書
に登録されているアルファベット単語の読みが分からな
い場合に、その単語を構成する各アルファベットの読み
を1文字ずつ音声入力する方法が採られていた。
【0007】しかしながら、このような方法によりアル
ファベット単語の読みを入力した場合において、従来の
音声認識ソフトでは、図15(b)に示すように、「あ
ーるゆーぴーおー」→「R/U/P/O」(“/”は認
識結果の切れ目を示す)といったように、認識結果がア
ルファベット1文字ずつに区切られて出力され、認識後
に1つの単語としてまとめるための編集操作が必要とな
る不便さがあった。これは、辞書に登録されていないア
ルファベット単語についても同様であり、その単語を構
成する各アルファベットの読みを1文字ずつ音声入力す
ると、認識結果がアルファベット1文字ずつに区切られ
て出力されることになり、認識後に編集操作が必要とな
る。
【0008】また、製品名、会社名などの固有名詞で
は、アルファベットの大文字、小文字を区別することが
重要であり、大文字、小文字の区別をなくした単語は固
有名詞としての意味がなくなることがある。しかしなが
ら、従来の音声認識ソフトでは、認識結果が大文字また
は小文字のどちらか一方で統一されて出力されるため、
認識後にその認識結果を実際の表記に合わせて編集しな
ければならないといった問題もあった。
【0009】本発明は上記の課題を解決するためになさ
れたもので、辞書上の読みの分からないアルファベット
単語や辞書登録されていないアルファベット単語を1文
字ずつ音声入力した場合でも、1つの単語としての認識
結果を正しく得ることのできる音声入力処理装置、音声
入力処理方法及び音声入力処理プログラムを記録した記
録媒体を提供することを目的とする。
【0010】
【課題を解決するための手段】本発明の音声入力処理装
置は、音声データを各単語のデータが登録された辞書を
参照して音声認識し、その認識結果を出力するものであ
り、特に、音声認識処理によって得られた認識結果の中
にアルファベット文字列が連続して存在するか否かを判
断するアルファベット判断手段と、このアルファベット
判断手段により、上記認識結果の中にアルファベット文
字列が連続して存在すると判断された場合に、そのアル
ファベット文字列を1つの単語としてまとめ上げる処理
を実行するまとめ上げ処理手段とを備え、上記まとめ上
げ処理手段によって得られた単語を上記アルファベット
文字列に対応した認識結果として出力することを特徴と
するものである。
【0011】このような構成によれば、入力された音声
データに対する認識結果の中にアルファベット文字列が
連続して存在する場合に、そのアルファベット文字列が
1つの単語としてまとめ上げられて出力されるため、辞
書上の読みの分からないアルファベット単語や辞書登録
されていないアルファベット単語を1文字ずつ音声入力
した場合でも、1つの単語としての認識結果を正しく得
ることができる。
【0012】また、上記まとめ上げ後の単語が当該単語
が上記辞書に登録されている場合に、当該単語を上記辞
書に登録されている単語の見出し表記に合わせて出力す
ることで、辞書登録されている単語については、その辞
書に合わせた表記で出力することができる。
【0013】また、上記まとめ上げ後の単語が上記辞書
に固有名詞として登録されている場合に上記辞書に登録
されている単語の見出し表記に合わせて固有名詞用とし
ての候補を作成し、当該単語が固有名詞として上記辞書
に登録されていない場合または当該単語自体が上記辞書
に登録されていない場合に固有名詞以外の通常単語用と
しての候補を作成し、これらの候補を出力することで、
固有名詞としての候補と固有名詞以外の候補とを区別し
て、所望の表記を有する候補を選択することができる。
【0014】また、上記まとめ上げ後の単語が上記辞書
に登録されていない場合に、所定のタイミングで当該単
語を上記辞書に登録することで、次回にその単語を入力
する場合は、ユーザが登録した読みで入力できるように
なる。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。
【0016】図1は本発明の一実施形態に係る音声入力
処理装置の構成を示すブロック図である。なお、本装置
は、例えば磁気ディスク等の記録媒体に記録されたプロ
グラムを読み込み、このプログラムによって動作が制御
されるコンピュータによって実現される。
【0017】図1では、本発明の音声入力処理装置をパ
ソコン等の汎用的なコンピュータにて実現した場合の構
成を示しており、キーボード入力部11、音声入力部1
2、ポインティングデバイス部13、制御部14、音声
認識処理部15、音声認識辞書16、データ記憶部1
7、出力部18などを備えている。
【0018】キーボード入力部11は、キーボードを使
って認識候補の選択操作などを行う場合に用いられる。
音声入力部12は、マイク等を通じて音声認識の対象と
なる単語の読みなどを音声入力する場合に用いられる。
ポインティングデバイス部13は、キーボード入力部1
1と併用され、ペンやマウス等のポインティングデバイ
スを使って認識候補の選択操作などを行う場合に用いら
れる。
【0019】制御部14は、マイクロプロセッサから構
成され、プログラムを読み込むことで、そのプログラム
に記述された所定の手順に従って各種処理を実行するも
のであり、アルファベット文字列まとめ上げ処理、候補
生成処理、辞書登録処理といった音声入力に関連した処
理もここで行なわれる。
【0020】音声認識処理部15は、制御部14の制御
の下で、音声入力部12により音声入力された音声デー
タを音声認識辞書16を使って認識処理し、その認識結
果を制御部14に返す。音声認識辞書16は、各単語の
読みと見出し、品詞など、音声認識処理に必要なデータ
を収容している。なお、この音声認識処理部15および
音声認識辞書16を含め、制御部14にて実行される本
発明の音声入力処理はソフトウェアにて実現されるもの
であり、そのソフトウェアプログラムを磁気ディスク等
の記録媒体に記録して他の装置に提供することができ
る。また、プログラムの提供方法としては、記録媒体に
限らず、例えば外部からネットワークを介して通信によ
り提供することも可能である。
【0021】データ記憶部17は、ROMやRAMなど
からなり、制御部14の処理動作に必要な各種データを
記憶するものであり、ここでは認識結果バッファ17
a、認識数バッファ17b、まとめ上げバッファ17
c、出力バッファ17d、候補バッファ17eが設けら
れている。認識結果バッファ17aには、音声認識処理
によって得られた認識結果が格納される。認識数バッフ
ァ17bには、認識結果の個数(認識数m)が格納され
る。まとめ上げバッファ17cには、まとめ上げ後アル
ファベット文字列が格納される。出力バッファ17dに
は、ユーザに提示する認識結果が格納される。候補バッ
ファ17eには、認識結果の候補が格納される。
【0022】出力部18は、CRT(Cathode-ray tub
e)やLCD(Liquid Crystal Display)などの表示装
置からなり、ユーザが音声入力したデータの認識結果等
を表示する。
【0023】次に、本装置の動作を説明する前に、本装
置で実現されるアルファベット単語の音声入力処理につ
いて従来と比較して説明する。
【0024】音声認識ソフトでは、辞書登録されている
単語に付けられている読みを音声入力すれば、その登録
単語を認識結果として得ることができる。これは、アル
ファベット単語についても同様であり、そのアルファベ
ット単語に付けられている読みを正しく発話すれば、辞
書登録されているアルファベット単語を認識結果として
得ることができる。しかしながら、アルファベット単語
は平仮名や漢字だけで構成される単語に比べて、辞書登
録されている読みが分からない場合が多く、間違った読
みを入力してしまう可能性が高い。そこで、読みの分か
らないアルファベット単語、あるいは、辞書登録されて
いないアルファベット単語については、その単語を構成
する各アルファベットを1文字ずつ音声入力するといっ
た方法が用いられる。
【0025】従来、アルファベット単語を構成する各ア
ルファベットを1文字ずつ音声入力すると、それらは単
独のアルファベットとして処理される。このため、図1
5(b)に示すように、ユーザは1つの単語として「あ
ーるゆーぴーおー」と音声入力したつもりでも、認識結
果はアルファベット1文字ずつに区切られて出力され、
認識後に編集操作が必要となる。さらに、このような入
力方法では、大文字または小文字のどちらか一方の表記
でしか認識結果が出力されない。このため、大文字と小
文字の区別を必要とする製品名、会社名などの固有名詞
を入力した場合に、認識後に実際の表記に合わせて編集
しなければならない。
【0026】これに対し、本発明では、アルファベット
単語を構成する各アルファベットを1文字ずつ音声入力
すると、それらは1つの単語としてまとめて処理され
る。したがって、図15(a)に示すように、「あーる
ゆーぴーおー」といったように1文字ずつ音声入力した
場合でも、「RUPO」といった1つの単語としての認
識結果を得ることができる。さらに、例えば固有名詞と
して「Rupo」といった表記で辞書登録されている場
合には、上記入力方法によりアルファベット単語を音声
入力した際に、辞書登録された単語の表記で当該単語を
認識結果として得ることができる。
【0027】以下に、フローチャートと具体例を参照し
ながら、本装置の動作を詳しく説明する。
【0028】図2は本装置の音声入力処理の動作を示す
フローチャートである。
【0029】今、入力したいアルファベット単語があ
り、その読みが分からないために、ユーザが音声入力部
12からその単語のアルファベットの読みを1文字ずつ
音声入力するものとする。
【0030】図2に示すように、音声入力部12から音
声データが入力されると(ステップA11)、制御部1
4の制御の下で音声認識処理部15はその音声データを
音声認識辞書16を参照して音声認識処理する(ステッ
プA12)。なお、音声認識の方法は一般的に用いられ
ている方法を用いるものとし、その具体的な説明は省略
する。
【0031】音声認識処理後、その認識結果(入力され
た音声データに対応した文字列データ)は音声認識処理
部15から制御部14に渡される。ここで、制御部14
はその認識結果の中に連続したアルファベット文字列が
あるか否かをチェックする(ステップA13)。連続す
るアルファベット文字列が認識結果の中にある場合には
(ステップA13のYes)、制御部14はそのアルフ
ァベット文字列を1つの単語としてまとめ上げる処理を
行う(ステップA14)。そして、ユーザに対しては、
アルファベット1文字ずつではなく、まとめ上げた1つ
のアルファベット単語を出力部18により出力する(ス
テップA15)。このようなアルファベット文字列のま
とめ上げ処理により、ユーザが読みの分からないアルフ
ァベット単語を1文字ずつアルファベットに分割して音
声入力しても、図15(a)に示すように、認識結果と
して1つにまとめ上げられたアルファベット単語を得る
ことができるようになる。
【0032】また、上記ステップA13において、連続
するアルファベット文字列が認識結果の中にない場合、
つまり、認識結果としてアルファベット1文字だけ、あ
るいは、平仮名や漢字などで構成された単語が得られて
いる場合には(ステップA13のNo)、制御部14は
その認識結果をそのまま出力部18により出力する(ス
テップA14)。
【0033】ここで、図3を参照して、上記ステップA
15のアルファベット文字列のまとめ上げ処理につい
て、さらに詳しく説明する。
【0034】図3はアルファベット文字列のまとめ上げ
処理を示すフローチャートである。なお、ここで示され
る処理は上記図2のステップA12〜A15の処理に相
当する。
【0035】図3に示すように、入力された音声データ
が音声認識処理部15により音声認識処理されると(ス
テップB11)、制御部14はその認識結果を取得する
ことにより、以下のような処理を実行する。
【0036】すなわち、認識結果として得られた文字列
をデータ記憶部17に設けられた認識結果バッファ17
aに格納すると共に、その際に認識数(認識結果の個
数)mを認識数バッファ17bにセットする(ステップ
B12)。
【0037】ここで、チェック対象となる認識結果のイ
ンデックスをnとすると、まず、そのnの値を初期値
「1」にセットすることにより(ステップB13)、n
番目の認識結果の文字種をチェックする(ステップB1
4)。その結果、アルファベットであれば(ステップB
15のYes)、当該認識結果にフラグ=1をセットす
る(ステップB16)。すなわち、n=1であれば、1
番目の認識結果がアルファベットであるか否かがチェッ
クされ、アルファベットであれば、その認識結果にフラ
グ=1がセットされることになる。
【0038】続いて、インデックスnを更新し(ステッ
プB17)、その更新後のnの値が上記認識数バッファ
17bにセットされた認識数m以下であれば(ステップ
B18のYes)、そのn番目の認識結果に対して上記
同様の処理を行う。このようにして、認識結果として得
られた文字列を先頭から順にチェックしていき、アルフ
ァベットにはフラグ=1をセットする。
【0039】n>mになると、つまり、認識結果として
得られた文字列をすべてチェックすると、上記フラグ情
報を使って、連続するアルファベット文字列のまとめ上
げ処理を行う。
【0040】すなわち、まず、まとめ上げバッファ17
cをクリアしておくと共に(ステップB19)、チェッ
ク対象となる認識結果のインデックスnを再び初期値
「1」にセットしておく(ステップB20)。
【0041】次に、制御部14は、n番目の認識結果の
フラグが1であるか否かをチェックする(ステップB2
1)。フラグ=1でない場合には(ステップB21のN
o)、その認識結果はアルファベット以外の文字という
ことである。したがって、その認識結果をそのまま出力
バッファ17dにセットする(ステップB24)。その
際、まとめ上げバッファ17cにアルファベット文字列
が既にセットされていれば、その時点で当該アルファベ
ット文字列を1つの単語として出力するべく、出力バッ
ファ17dにセットすると共にまとめ上げバッファ17
cをクリアした後(ステップB22,B23)、n番目
の認識結果(アルファベット以外の文字)をセットする
(ステップB24)。
【0042】一方、上記ステップB21において、n番
目の認識結果のフラグが1であれば、その認識結果はア
ルファベットということである。アルファベットの場合
には、その認識結果をまとめ上げバッファ17cにセッ
トする(ステップB25)。
【0043】このようにして、インデックスnを更新し
ながら(ステップB26)、n=mとなるまで、上記同
様の処理を繰り返し行う。これにより、認識結果の中で
アルファベットが連続している部分の文字列がまとめ上
げバッファ17cに保持されることになる。
【0044】n>mになると、つまり、認識結果として
得られた文字列をすべてチェックすると(ステップB2
7のNo)、まとめ上げバッファ17cにアルファベッ
ト文字列がセットされているか否かをチェックする(ス
テップB28)。まとめ上げバッファ17cにアルファ
ベット文字列がセットされている場合には(ステップB
28のYes)、アルファベット文字列を1つの単語と
して出力するべく、出力バッファ17dにセットする
(ステップB29)。
【0045】上記まとめ上げ処理を行いながら、認識結
果として得られた文字列がすべて出力バッファ17dに
セットされると、その文字列が出力部18に出力され
て、ユーザに提示される。その際、上記まとめ上げバッ
ファ17cから出力バッファ17dにセットされたアル
ファベット文字列、つまり、上記まとめ上げ処理により
1つの単語としてまとめられたアルファベット文字列に
ついては、音声認識辞書16を参照して、同じ見出しの
単語(アルファベット単語)が音声認識辞書16に登録
されているか否かを判断する(ステップB30)。同じ
見出しの単語が音声認識辞書16にあれば(ステップB
31のYes)、辞書登録されている単語の表記に合わ
せて出力する(ステップB32)。一方、同じ見出しの
単語が音声認識辞書16になければ(ステップB31の
No)、まとめ上げ後の文字列として得られた単語の表
記のままで出力する(ステップB33)。
【0046】ここで、上記処理について具体例を挙げて
説明する。
【0047】今、ユーザが「あーるゆーぴーおーをつか
う」と発話し、音声認識処理により、「R/U/P/O
/を/使う」(“/”は認識結果の切れ目を示す)とい
ったような認識結果が得られたとする(ステップB1
1)。図6に文字種チェック前の認識結果を示す。上記
の例では、認識数mは6となる。
【0048】音声認識後、その認識結果として得られた
文字列が認識単位毎にアルファベットか否かがチェック
され、アルファベットの場合には、その認識結果に対し
てフラグ=1がセットされる(ステップB12〜B1
8)。図7に文字種チェック後の認識結果を示す。上記
「R/U/P/O/を/使う」といった認識結果では、
「R」,「U」,「P」,「O」にそれぞれフラグ=1
がセットされることになる。
【0049】次に、上記フラグ情報に基づいてアルファ
ベット文字列のまとめ上げ処理が行われる(ステップB
19〜B27)。このまとめ上げ処理では、認識結果と
して得られた文字列を再び認識単位毎にチェックしてい
き、フラグ=1がセットされている認識結果をまとめ上
げバッファ17cに順次格納していくことにより、アル
ファベットが連続した文字列をまとめ上げていく。図8
にまとめ上げ処理中のまとめ上げバッファ17cと認識
結果との関係を示す。上記「R/U/P/O/を/使
う」といった認識結果では、「R」,「U」,「P」,
「O」がまとめ上げバッファ17cに順にセットされる
ことになる。また、アルファベット以外の認識結果はそ
のまま出力バッファ17dに格納される。
【0050】このまとめ上げ処理により、まとめ上げバ
ッファ17cにセットされたアルファベット文字列は1
つの単語として出力バッファ17dに格納される(ステ
ップB28,B29)。図9にまとめ上げ処理後の認識
結果を示す。上記「R/U/P/O/を/使う」といっ
た認識結果では、まとめ上げ処理後により「RUP
O」,「を」,「使う」といったように区分されて出力
バッファ17dに格納されることになる。
【0051】次に、出力バッファ17dに格納された認
識結果を出力部18に出力するが、その際に、まとめ上
げ処理によって得られた単語(アルファベット文字列)
については、同じ見出しの単語が音声認識辞書16にあ
るか否かがチェックされる(ステップB30)。そし
て、同じ見出しの単語が音声認識辞書16にあれば、そ
の登録単語の表記に合わせて出力される(ステップB3
2)。一方、同じ見出しの単語が音声認識辞書16にな
ければ、まとめ上げ後の文字列として得られた単語の表
記のままで出力される(ステップB33)。図10に辞
書チェック後の認識結果を示す。例えば、「Rupo」
といった先頭文字が大文字の単語が音声認識辞書16に
登録されていれば、その辞書登録単語の表記に合わせた
出力がなされる。
【0052】このように、「あーるゆーぴーおーをつか
う」といったように、アルファベット単語を1文字ずつ
発話しても、「Rupo/を/使う」といったようにア
ルファベットが連続した部分を1つの単語として得るこ
とができる。したがって、認識後にアルファベット部分
を1つの単語としてまとめるような面倒な編集操作は必
要なくなる。さらに、まとめ上げ後の単語が辞書登録さ
れていれば、辞書に合わせた表記で当該単語を認識結果
として得ることができ、後に実際の表記に合わせて、当
該単語の大文字と小文字の組み合わせてを編集し直すと
いったような面倒な操作は不要となる。
【0053】次に、図4を参照して、上記図3のステッ
プB30以降で実行されるアルファベット単語に対する
認識結果出力処理についてさらに詳しく説明する。
【0054】図4はアルファベット単語に対する認識結
果出力処理を示すフローチャートである。なお、ここで
示される処理は上記図3のステップB31〜B33の処
理に相当する。
【0055】連続するアルファベットが1つの単語とし
てまとめ上げられた際に、その単語と同じスペルの(大
文字小文字の区別のないアルファベットが同じ)単語が
音声認識辞書16に登録されているか否かをチェックす
る(ステップC11)。登録されている場合には(ステ
ップC11のYes)、次にその単語の品詞が固有名詞
であるか否かをチェックする(ステップC12)。な
お、単語の品詞が固有名詞か否かは、音声認識辞書16
に登録されている当該単語の品詞データに基づいて判断
される。
【0056】固有名詞である場合には(ステップC12
のYes)、音声認識辞書16に登録されている単語の
表記の大文字、小文字の組み合わせと同じで、文字がす
べて全角、または、すべて半角の2種類の候補を作成す
る(ステップC13)。一方、音声認識辞書16に登録
されていない単語の場合(ステップC11のNo)また
は音声認識辞書16に登録されている単語であっても固
有名詞でない場合には(ステップC12のNo)、次の
6種類のパターンの候補を作成する(ステップC1
4)。
【0057】(1)すべて全角、すべて大文字の候補 (2)すべて全角、先頭1文字だけ大文字の候補 (3)すべて全角、すべて小文字の候補 (4)すべて半角、すべて大文字の候補 (5)すべて半角、先頭1文字だけ大文字の候補 (6)すべて半角、すべて小文字の候補 なお、固有名詞の単語について2種類の候補しか作成を
行わないのは、既に述べたように、固有名詞において
は、大文字、小文字を区別することが重要であり、大文
字、小文字の区別をなくした候補は固有名詞の意味がな
くなる場合があるという理由による。
【0058】このようにして、固有名詞として辞書登録
されている単語、固有名詞以外で辞書登録されている単
語、辞書登録されていない単語について、それぞれに適
した候補作成を行う。そして、その作成された候補の一
覧を出力部18に出力してユーザに提示する(ステップ
C15)。詳しくは、上記作成された候補を候補バッフ
ァ17eに格納しておき、その中の1つを出力バッファ
17dに格納して認識結果として出力した後、例えば候
補一覧キーが押下されたときに、候補バッファ17eに
格納された候補を一覧表示する。この一覧表示の中で所
望の候補が選択されたら、その選択候補を出力バッファ
17dに格納し、新たな認識結果として再生出力する。
【0059】図11は固有名詞以外の単語の候補作成例
を示す図である。
【0060】図11に示すように、例えば「LCD」と
いった単語が認識結果として得られた場合には、固有名
詞以外の単語として、以下のような6種類の候補が一覧
表示される。
【0061】「LCD」…(全角ですべて大文字) 「Lcd」…(全角で先頭1文字のみ大文字) 「lcd」…(全角ですべて大文字) 「LCD」 …(半角ですべて大文字) 「Lcd」 …(半角で先頭1文字のみ大文字) 「lcd」 …(半角ですべて小文字) 図12は固有名詞の単語の候補作成例を示す図である。
【0062】図12に示すように、例えば「Rupo」
といった単語が認識結果として得られた場合には、固有
名詞の単語として、以下のような2種類の候補が一覧表
示される。
【0063】「Rupo」…(辞書表記で全角) 「Rupo」 …(辞書表記で半角) 以上のような処理を行うことで、固有名詞単語に関して
は、正しい大文字、小文字の組み合わせの単語のみを候
補として出力され、固有名詞以外の単語に関しては、6
種類のパターンの単語が出力されることになるため、第
1候補が希望する候補でなかった場合も、自動的に生成
された候補の選択処理によって、希望する候補を得るこ
とができるようになる。
【0064】また、本装置が未登録語を辞書登録する機
能を備えている場合において、まとめ上げを行ったアル
ファベット単語が辞書未登録の単語であるとシステム内
で判断したときに、その辞書登録機能を自動的に起動
し、当該単語を辞書登録することが可能である。この場
合、未登録のアルファベット単語が入力される度に辞書
登録機能を起動するのではなく、これらの未登録語を保
持しておき、入力中は未登録のアルファベット単語があ
ることをユーザに提示して、例えばアプリケーション終
了時など音声入力が終了した後に、一括して辞書登録す
るような方法も考えられる。このような辞書登録機能を
使うことで、次回にその単語を入力する場合は、ユーザ
が登録した読みで入力できるようになる。以下に、具体
的な処理について説明する。
【0065】図5は本装置の辞書登録処理の動作を示す
フローチャートである。
【0066】認識結果として得られた文字列の中でアル
ファベットが連続する部分を1単語としてまとめ上げた
後、その単語が音声認識辞書16に登録されていないこ
とを確認すると、制御部14は所定のタイミングで以下
のような辞書登録処理を実行する。なお、所定のタイミ
ングとは、音声認識処理に影響を与えないタイミングで
あり、例えばユーザの発話が途切れたときなどである。
また、上述したようにアプリケーション終了時などに一
括して辞書登録することでも良い。
【0067】まず、登録対象となる単語(未登録のアル
ファベット単語)の出力結果(出力バッファ17d)か
ら読み、見出しのデータを取り出し(ステップD11,
D12)、また、品詞データについては予め設定された
デフォルトの品詞(例えば名詞)を用いて(ステップD
13)、図13に示すような単語登録画面21を表示す
る(ステップD14)。
【0068】ここで、単語登録画面にセットされている
読みデータや見出しデータを変更する必要があった場合
には、ユーザがキーボード入力部11を通じて、単語登
録画面内で直接変更したい読みや見出しを入力すること
で、その変更を行う(ステップD15,D16)。ま
た、品詞データを変更したい場合には、単語登録画面2
1に表示される品詞データのリストから最適なものを選
択することで、その変更を行う(ステップD17)。
【0069】このように、必要に応じて読みデータ、見
出しデータ、品詞データの変更を適宜行い、単語登録画
面21内のOKボタン25を押下(クリック)すると
(ステップD18のYes)、単語登録画面21に設定
された読みデータ、見出しデータ、品詞データが当該単
語の辞書データとして音声認識辞書16に登録される
(ステップD19)。
【0070】具体的に説明すると、認識結果として得ら
れたアルファベット単語が音声認識辞書16に未登録で
あった場合に、所定のタイミングで図13に示すような
単語登録画面21が表示される。この単語登録画面21
には、読み入力部22、見出し入力部23、品詞入力部
24、OKボタン25、キャンセルボタン26が設けら
れている。
【0071】読み入力部22は、登録対象となる単語の
読みデータを設定する部分である。見出し入力部23
は、登録対象となる単語の見出しデータを設定する部分
である。品詞入力部24は、登録対象となる単語の品詞
データを入力する部分である。この品詞入力部24には
品詞リストボタン24aが設けられており、この品詞リ
ストボタン24aの押下により図14(a)に示すよう
なシステム内で設定可能な品詞名のリストがウインドウ
表示される。また、OKボタン25は辞書登録を指示す
るためのボタン、キャンセルボタン26は辞書登録の取
り消しを指示するためのボタンである。
【0072】今、ユーザが「あーるゆーぴーおー」とい
った発話をして、上述したまとめ上げ処理により、「R
upo」といった単語が認識結果として出力されたとす
る。ここで、「Rupo」といった単語が音声認識辞書
16に登録されていない場合、あるいは、その単語が辞
書登録されていても、読みが例えば「るぽ」といったよ
うにユーザが発話した読みとは異なる読みで登録されて
いる場合には、未登録語として判定され、例えばユーザ
の発話が途切れたとき、あるいは、アプリケーション終
了時などに単語登録画面21が表示される。この場合、
初期表示では、当該単語の出力結果に従って、図13に
示すように、単語登録画面21の読み入力部22に「あ
ーるゆーぴーおー」、見出し入力部23に「Rupo」
が設定されている。また、品詞入力部24には、デフォ
ルトとして「名詞」が設定されている。
【0073】この単語登録画面21に初期表示されてい
る読みデータを変更する場合には、読み入力部22に直
接入力を行って変更する。見出しデータについても同様
であり、見出し入力部23に直接入力を行って変更す
る。また、品詞データを変更する場合には、品詞入力部
24に設けられた品詞リストボタン24aを押下(クリ
ック)して品詞リストを表示し、その中から所望の品詞
を選択することで変更を行う。システム内で設定可能な
品詞が図14(a)に示すような品詞番号表にある品詞
だけである場合には、その品詞番号表にある品詞が品詞
リストに表示されることになる。
【0074】OKボタン25を押下(クリック)する
と、そのときに単語登録画面21に設定されている読み
データ、見出しデータ、品詞データが当該単語の辞書デ
ータとして音声認識辞書16に登録される。この場合、
品詞データは、図14(a)の品詞番号表を使って数値
データに変換されて辞書登録される。この品詞番号表は
例えば音声認識辞書16内に設けられており、例えば
「名詞」であれば、品詞番号「1」で登録される。図1
4(b)に登録例を示す。この例は、辞書登録起動時に
単語登録画面21に最初にセットされていた読み(あー
るゆーぴーおー)、見出し(Rupo)、品詞(名詞)
のまま登録した場合である。
【0075】このようにして、未登録語を音声認識辞書
16に登録した後は、以後、同じ読みで音声入力した際
に、「Rupo」といった表記の単語を認識結果として
優先的に得ることができる。
【0076】なお、このような未登録語の自動登録機能
はアルファベット単語に限らず、平仮名や漢字からなる
単語についても同様に適用可能である。
【0077】要するに、本発明は前記実施形態に限定さ
れるものではなく、実施段階ではその要旨を逸脱しない
範囲で種々に変形することが可能である。更に、前記実
施形態には種々の段階の発明が含まれており、開示され
る複数の構成要件における適宜な組み合わせにより種々
の発明が抽出され得る。例えば、実施形態で示される全
構成要件から幾つかの構成要件が削除されても、「発明
が解決しようとする課題」で述べた効果が解決でき、
「発明の効果」の欄で述べられている効果が得られる場
合には、この構成要件が削除された構成が発明として抽
出され得る。
【0078】また、上述した実施形態において記載した
手法は、コンピュータに実行させることのできるプログ
ラムとして、例えば磁気ディスク(フロッピー(登録商
標)ディスク、ハードディスク等)、光ディスク(CD
−ROM、DVD等)、半導体メモリなどの記録媒体に
書き込んで各種装置に適用したり、通信媒体により伝送
して各種装置に適用することも可能である。本装置を実
現するコンピュータは、記録媒体に記録されたプログラ
ムを読み込み、このプログラムによって動作が制御され
ることにより、上述した処理を実行する。
【0079】
【発明の効果】以上詳記したように本発明によれば、入
力された音声データに対する認識結果の中にアルファベ
ット文字列が連続して存在する場合に、そのアルファベ
ット文字列を1つの単語としてまとめ上げ処理して出力
するようにしたため、辞書上の読みの分からないアルフ
ァベット単語や辞書登録されていないアルファベット単
語を1文字ずつ音声入力した場合でも、1つの単語とし
ての認識結果を正しく得ることができる。
【0080】さらに、上記まとめ上げ後の単語が当該単
語が上記辞書に登録されている場合に、当該単語を上記
辞書に登録されている単語の見出し表記に合わせて出力
することで、辞書登録されている単語については、その
辞書に合わせた表記で得ることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声入力処理装置の
構成を示すブロック図。
【図2】上記音声入力処理装置における音声入力処理の
動作を示すフローチャート。
【図3】上記音声入力処理装置におけるアルファベット
文字列のまとめ上げ処理を示すフローチャート。
【図4】上記音声入力処理装置におけるアルファベット
単語に対する認識結果出力処理を示すフローチャート。
【図5】上記音声入力処理装置における辞書登録処理の
動作を示すフローチャート。
【図6】文字種チェック前の認識結果を示す図。
【図7】文字種チェック後の認識結果を示す図。
【図8】まとめ上げ処理中のまとめ上げバッファと認識
結果との関係を示す図。
【図9】まとめ上げ処理後の認識結果を示す図。
【図10】辞書チェック後の認識結果を示す図。
【図11】固有名詞以外の単語の候補作成例を示す図。
【図12】固有名詞の単語の候補作成例を示す図。
【図13】辞書登録時に表示される単語登録画面を示す
図。
【図14】辞書登録を説明するための具体例を示す図で
あり、図14(a)は品詞番号例、同図(b)は登録デ
ータ例を示す図。
【図15】本発明のアルファベット単語に対する音声入
力処理を従来と比較して説明するための図であり、図1
5(a)は本発明の音声入力処理にて得られる認識結
果、同図(b)は従来の音声入力処理にて得られる認識
結果を示す図。
【符号の説明】
11…キーボード入力部 12…音声入力部 13…ポインティングデバイス部 14…制御部 15…音声認識処理部 16…音声認識辞書 17…データ記憶部 17a…認識結果バッファ 17b…認識数バッファ 17c…まとめ上げバッファ 17d…出力バッファ 17e…候補バッファ 18…出力部 21…単語登録画面 22…読み入力部 23…見出し入力部 24…品詞入力部 24a…品詞リストボタン 25…OKボタン 26…キャンセルボタン

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声データを入力する音声入力手段と、 各単語のデータが登録された辞書と、 上記音声入力手段によって入力された音声データを上記
    辞書を参照して音声認識する音声認識処理手段と、 この音声認識処理手段によって得られた認識結果の中に
    アルファベット文字列が連続して存在するか否かを判断
    するアルファベット判断手段と、 このアルファベット判断手段により、上記認識結果の中
    にアルファベット文字列が連続して存在すると判断され
    た場合に、そのアルファベット文字列を1つの単語とし
    てまとめ上げる処理を実行するまとめ上げ処理手段と、 このまとめ上げ処理手段によって得られた単語を上記ア
    ルファベット文字列に対応した認識結果として出力する
    出力制御手段とを具備したことを特徴とする音声入力処
    理装置。
  2. 【請求項2】 上記まとめ上げ処理手段によって得られ
    た単語が上記辞書に登録されているか否かを判断する辞
    書登録判断手段を備え、 上記出力制御手段は、上記辞書登録判断手段によって当
    該単語が上記辞書に登録されていると判断された場合
    に、当該単語を上記辞書に登録されている単語の見出し
    表記に合わせて出力することを特徴とする請求項1記載
    の音声入力処理装置。
  3. 【請求項3】 上記まとめ上げ処理手段によって得られ
    た単語が上記辞書に固有名詞として登録されているか否
    かを判断する辞書登録判断手段と、 この辞書登録判断手段によって当該単語が固有名詞とし
    て上記辞書に登録されていると判断された場合に上記辞
    書に登録されている単語の見出し表記に合わせて固有名
    詞用としての候補を作成する第1の候補作成手段と、 上記辞書登録判断手段によって当該単語が固有名詞とし
    て上記辞書に登録されていないと判断された場合または
    当該単語自体が上記辞書に登録されていないと判断され
    た場合に、固有名詞以外の通常単語用としての候補を作
    成する第2の候補作成手段とを備え、 上記出力制御手段は、上記第1の候補作成手段によって
    作成された固有名詞用の候補または上記第2の候補作成
    手段によって作成された固有名詞以外の通常単語用の候
    補を出力することを特徴とする請求項1記載の音声入力
    処理装置。
  4. 【請求項4】 上記第1の候補作成手段は、上記固有名
    詞用の候補として、上記辞書に登録されている単語の見
    出し表記に合わせた大文字と小文字の組み合わせで、当
    該単語を構成するアルファベット文字列をすべて全角に
    した候補とすべて半角にした候補を作成することを特徴
    とする請求項3記載の音声入力処理装置。
  5. 【請求項5】 上記第2の候補作成手段は、上記固有名
    詞以外の通常単語用の候補として、当該単語を構成する
    アルファベット文字列の大文字と小文字の組み合わせを
    変更し、それらの組み合わせ毎にすべて全角にした候補
    とすべてに半角にした候補を作成することを特徴とする
    請求項3記載の音声入力処理装置。
  6. 【請求項6】 上記まとめ上げ処理手段によって得られ
    た単語が上記辞書に登録されているか否かを判断する辞
    書登録判断手段と、 この辞書登録判断手段によって当該単語が上記辞書に登
    録されていないと判断された場合に、所定のタイミング
    で当該単語を上記辞書に登録するための辞書登録処理を
    実行する辞書登録手段とを具備したことを特徴とする請
    求項1記載の音声入力処理装置。
  7. 【請求項7】 音声データを各単語のデータが登録され
    た辞書を参照して音声認識し、その認識結果を出力する
    音声入力処理方法であって、 音声認識処理によって得られた認識結果の中にアルファ
    ベット文字列が連続して存在するか否かを判断し、 上記認識結果の中にアルファベット文字列が連続して存
    在する場合に、そのアルファベット文字列を1つの単語
    としてまとめ上げ、 このまとめ上げ後の単語を上記アルファベット文字列に
    対応した認識結果として出力することを特徴とする音声
    入力処理方法。
  8. 【請求項8】 音声データを各単語のデータが登録され
    た辞書を参照して音声認識し、その認識結果を出力する
    音声入力処理プログラムを記録した記録媒体であって、 コンピュータに、 音声認識処理によって得られた認識結果の中にアルファ
    ベット文字列が連続して存在するか否かを判断する処理
    と、 上記認識結果の中にアルファベット文字列が連続して存
    在する場合に、そのアルファベット文字列を1つの単語
    としてまとめ上げる処理と、 このまとめ上げ処理によって得られた単語を上記アルフ
    ァベット文字列に対応した認識結果として出力する処理
    とを実行させるプログラムを記録したコンピュータ読取
    り可能な記録媒体。
JP2000162091A 2000-05-31 2000-05-31 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体 Pending JP2001343995A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000162091A JP2001343995A (ja) 2000-05-31 2000-05-31 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000162091A JP2001343995A (ja) 2000-05-31 2000-05-31 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001343995A true JP2001343995A (ja) 2001-12-14

Family

ID=18666030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000162091A Pending JP2001343995A (ja) 2000-05-31 2000-05-31 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001343995A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6166831B1 (ja) * 2016-10-21 2017-07-19 犬養 俊輔 単語学習支援装置、単語学習支援プログラム、単語学習支援方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6166831B1 (ja) * 2016-10-21 2017-07-19 犬養 俊輔 単語学習支援装置、単語学習支援プログラム、単語学習支援方法
WO2018074023A1 (ja) * 2016-10-21 2018-04-26 犬養 俊輔 単語学習支援装置、単語学習支援プログラム、単語学習支援方法

Similar Documents

Publication Publication Date Title
US6510412B1 (en) Method and apparatus for information processing, and medium for provision of information
US6789231B1 (en) Method and system for providing alternatives for text derived from stochastic input sources
US6334102B1 (en) Method of adding vocabulary to a speech recognition system
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
JP2002117026A (ja) 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム
JPS6355085B2 (ja)
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US6253177B1 (en) Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
JP2010520531A (ja) 統合ピンイン及び画入力
JP3795692B2 (ja) 文字処理装置および方法
JP3104661B2 (ja) 日本語文章作成装置
US20070277118A1 (en) Providing suggestion lists for phonetic input
JP2008052676A (ja) コンピュータ実行可能なプログラム、方法、および処理装置
JP2001343995A (ja) 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体
JP4005925B2 (ja) 文書処理方法および文書処理装置およびプログラム
JP2001306293A (ja) 情報入力方法、情報入力装置及び記憶媒体
JP2002156996A (ja) 音声認識装置、認識結果修正方法及び記録媒体
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JP2001014304A (ja) 文書作成装置、変換処理方法及び変換処理プログラムを記録した記録媒体
JP3734101B2 (ja) ハイパーメディア構築支援装置
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
WO2021205832A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2004046388A (ja) 情報処理システムおよび文字修正方法
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム
JP3331307B2 (ja) 文書作成装置、文字入力処理方法及び文字入力処理プログラムを記録した記録媒体