JP4089861B2 - Voice recognition text input device - Google Patents

Voice recognition text input device Download PDF

Info

Publication number
JP4089861B2
JP4089861B2 JP2001023736A JP2001023736A JP4089861B2 JP 4089861 B2 JP4089861 B2 JP 4089861B2 JP 2001023736 A JP2001023736 A JP 2001023736A JP 2001023736 A JP2001023736 A JP 2001023736A JP 4089861 B2 JP4089861 B2 JP 4089861B2
Authority
JP
Japan
Prior art keywords
user
language model
text
word
input device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001023736A
Other languages
Japanese (ja)
Other versions
JP2002229585A (en
Inventor
芳春 阿部
裕三 丸田
啓恭 伍井
忍 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001023736A priority Critical patent/JP4089861B2/en
Publication of JP2002229585A publication Critical patent/JP2002229585A/en
Application granted granted Critical
Publication of JP4089861B2 publication Critical patent/JP4089861B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To solve the problem that it was difficult before to recognize a technical sentence including special terms and phrasings. SOLUTION: This device is equipped with a language model 3, a language model 3b which has a vocabulary characteristic of a user, a speech input means 2 which inputs speech, a speech character converting means 4 which converts the speech into characters by computing the likelihood of a word sequence by referring to the language model and user language model, a text buffer 5 which temporarily stores the word sequence of the output characters of the speech character converting means, a display means 6 which displays the characters temporarily stored in the text buffer, a correcting means 8 which generates a user text by correcting the characters displayed by the display means, and a user language model learning means 10 which analyzes the user text and adds the vocabulary characteristic of the user to the user language model to update it. Consequently, the vocabulary and expression characteristic of the user can be added to the user language model and recognition performance can be improved corresponding a speaking variation characteristic of the user.

Description

【0001】
【発明の属する技術分野】
この発明は、音声を認識して文章を入力する業務自動適応機能を有する音声認識文章入力装置に関するものである。
【0002】
【従来の技術】
利便性や特別な訓練が不要であることなどから、音声入力による文書作成への期待は極めて高く、音声認識による日本語の文章入力ソフトウェアが各社から市販され注目を浴びている。
【0003】
従来の音声認識文章入力装置について図面を参照しながら説明する。図23は、上記のソフトウェアをコンピュータで動作させることで実現される従来の音声認識文章入力装置の一般的なブロック構成を示す図である。
【0004】
図23において、1は音声、2は入力の音声1を取り込む音声入力手段、3は例えば単語のNグラムからなる言語モデル、4は言語モデル3を参照して音声入力手段2が取得した入力音声1を単語の列に変換する音声文字変換手段、5は音声文字変換手段4の出力単語列を一時記憶するテキストバッファ、6はテキストバッファ5に記憶された文字を表示する表示手段、8はユーザ操作7によってテキストバッファ5中の文字を修正する修正手段、9はテキストバッファ5から抽出されるユーザが作成したユーザテキストである。なお、言語モデル3としては、単語連鎖の統計量に基づくNgram(例えばN=3)が用いられる。
【0005】
つぎに、従来の音声認識文章入力装置の動作について図面を参照しながら説明する。
【0006】
上記の構成において、ユーザの音声1は、音声文字変換手段4によって言語モデル3に記憶された単語連鎖の情報に従って単語列に変換され、テキストバッファ5に一時記憶されると同時に、表示手段6によってユーザに表示される。
【0007】
ユーザは、表示手段6の表示に基づいてテキストバッファ5に一時記憶されたテキスト中の認識誤りを修正して、最終的に所望のユーザテキスト9を得ることが可能である。
【0008】
しかし、このような従来の音声認識文章入力装置では、言語モデル3を新聞やWEBなどの大量の一般文例から作成しているため、特殊な用語や言い回しを含む専門文章の認識は困難である。また、単に、専門用語を登録するだけでは認識性能が不十分である。この課題点に関しては、特開2000−250584号公報にも述べられている。
【0009】
これに対して、専門業務で蓄積された文例から、専門業務分野に対応した言語モデルを作成する方法も考えられるが、一般に専門業務ごとの文章蓄積が少なく(高々1万文程度)、有効な言語モデルの作成は困難とされている。例えば、言語モデルとして単語のNグラムを用いる場合、N=3のとき、100万〜1000万以上の例文が必要と言われている。
【0010】
このため、特開平10−198395号公報に開示された音声認識装置では、予め特定業務(タスク)のデータを複数の業務から用意して、これらを事前知識として用いて、文章入力の対象の業務に適応した言語モデルを生成している。
【0011】
しかし、この方法を、例えば極めて専門性の高い業務(例えば、医療の特定診療科目)に適応する場合、事前に用意する学習用の特定業務のテキストデータは、適用対象の業務の専門用語や業務特有の表現(単語連鎖)が含まれていないことが多く、これら学習用テキストデータには、事前知識としての価値がほとんどないという課題がある。
【0012】
一方、従来から認識対象の文章を単語のネットワークで表現した言語モデルを用いる構文駆動の音声認識の方法が知られているが、この場合、極めて専門性の高い分野を扱う場合には、少量の文例から、多大の労力と時間をかけて語彙・文法を作る必要があるという課題がある。
【0013】
また、このように、対象業務の少量文章から作られた言語モデルでは、なお、文例に含まれないような表現、個人ごとの表現のゆらぎに対して認識性能の劣化が著しいという課題は解消されていない。
【0014】
以上のようなことから、専門業務用ディクテーションソフトウェアの実用化は、進んでいないのが実情であった。
【0015】
【発明が解決しようとする課題】
上述したような従来の音声認識文章入力装置では、言語モデルを新聞やWEBなどの大量の一般文例から作成しているため、特殊な用語や言い回しを含む専門文章の認識は困難であるという問題点があった。
【0016】
この発明は、前述した問題点を解決するためになされたもので、特定対象業務に適応し、しかも発話バリエーションに対して許容度が高い言語モデルを効果的に生成し、さらにシステム使用中に発生する未知の表現などに対する発話の自由度を改善した専門家向けの高い認識性能と十分な信頼性を持ち、多種業務への適応性に優れた音声認識文章入力装置を得ることを目的とする。
【0017】
【課題を解決するための手段】
この発明の請求項1に係る音声認識文章入力装置は、単語のNグラムからなる言語モデルと、ユーザ固有の語彙を有し単語のNグラムからなり、ユーザ操作によって作成されるユーザテキストからユーザ固有の語彙、表現を追加することができるユーザ言語モデルと、音声を入力する音声入力手段と、音素環境依存の音素HMMからなる音響モデル、前記言語モデル及び前記ユーザ言語モデルを参照して、音声認識処理によって、単語列の尤度を前記それぞれの言語モデルで計算して大きいほうの尤度に基づいて、入力音声を尤度が最大の単語列に変換する音声文字変換手段と、前記音声文字変換手段により変換された単語列を一時記憶するテキストバッファと、前記テキストバッファに一時記憶された文字を表示する表示手段と、前記表示手段に表示された文字をユーザ操作によって必要に応じて修正してユーザテキストを作成する修正手段と、対象業務に特化した辞書であるテキスト解析専用の解析用辞書を有し、前記解析用辞書を参照して前記ユーザテキストを解析し、前記ユーザテキストを構成する単語に分割し、分割された単語の列から、連続するN単語(Nは整数)の組をもれなく抽出し、抽出したN単語の組を集計してN単語の組毎の出現回数をカウントし、N単語の組の出現回数を前記ユーザ言語モデルに追加してユーザ固有の語彙、ユーザ固有の表現を学習するユーザ言語モデル学習手段とを備えたものである。
【0018】
この発明の請求項2に係る音声認識文章入力装置は、ユーザ操作に呼応して学習開始の通知を発生する学習開始通知手段と、前記学習開始通知手段からの学習開始の通知を受けてから前記ユーザ言語モデル学習手段を起動する制御手段とをさらに備えたものである。
【0019】
この発明の請求項3に係る音声認識文章入力装置は、前記修正手段により文字が修正されたことを検知する検知手段と、前記検知手段により前記文字修正が検知された後、前記ユーザ言語モデル学習手段を起動する制御手段とをさらに備えたものである。
【0020】
この発明の請求項4に係る音声認識文章入力装置は、前記言語モデルを、対象業務の文例から学習した対象業務言語モデルとしたものである。
【0021】
この発明の請求項5に係る音声認識文章入力装置は、一般文例から学習した背景言語モデルをさらに備えたものである。
【0022】
この発明の請求項6に係る音声認識文章入力装置は、前記対象業務言語モデルの学習に用いるための文例を記憶する文例記憶手段と、前記ユーザテキストに基いて文例を前記文例記憶手段に追加する文例追加手段と、前記文例記憶手段に記憶された文例を用いて前記対象業務言語モデルを作成する言語モデル学習手段とをさらに備えたものである。
【0023】
この発明の請求項7に係る音声認識文章入力装置は、前記対象業務言語モデルの学習に用いるための解析済文例を記憶する解析済文例記憶手段と、前記ユーザテキストを解析して解析結果を出力する文章解析手段と、前記文章解析手段により解析された解析済文例を前記解析済文例記憶手段に追加記憶する解析済文例追加手段と、前記解析済文例記憶手段に記憶された解析済文例を用いて前記対象業務言語モデルを作成する言語モデル学習手段とをさらに備え、前記ユーザ言語モデル学習手段は、前記文章解析手段からの解析済文例を用いて前記ユーザ言語モデルを作成するものである。
【0024】
この発明の請求項8に係る音声認識文章入力装置は、前記ユーザテキスト中に未知語が存在する場合、ユーザ発話の音節認識結果を発音として前記未知語とともに前記文章解析手段に受け渡す未知語抽出手段をさらに備えたものである。
【0025】
この発明の請求項9に係る音声認識文章入力装置は、前記音声文字変換手段が、前記言語モデルの単語をクラスに分類し、クラスの並び方の特徴から文例にない単語の並び方の確率を推定する言語確率推定手段と、前記言語確率推定手段により推定された確率を用いて単語ラティスを作成する予備探索手段と、前記言語確率推定手段により推定された確率を用いて前記単語ラティスから単語列を探索する単語列探索手段とを有するものである。
【0026】
この発明の請求項10に係る音声認識文章入力装置は、前記音声文字変換手段が、前記言語モデルの単語をクラスに分類し、クラスの並び方の特徴から文例にない単語の並び方の確率を推定する言語確率推定手段と、基本記号列の認識誤り傾向を記憶した差分モデルと、前記言語モデルを参照することなく基本記号列を認識する基本記号列認識手段と、前記認識された基本記号列から前記差分モデル及び前記言語確率推定手段を介して前記言語モデル用いて単語列の探索を行う単語列探索手段とを有するものである。
【0027】
この発明の請求項11に係る音声認識文章入力装置は、音声を入力する音声入力手段、音声から文字へ変換された単語列を一時記憶するテキストバッファ、前記テキストバッファに一時記憶された文字を表示する表示手段、及び前記表示手段に表示された文字をユーザ操作によって必要に応じて修正してユーザテキストを作成する修正手段を有するクライアントコンピュータと、前記クライアントコンピュータにネットワークを通じて接続され、単語のNグラムからなる言語モデル、ユーザ固有の語彙を有し単語のNグラムからなり、ユーザ操作によって作成されるユーザテキストからユーザ固有の語彙、表現を追加することができるユーザ言語モデル、音素環境依存の音素HMMからなる音響モデル、前記言語モデル及び前記ユーザ言語モデルを参照して、音声認識処理によって、単語列の尤度を前記それぞれの言語モデルで計算して大きいほうの尤度に基づいて、入力音声を尤度が最大の単語列に変換する音声文字変換手段、及び対象業務に特化した辞書であるテキスト解析専用の解析用辞書を有し、前記解析用辞書を参照して前記ユーザテキストを解析し、前記ユーザテキストを構成する単語に分割し、分割された単語の列から、連続するN単語(Nは整数)の組をもれなく抽出し、抽出したN単語の組を集計してN単語の組毎の出現回数をカウントし、N単語の組の出現回数を前記ユーザ言語モデルに追加してユーザ固有の語彙、ユーザ固有の表現を学習するユーザ言語モデル学習手段を有するホストコンピュータとを備えたものである。
【0028】
【発明の実施の形態】
実施の形態1.
この発明の実施の形態1に係る音声認識文章入力装置について図面を参照しながら説明する。図1は、この発明の実施の形態1に係る音声認識文章入力装置の構成を示す図である。なお、各図中、同一符号は同一又は相当部分を示す。
【0029】
図1において、2はユーザの発話した音声1を取り込む音声入力手段、3は言語モデル、3bはユーザ言語モデル、4は言語モデル3とユーザ言語モデル3bとを参照して音声入力手段2が取得した入力音声1を単語の列に変換する音声文字変換手段、5は音声文字変換手段4の出力単語列を一時記憶するテキストバッファ、6はテキストバッファ5に記憶された文字を表示する表示手段、8はユーザ操作7によってテキストバッファ5中の文字を修正する修正手段、9はテキストバッファ5から抽出されるユーザが作成したユーザテキスト、10はユーザテキスト9を解析してユーザ言語モデル3bを作成するユーザ言語モデル学習手段である。
【0030】
つぎに、この実施の形態1に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図2は、この発明の実施の形態1に係る音声認識文章入力装置のユーザ言語モデル学習手段の動作を示すフローチャートである。
【0031】
音声入力手段2は、ユーザの発話した音声1を取り込む。次に、音声文字変換手段4は、音素環境依存の音素HMMからなる音響モデル、並びに言語モデル3及び3bを参照して、公知の音声認識処理によって、入力音声を尤度が最大の単語列に変換する。
【0032】
ここで、単語列の尤度は、単語列と入力音声との照合尤度(音響尤度)、および、言語モデル3およびユーザ言語モデル3bに基づく単語列の尤度(言語尤度)の積(対数領域では和)として計算される。
【0033】
音響尤度は、単語列の発音記号に従って音素環境依存音素HMMを並べた音響モデルに対して音声1の特徴ベクトルを入力したときの尤度として計算される。言語モデル3およびユーザ言語モデル3bは、それぞれ、単語のNグラムからなる。
【0034】
言語尤度は、単語列の尤度をそれぞれの言語モデルで計算し大きい方の尤度を用いる。
【0035】
音声文字変換手段4による音声1から単語列への変換結果は、テキストバッファ5に記憶される。表示手段6は、テキストバッファ5中の文字をコンピュータのディスプレイ上に表示する。
【0036】
修正手段8は、コンピュータのディスプレイ上に表示された文字入力位置を示すカーソル表示位置に、キーボード入力やマウスなどからなるユーザ操作7によって、文字の挿入置換削除などの処理を行い、テキストバッファ5中の文字を必要に応じて修正する。なお、ユーザの発話の文字変換結果自身もキーボード等の文字列と同等にカーソル表示位置に挿入や置換が可能なように構成されている。
【0037】
ユーザは、入力音声1やユーザ操作7を組み合わせて、目的の文書を作成した結果をユーザテキスト9としてコンピュータ上のファイルに記憶する。ユーザテキスト9がファイルに記憶されると同時に、ユーザテキスト9はユーザ言語モデル学習手段10に送られる。
【0038】
このユーザ言語モデル学習手段10は、テキスト解析専用の解析用の辞書を備え、この辞書を参照して、ユーザテキスト9を単語(形態素と呼ぶ)の列に分解し、さらに、単語の連鎖の頻度を計数することにより、単語のNグラムを求め、ユーザ言語モデル3bとして出力する。
【0039】
つまり、ステップ101において、ユーザ言語モデル学習手段10は、ユーザテキスト9をファイルから取得する。
【0040】
次に、ステップ102において、取得したユーザテキスト9を解析して、ユーザテキスト9を構成する単語(形態素とも呼ばれる)に分割する。この処理は、公知の形態素解析技術を用いて行う。なお、形態素解析に用いる辞書は、対象業務に特化した辞書であり、対象業務で現れる専門用語が登録されている。
【0041】
次に、ステップ103において、分割された単語の列Wl、W2、W3、・・・から、連続するN単語(Nは例えば3)の組をもれなく抽出する。このように抽出されたN単語の組を集計し、N単語の組毎の出現回数をカウントする。
【0042】
そして、ステップ104において、N単語の組の出現回数からなるユーザ言語モデル3bを出力する。
【0043】
以上のように、ユーザテキスト9からユーザ言語モデル3bを作成し、以後作成されたユーザ言語モデル3bを参照して音声文字変換するようにしているので、ユーザ固有の語彙や表現をユーザ言語モデル3bに追加することができ、ユーザ固有の発話バリエーションに対応して認識性能の高い音声認識文章入力装置を提供できる。
【0044】
すなわち、この実施の形態1に係る音声認識文章入力装置は、1人以上のユーザが音声を入力して文章を作成する音声認識文章入力装置において、2つ以上のそれぞれ独立した言語モデル3、3aと、前記2つ以上のそれぞれの独立した言語モデル3、3aのいずれも参照して単語列の尤度を計算して前記音声を文字に変換する音声文字変換手段4と、前記変換された文字を表示する表示手段6と、前記表示された文字を前記ユーザが修正する修正手段8と、前記ユーザによって修正された文字から前記2以上の言語モデルのうちの少なくとも1つの言語モデルを更新するユーザ言語モデル学習手段10とを備えるものである。
【0045】
実施の形態2.
この発明の実施の形態2に係る音声認識文章入力装置について図面を参照しながら説明する。図3は、この発明の実施の形態2に係る音声認識文章入力装置の構成を示す図である。
【0046】
上記の実施の形態1では、ユーザテキスト9をファイルに出力した後で、ユーザテキスト9を用いてユーザ言語モデル3bを作成するようにしたものであるが、この実施の形態2では、ユーザテキスト9の作成途中で随時学習を可能とするものである。
【0047】
図3において、7aはユーザ操作、8aはユーザ操作7aに呼応して学習開始の通知を発生する学習開始通知手段、11は学習開始通知手段8aが発生する学習開始の通知に基づいてユーザ言語モデル学習手段10による処理を開始させるようにプログラムされた制御手段である。また、ユーザ言語モデル学習手段10は、学習開始通知手段8aが発生する学習開始の通知を入力するように変更されている。なお、他の構成は、上記実施の形態1と同様である。
【0048】
つぎに、この実施の形態2に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図4は、この発明の実施の形態2に係る音声認識文章入力装置の表示手段による表示例を示す図である。また、図5は、この発明の実施の形態2に係る音声認識文章入力装置の学習開始通知手段、制御手段、及びユーザ言語モデル学習手段の動作を示すフローチャートである。
【0049】
ユーザの発話した音声1から音声文字変換手段4によって変換された文字は、テキストバッファ5に一時記憶される。この一時記憶された文字は、図4に示すように、表示手段6によってコンピュータディスプレイ上に表示された編集用の枠内に表示される。
【0050】
次に、修正手段8は、ユーザ操作7を入力して、編集用の枠内に表示されたテキストに対して挿入・削除・置換などの編集を行ない、ユーザテキスト9を作成する。
【0051】
ユーザ操作7aは、図4に示すように、表示手段6の編集用の枠に近接して表示されている学習ボタンが押下されることに対応して信号を発生する。学習開始通知手段8aは、ユーザ操作7aの発生した信号から、学習開始の通知を発生し、制御手段11は、ユーザ言語モデル学習手段10のユーザテキスト9を用いる学習を開始させる。
【0052】
つまり、ステップ201において、学習開始通知手段8aは、学習ボタンが押されたことを検知する。
【0053】
次に、ステップ202において、学習開始通知を発生する。
【0054】
次に、ステップ203において、学習開始通知に基き制御手段11により起動されたユーザ言語モデル学習手段10は、一時記憶からユーザテキスト9を取得する。
【0055】
次に、ステップ204において、取得したユーザテキストを解析して、ユーザテキスト9を構成する単語(形態素とも呼ぱれる)に分割する。この処理は、公知の形態素解析技術を用いて行う。なお、形態素解析に用いる辞書は、対象業務に特化した辞書であり、対象業務で現れる専門用語が登録されている。
【0056】
次に、ステップ205において、分割された単語の列W1、W2、W3・・・から、連続するN単語(Nは例えば3)の組をもれなく抽出する。このように抽出されたN単語の組を集計し、N単語の組毎の出現回数をカウントする。
【0057】
そして、ステップ206において、N単語の組の出現回数からなるユーザ言語モデル3bを出力する。
【0058】
以上のように、ユーザがテキストの途中で随時学習するようにしているので、学習以後はテキストを高精度で入力することができる。
【0059】
すなわち、この実施の形態2に係る音声認識文章入力装置は、修正手段8に、ユーザによって文字の修正が終了し学習開始を指示する学習開始通知手段8aを併設し、この学習開始通知手段8aの通知を受けてからユーザ言語モデル学習手段10を起動させる制御手段11とを備えたものである。
【0060】
実施の形態3.
この発明の実施の形態3に係る音声認識文章入力装置について図面を参照しながら説明する。図6は、この発明の実施の形態3に係る音声認識文章入力装置の構成を示す図である。
【0061】
上記の実施の形態2では、学習のためユーザ操作7aに基づいてユーザ言語モデル3bの学習を行う場合を示したが、この実施の形態3では、学習のための明示的なユーザ操作7aを不要とするものである。
【0062】
図6において、8bは修正手段8に接続され、ユーザのテキスト修正を検知する検知手段である。また、11は検知手段8bによるテキスト修正検知に基づいてユーザ言語モデル学習手段10によるユーザ言語モデル3bの学習処理を開始させるようにプログラムされた制御手段である。さらに、ユーザ言語モデル学習手段10は、検知手段8bが発生する学習開始の通知を入力するように変更されている。
【0063】
つぎに、この実施の形態3に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図7は、この発明の実施の形態3に係る音声認識文章入力装置の検知手段、制御手段、及びユーザ言語モデル学習手段の動作を示すフローチャートである。
【0064】
検知手段8bは、ユーザによる次の発話がなされ、音声入力手段2が音声の開始端を検知したら直ぐに修正検知信号を発生して制御手段11に通知する。制御手段11は、ユーザ言語モデル学習手段10を起動し、直ちにユーザ言語モデル3bを作成し、変更されたユーザ言語モデル3bを参照した音声文字変換手段4は、この入力音声の認識結果をテキストバッファ5に一時記憶する。
【0065】
なお、修正検知の方法としては、次の発話をもって検知するものでなくても、例えば、最後にユーザによるテキストバッファ5中の文字の修正がなされてから一定時間が経過したことによって検知してもよい。
【0066】
つまり、ステップ301において、検知手段8bは、ユーザの次の発話がなされたことを検知する。
【0067】
次に、ステップ302において、学習開始通知を発生する。
【0068】
次に、ステップ303において、学習開始通知に基き制御手段11により起動されたユーザ言語モデル学習手段10は、前の発話のユーザテキスト9を一時記憶から取得する。
【0069】
次に、ステップ304において、取得したユーザテキスト9を解析して、ユーザテキスト9を構成する単語(形態素とも呼ばれる)に分割する。この処理は、公知の形態素解析技術を用いて行う。なお、形態素解析に用いる辞書は、対象業務に特化した辞書であり、対象業務で現れる専門用語が登録されている。
【0070】
次に、ステップ305において、分割された単語の列Wl、W2、W3・・・から、連続するN単語(Nは例えば3)の組をもれなく抽出する。このように抽出されたN単語の組を集計し、N単語の組毎の出現回数をカウントする。
【0071】
そして、ステップ306において、N単語の組の出現回数からなるユーザ言語モデル3bを出力する。
【0072】
以上のように、文字修正を装置が検知するようにしているので、ユーザの学習ボタンの操作を不要とすることができる。
【0073】
すなわち、この実施の形態3に係る音声認識文章入力装置は、修正手段8に、文字がユーザによって修正されたことを検知する検知手段8bを併設し、前記文字修正が検知された後、ユーザ言語モデル学習手段10を起動させる制御手段11とを備えたものである。
【0074】
実施の形態4.
この発明の実施の形態4に係る音声認識文章入力装置について図面を参照しながら説明する。図8は、この発明の実施の形態4に係る音声認識文章入力装置の構成を示す図である。
【0075】
この実施の形態4では、上記の実施形態1〜3において、言語モデル3の代わりに、適用対象の業務文例から学習した対象業務言語モデル3aを用いるようにしたものである。
【0076】
図8において、3aは対象業務言語モデルである。
【0077】
つぎに、この実施の形態4に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図9は、この発明の実施の形態4に係る音声認識文章入力装置の言語モデル学習手段の動作を示すフローチャートである。
【0078】
対象業務言語モデル3aは、対象業務の蓄積文例から学習されている。従って、対象業務言語モデル3aの単語連鎖の情報を参照するため音声文字変換手段4によって、蓄積文例に類似した単語連鎖を認識することができる。
【0079】
つまり、ステップ401において、対象業務の文例を事前に人手で収集する。これらの文例は、電子化されファイルに蓄積されているものとする。
【0080】
次に、ステップ402において、図示していない言語モデル学習手段は、電子化されファイルに蓄積された文例テキストを解析して、文例テキストを構成する単語(形態素とも呼ばれる)に分割する。この処理は、公知の形態素解析技術を用いて行う。
【0081】
次に、ステップ403において、分割された単語の列Wl、W2、W3・・・から、連続するN単語(Nは例えば3)の組をもれなく抽出する。このように抽出されたN単語の組を集計し、N単語の組毎の出現回数をカウントする。
【0082】
そして、ステップ404において、N単語の組の出現回数からなる対象業務言語モデル3aを出力する
【0083】
以上のように、対象業務の蓄積文例から学習された対象業務言語モデル3aを備えるようにしているので、対象業務の文例を認識することができる。
【0084】
すなわち、この実施の形態4に係る音声認識文章入力装置は、2つ以上の言語モデルのうちの少なくとも1つの言語モデルは、対象業務の文例から学習した対象業務言語モデル3aからなるものを有する。
【0085】
実施の形態5.
この発明の実施の形態5に係る音声認識文章入力装置について図面を参照しながら説明する。図10は、この発明の実施の形態5に係る音声認識文章入力装置の構成を示す図である。
【0086】
上記の実施の形態4では、専門業務文に現れる確率の高い文例を主に音声入力するようにしたものであるが、この実施の形態5では、専門業務文の作成中にどうしても現れる一般文に対しても認識率が低下しないような場合でも認識率が低下しないようにするものである。
【0087】
図10において、3aは対象業務言語モデル、3bはユーザ言語モデル、3cは一般文例から学習した背景言語モデルである。この背景言語モデル3cは、図示しない言語モデル学習手段により作成される。
【0088】
つぎに、この実施の形態5に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図11は、この発明の実施の形態5に係る音声認識文章入力装置の音声文字変換手段の動作を示すフローチャートである。
【0089】
ユーザの音声1が、例えば、「熱性痙攣と判断抗痙攣剤6mg投入」のような業務内発話である場合は、音声文字変換手段4は、対象業務言語モデル3aの言語尤度が高いため、「熱性痙攣と判断抗痙攣剤6mg投入」という認識結果を出力する。
【0090】
また、入力音声1が、例えば、「お弁当の最中に幼稚園で倒れたらしい。」のような業務外発話である場合でも、「お弁当の最中に幼稚園で倒れたらしい。」という認識結果を出力する。
【0091】
つまり、ステップ501において、音声文字変換手段4は、ユーザ音声1を入力する。
【0092】
次に、ステップ502において、ユーザ音声1に対して、対象業務言語モデル3aを用いてテキスト変換を行い尤度1を計算する。
【0093】
次に、ステップ503において、ユーザ音声1に対して、ユーザ言語モデル3bを用いてテキスト変換を行い尤度2を計算する。
【0094】
次に、ステップ504において、ユーザ音声1に対して、背景言語モデル3cを用いてテキスト変換を行い尤度3を計算する。
【0095】
そして、ステップ505において、尤度1、尤度2、尤度3とを比較して最大の尤度を与えるテキスト変換結果を、テキスト変換結果としてテキストバッファ5に出力する。
【0096】
以上のように、一般の文例から学習した背景言語モデル3cを用いるようにしているので、業務外の文章入力において認識誤りを削減することができる。
【0097】
すなわち、この実施の形態5に係る音声認識文章入力装置は、2以上の言語モデルは、少なくとも3以上の言語モデル3a〜3cからなるとともに、そのうち、少なくとも1つの言語モデルは、対象業務の文例から学習し、さらに、少なくとも1つの言語モデルは、対象業務以外の文例から学習した言語モデル3cを用いるものである。
【0098】
実施の形態6.
この発明の実施の形態6に係る音声認識文章入力装置について図面を参照しながら説明する。図12は、この発明の実施の形態6に係る音声認識文章入力装置の構成を示す図である。
【0099】
上記の実施び形態5では、対象業務言語モデル3aは事前に学習されたものであるが、この実施の形態6では、対象業務言語モデル3aを更新するものである。
【0100】
図12において、12はユーザテキスト9に接続された文例追加手段、13は文例追加手段12により追加記憶可能な文例記憶手段、14は文例記憶手段13に記憶された文例から対象業務言語モデル3aを作成する言語モデル学習手段である。
【0101】
つぎに、この実施の形態6に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図13は、この発明の実施の形態6に係る音声認識文章入力装置の文例追加手段及び言語モデル学習手段の動作を示すフローチャートである。
【0102】
まず、ステップ601において、音声文字変換手段4によって、ユーザの音声1がテキスト(文字)に変換され、テキストバッファ5に一時記憶されたあと、ユーザがユーザ操作により編集した結果として、ユーザテキスト9が作成される。
【0103】
次に、ステップ602において、文例追加手段12は、ユーザテキスト9を文例記憶手段13に追加する。
【0104】
そして、ステップ603において、言語モデル学習手段14は、文例記憶手段13に記憶された文例を用いて、対象業務言語モデル3aを作成する。なお、この対象業務言語モデル3aは、複数のユーザの文例を対象とする。一方、ユーザ言語モデル3bは、ユーザ毎に作成する。
【0105】
以上のように、文例追加手段12によりユーザテキスト9を文例記憶して対象業務言語モデル3aを学習するようにしているので、比較的長期間に渡るユーザの語彙や文法の使用傾向を加味してユーザの音声を認識することができる。
【0106】
すなわち、この実施の形態6に係る音声認識文章入力装置は、対象業務言語モデル3aの学習に用いるための文例を記憶する文例記憶手段13と、ユーザの入力した文章を前記文例記憶手段13に記憶された文例として追加する文例追加手段12と、前記文例記憶手段13に記憶された文例から前記対象業務の言語モデル3aを学習する言語モデル学習手段14とを備えたものである。
【0107】
実施の形態7.
この発明の実施の形態7に係る音声認識文章入力装置について図面を参照しながら説明する。図14は、この発明の実施の形態7に係る音声認識文章入力装置の構成を示す図である。
【0108】
上記の実施の形態6では、ユーザテキスト9を文例記憶手段13に記憶するようにしたものであるが、この実施の形態7では、ユーザテキスト9を解析(単語分割)してから記憶するものである。
【0109】
図14において、12aはユーザテキスト9を解析して解析結果を出力する文章解析手段、13aは解析済文例記憶手段、12bは文章解析手段12aの出力する解析結果を解析済文例記憶手段13aに追加記憶する解析済文例追加手段、14は解析済文例記憶手段13aの解析済文例を用いて対象業務言語モデル3aを作成する言語モデル学習手段である。
【0110】
つぎに、この実施の形態7に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図15は、この発明の実施の形態7に係る音声認識文章入力装置の文章解析手段、解析済文例追加手段及び言語モデル学習手段の動作を示すフローチャートである。
【0111】
まず、ステップ701において、音声文字変換手段4によって、ユーザの音声1がテキスト(文字)に変換され、テキストバッファ5に一時記憶されたあと、ユーザがユーザ操作により編集した結果として、ユーザテキスト9が作成される。
【0112】
次に、ステップ702において、文章解析手段12aは、ユーザテキスト9を形態素解析(単語分割)する。
【0113】
次に、ステップ703において、解析済文例追加手段12bは、解析された文例を解析済文例記憶手段13aに追加する。
【0114】
そして、ステップ704において、言語モデル学習手段14は、解析済文例記憶手段13aに記憶された解析済文例を用いて、対象業務言語モデル3aを作成する。
【0115】
以上のように、ユーザテキスト9の文章解析を行ってその結果をユーザ言語モデル3bの作成に用いると共に、解析済文例記憶手段13aに追加記憶するようにしているので、ユーザテキスト9の解析に要する演算量を1回で済ますことができる。
【0116】
すなわち、この実施の形態7に係る音声認識文章入力装置は、解析済文例記憶手段13aに記憶する文例は、解析済の文例としたものである。
【0117】
実施の形態8.
この発明の実施の形態8に係る音声認識文章入力装置について図面を参照しながら説明する。図16は、この発明の実施の形態8に係る音声認識文章入力装置の構成を示す図である。
【0118】
上記の実施の形態7では、ユーザのテキストに未知語は含まれなかったものであるが、この実施の形態8では、ユーザのテキストに未知語が含まれる場合に対応するものである。
【0119】
図16において、15はユーザテキスト9から未知語を抽出する未知語抽出手段である。
【0120】
つぎに、この実施の形態8に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図17は、この発明の実施の形態8に係る音声認識文章入力装置の動作を示すフローチャートである。
【0121】
未知語抽出手段15は、ユーザテキスト9中に未知語の存在区間と発音を推定し、未知語が存在する場合、ユーザに発話を要求する。ユーザ発話の音節認識結果を発音として、語彙辞書に追加する。
【0122】
つまり、ステップ801において、音声文字変換手段4によって、ユーザの音声1がテキスト(文字)に変換され、テキストバッファ5に一時記憶されたあと、ユーザがユーザ操作により編集した結果として、ユーザテキスト9が作成される。
【0123】
次に、ステップ802において、文章解析手段12aは、ユーザテキスト9を形態素解析する。
【0124】
次に、ステップ803において、形態素解析結果に未知語が存在する場合は、次のステップ804を実行する。存在しないときはステップ805を実行する。
【0125】
次に、ステップ804において、未知語抽出手段15は、ユーザに未知語の表記を表示するとともに、その未知語の読みを得るため、ユーザに発話を要求する。ユーザの発話がなされたら、ユーザの発話を入力した音声に対して、音節認識を行い、その音節認識結果をその未知語の発音とする。
【0126】
次に、ステップ805において、解析済文例追加手段12bは、解析された文例を解析済文例記憶手段13aに追加する。
【0127】
そして、ステップ806において、言語モデル学習手段14は、解析済文例記憶手段13aに記憶された解析済文例を用いて、対象業務言語モデル3aを作成する。
【0128】
以上のように、文章解析用辞書に存在しない未知語をその前後の単語連鎖とともに言語モデル3a、3bに追加するようにしているので、ユーザが修正手段8により未知語を入力しても、文章解析用辞書に存在しない未知語を以後入力することができる。
【0129】
すなわち、この実施の形態8に係る音声認識文章入力装置は、修正された文字から未知語を抽出する未知語抽出手段15を有し、言語モデル学習手段10、14は、前記未知語抽出手段15から抽出される未知語と未知語を含む単語連鎖を言語モデルに学習するものである。
【0130】
実施の形態9.
この発明の実施の形態9に係る音声認識文章入力装置について図面を参照しながら説明する。図18は、この発明の実施の形態9に係る音声認識文章入力装置の構成を示す図である。
【0131】
上記の各実施の形態では、言語モデルとして単語のNグラムを用いるようにしたものであるが、この実施の形態9では、単語を分類したクラスのNグラムを用いるものである。
【0132】
図18において、3aは単語NグラムとクラスNグラムからなる対象業務言語モデル、41は予備探索手段、42は対象業務言語モデル3aを参照して単語列探索における単語列仮説の言語尤度を計算するための言語確率を推定する言語確率推定手段、43は言語確率推定手段42と接続された単語列探索手段である。
【0133】
つぎに、この実施の形態9に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図19は、この発明の実施の形態9に係る音声認識文章入力装置の音声文字変換手段の動作を示すフローチャートである。
【0134】
対象業務言語モデル3aおよびユーザ言語モデル3bは、それぞれ、単語のNグラムと、単語を分類したクラスのNグラムの両方から構成されている(N=2およびN=3)。
【0135】
音声文字変換手段4の予備探索手段41は、内蔵の音素環境依存音素HMMを音響モデルとして音声1の音響尤度を計算するとともに、N=2とした対象業務言語モデル3aおよびユーザ言語モデル3bのそれぞれについての言語尤度の大きい方の言語尤度を計算し、音響尤度と言語尤度の積(対数領域では和)の大きい単語列の候補ラティスを出力する。
【0136】
次に、単語列探索手段43は、言語確率推定手段42を駆動して、単語列の候補ラティスからよりN=3としたNグラムの尤度が最大となる単語列を出力する。言語確率推定手段42は、単語列探索手段43が用いる単語列の尤度として、単語列の部分が単語のNグラムにヒット(存在)する(学習用の文例に単語列の並びが存在する)場合には単語のNグラムの尤度を用いる。また、単語のNグラムにヒットしない場合には単語の所属するクラスのNグラムの尤度を用いる。
【0137】
つまり、ステップ901において、予備探索手段41は、音響モデル、および、N=2としたバイグラム言語モデルを用いて、単語ラティスを作成する。
【0138】
次に、ステップ902において、単語列探索手段43は、単語ラティスから、N=3としたNグラムを用いて、単語列を探索する。Nグラムの確率は、言語確率推定手段42によって得られる。
【0139】
以上のように、単語列のつながりが例文に存在する場合には単語のNグラムを適用し、存在しない場合にはクラスのNグラムを適用するようにしているので、学習データに存在しない単語のつながりを含む単語列に対しても尤度を与えることができるため、言語モデルの学習に使える文例数が少ない場合に対応することができる。
【0140】
すなわち、この実施の形態9に係る音声認識文章入力装置は、単語をクラスに分類し、クラスの並び方の特徴から文例にない単語の並び方の確率を推定する言語確率推定手段42を有し、音声文字変換手段4は、前記言語確率推定手段42から推定される確率を用いるものである。
【0141】
実施の形態10.
この発明の実施の形態10に係る音声認識文章入力装置について図面を参照しながら説明する。図20は、この発明の実施の形態10に係る音声認識文章入力装置の構成を示す図である。
【0142】
上記の実施の形態9では、予備探索手段41がN=2などのNグラム言語モデルを参照するものであるが、この実施の形態10では、予備探索の段階では言語モデルを参照しないものである。
【0143】
図20において、41aは基本記号列認識手段、42は言語確率推定手段、44は基本記号列の認識誤り傾向を記憶した差分モデル、43aは差分モデル44を参照する単語列探索手段である。
【0144】
つぎに、この実施の形態10に係る音声認識文章入力装置の動作について図面を参照しながら説明する。図21は、この発明の実施の形態10に係る音声認識文章入力装置の音声文字変換手段の動作を示すフローチャートである。
【0145】
上記の構成において、基本記号列認識手段41aは、音素環境依存音素HMMからなる音響モデルを内蔵し、この音響モデルに対する音声1の音響尤度を言語モデルを参照することなく計算し、音響尤度が最大となる基本記号列を出力する。基本記号は、音節、音素、サブワードなどであり、この実施の形態10では音節である。
【0146】
単語列探索手段43aは、基本記号列認識手段41aの出力する基本記号列から、差分モデル44および言語確率推定手段42を介して対象業務言語モデル3aおよびユーザ言語モデル3bを参照し、尤度が最大の単語列を出力する。
【0147】
ここで、単語列の尤度は、単語列の発音記号列に沿って並べられた正解の基本記号列から、基本記号列認識手段41aによって認識された基本記号列が出現する差分モデル44による尤度と、対象業務言語モデル3aおよびユーザ言語モデル3bによる大きい方の単語列の言語尤度の積(対数領域では和)として計算される。
【0148】
つまり、ステップ1001において、基本記号列認識手段41aは、入力音声1に対して、音響モデルを用いて、基本記号列を作成する。
【0149】
次に、ステップ1002において、単語列探素手段43aは、基本記号列から、言語モデルを用いて、単語列を探索する。言語モデルはNグラムモデルであり、Nグラムの確率は、言語確率推定手段42によって得られる
【0150】
以上のように、予備探索手段41としての基本記号列認識手段41aは、言語モデルを参照しないので、言語モデルごとに基本記号列の認識処理が不要となるため、音響モデルとユーザの音声1との尤度計算を1発話につき1回に削減できる。
【0151】
すなわち、この実施の形態10に係る音声認識文章入力装置は、音声文字変換手段4が、音声1から2以上の何れの言語モデルも参照することなく基本記号列を認識する基本記号列認識手段41aと、前記認識された基本記号列から前記2以上の言語モデル3a、3bを用いて単語列の探索を行う単語列探索手段43aとを有するものである。
【0152】
実施の形態11.
この発明の実施の形態11に係る音声認識文章入力装置について図面を参照しながら説明する。図22は、この発明の実施の形態11に係る音声認識文章入力装置の構成を示す図である。
【0153】
上記の実施の形態1では、1時に1ユーザが使用するようにしたものであるが、この実施の形態11では、1時に複数ユーザが使用するものである。
【0154】
図22において、200はネットワーク、201はホストコンピュータ、202はクライアントコンピュータである。クライアントコンピュータ202は、図示していないが、複数台あり、同一業務で複数のユーザが1台のホストコンピュータ201を共有する。
【0155】
つぎに、この実施の形態11に係る音声認識文章入力装置の動作について図面を参照しながら説明する。基本的な動作は、上記実施の形態10と同様である。
【0156】
ホストコンピュータ201には、対象業務言語モデル3aを内蔵し、複数のユーザが作成したユーザテキスト9を解析し解析済文例記憶手段13aに記憶し、一定の時間間隔でたとえば夜間の一定時間帯に定期的に更新を行う。
【0157】
以上のように、ホストコンピュータ201に内蔵される対象業務言語モデル3aを複数のユーザで共有してユーザテキスト9に基づいて更新するようにしているので、単一のユーザよりも発話のバリエーションに対するカバー率の広い言語モデルを提供することができる。
【0158】
すなわち、この実施の形態11に係る音声認識文章入力装置は、ホストコンピュータ201に接続された複数のクライアントコンピュータ202から構成されるシステムであって、少なくとも解析済文例記憶手段13aをホストコンピュータ201に配置して一括管理される構成としたものである。
【0159】
【発明の効果】
この発明の請求項1に係る音声認識文章入力装置は、以上説明したとおり、単語のNグラムからなる言語モデルと、ユーザ固有の語彙を有し単語のNグラムからなり、ユーザ操作によって作成されるユーザテキストからユーザ固有の語彙、表現を追加することができるユーザ言語モデルと、音声を入力する音声入力手段と、音素環境依存の音素HMMからなる音響モデル、前記言語モデル及び前記ユーザ言語モデルを参照して、音声認識処理によって、単語列の尤度を前記それぞれの言語モデルで計算して大きいほうの尤度に基づいて、入力音声を尤度が最大の単語列に変換する音声文字変換手段と、前記音声文字変換手段により変換された単語列を一時記憶するテキストバッファと、前記テキストバッファに一時記憶された文字を表示する表示手段と、前記表示手段に表示された文字をユーザ操作によって必要に応じて修正してユーザテキストを作成する修正手段と、対象業務に特化した辞書であるテキスト解析専用の解析用辞書を有し、前記解析用辞書を参照して前記ユーザテキストを解析し、前記ユーザテキストを構成する単語に分割し、分割された単語の列から、連続するN単語(Nは整数)の組をもれなく抽出し、抽出したN単語の組を集計してN単語の組毎の出現回数をカウントし、N単語の組の出現回数を前記ユーザ言語モデルに追加してユーザ固有の語彙、ユーザ固有の表現を学習するユーザ言語モデル学習手段とを備えたので、ユーザ固有の語彙や表現をユーザ言語モデルに追加することができ、ユーザ固有の発話バリエーションに対応して認識性能を高めることができるという効果を奏する。
【0160】
この発明の請求項2に係る音声認識文章入力装置は、以上説明したとおり、ユーザ操作に呼応して学習開始の通知を発生する学習開始通知手段と、前記学習開始通知手段からの学習開始の通知を受けてから前記ユーザ言語モデル学習手段を起動する制御手段とをさらに備えたので、テキストの途中で随時学習でき、学習以後はテキストを高精度で入力することができるという効果を奏する。
【0161】
この発明の請求項3に係る音声認識文章入力装置は、以上説明したとおり、前記修正手段により文字が修正されたことを検知する検知手段と、前記検知手段により前記文字修正が検知された後、前記ユーザ言語モデル学習手段を起動する制御手段とをさらに備えたので、学習ボタンの操作を不要とすることができるという効果を奏する。
【0162】
この発明の請求項4に係る音声認識文章入力装置は、以上説明したとおり、前記言語モデルを、対象業務の文例から学習した対象業務言語モデルとしたので、対象業務の文例を認識することができるという効果を奏する。
【0163】
この発明の請求項5に係る音声認識文章入力装置は、以上説明したとおり、一般文例から学習した背景言語モデルをさらに備えたので、業務外の文章入力において認識誤りを削減することができるという効果を奏する。
【0164】
この発明の請求項6に係る音声認識文章入力装置は、以上説明したとおり、前記対象業務言語モデルの学習に用いるための文例を記憶する文例記憶手段と、前記ユーザテキストに基いて文例を前記文例記憶手段に追加する文例追加手段と、前記文例記憶手段に記憶された文例を用いて前記対象業務言語モデルを作成する言語モデル学習手段とをさらに備えたので、比較的長期間に渡るユーザの語彙や文法の使用傾向を加味してユーザの音声を認識することができるという効果を奏する。
【0165】
この発明の請求項7に係る音声認識文章入力装置は、以上説明したとおり、前記対象業務言語モデルの学習に用いるための解析済文例を記憶する解析済文例記憶手段と、前記ユーザテキストを解析して解析結果を出力する文章解析手段と、前記文章解析手段により解析された解析済文例を前記解析済文例記憶手段に追加記憶する解析済文例追加手段と、前記解析済文例記憶手段に記憶された解析済文例を用いて前記対象業務言語モデルを作成する言語モデル学習手段とをさらに備え、前記ユーザ言語モデル学習手段は、前記文章解析手段からの解析済文例を用いて前記ユーザ言語モデルを作成するので、ユーザテキストの解析に要する演算量を1回で済ますことができるという効果を奏する。
【0166】
この発明の請求項8に係る音声認識文章入力装置は、以上説明したとおり、前記ユーザテキスト中に未知語が存在する場合、ユーザ発話の音節認識結果を発音として前記未知語とともに前記文章解析手段に受け渡す未知語抽出手段をさらに備えたので、ユーザが修正手段により未知語を入力しても、文章解析用辞書に存在しない未知語を以後入力することができるという効果を奏する。
【0167】
この発明の請求項9に係る音声認識文章入力装置は、以上説明したとおり、前記音声文字変換手段が、前記言語モデルの単語をクラスに分類し、クラスの並び方の特徴から文例にない単語の並び方の確率を推定する言語確率推定手段と、前記言語確率推定手段により推定された確率を用いて単語ラティスを作成する予備探索手段と、前記言語確率推定手段により推定された確率を用いて前記単語ラティスから単語列を探索する単語列探索手段とを有するので、言語モデルの学習に使える文例数が少ない場合に対応することができるという効果を奏する。
【0168】
この発明の請求項10に係る音声認識文章入力装置は、以上説明したとおり、前記音声文字変換手段が、前記言語モデルの単語をクラスに分類し、クラスの並び方の特徴から文例にない単語の並び方の確率を推定する言語確率推定手段と、基本記号列の認識誤り傾向を記憶した差分モデルと、前記言語モデルを参照することなく基本記号列を認識する基本記号列認識手段と、前記認識された基本記号列から前記差分モデル及び前記言語確率推定手段を介して前記言語モデル用いて単語列の探索を行う単語列探索手段とを有するので、尤度計算を1発話につき1回に削減できるという効果を奏する。
【0169】
この発明の請求項11に係る音声認識文章入力装置は、以上説明したとおり、音声を入力する音声入力手段、音声から文字へ変換された単語列を一時記憶するテキストバッファ、前記テキストバッファに一時記憶された文字を表示する表示手段、及び前記表示手段に表示された文字をユーザ操作によって必要に応じて修正してユーザテキストを作成する修正手段を有するクライアントコンピュータと、前記クライアントコンピュータにネットワークを通じて接続され、単語のNグラムからなる言語モデル、ユーザ固有の語彙を有し単語のNグラムからなり、ユーザ操作によって作成されるユーザテキストからユーザ固有の語彙、表現を追加することができるユーザ言語モデル、音素環境依存の音素HMMからなる音響モデル、前記言語モデル及び前記ユーザ言語モデルを参照して、音声認識処理によって、単語列の尤度を前記それぞれの言語モデルで計算して大きいほうの尤度に基づいて、入力音声を尤度が最大の単語列に変換する音声文字変換手段、及び対象業務に特化した辞書であるテキスト解析専用の解析用辞書を有し、前記解析用辞書を参照して前記ユーザテキストを解析し、前記ユーザテキストを構成する単語に分割し、分割された単語の列から、連続するN単語(Nは整数)の組をもれなく抽出し、抽出したN単語の組を集計してN単語の組毎の出現回数をカウントし、N単語の組の出現回数を前記ユーザ言語モデルに追加してユーザ固有の語彙、ユーザ固有の表現を学習するユーザ言語モデル学習手段を有するホストコンピュータとを備えたので、単一のユーザよりも発話のバリエーションに対するカバー率の広い言語モデルを提供することができるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る音声認識文章入力装置の構成を示す図である。
【図2】 この発明の実施の形態1に係る音声認識文章入力装置のユーザ言語モデル学習手段の動作を示すフローチャートである。
【図3】 この発明の実施の形態2に係る音声認識文章入力装置の構成を示す図である。
【図4】 この発明の実施の形態2に係る音声認識文章入力装置の表示手段の表示例を示す図である。
【図5】 この発明の実施の形態2に係る音声認識文章入力装置の学習開始通知手段、制御手段、及びユーザ言語モデル学習手段の動作を示すフローチャートである。
【図6】 この発明の実施の形態3に係る音声認識文章入力装置の構成を示す図である。
【図7】 この発明の実施の形態3に係る音声認識文章入力装置の検知手段、制御手段、及びユーザ言語モデル学習手段の動作を示すフローチャートである。
【図8】 この発明の実施の形態4に係る音声認識文章入力装置の構成を示す図である。
【図9】 この発明の実施の形態4に係る音声認識文章入力装置の言語モデル学習手段の動作を示すフローチャートである。
【図10】 この発明の実施の形態5に係る音声認識文章入力装置の構成を示す図である。
【図11】 この発明の実施の形態5に係る音声認識文章入力装置の音声文字変換手段の動作を示すフローチャートである。
【図12】 この発明の実施の形態6に係る音声認識文章入力装置の構成を示す図である。
【図13】 この発明の実施の形態6に係る音声認識文章入力装置の文例追加手段及び言語モデル学習手段の動作を示すフローチャートである。
【図14】 この発明の実施の形態7に係る音声認識文章入力装置の構成を示す図である。
【図15】 この発明の実施の形態7に係る音声認識文章入力装置の文章解析手段、解析済文例追加手段及び言語モデル学習手段の動作を示すフローチャートである。
【図16】 この発明の実施の形態8に係る音声認識文章入力装置の構成を示す図である。
【図17】 この発明の実施の形態8に係る音声認識文章入力装置の動作を示すフローチャートである。
【図18】 この発明の実施の形態9に係る音声認識文章入力装置の構成を示す図である。
【図19】 この発明の実施の形態9に係る音声認識文章入力装置の動作を示すフローチャートである。
【図20】 この発明の実施の形態10に係る音声認識文章入力装置の構成を示す図である。
【図21】 この発明の実施の形態10に係る音声認識文章入力装置の動作を示すフローチャートである。
【図22】 この発明の実施の形態11に係る音声認識文章入力装置の構成を示す図である。
【図23】 従来の音声認識文章入力装置の構成を示す図である。
【符号の説明】
2 音声入力手段、3 言語モデル、3a 対象業務言語モデル、3b ユーザ言語モデル、3c 背景言語モデル、4 音声文字変換手段、5 テキストバッファ、6 表示手段、7 ユーザ操作、7a ユーザ操作、8 修正手段、8a 学習開始通知手段、8b 検知手段、9 ユーザテキスト、10 ユーザ言語モデル学習手段、11 制御手段、12 文例追加手段、12a 文章解析手段、12b 解析済文例追加手段、13 文例記憶手段、13a 解析済文例記憶手段、14 言語モデル学習手段、15 未知語抽出手段、41 予備探索手段、41a 基本記号列認識手段、42 言語確率推定手段、43 単語列探索手段、43a 単語列探索手段、44 差分モデル、200 ネットワーク、201 ホストコンピュータ、202 クライアントコンピュータ。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition text input device having a business automatic adaptation function for recognizing speech and inputting text.
[0002]
[Prior art]
Expectations for document creation by voice input are extremely high because convenience and special training are not required, and Japanese text input software by voice recognition is commercially available from various companies and attracts attention.
[0003]
A conventional speech recognition text input device will be described with reference to the drawings. FIG. 23 is a diagram showing a general block configuration of a conventional speech recognition text input device realized by operating the above software on a computer.
[0004]
In FIG. 23, 1 is a voice, 2 is a voice input means for capturing the input voice 1, 3 is a language model composed of N-grams of words, for example, 4 is an input voice acquired by the voice input means 2 with reference to the language model 3 1 is a speech character converting means for converting 1 into a word string, 5 is a text buffer for temporarily storing an output word string of the speech character converting means 4, 6 is a display means for displaying characters stored in the text buffer 5, and 8 is a user. Correction means 9 for correcting characters in the text buffer 5 by the operation 7, and user text created by the user extracted from the text buffer 5. As the language model 3, Ngram (for example, N = 3) based on word chain statistics is used.
[0005]
Next, the operation of the conventional speech recognition text input device will be described with reference to the drawings.
[0006]
In the above configuration, the user's voice 1 is converted into a word string according to the word chain information stored in the language model 3 by the phonetic character conversion means 4 and temporarily stored in the text buffer 5, and at the same time by the display means 6. Displayed to the user.
[0007]
The user can correct the recognition error in the text temporarily stored in the text buffer 5 based on the display on the display means 6 and finally obtain the desired user text 9.
[0008]
However, in such a conventional speech recognition text input device, since the language model 3 is created from a large number of general text examples such as newspapers and WEB, it is difficult to recognize specialized text including special terms and phrases. Moreover, the recognition performance is insufficient simply by registering technical terms. This problem is also described in Japanese Patent Application Laid-Open No. 2000-250584.
[0009]
On the other hand, it is possible to create a language model corresponding to the field of specialized work from sentence examples accumulated in specialized work, but generally there is little sentence accumulation (about 10,000 sentences at most) for each specialized work, and it is effective. Language model creation is considered difficult. For example, when an N-gram of a word is used as a language model, it is said that 1 to 10 million or more example sentences are necessary when N = 3.
[0010]
For this reason, in the speech recognition apparatus disclosed in Japanese Patent Application Laid-Open No. 10-198395, data for specific tasks (tasks) is prepared in advance from a plurality of tasks, and these are used as prior knowledge, and tasks for which text is input. A language model adapted to is generated.
[0011]
However, when this method is applied to, for example, a highly specialized task (for example, a specific medical treatment subject), the text data of the specific task for learning prepared in advance is the terminology or task of the task to be applied. There are many cases in which specific expressions (word chains) are not included, and there is a problem that these text data for learning have little value as prior knowledge.
[0012]
On the other hand, a syntax-driven speech recognition method that uses a language model that expresses a sentence to be recognized by a network of words has been known. However, in this case, a small amount is required when dealing with a highly specialized field. There is a problem that it is necessary to create vocabulary and grammar from a sentence example by spending a great deal of labor and time.
[0013]
In addition, in this way, the language model made from a small amount of text of the target business has solved the problem that the recognition performance is significantly deteriorated with respect to fluctuations of expressions that are not included in the sentence examples and fluctuations of expressions for each individual. Not.
[0014]
For these reasons, the practical use of professional dictation software has not progressed.
[0015]
[Problems to be solved by the invention]
In the conventional speech recognition text input device as described above, the language model is created from a large number of general text examples such as newspapers and WEB, so that it is difficult to recognize special text including special terms and phrases. was there.
[0016]
The present invention has been made to solve the above-described problems, and effectively generates a language model that is adapted to a specific target job and has a high tolerance for utterance variations, and is generated while the system is in use. The purpose is to obtain a speech recognition text input device that has high recognition performance and sufficient reliability for professionals with improved freedom of speech for unknown expressions, etc., and excellent adaptability to various tasks.
[0017]
[Means for Solving the Problems]
According to a first aspect of the present invention, there is provided a speech recognition text input device comprising: a language model composed of N-grams of words; and a user-specific vocabulary having N-grams of words. User-specific vocabulary and expressions can be added from user text created by user operations. A speech recognition process with reference to an acoustic model composed of a phoneme environment-dependent phoneme HMM, the language model, and the user language model. Calculate the likelihood of the word string with the respective language model and based on the larger likelihood, A speech character converting means for converting an input speech into a word string having the maximum likelihood, a text buffer for temporarily storing the word string converted by the speech character converting means, and characters temporarily stored in the text buffer are displayed. A display unit, a correction unit that corrects the characters displayed on the display unit as needed by a user operation to create a user text, and an analysis dictionary dedicated to text analysis that is a dictionary specialized for the target task. The user text is analyzed with reference to the analysis dictionary, divided into words constituting the user text, and a set of consecutive N words (N is an integer) is completely extracted from the divided word sequence. Then, the extracted N word sets are counted to count the number of appearances of each N word set, and the number of appearances of the N word set is added to the user language model to add a user-specific vocabulary, User-specific It comprises a user language model learning means for learning expressions.
[0018]
The speech recognition text input device according to claim 2 of the present invention includes a learning start notification means for generating a learning start notification in response to a user operation, and a learning start notification from the learning start notification means. And a control unit that activates the user language model learning unit.
[0019]
According to a third aspect of the present invention, there is provided a speech recognition text input device comprising: a detecting unit that detects that a character has been corrected by the correcting unit; and the user language model learning after the character correction is detected by the detecting unit. And a control means for activating the means.
[0020]
In the speech recognition text input device according to claim 4 of the present invention, the language model is a target business language model learned from a sentence example of the target business.
[0021]
The speech recognition text input device according to claim 5 of the present invention further includes a background language model learned from general sentence examples.
[0022]
The speech recognition text input device according to claim 6 of the present invention adds a sentence example storage means for storing a sentence example for use in learning of the target business language model, and a sentence example based on the user text to the sentence example storage means. It further comprises sentence example adding means and language model learning means for creating the target business language model using the sentence examples stored in the sentence example storage means.
[0023]
According to a seventh aspect of the present invention, there is provided a speech recognition text input device, an analyzed sentence example storage means for storing an analyzed sentence example for use in learning of the target business language model, and an analysis result output by analyzing the user text. Using sentence analysis means, analyzed sentence example addition means for additionally storing the analyzed sentence example analyzed by the sentence analysis means in the analyzed sentence example storage means, and analyzed sentence examples stored in the analyzed sentence example storage means Language model learning means for creating the target business language model, and the user language model learning means creates the user language model using the analyzed sentence example from the sentence analysis means.
[0024]
According to an eighth aspect of the present invention, there is provided a speech recognition text input device for extracting an unknown word that passes a syllable recognition result of a user utterance as a pronunciation together with the unknown word to the text analysis means when an unknown word exists in the user text. Means are further provided.
[0025]
In the speech recognition text input device according to claim 9 of the present invention, the phonetic character conversion unit classifies the words of the language model into classes, and estimates the probability of arranging words that are not included in the sentence examples from the characteristics of the class arrangement. Language probability estimation means, preliminary search means for creating a word lattice using the probabilities estimated by the language probability estimation means, and search for word strings from the word lattice using probabilities estimated by the language probability estimation means And a word string search means.
[0026]
In the speech recognition text input device according to claim 10 of the present invention, the phonetic character conversion unit classifies the words of the language model into classes, and estimates the probability of arranging words that are not included in the sentence examples from the characteristics of the class arrangement. Language probability estimation means, difference model storing recognition error tendency of basic symbol strings, basic symbol string recognition means for recognizing basic symbol strings without referring to the language model, and from the recognized basic symbol strings And a word string search means for searching for a word string using the language model via the difference model and the language probability estimation means.
[0027]
According to an eleventh aspect of the present invention, there is provided a speech recognition text input device that includes speech input means for inputting speech, a text buffer for temporarily storing a word string converted from speech to characters, and displaying characters temporarily stored in the text buffer. And a client computer having a display unit for correcting the character displayed on the display unit as needed by a user operation to create a user text, and connected to the client computer via a network, and an N-gram of a word A language model that consists of N-grams of words with user-specific vocabulary User-specific vocabulary and expressions can be added from user text created by user operations. A user language model, an acoustic model composed of a phoneme environment-dependent phoneme HMM, the language model, and the user language model, Calculate the likelihood of the word string with the respective language model and based on the larger likelihood, A speech character converting means for converting the input speech into a word string having the maximum likelihood; and an analysis dictionary dedicated to text analysis which is a dictionary specialized for the target business, and the user text is referred to the analysis dictionary. Are divided into words constituting the user text, and all consecutive sets of N words (N is an integer) are extracted from the divided word strings, and the extracted sets of N words are aggregated to obtain N Count the number of occurrences for each set of words, add the number of occurrences of a set of N words to the user language model, User-specific And a host computer having user language model learning means for learning expressions.
[0028]
DETAILED DESCRIPTION OF THE INVENTION
Embodiment 1 FIG.
A speech recognition text input device according to Embodiment 1 of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 1 of the present invention. In addition, in each figure, the same code | symbol shows the same or equivalent part.
[0029]
In FIG. 1, 2 is a voice input means for capturing the voice 1 spoken by the user, 3 is a language model, 3b is a user language model, 4 is acquired by the voice input means 2 with reference to the language model 3 and the user language model 3b. A voice character converting means for converting the input voice 1 into a word string, 5 a text buffer for temporarily storing the output word string of the voice character converting means 4, and 6 a display means for displaying the characters stored in the text buffer 5. 8 is a correcting means for correcting a character in the text buffer 5 by a user operation 7, 9 is a user text created by the user extracted from the text buffer 5, and 10 is a user language model by analyzing the user text 9. It is a user language model learning means.
[0030]
Next, the operation of the speech recognition text input device according to the first embodiment will be described with reference to the drawings. FIG. 2 is a flowchart showing the operation of the user language model learning means of the speech recognition text input device according to Embodiment 1 of the present invention.
[0031]
The voice input means 2 captures the voice 1 spoken by the user. Next, the phonetic character conversion means 4 refers to the acoustic model composed of the phoneme environment-dependent phoneme HMM, and the language models 3 and 3b, and converts the input speech into a word string having the maximum likelihood by a known speech recognition process. Convert.
[0032]
Here, the likelihood of the word string is the product of the likelihood of matching between the word string and the input speech (acoustic likelihood) and the likelihood of the word string based on the language model 3 and the user language model 3b (language likelihood). Calculated as (sum in logarithmic domain).
[0033]
The acoustic likelihood is calculated as the likelihood when the feature vector of the speech 1 is input to the acoustic model in which the phoneme environment-dependent phoneme HMMs are arranged according to the phonetic symbols of the word string. The language model 3 and the user language model 3b are each composed of N-grams of words.
[0034]
For the language likelihood, the likelihood of the word string is calculated with each language model, and the larger likelihood is used.
[0035]
The conversion result from the speech 1 to the word string by the speech character conversion means 4 is stored in the text buffer 5. The display means 6 displays the characters in the text buffer 5 on a computer display.
[0036]
The correction means 8 performs processing such as character insertion / replacement / deletion at the cursor display position indicating the character input position displayed on the computer display by a user operation 7 such as a keyboard input or a mouse, and the like in the text buffer 5. Correct the characters as necessary. Note that the character conversion result itself of the user's utterance can be inserted or replaced at the cursor display position in the same manner as a character string such as a keyboard.
[0037]
The user stores the result of creating the target document by combining the input voice 1 and the user operation 7 as a user text 9 in a file on the computer. At the same time as the user text 9 is stored in the file, the user text 9 is sent to the user language model learning means 10.
[0038]
This user language model learning means 10 includes an analysis dictionary dedicated to text analysis, refers to this dictionary, decomposes the user text 9 into columns of words (called morphemes), and further, the frequency of word chaining N-grams of words are obtained by counting and are output as the user language model 3b.
[0039]
That is, in step 101, the user language model learning means 10 acquires the user text 9 from the file.
[0040]
Next, in step 102, the acquired user text 9 is analyzed and divided into words (also referred to as morphemes) constituting the user text 9. This process is performed using a known morphological analysis technique. The dictionary used for morphological analysis is a dictionary specialized for the target business, and technical terms appearing in the target business are registered.
[0041]
Next, in step 103, a set of consecutive N words (N is 3 for example) is completely extracted from the divided word strings W1, W2, W3,. The N word sets extracted in this way are totaled, and the number of appearances for each N word set is counted.
[0042]
In step 104, the user language model 3b including the number of appearances of N word pairs is output.
[0043]
As described above, the user language model 3b is created from the user text 9, and the phonetic character conversion is performed with reference to the created user language model 3b, so that the user-specific vocabulary and expressions are represented by the user language model 3b. Therefore, it is possible to provide a speech recognition text input device with high recognition performance corresponding to user-specific utterance variations.
[0044]
That is, the speech recognition text input device according to the first embodiment is a speech recognition text input device in which one or more users input speech to create a text, and two or more independent language models 3, 3a. The phonetic character converting means 4 for calculating the likelihood of the word string by referring to any of the two or more independent language models 3 and 3a and converting the speech into characters, and the converted characters Display means 6 for displaying, a correction means 8 for correcting the displayed characters by the user, and a user for updating at least one language model of the two or more language models from the characters corrected by the user The language model learning means 10 is provided.
[0045]
Embodiment 2. FIG.
A speech recognition text input device according to Embodiment 2 of the present invention will be described with reference to the drawings. FIG. 3 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 2 of the present invention.
[0046]
In the first embodiment, after the user text 9 is output to a file, the user language model 3b is created using the user text 9, but in the second embodiment, the user text 9 It is possible to learn at any time during the creation of.
[0047]
In FIG. 3, 7a is a user operation, 8a is a learning start notification means for generating a learning start notification in response to the user operation 7a, and 11 is a user language model based on the learning start notification generated by the learning start notification means 8a. Control means programmed to start processing by the learning means 10. Further, the user language model learning unit 10 is changed so as to input a learning start notification generated by the learning start notification unit 8a. Other configurations are the same as those in the first embodiment.
[0048]
Next, the operation of the speech recognition text input device according to the second embodiment will be described with reference to the drawings. FIG. 4 is a diagram showing a display example by the display means of the speech recognition text input device according to Embodiment 2 of the present invention. FIG. 5 is a flowchart showing the operations of the learning start notifying means, the control means, and the user language model learning means of the speech recognition text input apparatus according to Embodiment 2 of the present invention.
[0049]
The characters converted by the phonetic character conversion means 4 from the voice 1 spoken by the user are temporarily stored in the text buffer 5. The temporarily stored characters are displayed in an editing frame displayed on the computer display by the display means 6, as shown in FIG.
[0050]
Next, the correction means 8 inputs a user operation 7 and edits the text displayed in the editing frame, such as insertion, deletion, and replacement, to create a user text 9.
[0051]
As shown in FIG. 4, the user operation 7 a generates a signal in response to pressing of the learning button displayed near the editing frame of the display unit 6. The learning start notification means 8a generates a learning start notification from the signal generated by the user operation 7a, and the control means 11 starts learning using the user text 9 of the user language model learning means 10.
[0052]
That is, in step 201, the learning start notification means 8a detects that the learning button has been pressed.
[0053]
Next, in step 202, a learning start notification is generated.
[0054]
Next, in step 203, the user language model learning unit 10 activated by the control unit 11 based on the learning start notification acquires the user text 9 from the temporary storage.
[0055]
Next, in step 204, the acquired user text is analyzed and divided into words (also called morphemes) constituting the user text 9. This process is performed using a known morphological analysis technique. The dictionary used for morphological analysis is a dictionary specialized for the target business, and technical terms appearing in the target business are registered.
[0056]
Next, in step 205, all consecutive sets of N words (N is 3 for example) are extracted from the divided word strings W1, W2, W3. The N word sets extracted in this way are totaled, and the number of appearances for each N word set is counted.
[0057]
In step 206, the user language model 3b including the number of appearances of a set of N words is output.
[0058]
As described above, since the user learns at any time in the middle of the text, the text can be input with high accuracy after the learning.
[0059]
That is, in the speech recognition text input device according to the second embodiment, the correction unit 8 is provided with the learning start notification unit 8a that instructs the start of learning after the correction of the character is completed by the user. And a control unit 11 that activates the user language model learning unit 10 after receiving the notification.
[0060]
Embodiment 3 FIG.
A speech recognition text input device according to Embodiment 3 of the present invention will be described with reference to the drawings. FIG. 6 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 3 of the present invention.
[0061]
In the second embodiment, the case where the user language model 3b is learned based on the user operation 7a for learning has been described. However, in the third embodiment, the explicit user operation 7a for learning is not required. It is what.
[0062]
In FIG. 6, 8b is a detection means connected to the correction means 8 to detect the user's text correction. Reference numeral 11 denotes control means programmed to start the learning process of the user language model 3b by the user language model learning means 10 based on the text correction detection by the detection means 8b. Further, the user language model learning unit 10 is changed to input a learning start notification generated by the detection unit 8b.
[0063]
Next, the operation of the speech recognition text input device according to the third embodiment will be described with reference to the drawings. FIG. 7 is a flowchart showing the operations of the detection means, control means, and user language model learning means of the speech recognition text input device according to Embodiment 3 of the present invention.
[0064]
The detection unit 8b generates a correction detection signal and notifies the control unit 11 as soon as the next speech is made by the user and the voice input unit 2 detects the start end of the voice. The control unit 11 activates the user language model learning unit 10, immediately creates the user language model 3b, and the phonetic character conversion unit 4 that refers to the changed user language model 3b uses the recognition result of the input speech as a text buffer. 5 is temporarily stored.
[0065]
Note that the correction detection method may not be detected by the next utterance, but may be detected, for example, when a certain period of time has elapsed since the user last corrected a character in the text buffer 5. Good.
[0066]
That is, in step 301, the detection means 8b detects that the user's next utterance has been made.
[0067]
Next, in step 302, a learning start notification is generated.
[0068]
Next, in step 303, the user language model learning means 10 activated by the control means 11 based on the learning start notification acquires the user text 9 of the previous utterance from the temporary storage.
[0069]
Next, in step 304, the acquired user text 9 is analyzed and divided into words (also referred to as morphemes) constituting the user text 9. This process is performed using a known morphological analysis technique. The dictionary used for morphological analysis is a dictionary specialized for the target business, and technical terms appearing in the target business are registered.
[0070]
Next, in step 305, all sets of consecutive N words (N is 3 for example) are extracted from the divided word strings W1, W2, W3. The N word sets extracted in this way are totaled, and the number of appearances for each N word set is counted.
[0071]
In step 306, the user language model 3b including the number of appearances of N word pairs is output.
[0072]
As described above, since the device detects character correction, it is not necessary to operate the user's learning button.
[0073]
That is, in the speech recognition text input device according to the third embodiment, the correction unit 8 is provided with a detection unit 8b that detects that the character has been corrected by the user, and the user language is detected after the character correction is detected. The control means 11 which starts the model learning means 10 is provided.
[0074]
Embodiment 4 FIG.
A speech recognition text input device according to Embodiment 4 of the present invention will be described with reference to the drawings. FIG. 8 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 4 of the present invention.
[0075]
In the fourth embodiment, in place of the language model 3 in the first to third embodiments, the target business language model 3a learned from the business sentence example to be applied is used.
[0076]
In FIG. 8, 3a is a target business language model.
[0077]
Next, the operation of the speech recognition text input device according to the fourth embodiment will be described with reference to the drawings. FIG. 9 is a flowchart showing the operation of the language model learning means of the speech recognition text input device according to Embodiment 4 of the present invention.
[0078]
The target business language model 3a is learned from the stored sentence examples of the target business. Therefore, the word string similar to the stored sentence example can be recognized by the phonetic character conversion means 4 to refer to the word chain information of the target business language model 3a.
[0079]
That is, in step 401, sentence examples of the target business are manually collected in advance. These sentence examples are assumed to be digitized and stored in a file.
[0080]
Next, in step 402, the language model learning means (not shown) analyzes the sentence example text digitized and stored in the file, and divides it into words (also called morphemes) constituting the sentence example text. This process is performed using a known morphological analysis technique.
[0081]
Next, in step 403, a set of consecutive N words (N is 3 for example) is completely extracted from the divided word strings W1, W2, W3. The N word sets extracted in this way are totaled, and the number of appearances for each N word set is counted.
[0082]
In step 404, the target business language model 3a consisting of the number of appearances of the set of N words is output.
[0083]
As described above, since the target business language model 3a learned from the stored sentence examples of the target business is provided, the sentence examples of the target business can be recognized.
[0084]
That is, in the speech recognition text input device according to the fourth embodiment, at least one of the two or more language models includes the target business language model 3a learned from the sentence examples of the target business.
[0085]
Embodiment 5. FIG.
A speech recognition text input device according to Embodiment 5 of the present invention will be described with reference to the drawings. FIG. 10 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 5 of the present invention.
[0086]
In the fourth embodiment, sentence examples having a high probability of appearing in the professional business sentence are mainly inputted by voice, but in this fifth embodiment, the general sentence that always appears during the creation of the professional business sentence is used. In contrast, even if the recognition rate does not decrease, the recognition rate does not decrease.
[0087]
In FIG. 10, 3a is a target business language model, 3b is a user language model, and 3c is a background language model learned from a general sentence example. The background language model 3c is created by a language model learning unit (not shown).
[0088]
Next, the operation of the speech recognition text input device according to the fifth embodiment will be described with reference to the drawings. FIG. 11 is a flowchart showing the operation of the speech character converting means of the speech recognition text input device according to Embodiment 5 of the present invention.
[0089]
For example, when the user's voice 1 is an intra-business utterance such as “insertion of 6 mg of anticonvulsant determined to thermal convulsions”, the phonetic character conversion unit 4 has a high language likelihood of the target business language model 3a. Outputs the recognition result “6 mg of anticonvulsant determined to be heat convulsions”.
[0090]
In addition, even when the input voice 1 is an out-of-work utterance such as “It seems to have fallen in kindergarten during lunch”, the recognition result “It seems to have fallen in kindergarten in the middle of lunch” is obtained. Output.
[0091]
That is, in step 501, the phonetic character conversion unit 4 inputs the user voice 1.
[0092]
Next, in step 502, text conversion is performed on the user voice 1 using the target business language model 3a, and likelihood 1 is calculated.
[0093]
Next, in step 503, text conversion is performed on the user voice 1 using the user language model 3b, and likelihood 2 is calculated.
[0094]
Next, in step 504, the user speech 1 is subjected to text conversion using the background language model 3c, and likelihood 3 is calculated.
[0095]
In step 505, the text conversion result that gives the maximum likelihood by comparing the likelihood 1, the likelihood 2, and the likelihood 3 is output to the text buffer 5 as the text conversion result.
[0096]
As described above, since the background language model 3c learned from a general sentence example is used, recognition errors can be reduced in sentence input outside the business.
[0097]
That is, in the speech recognition text input device according to the fifth embodiment, the two or more language models are composed of at least three or more language models 3a to 3c, and at least one of the language models is derived from the sentence example of the target business. Learning, and at least one language model uses the language model 3c learned from sentence examples other than the target business.
[0098]
Embodiment 6 FIG.
A speech recognition text input device according to Embodiment 6 of the present invention will be described with reference to the drawings. FIG. 12 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 6 of the present invention.
[0099]
In the fifth embodiment described above, the target business language model 3a is learned in advance. In the sixth embodiment, the target business language model 3a is updated.
[0100]
In FIG. 12, 12 is a sentence example adding means connected to the user text 9, 13 is a sentence example storing means that can be additionally stored by the sentence example adding means 12, and 14 is a target business language model 3 a from the sentence examples stored in the sentence example storing means 13. This is a language model learning means to be created.
[0101]
Next, the operation of the speech recognition text input device according to the sixth embodiment will be described with reference to the drawings. FIG. 13 is a flowchart showing operations of the sentence example adding means and the language model learning means of the speech recognition text input apparatus according to Embodiment 6 of the present invention.
[0102]
First, in step 601, after the user's voice 1 is converted into text (characters) by the voice character converting means 4 and temporarily stored in the text buffer 5, the user text 9 is edited as a result of the user editing by the user operation. Created.
[0103]
Next, in step 602, the sentence example adding means 12 adds the user text 9 to the sentence example storage means 13.
[0104]
In step 603, the language model learning unit 14 creates the target business language model 3 a using the sentence examples stored in the sentence example storage unit 13. Note that the target business language model 3a targets sentence examples of a plurality of users. On the other hand, the user language model 3b is created for each user.
[0105]
As described above, the sentence example adding means 12 stores the user text 9 as a sentence example to learn the target business language model 3a. Therefore, taking into account the user's vocabulary and grammar usage tendency over a relatively long period of time. The user's voice can be recognized.
[0106]
That is, the speech recognition text input device according to the sixth embodiment stores a text example storage unit 13 for storing a text example for use in learning of the target business language model 3a, and stores a text input by the user in the text example storage unit 13. A sentence example adding means 12 for adding the sentence example as a written sentence, and a language model learning means 14 for learning the language model 3a of the target business from the sentence examples stored in the sentence example storage means 13.
[0107]
Embodiment 7 FIG.
A speech recognition text input device according to Embodiment 7 of the present invention will be described with reference to the drawings. FIG. 14 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 7 of the present invention.
[0108]
In the sixth embodiment, the user text 9 is stored in the sentence storage unit 13, but in the seventh embodiment, the user text 9 is analyzed (word division) and stored. is there.
[0109]
In FIG. 14, 12a is a sentence analyzing means for analyzing the user text 9 and outputting an analysis result, 13a is an analyzed sentence example storage means, 12b is an analysis result output from the sentence analysis means 12a is added to the analyzed sentence example storage means 13a. An analyzed sentence example adding means for storing, and 14 is a language model learning means for creating the target business language model 3a using the analyzed sentence examples of the analyzed sentence example storage means 13a.
[0110]
Next, the operation of the speech recognition text input device according to the seventh embodiment will be described with reference to the drawings. FIG. 15 is a flowchart showing operations of the sentence analysis means, the analyzed sentence example addition means, and the language model learning means of the speech recognition text input device according to Embodiment 7 of the present invention.
[0111]
First, in step 701, the user's voice 9 is converted into text (characters) by the voice character converting means 4 and temporarily stored in the text buffer 5, and then the user text 9 is edited as a result of the user's editing by the user operation. Created.
[0112]
Next, in step 702, the sentence analysis unit 12a performs morphological analysis (word division) on the user text 9.
[0113]
Next, in step 703, the analyzed sentence example adding unit 12b adds the analyzed sentence example to the analyzed sentence example storage unit 13a.
[0114]
In step 704, the language model learning unit 14 creates the target business language model 3a using the analyzed sentence example stored in the analyzed sentence example storage unit 13a.
[0115]
As described above, the sentence analysis of the user text 9 is performed and the result is used to create the user language model 3b, and additionally stored in the analyzed sentence example storage unit 13a. The amount of calculation can be done only once.
[0116]
That is, in the speech recognition text input device according to the seventh embodiment, the sentence example stored in the analyzed sentence example storage unit 13a is an analyzed sentence example.
[0117]
Embodiment 8 FIG.
A speech recognition text input device according to Embodiment 8 of the present invention will be described with reference to the drawings. FIG. 16 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 8 of the present invention.
[0118]
In the seventh embodiment, an unknown word is not included in the user's text. In the eighth embodiment, the case where an unknown word is included in the user's text is handled.
[0119]
In FIG. 16, 15 is an unknown word extracting means for extracting an unknown word from the user text 9.
[0120]
Next, the operation of the speech recognition text input device according to the eighth embodiment will be described with reference to the drawings. FIG. 17 is a flowchart showing the operation of the speech recognition text input device according to Embodiment 8 of the present invention.
[0121]
The unknown word extraction means 15 estimates the existence period and pronunciation of the unknown word in the user text 9, and when the unknown word exists, requests the user to speak. The syllable recognition result of the user utterance is added to the vocabulary dictionary as a pronunciation.
[0122]
That is, in step 801, after the user's voice 1 is converted into text (characters) by the voice character converting means 4 and temporarily stored in the text buffer 5, the user text 9 is edited as a result of the user's editing by the user operation. Created.
[0123]
Next, in step 802, the sentence analysis unit 12a performs morphological analysis on the user text 9.
[0124]
Next, when an unknown word exists in the morphological analysis result in step 803, the next step 804 is executed. If it does not exist, step 805 is executed.
[0125]
Next, in step 804, the unknown word extraction means 15 displays the unknown word notation to the user and requests the user to speak to obtain the reading of the unknown word. When the user utters, syllable recognition is performed on the voice inputted by the user, and the syllable recognition result is used as the pronunciation of the unknown word.
[0126]
Next, in step 805, the analyzed sentence example adding unit 12b adds the analyzed sentence example to the analyzed sentence example storage unit 13a.
[0127]
In step 806, the language model learning unit 14 creates the target business language model 3a using the analyzed sentence example stored in the analyzed sentence example storage unit 13a.
[0128]
As described above, since unknown words that do not exist in the sentence analysis dictionary are added to the language models 3a and 3b together with the word chain before and after the sentence, even if the user inputs an unknown word using the correcting means 8, An unknown word that does not exist in the analysis dictionary can be input thereafter.
[0129]
That is, the speech recognition text input device according to the eighth embodiment has an unknown word extraction unit 15 that extracts an unknown word from a corrected character, and the language model learning units 10 and 14 include the unknown word extraction unit 15. It learns word chains including unknown words and unknown words extracted from a language model.
[0130]
Embodiment 9 FIG.
A speech recognition text input device according to Embodiment 9 of the present invention will be described with reference to the drawings. FIG. 18 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 9 of the present invention.
[0131]
In each of the above embodiments, an N-gram of a word is used as a language model. However, in Embodiment 9, an N-gram of a class into which words are classified is used.
[0132]
In FIG. 18, 3a is a target business language model composed of a word N-gram and a class N-gram, 41 is a preliminary search means, and 42 is a reference search for the target business language model 3a to calculate the language likelihood of the word string hypothesis in the word string search. The language probability estimation means 43 for estimating the language probability for the search is connected to the language probability estimation means 42. The word probability search means 43 is connected to the language probability estimation means 42.
[0133]
Next, the operation of the speech recognition text input device according to the ninth embodiment will be described with reference to the drawings. FIG. 19 is a flowchart showing the operation of the speech character converting means of the speech recognition text input device according to Embodiment 9 of the present invention.
[0134]
Each of the target business language model 3a and the user language model 3b includes an N-gram of a word and an N-gram of a class into which words are classified (N = 2 and N = 3).
[0135]
The preliminary search unit 41 of the phonetic character conversion unit 4 calculates the acoustic likelihood of the speech 1 using the built-in phoneme environment-dependent phoneme HMM as an acoustic model, and the target business language model 3a and the user language model 3b with N = 2. The language likelihood with the larger language likelihood is calculated for each, and a candidate lattice of a word string having a large product (sum in the logarithmic domain) of the acoustic likelihood and the language likelihood is output.
[0136]
Next, the word string search means 43 drives the language probability estimation means 42 to output a word string that maximizes the likelihood of N-grams with N = 3 from the word string candidate lattice. As the likelihood of the word string used by the word string search means 43, the language probability estimation means 42 hits (exists) the word string portion in the N-gram of the word (the word string sequence exists in the learning sentence example). In that case, the likelihood of the N-gram of the word is used. When the word N-gram is not hit, the N-gram likelihood of the class to which the word belongs is used.
[0137]
That is, in step 901, the preliminary search means 41 creates a word lattice using an acoustic model and a bigram language model with N = 2.
[0138]
Next, in step 902, the word string search means 43 searches the word string from the word lattice using N-grams with N = 3. The probability of N grams is obtained by the language probability estimation means 42.
[0139]
As described above, the N-gram of the word is applied when the word string connection exists in the example sentence, and the N-gram of the class is applied when it does not exist. Likelihood can be given to a word string including a connection, so that it is possible to cope with a case where the number of sentence examples that can be used for learning a language model is small.
[0140]
That is, the speech recognition text input device according to the ninth embodiment includes language probability estimation means 42 that classifies words into classes and estimates the probability of word alignment that is not included in the sentence example from the characteristics of class alignment. The character conversion means 4 uses the probability estimated from the language probability estimation means 42.
[0141]
Embodiment 10 FIG.
A speech recognition text input device according to Embodiment 10 of the present invention will be described with reference to the drawings. FIG. 20 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 10 of the present invention.
[0142]
In the ninth embodiment, the preliminary search means 41 refers to an N-gram language model such as N = 2, but in the tenth embodiment, the language model is not referred to in the preliminary search stage. .
[0143]
In FIG. 20, 41a is a basic symbol string recognizing means, 42 is a language probability estimating means, 44 is a difference model storing the recognition error tendency of the basic symbol string, and 43a is a word string searching means referring to the difference model 44.
[0144]
Next, the operation of the speech recognition text input device according to the tenth embodiment will be described with reference to the drawings. FIG. 21 is a flowchart showing the operation of the speech character converting means of the speech recognition text input device according to Embodiment 10 of the present invention.
[0145]
In the above configuration, the basic symbol string recognition unit 41a incorporates an acoustic model composed of a phoneme environment-dependent phoneme HMM, calculates the acoustic likelihood of the speech 1 for this acoustic model without referring to the language model, and the acoustic likelihood Outputs the basic symbol string that maximizes. Basic symbols are syllables, phonemes, subwords, and the like, and in the tenth embodiment, they are syllables.
[0146]
The word string search means 43a refers to the target business language model 3a and the user language model 3b from the basic symbol string output from the basic symbol string recognition means 41a via the difference model 44 and the language probability estimation means 42, and the likelihood is high. Output the maximum word string.
[0147]
Here, the likelihood of the word string is the likelihood of the difference model 44 in which the basic symbol string recognized by the basic symbol string recognition means 41a appears from the correct basic symbol strings arranged along the phonetic symbol string of the word string. Is calculated as the product (sum in the logarithm region) of the language likelihood of the larger word string by the target business language model 3a and the user language model 3b.
[0148]
That is, in step 1001, the basic symbol string recognition unit 41a creates a basic symbol string for the input speech 1 using an acoustic model.
[0149]
Next, in step 1002, the word string search means 43a searches the word string from the basic symbol string using a language model. The language model is an N-gram model, and the probability of N-gram is obtained by the language probability estimation means 42.
[0150]
As described above, since the basic symbol string recognition unit 41a as the preliminary search unit 41 does not refer to the language model, the recognition process of the basic symbol string is not required for each language model. Can be reduced to once per utterance.
[0151]
That is, in the speech recognition text input device according to the tenth embodiment, the speech character converting unit 4 recognizes the basic symbol sequence 41a without referring to any language model of speech 1 to 2 or more. And word string search means 43a for searching a word string using the two or more language models 3a and 3b from the recognized basic symbol string.
[0152]
Embodiment 11 FIG.
A speech recognition text input device according to Embodiment 11 of the present invention will be described with reference to the drawings. FIG. 22 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 11 of the present invention.
[0153]
In the first embodiment, one user is used at one time, but in this eleventh embodiment, a plurality of users are used at one time.
[0154]
In FIG. 22, reference numeral 200 denotes a network, 201 denotes a host computer, and 202 denotes a client computer. Although not shown, there are a plurality of client computers 202, and a plurality of users share one host computer 201 in the same job.
[0155]
Next, the operation of the speech recognition text input device according to the eleventh embodiment will be described with reference to the drawings. The basic operation is the same as in the tenth embodiment.
[0156]
The host computer 201 incorporates the target business language model 3a, analyzes the user text 9 created by a plurality of users, stores it in the analyzed sentence example storage means 13a, and periodically updates it at regular time intervals, for example, at regular time zones at night. Update them automatically.
[0157]
As described above, the target business language model 3a built in the host computer 201 is shared by a plurality of users and updated based on the user text 9, so that it is possible to cover utterance variations rather than a single user. A wide range of language models can be provided.
[0158]
That is, the speech recognition text input device according to the eleventh embodiment is a system composed of a plurality of client computers 202 connected to the host computer 201, and at least the analyzed sentence example storage means 13a is arranged in the host computer 201. Thus, it is configured to be collectively managed.
[0159]
【The invention's effect】
As described above, the speech recognition text input device according to claim 1 of the present invention includes a language model composed of N-grams of words and a N-gram of words having a vocabulary unique to the user. User-specific vocabulary and expressions can be added from user text created by user operations. A speech recognition process with reference to an acoustic model composed of a phoneme environment-dependent phoneme HMM, the language model, and the user language model. Calculate the likelihood of the word string with the respective language model and based on the larger likelihood, A speech character converting means for converting an input speech into a word string having the maximum likelihood, a text buffer for temporarily storing the word string converted by the speech character converting means, and characters temporarily stored in the text buffer are displayed. A display unit, a correction unit that corrects the characters displayed on the display unit as needed by a user operation to create a user text, and an analysis dictionary dedicated to text analysis that is a dictionary specialized for the target task. The user text is analyzed with reference to the analysis dictionary, divided into words constituting the user text, and a set of consecutive N words (N is an integer) is completely extracted from the divided word sequence. Then, the extracted N word sets are counted to count the number of appearances of each N word set, and the number of appearances of the N word set is added to the user language model to add a user-specific vocabulary, User-specific User language model learning means for learning expressions, so that user-specific vocabulary and expressions can be added to the user language model, and the recognition performance can be enhanced in response to user-specific utterance variations Play.
[0160]
As described above, the speech recognition text input device according to claim 2 of the present invention includes a learning start notification means for generating a learning start notification in response to a user operation, and a learning start notification from the learning start notification means. And a control means for activating the user language model learning means after receiving the text, the text can be learned at any time during the text, and the text can be input with high accuracy after the learning.
[0161]
As described above, the speech recognition text input device according to claim 3 of the present invention, after detecting the character correction by the detection means, the detection means for detecting that the character has been corrected by the correction means, Since it further comprises control means for activating the user language model learning means, there is an effect that the operation of the learning button can be made unnecessary.
[0162]
The speech recognition text input device according to claim 4 of the present invention can recognize the sentence example of the target business because the language model is the target business language model learned from the sentence example of the target business as described above. There is an effect.
[0163]
As described above, since the speech recognition text input device according to claim 5 of the present invention further includes the background language model learned from the general text example, it is possible to reduce recognition errors in text input outside business. Play.
[0164]
As described above, the speech recognition text input device according to claim 6 of the present invention includes a sentence example storage means for storing a sentence example for use in learning of the target business language model, and the sentence example based on the user text. Since it further comprises a sentence example adding means for adding to the storage means and a language model learning means for creating the target business language model using the sentence examples stored in the sentence example storage means, the user's vocabulary over a relatively long period of time In addition, the user's voice can be recognized in consideration of the usage tendency of the grammar.
[0165]
As described above, the speech recognition text input device according to claim 7 of the present invention analyzes the analyzed text example storage means for storing the analyzed text example for use in learning the target business language model, and analyzes the user text. A sentence analyzing means for outputting the analysis result, an analyzed sentence example adding means for additionally storing the analyzed sentence example analyzed by the sentence analyzing means in the analyzed sentence example storing means, and the analyzed sentence example storing means Language model learning means for creating the target business language model using the analyzed sentence example, and the user language model learning means creates the user language model using the analyzed sentence example from the sentence analyzing means. Therefore, there is an effect that the calculation amount required for the analysis of the user text can be completed only once.
[0166]
As described above, the speech recognition text input device according to claim 8 of the present invention, when there is an unknown word in the user text, uses the syllable recognition result of the user utterance as the pronunciation as a pronunciation to the text analysis means. Since it is further provided with an unknown word extraction means to be delivered, there is an effect that an unknown word that does not exist in the sentence analysis dictionary can be subsequently input even if the user inputs an unknown word by the correction means.
[0167]
In the speech recognition text input device according to claim 9 of the present invention, as described above, the speech character conversion unit classifies the words of the language model into classes, and arranges words that are not included in the sentence examples from the characteristics of class arrangement. A language probability estimating means for estimating a probability of the word, a preliminary search means for creating a word lattice using the probability estimated by the language probability estimating means, and the word lattice using the probability estimated by the language probability estimating means Therefore, it is possible to cope with a case where the number of sentence examples that can be used for learning the language model is small.
[0168]
In the speech recognition text input device according to claim 10 of the present invention, as described above, the speech character conversion unit classifies the words of the language model into classes, and arranges words that are not included in the sentence example from the characteristics of class arrangement. Language probability estimation means for estimating the probability of recognition, a difference model storing a recognition error tendency of a basic symbol string, basic symbol string recognition means for recognizing a basic symbol string without referring to the language model, and the recognized Since it has a word string search means for searching a word string using the language model from the basic symbol string via the difference model and the language probability estimation means, the likelihood calculation can be reduced to once per utterance. Play.
[0169]
As described above, the speech recognition text input device according to claim 11 of the present invention is a speech input means for inputting speech, a text buffer for temporarily storing a word string converted from speech to characters, and temporary storage in the text buffer. A client computer having display means for displaying the displayed characters, and correction means for correcting the characters displayed on the display means as needed by a user operation to create user text; and connected to the client computer via a network A language model consisting of N-grams of words, having a user-specific vocabulary and consisting of N-grams of words User-specific vocabulary and expressions can be added from user text created by user operations. A user language model, an acoustic model composed of a phoneme environment-dependent phoneme HMM, the language model, and the user language model, Calculate the likelihood of the word string with the respective language model and based on the larger likelihood, A speech character converting means for converting the input speech into a word string having the maximum likelihood; and an analysis dictionary dedicated to text analysis which is a dictionary specialized for the target business, and the user text is referred to the analysis dictionary. Are divided into words constituting the user text, and all consecutive sets of N words (N is an integer) are extracted from the divided word strings, and the extracted sets of N words are aggregated to obtain N Count the number of occurrences for each set of words, add the number of occurrences of a set of N words to the user language model, User-specific Since the host computer having the user language model learning means for learning the expression is provided, it is possible to provide a language model having a wider coverage with respect to utterance variations than a single user.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 1 of the present invention.
FIG. 2 is a flowchart showing the operation of the user language model learning means of the speech recognition text input device according to Embodiment 1 of the present invention.
FIG. 3 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 2 of the present invention.
FIG. 4 is a diagram showing a display example of display means of a speech recognition text input device according to Embodiment 2 of the present invention.
FIG. 5 is a flowchart showing operations of learning start notifying means, control means, and user language model learning means of the speech recognition text input device according to Embodiment 2 of the present invention;
FIG. 6 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 3 of the present invention.
FIG. 7 is a flowchart showing operations of a detection unit, a control unit, and a user language model learning unit of a speech recognition text input device according to Embodiment 3 of the present invention.
FIG. 8 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 4 of the present invention.
FIG. 9 is a flowchart showing the operation of the language model learning means of the speech recognition text input device according to Embodiment 4 of the present invention.
FIG. 10 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 5 of the present invention.
FIG. 11 is a flowchart showing the operation of the speech character conversion means of the speech recognition text input device according to Embodiment 5 of the present invention;
FIG. 12 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 6 of the present invention.
FIG. 13 is a flowchart showing operations of a sentence example adding unit and a language model learning unit of the speech recognition text input device according to Embodiment 6 of the present invention;
FIG. 14 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 7 of the present invention.
FIG. 15 is a flowchart showing operations of a sentence analyzing unit, an analyzed sentence example adding unit, and a language model learning unit of a speech recognition sentence input device according to Embodiment 7 of the present invention;
FIG. 16 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 8 of the present invention.
FIG. 17 is a flowchart showing the operation of the speech recognition text input device according to Embodiment 8 of the present invention;
FIG. 18 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 9 of the present invention.
FIG. 19 is a flowchart showing the operation of the speech recognition text input device according to Embodiment 9 of the present invention.
FIG. 20 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 10 of the present invention.
FIG. 21 is a flowchart showing the operation of the speech recognition text input device according to Embodiment 10 of the present invention.
FIG. 22 is a diagram showing a configuration of a speech recognition text input device according to Embodiment 11 of the present invention.
FIG. 23 is a diagram showing a configuration of a conventional speech recognition text input device.
[Explanation of symbols]
2 voice input means, 3 language model, 3a target business language model, 3b user language model, 3c background language model, 4 speech character conversion means, 5 text buffer, 6 display means, 7 user operation, 7a user operation, 8 correction means 8a learning start notification means, 8b detection means, 9 user text, 10 user language model learning means, 11 control means, 12 sentence example addition means, 12a sentence analysis means, 12b analyzed sentence example addition means, 13 sentence example storage means, 13a analysis Example sentence storage means, 14 language model learning means, 15 unknown word extraction means, 41 preliminary search means, 41a basic symbol string recognition means, 42 language probability estimation means, 43 word string search means, 43a word string search means, 44 differential model , 200 network, 201 host computer, 202 client computer.

Claims (11)

単語のNグラムからなる言語モデルと、
ユーザ固有の語彙を有し単語のNグラムからなり、ユーザ操作によって作成されるユーザテキストからユーザ固有の語彙、表現を追加することができるユーザ言語モデルと、
音声を入力する音声入力手段と、
音素環境依存の音素HMMからなる音響モデル、前記言語モデル及び前記ユーザ言語モデルを参照して、音声認識処理によって、単語列の尤度を前記それぞれの言語モデルで計算して大きいほうの尤度に基づいて、入力音声を尤度が最大の単語列に変換する音声文字変換手段と、
前記音声文字変換手段により変換された単語列を一時記憶するテキストバッファと、
前記テキストバッファに一時記憶された文字を表示する表示手段と、
前記表示手段に表示された文字をユーザ操作によって必要に応じて修正してユーザテキストを作成する修正手段と、
対象業務に特化した辞書であるテキスト解析専用の解析用辞書を有し、前記解析用辞書を参照して前記ユーザテキストを解析し、前記ユーザテキストを構成する単語に分割し、分割された単語の列から、連続するN単語(Nは整数)の組をもれなく抽出し、抽出したN単語の組を集計してN単語の組毎の出現回数をカウントし、N単語の組の出現回数を前記ユーザ言語モデルに追加してユーザ固有の語彙、ユーザ固有の表現を学習するユーザ言語モデル学習手段と
を備えたことを特徴とする音声認識文章入力装置。
A language model consisting of N-grams of words;
Ri Do from the N-gram of the word has a user-specific vocabulary, and user language model that user-specific vocabulary, Ru can add representation from user text that is created by the user operation,
Voice input means for inputting voice;
With reference to an acoustic model consisting of a phoneme environment-dependent phoneme HMM, the language model, and the user language model, the likelihood of a word string is calculated with the respective language model by speech recognition processing to obtain a larger likelihood. Based on the phonetic character conversion means for converting the input speech into a word string with the maximum likelihood,
A text buffer for temporarily storing the word string converted by the phonetic character conversion means;
Display means for displaying characters temporarily stored in the text buffer;
Correction means for correcting the characters displayed on the display means as needed by user operation to create user text;
It has an analysis dictionary dedicated to text analysis, which is a dictionary specialized for the target business, analyzes the user text with reference to the analysis dictionary, divides it into words constituting the user text, and the divided words All the consecutive N word pairs (N is an integer) are extracted from the sequence of N, the extracted N word pairs are totaled, the number of occurrences for each N word group is counted, and the number of occurrences of the N word group is calculated. A speech recognition sentence input device comprising: a user language model learning means for learning a user- specific vocabulary and a user-specific expression in addition to the user language model.
ユーザ操作に呼応して学習開始の通知を発生する学習開始通知手段と、
前記学習開始通知手段からの学習開始の通知を受けてから前記ユーザ言語モデル学習手段を起動する制御手段と
をさらに備えたことを特徴とする請求項1記載の音声認識文章入力装置。
Learning start notification means for generating a learning start notification in response to a user operation;
The speech recognition text input device according to claim 1, further comprising: a control unit that activates the user language model learning unit after receiving a learning start notification from the learning start notification unit.
前記修正手段により文字が修正されたことを検知する検知手段と、
前記検知手段により前記文字修正が検知された後、前記ユーザ言語モデル学習手段を起動する制御手段と
をさらに備えたことを特徴とする請求項1記載の音声認識文章入力装置。
Detecting means for detecting that the character has been corrected by the correcting means;
The speech recognition text input device according to claim 1, further comprising: a control unit that activates the user language model learning unit after the character correction is detected by the detection unit.
前記言語モデルは、対象業務の文例から学習した対象業務言語モデルである
ことを特徴とする請求項1記載の音声認識文章入力装置。
The speech recognition text input device according to claim 1, wherein the language model is a target business language model learned from a sentence example of the target business.
一般文例から学習した背景言語モデル
をさらに備えたことを特徴とする請求項4記載の音声認識文章入力装置。
The speech recognition sentence input device according to claim 4, further comprising a background language model learned from a general sentence example.
前記対象業務言語モデルの学習に用いるための文例を記憶する文例記憶手段と、
前記ユーザテキストに基いて文例を前記文例記憶手段に追加する文例追加手段と、
前記文例記憶手段に記憶された文例を用いて前記対象業務言語モデルを作成する言語モデル学習手段と
をさらに備えたことを特徴とする請求項4記載の音声認識文章入力装置。
A sentence example storage means for storing a sentence example for use in learning of the target business language model;
Sentence example adding means for adding a sentence example to the sentence example storage means based on the user text;
The speech recognition text input device according to claim 4, further comprising: a language model learning unit that creates the target business language model using a sentence example stored in the sentence example storage unit.
前記対象業務言語モデルの学習に用いるための解析済文例を記憶する解析済文例記憶手段と、
前記ユーザテキストを解析して解析結果を出力する文章解析手段と、
前記文章解析手段により解析された解析済文例を前記解析済文例記憶手段に追加記憶する解析済文例追加手段と、
前記解析済文例記憶手段に記憶された解析済文例を用いて前記対象業務言語モデルを作成する言語モデル学習手段と
をさらに備え、
前記ユーザ言語モデル学習手段は、前記文章解析手段からの解析済文例を用いて前記ユーザ言語モデルを作成する
ことを特徴とする請求項4記載の音声認識文章入力装置。
An analyzed sentence example storage means for storing an analyzed sentence example for use in learning of the target business language model;
Sentence analysis means for analyzing the user text and outputting an analysis result;
An analyzed sentence example adding means for additionally storing the analyzed sentence example analyzed by the sentence analyzing means in the analyzed sentence example storage means;
Language model learning means for creating the target business language model using the analyzed sentence examples stored in the analyzed sentence example storage means,
The speech recognition text input device according to claim 4, wherein the user language model learning unit creates the user language model by using an analyzed sentence example from the text analysis unit.
前記ユーザテキスト中に未知語が存在する場合、ユーザ発話の音節認識結果を発音として前記未知語とともに前記文章解析手段に受け渡す未知語抽出手段
をさらに備えたことを特徴とする請求項7記載の音声認識文章入力装置。
8. The method according to claim 7, further comprising: an unknown word extracting unit that, when an unknown word is present in the user text, delivers a syllable recognition result of a user utterance as a pronunciation together with the unknown word to the sentence analyzing unit Voice recognition text input device.
前記音声文字変換手段は、
前記言語モデルの単語をクラスに分類し、クラスの並び方の特徴から文例にない単語の並び方の確率を推定する言語確率推定手段と、
前記言語確率推定手段により推定された確率を用いて単語ラティスを作成する予備探索手段と、
前記言語確率推定手段により推定された確率を用いて前記単語ラティスから単語列を探索する単語列探索手段とを有する
ことを特徴とする請求項1から請求項8までのいずれかに記載の音声認識文章入力装置。
The phonetic character conversion means includes:
Language probability estimation means for classifying the words of the language model into classes, and estimating the probability of arranging words not in the sentence example from the characteristics of the class arrangement;
Preliminary search means for creating a word lattice using the probabilities estimated by the language probability estimation means;
The speech recognition according to any one of claims 1 to 8, further comprising: a word string search unit that searches a word string from the word lattice using the probability estimated by the language probability estimation unit. Text input device.
前記音声文字変換手段は、
前記言語モデルの単語をクラスに分類し、クラスの並び方の特徴から文例にない単語の並び方の確率を推定する言語確率推定手段と、
基本記号列の認識誤り傾向を記憶した差分モデルと、
前記言語モデルを参照することなく基本記号列を認識する基本記号列認識手段と、
前記認識された基本記号列から前記差分モデル及び前記言語確率推定手段を介して前記言語モデル用いて単語列の探索を行う単語列探索手段とを有する
ことを特徴とする請求項1から請求項8までのいずれかに記載の音声認識文章入力装置。
The phonetic character conversion means includes:
Language probability estimation means for classifying the words of the language model into classes, and estimating the probability of arranging words not in the sentence example from the characteristics of the class arrangement;
A difference model that stores the recognition error tendency of the basic symbol string,
Basic symbol string recognition means for recognizing a basic symbol string without referring to the language model;
9. A word string search means for searching a word string from the recognized basic symbol string using the language model via the difference model and the language probability estimation means. The speech recognition text input device according to any of the above.
音声を入力する音声入力手段、
音声から文字へ変換された単語列を一時記憶するテキストバッファ、
前記テキストバッファに一時記憶された文字を表示する表示手段、及び
前記表示手段に表示された文字をユーザ操作によって必要に応じて修正してユーザテキストを作成する修正手段を有するクライアントコンピュータと、
前記クライアントコンピュータにネットワークを通じて接続され、
単語のNグラムからなる言語モデル、
ユーザ固有の語彙を有し単語のNグラムからなり、ユーザ操作によって作成されるユーザテキストからユーザ固有の語彙、表現を追加することができるユーザ言語モデル、
音素環境依存の音素HMMからなる音響モデル、前記言語モデル及び前記ユーザ言語モデルを参照して、音声認識処理によって、単語列の尤度を前記それぞれの言語モデルで計算して大きいほうの尤度に基づいて、入力音声を尤度が最大の単語列に変換する音声文字変換手段、及び
対象業務に特化した辞書であるテキスト解析専用の解析用辞書を有し、前記解析用辞書を参照して前記ユーザテキストを解析し、前記ユーザテキストを構成する単語に分割し、分割された単語の列から、連続するN単語(Nは整数)の組をもれなく抽出し、抽出したN単語の組を集計してN単語の組毎の出現回数をカウントし、N単語の組の出現回数を前記ユーザ言語モデルに追加してユーザ固有の語彙、ユーザ固有の表現を学習するユーザ言語モデル学習手段を有するホストコンピュータと
を備えたことを特徴とする音声認識文章入力装置。
Voice input means for inputting voice,
A text buffer that temporarily stores word strings converted from speech to characters,
Display means for displaying characters temporarily stored in the text buffer; and a client computer having correction means for correcting the characters displayed on the display means as needed by user operation to create user text;
Connected to the client computer through a network;
A language model consisting of N-grams of words,
Ri Do from the N-gram of the word has a user-specific vocabulary, user language model from the user text that is created by the user operation user-specific vocabulary, Ru can be added to representation,
With reference to an acoustic model consisting of a phoneme environment-dependent phoneme HMM, the language model, and the user language model, the likelihood of a word string is calculated with the respective language model by speech recognition processing to obtain a larger likelihood. Based speech conversion means for converting the input speech into a word string with the maximum likelihood, and an analysis dictionary dedicated to text analysis, which is a dictionary specialized for the target business, with reference to the analysis dictionary The user text is analyzed, divided into words constituting the user text, a set of consecutive N words (N is an integer) is extracted from the divided word sequence, and the set of extracted N words is tabulated. User language model learning means for counting the number of appearances for each set of N words and adding the number of appearances of the set of N words to the user language model to learn user-specific vocabulary and user-specific expressions A speech recognition text input device, comprising: a host computer having:
JP2001023736A 2001-01-31 2001-01-31 Voice recognition text input device Expired - Fee Related JP4089861B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001023736A JP4089861B2 (en) 2001-01-31 2001-01-31 Voice recognition text input device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001023736A JP4089861B2 (en) 2001-01-31 2001-01-31 Voice recognition text input device

Publications (2)

Publication Number Publication Date
JP2002229585A JP2002229585A (en) 2002-08-16
JP4089861B2 true JP4089861B2 (en) 2008-05-28

Family

ID=18888985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001023736A Expired - Fee Related JP4089861B2 (en) 2001-01-31 2001-01-31 Voice recognition text input device

Country Status (1)

Country Link
JP (1) JP4089861B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4267385B2 (en) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション Statistical language model generation device, speech recognition device, statistical language model generation method, speech recognition method, and program
WO2007097176A1 (en) * 2006-02-23 2007-08-30 Nec Corporation Speech recognition dictionary making supporting system, speech recognition dictionary making supporting method, and speech recognition dictionary making supporting program
JP4897737B2 (en) * 2008-05-12 2012-03-14 日本電信電話株式会社 Word addition device, word addition method, and program thereof
JP5160594B2 (en) * 2010-06-17 2013-03-13 株式会社エヌ・ティ・ティ・ドコモ Speech recognition apparatus and speech recognition method
JP2013072974A (en) * 2011-09-27 2013-04-22 Toshiba Corp Voice recognition device, method and program
JP6277659B2 (en) * 2013-10-15 2018-02-14 三菱電機株式会社 Speech recognition apparatus and speech recognition method
KR102375800B1 (en) 2017-04-28 2022-03-17 삼성전자주식회사 electronic device providing speech recognition service and method thereof
KR102004187B1 (en) * 2017-09-14 2019-10-17 (주) 엠티콤 Voice recognition apparatus, and control method thereof
KR102281515B1 (en) 2019-07-23 2021-07-26 엘지전자 주식회사 Artificial intelligence apparatus for recognizing speech of user using personalized language model and method for the same
KR102152902B1 (en) * 2020-02-11 2020-09-07 주식회사 엘솔루 Method for converting voice data into text data and speech-to-text device performing method
JP7481999B2 (en) 2020-11-05 2024-05-13 株式会社東芝 Dictionary editing device, dictionary editing method, and dictionary editing program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
JP2002229585A (en) 2002-08-16

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
EP0965978B1 (en) Non-interactive enrollment in speech recognition
US7251600B2 (en) Disambiguation language model
JP5040909B2 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
US7085716B1 (en) Speech recognition using word-in-phrase command
JPH03224055A (en) Method and device for input of translation text
JP2008209717A (en) Device, method and program for processing inputted speech
WO2008069139A1 (en) Speech recognition system and speech recognition system program
JP2009139862A (en) Voice recognition apparatus and computer program
JP4089861B2 (en) Voice recognition text input device
US8219386B2 (en) Arabic poetry meter identification system and method
JPWO2011033834A1 (en) Speech translation system, speech translation method, and recording medium
JP6233867B2 (en) Dictionary registration system for speech recognition, speech recognition system, speech recognition service system, method and program
JP2012003090A (en) Speech recognizer and speech recognition method
JP4839291B2 (en) Speech recognition apparatus and computer program
JP6001944B2 (en) Voice command control device, voice command control method, and voice command control program
JP2004133003A (en) Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus
JP4220151B2 (en) Spoken dialogue device
KR102299269B1 (en) Method and apparatus for building voice database by aligning voice and script
KR20110119478A (en) Apparatus for speech recognition and method thereof
JP5596869B2 (en) Voice recognition device
JP2012255867A (en) Voice recognition device
JP2004184951A (en) Method, device, and program for class identification model, and method, device, and program for class identification
JP2004021207A (en) Phoneme recognizing method, phoneme recognition system and phoneme recognizing program
JP2011039468A (en) Word searching device using speech recognition in electronic dictionary, and method of the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070416

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080221

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120307

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140307

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees