JP2002229585A

JP2002229585A - 音声認識文章入力装置

Info

Publication number: JP2002229585A
Application number: JP2001023736A
Authority: JP
Inventors: Yoshiharu Abe; 芳春阿部; Yuzo Maruta; 裕三丸田; Hirotaka Goi; 啓恭伍井; Shinobu Arai; 忍新井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-01-31
Filing date: 2001-01-31
Publication date: 2002-08-16
Anticipated expiration: 2021-01-31
Also published as: JP4089861B2

Abstract

(57)【要約】【課題】従来、特殊な用語や言い回しを含む専門文章
の認識は困難であるという課題があった。【解決手段】言語モデル３と、ユーザ固有の語彙を有
するユーザ言語モデル３ｂと、音声を入力する音声入力
手段２と、前記言語モデル及び前記ユーザ言語モデルを
参照して単語列の尤度を計算して前記音声を文字に変換
する音声文字変換手段４と、前記音声文字変換手段の出
力文字の単語列を一時記憶するテキストバッファ５と、
前記テキストバッファに一時記憶された文字を表示する
表示手段６と、前記表示手段に表示された文字を修正し
てユーザテキストを作成する修正手段８と、前記ユーザ
テキストを解析して前記ユーザ言語モデルにユーザ固有
の語彙を追加して更新するユーザ言語モデル学習手段１
０とを備えた。【効果】ユーザ固有の語彙や表現をユーザ言語モデル
に追加することができ、ユーザ固有の発話バリエーショ
ンに対応して認識性能を高めることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声を認識して
文章を入力する業務自動適応機能を有する音声認識文章
入力装置に関するものである。

【０００２】

【従来の技術】利便性や特別な訓練が不要であることな
どから、音声入力による文書作成への期待は極めて高
く、音声認識による日本語の文章入力ソフトウェアが各
社から市販され注目を浴びている。

【０００３】従来の音声認識文章入力装置について図面
を参照しながら説明する。図２３は、上記のソフトウェ
アをコンピュータで動作させることで実現される従来の
音声認識文章入力装置の一般的なブロック構成を示す図
である。

【０００４】図２３において、１は音声、２は入力の音
声１を取り込む音声入力手段、３は例えば単語のＮグラ
ムからなる言語モデル、４は言語モデル３を参照して音
声入力手段２が取得した入力音声１を単語の列に変換す
る音声文字変換手段、５は音声文字変換手段４の出力単
語列を一時記憶するテキストバッファ、６はテキストバ
ッファ５に記憶された文字を表示する表示手段、８はユ
ーザ操作７によってテキストバッファ５中の文字を修正
する修正手段、９はテキストバッファ５から抽出される
ユーザが作成したユーザテキストである。なお、言語モ
デル３としては、単語連鎖の統計量に基づくＮｇｒａｍ
（例えばＮ＝３）が用いられる。

【０００５】つぎに、従来の音声認識文章入力装置の動
作について図面を参照しながら説明する。

【０００６】上記の構成において、ユーザの音声１は、
音声文字変換手段４によって言語モデル３に記憶された
単語連鎖の情報に従って単語列に変換され、テキストバ
ッファ５に一時記憶されると同時に、表示手段６によっ
てユーザに表示される。

【０００７】ユーザは、表示手段６の表示に基づいてテ
キストバッファ５に一時記憶されたテキスト中の認識誤
りを修正して、最終的に所望のユーザテキスト９を得る
ことが可能である。

【０００８】しかし、このような従来の音声認識文章入
力装置では、言語モデル３を新聞やＷＥＢなどの大量の
一般文例から作成しているため、特殊な用語や言い回し
を含む専門文章の認識は困難である。また、単に、専門
用語を登録するだけでは認識性能が不十分である。この
課題点に関しては、特開２０００−２５０５８４号公報
にも述べられている。

【０００９】これに対して、専門業務で蓄積された文例
から、専門業務分野に対応した言語モデルを作成する方
法も考えられるが、一般に専門業務ごとの文章蓄積が少
なく（高々１万文程度）、有効な言語モデルの作成は困
難とされている。例えば、言語モデルとして単語のＮグ
ラムを用いる場合、Ｎ＝３のとき、１００万〜１０００
万以上の例文が必要と言われている。

【００１０】このため、特開平１０−１９８３９５号公
報に開示された音声認識装置では、予め特定業務（タス
ク）のデータを複数の業務から用意して、これらを事前
知識として用いて、文章入力の対象の業務に適応した言
語モデルを生成している。

【００１１】しかし、この方法を、例えば極めて専門性
の高い業務（例えば、医療の特定診療科目）に適応する
場合、事前に用意する学習用の特定業務のテキストデー
タは、適用対象の業務の専門用語や業務特有の表現（単
語連鎖）が含まれていないことが多く、これら学習用テ
キストデータには、事前知識としての価値がほとんどな
いという課題がある。

【００１２】一方、従来から認識対象の文章を単語のネ
ットワークで表現した言語モデルを用いる構文駆動の音
声認識の方法が知られているが、この場合、極めて専門
性の高い分野を扱う場合には、少量の文例から、多大の
労力と時間をかけて語彙・文法を作る必要があるという
課題がある。

【００１３】また、このように、対象業務の少量文章か
ら作られた言語モデルでは、なお、文例に含まれないよ
うな表現、個人ごとの表現のゆらぎに対して認識性能の
劣化が著しいという課題は解消されていない。

【００１４】以上のようなことから、専門業務用ディク
テーションソフトウェアの実用化は、進んでいないのが
実情であった。

【００１５】

【発明が解決しようとする課題】上述したような従来の
音声認識文章入力装置では、言語モデルを新聞やＷＥＢ
などの大量の一般文例から作成しているため、特殊な用
語や言い回しを含む専門文章の認識は困難であるという
問題点があった。

【００１６】この発明は、前述した問題点を解決するた
めになされたもので、特定対象業務に適応し、しかも発
話バリエーションに対して許容度が高い言語モデルを効
果的に生成し、さらにシステム使用中に発生する未知の
表現などに対する発話の自由度を改善した専門家向けの
高い認識性能と十分な信頼性を持ち、多種業務への適応
性に優れた音声認識文章入力装置を得ることを目的とす
る。

【００１７】

【課題を解決するための手段】この発明の請求項１に係
る音声認識文章入力装置は、単語のＮグラムからなる言
語モデルと、ユーザ固有の語彙を有し単語のＮグラムか
らなるユーザ言語モデルと、音声を入力する音声入力手
段と、前記言語モデル及び前記ユーザ言語モデルを参照
して単語列の尤度を計算して前記音声を文字に変換する
音声文字変換手段と、前記音声文字変換手段の出力文字
の単語列を一時記憶するテキストバッファと、前記テキ
ストバッファに一時記憶された文字を表示する表示手段
と、前記表示手段に表示された文字を修正してユーザテ
キストを作成する修正手段と、前記ユーザテキストを解
析して前記ユーザ言語モデルにユーザ固有の語彙を追加
して更新するユーザ言語モデル学習手段とを備えたもの
である。

【００１８】この発明の請求項２に係る音声認識文章入
力装置は、ユーザ操作に呼応して学習開始の通知を発生
する学習開始通知手段と、前記学習開始通知手段からの
学習開始の通知を受けてから前記ユーザ言語モデル学習
手段を起動する制御手段とをさらに備えたものである。

【００１９】この発明の請求項３に係る音声認識文章入
力装置は、前記修正手段により文字が修正されたことを
検知する検知手段と、前記検知手段により前記文字修正
が検知された後、前記ユーザ言語モデル学習手段を起動
する制御手段とをさらに備えたものである。

【００２０】この発明の請求項４に係る音声認識文章入
力装置は、前記言語モデルを、対象業務の文例から学習
した対象業務言語モデルとしたものである。

【００２１】この発明の請求項５に係る音声認識文章入
力装置は、一般文例から学習した背景言語モデルをさら
に備えたものである。

【００２２】この発明の請求項６に係る音声認識文章入
力装置は、前記対象業務言語モデルの学習に用いるため
の文例を記憶する文例記憶手段と、前記ユーザテキスト
に基いて文例を前記文例記憶手段に追加する文例追加手
段と、前記文例記憶手段に記憶された文例を用いて前記
対象業務言語モデルを作成する言語モデル学習手段とを
さらに備えたものである。

【００２３】この発明の請求項７に係る音声認識文章入
力装置は、前記対象業務言語モデルの学習に用いるため
の解析済文例を記憶する解析済文例記憶手段と、前記ユ
ーザテキストを解析して解析結果を出力する文章解析手
段と、前記文章解析手段により解析された解析済文例を
前記解析済文例記憶手段に追加記憶する解析済文例追加
手段と、前記解析済文例記憶手段に記憶された解析済文
例を用いて前記対象業務言語モデルを作成する言語モデ
ル学習手段とをさらに備え、前記ユーザ言語モデル学習
手段は、前記文章解析手段からの解析済文例を用いて前
記ユーザ言語モデルを作成するものである。

【００２４】この発明の請求項８に係る音声認識文章入
力装置は、前記ユーザテキスト中に未知語が存在する場
合、ユーザ発話の音節認識結果を発音として前記未知語
とともに前記文章解析手段に受け渡す未知語抽出手段を
さらに備えたものである。

【００２５】この発明の請求項９に係る音声認識文章入
力装置は、前記音声文字変換手段が、前記言語モデルの
単語をクラスに分類し、クラスの並び方の特徴から文例
にない単語の並び方の確率を推定する言語確率推定手段
と、前記言語確率推定手段により推定された確率を用い
て単語ラティスを作成する予備探索手段と、前記言語確
率推定手段により推定された確率を用いて前記単語ラテ
ィスから単語列を探索する単語列探索手段とを有するも
のである。

【００２６】この発明の請求項１０に係る音声認識文章
入力装置は、前記音声文字変換手段が、前記言語モデル
の単語をクラスに分類し、クラスの並び方の特徴から文
例にない単語の並び方の確率を推定する言語確率推定手
段と、基本記号列の認識誤り傾向を記憶した差分モデル
と、前記言語モデルを参照することなく基本記号列を認
識する基本記号列認識手段と、前記認識された基本記号
列から前記差分モデル及び前記言語確率推定手段を介し
て前記言語モデル用いて単語列の探索を行う単語列探索
手段とを有するものである。

【００２７】この発明の請求項１１に係る音声認識文章
入力装置は、音声を入力する音声入力手段、音声から文
字へ変換された単語列を一時記憶するテキストバッフ
ァ、前記テキストバッファに一時記憶された文字を表示
する表示手段、及び前記表示手段に表示された文字を修
正してユーザテキストを作成する修正手段を有するクラ
イアントコンピュータと、前記クライアントコンピュー
タにネットワークを通じて接続され、単語のＮグラムか
らなる言語モデル、ユーザ固有の語彙を有し単語のＮグ
ラムからなるユーザ言語モデル、前記言語モデル及び前
記ユーザ言語モデルを参照して単語列の尤度を計算して
前記音声を文字に変換する音声文字変換手段、及び前記
ユーザテキストを解析して前記ユーザ言語モデルにユー
ザ固有の語彙を追加して更新するユーザ言語モデル学習
手段を有するホストコンピュータとを備えたものであ
る。

【００２８】

【発明の実施の形態】実施の形態１．この発明の実施の
形態１に係る音声認識文章入力装置について図面を参照
しながら説明する。図１は、この発明の実施の形態１に
係る音声認識文章入力装置の構成を示す図である。な
お、各図中、同一符号は同一又は相当部分を示す。

【００２９】図１において、２はユーザの発話した音声
１を取り込む音声入力手段、３は言語モデル、３ｂはユ
ーザ言語モデル、４は言語モデル３とユーザ言語モデル
３ｂとを参照して音声入力手段２が取得した入力音声１
を単語の列に変換する音声文字変換手段、５は音声文字
変換手段４の出力単語列を一時記憶するテキストバッフ
ァ、６はテキストバッファ５に記憶された文字を表示す
る表示手段、８はユーザ操作７によってテキストバッフ
ァ５中の文字を修正する修正手段、９はテキストバッフ
ァ５から抽出されるユーザが作成したユーザテキスト、
１０はユーザテキスト９を解析してユーザ言語モデル３
ｂを作成するユーザ言語モデル学習手段である。

【００３０】つぎに、この実施の形態１に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図２は、この発明の実施の形態１に係る音声認識文
章入力装置のユーザ言語モデル学習手段の動作を示すフ
ローチャートである。

【００３１】音声入力手段２は、ユーザの発話した音声
１を取り込む。次に、音声文字変換手段４は、音素環境
依存の音素ＨＭＭからなる音響モデル、並びに言語モデ
ル３及び３ｂを参照して、公知の音声認識処理によっ
て、入力音声を尤度が最大の単語列に変換する。

【００３２】ここで、単語列の尤度は、単語列と入力音
声との照合尤度（音響尤度）、および、言語モデル３お
よびユーザ言語モデル３ｂに基づく単語列の尤度（言語
尤度）の積（対数領域では和）として計算される。

【００３３】音響尤度は、単語列の発音記号に従って音
素環境依存音素ＨＭＭを並べた音響モデルに対して音声
１の特徴ベクトルを入力したときの尤度として計算され
る。言語モデル３およびユーザ言語モデル３ｂは、それ
ぞれ、単語のＮグラムからなる。

【００３４】言語尤度は、単語列の尤度をそれぞれの言
語モデルで計算し大きい方の尤度を用いる。

【００３５】音声文字変換手段４による音声１から単語
列への変換結果は、テキストバッファ５に記憶される。
表示手段６は、テキストバッファ５中の文字をコンピュ
ータのディスプレイ上に表示する。

【００３６】修正手段８は、コンピュータのディスプレ
イ上に表示された文字入力位置を示すカーソル表示位置
に、キーボード入力やマウスなどからなるユーザ操作７
によって、文字の挿入置換削除などの処理を行い、テキ
ストバッファ５中の文字を必要に応じて修正する。な
お、ユーザの発話の文字変換結果自身もキーボード等の
文字列と同等にカーソル表示位置に挿入や置換が可能な
ように構成されている。

【００３７】ユーザは、入力音声１やユーザ操作７を組
み合わせて、目的の文書を作成した結果をユーザテキス
ト９としてコンピュータ上のファイルに記憶する。ユー
ザテキスト９がファイルに記憶されると同時に、ユーザ
テキスト９はユーザ言語モデル学習手段１０に送られ
る。

【００３８】このユーザ言語モデル学習手段１０は、テ
キスト解析専用の解析用の辞書を備え、この辞書を参照
して、ユーザテキスト９を単語（形態素と呼ぶ）の列に
分解し、さらに、単語の連鎖の頻度を計数することによ
り、単語のＮグラムを求め、ユーザ言語モデル３ｂとし
て出力する。

【００３９】つまり、ステップ１０１において、ユーザ
言語モデル学習手段１０は、ユーザテキスト９をファイ
ルから取得する。

【００４０】次に、ステップ１０２において、取得した
ユーザテキスト９を解析して、ユーザテキスト９を構成
する単語（形態素とも呼ばれる）に分割する。この処理
は、公知の形態素解析技術を用いて行う。なお、形態素
解析に用いる辞書は、対象業務に特化した辞書であり、
対象業務で現れる専門用語が登録されている。

【００４１】次に、ステップ１０３において、分割され
た単語の列Ｗｌ、Ｗ２、Ｗ３、・・・から、連続するＮ
単語（Ｎは例えば３）の組をもれなく抽出する。このよ
うに抽出されたＮ単語の組を集計し、Ｎ単語の組毎の出
現回数をカウントする。

【００４２】そして、ステップ１０４において、Ｎ単語
の組の出現回数からなるユーザ言語モデル３ｂを出力す
る。

【００４３】以上のように、ユーザテキスト９からユー
ザ言語モデル３ｂを作成し、以後作成されたユーザ言語
モデル３ｂを参照して音声文字変換するようにしている
ので、ユーザ固有の語彙や表現をユーザ言語モデル３ｂ
に追加することができ、ユーザ固有の発話バリエーショ
ンに対応して認識性能の高い音声認識文章入力装置を提
供できる。

【００４４】すなわち、この実施の形態１に係る音声認
識文章入力装置は、１人以上のユーザが音声を入力して
文章を作成する音声認識文章入力装置において、２つ以
上のそれぞれ独立した言語モデル３、３ａと、前記２つ
以上のそれぞれの独立した言語モデル３、３ａのいずれ
も参照して単語列の尤度を計算して前記音声を文字に変
換する音声文字変換手段４と、前記変換された文字を表
示する表示手段６と、前記表示された文字を前記ユーザ
が修正する修正手段８と、前記ユーザによって修正され
た文字から前記２以上の言語モデルのうちの少なくとも
１つの言語モデルを更新するユーザ言語モデル学習手段
１０とを備えるものである。

【００４５】実施の形態２．この発明の実施の形態２に
係る音声認識文章入力装置について図面を参照しながら
説明する。図３は、この発明の実施の形態２に係る音声
認識文章入力装置の構成を示す図である。

【００４６】上記の実施の形態１では、ユーザテキスト
９をファイルに出力した後で、ユーザテキスト９を用い
てユーザ言語モデル３ｂを作成するようにしたものであ
るが、この実施の形態２では、ユーザテキスト９の作成
途中で随時学習を可能とするものである。

【００４７】図３において、７ａはユーザ操作、８ａは
ユーザ操作７ａに呼応して学習開始の通知を発生する学
習開始通知手段、１１は学習開始通知手段８ａが発生す
る学習開始の通知に基づいてユーザ言語モデル学習手段
１０による処理を開始させるようにプログラムされた制
御手段である。また、ユーザ言語モデル学習手段１０
は、学習開始通知手段８ａが発生する学習開始の通知を
入力するように変更されている。なお、他の構成は、上
記実施の形態１と同様である。

【００４８】つぎに、この実施の形態２に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図４は、この発明の実施の形態２に係る音声認識文
章入力装置の表示手段による表示例を示す図である。ま
た、図５は、この発明の実施の形態２に係る音声認識文
章入力装置の学習開始通知手段、制御手段、及びユーザ
言語モデル学習手段の動作を示すフローチャートであ
る。

【００４９】ユーザの発話した音声１から音声文字変換
手段４によって変換された文字は、テキストバッファ５
に一時記憶される。この一時記憶された文字は、図４に
示すように、表示手段６によってコンピュータディスプ
レイ上に表示された編集用の枠内に表示される。

【００５０】次に、修正手段８は、ユーザ操作７を入力
して、編集用の枠内に表示されたテキストに対して挿入
・削除・置換などの編集を行ない、ユーザテキスト９を
作成する。

【００５１】ユーザ操作７ａは、図４に示すように、表
示手段６の編集用の枠に近接して表示されている学習ボ
タンが押下されることに対応して信号を発生する。学習
開始通知手段８ａは、ユーザ操作７ａの発生した信号か
ら、学習開始の通知を発生し、制御手段１１は、ユーザ
言語モデル学習手段１０のユーザテキスト９を用いる学
習を開始させる。

【００５２】つまり、ステップ２０１において、学習開
始通知手段８ａは、学習ボタンが押されたことを検知す
る。

【００５３】次に、ステップ２０２において、学習開始
通知を発生する。

【００５４】次に、ステップ２０３において、学習開始
通知に基き制御手段１１により起動されたユーザ言語モ
デル学習手段１０は、一時記憶からユーザテキスト９を
取得する。

【００５５】次に、ステップ２０４において、取得した
ユーザテキストを解析して、ユーザテキスト９を構成す
る単語（形態素とも呼ぱれる）に分割する。この処理
は、公知の形態素解析技術を用いて行う。なお、形態素
解析に用いる辞書は、対象業務に特化した辞書であり、
対象業務で現れる専門用語が登録されている。

【００５６】次に、ステップ２０５において、分割され
た単語の列Ｗ１、Ｗ２、Ｗ３・・・から、連続するＮ単
語（Ｎは例えば３）の組をもれなく抽出する。このよう
に抽出されたＮ単語の組を集計し、Ｎ単語の組毎の出現
回数をカウントする。

【００５７】そして、ステップ２０６において、Ｎ単語
の組の出現回数からなるユーザ言語モデル３ｂを出力す
る。

【００５８】以上のように、ユーザがテキストの途中で
随時学習するようにしているので、学習以後はテキスト
を高精度で入力することができる。

【００５９】すなわち、この実施の形態２に係る音声認
識文章入力装置は、修正手段８に、ユーザによって文字
の修正が終了し学習開始を指示する学習開始通知手段８
ａを併設し、この学習開始通知手段８ａの通知を受けて
からユーザ言語モデル学習手段１０を起動させる制御手
段１１とを備えたものである。

【００６０】実施の形態３．この発明の実施の形態３に
係る音声認識文章入力装置について図面を参照しながら
説明する。図６は、この発明の実施の形態３に係る音声
認識文章入力装置の構成を示す図である。

【００６１】上記の実施の形態２では、学習のためユー
ザ操作７ａに基づいてユーザ言語モデル３ｂの学習を行
う場合を示したが、この実施の形態３では、学習のため
の明示的なユーザ操作７ａを不要とするものである。

【００６２】図６において、８ｂは修正手段８に接続さ
れ、ユーザのテキスト修正を検知する検知手段である。
また、１１は検知手段８ｂによるテキスト修正検知に基
づいてユーザ言語モデル学習手段１０によるユーザ言語
モデル３ｂの学習処理を開始させるようにプログラムさ
れた制御手段である。さらに、ユーザ言語モデル学習手
段１０は、検知手段８ｂが発生する学習開始の通知を入
力するように変更されている。

【００６３】つぎに、この実施の形態３に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図７は、この発明の実施の形態３に係る音声認識文
章入力装置の検知手段、制御手段、及びユーザ言語モデ
ル学習手段の動作を示すフローチャートである。

【００６４】検知手段８ｂは、ユーザによる次の発話が
なされ、音声入力手段２が音声の開始端を検知したら直
ぐに修正検知信号を発生して制御手段１１に通知する。
制御手段１１は、ユーザ言語モデル学習手段１０を起動
し、直ちにユーザ言語モデル３ｂを作成し、変更された
ユーザ言語モデル３ｂを参照した音声文字変換手段４
は、この入力音声の認識結果をテキストバッファ５に一
時記憶する。

【００６５】なお、修正検知の方法としては、次の発話
をもって検知するものでなくても、例えば、最後にユー
ザによるテキストバッファ５中の文字の修正がなされて
から一定時間が経過したことによって検知してもよい。

【００６６】つまり、ステップ３０１において、検知手
段８ｂは、ユーザの次の発話がなされたことを検知す
る。

【００６７】次に、ステップ３０２において、学習開始
通知を発生する。

【００６８】次に、ステップ３０３において、学習開始
通知に基き制御手段１１により起動されたユーザ言語モ
デル学習手段１０は、前の発話のユーザテキスト９を一
時記憶から取得する。

【００６９】次に、ステップ３０４において、取得した
ユーザテキスト９を解析して、ユーザテキスト９を構成
する単語（形態素とも呼ばれる）に分割する。この処理
は、公知の形態素解析技術を用いて行う。なお、形態素
解析に用いる辞書は、対象業務に特化した辞書であり、
対象業務で現れる専門用語が登録されている。

【００７０】次に、ステップ３０５において、分割され
た単語の列Ｗｌ、Ｗ２、Ｗ３・・・から、連続するＮ単
語（Ｎは例えば３）の組をもれなく抽出する。このよう
に抽出されたＮ単語の組を集計し、Ｎ単語の組毎の出現
回数をカウントする。

【００７１】そして、ステップ３０６において、Ｎ単語
の組の出現回数からなるユーザ言語モデル３ｂを出力す
る。

【００７２】以上のように、文字修正を装置が検知する
ようにしているので、ユーザの学習ボタンの操作を不要
とすることができる。

【００７３】すなわち、この実施の形態３に係る音声認
識文章入力装置は、修正手段８に、文字がユーザによっ
て修正されたことを検知する検知手段８ｂを併設し、前
記文字修正が検知された後、ユーザ言語モデル学習手段
１０を起動させる制御手段１１とを備えたものである。

【００７４】実施の形態４．この発明の実施の形態４に
係る音声認識文章入力装置について図面を参照しながら
説明する。図８は、この発明の実施の形態４に係る音声
認識文章入力装置の構成を示す図である。

【００７５】この実施の形態４では、上記の実施形態１
〜３において、言語モデル３の代わりに、適用対象の業
務文例から学習した対象業務言語モデル３ａを用いるよ
うにしたものである。

【００７６】図８において、３ａは対象業務言語モデル
である。

【００７７】つぎに、この実施の形態４に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図９は、この発明の実施の形態４に係る音声認識文
章入力装置の言語モデル学習手段の動作を示すフローチ
ャートである。

【００７８】対象業務言語モデル３ａは、対象業務の蓄
積文例から学習されている。従って、対象業務言語モデ
ル３ａの単語連鎖の情報を参照するため音声文字変換手
段４によって、蓄積文例に類似した単語連鎖を認識する
ことができる。

【００７９】つまり、ステップ４０１において、対象業
務の文例を事前に人手で収集する。これらの文例は、電
子化されファイルに蓄積されているものとする。

【００８０】次に、ステップ４０２において、図示して
いない言語モデル学習手段は、電子化されファイルに蓄
積された文例テキストを解析して、文例テキストを構成
する単語（形態素とも呼ばれる）に分割する。この処理
は、公知の形態素解析技術を用いて行う。

【００８１】次に、ステップ４０３において、分割され
た単語の列Ｗｌ、Ｗ２、Ｗ３・・・から、連続するＮ単
語（Ｎは例えば３）の組をもれなく抽出する。このよう
に抽出されたＮ単語の組を集計し、Ｎ単語の組毎の出現
回数をカウントする。

【００８２】そして、ステップ４０４において、Ｎ単語
の組の出現回数からなる対象業務言語モデル３ａを出力
する

【００８３】以上のように、対象業務の蓄積文例から学
習された対象業務言語モデル３ａを備えるようにしてい
るので、対象業務の文例を認識することができる。

【００８４】すなわち、この実施の形態４に係る音声認
識文章入力装置は、２つ以上の言語モデルのうちの少な
くとも１つの言語モデルは、対象業務の文例から学習し
た対象業務言語モデル３ａからなるものを有する。

【００８５】実施の形態５．この発明の実施の形態５に
係る音声認識文章入力装置について図面を参照しながら
説明する。図１０は、この発明の実施の形態５に係る音
声認識文章入力装置の構成を示す図である。

【００８６】上記の実施の形態４では、専門業務文に現
れる確率の高い文例を主に音声入力するようにしたもの
であるが、この実施の形態５では、専門業務文の作成中
にどうしても現れる一般文に対しても認識率が低下しな
いような場合でも認識率が低下しないようにするもので
ある。

【００８７】図１０において、３ａは対象業務言語モデ
ル、３ｂはユーザ言語モデル、３ｃは一般文例から学習
した背景言語モデルである。この背景言語モデル３ｃ
は、図示しない言語モデル学習手段により作成される。

【００８８】つぎに、この実施の形態５に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図１１は、この発明の実施の形態５に係る音声認識
文章入力装置の音声文字変換手段の動作を示すフローチ
ャートである。

【００８９】ユーザの音声１が、例えば、「熱性痙攣と
判断抗痙攣剤６ｍｇ投入」のような業務内発話である場
合は、音声文字変換手段４は、対象業務言語モデル３ａ
の言語尤度が高いため、「熱性痙攣と判断抗痙攣剤６ｍ
ｇ投入」という認識結果を出力する。

【００９０】また、入力音声１が、例えば、「お弁当の
最中に幼稚園で倒れたらしい。」のような業務外発話で
ある場合でも、「お弁当の最中に幼稚園で倒れたらし
い。」という認識結果を出力する。

【００９１】つまり、ステップ５０１において、音声文
字変換手段４は、ユーザ音声１を入力する。

【００９２】次に、ステップ５０２において、ユーザ音
声１に対して、対象業務言語モデル３ａを用いてテキス
ト変換を行い尤度１を計算する。

【００９３】次に、ステップ５０３において、ユーザ音
声１に対して、ユーザ言語モデル３ｂを用いてテキスト
変換を行い尤度２を計算する。

【００９４】次に、ステップ５０４において、ユーザ音
声１に対して、背景言語モデル３ｃを用いてテキスト変
換を行い尤度３を計算する。

【００９５】そして、ステップ５０５において、尤度
１、尤度２、尤度３とを比較して最大の尤度を与えるテ
キスト変換結果を、テキスト変換結果としてテキストバ
ッファ５に出力する。

【００９６】以上のように、一般の文例から学習した背
景言語モデル３ｃを用いるようにしているので、業務外
の文章入力において認識誤りを削減することができる。

【００９７】すなわち、この実施の形態５に係る音声認
識文章入力装置は、２以上の言語モデルは、少なくとも
３以上の言語モデル３ａ〜３ｃからなるとともに、その
うち、少なくとも１つの言語モデルは、対象業務の文例
から学習し、さらに、少なくとも１つの言語モデルは、
対象業務以外の文例から学習した言語モデル３ｃを用い
るものである。

【００９８】実施の形態６．この発明の実施の形態６に
係る音声認識文章入力装置について図面を参照しながら
説明する。図１２は、この発明の実施の形態６に係る音
声認識文章入力装置の構成を示す図である。

【００９９】上記の実施び形態５では、対象業務言語モ
デル３ａは事前に学習されたものであるが、この実施の
形態６では、対象業務言語モデル３ａを更新するもので
ある。

【０１００】図１２において、１２はユーザテキスト９
に接続された文例追加手段、１３は文例追加手段１２に
より追加記憶可能な文例記憶手段、１４は文例記憶手段
１３に記憶された文例から対象業務言語モデル３ａを作
成する言語モデル学習手段である。

【０１０１】つぎに、この実施の形態６に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図１３は、この発明の実施の形態６に係る音声認識
文章入力装置の文例追加手段及び言語モデル学習手段の
動作を示すフローチャートである。

【０１０２】まず、ステップ６０１において、音声文字
変換手段４によって、ユーザの音声１がテキスト（文
字）に変換され、テキストバッファ５に一時記憶された
あと、ユーザがユーザ操作により編集した結果として、
ユーザテキスト９が作成される。

【０１０３】次に、ステップ６０２において、文例追加
手段１２は、ユーザテキスト９を文例記憶手段１３に追
加する。

【０１０４】そして、ステップ６０３において、言語モ
デル学習手段１４は、文例記憶手段１３に記憶された文
例を用いて、対象業務言語モデル３ａを作成する。な
お、この対象業務言語モデル３ａは、複数のユーザの文
例を対象とする。一方、ユーザ言語モデル３ｂは、ユー
ザ毎に作成する。

【０１０５】以上のように、文例追加手段１２によりユ
ーザテキスト９を文例記憶して対象業務言語モデル３ａ
を学習するようにしているので、比較的長期間に渡るユ
ーザの語彙や文法の使用傾向を加味してユーザの音声を
認識することができる。

【０１０６】すなわち、この実施の形態６に係る音声認
識文章入力装置は、対象業務言語モデル３ａの学習に用
いるための文例を記憶する文例記憶手段１３と、ユーザ
の入力した文章を前記文例記憶手段１３に記憶された文
例として追加する文例追加手段１２と、前記文例記憶手
段１３に記憶された文例から前記対象業務の言語モデル
３ａを学習する言語モデル学習手段１４とを備えたもの
である。

【０１０７】実施の形態７．この発明の実施の形態７に
係る音声認識文章入力装置について図面を参照しながら
説明する。図１４は、この発明の実施の形態７に係る音
声認識文章入力装置の構成を示す図である。

【０１０８】上記の実施の形態６では、ユーザテキスト
９を文例記憶手段１３に記憶するようにしたものである
が、この実施の形態７では、ユーザテキスト９を解析
（単語分割）してから記憶するものである。

【０１０９】図１４において、１２ａはユーザテキスト
９を解析して解析結果を出力する文章解析手段、１３ａ
は解析済文例記憶手段、１２ｂは文章解析手段１２ａの
出力する解析結果を解析済文例記憶手段１３ａに追加記
憶する解析済文例追加手段、１４は解析済文例記憶手段
１３ａの解析済文例を用いて対象業務言語モデル３ａを
作成する言語モデル学習手段である。

【０１１０】つぎに、この実施の形態７に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図１５は、この発明の実施の形態７に係る音声認識
文章入力装置の文章解析手段、解析済文例追加手段及び
言語モデル学習手段の動作を示すフローチャートであ
る。

【０１１１】まず、ステップ７０１において、音声文字
変換手段４によって、ユーザの音声１がテキスト（文
字）に変換され、テキストバッファ５に一時記憶された
あと、ユーザがユーザ操作により編集した結果として、
ユーザテキスト９が作成される。

【０１１２】次に、ステップ７０２において、文章解析
手段１２ａは、ユーザテキスト９を形態素解析（単語分
割）する。

【０１１３】次に、ステップ７０３において、解析済文
例追加手段１２ｂは、解析された文例を解析済文例記憶
手段１３ａに追加する。

【０１１４】そして、ステップ７０４において、言語モ
デル学習手段１４は、解析済文例記憶手段１３ａに記憶
された解析済文例を用いて、対象業務言語モデル３ａを
作成する。

【０１１５】以上のように、ユーザテキスト９の文章解
析を行ってその結果をユーザ言語モデル３ｂの作成に用
いると共に、解析済文例記憶手段１３ａに追加記憶する
ようにしているので、ユーザテキスト９の解析に要する
演算量を１回で済ますことができる。

【０１１６】すなわち、この実施の形態７に係る音声認
識文章入力装置は、解析済文例記憶手段１３ａに記憶す
る文例は、解析済の文例としたものである。

【０１１７】実施の形態８．この発明の実施の形態８に
係る音声認識文章入力装置について図面を参照しながら
説明する。図１６は、この発明の実施の形態８に係る音
声認識文章入力装置の構成を示す図である。

【０１１８】上記の実施の形態７では、ユーザのテキス
トに未知語は含まれなかったものであるが、この実施の
形態８では、ユーザのテキストに未知語が含まれる場合
に対応するものである。

【０１１９】図１６において、１５はユーザテキスト９
から未知語を抽出する未知語抽出手段である。

【０１２０】つぎに、この実施の形態８に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図１７は、この発明の実施の形態８に係る音声認識
文章入力装置の動作を示すフローチャートである。

【０１２１】未知語抽出手段１５は、ユーザテキスト９
中に未知語の存在区間と発音を推定し、未知語が存在す
る場合、ユーザに発話を要求する。ユーザ発話の音節認
識結果を発音として、語彙辞書に追加する。

【０１２２】つまり、ステップ８０１において、音声文
字変換手段４によって、ユーザの音声１がテキスト（文
字）に変換され、テキストバッファ５に一時記憶された
あと、ユーザがユーザ操作により編集した結果として、
ユーザテキスト９が作成される。

【０１２３】次に、ステップ８０２において、文章解析
手段１２ａは、ユーザテキスト９を形態素解析する。

【０１２４】次に、ステップ８０３において、形態素解
析結果に未知語が存在する場合は、次のステップ８０４
を実行する。存在しないときはステップ８０５を実行す
る。

【０１２５】次に、ステップ８０４において、未知語抽
出手段１５は、ユーザに未知語の表記を表示するととも
に、その未知語の読みを得るため、ユーザに発話を要求
する。ユーザの発話がなされたら、ユーザの発話を入力
した音声に対して、音節認識を行い、その音節認識結果
をその未知語の発音とする。

【０１２６】次に、ステップ８０５において、解析済文
例追加手段１２ｂは、解析された文例を解析済文例記憶
手段１３ａに追加する。

【０１２７】そして、ステップ８０６において、言語モ
デル学習手段１４は、解析済文例記憶手段１３ａに記憶
された解析済文例を用いて、対象業務言語モデル３ａを
作成する。

【０１２８】以上のように、文章解析用辞書に存在しな
い未知語をその前後の単語連鎖とともに言語モデル３
ａ、３ｂに追加するようにしているので、ユーザが修正
手段８により未知語を入力しても、文章解析用辞書に存
在しない未知語を以後入力することができる。

【０１２９】すなわち、この実施の形態８に係る音声認
識文章入力装置は、修正された文字から未知語を抽出す
る未知語抽出手段１５を有し、言語モデル学習手段１
０、１４は、前記未知語抽出手段１５から抽出される未
知語と未知語を含む単語連鎖を言語モデルに学習するも
のである。

【０１３０】実施の形態９．この発明の実施の形態９に
係る音声認識文章入力装置について図面を参照しながら
説明する。図１８は、この発明の実施の形態９に係る音
声認識文章入力装置の構成を示す図である。

【０１３１】上記の各実施の形態では、言語モデルとし
て単語のＮグラムを用いるようにしたものであるが、こ
の実施の形態９では、単語を分類したクラスのＮグラム
を用いるものである。

【０１３２】図１８において、３ａは単語Ｎグラムとク
ラスＮグラムからなる対象業務言語モデル、４１は予備
探索手段、４２は対象業務言語モデル３ａを参照して単
語列探索における単語列仮説の言語尤度を計算するため
の言語確率を推定する言語確率推定手段、４３は言語確
率推定手段４２と接続された単語列探索手段である。

【０１３３】つぎに、この実施の形態９に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図１９は、この発明の実施の形態９に係る音声認識
文章入力装置の音声文字変換手段の動作を示すフローチ
ャートである。

【０１３４】対象業務言語モデル３ａおよびユーザ言語
モデル３ｂは、それぞれ、単語のＮグラムと、単語を分
類したクラスのＮグラムの両方から構成されている（Ｎ
＝２およびＮ＝３）。

【０１３５】音声文字変換手段４の予備探索手段４１
は、内蔵の音素環境依存音素ＨＭＭを音響モデルとして
音声１の音響尤度を計算するとともに、Ｎ＝２とした対
象業務言語モデル３ａおよびユーザ言語モデル３ｂのそ
れぞれについての言語尤度の大きい方の言語尤度を計算
し、音響尤度と言語尤度の積（対数領域では和）の大き
い単語列の候補ラティスを出力する。

【０１３６】次に、単語列探索手段４３は、言語確率推
定手段４２を駆動して、単語列の候補ラティスからより
Ｎ＝３としたＮグラムの尤度が最大となる単語列を出力
する。言語確率推定手段４２は、単語列探索手段４３が
用いる単語列の尤度として、単語列の部分が単語のＮグ
ラムにヒット（存在）する（学習用の文例に単語列の並
びが存在する）場合には単語のＮグラムの尤度を用い
る。また、単語のＮグラムにヒットしない場合には単語
の所属するクラスのＮグラムの尤度を用いる。

【０１３７】つまり、ステップ９０１において、予備探
索手段４１は、音響モデル、および、Ｎ＝２としたバイ
グラム言語モデルを用いて、単語ラティスを作成する。

【０１３８】次に、ステップ９０２において、単語列探
索手段４３は、単語ラティスから、Ｎ＝３としたＮグラ
ムを用いて、単語列を探索する。Ｎグラムの確率は、言
語確率推定手段４２によって得られる。

【０１３９】以上のように、単語列のつながりが例文に
存在する場合には単語のＮグラムを適用し、存在しない
場合にはクラスのＮグラムを適用するようにしているの
で、学習データに存在しない単語のつながりを含む単語
列に対しても尤度を与えることができるため、言語モデ
ルの学習に使える文例数が少ない場合に対応することが
できる。

【０１４０】すなわち、この実施の形態９に係る音声認
識文章入力装置は、単語をクラスに分類し、クラスの並
び方の特徴から文例にない単語の並び方の確率を推定す
る言語確率推定手段４２を有し、音声文字変換手段４
は、前記言語確率推定手段４２から推定される確率を用
いるものである。

【０１４１】実施の形態１０．この発明の実施の形態１
０に係る音声認識文章入力装置について図面を参照しな
がら説明する。図２０は、この発明の実施の形態１０に
係る音声認識文章入力装置の構成を示す図である。

【０１４２】上記の実施の形態９では、予備探索手段４
１がＮ＝２などのＮグラム言語モデルを参照するもので
あるが、この実施の形態１０では、予備探索の段階では
言語モデルを参照しないものである。

【０１４３】図２０において、４１ａは基本記号列認識
手段、４２は言語確率推定手段、４４は基本記号列の認
識誤り傾向を記憶した差分モデル、４３ａは差分モデル
４４を参照する単語列探索手段である。

【０１４４】つぎに、この実施の形態１０に係る音声認
識文章入力装置の動作について図面を参照しながら説明
する。図２１は、この発明の実施の形態１０に係る音声
認識文章入力装置の音声文字変換手段の動作を示すフロ
ーチャートである。

【０１４５】上記の構成において、基本記号列認識手段
４１ａは、音素環境依存音素ＨＭＭからなる音響モデル
を内蔵し、この音響モデルに対する音声１の音響尤度を
言語モデルを参照することなく計算し、音響尤度が最大
となる基本記号列を出力する。基本記号は、音節、音
素、サブワードなどであり、この実施の形態１０では音
節である。

【０１４６】単語列探索手段４３ａは、基本記号列認識
手段４１ａの出力する基本記号列から、差分モデル４４
および言語確率推定手段４２を介して対象業務言語モデ
ル３ａおよびユーザ言語モデル３ｂを参照し、尤度が最
大の単語列を出力する。

【０１４７】ここで、単語列の尤度は、単語列の発音記
号列に沿って並べられた正解の基本記号列から、基本記
号列認識手段４１ａによって認識された基本記号列が出
現する差分モデル４４による尤度と、対象業務言語モデ
ル３ａおよびユーザ言語モデル３ｂによる大きい方の単
語列の言語尤度の積（対数領域では和）として計算され
る。

【０１４８】つまり、ステップ１００１において、基本
記号列認識手段４１ａは、入力音声１に対して、音響モ
デルを用いて、基本記号列を作成する。

【０１４９】次に、ステップ１００２において、単語列
探素手段４３ａは、基本記号列から、言語モデルを用い
て、単語列を探索する。言語モデルはＮグラムモデルで
あり、Ｎグラムの確率は、言語確率推定手段４２によっ
て得られる

【０１５０】以上のように、予備探索手段４１としての
基本記号列認識手段４１ａは、言語モデルを参照しない
ので、言語モデルごとに基本記号列の認識処理が不要と
なるため、音響モデルとユーザの音声１との尤度計算を
１発話につき１回に削減できる。

【０１５１】すなわち、この実施の形態１０に係る音声
認識文章入力装置は、音声文字変換手段４が、音声１か
ら２以上の何れの言語モデルも参照することなく基本記
号列を認識する基本記号列認識手段４１ａと、前記認識
された基本記号列から前記２以上の言語モデル３ａ、３
ｂを用いて単語列の探索を行う単語列探索手段４３ａと
を有するものである。

【０１５２】実施の形態１１．この発明の実施の形態１
１に係る音声認識文章入力装置について図面を参照しな
がら説明する。図２２は、この発明の実施の形態１１に
係る音声認識文章入力装置の構成を示す図である。

【０１５３】上記の実施の形態１では、１時に１ユーザ
が使用するようにしたものであるが、この実施の形態１
１では、１時に複数ユーザが使用するものである。

【０１５４】図２２において、２００はネットワーク、
２０１はホストコンピュータ、２０２はクライアントコ
ンピュータである。クライアントコンピュータ２０２
は、図示していないが、複数台あり、同一業務で複数の
ユーザが１台のホストコンピュータ２０１を共有する。

【０１５５】つぎに、この実施の形態１１に係る音声認
識文章入力装置の動作について図面を参照しながら説明
する。基本的な動作は、上記実施の形態１０と同様であ
る。

【０１５６】ホストコンピュータ２０１には、対象業務
言語モデル３ａを内蔵し、複数のユーザが作成したユー
ザテキスト９を解析し解析済文例記憶手段１３ａに記憶
し、一定の時間間隔でたとえば夜間の一定時間帯に定期
的に更新を行う。

【０１５７】以上のように、ホストコンピュータ２０１
に内蔵される対象業務言語モデル３ａを複数のユーザで
共有してユーザテキスト９に基づいて更新するようにし
ているので、単一のユーザよりも発話のバリエーション
に対するカバー率の広い言語モデルを提供することがで
きる。

【０１５８】すなわち、この実施の形態１１に係る音声
認識文章入力装置は、ホストコンピュータ２０１に接続
された複数のクライアントコンピュータ２０２から構成
されるシステムであって、少なくとも解析済文例記憶手
段１３ａをホストコンピュータ２０１に配置して一括管
理される構成としたものである。

【０１５９】

【発明の効果】この発明の請求項１に係る音声認識文章
入力装置は、以上説明したとおり、単語のＮグラムから
なる言語モデルと、ユーザ固有の語彙を有し単語のＮグ
ラムからなるユーザ言語モデルと、音声を入力する音声
入力手段と、前記言語モデル及び前記ユーザ言語モデル
を参照して単語列の尤度を計算して前記音声を文字に変
換する音声文字変換手段と、前記音声文字変換手段の出
力文字の単語列を一時記憶するテキストバッファと、前
記テキストバッファに一時記憶された文字を表示する表
示手段と、前記表示手段に表示された文字を修正してユ
ーザテキストを作成する修正手段と、前記ユーザテキス
トを解析して前記ユーザ言語モデルにユーザ固有の語彙
を追加して更新するユーザ言語モデル学習手段とを備え
たので、ユーザ固有の語彙や表現をユーザ言語モデルに
追加することができ、ユーザ固有の発話バリエーション
に対応して認識性能を高めることができるという効果を
奏する。

【０１６０】この発明の請求項２に係る音声認識文章入
力装置は、以上説明したとおり、ユーザ操作に呼応して
学習開始の通知を発生する学習開始通知手段と、前記学
習開始通知手段からの学習開始の通知を受けてから前記
ユーザ言語モデル学習手段を起動する制御手段とをさら
に備えたので、テキストの途中で随時学習でき、学習以
後はテキストを高精度で入力することができるという効
果を奏する。

【０１６１】この発明の請求項３に係る音声認識文章入
力装置は、以上説明したとおり、前記修正手段により文
字が修正されたことを検知する検知手段と、前記検知手
段により前記文字修正が検知された後、前記ユーザ言語
モデル学習手段を起動する制御手段とをさらに備えたの
で、学習ボタンの操作を不要とすることができるという
効果を奏する。

【０１６２】この発明の請求項４に係る音声認識文章入
力装置は、以上説明したとおり、前記言語モデルを、対
象業務の文例から学習した対象業務言語モデルとしたの
で、対象業務の文例を認識することができるという効果
を奏する。

【０１６３】この発明の請求項５に係る音声認識文章入
力装置は、以上説明したとおり、一般文例から学習した
背景言語モデルをさらに備えたので、業務外の文章入力
において認識誤りを削減することができるという効果を
奏する。

【０１６４】この発明の請求項６に係る音声認識文章入
力装置は、以上説明したとおり、前記対象業務言語モデ
ルの学習に用いるための文例を記憶する文例記憶手段
と、前記ユーザテキストに基いて文例を前記文例記憶手
段に追加する文例追加手段と、前記文例記憶手段に記憶
された文例を用いて前記対象業務言語モデルを作成する
言語モデル学習手段とをさらに備えたので、比較的長期
間に渡るユーザの語彙や文法の使用傾向を加味してユー
ザの音声を認識することができるという効果を奏する。

【０１６５】この発明の請求項７に係る音声認識文章入
力装置は、以上説明したとおり、前記対象業務言語モデ
ルの学習に用いるための解析済文例を記憶する解析済文
例記憶手段と、前記ユーザテキストを解析して解析結果
を出力する文章解析手段と、前記文章解析手段により解
析された解析済文例を前記解析済文例記憶手段に追加記
憶する解析済文例追加手段と、前記解析済文例記憶手段
に記憶された解析済文例を用いて前記対象業務言語モデ
ルを作成する言語モデル学習手段とをさらに備え、前記
ユーザ言語モデル学習手段は、前記文章解析手段からの
解析済文例を用いて前記ユーザ言語モデルを作成するの
で、ユーザテキストの解析に要する演算量を１回で済ま
すことができるという効果を奏する。

【０１６６】この発明の請求項８に係る音声認識文章入
力装置は、以上説明したとおり、前記ユーザテキスト中
に未知語が存在する場合、ユーザ発話の音節認識結果を
発音として前記未知語とともに前記文章解析手段に受け
渡す未知語抽出手段をさらに備えたので、ユーザが修正
手段により未知語を入力しても、文章解析用辞書に存在
しない未知語を以後入力することができるという効果を
奏する。

【０１６７】この発明の請求項９に係る音声認識文章入
力装置は、以上説明したとおり、前記音声文字変換手段
が、前記言語モデルの単語をクラスに分類し、クラスの
並び方の特徴から文例にない単語の並び方の確率を推定
する言語確率推定手段と、前記言語確率推定手段により
推定された確率を用いて単語ラティスを作成する予備探
索手段と、前記言語確率推定手段により推定された確率
を用いて前記単語ラティスから単語列を探索する単語列
探索手段とを有するので、言語モデルの学習に使える文
例数が少ない場合に対応することができるという効果を
奏する。

【０１６８】この発明の請求項１０に係る音声認識文章
入力装置は、以上説明したとおり、前記音声文字変換手
段が、前記言語モデルの単語をクラスに分類し、クラス
の並び方の特徴から文例にない単語の並び方の確率を推
定する言語確率推定手段と、基本記号列の認識誤り傾向
を記憶した差分モデルと、前記言語モデルを参照するこ
となく基本記号列を認識する基本記号列認識手段と、前
記認識された基本記号列から前記差分モデル及び前記言
語確率推定手段を介して前記言語モデル用いて単語列の
探索を行う単語列探索手段とを有するので、尤度計算を
１発話につき１回に削減できるという効果を奏する。

【０１６９】この発明の請求項１１に係る音声認識文章
入力装置は、以上説明したとおり、音声を入力する音声
入力手段、音声から文字へ変換された単語列を一時記憶
するテキストバッファ、前記テキストバッファに一時記
憶された文字を表示する表示手段、及び前記表示手段に
表示された文字を修正してユーザテキストを作成する修
正手段を有するクライアントコンピュータと、前記クラ
イアントコンピュータにネットワークを通じて接続さ
れ、単語のＮグラムからなる言語モデル、ユーザ固有の
語彙を有し単語のＮグラムからなるユーザ言語モデル、
前記言語モデル及び前記ユーザ言語モデルを参照して単
語列の尤度を計算して前記音声を文字に変換する音声文
字変換手段、及び前記ユーザテキストを解析して前記ユ
ーザ言語モデルにユーザ固有の語彙を追加して更新する
ユーザ言語モデル学習手段を有するホストコンピュータ
とを備えたので、単一のユーザよりも発話のバリエーシ
ョンに対するカバー率の広い言語モデルを提供すること
ができるという効果を奏する。

【図面の簡単な説明】

【図１】この発明の実施の形態１に係る音声認識文章
入力装置の構成を示す図である。

【図２】この発明の実施の形態１に係る音声認識文章
入力装置のユーザ言語モデル学習手段の動作を示すフロ
ーチャートである。

【図３】この発明の実施の形態２に係る音声認識文章
入力装置の構成を示す図である。

【図４】この発明の実施の形態２に係る音声認識文章
入力装置の表示手段の表示例を示す図である。

【図５】この発明の実施の形態２に係る音声認識文章
入力装置の学習開始通知手段、制御手段、及びユーザ言
語モデル学習手段の動作を示すフローチャートである。

【図６】この発明の実施の形態３に係る音声認識文章
入力装置の構成を示す図である。

【図７】この発明の実施の形態３に係る音声認識文章
入力装置の検知手段、制御手段、及びユーザ言語モデル
学習手段の動作を示すフローチャートである。

【図８】この発明の実施の形態４に係る音声認識文章
入力装置の構成を示す図である。

【図９】この発明の実施の形態４に係る音声認識文章
入力装置の言語モデル学習手段の動作を示すフローチャ
ートである。

【図１０】この発明の実施の形態５に係る音声認識文
章入力装置の構成を示す図である。

【図１１】この発明の実施の形態５に係る音声認識文
章入力装置の音声文字変換手段の動作を示すフローチャ
ートである。

【図１２】この発明の実施の形態６に係る音声認識文
章入力装置の構成を示す図である。

【図１３】この発明の実施の形態６に係る音声認識文
章入力装置の文例追加手段及び言語モデル学習手段の動
作を示すフローチャートである。

【図１４】この発明の実施の形態７に係る音声認識文
章入力装置の構成を示す図である。

【図１５】この発明の実施の形態７に係る音声認識文
章入力装置の文章解析手段、解析済文例追加手段及び言
語モデル学習手段の動作を示すフローチャートである。

【図１６】この発明の実施の形態８に係る音声認識文
章入力装置の構成を示す図である。

【図１７】この発明の実施の形態８に係る音声認識文
章入力装置の動作を示すフローチャートである。

【図１８】この発明の実施の形態９に係る音声認識文
章入力装置の構成を示す図である。

【図１９】この発明の実施の形態９に係る音声認識文
章入力装置の動作を示すフローチャートである。

【図２０】この発明の実施の形態１０に係る音声認識
文章入力装置の構成を示す図である。

【図２１】この発明の実施の形態１０に係る音声認識
文章入力装置の動作を示すフローチャートである。

【図２２】この発明の実施の形態１１に係る音声認識
文章入力装置の構成を示す図である。

【図２３】従来の音声認識文章入力装置の構成を示す
図である。

【符号の説明】

２音声入力手段、３言語モデル、３ａ対象業務言
語モデル、３ｂユーザ言語モデル、３ｃ背景言語モ
デル、４音声文字変換手段、５テキストバッファ、
６表示手段、７ユーザ操作、７ａユーザ操作、８
修正手段、８ａ学習開始通知手段、８ｂ検知手
段、９ユーザテキスト、１０ユーザ言語モデル学習
手段、１１制御手段、１２文例追加手段、１２ａ
文章解析手段、１２ｂ解析済文例追加手段、１３文
例記憶手段、１３ａ解析済文例記憶手段、１４言語
モデル学習手段、１５未知語抽出手段、４１予備探
索手段、４１ａ基本記号列認識手段、４２言語確率
推定手段、４３単語列探索手段、４３ａ単語列探索
手段、４４差分モデル、２００ネットワーク、２０
１ホストコンピュータ、２０２クライアントコンピ
ュータ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者伍井啓恭東京都千代田区丸の内二丁目２番３号三菱電機株式会社内 (72)発明者新井忍東京都千代田区丸の内二丁目２番３号三菱電機株式会社内Ｆターム(参考） 5D015 GG03 HH23

Claims

【特許請求の範囲】

【請求項１】単語のＮグラムからなる言語モデルと、ユーザ固有の語彙を有し単語のＮグラムからなるユーザ
言語モデルと、音声を入力する音声入力手段と、前記言語モデル及び前記ユーザ言語モデルを参照して単
語列の尤度を計算して前記音声を文字に変換する音声文
字変換手段と、前記音声文字変換手段の出力文字の単語列を一時記憶す
るテキストバッファと、前記テキストバッファに一時記憶された文字を表示する
表示手段と、前記表示手段に表示された文字を修正してユーザテキス
トを作成する修正手段と、前記ユーザテキストを解析して前記ユーザ言語モデルに
ユーザ固有の語彙を追加して更新するユーザ言語モデル
学習手段とを備えたことを特徴とする音声認識文章入力
装置。
【請求項２】ユーザ操作に呼応して学習開始の通知を
発生する学習開始通知手段と、前記学習開始通知手段からの学習開始の通知を受けてか
ら前記ユーザ言語モデル学習手段を起動する制御手段と
をさらに備えたことを特徴とする請求項１記載の音声認
識文章入力装置。
【請求項３】前記修正手段により文字が修正されたこ
とを検知する検知手段と、前記検知手段により前記文字修正が検知された後、前記
ユーザ言語モデル学習手段を起動する制御手段とをさら
に備えたことを特徴とする請求項１記載の音声認識文章
入力装置。
【請求項４】前記言語モデルは、対象業務の文例から
学習した対象業務言語モデルであることを特徴とする請
求項１記載の音声認識文章入力装置。
【請求項５】一般文例から学習した背景言語モデルを
さらに備えたことを特徴とする請求項４記載の音声認識
文章入力装置。
【請求項６】前記対象業務言語モデルの学習に用いる
ための文例を記憶する文例記憶手段と、前記ユーザテキストに基いて文例を前記文例記憶手段に
追加する文例追加手段と、前記文例記憶手段に記憶された文例を用いて前記対象業
務言語モデルを作成する言語モデル学習手段とをさらに
備えたことを特徴とする請求項４記載の音声認識文章入
力装置。
【請求項７】前記対象業務言語モデルの学習に用いる
ための解析済文例を記憶する解析済文例記憶手段と、前記ユーザテキストを解析して解析結果を出力する文章
解析手段と、前記文章解析手段により解析された解析済文例を前記解
析済文例記憶手段に追加記憶する解析済文例追加手段
と、前記解析済文例記憶手段に記憶された解析済文例を用い
て前記対象業務言語モデルを作成する言語モデル学習手
段とをさらに備え、前記ユーザ言語モデル学習手段は、前記文章解析手段か
らの解析済文例を用いて前記ユーザ言語モデルを作成す
ることを特徴とする請求項４記載の音声認識文章入力装
置。
【請求項８】前記ユーザテキスト中に未知語が存在す
る場合、ユーザ発話の音節認識結果を発音として前記未
知語とともに前記文章解析手段に受け渡す未知語抽出手
段をさらに備えたことを特徴とする請求項７記載の音声
認識文章入力装置。
【請求項９】前記音声文字変換手段は、前記言語モデルの単語をクラスに分類し、クラスの並び
方の特徴から文例にない単語の並び方の確率を推定する
言語確率推定手段と、前記言語確率推定手段により推定された確率を用いて単
語ラティスを作成する予備探索手段と、前記言語確率推定手段により推定された確率を用いて前
記単語ラティスから単語列を探索する単語列探索手段と
を有することを特徴とする請求項１から請求項８までの
いずれかに記載の音声認識文章入力装置。
【請求項１０】前記音声文字変換手段は、前記言語モデルの単語をクラスに分類し、クラスの並び
方の特徴から文例にない単語の並び方の確率を推定する
言語確率推定手段と、基本記号列の認識誤り傾向を記憶した差分モデルと、前記言語モデルを参照することなく基本記号列を認識す
る基本記号列認識手段と、前記認識された基本記号列から前記差分モデル及び前記
言語確率推定手段を介して前記言語モデル用いて単語列
の探索を行う単語列探索手段とを有することを特徴とす
る請求項１から請求項８までのいずれかに記載の音声認
識文章入力装置。
【請求項１１】音声を入力する音声入力手段、音声から文字へ変換された単語列を一時記憶するテキス
トバッファ、前記テキストバッファに一時記憶された文字を表示する
表示手段、及び前記表示手段に表示された文字を修正し
てユーザテキストを作成する修正手段を有するクライア
ントコンピュータと、前記クライアントコンピュータにネットワークを通じて
接続され、単語のＮグラムからなる言語モデル、ユーザ固有の語彙を有し単語のＮグラムからなるユーザ
言語モデル、前記言語モデル及び前記ユーザ言語モデルを参照して単
語列の尤度を計算して前記音声を文字に変換する音声文
字変換手段、及び前記ユーザテキストを解析して前記ユ
ーザ言語モデルにユーザ固有の語彙を追加して更新する
ユーザ言語モデル学習手段を有するホストコンピュータ
とを備えたことを特徴とする音声認識文章入力装置。