JP2002229585A - 音声認識文章入力装置 - Google Patents

音声認識文章入力装置

Info

Publication number
JP2002229585A
JP2002229585A JP2001023736A JP2001023736A JP2002229585A JP 2002229585 A JP2002229585 A JP 2002229585A JP 2001023736 A JP2001023736 A JP 2001023736A JP 2001023736 A JP2001023736 A JP 2001023736A JP 2002229585 A JP2002229585 A JP 2002229585A
Authority
JP
Japan
Prior art keywords
user
language model
text
sentence
input device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001023736A
Other languages
English (en)
Other versions
JP4089861B2 (ja
Inventor
Yoshiharu Abe
芳春 阿部
Yuzo Maruta
裕三 丸田
Hirotaka Goi
啓恭 伍井
Shinobu Arai
忍 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001023736A priority Critical patent/JP4089861B2/ja
Publication of JP2002229585A publication Critical patent/JP2002229585A/ja
Application granted granted Critical
Publication of JP4089861B2 publication Critical patent/JP4089861B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来、特殊な用語や言い回しを含む専門文章
の認識は困難であるという課題があった。 【解決手段】 言語モデル3と、ユーザ固有の語彙を有
するユーザ言語モデル3bと、音声を入力する音声入力
手段2と、前記言語モデル及び前記ユーザ言語モデルを
参照して単語列の尤度を計算して前記音声を文字に変換
する音声文字変換手段4と、前記音声文字変換手段の出
力文字の単語列を一時記憶するテキストバッファ5と、
前記テキストバッファに一時記憶された文字を表示する
表示手段6と、前記表示手段に表示された文字を修正し
てユーザテキストを作成する修正手段8と、前記ユーザ
テキストを解析して前記ユーザ言語モデルにユーザ固有
の語彙を追加して更新するユーザ言語モデル学習手段1
0とを備えた。 【効果】 ユーザ固有の語彙や表現をユーザ言語モデル
に追加することができ、ユーザ固有の発話バリエーショ
ンに対応して認識性能を高めることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声を認識して
文章を入力する業務自動適応機能を有する音声認識文章
入力装置に関するものである。
【0002】
【従来の技術】利便性や特別な訓練が不要であることな
どから、音声入力による文書作成への期待は極めて高
く、音声認識による日本語の文章入力ソフトウェアが各
社から市販され注目を浴びている。
【0003】従来の音声認識文章入力装置について図面
を参照しながら説明する。図23は、上記のソフトウェ
アをコンピュータで動作させることで実現される従来の
音声認識文章入力装置の一般的なブロック構成を示す図
である。
【0004】図23において、1は音声、2は入力の音
声1を取り込む音声入力手段、3は例えば単語のNグラ
ムからなる言語モデル、4は言語モデル3を参照して音
声入力手段2が取得した入力音声1を単語の列に変換す
る音声文字変換手段、5は音声文字変換手段4の出力単
語列を一時記憶するテキストバッファ、6はテキストバ
ッファ5に記憶された文字を表示する表示手段、8はユ
ーザ操作7によってテキストバッファ5中の文字を修正
する修正手段、9はテキストバッファ5から抽出される
ユーザが作成したユーザテキストである。なお、言語モ
デル3としては、単語連鎖の統計量に基づくNgram
(例えばN=3)が用いられる。
【0005】つぎに、従来の音声認識文章入力装置の動
作について図面を参照しながら説明する。
【0006】上記の構成において、ユーザの音声1は、
音声文字変換手段4によって言語モデル3に記憶された
単語連鎖の情報に従って単語列に変換され、テキストバ
ッファ5に一時記憶されると同時に、表示手段6によっ
てユーザに表示される。
【0007】ユーザは、表示手段6の表示に基づいてテ
キストバッファ5に一時記憶されたテキスト中の認識誤
りを修正して、最終的に所望のユーザテキスト9を得る
ことが可能である。
【0008】しかし、このような従来の音声認識文章入
力装置では、言語モデル3を新聞やWEBなどの大量の
一般文例から作成しているため、特殊な用語や言い回し
を含む専門文章の認識は困難である。また、単に、専門
用語を登録するだけでは認識性能が不十分である。この
課題点に関しては、特開2000−250584号公報
にも述べられている。
【0009】これに対して、専門業務で蓄積された文例
から、専門業務分野に対応した言語モデルを作成する方
法も考えられるが、一般に専門業務ごとの文章蓄積が少
なく(高々1万文程度)、有効な言語モデルの作成は困
難とされている。例えば、言語モデルとして単語のNグ
ラムを用いる場合、N=3のとき、100万〜1000
万以上の例文が必要と言われている。
【0010】このため、特開平10−198395号公
報に開示された音声認識装置では、予め特定業務(タス
ク)のデータを複数の業務から用意して、これらを事前
知識として用いて、文章入力の対象の業務に適応した言
語モデルを生成している。
【0011】しかし、この方法を、例えば極めて専門性
の高い業務(例えば、医療の特定診療科目)に適応する
場合、事前に用意する学習用の特定業務のテキストデー
タは、適用対象の業務の専門用語や業務特有の表現(単
語連鎖)が含まれていないことが多く、これら学習用テ
キストデータには、事前知識としての価値がほとんどな
いという課題がある。
【0012】一方、従来から認識対象の文章を単語のネ
ットワークで表現した言語モデルを用いる構文駆動の音
声認識の方法が知られているが、この場合、極めて専門
性の高い分野を扱う場合には、少量の文例から、多大の
労力と時間をかけて語彙・文法を作る必要があるという
課題がある。
【0013】また、このように、対象業務の少量文章か
ら作られた言語モデルでは、なお、文例に含まれないよ
うな表現、個人ごとの表現のゆらぎに対して認識性能の
劣化が著しいという課題は解消されていない。
【0014】以上のようなことから、専門業務用ディク
テーションソフトウェアの実用化は、進んでいないのが
実情であった。
【0015】
【発明が解決しようとする課題】上述したような従来の
音声認識文章入力装置では、言語モデルを新聞やWEB
などの大量の一般文例から作成しているため、特殊な用
語や言い回しを含む専門文章の認識は困難であるという
問題点があった。
【0016】この発明は、前述した問題点を解決するた
めになされたもので、特定対象業務に適応し、しかも発
話バリエーションに対して許容度が高い言語モデルを効
果的に生成し、さらにシステム使用中に発生する未知の
表現などに対する発話の自由度を改善した専門家向けの
高い認識性能と十分な信頼性を持ち、多種業務への適応
性に優れた音声認識文章入力装置を得ることを目的とす
る。
【0017】
【課題を解決するための手段】この発明の請求項1に係
る音声認識文章入力装置は、単語のNグラムからなる言
語モデルと、ユーザ固有の語彙を有し単語のNグラムか
らなるユーザ言語モデルと、音声を入力する音声入力手
段と、前記言語モデル及び前記ユーザ言語モデルを参照
して単語列の尤度を計算して前記音声を文字に変換する
音声文字変換手段と、前記音声文字変換手段の出力文字
の単語列を一時記憶するテキストバッファと、前記テキ
ストバッファに一時記憶された文字を表示する表示手段
と、前記表示手段に表示された文字を修正してユーザテ
キストを作成する修正手段と、前記ユーザテキストを解
析して前記ユーザ言語モデルにユーザ固有の語彙を追加
して更新するユーザ言語モデル学習手段とを備えたもの
である。
【0018】この発明の請求項2に係る音声認識文章入
力装置は、ユーザ操作に呼応して学習開始の通知を発生
する学習開始通知手段と、前記学習開始通知手段からの
学習開始の通知を受けてから前記ユーザ言語モデル学習
手段を起動する制御手段とをさらに備えたものである。
【0019】この発明の請求項3に係る音声認識文章入
力装置は、前記修正手段により文字が修正されたことを
検知する検知手段と、前記検知手段により前記文字修正
が検知された後、前記ユーザ言語モデル学習手段を起動
する制御手段とをさらに備えたものである。
【0020】この発明の請求項4に係る音声認識文章入
力装置は、前記言語モデルを、対象業務の文例から学習
した対象業務言語モデルとしたものである。
【0021】この発明の請求項5に係る音声認識文章入
力装置は、一般文例から学習した背景言語モデルをさら
に備えたものである。
【0022】この発明の請求項6に係る音声認識文章入
力装置は、前記対象業務言語モデルの学習に用いるため
の文例を記憶する文例記憶手段と、前記ユーザテキスト
に基いて文例を前記文例記憶手段に追加する文例追加手
段と、前記文例記憶手段に記憶された文例を用いて前記
対象業務言語モデルを作成する言語モデル学習手段とを
さらに備えたものである。
【0023】この発明の請求項7に係る音声認識文章入
力装置は、前記対象業務言語モデルの学習に用いるため
の解析済文例を記憶する解析済文例記憶手段と、前記ユ
ーザテキストを解析して解析結果を出力する文章解析手
段と、前記文章解析手段により解析された解析済文例を
前記解析済文例記憶手段に追加記憶する解析済文例追加
手段と、前記解析済文例記憶手段に記憶された解析済文
例を用いて前記対象業務言語モデルを作成する言語モデ
ル学習手段とをさらに備え、前記ユーザ言語モデル学習
手段は、前記文章解析手段からの解析済文例を用いて前
記ユーザ言語モデルを作成するものである。
【0024】この発明の請求項8に係る音声認識文章入
力装置は、前記ユーザテキスト中に未知語が存在する場
合、ユーザ発話の音節認識結果を発音として前記未知語
とともに前記文章解析手段に受け渡す未知語抽出手段を
さらに備えたものである。
【0025】この発明の請求項9に係る音声認識文章入
力装置は、前記音声文字変換手段が、前記言語モデルの
単語をクラスに分類し、クラスの並び方の特徴から文例
にない単語の並び方の確率を推定する言語確率推定手段
と、前記言語確率推定手段により推定された確率を用い
て単語ラティスを作成する予備探索手段と、前記言語確
率推定手段により推定された確率を用いて前記単語ラテ
ィスから単語列を探索する単語列探索手段とを有するも
のである。
【0026】この発明の請求項10に係る音声認識文章
入力装置は、前記音声文字変換手段が、前記言語モデル
の単語をクラスに分類し、クラスの並び方の特徴から文
例にない単語の並び方の確率を推定する言語確率推定手
段と、基本記号列の認識誤り傾向を記憶した差分モデル
と、前記言語モデルを参照することなく基本記号列を認
識する基本記号列認識手段と、前記認識された基本記号
列から前記差分モデル及び前記言語確率推定手段を介し
て前記言語モデル用いて単語列の探索を行う単語列探索
手段とを有するものである。
【0027】この発明の請求項11に係る音声認識文章
入力装置は、音声を入力する音声入力手段、音声から文
字へ変換された単語列を一時記憶するテキストバッフ
ァ、前記テキストバッファに一時記憶された文字を表示
する表示手段、及び前記表示手段に表示された文字を修
正してユーザテキストを作成する修正手段を有するクラ
イアントコンピュータと、前記クライアントコンピュー
タにネットワークを通じて接続され、単語のNグラムか
らなる言語モデル、ユーザ固有の語彙を有し単語のNグ
ラムからなるユーザ言語モデル、前記言語モデル及び前
記ユーザ言語モデルを参照して単語列の尤度を計算して
前記音声を文字に変換する音声文字変換手段、及び前記
ユーザテキストを解析して前記ユーザ言語モデルにユー
ザ固有の語彙を追加して更新するユーザ言語モデル学習
手段を有するホストコンピュータとを備えたものであ
る。
【0028】
【発明の実施の形態】実施の形態1.この発明の実施の
形態1に係る音声認識文章入力装置について図面を参照
しながら説明する。図1は、この発明の実施の形態1に
係る音声認識文章入力装置の構成を示す図である。な
お、各図中、同一符号は同一又は相当部分を示す。
【0029】図1において、2はユーザの発話した音声
1を取り込む音声入力手段、3は言語モデル、3bはユ
ーザ言語モデル、4は言語モデル3とユーザ言語モデル
3bとを参照して音声入力手段2が取得した入力音声1
を単語の列に変換する音声文字変換手段、5は音声文字
変換手段4の出力単語列を一時記憶するテキストバッフ
ァ、6はテキストバッファ5に記憶された文字を表示す
る表示手段、8はユーザ操作7によってテキストバッフ
ァ5中の文字を修正する修正手段、9はテキストバッフ
ァ5から抽出されるユーザが作成したユーザテキスト、
10はユーザテキスト9を解析してユーザ言語モデル3
bを作成するユーザ言語モデル学習手段である。
【0030】つぎに、この実施の形態1に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図2は、この発明の実施の形態1に係る音声認識文
章入力装置のユーザ言語モデル学習手段の動作を示すフ
ローチャートである。
【0031】音声入力手段2は、ユーザの発話した音声
1を取り込む。次に、音声文字変換手段4は、音素環境
依存の音素HMMからなる音響モデル、並びに言語モデ
ル3及び3bを参照して、公知の音声認識処理によっ
て、入力音声を尤度が最大の単語列に変換する。
【0032】ここで、単語列の尤度は、単語列と入力音
声との照合尤度(音響尤度)、および、言語モデル3お
よびユーザ言語モデル3bに基づく単語列の尤度(言語
尤度)の積(対数領域では和)として計算される。
【0033】音響尤度は、単語列の発音記号に従って音
素環境依存音素HMMを並べた音響モデルに対して音声
1の特徴ベクトルを入力したときの尤度として計算され
る。言語モデル3およびユーザ言語モデル3bは、それ
ぞれ、単語のNグラムからなる。
【0034】言語尤度は、単語列の尤度をそれぞれの言
語モデルで計算し大きい方の尤度を用いる。
【0035】音声文字変換手段4による音声1から単語
列への変換結果は、テキストバッファ5に記憶される。
表示手段6は、テキストバッファ5中の文字をコンピュ
ータのディスプレイ上に表示する。
【0036】修正手段8は、コンピュータのディスプレ
イ上に表示された文字入力位置を示すカーソル表示位置
に、キーボード入力やマウスなどからなるユーザ操作7
によって、文字の挿入置換削除などの処理を行い、テキ
ストバッファ5中の文字を必要に応じて修正する。な
お、ユーザの発話の文字変換結果自身もキーボード等の
文字列と同等にカーソル表示位置に挿入や置換が可能な
ように構成されている。
【0037】ユーザは、入力音声1やユーザ操作7を組
み合わせて、目的の文書を作成した結果をユーザテキス
ト9としてコンピュータ上のファイルに記憶する。ユー
ザテキスト9がファイルに記憶されると同時に、ユーザ
テキスト9はユーザ言語モデル学習手段10に送られ
る。
【0038】このユーザ言語モデル学習手段10は、テ
キスト解析専用の解析用の辞書を備え、この辞書を参照
して、ユーザテキスト9を単語(形態素と呼ぶ)の列に
分解し、さらに、単語の連鎖の頻度を計数することによ
り、単語のNグラムを求め、ユーザ言語モデル3bとし
て出力する。
【0039】つまり、ステップ101において、ユーザ
言語モデル学習手段10は、ユーザテキスト9をファイ
ルから取得する。
【0040】次に、ステップ102において、取得した
ユーザテキスト9を解析して、ユーザテキスト9を構成
する単語(形態素とも呼ばれる)に分割する。この処理
は、公知の形態素解析技術を用いて行う。なお、形態素
解析に用いる辞書は、対象業務に特化した辞書であり、
対象業務で現れる専門用語が登録されている。
【0041】次に、ステップ103において、分割され
た単語の列Wl、W2、W3、・・・から、連続するN
単語(Nは例えば3)の組をもれなく抽出する。このよ
うに抽出されたN単語の組を集計し、N単語の組毎の出
現回数をカウントする。
【0042】そして、ステップ104において、N単語
の組の出現回数からなるユーザ言語モデル3bを出力す
る。
【0043】以上のように、ユーザテキスト9からユー
ザ言語モデル3bを作成し、以後作成されたユーザ言語
モデル3bを参照して音声文字変換するようにしている
ので、ユーザ固有の語彙や表現をユーザ言語モデル3b
に追加することができ、ユーザ固有の発話バリエーショ
ンに対応して認識性能の高い音声認識文章入力装置を提
供できる。
【0044】すなわち、この実施の形態1に係る音声認
識文章入力装置は、1人以上のユーザが音声を入力して
文章を作成する音声認識文章入力装置において、2つ以
上のそれぞれ独立した言語モデル3、3aと、前記2つ
以上のそれぞれの独立した言語モデル3、3aのいずれ
も参照して単語列の尤度を計算して前記音声を文字に変
換する音声文字変換手段4と、前記変換された文字を表
示する表示手段6と、前記表示された文字を前記ユーザ
が修正する修正手段8と、前記ユーザによって修正され
た文字から前記2以上の言語モデルのうちの少なくとも
1つの言語モデルを更新するユーザ言語モデル学習手段
10とを備えるものである。
【0045】実施の形態2.この発明の実施の形態2に
係る音声認識文章入力装置について図面を参照しながら
説明する。図3は、この発明の実施の形態2に係る音声
認識文章入力装置の構成を示す図である。
【0046】上記の実施の形態1では、ユーザテキスト
9をファイルに出力した後で、ユーザテキスト9を用い
てユーザ言語モデル3bを作成するようにしたものであ
るが、この実施の形態2では、ユーザテキスト9の作成
途中で随時学習を可能とするものである。
【0047】図3において、7aはユーザ操作、8aは
ユーザ操作7aに呼応して学習開始の通知を発生する学
習開始通知手段、11は学習開始通知手段8aが発生す
る学習開始の通知に基づいてユーザ言語モデル学習手段
10による処理を開始させるようにプログラムされた制
御手段である。また、ユーザ言語モデル学習手段10
は、学習開始通知手段8aが発生する学習開始の通知を
入力するように変更されている。なお、他の構成は、上
記実施の形態1と同様である。
【0048】つぎに、この実施の形態2に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図4は、この発明の実施の形態2に係る音声認識文
章入力装置の表示手段による表示例を示す図である。ま
た、図5は、この発明の実施の形態2に係る音声認識文
章入力装置の学習開始通知手段、制御手段、及びユーザ
言語モデル学習手段の動作を示すフローチャートであ
る。
【0049】ユーザの発話した音声1から音声文字変換
手段4によって変換された文字は、テキストバッファ5
に一時記憶される。この一時記憶された文字は、図4に
示すように、表示手段6によってコンピュータディスプ
レイ上に表示された編集用の枠内に表示される。
【0050】次に、修正手段8は、ユーザ操作7を入力
して、編集用の枠内に表示されたテキストに対して挿入
・削除・置換などの編集を行ない、ユーザテキスト9を
作成する。
【0051】ユーザ操作7aは、図4に示すように、表
示手段6の編集用の枠に近接して表示されている学習ボ
タンが押下されることに対応して信号を発生する。学習
開始通知手段8aは、ユーザ操作7aの発生した信号か
ら、学習開始の通知を発生し、制御手段11は、ユーザ
言語モデル学習手段10のユーザテキスト9を用いる学
習を開始させる。
【0052】つまり、ステップ201において、学習開
始通知手段8aは、学習ボタンが押されたことを検知す
る。
【0053】次に、ステップ202において、学習開始
通知を発生する。
【0054】次に、ステップ203において、学習開始
通知に基き制御手段11により起動されたユーザ言語モ
デル学習手段10は、一時記憶からユーザテキスト9を
取得する。
【0055】次に、ステップ204において、取得した
ユーザテキストを解析して、ユーザテキスト9を構成す
る単語(形態素とも呼ぱれる)に分割する。この処理
は、公知の形態素解析技術を用いて行う。なお、形態素
解析に用いる辞書は、対象業務に特化した辞書であり、
対象業務で現れる専門用語が登録されている。
【0056】次に、ステップ205において、分割され
た単語の列W1、W2、W3・・・から、連続するN単
語(Nは例えば3)の組をもれなく抽出する。このよう
に抽出されたN単語の組を集計し、N単語の組毎の出現
回数をカウントする。
【0057】そして、ステップ206において、N単語
の組の出現回数からなるユーザ言語モデル3bを出力す
る。
【0058】以上のように、ユーザがテキストの途中で
随時学習するようにしているので、学習以後はテキスト
を高精度で入力することができる。
【0059】すなわち、この実施の形態2に係る音声認
識文章入力装置は、修正手段8に、ユーザによって文字
の修正が終了し学習開始を指示する学習開始通知手段8
aを併設し、この学習開始通知手段8aの通知を受けて
からユーザ言語モデル学習手段10を起動させる制御手
段11とを備えたものである。
【0060】実施の形態3.この発明の実施の形態3に
係る音声認識文章入力装置について図面を参照しながら
説明する。図6は、この発明の実施の形態3に係る音声
認識文章入力装置の構成を示す図である。
【0061】上記の実施の形態2では、学習のためユー
ザ操作7aに基づいてユーザ言語モデル3bの学習を行
う場合を示したが、この実施の形態3では、学習のため
の明示的なユーザ操作7aを不要とするものである。
【0062】図6において、8bは修正手段8に接続さ
れ、ユーザのテキスト修正を検知する検知手段である。
また、11は検知手段8bによるテキスト修正検知に基
づいてユーザ言語モデル学習手段10によるユーザ言語
モデル3bの学習処理を開始させるようにプログラムさ
れた制御手段である。さらに、ユーザ言語モデル学習手
段10は、検知手段8bが発生する学習開始の通知を入
力するように変更されている。
【0063】つぎに、この実施の形態3に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図7は、この発明の実施の形態3に係る音声認識文
章入力装置の検知手段、制御手段、及びユーザ言語モデ
ル学習手段の動作を示すフローチャートである。
【0064】検知手段8bは、ユーザによる次の発話が
なされ、音声入力手段2が音声の開始端を検知したら直
ぐに修正検知信号を発生して制御手段11に通知する。
制御手段11は、ユーザ言語モデル学習手段10を起動
し、直ちにユーザ言語モデル3bを作成し、変更された
ユーザ言語モデル3bを参照した音声文字変換手段4
は、この入力音声の認識結果をテキストバッファ5に一
時記憶する。
【0065】なお、修正検知の方法としては、次の発話
をもって検知するものでなくても、例えば、最後にユー
ザによるテキストバッファ5中の文字の修正がなされて
から一定時間が経過したことによって検知してもよい。
【0066】つまり、ステップ301において、検知手
段8bは、ユーザの次の発話がなされたことを検知す
る。
【0067】次に、ステップ302において、学習開始
通知を発生する。
【0068】次に、ステップ303において、学習開始
通知に基き制御手段11により起動されたユーザ言語モ
デル学習手段10は、前の発話のユーザテキスト9を一
時記憶から取得する。
【0069】次に、ステップ304において、取得した
ユーザテキスト9を解析して、ユーザテキスト9を構成
する単語(形態素とも呼ばれる)に分割する。この処理
は、公知の形態素解析技術を用いて行う。なお、形態素
解析に用いる辞書は、対象業務に特化した辞書であり、
対象業務で現れる専門用語が登録されている。
【0070】次に、ステップ305において、分割され
た単語の列Wl、W2、W3・・・から、連続するN単
語(Nは例えば3)の組をもれなく抽出する。このよう
に抽出されたN単語の組を集計し、N単語の組毎の出現
回数をカウントする。
【0071】そして、ステップ306において、N単語
の組の出現回数からなるユーザ言語モデル3bを出力す
る。
【0072】以上のように、文字修正を装置が検知する
ようにしているので、ユーザの学習ボタンの操作を不要
とすることができる。
【0073】すなわち、この実施の形態3に係る音声認
識文章入力装置は、修正手段8に、文字がユーザによっ
て修正されたことを検知する検知手段8bを併設し、前
記文字修正が検知された後、ユーザ言語モデル学習手段
10を起動させる制御手段11とを備えたものである。
【0074】実施の形態4.この発明の実施の形態4に
係る音声認識文章入力装置について図面を参照しながら
説明する。図8は、この発明の実施の形態4に係る音声
認識文章入力装置の構成を示す図である。
【0075】この実施の形態4では、上記の実施形態1
〜3において、言語モデル3の代わりに、適用対象の業
務文例から学習した対象業務言語モデル3aを用いるよ
うにしたものである。
【0076】図8において、3aは対象業務言語モデル
である。
【0077】つぎに、この実施の形態4に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図9は、この発明の実施の形態4に係る音声認識文
章入力装置の言語モデル学習手段の動作を示すフローチ
ャートである。
【0078】対象業務言語モデル3aは、対象業務の蓄
積文例から学習されている。従って、対象業務言語モデ
ル3aの単語連鎖の情報を参照するため音声文字変換手
段4によって、蓄積文例に類似した単語連鎖を認識する
ことができる。
【0079】つまり、ステップ401において、対象業
務の文例を事前に人手で収集する。これらの文例は、電
子化されファイルに蓄積されているものとする。
【0080】次に、ステップ402において、図示して
いない言語モデル学習手段は、電子化されファイルに蓄
積された文例テキストを解析して、文例テキストを構成
する単語(形態素とも呼ばれる)に分割する。この処理
は、公知の形態素解析技術を用いて行う。
【0081】次に、ステップ403において、分割され
た単語の列Wl、W2、W3・・・から、連続するN単
語(Nは例えば3)の組をもれなく抽出する。このよう
に抽出されたN単語の組を集計し、N単語の組毎の出現
回数をカウントする。
【0082】そして、ステップ404において、N単語
の組の出現回数からなる対象業務言語モデル3aを出力
する
【0083】以上のように、対象業務の蓄積文例から学
習された対象業務言語モデル3aを備えるようにしてい
るので、対象業務の文例を認識することができる。
【0084】すなわち、この実施の形態4に係る音声認
識文章入力装置は、2つ以上の言語モデルのうちの少な
くとも1つの言語モデルは、対象業務の文例から学習し
た対象業務言語モデル3aからなるものを有する。
【0085】実施の形態5.この発明の実施の形態5に
係る音声認識文章入力装置について図面を参照しながら
説明する。図10は、この発明の実施の形態5に係る音
声認識文章入力装置の構成を示す図である。
【0086】上記の実施の形態4では、専門業務文に現
れる確率の高い文例を主に音声入力するようにしたもの
であるが、この実施の形態5では、専門業務文の作成中
にどうしても現れる一般文に対しても認識率が低下しな
いような場合でも認識率が低下しないようにするもので
ある。
【0087】図10において、3aは対象業務言語モデ
ル、3bはユーザ言語モデル、3cは一般文例から学習
した背景言語モデルである。この背景言語モデル3c
は、図示しない言語モデル学習手段により作成される。
【0088】つぎに、この実施の形態5に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図11は、この発明の実施の形態5に係る音声認識
文章入力装置の音声文字変換手段の動作を示すフローチ
ャートである。
【0089】ユーザの音声1が、例えば、「熱性痙攣と
判断抗痙攣剤6mg投入」のような業務内発話である場
合は、音声文字変換手段4は、対象業務言語モデル3a
の言語尤度が高いため、「熱性痙攣と判断抗痙攣剤6m
g投入」という認識結果を出力する。
【0090】また、入力音声1が、例えば、「お弁当の
最中に幼稚園で倒れたらしい。」のような業務外発話で
ある場合でも、「お弁当の最中に幼稚園で倒れたらし
い。」という認識結果を出力する。
【0091】つまり、ステップ501において、音声文
字変換手段4は、ユーザ音声1を入力する。
【0092】次に、ステップ502において、ユーザ音
声1に対して、対象業務言語モデル3aを用いてテキス
ト変換を行い尤度1を計算する。
【0093】次に、ステップ503において、ユーザ音
声1に対して、ユーザ言語モデル3bを用いてテキスト
変換を行い尤度2を計算する。
【0094】次に、ステップ504において、ユーザ音
声1に対して、背景言語モデル3cを用いてテキスト変
換を行い尤度3を計算する。
【0095】そして、ステップ505において、尤度
1、尤度2、尤度3とを比較して最大の尤度を与えるテ
キスト変換結果を、テキスト変換結果としてテキストバ
ッファ5に出力する。
【0096】以上のように、一般の文例から学習した背
景言語モデル3cを用いるようにしているので、業務外
の文章入力において認識誤りを削減することができる。
【0097】すなわち、この実施の形態5に係る音声認
識文章入力装置は、2以上の言語モデルは、少なくとも
3以上の言語モデル3a〜3cからなるとともに、その
うち、少なくとも1つの言語モデルは、対象業務の文例
から学習し、さらに、少なくとも1つの言語モデルは、
対象業務以外の文例から学習した言語モデル3cを用い
るものである。
【0098】実施の形態6.この発明の実施の形態6に
係る音声認識文章入力装置について図面を参照しながら
説明する。図12は、この発明の実施の形態6に係る音
声認識文章入力装置の構成を示す図である。
【0099】上記の実施び形態5では、対象業務言語モ
デル3aは事前に学習されたものであるが、この実施の
形態6では、対象業務言語モデル3aを更新するもので
ある。
【0100】図12において、12はユーザテキスト9
に接続された文例追加手段、13は文例追加手段12に
より追加記憶可能な文例記憶手段、14は文例記憶手段
13に記憶された文例から対象業務言語モデル3aを作
成する言語モデル学習手段である。
【0101】つぎに、この実施の形態6に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図13は、この発明の実施の形態6に係る音声認識
文章入力装置の文例追加手段及び言語モデル学習手段の
動作を示すフローチャートである。
【0102】まず、ステップ601において、音声文字
変換手段4によって、ユーザの音声1がテキスト(文
字)に変換され、テキストバッファ5に一時記憶された
あと、ユーザがユーザ操作により編集した結果として、
ユーザテキスト9が作成される。
【0103】次に、ステップ602において、文例追加
手段12は、ユーザテキスト9を文例記憶手段13に追
加する。
【0104】そして、ステップ603において、言語モ
デル学習手段14は、文例記憶手段13に記憶された文
例を用いて、対象業務言語モデル3aを作成する。な
お、この対象業務言語モデル3aは、複数のユーザの文
例を対象とする。一方、ユーザ言語モデル3bは、ユー
ザ毎に作成する。
【0105】以上のように、文例追加手段12によりユ
ーザテキスト9を文例記憶して対象業務言語モデル3a
を学習するようにしているので、比較的長期間に渡るユ
ーザの語彙や文法の使用傾向を加味してユーザの音声を
認識することができる。
【0106】すなわち、この実施の形態6に係る音声認
識文章入力装置は、対象業務言語モデル3aの学習に用
いるための文例を記憶する文例記憶手段13と、ユーザ
の入力した文章を前記文例記憶手段13に記憶された文
例として追加する文例追加手段12と、前記文例記憶手
段13に記憶された文例から前記対象業務の言語モデル
3aを学習する言語モデル学習手段14とを備えたもの
である。
【0107】実施の形態7.この発明の実施の形態7に
係る音声認識文章入力装置について図面を参照しながら
説明する。図14は、この発明の実施の形態7に係る音
声認識文章入力装置の構成を示す図である。
【0108】上記の実施の形態6では、ユーザテキスト
9を文例記憶手段13に記憶するようにしたものである
が、この実施の形態7では、ユーザテキスト9を解析
(単語分割)してから記憶するものである。
【0109】図14において、12aはユーザテキスト
9を解析して解析結果を出力する文章解析手段、13a
は解析済文例記憶手段、12bは文章解析手段12aの
出力する解析結果を解析済文例記憶手段13aに追加記
憶する解析済文例追加手段、14は解析済文例記憶手段
13aの解析済文例を用いて対象業務言語モデル3aを
作成する言語モデル学習手段である。
【0110】つぎに、この実施の形態7に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図15は、この発明の実施の形態7に係る音声認識
文章入力装置の文章解析手段、解析済文例追加手段及び
言語モデル学習手段の動作を示すフローチャートであ
る。
【0111】まず、ステップ701において、音声文字
変換手段4によって、ユーザの音声1がテキスト(文
字)に変換され、テキストバッファ5に一時記憶された
あと、ユーザがユーザ操作により編集した結果として、
ユーザテキスト9が作成される。
【0112】次に、ステップ702において、文章解析
手段12aは、ユーザテキスト9を形態素解析(単語分
割)する。
【0113】次に、ステップ703において、解析済文
例追加手段12bは、解析された文例を解析済文例記憶
手段13aに追加する。
【0114】そして、ステップ704において、言語モ
デル学習手段14は、解析済文例記憶手段13aに記憶
された解析済文例を用いて、対象業務言語モデル3aを
作成する。
【0115】以上のように、ユーザテキスト9の文章解
析を行ってその結果をユーザ言語モデル3bの作成に用
いると共に、解析済文例記憶手段13aに追加記憶する
ようにしているので、ユーザテキスト9の解析に要する
演算量を1回で済ますことができる。
【0116】すなわち、この実施の形態7に係る音声認
識文章入力装置は、解析済文例記憶手段13aに記憶す
る文例は、解析済の文例としたものである。
【0117】実施の形態8.この発明の実施の形態8に
係る音声認識文章入力装置について図面を参照しながら
説明する。図16は、この発明の実施の形態8に係る音
声認識文章入力装置の構成を示す図である。
【0118】上記の実施の形態7では、ユーザのテキス
トに未知語は含まれなかったものであるが、この実施の
形態8では、ユーザのテキストに未知語が含まれる場合
に対応するものである。
【0119】図16において、15はユーザテキスト9
から未知語を抽出する未知語抽出手段である。
【0120】つぎに、この実施の形態8に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図17は、この発明の実施の形態8に係る音声認識
文章入力装置の動作を示すフローチャートである。
【0121】未知語抽出手段15は、ユーザテキスト9
中に未知語の存在区間と発音を推定し、未知語が存在す
る場合、ユーザに発話を要求する。ユーザ発話の音節認
識結果を発音として、語彙辞書に追加する。
【0122】つまり、ステップ801において、音声文
字変換手段4によって、ユーザの音声1がテキスト(文
字)に変換され、テキストバッファ5に一時記憶された
あと、ユーザがユーザ操作により編集した結果として、
ユーザテキスト9が作成される。
【0123】次に、ステップ802において、文章解析
手段12aは、ユーザテキスト9を形態素解析する。
【0124】次に、ステップ803において、形態素解
析結果に未知語が存在する場合は、次のステップ804
を実行する。存在しないときはステップ805を実行す
る。
【0125】次に、ステップ804において、未知語抽
出手段15は、ユーザに未知語の表記を表示するととも
に、その未知語の読みを得るため、ユーザに発話を要求
する。ユーザの発話がなされたら、ユーザの発話を入力
した音声に対して、音節認識を行い、その音節認識結果
をその未知語の発音とする。
【0126】次に、ステップ805において、解析済文
例追加手段12bは、解析された文例を解析済文例記憶
手段13aに追加する。
【0127】そして、ステップ806において、言語モ
デル学習手段14は、解析済文例記憶手段13aに記憶
された解析済文例を用いて、対象業務言語モデル3aを
作成する。
【0128】以上のように、文章解析用辞書に存在しな
い未知語をその前後の単語連鎖とともに言語モデル3
a、3bに追加するようにしているので、ユーザが修正
手段8により未知語を入力しても、文章解析用辞書に存
在しない未知語を以後入力することができる。
【0129】すなわち、この実施の形態8に係る音声認
識文章入力装置は、修正された文字から未知語を抽出す
る未知語抽出手段15を有し、言語モデル学習手段1
0、14は、前記未知語抽出手段15から抽出される未
知語と未知語を含む単語連鎖を言語モデルに学習するも
のである。
【0130】実施の形態9.この発明の実施の形態9に
係る音声認識文章入力装置について図面を参照しながら
説明する。図18は、この発明の実施の形態9に係る音
声認識文章入力装置の構成を示す図である。
【0131】上記の各実施の形態では、言語モデルとし
て単語のNグラムを用いるようにしたものであるが、こ
の実施の形態9では、単語を分類したクラスのNグラム
を用いるものである。
【0132】図18において、3aは単語Nグラムとク
ラスNグラムからなる対象業務言語モデル、41は予備
探索手段、42は対象業務言語モデル3aを参照して単
語列探索における単語列仮説の言語尤度を計算するため
の言語確率を推定する言語確率推定手段、43は言語確
率推定手段42と接続された単語列探索手段である。
【0133】つぎに、この実施の形態9に係る音声認識
文章入力装置の動作について図面を参照しながら説明す
る。図19は、この発明の実施の形態9に係る音声認識
文章入力装置の音声文字変換手段の動作を示すフローチ
ャートである。
【0134】対象業務言語モデル3aおよびユーザ言語
モデル3bは、それぞれ、単語のNグラムと、単語を分
類したクラスのNグラムの両方から構成されている(N
=2およびN=3)。
【0135】音声文字変換手段4の予備探索手段41
は、内蔵の音素環境依存音素HMMを音響モデルとして
音声1の音響尤度を計算するとともに、N=2とした対
象業務言語モデル3aおよびユーザ言語モデル3bのそ
れぞれについての言語尤度の大きい方の言語尤度を計算
し、音響尤度と言語尤度の積(対数領域では和)の大き
い単語列の候補ラティスを出力する。
【0136】次に、単語列探索手段43は、言語確率推
定手段42を駆動して、単語列の候補ラティスからより
N=3としたNグラムの尤度が最大となる単語列を出力
する。言語確率推定手段42は、単語列探索手段43が
用いる単語列の尤度として、単語列の部分が単語のNグ
ラムにヒット(存在)する(学習用の文例に単語列の並
びが存在する)場合には単語のNグラムの尤度を用い
る。また、単語のNグラムにヒットしない場合には単語
の所属するクラスのNグラムの尤度を用いる。
【0137】つまり、ステップ901において、予備探
索手段41は、音響モデル、および、N=2としたバイ
グラム言語モデルを用いて、単語ラティスを作成する。
【0138】次に、ステップ902において、単語列探
索手段43は、単語ラティスから、N=3としたNグラ
ムを用いて、単語列を探索する。Nグラムの確率は、言
語確率推定手段42によって得られる。
【0139】以上のように、単語列のつながりが例文に
存在する場合には単語のNグラムを適用し、存在しない
場合にはクラスのNグラムを適用するようにしているの
で、学習データに存在しない単語のつながりを含む単語
列に対しても尤度を与えることができるため、言語モデ
ルの学習に使える文例数が少ない場合に対応することが
できる。
【0140】すなわち、この実施の形態9に係る音声認
識文章入力装置は、単語をクラスに分類し、クラスの並
び方の特徴から文例にない単語の並び方の確率を推定す
る言語確率推定手段42を有し、音声文字変換手段4
は、前記言語確率推定手段42から推定される確率を用
いるものである。
【0141】実施の形態10.この発明の実施の形態1
0に係る音声認識文章入力装置について図面を参照しな
がら説明する。図20は、この発明の実施の形態10に
係る音声認識文章入力装置の構成を示す図である。
【0142】上記の実施の形態9では、予備探索手段4
1がN=2などのNグラム言語モデルを参照するもので
あるが、この実施の形態10では、予備探索の段階では
言語モデルを参照しないものである。
【0143】図20において、41aは基本記号列認識
手段、42は言語確率推定手段、44は基本記号列の認
識誤り傾向を記憶した差分モデル、43aは差分モデル
44を参照する単語列探索手段である。
【0144】つぎに、この実施の形態10に係る音声認
識文章入力装置の動作について図面を参照しながら説明
する。図21は、この発明の実施の形態10に係る音声
認識文章入力装置の音声文字変換手段の動作を示すフロ
ーチャートである。
【0145】上記の構成において、基本記号列認識手段
41aは、音素環境依存音素HMMからなる音響モデル
を内蔵し、この音響モデルに対する音声1の音響尤度を
言語モデルを参照することなく計算し、音響尤度が最大
となる基本記号列を出力する。基本記号は、音節、音
素、サブワードなどであり、この実施の形態10では音
節である。
【0146】単語列探索手段43aは、基本記号列認識
手段41aの出力する基本記号列から、差分モデル44
および言語確率推定手段42を介して対象業務言語モデ
ル3aおよびユーザ言語モデル3bを参照し、尤度が最
大の単語列を出力する。
【0147】ここで、単語列の尤度は、単語列の発音記
号列に沿って並べられた正解の基本記号列から、基本記
号列認識手段41aによって認識された基本記号列が出
現する差分モデル44による尤度と、対象業務言語モデ
ル3aおよびユーザ言語モデル3bによる大きい方の単
語列の言語尤度の積(対数領域では和)として計算され
る。
【0148】つまり、ステップ1001において、基本
記号列認識手段41aは、入力音声1に対して、音響モ
デルを用いて、基本記号列を作成する。
【0149】次に、ステップ1002において、単語列
探素手段43aは、基本記号列から、言語モデルを用い
て、単語列を探索する。言語モデルはNグラムモデルで
あり、Nグラムの確率は、言語確率推定手段42によっ
て得られる
【0150】以上のように、予備探索手段41としての
基本記号列認識手段41aは、言語モデルを参照しない
ので、言語モデルごとに基本記号列の認識処理が不要と
なるため、音響モデルとユーザの音声1との尤度計算を
1発話につき1回に削減できる。
【0151】すなわち、この実施の形態10に係る音声
認識文章入力装置は、音声文字変換手段4が、音声1か
ら2以上の何れの言語モデルも参照することなく基本記
号列を認識する基本記号列認識手段41aと、前記認識
された基本記号列から前記2以上の言語モデル3a、3
bを用いて単語列の探索を行う単語列探索手段43aと
を有するものである。
【0152】実施の形態11.この発明の実施の形態1
1に係る音声認識文章入力装置について図面を参照しな
がら説明する。図22は、この発明の実施の形態11に
係る音声認識文章入力装置の構成を示す図である。
【0153】上記の実施の形態1では、1時に1ユーザ
が使用するようにしたものであるが、この実施の形態1
1では、1時に複数ユーザが使用するものである。
【0154】図22において、200はネットワーク、
201はホストコンピュータ、202はクライアントコ
ンピュータである。クライアントコンピュータ202
は、図示していないが、複数台あり、同一業務で複数の
ユーザが1台のホストコンピュータ201を共有する。
【0155】つぎに、この実施の形態11に係る音声認
識文章入力装置の動作について図面を参照しながら説明
する。基本的な動作は、上記実施の形態10と同様であ
る。
【0156】ホストコンピュータ201には、対象業務
言語モデル3aを内蔵し、複数のユーザが作成したユー
ザテキスト9を解析し解析済文例記憶手段13aに記憶
し、一定の時間間隔でたとえば夜間の一定時間帯に定期
的に更新を行う。
【0157】以上のように、ホストコンピュータ201
に内蔵される対象業務言語モデル3aを複数のユーザで
共有してユーザテキスト9に基づいて更新するようにし
ているので、単一のユーザよりも発話のバリエーション
に対するカバー率の広い言語モデルを提供することがで
きる。
【0158】すなわち、この実施の形態11に係る音声
認識文章入力装置は、ホストコンピュータ201に接続
された複数のクライアントコンピュータ202から構成
されるシステムであって、少なくとも解析済文例記憶手
段13aをホストコンピュータ201に配置して一括管
理される構成としたものである。
【0159】
【発明の効果】この発明の請求項1に係る音声認識文章
入力装置は、以上説明したとおり、単語のNグラムから
なる言語モデルと、ユーザ固有の語彙を有し単語のNグ
ラムからなるユーザ言語モデルと、音声を入力する音声
入力手段と、前記言語モデル及び前記ユーザ言語モデル
を参照して単語列の尤度を計算して前記音声を文字に変
換する音声文字変換手段と、前記音声文字変換手段の出
力文字の単語列を一時記憶するテキストバッファと、前
記テキストバッファに一時記憶された文字を表示する表
示手段と、前記表示手段に表示された文字を修正してユ
ーザテキストを作成する修正手段と、前記ユーザテキス
トを解析して前記ユーザ言語モデルにユーザ固有の語彙
を追加して更新するユーザ言語モデル学習手段とを備え
たので、ユーザ固有の語彙や表現をユーザ言語モデルに
追加することができ、ユーザ固有の発話バリエーション
に対応して認識性能を高めることができるという効果を
奏する。
【0160】この発明の請求項2に係る音声認識文章入
力装置は、以上説明したとおり、ユーザ操作に呼応して
学習開始の通知を発生する学習開始通知手段と、前記学
習開始通知手段からの学習開始の通知を受けてから前記
ユーザ言語モデル学習手段を起動する制御手段とをさら
に備えたので、テキストの途中で随時学習でき、学習以
後はテキストを高精度で入力することができるという効
果を奏する。
【0161】この発明の請求項3に係る音声認識文章入
力装置は、以上説明したとおり、前記修正手段により文
字が修正されたことを検知する検知手段と、前記検知手
段により前記文字修正が検知された後、前記ユーザ言語
モデル学習手段を起動する制御手段とをさらに備えたの
で、学習ボタンの操作を不要とすることができるという
効果を奏する。
【0162】この発明の請求項4に係る音声認識文章入
力装置は、以上説明したとおり、前記言語モデルを、対
象業務の文例から学習した対象業務言語モデルとしたの
で、対象業務の文例を認識することができるという効果
を奏する。
【0163】この発明の請求項5に係る音声認識文章入
力装置は、以上説明したとおり、一般文例から学習した
背景言語モデルをさらに備えたので、業務外の文章入力
において認識誤りを削減することができるという効果を
奏する。
【0164】この発明の請求項6に係る音声認識文章入
力装置は、以上説明したとおり、前記対象業務言語モデ
ルの学習に用いるための文例を記憶する文例記憶手段
と、前記ユーザテキストに基いて文例を前記文例記憶手
段に追加する文例追加手段と、前記文例記憶手段に記憶
された文例を用いて前記対象業務言語モデルを作成する
言語モデル学習手段とをさらに備えたので、比較的長期
間に渡るユーザの語彙や文法の使用傾向を加味してユー
ザの音声を認識することができるという効果を奏する。
【0165】この発明の請求項7に係る音声認識文章入
力装置は、以上説明したとおり、前記対象業務言語モデ
ルの学習に用いるための解析済文例を記憶する解析済文
例記憶手段と、前記ユーザテキストを解析して解析結果
を出力する文章解析手段と、前記文章解析手段により解
析された解析済文例を前記解析済文例記憶手段に追加記
憶する解析済文例追加手段と、前記解析済文例記憶手段
に記憶された解析済文例を用いて前記対象業務言語モデ
ルを作成する言語モデル学習手段とをさらに備え、前記
ユーザ言語モデル学習手段は、前記文章解析手段からの
解析済文例を用いて前記ユーザ言語モデルを作成するの
で、ユーザテキストの解析に要する演算量を1回で済ま
すことができるという効果を奏する。
【0166】この発明の請求項8に係る音声認識文章入
力装置は、以上説明したとおり、前記ユーザテキスト中
に未知語が存在する場合、ユーザ発話の音節認識結果を
発音として前記未知語とともに前記文章解析手段に受け
渡す未知語抽出手段をさらに備えたので、ユーザが修正
手段により未知語を入力しても、文章解析用辞書に存在
しない未知語を以後入力することができるという効果を
奏する。
【0167】この発明の請求項9に係る音声認識文章入
力装置は、以上説明したとおり、前記音声文字変換手段
が、前記言語モデルの単語をクラスに分類し、クラスの
並び方の特徴から文例にない単語の並び方の確率を推定
する言語確率推定手段と、前記言語確率推定手段により
推定された確率を用いて単語ラティスを作成する予備探
索手段と、前記言語確率推定手段により推定された確率
を用いて前記単語ラティスから単語列を探索する単語列
探索手段とを有するので、言語モデルの学習に使える文
例数が少ない場合に対応することができるという効果を
奏する。
【0168】この発明の請求項10に係る音声認識文章
入力装置は、以上説明したとおり、前記音声文字変換手
段が、前記言語モデルの単語をクラスに分類し、クラス
の並び方の特徴から文例にない単語の並び方の確率を推
定する言語確率推定手段と、基本記号列の認識誤り傾向
を記憶した差分モデルと、前記言語モデルを参照するこ
となく基本記号列を認識する基本記号列認識手段と、前
記認識された基本記号列から前記差分モデル及び前記言
語確率推定手段を介して前記言語モデル用いて単語列の
探索を行う単語列探索手段とを有するので、尤度計算を
1発話につき1回に削減できるという効果を奏する。
【0169】この発明の請求項11に係る音声認識文章
入力装置は、以上説明したとおり、音声を入力する音声
入力手段、音声から文字へ変換された単語列を一時記憶
するテキストバッファ、前記テキストバッファに一時記
憶された文字を表示する表示手段、及び前記表示手段に
表示された文字を修正してユーザテキストを作成する修
正手段を有するクライアントコンピュータと、前記クラ
イアントコンピュータにネットワークを通じて接続さ
れ、単語のNグラムからなる言語モデル、ユーザ固有の
語彙を有し単語のNグラムからなるユーザ言語モデル、
前記言語モデル及び前記ユーザ言語モデルを参照して単
語列の尤度を計算して前記音声を文字に変換する音声文
字変換手段、及び前記ユーザテキストを解析して前記ユ
ーザ言語モデルにユーザ固有の語彙を追加して更新する
ユーザ言語モデル学習手段を有するホストコンピュータ
とを備えたので、単一のユーザよりも発話のバリエーシ
ョンに対するカバー率の広い言語モデルを提供すること
ができるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る音声認識文章
入力装置の構成を示す図である。
【図2】 この発明の実施の形態1に係る音声認識文章
入力装置のユーザ言語モデル学習手段の動作を示すフロ
ーチャートである。
【図3】 この発明の実施の形態2に係る音声認識文章
入力装置の構成を示す図である。
【図4】 この発明の実施の形態2に係る音声認識文章
入力装置の表示手段の表示例を示す図である。
【図5】 この発明の実施の形態2に係る音声認識文章
入力装置の学習開始通知手段、制御手段、及びユーザ言
語モデル学習手段の動作を示すフローチャートである。
【図6】 この発明の実施の形態3に係る音声認識文章
入力装置の構成を示す図である。
【図7】 この発明の実施の形態3に係る音声認識文章
入力装置の検知手段、制御手段、及びユーザ言語モデル
学習手段の動作を示すフローチャートである。
【図8】 この発明の実施の形態4に係る音声認識文章
入力装置の構成を示す図である。
【図9】 この発明の実施の形態4に係る音声認識文章
入力装置の言語モデル学習手段の動作を示すフローチャ
ートである。
【図10】 この発明の実施の形態5に係る音声認識文
章入力装置の構成を示す図である。
【図11】 この発明の実施の形態5に係る音声認識文
章入力装置の音声文字変換手段の動作を示すフローチャ
ートである。
【図12】 この発明の実施の形態6に係る音声認識文
章入力装置の構成を示す図である。
【図13】 この発明の実施の形態6に係る音声認識文
章入力装置の文例追加手段及び言語モデル学習手段の動
作を示すフローチャートである。
【図14】 この発明の実施の形態7に係る音声認識文
章入力装置の構成を示す図である。
【図15】 この発明の実施の形態7に係る音声認識文
章入力装置の文章解析手段、解析済文例追加手段及び言
語モデル学習手段の動作を示すフローチャートである。
【図16】 この発明の実施の形態8に係る音声認識文
章入力装置の構成を示す図である。
【図17】 この発明の実施の形態8に係る音声認識文
章入力装置の動作を示すフローチャートである。
【図18】 この発明の実施の形態9に係る音声認識文
章入力装置の構成を示す図である。
【図19】 この発明の実施の形態9に係る音声認識文
章入力装置の動作を示すフローチャートである。
【図20】 この発明の実施の形態10に係る音声認識
文章入力装置の構成を示す図である。
【図21】 この発明の実施の形態10に係る音声認識
文章入力装置の動作を示すフローチャートである。
【図22】 この発明の実施の形態11に係る音声認識
文章入力装置の構成を示す図である。
【図23】 従来の音声認識文章入力装置の構成を示す
図である。
【符号の説明】
2 音声入力手段、3 言語モデル、3a 対象業務言
語モデル、3b ユーザ言語モデル、3c 背景言語モ
デル、4 音声文字変換手段、5 テキストバッファ、
6 表示手段、7 ユーザ操作、7a ユーザ操作、8
修正手段、8a 学習開始通知手段、8b 検知手
段、9 ユーザテキスト、10 ユーザ言語モデル学習
手段、11 制御手段、12 文例追加手段、12a
文章解析手段、12b 解析済文例追加手段、13 文
例記憶手段、13a 解析済文例記憶手段、14 言語
モデル学習手段、15 未知語抽出手段、41 予備探
索手段、41a 基本記号列認識手段、42 言語確率
推定手段、43 単語列探索手段、43a 単語列探索
手段、44 差分モデル、200 ネットワーク、20
1 ホストコンピュータ、202 クライアントコンピ
ュータ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 伍井 啓恭 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 (72)発明者 新井 忍 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5D015 GG03 HH23

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 単語のNグラムからなる言語モデルと、 ユーザ固有の語彙を有し単語のNグラムからなるユーザ
    言語モデルと、 音声を入力する音声入力手段と、 前記言語モデル及び前記ユーザ言語モデルを参照して単
    語列の尤度を計算して前記音声を文字に変換する音声文
    字変換手段と、 前記音声文字変換手段の出力文字の単語列を一時記憶す
    るテキストバッファと、 前記テキストバッファに一時記憶された文字を表示する
    表示手段と、 前記表示手段に表示された文字を修正してユーザテキス
    トを作成する修正手段と、 前記ユーザテキストを解析して前記ユーザ言語モデルに
    ユーザ固有の語彙を追加して更新するユーザ言語モデル
    学習手段とを備えたことを特徴とする音声認識文章入力
    装置。
  2. 【請求項2】 ユーザ操作に呼応して学習開始の通知を
    発生する学習開始通知手段と、 前記学習開始通知手段からの学習開始の通知を受けてか
    ら前記ユーザ言語モデル学習手段を起動する制御手段と
    をさらに備えたことを特徴とする請求項1記載の音声認
    識文章入力装置。
  3. 【請求項3】 前記修正手段により文字が修正されたこ
    とを検知する検知手段と、 前記検知手段により前記文字修正が検知された後、前記
    ユーザ言語モデル学習手段を起動する制御手段とをさら
    に備えたことを特徴とする請求項1記載の音声認識文章
    入力装置。
  4. 【請求項4】 前記言語モデルは、対象業務の文例から
    学習した対象業務言語モデルであることを特徴とする請
    求項1記載の音声認識文章入力装置。
  5. 【請求項5】 一般文例から学習した背景言語モデルを
    さらに備えたことを特徴とする請求項4記載の音声認識
    文章入力装置。
  6. 【請求項6】 前記対象業務言語モデルの学習に用いる
    ための文例を記憶する文例記憶手段と、 前記ユーザテキストに基いて文例を前記文例記憶手段に
    追加する文例追加手段と、 前記文例記憶手段に記憶された文例を用いて前記対象業
    務言語モデルを作成する言語モデル学習手段とをさらに
    備えたことを特徴とする請求項4記載の音声認識文章入
    力装置。
  7. 【請求項7】 前記対象業務言語モデルの学習に用いる
    ための解析済文例を記憶する解析済文例記憶手段と、 前記ユーザテキストを解析して解析結果を出力する文章
    解析手段と、 前記文章解析手段により解析された解析済文例を前記解
    析済文例記憶手段に追加記憶する解析済文例追加手段
    と、 前記解析済文例記憶手段に記憶された解析済文例を用い
    て前記対象業務言語モデルを作成する言語モデル学習手
    段とをさらに備え、 前記ユーザ言語モデル学習手段は、前記文章解析手段か
    らの解析済文例を用いて前記ユーザ言語モデルを作成す
    ることを特徴とする請求項4記載の音声認識文章入力装
    置。
  8. 【請求項8】 前記ユーザテキスト中に未知語が存在す
    る場合、ユーザ発話の音節認識結果を発音として前記未
    知語とともに前記文章解析手段に受け渡す未知語抽出手
    段をさらに備えたことを特徴とする請求項7記載の音声
    認識文章入力装置。
  9. 【請求項9】 前記音声文字変換手段は、 前記言語モデルの単語をクラスに分類し、クラスの並び
    方の特徴から文例にない単語の並び方の確率を推定する
    言語確率推定手段と、 前記言語確率推定手段により推定された確率を用いて単
    語ラティスを作成する予備探索手段と、 前記言語確率推定手段により推定された確率を用いて前
    記単語ラティスから単語列を探索する単語列探索手段と
    を有することを特徴とする請求項1から請求項8までの
    いずれかに記載の音声認識文章入力装置。
  10. 【請求項10】 前記音声文字変換手段は、 前記言語モデルの単語をクラスに分類し、クラスの並び
    方の特徴から文例にない単語の並び方の確率を推定する
    言語確率推定手段と、 基本記号列の認識誤り傾向を記憶した差分モデルと、 前記言語モデルを参照することなく基本記号列を認識す
    る基本記号列認識手段と、 前記認識された基本記号列から前記差分モデル及び前記
    言語確率推定手段を介して前記言語モデル用いて単語列
    の探索を行う単語列探索手段とを有することを特徴とす
    る請求項1から請求項8までのいずれかに記載の音声認
    識文章入力装置。
  11. 【請求項11】 音声を入力する音声入力手段、 音声から文字へ変換された単語列を一時記憶するテキス
    トバッファ、 前記テキストバッファに一時記憶された文字を表示する
    表示手段、及び前記表示手段に表示された文字を修正し
    てユーザテキストを作成する修正手段を有するクライア
    ントコンピュータと、 前記クライアントコンピュータにネットワークを通じて
    接続され、 単語のNグラムからなる言語モデル、 ユーザ固有の語彙を有し単語のNグラムからなるユーザ
    言語モデル、 前記言語モデル及び前記ユーザ言語モデルを参照して単
    語列の尤度を計算して前記音声を文字に変換する音声文
    字変換手段、及び前記ユーザテキストを解析して前記ユ
    ーザ言語モデルにユーザ固有の語彙を追加して更新する
    ユーザ言語モデル学習手段を有するホストコンピュータ
    とを備えたことを特徴とする音声認識文章入力装置。
JP2001023736A 2001-01-31 2001-01-31 音声認識文章入力装置 Expired - Fee Related JP4089861B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001023736A JP4089861B2 (ja) 2001-01-31 2001-01-31 音声認識文章入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001023736A JP4089861B2 (ja) 2001-01-31 2001-01-31 音声認識文章入力装置

Publications (2)

Publication Number Publication Date
JP2002229585A true JP2002229585A (ja) 2002-08-16
JP4089861B2 JP4089861B2 (ja) 2008-05-28

Family

ID=18888985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001023736A Expired - Fee Related JP4089861B2 (ja) 2001-01-31 2001-01-31 音声認識文章入力装置

Country Status (1)

Country Link
JP (1) JP4089861B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007097176A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7409342B2 (en) 2003-06-30 2008-08-05 International Business Machines Corporation Speech recognition device using statistical language model
JP2009271465A (ja) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 単語追加装置、単語追加方法、そのプログラム
JP2012003090A (ja) * 2010-06-17 2012-01-05 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
JP2015079035A (ja) * 2013-10-15 2015-04-23 三菱電機株式会社 音声認識装置および音声認識方法
KR20190030307A (ko) * 2017-09-14 2019-03-22 (주) 엠티콤 음성인식처리장치 및 그 동작 방법
KR20190098090A (ko) * 2019-07-23 2019-08-21 엘지전자 주식회사 개인화 언어 모델을 이용하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
US10825453B2 (en) 2017-04-28 2020-11-03 Samsung Electronics Co., Ltd. Electronic device for providing speech recognition service and method thereof
JP7481999B2 (ja) 2020-11-05 2024-05-13 株式会社東芝 辞書編集装置、辞書編集方法及び辞書編集プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102346026B1 (ko) 2019-02-11 2021-12-31 삼성전자주식회사 전자 장치 및 이의 제어 방법

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698137B2 (en) 2003-06-30 2010-04-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US7409342B2 (en) 2003-06-30 2008-08-05 International Business Machines Corporation Speech recognition device using statistical language model
US7603277B2 (en) 2003-06-30 2009-10-13 Nuance Communications, Inc. Speech recognition device using statistical language model
US8719021B2 (en) 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
JP5040909B2 (ja) * 2006-02-23 2012-10-03 日本電気株式会社 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
WO2007097176A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP2009271465A (ja) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 単語追加装置、単語追加方法、そのプログラム
JP2012003090A (ja) * 2010-06-17 2012-01-05 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
JP2015079035A (ja) * 2013-10-15 2015-04-23 三菱電機株式会社 音声認識装置および音声認識方法
US10825453B2 (en) 2017-04-28 2020-11-03 Samsung Electronics Co., Ltd. Electronic device for providing speech recognition service and method thereof
KR20190030307A (ko) * 2017-09-14 2019-03-22 (주) 엠티콤 음성인식처리장치 및 그 동작 방법
KR102004187B1 (ko) * 2017-09-14 2019-10-17 (주) 엠티콤 음성인식처리장치 및 그 동작 방법
KR20190098090A (ko) * 2019-07-23 2019-08-21 엘지전자 주식회사 개인화 언어 모델을 이용하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
KR102281515B1 (ko) * 2019-07-23 2021-07-26 엘지전자 주식회사 개인화 언어 모델을 이용하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
US11302311B2 (en) 2019-07-23 2022-04-12 Lg Electronics Inc. Artificial intelligence apparatus for recognizing speech of user using personalized language model and method for the same
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
WO2021162362A1 (ko) * 2020-02-11 2021-08-19 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
JP7481999B2 (ja) 2020-11-05 2024-05-13 株式会社東芝 辞書編集装置、辞書編集方法及び辞書編集プログラム

Also Published As

Publication number Publication date
JP4089861B2 (ja) 2008-05-28

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
EP0965978B1 (en) Non-interactive enrollment in speech recognition
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2002287787A (ja) 明確化言語モデル
JP7295839B2 (ja) 音節に基づく自動音声認識
JP2002533771A (ja) 音声認識履歴にもとづく言語モデル
US20070038453A1 (en) Speech recognition system
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
JP4089861B2 (ja) 音声認識文章入力装置
KR100930714B1 (ko) 음성인식 장치 및 방법
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
US6772116B2 (en) Method of decoding telegraphic speech
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2003162524A (ja) 言語処理装置
KR20110119478A (ko) 음성 인식 장치 및 음성 인식 방법
JPH11143493A (ja) 音声言語理解装置及び音声言語理解システム
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
JP2012255867A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070416

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080221

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120307

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130307

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140307

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees