JP3184568B2 - 確率遷移行列の出現頻度計算方法 - Google Patents

確率遷移行列の出現頻度計算方法

Info

Publication number
JP3184568B2
JP3184568B2 JP19215591A JP19215591A JP3184568B2 JP 3184568 B2 JP3184568 B2 JP 3184568B2 JP 19215591 A JP19215591 A JP 19215591A JP 19215591 A JP19215591 A JP 19215591A JP 3184568 B2 JP3184568 B2 JP 3184568B2
Authority
JP
Japan
Prior art keywords
transition matrix
word
character
occurrences
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19215591A
Other languages
English (en)
Other versions
JPH0535722A (ja
Inventor
浩義 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP19215591A priority Critical patent/JP3184568B2/ja
Publication of JPH0535722A publication Critical patent/JPH0535722A/ja
Application granted granted Critical
Publication of JP3184568B2 publication Critical patent/JP3184568B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声・文字などを認識
て単語を決定する際に用いられる確率遷移行列に関し、
詳しくは確率遷移行列の出現頻度計算方法に関する。
【0002】
【従来の技術】従来の音声・文字認識装置では、言語処
理段階において認識結果候補から文字を決定する際に
は、あらかじめ大量の教師文章データから作成した内容
固定の確率遷移行列を使用している。
【0003】
【発明が解決しようとする課題】しかしながら上記手法
では、確率遷移行列の作成に用いた教師文章データにお
いて出現頻度が低かった単語(固有名刺や専門用語な
ど)が何度も繰り返し現れる特殊な認識対象に対して
は、それらの単語についていつも同じ認識間違いが生じ
るため、何度も同じ作業をしなければならないという問
題点がある。
【0004】
【課題を解決するための手段】本発明は以上の事情を考
慮してなされたもので、上記問題点を解消するため、本
発明の確率遷移行列の出現頻度計算方法は、音声・文字
認識などの認識結果から単語を決定するのに用いられる
確率遷移行列の出現頻度計算方法であって、認識結果に
対し正しい単語として決定された単語の文字の組み合わ
せの出現回数をカウントし、決定された単語の数が規定
数となったときに、カウント前の文字の組み合わせの出
現回数合計をカウントされて増加した出現回数合計に対
し確率遷移行列を用いて単語を決定する際に意味を持つ
程度の小さな一定値に正規化し、正規化に合わせて補正
されたカウント前の文字の組み合わせの出現回数とカウ
ントされた出現回数の増加分との和を、正規化されたカ
ウント前の文字の組み合わせの出現回数合計とカウント
された出現回数合計の増加分との和で除算して出現頻度
を再計算することを特徴とする。
【0005】本発明では、最初に教師文章データから作
成した確率遷移行列を用いて単語を決定し、認識間違い
の部分の修正作業後、確定した単語の各文字の組み合わ
せの出現回数をカウントしておき、ある一定の間隔で学
習テーブルの内容から確率遷移行列の出現頻度を再計算
して、上記問題点を解決する。
【0006】
【実施例】以下図に示す実施例に基づいてこの発明を詳
述する。なお、これによってこの発明は限定されるもの
ではない。図1はこの発明を実現するための光学的文字
読み取り装置の構成を示すブロック図である。同図にお
いて、10は言語処理部であり、後述する確率遷移行列
(3文字および2文字の組み合わせの出現頻度テーブ
ル)を用いて単語を確定する。
【0007】11は学習部であり、確定した単語から学
習テーブル(3文字および2文字の組み合わせの出現回
および出現回数合計)をカウントする。もし確定単語
の数が、あらかじめ決められている値を越えたら、学習
テーブルより確率遷移行列を再計算する。12は処理中
の内容を記憶するための作業用メモリである。13はマ
イクロプロセッサから構成されるCPU14を介して上
記各ブロックを制御するための制御部である。
【0008】15は確率遷移行列を記憶している確率遷
移行列メモリである。n文字の確率遷移行列とは、全て
の文字種のn個の組み合わせの、教師文章中での出現頻
度を表したものであり、各出現頻度は次式でもとめられ
る。 C(w1,w2……,wn)=N(w1,w2……,wn)/Nto
tal C(w1,w2……,wn)は文字w1,w2……,wnの組み合
わせの出現頻度を示し、 N(w1,w2……,wn)は文字w1,w2……,wnの組み合
わせの出現回数を示し、 Ntotalは全ての文字の組み合わせの出現回数を示して
いる。
【0009】認識処理によって得られた文字列W=w1,
2……, wnの生起確率P(W)は、2文字の確率遷移
行列と3文字の確率遷移行列とを用いて次式で求められ
る。
【0010】このように、ある文章中の文字数nの文字
列(単語)が、文字列W=“w1,w 2……,wn”である
確率(文字列Wの生起確率P(W))は、その文章中に
存在する文字列Wの総数を、文字数nの文字列の総数で
割ることで求められる。文字数nの全ての組み合わせの
文字列についての生起確率を求めたものが、n文字の確
率遷移行列(Ngram)である。
【0011】ところで、任意の文字数の文字列Wの生起
確率を求めようとした場合、あらゆる文字数の確率遷移
行列を用意しなければならないが、これは莫大な大きさ
となり実際には実現不可能である。そこで一般的には、
3文字の確率遷移行列(trigram)と2文字の確
率遷移行列(digram)を用いて、n文字の文字列
Wの生起確率を近似することが行われる。それが上記の
式P(W)である。
【0012】例えば、文字列“table ”の生起確率P("
table")は、次のようになります。 この式は、(文字列“tab”の出現する確率)×
(文字列“ab”の後に文字“l ”の続く確率)×(文
字列“bl ”の後に文字“e”の続く確率)という意味
を表している。
【0013】また、16は学習テーブルである。学習テ
ーブルとは、上記の確率遷移行列の各要素を出現頻度の
かわりに出現回数としたものである。学習テーブル16
は、最初は確率遷移行列の作成に用いた教師文章データ
の各文字の組み合わせの出現回数で初期化されている。
認識によって単語が決定されると同時にその決定された
単語の文字の組み合わせが学習テーブル16でカウント
され、ある一定の間隔でその学習テーブル16から確率
遷移行列の出現頻度が再計算される。
【0014】通常、教師文章データから確率遷移行列を
作成したときの学習テーブル16の各出現回数は極めて
大きな値であり、それに比べて決定単語から更新した学
習テーブル16の変更は微々たるものなので、このまま
では学習結果は確率遷移行列へほとんど反映されない。
そこで、最初に教師文章データから確率遷移行列を作成
する場合も含めて、出現頻度を計算する前には出現回数
の合計Ntotalが常にある一定の値になるよう出現回数
を正規化しておく。
【0015】出現回数の合計Ntotalが常にある一定の
値になるようにするとは具体的には以下のとおりであ
る。すなわち、学習前の3文字および2文字の組み合わ
せの出現回数と出現回数合計をそれぞれ N03(w1,w2,w3)、N02(w1,w2)、N03total、N02total
【0016】また、学習後の3文字および2文字の組み
合わせの出現回数と出現回数合計の増加分をそれぞれ Nd3(w1,w2,w3) 、Nd2(w1,w2)、Nd3total、Nd2total とすると、学習後の3文字および2文字の組み合わせの
出現頻度C3、C2は、以下の式で求められます。
【0017】
【0018】ところで、一般的にN03、N02、N
03total、N02totalはNd3、Nd2、Nd3total、N
d2totalに比べて極めて大きな値なので、このままでは
3、C2の値はNd3total、Nd2totalに対して意味を
たない。そこで、N 03total 、N 02total をN d3total
d2total に対して意味を持つような小さな値に変更
し、それに合わせてN03、N02の各値も補正しておく。
03total、N02totalを、N03'total、N02'totalへ変
更した場合、N03、N02の各値の補正は以下の式で行
う。
【0019】 ここで、N03'total、N02'total の具体的な値は、
学習サイクル(何単語確定、学習したら出現頻度を再計
算するか)とともにあらかじめ適当な値に決めておく。
【0020】図2は、ある認識領域における単語候補と
文字候補が与えられて、その認識領域内の全単語が決定
するまでを示すフローチャートである。これに沿って、
本発明の動作の詳細を説明する。
【0021】まず、認識領域内に次の単語候補があるか
どうかを判断し(ステップ30)、yesであればステ
ップ31に、無ければ終了する。次いで単語候補内に次
の文字候補があるかどうかを判断し(ステップ31)、
noであればステップ33に移る。yesであれば確率
遷移行列を用いて認識結果候補の中から文字を決定する
(ステップ32)。ステップ33においてここまで決定
している文字列が妥当(他の候補が無い、類似度が極め
て高いなど)なら、単語として決定してステップ35へ
行く。
【0022】ステップ33においてyesならば複数候
補の中から目視で選択する、間違っている部分に直接入
力して修正する、などにより正しい単語を決定する(ス
テップ34)。ステップ35において決定した単語の各
文字の組み合わせを学習テーブル16にカウントする。
【0023】学習テーブルにカウントする処理につい
て、確定した単語が「School」の場合を例にとり説明す
る。この場合、3文字および2文字の組み合わせの出現
回数テーブルN3(w1,w2,w3)、N2(w1,w2)と、3文字
および2文字の組み合わせの出現回数合計N03total
02totalを、次のように変更する。
【0024】N3(S,c,h)、N3(c,h,o)、N3(h,o,
o)、N3(o,o,l)を1ずつ増やす。N2(S,c)、N
2(c,h)、N2(h,o) 、N2(o,o)、N2(o,l)を1ず
つ増やす。N03totalを4(単語の長さ−2)増やす。
02totalを5(単語の長さ−1)増やす。
【0025】次いで決定した単語の数がある規定の数に
達したかどうかを判断し(ステップ36)、規定の数に
達したら、学習テーブル16の各出現回数をその合計が
ある一定の値になるよう正規化し、その後、学習テーブ
ル16より確率遷移行列の各出現頻度を再計算する。
(ステップ37)。
【0026】
【発明の効果】従来では、言語処理で用いる確率遷移行
列の内容が固定であったため、認識対象が特殊な場合に
は同じ認識間違いを何度も繰り返し、その都度、オペレ
ータの手動操作による修正作業が必要であった。本発明
によれば、確率遷移行列をその認識対象にあわせて学習
させて行くため、よく起こる間違いについては何度も同
じ修正をする必要が無くなり、オペレーターの作業負担
が軽減されるとともに単語認識率が向上する。
【図面の簡単な説明】
【図1】この発明の学習単語決定方法を実現するための
装置構成図である。
【図2】この発明の一実施例の動作を説明するフローチ
ャートである。
【符号の説明】
10 言語処理部 11 学習部 12 作業用メモリ 13 制御部 14 CPU 15 確率遷移行列メモリ 16 学習テーブル

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声・文字認識などの認識結果から単語
    を決定するのに用いられる確率遷移行列の出現頻度計算
    方法であって、 認識結果に対し正しい単語として決定された単語の文字
    の組み合わせの出現回数をカウントし、 決定された単語の数が規定数となったときに、カウント
    前の文字の組み合わせの出現回数合計をカウントされて
    増加した出現回数合計に対し確率遷移行列を用いて単語
    を決定する際に意味を持つ程度の小さな一定値に正規化
    し、正規化に合わせて補正されたカウント前の文字の組
    み合わせの出現回数とカウントされた出現回数の増加分
    との和を、正規化されたカウント前の文字の組み合わせ
    の出現回数合計とカウントされた出現回数合計の増加分
    との和で除算して出現頻度を再計算することを特徴とす
    る確率遷移行列の出現頻度計算方法。
JP19215591A 1991-07-31 1991-07-31 確率遷移行列の出現頻度計算方法 Expired - Fee Related JP3184568B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19215591A JP3184568B2 (ja) 1991-07-31 1991-07-31 確率遷移行列の出現頻度計算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19215591A JP3184568B2 (ja) 1991-07-31 1991-07-31 確率遷移行列の出現頻度計算方法

Publications (2)

Publication Number Publication Date
JPH0535722A JPH0535722A (ja) 1993-02-12
JP3184568B2 true JP3184568B2 (ja) 2001-07-09

Family

ID=16286614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19215591A Expired - Fee Related JP3184568B2 (ja) 1991-07-31 1991-07-31 確率遷移行列の出現頻度計算方法

Country Status (1)

Country Link
JP (1) JP3184568B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012212276A (ja) * 2011-03-31 2012-11-01 Denso It Laboratory Inc 学習装置、学習方法、及び学習プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62165267A (ja) * 1986-01-17 1987-07-21 Ricoh Co Ltd 音声ワ−ドプロセツサ装置
JPH01287771A (ja) * 1988-05-13 1989-11-20 Matsushita Electric Ind Co Ltd 形態素解析装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012212276A (ja) * 2011-03-31 2012-11-01 Denso It Laboratory Inc 学習装置、学習方法、及び学習プログラム

Also Published As

Publication number Publication date
JPH0535722A (ja) 1993-02-12

Similar Documents

Publication Publication Date Title
US7702512B2 (en) Natural error handling in speech recognition
JP4864712B2 (ja) ユーザインタフェースを有するインテリジェント音声認識
US5787455A (en) Method and apparatus for storing corrected words with previous user-corrected recognition results to improve recognition
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
JP3184568B2 (ja) 確率遷移行列の出現頻度計算方法
JP2000089786A (ja) 音声認識結果の修正方法および装置
JP3548372B2 (ja) 文字認識装置
JP2002279353A (ja) 文字認識装置、その方法、および記録媒体
JPH0589281A (ja) 誤読修正・検出方法
JPH07152754A (ja) 文章作成補助機能を持つ文章作成装置
JP2865443B2 (ja) カナ氏名もしくはカナ法人名表記の漢字変換装置
JPH06333083A (ja) 光学式文字読取装置
JPH0728956A (ja) 誤読修正支援方法
JPS63268080A (ja) 手書文字入力デ−タ修正方式
JP3022790B2 (ja) 手書き文字入力装置
JPH0475185A (ja) 入力装置
JP2986255B2 (ja) 文字認識装置
JPH04252390A (ja) 文字認識結果の後処理方法
JPS60200336A (ja) 音声入力処理装置
JPS6029823A (ja) 適応型記号列変換方式
JPS6356756A (ja) コレクト機能付欧文作成装置
JPS6120176A (ja) ロ−マ字−中国語変換装置
JPH0395668A (ja) 文字データ処理装置
JPH04184398A (ja) 音声認識装置
JPH0576672B2 (ja)

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080427

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090427

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees