JP3126945B2

JP3126945B2 - 文字誤り校正装置

Info

Publication number: JP3126945B2
Application number: JP09298621A
Authority: JP
Inventors: 智垣; 英一郎隅田
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1997-10-30
Filing date: 1997-10-30
Publication date: 2001-01-22
Anticipated expiration: 2017-10-30
Also published as: JPH11134335A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列に含まれる
誤りを検出し、検出した誤りに対しては自動訂正を行う
文字誤り校正装置に関する。

【０００２】

【従来の技術】文字列の誤り訂正に関しては、文字認
識、音声認識の後処理、文章校正、あるいはワードプロ
セッサ入力などに関連して各種手法が、以下の如く提案
されている。

【０００３】第１の従来例従来技術文献１「島崎ほか，“日本文訂正支援システム
ＲＥＶＩＳＥにおける辞書の構成法”，情報処理学会第
３４回全国大会，６Ｘ−３，１９８７年」において、誤
り表記と正しい表記を対にして辞書に登録しておいて該
当する誤り表記が検出されたときに正しい表記に置き換
える手法（以下、第１の従来例という。）が提案されて
いる。第１の従来例において、例えば、誤り表記として
「労動」（正しい表記は「労働」）を登録した場合、単
語抽出時に見出し「労動」があった場合、辞書に設定済
みの正しい表記「労働」に置き換えてしまう。

【０００４】第２の従来例従来技術文献２「木谷，“手書き文書の文字認識結果に
対する後処理方式”，情報処理学会研究報告，ＮＬ８６
−１，ｐｐ．１−８，１９９１年」において、単語照合
の段階で辞書との完全一致ではなく、文字数の増減と部
分的な文字の違いにも対処できる連想統合型単語検索法
を用いること（以下、第２の従来例という。）が提案さ
れている。第２の従来例において、例えば、“プハジェ
クト”の単語照合において辞書から”プロジェク
ト”、”サブジェクト”などを検索してくるものであ
る。ただ、この方法は少なくとも４文字までは完全一致
による単語照合を行わない限り、誤って検索される単語
が膨大になる副作用が大きく、外来語などの比較的長い
単語長に対して有効であると報告されている。

【０００５】第３の従来例従来技術文献３「荒木ほか，“２重マルコフモデルによ
る日本語文の誤り検出並びに訂正法”，情報処理学会研
究報告ＮＬ９７−５，ｐｐ．２９−３５，１９９３年」
において、文字の連鎖確率の高い候補を提示していく手
法（以下、第３の従来例という。）が提案されている。
第３の従来例においては、大量の文を対象に、予め文字
の連鎖確率を計算しておき、誤り文字の前後の数文字に
着目して、確率的に接続の可能性の高い文字を訂正候補
として提示する。

【０００６】

【発明が解決しようとする課題】第１と第２の従来例に
おいては、誤り検出と訂正候補の推測は単語単位であ
り、誤り文字列が表記的に正しい単語の場合対応できな
い。それらの問題点の一例を表１に示す。

【０００７】

【表１】 ――――――――――――――――――――――――――――――――――― （例１）誤り文：「その支払いを方法はどうしたらよろしいでしょうか」正解文：「その支払い方法はどうしたらよろしいでしょうか」 ――――――――――――――――――――――――――――――――――― （例２）誤り文：「よろしくお寝てします」正解文：「よろしくお願いいたします」 ――――――――――――――――――――――――――――――――――― （例３）誤り文：「はいそうしててきますので」正解文：「はいそうして頂きますので」 ――――――――――――――――――――――――――――――――――― （注）「して□きま」の□を満たす候補として「い」、
「お」、「頂」の順に連鎖確率が高い。

【０００８】例えば、表１における例１は「支払いを方
法」の「を」が誤って挿入された例であるが、第１の従
来例では、助詞の「を」は正しい単語として存在するの
で「を」を誤り表記としては登録することができない。
また、挿入された「を」を助詞と見なしても単語間の接
続可能性には問題がないため誤りを検出・訂正すること
ができない。同じことが文字長さが短いため連想統合型
単語検索を行う第２の従来例でも発生する。

【０００９】第３の従来例では、誤り文字が数文字連続
すると字種が多い日本語（数千文字）では候補の数が膨
大に膨れあがるため計算量が増大する（例えば、例
２）。また、例３のように誤り文字「て」に置き換えれ
る候補は「い」、「お」、「頂」の順に確率が高くなっ
ており、連鎖確率だけでは正解文字「頂」を訂正候補と
して絞り込むのが難しいという問題点があった。

【００１０】本発明の目的は以上の問題点を解決し、文
字列の誤りを検出し又は／及び訂正する処理を、従来例
に比較して大幅に小さい計算量で、しかも文字単位で、
さらにより正確に実行することができる文字誤り校正装
置を提供することにある。

【００１１】

【課題を解決するための手段】本発明に係る文字誤り校
正装置は、誤り文と正解文の組み合わせと、正解文とを
含むコーパスデータベースを格納する第１の記憶装置
と、上記第１の記憶装置から読み出された正解文に基づ
いて、単位が、それぞれ正解文中に含まれる文字、単語
又は品詞である複数Ｎ個の単位が連鎖して形成されるＮ
連鎖単位列のうちＮ−１個の単位が連鎖して形成される
Ｎ−１連鎖単位列の頻度に対するＮ連鎖単位列の頻度の
Ｎ連鎖確率を計算することにより、上記Ｎ連鎖確率を含
む連鎖確率モデルを作成する連鎖確率モデル作成手段
と、上記連鎖確率モデル作成手段によって作成された連
鎖確率モデルを格納する第２の記憶装置とを備え、入力
された文字列に対して文字誤り校正処理を行う文字誤り
校正装置において、上記第１の記憶装置から読み出され
た誤り文と正解文の組み合わせから誤り文字列と正解文
字列の組み合わせを抽出しかつ、誤り文字列と正解文字
列の組み合わせが同一である誤り文字列と正解文字列の
組み合わせを集めるように分類し、上記抽出しかつ分類
した誤り文字列と正解文字列の組み合わせにおいて、上
記誤り文字列の一部である誤り部分と、上記正解文字列
の一部である正解部分とが互いに対応するときに、上記
誤り部分と上記正解部分に対してそれぞれ前と後に所定
数の文字を付加した別の誤り文字列と別の正解文字列の
文字列パターンの組み合わせを作成し、作成した別の誤
り文字列と別の正解文字列の文字パターンの組み合わせ
の頻度である組み合わせ頻度が所定値以上の文字パター
ンの組み合わせを選択し、上記コーパスデータベース内
の正解文と上記選択された別の誤り文字列との間で第１
のパターンマッチを行い、上記第１のパターンマッチで
一致した別の誤り文字列を候補から除外し、残りの候補
である選択された別の誤り文字列と上記コーパスデータ
ベース内の誤り文との間で第２のパターンマッチを行
い、上記第２のパターンマッチで一致した別の誤り文字
列について一致した位置が上記誤り部分の誤り位置と重
なるときに当該別の誤り文字列を候補として残し、残っ
た候補の別の誤り文字列と、当該別の誤り文字列に対応
する別の正解文字列との対からなる誤りパターン辞書を
作成する誤りパターン辞書作成手段と、上記第１の記憶
装置から読み出された正解文に基づいて、上記読み出さ
れた正解文から所定の長さの文字列連鎖を抽出し、上記
抽出された所定の長さの文字列連鎖の頻度が所定値以上
であるより高い頻度の文字列を慣用文字列として検出す
ることにより、上記検出された慣用文字列からなる慣用
文字連鎖辞書を作成する慣用文字連鎖辞書作成手段と、
上記誤りパターン辞書作成手段によって作成された誤り
パターン辞書と、上記慣用文字連鎖辞書作成手段によっ
て作成された慣用文字連鎖辞書とを格納する第３の記憶
装置と、入力された文字列に対して、上記第２の記憶装
置に格納された連鎖確率モデルを参照して上記入力され
た文字列の少なくとも１個のＮ連鎖確率を計算し、計算
されたＮ連鎖確率が所定のしきい値以下の文字列から誤
り文字列を検出する第１の誤り検出手段と、（ａ）上記第３の記憶装置に記憶された誤りパターン辞
書を参照して、上記誤り検出手段によって検出された誤
り文字列を対応する正解文字列に置換して誤り訂正する
誤りパターン訂正処理と、（ｂ）上記誤り検出手段によって検出された誤り文字列
に類似した文字列を、上記第３の記憶装置に記憶された
慣用文字連鎖辞書から検索し、当該検出された誤り文字
列を当該検索された類似した文字列で置換することによ
り誤り訂正する慣用パターン訂正処理との少なくとも一
方を実行することにより誤り訂正する誤り訂正手段とを
備えたことを特徴とする。

【００１２】また、上記文字誤り校正装置において、上
記誤り訂正手段によって誤り訂正された文字列に対し
て、上記第２の記憶装置に格納された連鎖確率モデルを
参照して上記入力された文字列の少なくとも１個のＮ連
鎖確率を計算し、計算されたＮ連鎖確率が所定のしきい
値以下の文字列から誤り文字列を検出する第２の誤り検
出手段をさらに備えたことを特徴とする。

【００１７】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１８】図１は、本発明に係る一実施形態である文
字誤り校正装置１０及びその周辺装置の構成を示すブロ
ック図であり、図２は、図１の文字誤り校正装置１０に
よって実行される文字誤り校正処理を示すフローチャー
トである。図１において、文字誤り校正装置１０は、（ａ）連鎖確率モデルメモリ３１内の連鎖確率モデルを
参照して、文字列メモリ５４内の文字列における誤りを
検出するための誤り検出処理（図２のステップＳ２）を
実行して誤り検出結果を含む文字列を出力する誤り検出
部１１と、（ｂ）連鎖確率モデルメモリ３１内の連鎖確率モデル及
び誤り訂正辞書メモリ３２内の誤り訂正辞書を参照し
て、誤り検出部１１から出力される誤り検出結果に基づ
いて、上記文字列の誤りを訂正する誤り訂正処理（図２
のステップＳ４）を実行して誤り訂正結果の文字列を出
力する誤り訂正部１２と、（ｃ）連鎖確率モデルメモリ３１内の連鎖確率モデルを
参照して、誤り訂正部１２からの誤り訂正結果に基づい
て、その文字列の誤りを検出する誤り検出処理（図２の
ステップＳ６）を実行して誤り検出結果を含む文字列を
出力する誤り検出部１３とを備え、文字誤り校正装置１
０は、図２に示すように、誤り検出処理（ステップＳ
２）、誤り訂正処理（ステップＳ４）及び誤り検出処理
（ステップＳ６）を順次実行することを特徴としてい
る。

【００１９】ここで、誤り検出部１１，１３はそれぞ
れ、入力された文字列に対して、連鎖確率モデルを適用
して入力文字列の連鎖確率を求め、連鎖確率が与えられ
たしきい値以下の部分の文字列に基づいて文字列に含ま
れる誤り部分の検出を行う。また、誤り訂正部１２によ
って実行される誤り訂正処理（図２のステップＳ４）
は、図６に示すように、誤りパターン訂正処理（ステッ
プＳ７２）と慣用パターン訂正処理（ステップＳ７６）
とを含む。なお、誤り訂正処理（図２のステップＳ４）
は、誤りパターン訂正処理（ステップＳ７２）と慣用パ
ターン訂正処理（ステップＳ７６）とのうちの少なくと
も一方を含むようにしてもよい。

【００２０】ここで、誤りパターン訂正処理は、誤り訂
正辞書メモリ３２内の誤りパターン辞書を用いて文字列
の訂正を行う処理である。誤りパターン辞書は誤りの文
字列とそれに対応する正解文字列が組みになっており、
誤り訂正部１２は、入力文字列中に誤りパターン辞書の
誤り文字列と同じ文字列を発見すると、該当部分を正解
文字列で置き換えることにより訂正を行う。また、慣用
パターン訂正処理は、連鎖確率モデルメモリ３１内の連
鎖確率モデルと、誤り訂正辞書メモリ３２内の慣用文字
連鎖辞書を用いて文字列の訂正を行う。誤り訂正部１２
は、まず、連鎖確率モデルを入力文字列に適用して、連
鎖確率が与えられたしきい値以下の部分の文字列に基づ
いて誤り部分の検出を行う。次いで、この誤り部分とそ
の前後Ｎ文字を加えた文字列をもとに、上記の慣用文字
連鎖辞書の中でもっとも類似（例えば、２つの文字列を
同じ文字列にするための文字単位の置換、削除、挿入の
編集操作数を距離とする）しているもので、かつ、与え
られたしきい値以上のものを検索する。そうして検索さ
れた慣用文字連鎖辞書の文字列中（以下、慣用文字列と
いう。）に、誤りとみなした部分の前後数文字が存在す
れば、慣用文字列中の前後数文字にはさまれた部分を取
り出し、誤り部分と置換することにより文字列の訂正を
行う。

【００２１】ここで、連鎖確率モデルは、コーパスデー
タベースメモリ内のコーパスデータに基づいて連鎖確率
モデル作成部２１により作成されて、連鎖確率モデルメ
モリ３１に出力されて格納され、誤り訂正辞書は、コー
パスデータベースメモリ内のコーパスデータに基づいて
誤りパターン辞書作成部２２及び慣用文字連鎖辞書作成
部２３により作成されて誤り訂正辞書メモリ３２に格納
される。ここで、連鎖確率モデル作成部２１は、正解文
字列及び、誤り文と正解文の組み合わせなどを格納した
コーパスデータベースメモリ３０から正解文字列を読み
込んで、文字や品詞及び単語などの連鎖頻度に基づい
て、連鎖確率モデルを作成して連鎖確率モデルメモリ３
１に出力して格納する。また、誤りパターン辞書作成部
２２は、コーパスデータベースメモリ３０から誤り文と
正解文の組み合わせを読み込んで、誤り文字列と正解文
字列の組みを抽出及び分類し、組み合わせ頻度や正解文
と誤り文へのパターンマッチの可否に基づいて、誤りパ
ターン辞書を作成して誤り訂正辞書メモリ３２に出力し
て格納する。さらに、慣用文字連鎖作成部２３は、コー
パスデータベースメモリ３０から正解文字列を読み込ん
で、一定長の文字列連鎖を抽出し、その頻度に基づい
て、慣用文字連鎖辞書を作成して誤り訂正辞書メモリ３
２に出力して格納する。

【００２２】文字誤り校正装置１０には、誤り検出部１
１，１３及び誤り訂正部１２に接続され、処理を実行す
るために必要なフラグ、パラメータ及びファイルを格納
するための共通ランダムアクセスメモリ（以下、ランダ
ムアクセスメモリをＲＡＭという。）が設けられる。ま
た、誤り検出部１１，１３及び誤り訂正部１２はそれぞ
れ、処理を実行するために必要なフラグ、パラメータ及
びファイルを格納するためのＲＡＭ１１ａ，１２ａ，１
３ａを備える。さらに、連鎖確率モデル作成部２１、誤
りパターン辞書作成部２２及び慣用文字連鎖辞書作成部
２３はそれぞれ、処理を実行するために必要なフラグ、
パラメータ及びファイルを格納するためのＲＡＭ２１
ａ，２２ａ，２３ａを備える。

【００２３】誤り検出及び訂正すべき文字列がキーボー
ド５１を用いてパーソナルコンピュータ５０に入力され
た後、文字列メモリ５４に出力されて格納される。ま
た、誤り検出及び訂正された結果は、文字誤り校正装置
１０から文字列メモリ５５に出力されて格納された後、
パーソナルコンピュータ５０に入力され、その文字列が
ＣＲＴディスプレイ５２に表示されるとともに、プリン
タ５３に出力されて印字される。ここで、各処理部１
０，１１，１２，１３，２１，２２，２３は例えばデジ
タル計算機で構成され、各メモリ３０，３１，３２，５
４，５５は例えばハードディスクメモリなどの記憶装置
で構成される。

【００２４】図１の文字誤り校正装置１０において、各
処理部１１，１２，１３はそれぞれ独立に構成してもよ
い。また、誤り検出部１３は設けなくてもよい。さら
に、誤り訂正部１２は、誤りパターン訂正処理と慣用パ
ターン訂正処理のうちの少なくとも一方を実行するよう
に構成してもよい。

【００２５】まず、各処理部２１，２２，２３の処理に
ついて詳述する。なお、コーパスデータメモリ３０は、
正解文の文字列及び、正解文字列と誤り文字列の対を含
むテキストデータのコーパスを予め格納する。

【００２６】図１７は、図１の連鎖確率モデル作成部２
１によって実行される、連鎖確率モデル作成処理を示す
フローチャートである。図１７において、まず、ステッ
プＳ２０１でコーパスデータベースメモリ３０から正解
文を読み込んだ後、コード化処理（ステップＳ２０
２）、連鎖辞書作成処理（ステップＳ２０３）、連鎖頻
度作成処理（ステップＳ２０４）、連鎖確率モデル作成
サブルーチン処理（ステップＳ２０５）を順次実行す
る。そして、ステップＳ２０６で、作成した連鎖確率モ
デルを連鎖確率モデルメモリ３１に出力して格納する。
なお、品詞及び単語の混合連鎖確率モデルなどの場合
は、下記のコード化の単位が各モデルに対応した単位
（例えば単語単位）で行う。

【００２７】ステップＳ２０２のコード化処理部では、
コーパスデータベースメモリ３０から読み込んだ文字列
の各文字をコード化し、ＲＡＭ２１ａ内のコードファイ
ルに格納する。また、同時に文字とコードの対応を記述
した文字辞書テーブルもＲＡＭ２１ａに作成する。コー
ドファイル及び文字辞書テーブルの一例を次の表に示
す。

【００２８】

【表２】コードファイル例「大阪観光ホテルでございます」部分のコードファイル部分 ――――――――――――――――――――――――――――――――――― 連番文字コード備考又は文字 ――――――――――――――――――――――――――――――――――― ００３０００００１９００００００１ …「Ｓ」に対応００３０００００２９００００００１ …「Ｓ」に対応００３０００００３００００００４７「大」００３０００００４０００００３３３「阪」００３０００００５０００００１９８「観」００３０００００６０００００１９９「光」００３０００００７００００００１９「ホ」００３０００００８００００００１７「テ」００３０００００９００００００２０「ル」００３００００１０００００００２１「で」００３００００１１０００００００６「ご」００３００００１２０００００００７「ざ」００３００００１３０００００００８「い」００３００００１４０００００００９「ま」００３００００１５００００００１０「す」００３００００１６９００００００２ …「Ｅ」に対応 ――――――――――――――――――――――――――――――――――― （注）表１０と同様に、Ｓ、Ｅはそれぞれ文頭、文末処
理用のラベルである。

【００２９】

【表３】

【００３０】ステップＳ２０３の連鎖辞書作成処理で
は、ＲＡＭ２１ａからコードファイルを読み込む。読み
込んだコード列は１コードを一文字とする１本の文字列
とみなす（文字数はＬ）。次に、この文字列の先頭の１
文字を取り去った文字列を別の一つの単語とみなす。さ
らにまた先頭の１文字を取り去った文字列を別の単語と
みなす。これを最後の１文字まで行うと、Ｌ個の単語
（部分コード列）集合が生成できる。これをソートして
辞書を作成し、この辞書の隣接する単語が先頭から何文
字までが同じ文字（共通文字数）であるかを求め、連鎖
辞書ファイルとして連鎖確率モデルメモリ３１に出力し
て格納する。連鎖辞書ファイルの一例を次の表に示す。

【００３１】

【表４】（注）項目１はコードファイルとの位置関係（コードフ
ァイルの連番と対応する）を示す。

【００３２】ステップＳ２０４の連鎖頻度作成処理で
は、連鎖確率モデルメモリ３１から連鎖辞書ファイルを
読み込み、ＲＡＭ２１ａ内のコードファイルを参照して
与えられた文字数分（Ｎ）だけ連続する文字列とその頻
度を求め、Ｎ連鎖頻度ファイルを作成する。連鎖頻度フ
ァイルの一例を次の表に示す。本明細書において、Ｎ個
だけ連続する文字列の頻度をＮ連鎖頻度という。

【００３３】

【表５】連鎖頻度ファイル（３文字連鎖の例） ――――――――――――――――――――――――――――――――――― 文字コード１文字コード２文字コード３頻度 ――――――――――――――――――――――――――――――――――― ０００００００３００００００５８００００００４５１０００００００３００００００５８００００００５１１００００００００３００００００５８００００００５７２０００００００３００００００５８００００００５８２０００００００３００００００５８００００００７５２０００００００３００００００５８００００００８９４０００００００３００００００５８０００００１５９７０００００００３００００００５８０００００１６７１０００００００３００００００５８０００００１８７６ ―――――――――――――――――――――――――――――――――――

【００３４】ステップＳ２０５の連鎖確率モデル作成処
理では、Ｎ連鎖頻度ファイルとＮ−１連鎖頻度ファイル
から、Ｎ連鎖確率モデルを作成する。３文字の文字連鎖
確率テーブルの一例を次の表に示す。

【００３５】

【表６】

【００３６】Ｎ連鎖確率の定義式は次式で表される。

【数１】Ｎ連鎖確率＝ｌｏｇ₁₀｛（Ｎ連鎖頻度）÷（Ｎ−１連鎖頻度）｝ここで、Ｎ連鎖頻度とは複数Ｎ個の文字列が連鎖する頻
度をいい、Ｎ−１連鎖頻度は上記複数Ｎ個の文字列のう
ち最初のＮ−１個の文字列が連鎖する頻度をいう。ま
た、対数は便宜上のスケール変換である。従って、Ｎ連
鎖確率とは、Ｎ連鎖頻度をＮ−１連鎖頻度で除算して得
た確率値であって、Ｎ−１連鎖に対するＮ連鎖の確率を
表わす。本実施形態では、好ましくは、Ｎ＝３である。
本実施形態において、文字のＮ連鎖確率を求めている
が、本発明はこれに限らず、単語又は品詞などの単位の
Ｎ連鎖確率を求めてもよい。

【００３７】連鎖確率モデル作成処理の原理を文字列の
一例「ＡＢＡＢＣＤＡＢＣ」を用いて以下に示す。（１）「ＡＢＡＢＣＤＡＢＣ」をコード化する（コード
化処理）。ここでの例では、コード化結果は便宜上その
ままとする。（２）構成する部分コード列の集合を作成する（連鎖辞
書作成処理）。読み込んだコード列は１コードを一文字
とする１本の文字列とみなす。次に、この文字列の先頭
の１文字を取り去った文字列を別の一つの単語とみな
す。さらにまた先頭の１文字を取り去った文字列を別の
単語とみなす。これを最後の１文字まで行ない、次の表
に示す単語（部分コード列）集合を生成する。

【００３８】

【表７】 ――――――――――――――――――――――――――― 単語（部分コード列） ――――――――――――――――――――――――――― ＡＢＡＢＣＤＡＢＣ …入力列ＢＡＢＣＤＡＢＣ …先頭１文字を取り去った単語ＡＢＣＤＡＢＣ …先頭２文字を取り去った単語ＢＣＤＡＢＣＣＤＡＢＣＤＡＢＣＡＢＣＢＣＣ ―――――――――――――――――――――――――――

【００３９】（３）上記の単語（部分コード列）を、例
えばアルファベット又はあいうえお順などの辞書式順序
にソートし、下方のみに隣接する単語が先頭から何文字
までが同じ文字であるかを求める（連鎖辞書作成処
理）。連鎖辞書の一例を次の表に示す。

【００４０】

【表８】連鎖辞書の一例 ―――――――――――――――――――――――――― 単語共通文字数備考 ―――――――――――――――――――――――――― ＡＢＡＢＣＤＡＢＣ２「ＡＢ」が一致ＡＢＣ３「ＡＢＣ」が一致ＡＢＣＤＡＢＣ０一致するものなしＢＡＢＣＤＡＢＣ１「Ｂ」が一致ＢＣ２「ＢＣ」が一致ＢＣＤＡＢＣ０一致するものなしＣ１「Ｃ」が一致ＣＤＡＢＣ０一致するものなしＤＡＢＣ０一致するものなし ――――――――――――――――――――――――――

【００４１】（４）上記の連鎖辞書をもとに、例えば２
文字連鎖の文字列と頻度は次の手順で求める（連鎖頻度
作成処理）。（４−１）連鎖辞書で共通文字数が２以上の辞書位置を
みつけ、そこからスタートして共通文字数が２未満にな
るまでを計数する。ここでは、「ＡＢＡＢＣＤＡＢＣ」
の共通文字数が２で、ここから開始して共通文字数が２
未満になるのは「ＡＢＣＤＡＢＣ」の０までで、計数値
は３となる。これは開始の単語の先頭２文字の文字連鎖
「ＡＢ」の頻度が３であることを意味する。同じように
文字連鎖「ＢＣ」の頻度２が求まる。同様に３文字の連
鎖「ＡＢＣ」の頻度は２である。（４−２）もし、上記（４−１）の処理で扱われない単
語は頻度１とする。例えば、「ＢＡＢＣＤＡＢＣ」は上
記（４−１）の処理では扱われないので、これから２文
字連鎖「ＢＡ」の頻度は１である。

【００４２】（５）「ＡＢＣ」の連鎖確率の計算は、
「ＡＢ」の頻度３と「ＡＢＣ」の頻度２より、ｌｏｇ
（２／３）＝−０．１７６として計算する（連鎖確率モ
デル作成サブルーチン処理）。

【００４３】図２６は、図１の慣用文字連鎖辞書作成部
２３によって実行される、慣用文字連鎖辞書作成処理を
示すフローチャートである。図２６において、まず、ス
テップＳ４０１でコーパスデータベースメモリ３０から
正解文字列を読み込み、次いで、コード化処理（ステッ
プＳ４０２）、連鎖辞書作成処理（ステップＳ４０
３）、連鎖頻度作成処理（ステップＳ４０４）、慣用文
字連鎖辞書作成サブルーチン処理（ステップＳ４０５）
を順次実行する。さらに、作成した慣用文字連鎖辞書を
誤り訂正辞書メモリ３２に出力して格納する。すなわ
ち、慣用文字連鎖辞書作成処理は、データベースから正
解文字列を読み込んで、一定長の文字列連鎖を抽出し、
その頻度に基づいて、慣用文字連鎖辞書を作成する処理
である。なお、コード化処理（ステップＳ４０２）、連
鎖辞書作成処理（ステップＳ４０３）、連鎖頻度作成処
理（ステップＳ４０４）はそれぞれ、図１７の対応する
処理と同様の処理を実行する処理である。

【００４４】ステップＳ４０５の慣用文字連鎖辞書作成
処理では、当該慣用文字連鎖辞書作成サブルーチン処理
では、ＲＡＭ２３ａ内のＮ文字（本実施形態では、Ｎ＝
１０である。）の連鎖頻度ファイルを読み込み、その頻
度が与えられたしきい値（本実施形態では、３）以上の
文字列を取り出す処理を行い、処理後のデータを慣用文
字連鎖辞書として誤り訂正辞書メモリ３２に格納され
る。すなわち、より高い頻度の連鎖文字列を慣用文字連
鎖辞書に格納する。慣用文字連鎖辞書のデータ構造例を
次の表に示す。

【００４５】

【表９】（注）種類において、１は文頭を示す、２は文末を示
し、３は文中を示す。

【００４６】図３１は、図１の誤りパターン辞書作成部
２２によって実行される、誤りパターン辞書作成処理を
示すフローチャートである。当該誤りパターン辞書作成
処理は、まず、ステップＳ５０１でコーパスデータベー
スメモリ３０から誤り文と正解文のペアを読み込み、誤
り情報抽出処理（ステップＳ５０２）、誤り文字情報分
類処理（ステップＳ５０３）、及び誤りパターン辞書作
成サブルーチン処理（ステップＳ５０４）を順次実行す
る。さらに、ステップＳ５０５で作成した誤りパターン
辞書を誤り訂正辞書を誤り訂正辞書メモリ３２に出力し
て格納する。

【００４７】ステップＳ５０２の誤り情報抽出処理で
は、誤り文と正解文のペアに基づいて、誤り位置と誤り
文字列、それに対応する正解文字列を抽出し、それぞれ
の文字列にその前後Ｎ文字（ここではＮ＝５）の文字を
付加して、誤り文字情報ファイル及び誤り位置情報ファ
イルをＲＡＭ２２ａに出力して格納する。誤り文字情報
ファイル及び誤り位置情報ファイルを次の表に示す。

【００４８】

【表１０】誤り文字情報ファイル ――――――――――――――――――――――――――――――――――― 頻度正解文字列：誤り文字列 ――――――――――――――――――――――――――――――――――― １ますとどの＜ような状態＞でございま：も僧どもの＜何ちょて＞でございま１ちの方は何＜日＞からになり：ちの方は何＜時＞からなりま１バス付きの＜部屋は無い＞んですかＥ：丸コースの＜ような＞んですかＥ１ＳＳＳＳＳ＜あ＞ー和室にし：ＳＳＳＳＳ＜お＞−和室をに１たので当日＜お＞気をつけて：たので当日＜を＞気をつけて１い三〇六の＜鈴木＞様明朝八時：い三〇六の＜ずでき＞様分じゃ八１いになると＜思い＞ますＥＥＥ：いになると＜前＞ますＥＥＥ ――――――――――――――――――――――――――――――――――― （注）＜＞は誤りの位置を示す。Ｓ、Ｅはそれぞれ文
頭、文末処理用のラベルである。

【００４９】

【表１１】誤り位置情報ファイル ――――――――――――――――――――――――――――――――――― 文の識別情報誤り位置情報 ――――――――――――――――――――――――――――――――――― TAC22011.customer.6 /A:2:3/D:9:1/D:10:1/S:12:13 TAC22011.customer.7 /S:13:21/S:28:28/S:32:34 TAC22011.customer.8 /A:2:2 TAC22011.customer.9 /A:3:3/S:6:9/S:16:16 TAC22011.customer.10 TAC22011.customer.11 /A:3:3/S:6:8/S:13:20 TAC22011.customer.12 /S:11:11/S:14:17/S:34:37 ――――――――――――――――――――――――――――――――――― （注）誤り位置情報のＡ、Ｄ、Ｓはそれぞれ挿入、欠
落、置換を表す。次に続く数字は誤り位置の始点と終
点。複数ある場合は／で区切っている。

【００５０】ステップＳ５０３の誤り文字情報分類処理
では、誤り文字情報ファイルを読み込み、誤り文字列と
対応する正解文字列をキーにして分類し、誤り文字情報
分類ファイルとしてＲＡＭ２２ａに出力して格納する。
誤り文字情報分類ファイルの一例を次の表に示す。

【００５１】

【表１２】誤り文字情報分類ファイル正解文字列：「てお」、誤り文字列：「と」についての例 ――――――――――――――――――――――――――――――――――― 正解文字列：誤り文字列：頻度（又は度数） ――――――――――――――――――――――――――――――――――― をいただい＜てお＞りますＥＥ：できみたい＜と＞りますＥＥ：１部屋で続け＜てお＞取りした方：部屋で続け＜と＞取りした方：１ち申し上げ＜てお＞りますあり：ち申し上げ＜と＞りますあり：１いお待ちし＜てお＞ります恐れ：いお待ちし＜と＞ります恐れ：１お預かりし＜てお＞きますＥＥ：ますかりし＜と＞きますＥＥ：１ので用意し＜てお＞いて下さい：ので用意し＜と＞いてくださ：１ ――――――――――――――――――――――――――――――――――― （注）＜＞は誤り部分と正解部分が対応するそれぞれの
位置を示し、：は正解文字列、誤り文字列、頻度を区切
るものである。Ｅは文末を示す記号である。

【００５２】ステップＳ５０４の誤りパターン辞書作成
サブルーチン処理では、ＲＡＭ２２ａ内の誤り文字情報
分類ファイルを読み込み、分類されたパターンごとに、
誤り文字列を中心に前後の文字を追加した文字列集合を
作成し、その文字列集合の中から誤りパターンとして適
当な条件を満たすものを選択して誤りパターン辞書とし
て誤り訂正辞書メモリ３２に出力して格納する。すなわ
ち、誤り文字情報分類ファイルを読み込み、分類された
パターンごとに、誤り文字列を中心に前後に文字を追加
した文字列を作成しながら、その文字列の出現頻度が２
以上のもので、かつ、正解文にパターンマッチせず、か
つ、誤り文に対してパターンマッチしたものはマッチし
た位置が誤り位置と重なる条件のものを取り出し、誤り
パターンとして出力する。誤りパターン辞書の一例を次
の表に示す。

【００５３】

【表１３】

【００５４】誤りパターン辞書作成処理の原理は次のと
おりである。（１）正解文と誤り文のペアから抽出した文字列のパタ
ーンを、表１４で示されるように、＜＞で示される誤り
部分と正解部分に係る同一のペアを集めるように分類し
た後の結果が次の表に示すものが得られたとする。

【００５５】

【表１４】 ――――――――――――――――――――――――――――――――――― からとなっ＜てお＞りますがＥ：からとなっ＜と＞りますがＥ：１インとなっ＜てお＞りますがＥ：インとなっ＜と＞りますがＥ：１千円となっ＜てお＞りますがＥ：千円となっ＜と＞りますがＥ：１ ――――――――――――――――――――――――――――――――――― （注）＜＞は誤り部分と正解部分が対応するそれぞれの
位置を示し、：は正解文字列、誤り文字列、頻度を区切
るものである。Ｅは文末を示す記号である。

【００５６】（２）上記分類パターンから＜てお＞と＜
と＞の前後数文字を付加したすべての組み合わせの文字
列パターンを作成する。それらに対して頻度が与えられ
たしきい値以上（この例では、２以上）のものを選択す
る（次の表の４種類１）乃至４））。次いで、コーパス
データメモリ３０内の正解文と、上記選択した誤り文字
列とのパターンマッチを行い、マッチしたものは候補か
ら除外する（この例では、次の表の１）と３）がマッチ
した）。最後に、残りの候補（すなわち、除外後の選択
した誤り文字列）とコーパスデータメモリ３０内の誤り
文との間でパターンマッチを行い、マッチしたものはマ
ッチした位置が誤り位置と重なるかどうかをチェックす
る（ここでは、４）がこの条件を満たす）。これらの条
件をすべてクリアしたものを誤りパターンとして誤りパ
ターン辞書に格納する。

【００５７】

【表１５】 ――――――――――――――――――――――――――――――――――― パターン頻度Ｄ１Ｄ２ ――――――――――――――――――――――――――――――――――― １）＜てお＞：＜と＞３〇２）っ＜てお＞り：っ＜と＞り３ × × ３）＜てお＞ります：＜と＞ります３〇４）なっ＜てお＞ります：なっ＜と＞ります３ × 〇 ――――――――――――――――――――――――――――――――――― （注）Ｄ１は正解文とのパターンマッチ可否を示し、Ｄ
２は誤り文とのパターンマッチで誤り位置と重なるかど
うかの可否を示す。

【００５８】次いで、文字誤り校正装置１０の各処理部
１１，１２，１３，２１，２２，２３の各処理のフロー
チャート（図２乃至図４７）について詳述する。各処理
では、処理名が付与されており、その処理の入力引数と
出力引数を各フローチャートにおいて表示している。例
えば、図２の誤り検出処理では、処理名Ｅｘａｍｉｎｅ
が付与されており、引数として（Ｓｅｎｔ，Ｌｉｍｉ
ｔ，Ｆｌａｇ）の３つが使用される。以下、表記法は同
様である。

【００５９】図２は、図１の文字誤り校正装置１０によ
って実行されるメインルーチンの文字誤り校正処理を示
すフローチャートである。図２において、まず、ステッ
プＳ１で、文字列メモリ５４から入力された文字列を文
字列パラメータＳｅｎｔに代入し、文字列の連鎖確率が
しきい値よりも低い文字が連続するものを誤りブロック
としたとき、すなわち誤りブロックを判断するときの連
鎖確率のしきい値をパラメータＬｉｍｉｔに代入した
後、ステップＳ２で誤り検出部１１による誤り検出処理
を実行する。そして、ステップＳ３では、誤りが生じて
いるか否かを表わすフラグＦｌａｇがＦｌａｇ≠１であ
るか否かが判断され、ＮＯのとき誤りなしと判断されて
ステップＳ１０でフラグＦに１を代入してステップＳ９
に進む。一方、ステップＳ３でＹＥＳであるときは誤り
があるので、ステップＳ４で誤り訂正部１２による誤り
訂正処理を実行する。そして、ステップＳ５では、訂正
が生じているか否かを表わすフラグＦｌａｇがＦｌａｇ
≠１であるか否かが判断され、ＮＯのとき訂正なしと判
断されてステップＳ１１でフラグＦに２を代入してステ
ップＳ９に進む。一方、ステップＳ５でＹＥＳであると
きは訂正があるので、ステップＳ６で誤り検出部１３に
よる誤り検出処理を実行する。そして、ステップＳ７で
は、誤りが生じているか否かを表わすフラグＦｌａｇが
Ｆｌａｇ≠１であるか否かが判断され、ＮＯのとき誤り
なしと判断されてステップＳ１２でフラグＦに３を代入
してステップＳ９に進む。一方、ステップＳ７でＹＥＳ
であるときは誤りがあるので、ステップＳ８でフラグＦ
に４を代入してステップＳ９に進む。ステップＳ９で
は、フラグＦ、入力された元の文字列Ｓｅｎｔ及び誤り
検出及び訂正された文字列ＮｅｗＳｅｎｔを文字列メモ
リ５５に出力して格納する。

【００６０】図３は、図１の誤り検出部１１及び１３に
よって実行される、図２及び図９のサブルーチンである
誤り検出処理（ステップＳ２，Ｓ６，Ｓ１１１）を示す
フローチャートである。図３において、まず、ステップ
Ｓ２１で連鎖確率計算処理を実行し、ステップＳ２２で
誤りブロック計算処理を実行した後、ステップＳ２３で
誤り個数ＮがＮ＞０であるか否かが判断され、ＹＥＳで
あるときは誤りがあるのでフラグＦｌａｇに１を代入し
て元のメインルーチンに戻る。一方、ＮＯであるとき
は、誤りがないのでステップＳ２４でフラグＦｌａｇに
０を代入して元のメインルーチンに戻る。当該誤り検出
処理では、入力された文字列Ｓｅｎｔに対して、連鎖確
率モデルを適用して入力文字列の連鎖確率を求め、その
連鎖確率が与えられたしきい値Ｌｉｍｉｔ以下の部分に
基づいて文字列に含まれる誤り部分を特定し、その位置
を求めて出力する。

【００６１】図４は、図３のサブルーチンである連鎖確
率計算処理（ステップＳ２１）を示すフローチャートで
ある。当該連鎖確率計算処理では、入力された文字列Ｓ
ｅｎｔに対して、連鎖確率モデルを適用して入力文字列
Ｓｅｎｔのそれぞれの文字ごとに連鎖確率を求め、その
連鎖確率が与えられたしきい値Ｌｉｍｉｔ以下かどうか
をＲＡＭ１１ａ内の誤りテーブルに格納する。図５は、
図３のサブルーチンである誤りブロック計算処理（ステ
ップＳ２２）を示すフローチャートである。当該誤りブ
ロック計算処理では、誤りテーブルに格納された情報に
基づいて、入力文字列において連鎖確率が与えられたし
きい値Ｌｉｍｉｔ以下の部分から誤りブロックの数Ｎと
それぞれの始点Ｐｏｓ１及び終点Ｐｏｓ２を求め、ＲＡ
Ｍ１１ａ内の誤り位置テーブルに格納する。

【００６２】図６は、図１の誤り訂正部１２によって実
行される、図２のサブルーチンである誤り訂正処理（ス
テップＳ４）を示すフローチャートである。当該誤り訂
正処理では、入力された文字列Ｓｅｎｔに対して、誤り
訂正処理を実行する。誤り訂正処理は誤りパターン訂正
処理（ステップＳ７２）と慣用パターン訂正処理（ステ
ップＳ７６）の２処理を含む。前者は、誤りパターン辞
書に定義された誤り文字列が入力文字列の一部と一致す
るとき、一致した部分を正解文字列に置き換えて訂正を
行なう。また、後者は検出した誤り部分とその前後Ｎ文
字を加えた文字列をもとに、慣用文字連鎖辞書の中でも
っとも類似している文字列を検索し、その検索文字列
と、誤り部分を含む文字列とを比較することにより訂正
を行なう。

【００６３】図７は、図６のサブルーチンである誤りパ
ターン訂正処理（ステップＳ７２）を示すフローチャー
トである。当該誤りパターン訂正処理は、誤りパターン
訂正０１処理（ステップＳ９３）を含み、誤り訂正辞書
メモリ３２内の誤りパターン辞書に定義された誤り文字
列が入力文字列ＷｋＳｅｎｔの一部と一致するかどうか
調べ、一致した場合は一致した部分を正解文字列に置き
換える。置き換えが発生した場合はフラグＦ＝１が返さ
れ、置き換えによって訂正された文字列ＮｅｗＳｅｎｔ
が返される。それ以外はフラグＦ＝０が返される。図８
は、図７のサブルーチンである誤りパターン訂正０１処
理（ステップＳ９３）を示すフローチャートである。当
該誤りパターン訂正０１処理では、誤り訂正辞書メモリ
３２内の誤りパターン辞書から１つの誤りパターンを取
り出し、その誤りパターンの誤り部が入力文字列Ｓｅｎ
ｔに完全一致するか否かを調べ、一致した場合は入力文
字列Ｓｅｎｔの一致部分を誤りパターンの正解部に置き
換える。上記処理を一致する部分がなくなるまで繰り返
す。

【００６４】図９は、図６のサブルーチンである慣用パ
ターン訂正処理（ステップＳ７６）を示すフローチャー
トである。当該慣用パターン訂正処理は、誤り検出処理
（ステップＳ１１１）、慣用パターン訂正０１処理（ス
テップＳ１１６）、慣用パターン訂正０２処理（ステッ
プＳ１１８）及び慣用パターン訂正０３処理（ステップ
Ｓ１１９）を含む。そして、当該慣用パターン訂正処理
では、検出した誤り部分とその前後Ｎａ文字を加えた文
字列をもとに、誤り訂正辞書メモリ３２内の慣用文字連
鎖辞書の中でもっとも類似しているもので、かつ、与え
られたしきい値Ｌｉｍｉｔ以上の文字列を検索し、その
検索文字列と誤り部分を含む文字列が与えられた条件を
満たす場合、検索文字列中の一部と誤り部分を含む文字
列の一部を置き換える。置き換えが発生した場合はフラ
グＦｌａｇ＝１が返され、置き換えによって訂正された
文字列ＮｅｗＳｅｎｔが返される。それ以外はフラグＦ
ｌａｇ＝０が返される。

【００６５】図１０は、図９のサブルーチンである慣用
パターン訂正０１処理（ステップＳ１１６）を示すフロ
ーチャートである。当該慣用パターン訂正０１処理は、
慣用文字連鎖確率検索処理（ステップＳ１３２）及び慣
用文字列からの置換部分抽出処理（ステップＳ１３４）
を含む。当該慣用パターン訂正０１処理では、入力文字
列Ｓｅｎｔにある誤りブロックが文字列の先端近くにあ
る場合の慣用パターン訂正を行なう。該当する誤りブロ
ックの始点Ｐｏｓ１と終点Ｐｏｓ２をもとに、誤りブロ
ックにＳｅｎｔ内で誤りブロックより前にある文字列と
後ろにあるＮ文字（本実施形態では、Ｎ＝５である。）
を加えた文字列をもとに、誤り訂正辞書メモリ３２内の
慣用文字連鎖辞書の中でもっとも類似しているもので、
かつ、与えられたしきい値以上の文字列を検索し、その
検索文字列と誤り部分を含む文字列が与えられた条件を
満たす場合、検索文字列中の一部と誤り部分を含む文字
列の一部を置き換えて、訂正後の文字列をＮｅｗＳｅｎ
ｔとして返される。

【００６６】図１１は、図９のサブルーチンである慣用
パターン訂正０２処理（ステップＳ１１８）を示すフロ
ーチャートである。当該慣用パターン訂正０２処理は、
慣用文字連鎖確率検索処理（ステップＳ１４２）及び慣
用文字列からの置換部分抽出処理（ステップＳ１４４）
を含む。当該慣用パターン訂正０２処理では、入力文字
列Ｓｅｎｔにある誤りブロックが文字列の終端近くにあ
る場合の慣用パターン訂正を行なう。該当する誤りブロ
ックの始点Ｐｏｓ１と終点Ｐｏｓ２をもとに、誤りブロ
ックにＳｅｎｔ内で誤りブロックより前にあるＮ文字
（本実施形態では、Ｎ＝５である。）と後ろにある文字
列を加えた文字列をもとに、誤り訂正辞書メモリ３２内
の慣用文字連鎖辞書の中でもっとも類似しているもの
で、かつ、与えられたしきい値以上の文字列を検索し、
その検索文字列と誤り部分を含む文字列が与えられた条
件を満たす場合、検索文字列中の一部と誤り部分を含む
文字列の一部を置き換えて、訂正後の文字列をＮｅｗＳ
ｅｎｔとして返される。

【００６７】図１２は、図９のサブルーチンである慣用
パターン訂正０３処理（ステップＳ１１９）を示すフロ
ーチャートである。当該慣用パターン訂正０３処理は、
慣用文字連鎖確率検索処理（ステップＳ１５２）及び慣
用文字列からの置換部分抽出処理（ステップＳ１５４）
を含む。当該慣用パターン訂正０３処理では、入力文字
列Ｓｅｎｔにある誤りブロックが文字列の中程にある場
合の慣用パターン訂正を行なう。該当する誤りブロック
の始点Ｐｏｓ１と終点Ｐｏｓ２をもとに、誤りブロック
にＳｅｎｔ内で誤りブロックより前にあるＮ文字（本実
施形態では、Ｎ＝５である。）と後ろにあるＮ文字（本
実施形態では、Ｎ＝５である。）を加えた文字列をもと
に、誤り訂正辞書メモリ３２内の慣用文字連鎖辞書の中
でもっとも類似しているもので、かつ、与えられたしき
い値以上の文字列を検索し、その検索文字列と誤り部分
を含む文字列が与えられた条件を満たす場合、検索文字
列中の一部と誤り部分を含む文字列の一部を置き換え
て、訂正後の文字列をＮｅｗＳｅｎｔとして返される。

【００６８】図１３は、図１０、図１１及び図１２のサ
ブルーチンである慣用文字連鎖検索処理（ステップＳ１
３２，Ｓ１４２，Ｓ１５２）を示すフローチャートであ
る。当該慣用文字連鎖検索処理では、誤りブロックと前
後の文字列を加えた文字列Ｋｗをもとに、慣用文字連鎖
辞書から次の条件に適合する文字列を検索する。（ａ）誤りブロック位置の種類（先端、終端、中程）に
適合するもの。（ｂ）もっとも類似しているもの。（ｃ）類似度が与えられたしきい値以上のもの。上記条件を満たす文字列が検索された場合はフラグＦｌ
ａｇが１で返され、検索文字列Ｉｗが返される。満たす
ものが無い場合はフラグＦｌａｇ＝０が返される。

【００６９】図１４、図１５及び図１６は、図１０、図
１１及び図１２のサブルーチンである慣用文字列からの
置換部分抽出処理（ステップＳ１３４，Ｓ１４４，Ｓ１
５４）を示すフローチャートである。当該慣用文字列か
らの置換部分抽出処理では、誤り訂正辞書メモリ３２内
の慣用文字列辞書から検索された文字列Ｉｗの中から、
置換訂正用の文字列を取り出す。誤りブロック位置の種
類（先端、終端、中程）で処理が若干異なる。（Ｉ）先端の場合、誤りブロックより後のさらに１文字
後の２文字Ａｗ２が文字列Ｉｗに含まれるか否かを調
べ、含まれる場合はフラグＦｌａｇが１で返され、置換
文字列Ｓｗとして、Ｉｗ中でＡｗ２より前にある文字列
が返される（ステップＳ１８０参照。）。含まれない場
合はフラグＦｌａｇ＝０が返される。（II）終端の場合、誤りブロックより前のさらに１文字
前の２文字Ｂｗ２が文字列Ｉｗに含まれるか否かを調
べ、含まれる場合はフラグＦｌａｇが１で返され、置換
文字列Ｓｗとして、Ｉｗ中でＢｗ２より後にある文字列
が返される（ステップＳ１８３参照。）。含まれない場
合はフラグＦｌａｇ＝０が返される。（III）中程の場合、誤りブロックより後のさらに１文
字後の２文字Ａｗ２と誤りブロックより前のさらに１文
字前の２文字Ｂｗ２が文字列Ｉｗに含まれるか否かを調
べ、含まれる場合はフラグＦｌａｇが１で返され、置換
文字列Ｓｗとして、Ｉｗ中でＡｗ２とＢｗ２の間にある
文字列が返される（ステップＳ１７７参照。）。含まれ
ない場合はフラグＦｌａｇ＝０が返される。

【００７０】図１７は、図１の連鎖確率モデル作成部２
１によって実行される、連鎖確率モデル作成処理を示す
フローチャートであり、上述の通り、コード化処理（ス
テップＳ２０２）、連鎖辞書作成処理（ステップＳ２０
３）、連鎖頻度作成処理（ステップＳ２０４）、連鎖確
率モデル作成サブルーチン処理（ステップＳ２０５）を
含む。

【００７１】図１８は、図１７及び図２６のサブルーチ
ンであるコード化処理（ステップＳ２０２，Ｓ４０２）
を示すフローチャートである。当該コード化処理では、
コーパスデータベースメモリ３０から読み込んだ文字列
の各文字をコード化し、ＲＡＭ２１ａ内のコードファイ
ルに格納する。また、同時に文字とコードの対応を記述
した文字辞書テーブルもＲＡＭ２１ａに作成する。

【００７２】図１９は、図１７及び図２６のサブルーチ
ンである連鎖辞書作成処理（ステップＳ２０３，Ｓ４０
３）を示すフローチャートである。当該連鎖辞書作成処
理では、ＲＡＭ２１ａからコードファイルを読み込む。
読み込んだコード列は１コードを１文字とする１つの文
字列（単語）とみなす。次に、この文字列の先頭の１文
字を取り去った文字列を別の単語とみなす。さらにま
た、先頭１文字を取り去った文字列を別の単語とみな
す。これを最後の１文字まで行なうと、読み込んだコー
ド数分の単語集合ができ、この単語集合をソートして辞
書を作成し、この辞書の隣接する単語が先頭から何文字
同じ文字であるかを求め、連鎖辞書ファイルとして連鎖
確率モデルメモリ３１に出力して格納する。

【００７３】図２０は、図１９のサブルーチンである位
置ポインタＤｉｃ［ｉ］のソート処理（ステップＳ２３
２）を示すフローチャートである。当該ソート処理で
は、ＲＡＭ２１ａ内のＴｅｘｔ［ｉ］にコードファイル
のコードが格納されており、コード数はＮｕｍである。
Ｔｅｘｔ［］を文字列と見なし、また、連番Ｄｉｃ
［ｉ］を各文字列の先頭位置がＴｅｘｔ［ｉ］上でどこ
に位置するかのポインタとする。ソート前において、Ｄ
ｉｃ［ｉ］には０から始まる連番が格納されているの
で、Ｄｉｃ［０］は全体、Ｄｉｃ［１］は先頭から１文
字取り去った別の文字列などと考えることができ、全部
でＮｕｍ個の文字列集合（Ｄｉｃ［ｉ］）をソートする
ことになる。当該ソート処理の一例を次の表に示す。

【００７４】

【表１６】ソート処理の一例 ――――――――――――――――――――――――――――――――――― ソート前ソート後 ――――――――――――――――――――――――――――――――――― ０１２３４Ｔｅｘｔ［］ＸＧＴＳＩ ――――――――――――――――――――――――――――――――――― Ｄｉｃ［０］＝０ＸＧＴＳＩ＝１ＧＴＳＩＤｉｃ［１］＝１ＧＴＳＩ＝４ＩＤｉｃ［２］＝２ＴＳＩ＝３ＳＴＤｉｃ［３］＝３ＳＩ＝２ＴＳＩＤｉｃ［４］＝４Ｉ＝０ＸＧＴＳＩ ―――――――――――――――――――――――――――――――――――

【００７５】この表の処理では、具体的には、ソート前
では、Ｔｅｘｔ［］の位置ポインターであるＤｉｃ
［ｉ］には０から始まる連番が格納されており、それの
意味するところは、各Ｄｉｃ［ｉ］が指し示す単語がそ
れぞれ、「ＸＧＴＳＩ」、「ＧＴＳＩ」、…、「Ｉ」の
順に並んでいることを示している。ソートは上記の各単
語を、例えばアルファベット又はあいうえお順などの辞
書式順序に従って行い、ソート後はＤｉｃ［ｉ］にはそ
れぞれ、１、４、３、２、０が格納される。これは、各
Ｄｉｃ［ｉ］が指し示す単語がそれぞれ、「ＧＴＳ
Ｉ」、「Ｉ」、…、「ＸＧＴＳＩ」の順に並んでいるこ
とを示している。以上のように、当該ソート処理はＴｅ
ｘｔ［］に含まれる単語集合のソート処理を位置ポイン
ターであるＤｉｃ［ｉ］を用いてＴｅｘｔ［］内の単語
を間接的に参照しながら行なっている。

【００７６】図２１は、図２０のサブルーチンである比
較処理（ステップＳ２４６）を示すフローチャートであ
る。当該比較処理では、連番パラメータＤｉｃ［ｉ］と
Ｄｉｃ［ｊ］が指し示すコード列Ｔｅｘｔ［Ｄｉｃ
［ｉ］］とＴｅｘｔ［Ｄｉｃ［ｊ］］を比較して大小を
調べる。このとき、（ｉ）Ｔｅｘｔ［Ｄｉｃ［ｉ］］＞Ｔｅｘｔ［Ｄｉｃ
［ｊ］］のとき、フラグｆｌａｇ＝１とし、（ii）Ｔｅｘｔ［Ｄｉｃ［ｉ］］＝Ｔｅｘｔ［Ｄｉｃ
［ｊ］］のとき、フラグｆｌａｇ＝０とし、（iii）Ｔｅｘｔ［Ｄｉｃ［ｉ］］＜Ｔｅｘｔ［Ｄｉｃ
［ｊ］］の時、フラグｆｌａｇ＝−１として、フラグｆｌａｇを返す。

【００７７】図２２は、図１９のサブルーチンである一
致コード数計数処理（ステップＳ２３６）を示すフロー
チャートである。当該一致コード数計数処理では、Ｔｅ
ｘｔ［］のｄ１番目から始まるコード列（Ｔｅｘｔ［ｄ
１］）とｄ２番目から始まるコード列（Ｔｅｘｔ［ｄ
２］）を比較して、先頭から何個のコードが共通か（一
致するか）を計数する。その処理の一例を次の表に示
す。

【表１７】 ―――――――――――――――――――――――――――― （例）「ａｂｃｋｊｆｕｒ」と、「ａｂｃｋｕｈｊｏｌｋｊｈ」とを比較して、「ａｂｃｋ」の４文字が一致することを得る。 ――――――――――――――――――――――――――――

【００７８】図２３は、図１７及び図２６のサブルーチ
ンである連鎖頻度作成処理（ステップＳ２０４，Ｓ４０
４）を示すフローチャートである。当該連鎖頻度作成処
理では、連鎖確率モデルメモリ３１から連鎖辞書ファイ
ルを読み込み、与えられた文字数分（Ｎ）だけ連続する
文字列とその頻度を求め、Ｎ連鎖頻度ファイルを作成す
る。図２４は、図２３のサブルーチンである連鎖頻度作
成サブルーチン処理（ステップＳ２８７）を示すフロー
チャートであり、当該連鎖頻度作成サブルーチン処理で
は、連鎖辞書の共通文字数が与えられたしきい値Ｌｉｍ
ｉｔよりも小さくなるまでの回数を計数することで、Ｌ
ｉｍｉｔの文字数分だけ連続する文字列の頻度を求める
処理を行なっている。

【００７９】図２５は、図１７のサブルーチンである連
鎖確率モデル作成サブルーチン処理（ステップＳ２０
５）を示すフローチャートである。当該連鎖確率モデル
作成サブルーチン処理では、Ｎ連鎖頻度ファイルとＮ−
１連鎖頻度ファイルから、Ｎ連鎖確率モデルを作成す
る。

【００８０】図２６は、図１の慣用文字連鎖辞書作成部
２３によって実行される、慣用文字連鎖辞書作成処理を
示すフローチャートであり、慣用文字連鎖辞書作成処理
は、上述のように、コード化処理（ステップＳ４０
２）、連鎖辞書作成処理（ステップＳ４０３）、連鎖頻
度作成処理（ステップＳ４０４）、慣用文字連鎖辞書作
成サブルーチン処理（ステップＳ４０５）を含む。図２
７は、図２６のサブルーチンである慣用文字連鎖辞書作
成サブルーチン処理（ステップＳ４０５）を示すフロー
チャートである。当該慣用文字連鎖辞書作成サブルーチ
ン処理では、ＲＡＭ２３ａ内のＮ文字の連鎖頻度ファイ
ルを読み込み、その頻度が与えられたしきい値以上の文
字列を取り出す処理を行っている。

【００８１】図２８は、図２７のサブルーチンである文
字連鎖作成処理（ステップＳ４１３）を示すフローチャ
ートである。当該文字連鎖作成処理では、ＲＡＭ２３ａ
内のＮ文字連鎖頻度ファイルの中の１つのコード列（Ｃ
ｏｄｅ）について、コード列に含まれる文頭、文末コー
ド（９００００００１、９００００００２）をもとに元
のコード列を区切り、コードを文字に変換しながら、複
数の部分文字列を生成する。また、文頭、文末コードが
出現する位置によって、それぞれの部分文字列列の種類
を求め、慣用文字連鎖辞書として誤り訂正辞書メモリ３
２に出力して格納する。

【００８２】図２９は、図２８のサブルーチンである文
字連鎖作成サブルーチンＡ処理（ステップＳ４２７）を
示すフローチャートであり、当該文字連鎖作成サブルー
チンＡ処理では、文頭、文末コードで区切られたコード
列について、コードを文字に変換して得られた部分文字
列をＷｄ［ｗ］に格納し、部分文字列数ｗの計数と部分
文字列の種類を決めるパラメータ（ｆｓｔ［ｗ］、ｆｅ
ｄ［ｗ］）を設定する処理を行なっている。図３０は、
図２８のサブルーチンである文字連鎖作成サブルーチン
Ｂ処理（ステップＳ４３０）を示すフローチャートであ
り、当該文字連鎖作成サブルーチンＢ処理では、得られ
たそれぞれの部分文字列について、そのパラメータ（ｆ
ｓｔ［Ａ］、ｆｅｄ［Ａ］）に基づいて部分文字列の種
類を決定し、慣用文字列辞書に慣用文字列と種類、頻度
を慣用文字連鎖辞書に出力する処理を行なっている。

【００８３】図３１は、図１の誤りパターン辞書作成部
２２によって実行される、誤りパターン辞書作成処理を
示すフローチャートである。当該誤りパターン辞書作成
処理は、上述のように、誤り情報抽出処理（ステップＳ
５０２）、誤り文字情報分類処理（ステップＳ５０
３）、及び誤りパターン辞書作成サブルーチン処理（ス
テップＳ５０４）を含む。

【００８４】図３２は、図３１のサブルーチンである誤
り情報抽出処理（ステップＳ５０２）を示すフローチャ
ートである。当該誤り情報抽出処理では、コーパスデー
タベースメモリ３０から、誤り文と正解文のペア（対）
を読み込み、誤り位置と誤り文字列、それに対応する正
解文字列を抽出し、それぞれの文字列にその前後Ｎ文字
の文字を付加して出力する。誤り位置は誤り位置情報フ
ァイルとしてＲＡＭ２２ａに出力して格納する一方、上
記の付加文字列は誤り文字情報ファイルとしてＲＡＭ２
２ａに出力して格納する。

【００８５】図３３は、図３２のサブルーチンである差
分の文字列ｄｉｆｆ結果の解析処理（ステップＳ５１
４）を示すフローチャートである。当該差分の文字列ｄ
ｉｆｆ結果の解析処理では、図３２のステップＳ５１４
の差分の文字列ｄｉｆｆ結果の解析処理による、誤り文
と正解文の差分解析結果（ｄｉｆｆプログラムの適用結
果）に基づいて、挿入、欠落、置換の誤り種類ごとに誤
り位置および誤り文字列、それに対応する正解文字列を
抽出し、それぞれの文字列にその前後Ｎ文字の文字を付
加して出力する。

【００８６】図３４は、図３３の解析サブルーチンＡ処
理（ステップＳ５２４）を示すフローチャートであり、
当該解析サブルーチンＡ処理では、挿入誤りが出現した
場合について、誤り文における挿入文字列とその位置を
求め、さらに、誤り位置前後の五文字を正解文、誤り文
それぞれから取り出して誤り文字情報ファイルに出力す
る処理を行なっている。図３５は、図３３の解析サブル
ーチンＢ処理（ステップＳ５２６）を示すフローチャー
トであり、当該解析サブルーチンＢ処理では、欠落誤り
が出現した場合について、誤り文における欠落文字列と
その位置を求め、さらに、誤り位置前後の五文字を正解
文、誤り文それぞれから取り出して誤り文字情報ファイ
ルに出力する処理を行なっている。図３６は、図３３の
解析サブルーチンＣ処理（ステップＳ５２８）を示すフ
ローチャートであり、当該解析サブルーチンＣ処理で
は、置換誤りが出現した場合について、誤り文における
置換文字列とその位置、及び正解文における対応する位
置と置換文字列を求め、さらに、誤り位置前後の五文字
を正解文、誤り文それぞれから取り出して誤り文字情報
ファイルに出力する処理を行なっている。

【００８７】図３７は、図３１のサブルーチンである誤
り文字情報分類処理（ステップＳ５０３）を示すフロー
チャートである。当該誤り文字情報分類処理では、誤り
文字情報ファイルを読み込み、誤り文字列と対応する正
解文字列をキーにして分類し、誤り文字情報分類ファイ
ルとしてＲＡＭ２２ａに出力して格納する。

【００８８】図３８は、図３１のサブルーチンである誤
りパターン辞書作成サブルーチン処理（ステップＳ５０
４）を示すフローチャートである。当該誤りパターン辞
書作成サブルーチン処理では、ＲＡＭ２２ａ内の誤り文
字情報分類ファイルを読み込み、分類されたパターンご
とに、誤り文字列を中心に前後の文字を追加した文字列
集合を作成し、その文字列集合の中から誤りパターンと
して適当な条件を満たすものを選択して誤りパターン辞
書として誤り訂正辞書メモリ３２に出力して格納する。

【００８９】図３９は、図３８のサブルーチンである誤
りパターン候補生成処理（ステップＳ５８２）を示すフ
ローチャートである。当該誤りパターン候補生成処理で
は、分類された誤りを含む文字列と対応する正解文字列
のペアの集合について、誤り部と対応する正解部を中心
に、それぞれの前後に同じ数の文字を付け加えた文字列
の誤り、正解文字列のペアを生成し、そのペアの頻度を
計数する。図４０は、図３９のサブルーチンである候補
生成サブルーチンＡ処理（ステップＳ５９８）を示すフ
ローチャートであり、当該候補生成サブルーチンＡ処理
では、誤りを含む文字列と対応する正解文字列のペアに
おいて、正解部（Ｍ１）、誤り部（Ｍ２）前後の文字列
（ＣＳＢ，ＥＳＢ，ＣＳＡ，ＥＳＡ）から正解、誤りと
も同じ数で同じ位置の部分文字列（ＣＢＷ、ＥＢＷ、Ｃ
ＡＷ、ＥＡＷ）を取出し、Ｍ１、Ｍ２を中心に上記部分
文字列を付け加えた文字列（Ｐａｔ１，ｐａｔ２，Ｐａ
ｔ）を生成し候補テーブルに格納し、出現頻度も計数す
る処理を行なっている。図４０のステップＳ６０６で
は、３つの文字列を１つの文字列に連結して代入してい
る。

【００９０】図４１は、図３８のサブルーチンである誤
りパターン適合チェック処理（ステップＳ５８３）を示
すフローチャートである。当該誤りパターン適合チェッ
ク処理では、「誤りパターン候補生成処理」で生成した
誤り、正解文字列ペアについて誤りパターンとして適合
する条件を満たすかどうかをチェックする。図４１のス
テップＳ６１３における、「Ｐａｔ１→ＣＢＷ・“＜”
・Ｍ１・“＞”．ＣＡＷ」は、文字列Ｐａｔ１を“＜”
と“＞”で分割して、“＜”と“＞”の前後及び間に位
置する部分文字列をＣＢＷ、Ｍ１、ＣＡＷに代入するこ
とを表す。例えば、Ｐａｔ１＝１２３＜５６７＞８９８
ならば、ＣＢＷ＝１２３、Ｍ１＝５６７、ＣＡＷ＝８９
８になる。また、「Ｐａｔ→Ｐａｔ１・“：”・Ｐａｔ
２」も同様で“：”で分割することを表す。

【００９１】図４２は、図４１のサブルーチンである誤
りパターン適合チェック０１処理（ステップＳ６１５）
を示すフローチャートである。当該誤りパターン適合チ
ェック０１処理では、誤りパターン候補の１つについ
て、誤りを含んだ文字列（ＥＰＡＴ）がデータベースに
ある正解文にパターンマッチするかどうかをチェックし
て、マッチする場合はＦ＝０、しない場合はＦ＝１を返
す。

【００９２】図４３は、図４１のサブルーチンである誤
りパターン適合チェック０２処理（ステップＳ６１７）
を示すフローチャートである。当該誤りパターン適合チ
ェック０２処理では、誤りパターン候補の１つについ
て、誤りを含んだ文字列（ＥＰＡＴ）がデータベースに
ある誤り文にパターンマッチするか否かを調べ、マッチ
した場合、その位置が対応する誤り文の真の誤り位置と
重なるかどうかを調べる。マッチしてそれが真の誤り位
置と重ならない場合はＦ＝０、それ以外はＦ＝１を返
す。図４４は、図４３のサブルーチンである誤りパター
ン適合チェック０２Ａ処理（ステップＳ６４５）を示す
フローチャートである。当該誤りパターン適合チェック
０２Ａ処理では、ある誤り文にパターンマッチした位置
が、真の誤り位置と重なるかどうかを調べ、重なるなら
Ｆ＝１、重ならない場合はＦ＝０を返す。

【００９３】図４５は、図４１のサブルーチンである誤
りパターン適合チェック０３処理（ステップＳ６２１）
を示すフローチャートである。当該誤りパターン適合チ
ェック０３処理では、「誤りパターン適合チェック０１
処理」及び「誤りパターン適合チェック０２処理」に適
合した誤りパターン候補について、あるものが他のもの
に含まれるかどうか（包含関係）と頻度を考慮して、最
終的に残す誤りパターンを選択する。図４６は、図４５
のサブルーチンである誤りパターン適合チェック０３Ａ
処理（ステップＳ６７２）を示すフローチャートであ
る。当該誤りパターン適合チェック０３Ａ処理では、２
つの誤りパターン候補で一方が他方を包含し、かつ、頻
度が同じならば、大きい候補を誤りパターン候補として
残す。図４７は、図４５のサブルーチンである誤りパタ
ーン適合チェック０３Ｂ処理（ステップＳ６７３）を示
すフローチャートである。当該誤りパターン適合チェッ
ク０３Ｂ処理では、２つの誤りパターン候補で一方が他
方を包含し、かつ、頻度が異なるならば、小さい候補を
誤りパターン候補として残す。

【００９４】

【実施例】以下では入力文字列として次の表の例が入力
され、連鎖確率モデルが３文字の文字連鎖確率モデルで
文字誤り校正する場合を考える。

【００９５】

【表１８】 ――――――――――――――――――――――――――――――――――― （入力文字列）入力文字列：「九月十四から十六までの二泊ですね五人背はな名様ですか」正解文字列：「九月十四から十六までの二泊ですねご人数は何名様ですか」 ―――――――――――――――――――――――――――――――――――

【００９６】誤り検出部１１による図３の誤り検出処理
においては、まず、連鎖確率モデルメモリ３１内の文字
連鎖確率モデルに基づいて、入力文の各文字ごとに連鎖
確率を求める。文字連鎖確率モデルは、連鎖確率モデル
メモリ３１に、表６に示す連鎖確率テーブルとして格納
されている。入力文字列の先頭文字から順次、３文字連
鎖を取り出していき、その３文字連鎖をキーとするもの
が連鎖確率テーブルにあれば対応する確率値をその文字
位置の連鎖確率とし、連鎖確率テーブルになければ、−
０．６を確率値としている。このときに連鎖確率が与え
られたしきい値より低くなるか否かを誤りテーブルに登
録格納していく（図４参照。）。

【００９７】例えば、入力文字列における「…ですね五
人背…」の各文字位置の確率連鎖は次のようにして計算
する。「で」の位置は前２文字の「二泊」と合わせて３
文字連鎖のキーを「二：泊：で」で連鎖確率テーブルを
参照し、確率値として−０．４２３６０２を得る。同様
に、「す」の位置は３文字連鎖キー「泊：で：す」より
確率値−０．５６４２７１を得る。一方、「背」の位置
の３文字連鎖キー「五：人：背」は連鎖確率テーブルに
存在しないので、−６．０の確率値を与える。このとき
に連鎖確率が与えられたしきい値（この場合−０．３
７）より低くなるか否かを誤りテーブルに登録格納して
いく。上記手順で入力文字列の各文字位置で計算した確
率連鎖およびしきい値による判定結果を次の表に示す。

【００９８】

【表１９】入力文の連鎖確率計算値 ――――――――――――――――――――――――――――――――――― 文字確率値しきい値の判定結果（Ｖａｌ）誤りブロック ――――――――――――――――――――――――――――――――――― Ｓ（文頭のためのラベル）Ｓ（文頭のためのラベル）九 −２．３１３６０９０月 −０．０８２７４１０十 −０．４８９１８６０四 −０．６９４３７４０か −２．０５０５０９０ら０．０００００００十 −１．４７６７８４０六 −０．８３６７４６０ま −２．０００００００で０．０００００００の −０．９６５９３６０二 −１．０９４００５０泊 −０．５８５６１３０で −０．４２３６０２０す −０．５６４２７１０ね −０．７５３５２７０五 −２．４６５７１３０誤りブロック１の始点人 −６．００００００１背 −６．００００００１は −６．００００００１な −６．００００００１誤りブロック１の終点名 −６．００００００１様 −６．００００００１で −０．２２７５０７０す −０．５３４４４７０か −０．７０３７８４０ ―――――――――――――――――――――――――――――――――――

【００９９】次いで、上記誤りテーブルをもとに、下記
の手順で誤りブロックを推測し、その位置情報を誤り位
置テーブルに登録する（図５参照。）。（１）連鎖確率が与えられたしきい値より低い文字が連
続するものを誤りブロックとする。誤りブロックの始点
をＰｏｓ１、終点をＰｏｓ２とする。（２）誤りブロックの文字数をＬｅｎとして、（２−１）Ｌｅｎが３文字以上の長さの場合、誤りブロ
ックの後ろから２文字を誤りブロックから取り除く。

【数２】Ｐｏｓ２←Ｐｏｓ２−２（２−２）Ｌｅｎが３文字未満の場合、そのままとす
る。（３）誤りブロックの始点が文の先頭でなければ、誤り
ブロックの始点を先頭方向へ１文字ずらす。

【数３】Ｐｏｓ１←Ｐｏｓ１−１

【０１００】例えば、この例では“五人背はな”が誤り
ブロックとして計算される。なお、誤り検出部１１で用
いる連鎖確率モデルは、利用分野で求められる精度（誤
り検出の適合率（検出した誤りが真の誤りである割
合）、再現率（真の誤りのうち、検出した誤りの割合）
など）に応じて品詞及び単語混合連鎖確率モデルなどと
組み合わせることが可能である。

【０１０１】次いで、誤り訂正部１２による図６の誤り
訂正処理が実行される。誤り訂正処理は２種類あり、最
初に誤りパターン辞書による誤りパターン訂正処理（ス
テップＳ７２）を行い、次いで、慣用文字連鎖辞書を用
いた慣用パターン訂正処理（ステップＳ７６）を行う。
各訂正処理は入力文字列に対して対応する訂正ができな
くなるまで適用される。

【０１０２】誤りパターン訂正処理のフローチャートを
図７及び図８に示す。ここで、誤りパターン辞書は次の
表に示す誤りパターン辞書テーブルに格納されている。

【０１０３】

【表２０】

【０１０４】誤りパターン訂正処理では、この誤りパタ
ーン辞書テーブルの誤り文字列が入力文字列に含まれる
か否かをチェックして、対応するものがあれば正解文字
列に置き換えていく。例えば、この例では「はな名様」
という文字列が入力文字列に存在するので、この部分を
「何名様」に置き換えて次の表のように訂正する。

【０１０５】

【表２１】 ――――――――――――――――――――――――――――――――――― 訂正結果：「九月十四から十六までの二泊ですね五人背は何名様ですか」 ―――――――――――――――――――――――――――――――――――

【０１０６】慣用パターン訂正処理のフローチャートを
図９乃至図１２に示す。慣用パターン訂正処理では、つ
ぎの手順で誤り訂正を行う。（１）この処理の入力文字列を３文字の文字連鎖確率モ
デルを用いて誤り検出処理と同じ方法で誤りブロックを
計算する。ここで、誤りブロックがなければ終了する。（２）誤りブロックとその前後Ｎａ文字を合わせた部分
を入力文から取り出し、その文字列をもとに慣用文字連
鎖辞書の中でもっとも類似（２つの文字列を同じ文字列
にするための文字単位の置換、削除、挿入の編集操作数
を距離とする。）しているもので、かつ、上記距離が与
えられたしきい値以上のものを検索する。ここで、条件
を満たすものがなければこの誤りブロックに対しては何
もせず（１）へ移る。（３）選ばれた慣用文字連鎖の中に、誤りブロック外の
前後Ｋ文字が存在すれば、慣用文字連鎖の中の前後Ｋ文
字にはさまれた部分を取り出し、誤り部分と置換するこ
とにより訂正を行う。ここで、条件を満たすものがなけ
ればこの誤りブロックに対してはなにもせず（１）へ移
る。

【０１０７】例えば、この実例では誤りパターン処理の
次の表の出力結果が入力文字列となる。

【表２２】 ――――――――――――――――――――――――――――――――――― 入力文字列：「九月十四から十六までの二泊ですね五人背は何名様ですか」 ―――――――――――――――――――――――――――――――――――

【０１０８】この文字列に３文字の文字連鎖確率モデル
を適用すると、誤りブロック「五人背」が検出される。
この誤りブロック「五人背」に前後５文字の文字列を付
け加え、文字列「二泊ですね五人背は何名様で」が得ら
れる。この文字列をもとに慣用文字連鎖辞書の中でもっ
とも類似しているものを取り出すと次のものが得られる
（［］内の数値は類似度を表し、０から１の範囲で値が
大きいほど類似度が高い。）。ここでは、しきい値とし
て類似度が０．６以上という条件を適用しており、文字
列「ですね人数は何名様で」が最終的に選ばれる（以
下、慣用文字列という。）。従って、次の表に示すデー
タが得られる。

【表２３】

【０１０９】ここで、文字列１と文字列２の類似度の定
義式を次式に示す。

【数４】類似度＝｛（文字列１の文字数）−（文字単位の置換、削除、挿入の編集操作数）｝ ÷文字列１の文字数

【０１１０】次いで、誤りブロックを含むブロックの外
側の前後Ｋ文字（ここではＫ＝２）が慣用文字列に含ま
れるかを調べる。下記の例では誤りブロック＜五人背＞
を含むブロック｛ね＜五人背＞は｝の外側の前後文字
「です」と「何名」が慣用文字列に含まれるので、その
間に挟まれた「ね五人背は」を「ね人数は」で置き換え
て、下記の訂正結果を得る。

【０１１１】

【表２４】 ――――――――――――――――――――――――――――――――――― 誤りブロックと前後文字列：［です］｛ね＜五人背＞は｝［何名］慣用文字列：［です］｛ね人数は｝［何名］様で ――――――――――――――――――――――――――――――――――― ここで、＜＞内は誤りブロックであり、［］内は前後文字列であり、｛｝内は置換文字列である。 ――――――――――――――――――――――――――――――――――― 訂正結果：「九月十四から十六までの二泊ですね人数は何名様ですか」 ―――――――――――――――――――――――――――――――――――

【０１１２】最後に再び誤り検出部１３による誤り検出
処理を、誤り検出部１１と同様に実行し、すべての誤り
が訂正できたかどうかをチェックする。

【０１１３】以上説明したように、本実施形態によれ
ば、以下の特有の効果を有する。（Ａ）誤り検出及び誤り訂正を文字単位で処理し、単語
単位に限定していないため、取り扱える誤り訂正範囲が
従来例に比較してより広くなる。（Ｂ）また、長い文字列を用いて誤りや表現の傾向を学
習するため、文字の連鎖確率だけでは候補の絞り込みが
難しかったものがより正しく誤り検出及び誤り訂正でき
る。（Ｃ）訂正処理のほとんどは計算量の小さい文字列のパ
ターンマッチングだけなので、従来例に比較して大幅に
小さい計算量で誤り訂正することができる。（Ｄ）またさらに、誤り訂正辞書は自動作成することが
できるため、誤り訂正辞書の作成ための労力が軽減さ
れ、さらに、入力装置が更新されても短期間で対応する
ことができる。具体的には従来技術では難しかった、下
記のような誤り文が訂正することができる。

【０１１４】

【表２５】 ――――――――――――――――――――――――――――――――――― （例１）誤り文：「その支払いを方法はどうしたらよろしいでしょうか」正解文：「その支払い方法はどうしたらよろしいでしょうか」誤りパターン：支払い＜＞方法←支払い＜を＞方法 ――――――――――――――――――――――――――――――――――― （例２）誤り文：「よろしくお寝てします」正解文：「よろしくお願いいたします」誤りパターン：しくお＜願いいた＞します←しくお＜寝て＞します ――――――――――――――――――――――――――――――――――― （例３）誤り文：「はいそうしててきますので」正解文：「はいそうして頂きますので」誤りパターン：して＜頂＞きますので←して＜て＞きますので ――――――――――――――――――――――――――――――――――― （例４）誤り文：「お気様のお部屋番号とお名前をお願いいたします」正解文：「お客様のお部屋番号とお名前をお願いいたします」慣用文字列：「お客様のお部屋に伺」 ―――――――――――――――――――――――――――――――――――

【０１１５】

【発明の効果】以上詳述したように本発明に係る文字誤
り校正装置によれば、誤り文と正解文の組み合わせと、
正解文とを含むコーパスデータベースを格納する第１の
記憶装置と、上記第１の記憶装置から読み出された正解
文に基づいて、単位が、それぞれ正解文中に含まれる文
字、単語又は品詞である複数Ｎ個の単位が連鎖して形成
されるＮ連鎖単位列のうちＮ−１個の単位が連鎖して形
成されるＮ−１連鎖単位列の頻度に対するＮ連鎖単位列
の頻度のＮ連鎖確率を計算することにより、上記Ｎ連鎖
確率を含む連鎖確率モデルを作成する連鎖確率モデル作
成手段と、上記連鎖確率モデル作成手段によって作成さ
れた連鎖確率モデルを格納する第２の記憶装置とを備
え、入力された文字列に対して文字誤り校正処理を行う
文字誤り校正装置において、上記第１の記憶装置から読
み出された誤り文と正解文の組み合わせから誤り文字列
と正解文字列の組み合わせを抽出しかつ、誤り文字列と
正解文字列の組み合わせが同一である誤り文字列と正解
文字列の組み合わせを集めるように分類し、上記抽出し
かつ分類した誤り文字列と正解文字列の組み合わせにお
いて、上記誤り文字列の一部である誤り部分と、上記正
解文字列の一部である正解部分とが互いに対応するとき
に、上記誤り部分と上記正解部分に対してそれぞれ前と
後に所定数の文字を付加した別の誤り文字列と別の正解
文字列の文字列パターンの組み合わせを作成し、作成し
た別の誤り文字列と別の正解文字列の文字パターンの組
み合わせの頻度である組み合わせ頻度が所定値以上の文
字パターンの組み合わせを選択し、上記コーパスデータ
ベース内の正解文と上記選択された別の誤り文字列との
間で第１のパターンマッチを行い、上記第１のパターン
マッチで一致した別の誤り文字列を候補から除外し、残
りの候補である選択された別の誤り文字列と上記コーパ
スデータベース内の誤り文との間で第２のパターンマッ
チを行い、上記第２のパターンマッチで一致した別の誤
り文字列について一致した位置が上記誤り部分の誤り位
置と重なるときに当該別の誤り文字列を候補として残
し、残った候補の別の誤り文字列と、当該別の誤り文字
列に対応する別の正解文字列との対からなる誤りパター
ン辞書を作成する誤りパターン辞書作成手段と、上記第
１の記憶装置から読み出された正解文に基づいて、上記
読み出された正解文から所定の長さの文字列連鎖を抽出
し、上記抽出された所定の長さの文字列連鎖の頻度が所
定値以上であるより高い頻度の文字列を慣用文字列とし
て検出することにより、上記検出された慣用文字列から
なる慣用文字連鎖辞書を作成する慣用文字連鎖辞書作成
手段と、上記誤りパターン辞書作成手段によって作成さ
れた誤りパターン辞書と、上記慣用文字連鎖辞書作成手
段によって作成された慣用文字連鎖辞書とを格納する第
３の記憶装置と、入力された文字列に対して、上記第２
の記憶装置に格納された連鎖確率モデルを参照して上記
入力された文字列の少なくとも１個のＮ連鎖確率を計算
し、計算されたＮ連鎖確率が所定のしきい値以下の文字
列から誤り文字列を検出する第１の誤り検出手段と、（ａ）上記第３の記憶装置に記憶された誤りパターン辞
書を参照して、上記誤り検出手段によって検出された誤
り文字列を対応する正解文字列に置換して誤り訂正する
誤りパターン訂正処理と、（ｂ）上記誤り検出手段によって検出された誤り文字列
に類似した文字列を、上記第３の記憶装置に記憶された
慣用文字連鎖辞書から検索し、当該検出された誤り文字
列を当該検索された類似した文字列で置換することによ
り誤り訂正する慣用パターン訂正処理との少なくとも一
方を実行することにより誤り訂正する誤り訂正手段とを
備える。従って、文字列の誤りを検出し及び訂正する処
理を、従来例に比較して大幅に小さい計算量で、しかも
文字単位で、さらにより正確に実行することができる文
字誤り校正装置を提供することができる。

【０１１６】また、上記文字誤り校正装置において、上
記誤り訂正手段によって誤り訂正された文字列に対し
て、上記第２の記憶装置に格納された連鎖確率モデルを
参照して上記入力された文字列の少なくとも１個のＮ連
鎖確率を計算し、計算されたＮ連鎖確率が所定のしきい
値以下の文字列に基づいて誤り文字列を検出する第２の
誤り検出手段をさらに備える。従って、誤り訂正した後
に誤り検出するので、より正確に誤り校正を行うことが
できる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である文字誤り校正
装置１０及びその周辺装置の構成を示すブロック図であ
る。

【図２】図１の文字誤り校正装置１０によって実行さ
れる文字誤り校正処理を示すフローチャートである。

【図３】図１の誤り検出部１１及び１３によって実行
される、図２及び図９のサブルーチンである誤り検出処
理（ステップＳ２，Ｓ６，Ｓ１１１）を示すフローチャ
ートである。

【図４】図３のサブルーチンである連鎖確率計算処理
（ステップＳ２１）を示すフローチャートである。

【図５】図３のサブルーチンである誤りブロック計算
処理（ステップＳ２２）を示すフローチャートである。

【図６】図１の誤り訂正部１２によって実行される、
図２のサブルーチンである誤り訂正処理（ステップＳ
４）を示すフローチャートである。

【図７】図６のサブルーチンである誤りパターン訂正
処理（ステップＳ７２）を示すフローチャートである。

【図８】図７のサブルーチンである誤りパターン訂正
０１処理（ステップＳ９３）を示すフローチャートであ
る。

【図９】図６のサブルーチンである慣用パターン訂正
処理（ステップＳ７６）を示すフローチャートである。

【図１０】図９のサブルーチンである慣用パターン訂
正０１処理（ステップＳ１１６）を示すフローチャート
である。

【図１１】図９のサブルーチンである慣用パターン訂
正０２処理（ステップＳ１１８）を示すフローチャート
である。

【図１２】図９のサブルーチンである慣用パターン訂
正０３処理（ステップＳ１１９）を示すフローチャート
である。

【図１３】図１０、図１１及び図１２のサブルーチン
である慣用文字連鎖検索処理（ステップＳ１３２，Ｓ１
４２，Ｓ１５２）を示すフローチャートである。

【図１４】図１０、図１１及び図１２のサブルーチン
である慣用文字列からの置換部分抽出処理（ステップＳ
１３４，Ｓ１４４，Ｓ１５４）の第１の部分を示すフロ
ーチャートである。

【図１５】図１０、図１１及び図１２のサブルーチン
である慣用文字列からの置換部分抽出処理（ステップＳ
１３４，Ｓ１４４，Ｓ１５４）の第２の部分を示すフロ
ーチャートである。

【図１６】図１０、図１１及び図１２のサブルーチン
である慣用文字列からの置換部分抽出処理（ステップＳ
１３４，Ｓ１４４，Ｓ１５４）の第３の部分を示すフロ
ーチャートである。

【図１７】図１の連鎖確率モデル作成部２１によって
実行される、連鎖確率モデル作成処理を示すフローチャ
ートである。

【図１８】図１７及び図２６のサブルーチンであるコ
ード化処理（ステップＳ２０２，Ｓ４０２）を示すフロ
ーチャートである。

【図１９】図１７及び図２６のサブルーチンである連
鎖辞書作成処理（ステップＳ２０３，Ｓ４０３）を示す
フローチャートである。

【図２０】図１９のサブルーチンである位置ポインタ
Ｄｉｃ［ｉ］のソート処理（ステップＳ２３２）を示す
フローチャートである。

【図２１】図２０のサブルーチンである比較処理（ス
テップＳ２４６）を示すフローチャートである。

【図２２】図１９のサブルーチンである一致コード数
計数処理（ステップＳ２３６）を示すフローチャートで
ある。

【図２３】図１７及び図２６のサブルーチンである連
鎖頻度作成処理（ステップＳ２０４，Ｓ４０４）を示す
フローチャートである。

【図２４】図２３のサブルーチンである連鎖頻度作成
サブルーチン処理（ステップＳ２８７）を示すフローチ
ャートである。

【図２５】図１７のサブルーチンである連鎖確率モデ
ル作成サブルーチン処理（ステップＳ２０５）を示すフ
ローチャートである。

【図２６】図１の慣用文字連鎖辞書作成部２３によっ
て実行される、慣用文字連鎖辞書作成処理を示すフロー
チャートである。

【図２７】図２６のサブルーチンである慣用文字連鎖
辞書作成サブルーチン処理（ステップＳ４０５）を示す
フローチャートである。

【図２８】図２７のサブルーチンである文字連鎖作成
処理（ステップＳ４１３）を示すフローチャートであ
る。

【図２９】図２８のサブルーチンである文字連鎖作成
サブルーチンＡ処理（ステップＳ４２７）を示すフロー
チャートである。

【図３０】図２８のサブルーチンである文字連鎖作成
サブルーチンＢ処理（ステップＳ４３０）を示すフロー
チャートである。

【図３１】図１の誤りパターン辞書作成部２２によっ
て実行される、誤りパターン辞書作成処理を示すフロー
チャートである。

【図３２】図３１のサブルーチンである誤り情報抽出
処理（ステップＳ５０２）を示すフローチャートであ
る。

【図３３】図３２のサブルーチンである差分の文字列
ｄｉｆｆ結果の解析処理（ステップＳ５１４）を示すフ
ローチャートである。

【図３４】図３３の解析サブルーチンＡ処理（ステッ
プＳ５２４）を示すフローチャートである。

【図３５】図３３の解析サブルーチンＢ処理（ステッ
プＳ５２６）を示すフローチャートである。

【図３６】図３３の解析サブルーチンＣ処理（ステッ
プＳ５２８）を示すフローチャートである。

【図３７】図３１のサブルーチンである誤り文字情報
分類処理（ステップＳ５０３）を示すフローチャートで
ある。

【図３８】図３１のサブルーチンである誤りパターン
辞書作成サブルーチン処理（ステップＳ５０４）を示す
フローチャートである。

【図３９】図３８のサブルーチンである誤りパターン
候補生成処理（ステップＳ５８２）を示すフローチャー
トである。

【図４０】図３９のサブルーチンである候補生成サブ
ルーチンＡ処理（ステップＳ５９８）を示すフローチャ
ートである。

【図４１】図３８のサブルーチンである誤りパターン
適合チェック処理（ステップＳ５８３）を示すフローチ
ャートである。

【図４２】図４１のサブルーチンである誤りパターン
適合チェック０１処理（ステップＳ６１５）を示すフロ
ーチャートである。

【図４３】図４１のサブルーチンである誤りパターン
適合チェック０２処理（ステップＳ６１７）を示すフロ
ーチャートである。

【図４４】図４３のサブルーチンである誤りパターン
適合チェック０２Ａ処理（ステップＳ６４５）を示すフ
ローチャートである。

【図４５】図４１のサブルーチンである誤りパターン
適合チェック０３処理（ステップＳ６２１）を示すフロ
ーチャートである。

【図４６】図４５のサブルーチンである誤りパターン
適合チェック０３Ａ処理（ステップＳ６７２）を示すフ
ローチャートである。

【図４７】図４５のサブルーチンである誤りパターン
適合チェック０３Ｂ処理（ステップＳ６７３）を示すフ
ローチャートである。

【符号の説明】

１０…文字誤り校正装置、１０ａ，１１ａ，１２ａ，１３ａ，２１ａ，２２ａ，２
３ａ…ＲＡＭ、１１…誤り検出部、１２…誤り訂正部、１３…誤り検出部、２１…連鎖確率モデル作成部、２２…誤りパターン辞書作成部、２３…慣用文字連鎖辞書作成部、３０…コーパスデータベースメモリ、３１…連鎖確率モデルメモリ、３２…誤り訂正辞書メモリ、５０…パーソナルコンピュータ、５１…キーボード、５２…ＣＲＴディスプレイ、５３…プリンタ、５４，５５…文字列メモリ。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平３−168863（ＪＰ，Ａ) 特開平３−144850（ＪＰ，Ａ) 特開平５−266007（ＪＰ，Ａ) 特開平９−114831（ＪＰ，Ａ) 特開平９−138801（ＪＰ，Ａ) 荒木哲郎、池原悟、塚原信幸，”２重マルコフモデルによる日本語文の誤り検出並びに訂正法”，情報処理学会研究報告ＮＬ97−５，ｐ．29−35，1993年９月 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/21 - 17/27 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】誤り文と正解文の組み合わせと、正解文
とを含むコーパスデータベースを格納する第１の記憶装
置と、上記第１の記憶装置から読み出された正解文に基づい
て、単位が、それぞれ正解文中に含まれる文字、単語又
は品詞である複数Ｎ個の単位が連鎖して形成されるＮ連
鎖単位列のうちＮ−１個の単位が連鎖して形成されるＮ
−１連鎖単位列の頻度に対するＮ連鎖単位列の頻度のＮ
連鎖確率を計算することにより、上記Ｎ連鎖確率を含む
連鎖確率モデルを作成する連鎖確率モデル作成手段と、上記連鎖確率モデル作成手段によって作成された連鎖確
率モデルを格納する第２の記憶装置とを備え、入力され
た文字列に対して文字誤り校正処理を行う文字誤り校正
装置において、上記第１の記憶装置から読み出された誤り文と正解文の
組み合わせから誤り文字列と正解文字列の組み合わせを
抽出しかつ、誤り文字列と正解文字列の組み合わせが同
一である誤り文字列と正解文字列の組み合わせを集める
ように分類し、上記抽出しかつ分類した誤り文字列と正
解文字列の組み合わせにおいて、上記誤り文字列の一部
である誤り部分と、上記正解文字列の一部である正解部
分とが互いに対応するときに、上記誤り部分と上記正解
部分に対してそれぞれ前と後に所定数の文字を付加した
別の誤り文字列と別の正解文字列の文字列パターンの組
み合わせを作成し、作成した別の誤り文字列と別の正解
文字列の文字パターンの組み合わせの頻度である組み合
わせ頻度が所定値以上の文字パターンの組み合わせを選
択し、上記コーパスデータベース内の正解文と上記選択
された別の誤り文字列との間で第１のパターンマッチを
行い、上記第１のパターンマッチで一致した別の誤り文
字列を候補から除外し、残りの候補である選択された別
の誤り文字列と上記コーパスデータベース内の誤り文と
の間で第２のパターンマッチを行い、上記第２のパター
ンマッチで一致した別の誤り文字列について一致した位
置が上記誤り部分の誤り位置と重なるときに当該別の誤
り文字列を候補として残し、残った候補の別の誤り文字
列と、当該別の誤り文字列に対応する別の正解文字列と
の対からなる誤りパターン辞書を作成する誤りパターン
辞書作成手段と、上記第１の記憶装置から読み出された正解文に基づい
て、上記読み出された正解文から所定の長さの文字列連
鎖を抽出し、上記抽出された所定の長さの文字列連鎖の
頻度が所定値以上であるより高い頻度の文字列を慣用文
字列として検出することにより、上記検出された慣用文
字列からなる慣用文字連鎖辞書を作成する慣用文字連鎖
辞書作成手段と、上記誤りパターン辞書作成手段によって作成された誤り
パターン辞書と、上記慣用文字連鎖辞書作成手段によっ
て作成された慣用文字連鎖辞書とを格納する第３の記憶
装置と、入力された文字列に対して、上記第２の記憶装置に格納
された連鎖確率モデルを参照して上記入力された文字列
の少なくとも１個のＮ連鎖確率を計算し、計算されたＮ
連鎖確率が所定のしきい値以下の文字列から誤り文字列
を検出する第１の誤り検出手段と、（ａ）上記第３の記憶装置に記憶された誤りパターン辞
書を参照して、上記誤り検出手段によって検出された誤
り文字列を対応する正解文字列に置換して誤り訂正する
誤りパターン訂正処理と、（ｂ）上記誤り検出手段によって検出された誤り文字列
に類似した文字列を、上記第３の記憶装置に記憶された
慣用文字連鎖辞書から検索し、当該検出された誤り文字
列を当該検索された類似した文字列で置換することによ
り誤り訂正する慣用パターン訂正処理との少なくとも一
方を実行することにより誤り訂正する誤り訂正手段とを
備えたことを特徴とする文字誤り校正装置。
【請求項２】請求項１記載の文字誤り校正装置におい
て、上記誤り訂正手段によって誤り訂正された文字列に対し
て、上記第２の記憶装置に格納された連鎖確率モデルを
参照して上記入力された文字列の少なくとも１個のＮ連
鎖確率を計算し、計算されたＮ連鎖確率が所定のしきい
値以下の文字列から誤り文字列を検出する第２の誤り検
出手段をさらに備えたことを特徴とする文字誤り校正装
置。