JP5159657B2

JP5159657B2 - 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法

Info

Publication number: JP5159657B2
Application number: JP2009016439A
Authority: JP
Inventors: 圭吾町永
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2009-01-28
Filing date: 2009-01-28
Publication date: 2013-03-06
Anticipated expiration: 2029-01-28
Also published as: JP2010176260A

Description

本発明は、複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法に関する。

従来、仮名漢字変換に起因する同音異義語の誤り検出・訂正の方法として、確率的ＬＳＡを用いた日本語同音異義語誤りの検出・訂正の方法（非特許文献１）がある。

この方法では、同音異義語のｎｇｒａｍでモデル化される局所的出現確率及びＰＬＳＡによってモデル化される大域的出現確率に基づいて定義される尤度を用いて誤変換の有無を判定する。

三品拓也、貞光九月、山本幹雄「確率的ＬＳＡを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成１６年９月、Ｖｏｌ．４５、Ｎｏ．９、ｐ．１−９

しかし、この方法では、あくまで、一の単語（漢字を含む文字列（以下、「漢字含み文字列」とする。））に対して、一の読み仮名しか想定していないため、複数の読み仮名がある場合における夫々の読み仮名に対応する漢字含み文字列まで対象を広げて誤変換を指摘することができなかった。

そこで、本発明は、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することを目的とする。

本発明では、以下のような解決手段を提供する。

（１）複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘装置であって、漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出する漢字含み文字列抽出手段と、前記漢字含み文字列抽出手段が抽出した前記文字列に対応する複数種類の読み仮名を検索する異読仮名検索手段と、前記異読仮名検索手段が検索した前記複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索する異漢字変換検索表示手段と、前記異漢字変換検索表示手段が検索した前記漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出する異漢字変換後文字列抽出手段と、前記漢字含み文字列抽出手段が抽出した前記文字列の尤度と、前記異漢字変換後文字列抽出手段が抽出した前記異漢字変換後文字列の尤度とを当該各文字列の前記文章における出現確率に基づいて計算し、これらの尤度に基づき、前記漢字含み文字列抽出手段が抽出した前記文字列に誤変換があるか否かを判定する誤変換判定手段と、を備え、前記誤変換があると判定された場合に、前記漢字含み文字列抽出手段が抽出した前記文字列に誤変換があることを指摘することを特徴とする誤変換指摘装置。

（１）の構成によれば、異読仮名検索手段は、漢字含み文字列抽出手段が抽出した文字列に対応する複数種類の読み仮名を検索し、異漢字変換検索表示手段は、異読仮名検索手段が検索した複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索し、異漢字変換後文字列抽出手段は、異漢字変換検索表示手段が検索した漢字変換後の文字列の中から、文章の中に含まれる異漢字変換後文字列を抽出し、誤変換判定手段は、漢字含み文字列抽出手段が抽出した文字列の尤度と、異漢字変換後文字列抽出手段が抽出した異漢字変換後文字列の尤度とを当該各文字列の文章における出現確率に基づいて計算し、これらの尤度に基づき、漢字含み文字列抽出手段が抽出した文字列に誤変換があるか否かを判定する。

これにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。また、異漢字変換検索表示手段が検索した漢字変換後の文字列の中から、文章の中に含まれる異漢字変換後文字列を抽出してから、誤変換があるか否かの判定が行われるので、判定対象を絞り込むことができ、誤変換判定処理の処理効率をアップさせることができる。

（２）前記異漢字変換検索表示手段は、前記検索した前記漢字変換後の文字列を表示装置に表示することを特徴とする（１）記載の誤変換指摘装置。

（２）の構成によれば、異漢字変換検索表示手段が検索した漢字変換後の文字列を検索し表示装置に表示する。

これにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を、当該一の漢字含み文字列に対する修正候補として表示することができる。

（３）漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名記憶手段と、仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列記憶手段と、を更に備え、前記異読仮名検索手段は、前記漢字含み文字列抽出手段が抽出した前記文字列について、前記対応読み仮名記憶手段を参照して複数種類の読み仮名を検索し、前記異漢字変換検索表示手段は、前記異読仮名検索手段が検索した前記複数種類の読み仮名の夫々について、前記対応漢字含み文字列記憶手段を参照して前記漢字変換後の文字列を検索することを特徴とする（２）記載の誤変換指摘装置。

（３）の構成によれば、異読仮名検索手段は、漢字含み文字列抽出手段が抽出した文字列について、対応読み仮名記憶手段を参照して複数種類の読み仮名を検索し、異漢字変換検索表示手段は、異読仮名検索手段が検索した複数種類の読み仮名の夫々について、対応漢字含み文字列記憶手段を参照して漢字変換後の文字列を検索する。

（４）コンピュータが、複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘方法であって、漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出するステップと、前記抽出された前記文字列に対応する複数種類の読み仮名を検索するステップと、前記検索された前記複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索するステップと、前記検索した前記漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出するステップと、前記抽出された前記文字列の尤度と、前記抽出された前記異漢字変換後文字列の尤度とを当該各文字列の前記文章における出現確率に基づいて計算し、これらの尤度に基づき、前記抽出された前記文字列に誤変換があるか否かを判定するステップと、を含み、前記誤変換があると判定された場合に、前記抽出された前記文字列に誤変換があることを指摘する誤変換指摘方法。

（４）の構成によれば、（１）の誤変換指摘装置と同様な作用効果を奏する。

（５）前記検索された前記漢字変換後の文字列を表示装置に表示するステップ、をさらに含むことを特徴とする（４）記載の誤変換指摘方法。

（５）の構成によれば、（２）の誤変換指摘装置と同様な作用効果を奏する。

（６）漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名テーブルと、仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列テーブルと、を更に備え、前記複数種類の読み仮名を検索するステップでは、前記抽出された前記文字列について、前記対応読み仮名テーブルを参照して複数種類の読み仮名を検索し、前記漢字変換後の文字列を検索し表示装置に表示するステップでは、前記検索された前記複数種類の読み仮名の夫々について、前記対応漢字含み文字列テーブルを参照して前記漢字変換後の文字列を検索することを特徴とする（５）記載の誤変換指摘方法。

本発明によれば、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。

本実施形態の誤変換指摘装置の機能構成を示す機能ブロック図である。本実施形態の誤変換指摘装置のハードウェア構成を示す図である。本実施形態の誤変換指摘装置の誤変換指摘処理のフローチャートである。変換後の文章の例を示す図である。対応読み仮名テーブルを示す図である。対応漢字含み文字列テーブルを示す図である。誤変換指摘の例を示す図である。サーバが対応読み仮名記憶手段及び対応漢字含み文字列記憶手段を備えることを示す図である。

以下、本発明の実施形態について図を参照しながら説明する。

［誤変換指摘装置１の機能構成］
図１は、本発明の一実施形態に係る誤変換指摘装置１の機能構成を示す機能ブロック図である。

誤変換指摘装置１は、文章受付手段１１０と、漢字含み文字列抽出手段１２０と、異読仮名検索手段１３０と、異漢字変換検索表示手段１４０と、誤変換指摘手段１５０と、対応読み仮名記憶手段１６０と、対応漢字含み文字列記憶手段１７０と、から構成される。

更に、誤変換指摘手段１５０は、異漢字変換後文字列抽出手段１５１と、誤変換判定手段１５２と、から構成される。

文章受付手段１１０は、変換後の文章（図４で後述）を読み込み、漢字含み文字列抽出手段１２０は、形態素解析を行い漢字含み文字列を抽出する。

異読仮名検索手段１３０は、対応読み仮名記憶手段１６０（図５で後述する対応読み仮名テーブル）を参照して、複数種類の読み仮名を検索し、異漢字変換検索表示手段１４０は、対応漢字含み文字列記憶手段１７０（図６で後述する対応漢字含み文字列テーブル）を参照して、複数種類の読み仮名の夫々について漢字変換後の文字列を検索し、検索した文字列を誤変換指摘装置１が備える表示装置（図示せず）に表示する。

誤変換指摘手段１５０は、異漢字変換検索表示手段１４０が検索した漢字変換後の文字列及び漢字含み文字列抽出手段１２０が抽出した文字列に基づいて、漢字含み文字列抽出手段１２０が抽出した文字列に誤変換があることを指摘する。誤変換判定手段１５２は、ｎｇｒａｍ＋ＰＬＳＡの手法（三品拓也、貞光九月、山本幹雄「確率的ＬＳＡを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成１６年９月、Ｖｏｌ．４５、Ｎｏ．９、ｐ．１−９）を用いて誤変換の有無を判定する。

［誤変換指摘装置１のハードウェア構成］
図２は、本実施形態の誤変換指摘装置１のハードウェア構成を示す図である。図２に示すように、制御部２００を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１０（マルチプロセッサ構成ではＣＰＵ２２０等複数のＣＰＵが追加されてもよい）、バスライン１００、通信Ｉ／Ｆ（Ｉ／Ｆ：インタフェース）２３０、メインメモリ２４０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）２５０、Ｉ／Ｏコントローラ２６０、ハードディスク２７０、光ディスクドライブ２８０及び半導体メモリ２９０を備える。なお、ハードディスク２７０、光ディスクドライブ２８０及び半導体メモリ２９０はまとめて記憶装置３１０と呼ばれる。

制御部２００は、誤変換指摘装置１を統括的に制御する部分であり、ハードディスク２７０に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。

通信Ｉ／Ｆ２３０は、誤変換指摘装置１がネットワークを介して他の装置と情報を送受信する場合のネットワーク・アダプタである。

ＢＩＯＳ２５０は、誤変換指摘装置１の起動時にＣＰＵ２１０が実行するブートプログラムや、誤変換指摘装置１のハードウェアに依存するプログラム等を記録する。

Ｉ／Ｏコントローラ２６０には、ハードディスク２７０、光ディスクドライブ２８０及び半導体メモリ２９０等の記憶装置３１０を接続することができる。

ハードディスク２７０は、本ハードウェアを誤変換指摘装置１として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するデータテーブル等を記憶する。なお、誤変換指摘装置１は、外部に別途設けたハードディスク（図示せず）を外部記憶装置として利用することもできる。

光ディスクドライブ２８０としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ及びＣＤ−ＲＡＭドライブを使用することができる。この場合は各ドライブに対応した光ディスク３００を使用する。光ディスク３００から光ディスクドライブ２８０によりプログラム又はデータを読み取り、Ｉ／Ｏコントローラ２６０を介してメインメモリ２４０又はハードディスク２７０に提供することもできる。

なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、誤変換指摘装置１は、記憶装置３１０、制御部２００等を備えた情報処理装置により構成される。

以上の例は、誤変換指摘装置１について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した誤変換指摘装置１により実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

［誤変換指摘処理のフローチャート］
図３は、誤変換指摘処理のフローチャートである。

ステップＳ１では、制御部２００は、文章入力受付を行う。具体的には、図４に示す、変換後の文章が記憶されたファイルをハードディスク２７０から読み込み、読み込んだファイルの文章データをメインメモリ２４０に展開する。

ステップＳ２では、制御部２００は、漢字含み文字列抽出を行う。具体的には、ステップＳ１で読み込んだファイルの文章データを形態素解析することで漢字含み文字列を抽出する。

ここで、形態素解析とは、コンピュータ等の計算機を用いた自然言語処理の基礎技術のひとつであり、対象言語の文法の知識（文法のルールの集まり）や辞書（品詞等の情報付きの単語リスト）を情報源として用い、自然言語で書かれた文を形態素（おおまかにいえば、言語で意味を持つ最小単位）の列に分割することである。

例えば、図４に示した変換後の文章に含まれる「草尾剛が」は、「草尾」と「剛」と「が」とに分割される。また、「草尾孝の」は、「草尾」と「孝」と「の」とに分割される。

したがって、図３のステップＳ２では、漢字含み文字列として、「草尾」、「剛」及び「孝」等が抽出される。ここで、漢字含み文字列としているのは、図４には示されていないが、例えば、「太鼓を叩く」を形態素解析して漢字含み文字列を抽出した場合、「叩く」という形態素が抽出されるので、形態素が必ずしも漢字のみで構成されるとは限らないからである。

なお、漢字含み文字列を抽出する方法は、形態素解析のみで行う方法に限られず、形態素解析をすることに加えて、さらに、漢字辞書、人名辞書等を参照して一致する文字の単位で抽出する方法であってもよい。

図３に戻って、ステップＳ３では、制御部２００は、異読仮名検索を行う。具体的には、ステップＳ２で抽出した漢字含み文字列をキーとして、対応読み仮名テーブル（図５参照）を検索し、２以上の異なる読み仮名がある場合、これらの異なる読み仮名を抽出する。

ここで、図５を参照して、対応読み仮名テーブルについて説明する。この対応読み仮名テーブルは、ハードディスク２７０の所定の領域に割り当てられており、漢字含み文字列と複数の読み仮名とが対応付けられて記憶されている。

図５の例では、「剛」について「たけし」及び「たかし」が対応付けられている。なお、図示していないが、他の例として「接ぐ」について「つぐ」及び「はぐ」が対応付けられている。

よって、図３のステップＳ２において抽出された「剛」をキーとして、対応読み仮名テーブルの「漢字含み文字列」欄を検索すると、対応読み仮名として「たけし」及び「たかし」が抽出される。

図３に戻って、ステップＳ４では、制御部２００は、異漢字変換後文字列検索を行う。具体的には、ステップＳ３で抽出された複数の読み仮名の夫々をキーとして、対応漢字含み文字列テーブル（図６参照）を検索し、対応する漢字含み文字列を抽出する。

ここで、図６を参照して、対応漢字含み文字列テーブルについて説明する。この対応漢字含み文字列テーブルは、ハードディスク２７０の所定の領域に割り当てられており、読み仮名と漢字含み文字列とが対応付けられて記憶されている。

図６の例では、「たけし」について、「武」、「毅」及び「健」等が、「たかし」について、「崇志」、「孝」及び「隆」等が対応付けられている。なお、図示していないが、他の例として、「つぐ」について、「接ぐ」、「告ぐ」及び「注ぐ」等が、「はぐ」について、「接ぐ」及び「剥ぐ」等が対応付けられている。

よって、図３のステップＳ３で抽出された「たけし」及び「たかし」をキーとして対応漢字含み文字列テーブルの「読み仮名」欄を検索すると、対応漢字含み文字列として「武」、「毅」、「健」、「崇志」、「孝」及び「隆」等が抽出される。

図３に戻って、ステップＳ５では、制御部２００は、検索した文字列を表示する。具体的には、ステップＳ４で検索した対応漢字含み文字列を誤変換指摘装置１が備える表示装置（図示せず）に表示する。

これにより、一の漢字含み文字列（例えば、「剛」）に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列（例えば、「武」、「毅」、「健」、「崇志」、「孝」及び「隆」等）を、当該一の漢字含み文字列に対する修正候補として表示することができる。

図３に戻って、ステップＳ６では、制御部２００は、受け付けた文章の中から異漢字変換後文字列を抽出する。具体的には、ステップＳ１で受け付けた文章（図４で示した変換後の文章）の中から、ステップＳ４で抽出した漢字含み文字列（異漢字変換後文字列）を抽出する。

例えば、ステップＳ４で抽出した漢字含み文字列である「武」、「毅」、「健」、「崇志」、「孝」及び「隆」等が、ステップＳ１で受け付けた文章中に含まれているか否かを判断し、含まれている場合には、含まれていると判断された漢字含み文字列を抽出する。本実施例において図４で示した変換後の文章に含まれていると判断されるのは、「孝」である。

図３に戻って、ステップＳ７では、制御部２００は、誤変換判定を行う。具体的には、ステップＳ６で抽出された漢字含み文字列（異漢字変換後文字列）と、ステップＳ２で抽出された漢字含み文字列であって対応漢字含み文字列を抽出する基となった文字列とに基づいて誤変換判定を行う。

本実施形態では、ステップＳ６で抽出した漢字含み文字列は「孝」、ステップＳ２で抽出された漢字含み文字列であって対応漢字含み文字列を抽出する基となった文字列は「剛」である。

この誤変換判定の処理では、「剛」が誤変換であるか否かを判定する。

詳細には、「剛」及び「孝」を同音異義語リストとして、ｎｇｒａｍ＋ＰＬＳＡの手法（三品拓也、貞光九月、山本幹雄「確率的ＬＳＡを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成１６年９月、Ｖｏｌ．４５、Ｎｏ．９、ｐ．１−９）を用いて、ステップＳ１で読み込んだ文章中における「剛」のＰＬＳＡによってモデル化される大域的出現確率及びｎｇｒａｍでモデル化される局所的出現確率に基づいて定義される尤度（以下、「尤度」とする）と、「孝」の尤度とを計算する。次に、誤り判定の計算として、計算した尤度の比の対数を算出し、算出した対数の値が一定の閾値を超えた場合に、「剛」に誤変換があると判定する。

計算方法としては、ｄ＝ｌｏｇ｛（「剛」の尤度）／（「孝」の尤度）｝を計算し、ｄ＜０となった場合に、「剛」に誤変換があると判定できる。しかし、判定条件がｄ＜０では、「孝」の尤度が「剛」の尤度とほとんど変わらず、若干高い程度（例えば、「孝」の尤度が５０で、「剛」の尤度が４９）でも誤変換であると判定されてしまうので、判定条件ｄ＜０の閾値「０」の値は、負の数であることを条件に、適宜調節するようにしてもよい（例えば、ｄ＜−０．５等）。

ステップＳ８では、制御部２００は、誤変換指摘を行う。具体的には、一方の同音異義語に誤変換があると判定された場合に、他方の同音異義語が正しいことを指摘する。

具体例としては、図７に示すように、「剛」に対して「孝」を指摘する。更に、この図７に示した内容を、誤変換指摘装置１が備える表示装置（図示せず）に表示することで、ユーザは、誤変換があることを認識できる。

誤変換があることを認識したユーザは、「剛」を「孝」に変更するか否かを判断し、変更する場合には、誤変換指摘装置１が備える変更確定ボタン（図示せず）を押下することで、変更を確定することができる。

図３のステップＳ８の処理が終了すると、制御部２００は、誤変換指摘処理を終了する。

以上の処理を行うことにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。

以上、実施例では、対応読み仮名テーブル（図５）及び対応漢字含み文字列テーブル（図６）が誤変換指摘装置１に備えられているが、これに限られるものではない。例えば、図８に示すように、サーバ４００が対応読み仮名記憶手段１６０及び対応漢字含み文字列記憶手段１７０を備えるようにして、誤変換指摘装置１と通信しつつ、サーバ４００内の対応読み仮名記憶手段１６０及び対応漢字含み文字列記憶手段１７０を検索する（図３のステップＳ３及びステップＳ４における処理を行う）ようにしてもよい。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

１誤変換指摘装置
１１０文章受付手段
１２０漢字含み文字列抽出手段
１３０異読仮名検索手段
１４０異漢字変換検索表示手段
１５０誤変換指摘手段

Claims

複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘装置であって、
漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出する漢字含み文字列抽出手段と、
前記漢字含み文字列抽出手段が抽出した前記文字列に対応する複数種類の読み仮名を検索する異読仮名検索手段と、
前記異読仮名検索手段が検索した前記複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索する異漢字変換検索表示手段と、
前記異漢字変換検索表示手段が検索した前記漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出する異漢字変換後文字列抽出手段と、
前記漢字含み文字列抽出手段が抽出した前記文字列の尤度と、前記異漢字変換後文字列抽出手段が抽出した前記異漢字変換後文字列の尤度とを当該各文字列の前記文章における出現確率に基づいて計算し、これらの尤度に基づき、前記漢字含み文字列抽出手段が抽出した前記文字列に誤変換があるか否かを判定する誤変換判定手段と、を備え、
前記誤変換があると判定された場合に、前記漢字含み文字列抽出手段が抽出した前記文字列に誤変換があることを指摘することを特徴とする誤変換指摘装置。
前記異漢字変換検索表示手段は、前記検索した前記漢字変換後の文字列を表示装置に表示することを特徴とする請求項１記載の誤変換指摘装置。
漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名記憶手段と、
仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列記憶手段と、を更に備え、
前記異読仮名検索手段は、
前記漢字含み文字列抽出手段が抽出した前記文字列について、前記対応読み仮名記憶手段を参照して複数種類の読み仮名を検索し、
前記異漢字変換検索表示手段は、
前記異読仮名検索手段が検索した前記複数種類の読み仮名の夫々について、前記対応漢字含み文字列記憶手段を参照して前記漢字変換後の文字列を検索することを特徴とする請求項２記載の誤変換指摘装置。
コンピュータが、複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘方法であって、
漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出するステップと、
前記抽出された前記文字列に対応する複数種類の読み仮名を検索するステップと、
前記検索された前記複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索するステップと、
前記検索した前記漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出するステップと、
前記抽出された前記文字列の尤度と、前記抽出された前記異漢字変換後文字列の尤度とを当該各文字列の前記文章における出現確率に基づいて計算し、これらの尤度に基づき、前記抽出された前記文字列に誤変換があるか否かを判定するステップと、を含み、
前記誤変換があると判定された場合に、前記抽出された前記文字列に誤変換があることを指摘することを特徴とする誤変換指摘方法。
前記検索された前記漢字変換後の文字列を表示装置に表示するステップ、をさらに含むことを特徴とする請求項４記載の誤変換指摘方法。
漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名テーブルと、
仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列テーブルと、を更に備え、
前記複数種類の読み仮名を検索するステップでは、
前記抽出された前記文字列について、前記対応読み仮名テーブルを参照して複数種類の読み仮名を検索し、
前記漢字変換後の文字列を検索し表示装置に表示するステップでは、
前記検索された前記複数種類の読み仮名の夫々について、前記対応漢字含み文字列テーブルを参照して前記漢字変換後の文字列を検索することを特徴とする請求項５記載の誤変換指摘方法。