JP5159657B2 - 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法 - Google Patents

複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法 Download PDF

Info

Publication number
JP5159657B2
JP5159657B2 JP2009016439A JP2009016439A JP5159657B2 JP 5159657 B2 JP5159657 B2 JP 5159657B2 JP 2009016439 A JP2009016439 A JP 2009016439A JP 2009016439 A JP2009016439 A JP 2009016439A JP 5159657 B2 JP5159657 B2 JP 5159657B2
Authority
JP
Japan
Prior art keywords
character string
kanji
conversion
kana
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009016439A
Other languages
English (en)
Other versions
JP2010176260A (ja
Inventor
圭吾 町永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009016439A priority Critical patent/JP5159657B2/ja
Publication of JP2010176260A publication Critical patent/JP2010176260A/ja
Application granted granted Critical
Publication of JP5159657B2 publication Critical patent/JP5159657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法に関する。
従来、仮名漢字変換に起因する同音異義語の誤り検出・訂正の方法として、確率的LSAを用いた日本語同音異義語誤りの検出・訂正の方法(非特許文献1)がある。
この方法では、同音異義語のngramでモデル化される局所的出現確率及びPLSAによってモデル化される大域的出現確率に基づいて定義される尤度を用いて誤変換の有無を判定する。
三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9
しかし、この方法では、あくまで、一の単語(漢字を含む文字列(以下、「漢字含み文字列」とする。))に対して、一の読み仮名しか想定していないため、複数の読み仮名がある場合における夫々の読み仮名に対応する漢字含み文字列まで対象を広げて誤変換を指摘することができなかった。
そこで、本発明は、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することを目的とする。
本発明では、以下のような解決手段を提供する。
(1)複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘装置であって、漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出する漢字含み文字列抽出手段と、前記漢字含み文字列抽出手段が抽出した前記文字列に対応する複数種類の読み仮名を検索する異読仮名検索手段と、前記異読仮名検索手段が検索した前記複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索する異漢字変換検索表示手段と、前記異漢字変換検索表示手段が検索した前記漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出する異漢字変換後文字列抽出手段と、前記漢字含み文字列抽出手段が抽出した前記文字列の尤度と、前記異漢字変換後文字列抽出手段が抽出した前記異漢字変換後文字列の尤度とを当該各文字列の前記文章における出現確率に基づいて計算し、これらの尤度に基づき、前記漢字含み文字列抽出手段が抽出した前記文字列に誤変換があるか否かを判定する誤変換判定手段と、を備え、前記誤変換があると判定された場合に、前記漢字含み文字列抽出手段が抽出した前記文字列に誤変換があることを指摘することを特徴とする誤変換指摘装置。
(1)の構成によれば、異読仮名検索手段は、漢字含み文字列抽出手段が抽出した文字列に対応する複数種類の読み仮名を検索し、異漢字変換検索表示手段は、異読仮名検索手段が検索した複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索し、異漢字変換後文字列抽出手段は、異漢字変換検索表示手段が検索した漢字変換後の文字列の中から、文章の中に含まれる異漢字変換後文字列を抽出し、誤変換判定手段は、漢字含み文字列抽出手段が抽出した文字列の尤度と、異漢字変換後文字列抽出手段が抽出した異漢字変換後文字列の尤度とを当該各文字列の文章における出現確率に基づいて計算し、これらの尤度に基づき、漢字含み文字列抽出手段が抽出した文字列に誤変換があるか否かを判定する。
これにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。また、異漢字変換検索表示手段が検索した漢字変換後の文字列の中から、文章の中に含まれる異漢字変換後文字列を抽出してから、誤変換があるか否かの判定が行われるので、判定対象を絞り込むことができ、誤変換判定処理の処理効率をアップさせることができる。
(2) 前記異漢字変換検索表示手段は、前記検索した前記漢字変換後の文字列を表示装置に表示することを特徴とする(1)記載の誤変換指摘装置。
(2)の構成によれば、異漢字変換検索表示手段が検索した漢字変換後の文字列を検索し表示装置に表示する
これにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を、当該一の漢字含み文字列に対する修正候補として表示することができる。
(3) 漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名記憶手段と、仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列記憶手段と、を更に備え、前記異読仮名検索手段は、前記漢字含み文字列抽出手段が抽出した前記文字列について、前記対応読み仮名記憶手段を参照して複数種類の読み仮名を検索し、前記異漢字変換検索表示手段は、前記異読仮名検索手段が検索した前記複数種類の読み仮名の夫々について、前記対応漢字含み文字列記憶手段を参照して前記漢字変換後の文字列を検索することを特徴とする(2)記載の誤変換指摘装置。
(3)の構成によれば、異読仮名検索手段は、漢字含み文字列抽出手段が抽出した文字列について、対応読み仮名記憶手段を参照して複数種類の読み仮名を検索し、異漢字変換検索表示手段は、異読仮名検索手段が検索した複数種類の読み仮名の夫々について、対応漢字含み文字列記憶手段を参照して漢字変換後の文字列を検索する
(4) コンピュータが、複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘方法であって、漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出するステップと、前記抽出された前記文字列に対応する複数種類の読み仮名を検索するステップと、前記検索された前記複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索するステップと、前記検索した前記漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出するステップと、前記抽出された前記文字列の尤度と、前記抽出された前記異漢字変換後文字列の尤度とを当該各文字列の前記文章における出現確率に基づいて計算し、これらの尤度に基づき、前記抽出された前記文字列に誤変換があるか否かを判定するステップと、を含み、前記誤変換があると判定された場合に、前記抽出された前記文字列に誤変換があることを指摘する誤変換指摘方法。
(4)の構成によれば、(1)の誤変換指摘装置と同様な作用効果を奏する。
(5) 前記検索された前記漢字変換後の文字列を表示装置に表示するステップ、をさらに含むことを特徴とする(4)記載の誤変換指摘方法。
(5)の構成によれば、(2)の誤変換指摘装置と同様な作用効果を奏する。
(6) 漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名テーブルと、仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列テーブルと、を更に備え、前記複数種類の読み仮名を検索するステップでは、前記抽出された前記文字列について、前記対応読み仮名テーブルを参照して複数種類の読み仮名を検索し、前記漢字変換後の文字列を検索し表示装置に表示するステップでは、前記検索された前記複数種類の読み仮名の夫々について、前記対応漢字含み文字列テーブルを参照して前記漢字変換後の文字列を検索することを特徴とする(5)記載の誤変換指摘方法。
本発明によれば、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。
本実施形態の誤変換指摘装置の機能構成を示す機能ブロック図である。 本実施形態の誤変換指摘装置のハードウェア構成を示す図である。 本実施形態の誤変換指摘装置の誤変換指摘処理のフローチャートである。 変換後の文章の例を示す図である。 対応読み仮名テーブルを示す図である。 対応漢字含み文字列テーブルを示す図である。 誤変換指摘の例を示す図である。 サーバが対応読み仮名記憶手段及び対応漢字含み文字列記憶手段を備えることを示す図である
以下、本発明の実施形態について図を参照しながら説明する。
[誤変換指摘装置1の機能構成]
図1は、本発明の一実施形態に係る誤変換指摘装置1の機能構成を示す機能ブロック図である。
誤変換指摘装置1は、文章受付手段110と、漢字含み文字列抽出手段120と、異読仮名検索手段130と、異漢字変換検索表示手段140と、誤変換指摘手段150と、対応読み仮名記憶手段160と、対応漢字含み文字列記憶手段170と、から構成される。
更に、誤変換指摘手段150は、異漢字変換後文字列抽出手段151と、誤変換判定手段152と、から構成される。
文章受付手段110は、変換後の文章(図4で後述)を読み込み、漢字含み文字列抽出手段120は、形態素解析を行い漢字含み文字列を抽出する。
異読仮名検索手段130は、対応読み仮名記憶手段160(図5で後述する対応読み仮名テーブル)を参照して、複数種類の読み仮名を検索し、異漢字変換検索表示手段140は、対応漢字含み文字列記憶手段170(図6で後述する対応漢字含み文字列テーブル)を参照して、複数種類の読み仮名の夫々について漢字変換後の文字列を検索し、検索した文字列を誤変換指摘装置1が備える表示装置(図示せず)に表示する。
誤変換指摘手段150は、異漢字変換検索表示手段140が検索した漢字変換後の文字列及び漢字含み文字列抽出手段120が抽出した文字列に基づいて、漢字含み文字列抽出手段120が抽出した文字列に誤変換があることを指摘する。誤変換判定手段152は、ngram+PLSAの手法(三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9)を用いて誤変換の有無を判定する。
[誤変換指摘装置1のハードウェア構成]
図2は、本実施形態の誤変換指摘装置1のハードウェア構成を示す図である。図2に示すように、制御部200を構成するCPU(Central Processing Unit)210(マルチプロセッサ構成ではCPU220等複数のCPUが追加されてもよい)、バスライン100、通信I/F(I/F:インタフェース)230、メインメモリ240、BIOS(Basic Input Output System)250、I/Oコントローラ260、ハードディスク270、光ディスクドライブ280及び半導体メモリ290を備える。なお、ハードディスク270、光ディスクドライブ280及び半導体メモリ290はまとめて記憶装置310と呼ばれる。
制御部200は、誤変換指摘装置1を統括的に制御する部分であり、ハードディスク270に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F230は、誤変換指摘装置1がネットワークを介して他の装置と情報を送受信する場合のネットワーク・アダプタである。
BIOS250は、誤変換指摘装置1の起動時にCPU210が実行するブートプログラムや、誤変換指摘装置1のハードウェアに依存するプログラム等を記録する。
I/Oコントローラ260には、ハードディスク270、光ディスクドライブ280及び半導体メモリ290等の記憶装置310を接続することができる。
ハードディスク270は、本ハードウェアを誤変換指摘装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するデータテーブル等を記憶する。なお、誤変換指摘装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ280としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ及びCD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク300を使用する。光ディスク300から光ディスクドライブ280によりプログラム又はデータを読み取り、I/Oコントローラ260を介してメインメモリ240又はハードディスク270に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、誤変換指摘装置1は、記憶装置310、制御部200等を備えた情報処理装置により構成される。
以上の例は、誤変換指摘装置1について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した誤変換指摘装置1により実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
[誤変換指摘処理のフローチャート]
図3は、誤変換指摘処理のフローチャートである。
ステップS1では、制御部200は、文章入力受付を行う。具体的には、図4に示す、変換後の文章が記憶されたファイルをハードディスク270から読み込み、読み込んだファイルの文章データをメインメモリ240に展開する。
ステップS2では、制御部200は、漢字含み文字列抽出を行う。具体的には、ステップS1で読み込んだファイルの文章データを形態素解析することで漢字含み文字列を抽出する。
ここで、形態素解析とは、コンピュータ等の計算機を用いた自然言語処理の基礎技術のひとつであり、対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に分割することである。
例えば、図4に示した変換後の文章に含まれる「草尾剛が」は、「草尾」と「剛」と「が」とに分割される。また、「草尾孝の」は、「草尾」と「孝」と「の」とに分割される。
したがって、図3のステップS2では、漢字含み文字列として、「草尾」、「剛」及び「孝」等が抽出される。ここで、漢字含み文字列としているのは、図4には示されていないが、例えば、「太鼓を叩く」を形態素解析して漢字含み文字列を抽出した場合、「叩く」という形態素が抽出されるので、形態素が必ずしも漢字のみで構成されるとは限らないからである。
なお、漢字含み文字列を抽出する方法は、形態素解析のみで行う方法に限られず、形態素解析をすることに加えて、さらに、漢字辞書、人名辞書等を参照して一致する文字の単位で抽出する方法であってもよい。
図3に戻って、ステップS3では、制御部200は、異読仮名検索を行う。具体的には、ステップS2で抽出した漢字含み文字列をキーとして、対応読み仮名テーブル(図5参照)を検索し、2以上の異なる読み仮名がある場合、これらの異なる読み仮名を抽出する。
ここで、図5を参照して、対応読み仮名テーブルについて説明する。この対応読み仮名テーブルは、ハードディスク270の所定の領域に割り当てられており、漢字含み文字列と複数の読み仮名とが対応付けられて記憶されている。
図5の例では、「剛」について「たけし」及び「たかし」が対応付けられている。なお、図示していないが、他の例として「接ぐ」について「つぐ」及び「はぐ」が対応付けられている。
よって、図3のステップS2において抽出された「剛」をキーとして、対応読み仮名テーブルの「漢字含み文字列」欄を検索すると、対応読み仮名として「たけし」及び「たかし」が抽出される。
図3に戻って、ステップS4では、制御部200は、異漢字変換後文字列検索を行う。具体的には、ステップS3で抽出された複数の読み仮名の夫々をキーとして、対応漢字含み文字列テーブル(図6参照)を検索し、対応する漢字含み文字列を抽出する。
ここで、図6を参照して、対応漢字含み文字列テーブルについて説明する。この対応漢字含み文字列テーブルは、ハードディスク270の所定の領域に割り当てられており、読み仮名と漢字含み文字列とが対応付けられて記憶されている。
図6の例では、「たけし」について、「武」、「毅」及び「健」等が、「たかし」について、「崇志」、「孝」及び「隆」等が対応付けられている。なお、図示していないが、他の例として、「つぐ」について、「接ぐ」、「告ぐ」及び「注ぐ」等が、「はぐ」について、「接ぐ」及び「剥ぐ」等が対応付けられている。
よって、図3のステップS3で抽出された「たけし」及び「たかし」をキーとして対応漢字含み文字列テーブルの「読み仮名」欄を検索すると、対応漢字含み文字列として「武」、「毅」、「健」、「崇志」、「孝」及び「隆」等が抽出される。
図3に戻って、ステップS5では、制御部200は、検索した文字列を表示する。具体的には、ステップS4で検索した対応漢字含み文字列を誤変換指摘装置1が備える表示装置(図示せず)に表示する。
これにより、一の漢字含み文字列(例えば、「剛」)に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列(例えば、「武」、「毅」、「健」、「崇志」、「孝」及び「隆」等)を、当該一の漢字含み文字列に対する修正候補として表示することができる。
図3に戻って、ステップS6では、制御部200は、受け付けた文章の中から異漢字変換後文字列を抽出する。具体的には、ステップS1で受け付けた文章(図4で示した変換後の文章)の中から、ステップS4で抽出した漢字含み文字列(異漢字変換後文字列)を抽出する。
例えば、ステップS4で抽出した漢字含み文字列である「武」、「毅」、「健」、「崇志」、「孝」及び「隆」等が、ステップS1で受け付けた文章中に含まれているか否かを判断し、含まれている場合には、含まれていると判断された漢字含み文字列を抽出する。本実施例において図4で示した変換後の文章に含まれていると判断されるのは、「孝」である。
図3に戻って、ステップS7では、制御部200は、誤変換判定を行う。具体的には、ステップS6で抽出された漢字含み文字列(異漢字変換後文字列)と、ステップS2で抽出された漢字含み文字列であって対応漢字含み文字列を抽出する基となった文字列とに基づいて誤変換判定を行う。
本実施形態では、ステップS6で抽出した漢字含み文字列は「孝」、ステップS2で抽出された漢字含み文字列であって対応漢字含み文字列を抽出する基となった文字列は「剛」である。
この誤変換判定の処理では、「剛」が誤変換であるか否かを判定する。
詳細には、「剛」及び「孝」を同音異義語リストとして、ngram+PLSAの手法(三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9)を用いて、ステップS1で読み込んだ文章中における「剛」のPLSAによってモデル化される大域的出現確率及びngramでモデル化される局所的出現確率に基づいて定義される尤度(以下、「尤度」とする)と、「孝」の尤度とを計算する。次に、誤り判定の計算として、計算した尤度の比の対数を算出し、算出した対数の値が一定の閾値を超えた場合に、「剛」に誤変換があると判定する。
計算方法としては、d=log{(「剛」の尤度)/(「孝」の尤度)}を計算し、d<0となった場合に、「剛」に誤変換があると判定できる。しかし、判定条件がd<0では、「孝」の尤度が「剛」の尤度とほとんど変わらず、若干高い程度(例えば、「孝」の尤度が50で、「剛」の尤度が49)でも誤変換であると判定されてしまうので、判定条件d<0の閾値「0」の値は、負の数であることを条件に、適宜調節するようにしてもよい(例えば、d<−0.5等)。
ステップS8では、制御部200は、誤変換指摘を行う。具体的には、一方の同音異義語に誤変換があると判定された場合に、他方の同音異義語が正しいことを指摘する。
具体例としては、図7に示すように、「剛」に対して「孝」を指摘する。更に、この図7に示した内容を、誤変換指摘装置1が備える表示装置(図示せず)に表示することで、ユーザは、誤変換があることを認識できる。
誤変換があることを認識したユーザは、「剛」を「孝」に変更するか否かを判断し、変更する場合には、誤変換指摘装置1が備える変更確定ボタン(図示せず)を押下することで、変更を確定することができる。
図3のステップS8の処理が終了すると、制御部200は、誤変換指摘処理を終了する。
以上の処理を行うことにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。
以上、実施例では、対応読み仮名テーブル(図5)及び対応漢字含み文字列テーブル(図6)が誤変換指摘装置1に備えられているが、これに限られるものではない。例えば、図8に示すように、サーバ400が対応読み仮名記憶手段160及び対応漢字含み文字列記憶手段170を備えるようにして、誤変換指摘装置1と通信しつつ、サーバ400内の対応読み仮名記憶手段160及び対応漢字含み文字列記憶手段170を検索する(図3のステップS3及びステップS4における処理を行う)ようにしてもよい。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
1 誤変換指摘装置
110 文章受付手段
120 漢字含み文字列抽出手段
130 異読仮名検索手段
140 異漢字変換検索表示手段
150 誤変換指摘手段

Claims (6)

  1. 複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘装置であって、
    漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出する漢字含み文字列抽出手段と、
    前記漢字含み文字列抽出手段が抽出した前記文字列に対応する複数種類の読み仮名を検索する異読仮名検索手段と、
    前記異読仮名検索手段が検索した前記複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索する異漢字変換検索表示手段と、
    前記異漢字変換検索表示手段が検索した前記漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出する異漢字変換後文字列抽出手段と、
    前記漢字含み文字列抽出手段が抽出した前記文字列の尤度と、前記異漢字変換後文字列抽出手段が抽出した前記異漢字変換後文字列の尤度とを当該各文字列の前記文章における出現確率に基づいて計算し、これらの尤度に基づき、前記漢字含み文字列抽出手段が抽出した前記文字列に誤変換があるか否かを判定する誤変換判定手段と、を備え、
    前記誤変換があると判定された場合に、前記漢字含み文字列抽出手段が抽出した前記文字列に誤変換があることを指摘することを特徴とする誤変換指摘装置。
  2. 前記異漢字変換検索表示手段は、前記検索した前記漢字変換後の文字列を表示装置に表示することを特徴とする請求項1記載の誤変換指摘装置。
  3. 漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名記憶手段と、
    仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列記憶手段と、を更に備え、
    前記異読仮名検索手段は、
    前記漢字含み文字列抽出手段が抽出した前記文字列について、前記対応読み仮名記憶手段を参照して複数種類の読み仮名を検索し、
    前記異漢字変換検索表示手段は、
    前記異読仮名検索手段が検索した前記複数種類の読み仮名の夫々について、前記対応漢字含み文字列記憶手段を参照して前記漢字変換後の文字列を検索することを特徴とする請求項2記載の誤変換指摘装置。
  4. コンピュータが、複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘方法であって、
    漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出するステップと、
    前記抽出された前記文字列に対応する複数種類の読み仮名を検索するステップと、
    前記検索された前記複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索するステップと、
    前記検索した前記漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出するステップと、
    前記抽出された前記文字列の尤度と、前記抽出された前記異漢字変換後文字列の尤度とを当該各文字列の前記文章における出現確率に基づいて計算し、これらの尤度に基づき、前記抽出された前記文字列に誤変換があるか否かを判定するステップと、を含み、
    前記誤変換があると判定された場合に、前記抽出された前記文字列に誤変換があることを指摘することを特徴とする誤変換指摘方法。
  5. 前記検索された前記漢字変換後の文字列を表示装置に表示するステップ、をさらに含むことを特徴とする請求項4記載の誤変換指摘方法。
  6. 漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名テーブルと、
    仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列テーブルと、を更に備え、
    前記複数種類の読み仮名を検索するステップでは、
    前記抽出された前記文字列について、前記対応読み仮名テーブルを参照して複数種類の読み仮名を検索し、
    前記漢字変換後の文字列を検索し表示装置に表示するステップでは、
    前記検索された前記複数種類の読み仮名の夫々について、前記対応漢字含み文字列テーブルを参照して前記漢字変換後の文字列を検索することを特徴とする請求項5記載の誤変換指摘方法。
JP2009016439A 2009-01-28 2009-01-28 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法 Active JP5159657B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009016439A JP5159657B2 (ja) 2009-01-28 2009-01-28 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009016439A JP5159657B2 (ja) 2009-01-28 2009-01-28 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法

Publications (2)

Publication Number Publication Date
JP2010176260A JP2010176260A (ja) 2010-08-12
JP5159657B2 true JP5159657B2 (ja) 2013-03-06

Family

ID=42707204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009016439A Active JP5159657B2 (ja) 2009-01-28 2009-01-28 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法

Country Status (1)

Country Link
JP (1) JP5159657B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193849A (ja) * 2007-04-25 2007-08-02 Microsoft Corp かな漢字変換システムおよび方法
JP2008299675A (ja) * 2007-05-31 2008-12-11 Yahoo Japan Corp かな混在表記抽出装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2010176260A (ja) 2010-08-12

Similar Documents

Publication Publication Date Title
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN101815996A (zh) 检测名称实体和新词
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
US20140156258A1 (en) Foreign language writing support apparatus and method
US20060241936A1 (en) Pronunciation specifying apparatus, pronunciation specifying method and recording medium
KR101049358B1 (ko) 유사어 결정 방법 및 시스템
JP2004303240A (ja) 単語解析のためのシステムおよび方法
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
CN116756382A (zh) 检测敏感字符串的方法、装置、设置及存储介质
US8977538B2 (en) Constructing and analyzing a word graph
JP5159657B2 (ja) 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法
JP5583230B2 (ja) 情報検索装置及び情報検索方法
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
WO2007041328A1 (en) Detecting segmentation errors in an annotated corpus
JP5047209B2 (ja) 変換区切り位置に基づいて誤変換を指摘する誤変換指摘装置及びその方法
WO2009139240A1 (ja) 情報処理装置および情報処理方法ならびに記録媒体
JP2010211004A (ja) 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム
JP5412137B2 (ja) 機械学習装置及び方法
JP5849675B2 (ja) 文字入力用のプログラムおよび情報処理装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120410

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121211

R150 Certificate of patent or registration of utility model

Ref document number: 5159657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350