JP2011065384A - 誤字脱字対応テキスト解析装置及び方法及びプログラム - Google Patents
誤字脱字対応テキスト解析装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2011065384A JP2011065384A JP2009214959A JP2009214959A JP2011065384A JP 2011065384 A JP2011065384 A JP 2011065384A JP 2009214959 A JP2009214959 A JP 2009214959A JP 2009214959 A JP2009214959 A JP 2009214959A JP 2011065384 A JP2011065384 A JP 2011065384A
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- word string
- string data
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 本発明は、入力テキストを形態素解析して単語列データを出力し、入力テキストの単語の所定の文字長の単語について近似照合し、近似辞書照合単語列データを出力し、単語列データと近似辞書照合単語列データを用いて誤字脱字修正を行う。誤字脱字修正を行う際に、単語列データと近似辞書照合単語列データの単語の照合タイプに基づいて、所定の重みを付与し、さらに、2つの単語列データの単語の近似文字状況に応じて、該単語列データと該近似辞書照合単語列データとに重みを付与し、重み付け単語列データを出力し、重み付け単語列データの各位置に存在する単語候補について、統計的言語モデル記憶手段を参照して、単語列毎に付与した重みを考慮した表記列と品詞列の同時確率Pweight(F,T)の同時確率が最大となる最尤単語列を修正済み単語列データとして出力する。
【選択図】 図1
Description
辞書登録語での出現文字と入力文での出現文字で変化があった箇所の状況である近似文字状況毎に、ある文字が別の文字に混同されやすさを数値化した文字混同確率を格納した文字混同確率記憶手段331と、
ある読みに対する漢字を格納した読み・漢字対応記憶手段332と、
統計的言語モデルを格納した統計的言語モデル記憶手段340と、
入力テキストを形態素解析して単語列データを出力する形態素解析手段100と、
入力テキストの単語の所定の文字長の単語について近似照合し、近似辞書照合単語列データを出力する近似辞書照合手段200と、
単語列データと近似辞書照合単語列データを用いて誤字脱字修正を行う誤字脱字修正手段300と、を有し、
誤字脱字修正手段300は、
単語列データと近似辞書照合単語列データの単語の照合タイプに基づいて、該単語列データと該近似辞書照合単語列データとに所定の重みを付与し、さらに、該単語列データと該近似辞書照合単語列データの単語の近似文字状況に応じて文字混同確率記憶手段331または読み・漢字対応記憶手段332を参照して、該単語列データと該近似辞書照合単語列データとに重みを付与し、重み付け単語列データを出力する近似タイプ重み付け手段310と、
重み付け単語列データの各位置に存在する単語候補について、統計的言語モデル記憶手段340を参照して、
の同時確率が最大化となる最尤単語列を修正済み単語列データとして出力する単語列確率計算手段320を有する。
照合タイプを、
単語列データの単語と単語辞書との「完全一致」、近似辞書照合単語列データの文字列が辞書登録語の表記の一部文字列から置換された形で出現している「置換」、該近似辞書照合単語列データの文字列が辞書登録語の表記に任意の文字が挿入されている「挿入」、該近似辞書照合単語列データの文字列が辞書登録語の表記から任意の文字が削除された形で出現している「削除」とし、各照合タイプ毎に予め決められた重みを設定する。
(1)ある文字と母音または子音が共通しており、かつ、文字種(ひらがなまたはカタカナ)が共通している場合、
(2)ある文字と同音の文字である場合、
(3)ある文字と形が似ていて文字種が異なる文字である場合、
(4)ある文字の母音部分が落ちた文字である場合、
(5)伏せ字を表す記号である場合、
(6)任意の文字の削除または挿入に対応する場合
のいずれかの条件を満たす場合に値が大きくなるように設定する。
辞書登録語での出現文字と入力文での出現文字で変化があった箇所の状況である近似文字状況毎に、ある文字が別の文字に混同されやすさを数値化した文字混同確率を格納した文字混同確率記憶手段と、
ある読みに対する漢字を格納した読み・漢字対応記憶手段と、
統計的言語モデルを格納した統計的言語モデル記憶手段と、を有するコンピュータが、
入力テキストを形態素解析して単語列データを出力する形態素解析ステップ(ステップ1)と、
入力テキストの単語の所定の文字長の単語について近似照合し、近似辞書照合単語列データを出力する近似辞書照合ステップ(ステップ2)と、
単語列データと近似辞書照合単語列データを用いて誤字脱字修正を行う誤字脱字修正ステップ(ステップ3)と、を行い、
誤字脱字修正ステップ(ステップ3)では、
単語列データと近似辞書照合単語列データの単語の照合タイプに基づいて、該単語列データと該近似辞書照合単語列データとに所定の重みを付与し(ステップ301)、さらに、該単語列データと該近似辞書照合単語列データの単語の近似文字状況に応じて文字混同確率記憶手段または読み・漢字対応記憶手段を参照して、該単語列データと該近似辞書照合単語列データとに重みを付与し、重み付け単語列データを出力する近似タイプ重み付けステップ(ステップ302)と、
重み付け単語列データの各位置に存在する単語候補について、統計的言語モデル記憶手段を参照して、
の同時確率が最大となる最尤単語列を修正済み単語列データとして出力する単語列確率計算ステップ(ステップ303)を行う。
照合タイプを、
単語列データの単語と単語辞書との「完全一致」、近似辞書照合単語列データの文字列が辞書登録語の表記の一部文字列から置換された形で出現している「置換」、該近似辞書照合単語列データの文字列が辞書登録語の表記に任意の文字が挿入されている「挿入」、該近似辞書照合単語列データの文字列が辞書登録語の表記から任意の文字が削除された形で出現している「削除」とし、各照合タイプ毎に予め決められた重みを設定する。
(1)ある文字と母音または子音が共通しており、かつ、文字種(ひらがなまたはカタカナ)が共通している場合、
(2)ある文字と同音の文字である場合、
(3)ある文字と形が似ていて文字種が異なる文字である場合、
(4)ある文字の母音部分が落ちた文字である場合、
(5)伏せ字を表す記号である場合、
(6)任意の文字の削除または挿入に対応する場合、
のいずれかである場合に値が大きくなるよう設定する。
・考慮すべき単語候補を抑制しながら効率よく高速に形態素解析処理を行う;
・既存の形態素解析技術の辞書照合処理部に直接近似辞書照合処理を組み込む手段と比
較すると、本手段では既存の形態素解析処理の後付の修正処理として独立させることができるため、既存の形態素解析システムの改変に伴うコストが低く抑えられる;
という効果がある。
形態素解析部100は、入力文(a)を形態素解析して単語列データ(b)を出力するものである。既存の任意の形態素解析処理システムを利用してよい。例えば「○TTから精求書が3通届いた」という入力文に対して、得られる形態素解析結果、即ち単語列データ(b)の状況を図5に示す。図5に示す表はJTAGを利用した場合の形態素解析結果を示したものである。形態素解析システムによって、結果が多少異なる。図5の例では「○TT」のような伏字、「精求書」のような誤字が含まれた入力文のため、形態素解析処理で、「○TT」が「○/記号」と「TT/Alphabet」へ、「精求書」が「精/名詞」「求/Kanji」「書/名詞接尾辞」へと分割されている。なお、「TT/Alphabet」「求/Kanji」は、それぞれ英字、漢字の未知語であることを意味しており、既存の形態素解析処理では、本来の単語ではなく別の辞書登録語や未知語を使って誤った解析結果を出力することがしばしばあることがわかる。なお、ここで得られる単語列データ(b)は既存の形態素解析処理が出力する1つの最尤単語列である。また、形態素解析で利用する単語辞書に対して完全一致の単語のみが得られる。またこれらの単語の照合タイプは全て「EM」である。
近似辞書照合部200は、形態素解析部100の処理と同じ入力文(a)に対して近似辞書照合処理を実行して近似辞書照合単語列データ(c)を出力する。この処理も既存の任意の近似辞書照合処理システムを利用してよい。本稿では後述する近似辞書照合システムを利用した。この処理で利用する辞書は、形態素解析部100で利用する単語辞書(図示せず)から作成するものである。ただし、全ての文字長の単語を近似辞書照合すると照合する文字列が爆発するため、ここでは文字長3以上の単語に限定する。つまり、形態素解析処理の文字長3以上の単語辞書に対して、挿入・置換・削除された文字列を辞書照合する。また、1文字置換、2文字置換など、何文字までの近似照合を許すかについても色々状況が考えられるが、ここでは1文字までの近似照合に限定して説明する。近似辞書照合単語列データ(c)の例を図6に示す。
スキップ辞書作成部10は、削除キーワード/値生成部11、削除キーワード/値一時記憶部12及びトライ辞書作成部13からなり、抽出したいキーワードとして予め人手によりリストアップされたキーワードの集合であるキーワード辞書からスキップ辞書を作成し、スキップ辞書記憶部20に格納する。
削除キーワード/値生成部11では、予め用意されたキーワード辞書中の各キーワードに対して、まず、キーワードそのものと、当該キーワードの全ての文字位置pkから連続するwk字(1≦wk≦N:Nはキーワードの削除最大文字数)を削除した文字列の集合とからなる削除キーワードを作成し、削除キーワード/値一時記憶部12に記憶する。
トライ辞書作成13では、削除キーワード/値一時記憶部12から削除キーワード/値生成部11が生成した削除キーワードと当該削除キーワードに対応する値を読み出し、トライ構造に変換して辞書を作成する。
キーワード抽出部30は、スキップ入力/スキップ辞書照合部31、照合結果一時記憶部32及び重複削除部33からなり、誤字や脱字を含む入力文字列とスキップ辞書記憶部20に格納されたスキップ辞書とからキーワードを抽出し、その出現位置及び値とともに出力する。
まず、スキップ入力/スキップ辞書照合部31では、入力文字列とスキップ辞書記憶部20に格納されたスキップ辞書とを照合して、キーワードの侯補を抽出する。スキップ入力/スキップ辞書照合のアルゴリズムを図9に示す。なお、ここで抽出したキーワードは、
・EM:キーワードが入力文字列中に完全一致で出現
・DEL:入力文字列に削除文字(脱字)が存在する状態でキーワードと一致
・INS:入力文字列に挿入文字が存在する状態でキーワードと一致
・REP:入力文字列に置換文字(誤字)が存在する状態でキーワードと一致
の4つの一致タイプに分類される。
まず、入力文字列とスキップ辞書を照合する(ステップs21)。この照合アルゴリズムは、通常のトライ辞書照合、AC法による照合のどちらを用いても良い。また、これら以外の照合アルゴリズムを用いることもできる。
ここでは、まず、入力文字列の全ての位置から少なくとも1つの文字をスキップ、詳細には絶対スキップ位置pを一つずつ増加させながらスキップ幅wi字(1≦wi≦N)をスキップさせた文字列を作成する(ステップs24)。これをスキップ入力と呼ぶ。例えば、文1第29回夏季オリンピックは、2008年8月8日から中国北京で開催される』についてスキップ入力を作成すると、図11に示す文字列が得られる。
図9では入力文字列、スキップ入力の2箇所(ステップs21,ステップs25)でスキップ辞書との照合を行っていた。通常のトライ構造を用いる場合、上記2箇所の照合アルゴリズムをそれぞれ図13,図14に示すようなアルゴリズムを用いることにより、さらに高速にスキップ辞書との照合を行うことができる。
重複削除部33では、照合結果一時記憶部32からスキップ入力/スキップ辞書照合部31が出力したキーワード侯補の集合を読み出し、重複するものを削除したキーワードの集合を生成して出力する。ここでは、誤り文字数が最小のものだけを選択し、残りのもののうち、入力文字列上で一致したエリアが重なるものは重複と解釈する。重複削除アルゴリズムを図15に示す。
文2:『競泳は他の夏季オリンピックと同様に、期間の前半に行われる。』
文3:『中でも注目は男子の100m平泳ぎである。』
文4:『日本はメダルを取れるであろうか。』
と、キーワード辞書から作成したスキップ辞書を用いると、たとえば、図17に示すキーワードが得られる。
誤字脱字修正部300では、形態素解析部100及び近似辞書照合部200にて得られる出力、即ち、単語列データ(b)および近似辞書照合単語列データ(c)を入力として誤字脱字修正を行う。
近似タイプ重み付け部310では、単語列データ(b)および近似辞書照合単語列データ(c)に存在する単語について、その照合タイプと近似文字状況の2つの観点から、各単語に重み付けを行う。
まず、照合タイプに基づく重み付けであるが、例えば、「EM」は1.0、それ以外の「REP」、「INS」、「DEL」については0.1というように、照合タイプ別に任意の値を設定する。この値は、各照合タイプのいずれを優先させるかを制御するものである。本願発明では、形態素解析処理の後付処理としての誤り修正を目的としているため、形態素解析結果である「EM」を最優先させて1.0という重みを設定するが、実際の処理においては、入力文の誤り発生率の高さやその内容に応じて適宜自由に調整する。
続いて、近似文字状況に基づいた重み付けを行う。この処理は特に照合タイプ「REP」で利用するものである。ある文字から別の文字への置換の発生しやすさは、文字の内容によって変化する。ここでは電子的に入力されたテキストでの置換を想定することにし、具体的にはキーボードでの文字入力を前提とする。
(a) 同行 … 例「か→こ」「チ→テ」
(b) 同段 … 例「ま→さ」「ホ→モ」
(c) 同音文字 … 例「は→わ」「え→へ」「ワ→ハ」「ヘ→エ」
(2)「ひらがな→漢字」「漢字→ひらがな」「漢字→漢字」
(a) 両者の読みが一致する … 例「あ→会」「付→つ」「精→請」
(3)「ひらがな→カタカナ」「カタカナ→ひらがな」
(a) 形が似ている文字 … 例「ヘ→へ」「ぺ→ペ」
(4)「ひらがな→アルファベット」「カタカナ→アルファベット」
(a) 行の子音が共通 … 例「か行の文字→k」「サ行→s」「だ行→d」
(5)「任意の文字→記号」
(a) 記号が●または○ … 例 「N→○」
(6)「任意の文字→」「→任意の文字」
近似タイプがDEL(文字の削除)またはINS(文字の挿入)
(1)は上述の、ひらがなでのキーボード入力で、母音または子音が共通である50音表同段・同行同士は混同されやすいことを反映している。また、カタカナでも同様である。これらは50音表での配置に基づいて機械的に文字混同テーブルを作成する。図18では同行と同段では重み係数に差をつけている。また、(c){は、わ}の同音文字は(b)同段のサブセットであるが、より発生しやすいと考えて重みを強くしている。このような重み付け係数の粒度は自由に設計すればよい。
単語列確率計算部320では、近似タイプ重み付け部310が出力した重みつき単語列データ(d)を入力とし、統計的言語モデルを参照して単語列毎の重みを考慮した表記列と品詞列の同時確率Pweight(F,T)を最大化するような単語分割(最尤単語列)を1つ出力するものである。この出力が、修正済単語列データ(e)となる。
11 削除キーワード/値生成部
12 削除キーワード/値一時記憶部
13 トライ辞書作成部
20 スキップ辞書記憶部
30 キーワード抽出部
31 スキップ入力/スキップ辞書照合部
32 照合結果一時記憶部
33 重複削除部
40 フィルタリング部
50 表示部
60 入力部
70 表示制御部
100 形態素解析手段、形態素解析部、形態素解析装置
200 近似辞書照合手段、近似辞書照合部、近似辞書照合装置
300 誤字脱字修正手段、誤字脱字修正部、誤字脱字対応テキスト解析装置
310 近似タイプ重み付け手段、近似タイプ重み付け部
320 単語列確率計算手段、単語列確率計算部
330 文字テーブル
331 文字混同確率記憶手段
332 読み・漢字対応記憶手段
340 統計的言語モデル記憶手段、統計的言語モデル記憶部
Claims (7)
- 誤字や脱字が含まれる入力テキストを形態素解析するための誤字脱字対応テキスト解析装置であって、
辞書登録語での出現文字と入力文での出現文字で変化があった箇所の状況である近似文字状況毎に、ある文字が別の文字に混同されやすさを数値化した文字混同確率を格納した文字混同確率記憶手段と、
ある読みに対する漢字を格納した読み・漢字対応記憶手段と、
統計的言語モデルを格納した統計的言語モデル記憶手段と、
前記入力テキストを形態素解析して単語列データを出力する形態素解析手段と、
前記入力テキストの単語の所定の文字長の単語について近似照合し、近似辞書照合単語列データを出力する近似辞書照合手段と、
前記単語列データと前記近似辞書照合単語列データを用いて誤字脱字修正を行う誤字脱字修正手段と、を有し、
前記誤字脱字修正手段は、
前記単語列データと前記近似辞書照合単語列データの単語の照合タイプに基づいて、該単語列データと該近似辞書照合単語列データとに所定の重みを付与し、さらに、該単語列データと該近似辞書照合単語列データの単語の近似文字状況に応じて前記文字混同確率記憶手段または読み・漢字対応記憶手段を参照して、該単語列データと該近似辞書照合単語列データとに重みを付与し、重み付け単語列データを出力する近似タイプ重み付け手段と、
前記重み付け単語列データの各位置に存在する単語候補について、前記統計的言語モデル記憶手段を参照して、
の同時確率が最大化となる最尤単語列を修正済み単語列データとして出力する単語列確率計算手段を有する
ことを特徴とする誤字脱字対応テキスト解析装置。 - 前記近似タイプ重み付け手段は、
前記照合タイプを、
前記単語列データの単語と単語辞書との「完全一致」、前記近似辞書照合単語列データの文字列が辞書登録語の表記の一部文字列から置換された形で出現している「置換」、該近似辞書照合単語列データの文字列が辞書登録語の表記に任意の文字が挿入されている「挿入」、該近似辞書照合単語列データの文字列が辞書登録語の表記から任意の文字が削除された形で出現している「削除」とし、各照合タイプ毎に予め決められた重みを設定する
請求項1記載の誤字脱字対応テキスト解析装置。 - 前記文字混同確率記憶手段における前記文字混同確率は、前記別の文字が
(1)前記ある文字と母音または子音が共通しており、かつ、文字種(ひらがなまたはカタカナ)が共通している場合、
(2)前記ある文字と同音の文字である場合、
(3)前記ある文字と形が似ていて文字種が異なる文字である場合、
(4)前記ある文字の母音部分が落ちた文字である場合、
(5)伏せ字を表す記号である場合、
(6)任意の文字の削除または挿入に対応する場合、
のいずれかである場合に値が大きくなるよう設定されることを特徴とする
請求項1記載の誤字脱字対応テキスト解析装置。 - 誤字や脱字が含まれる入力テキストを形態素解析するための誤字脱字対応テキスト解析方法であって、
辞書登録語での出現文字と入力文での出現文字で変化があった箇所の状況である近似文字状況毎に、ある文字が別の文字に混同されやすさを数値化した文字混同確率を格納した文字混同確率記憶手段と、
ある読みに対する漢字を格納した読み・漢字対応記憶手段と、
統計的言語モデルを格納した統計的言語モデル記憶手段と、を有するコンピュータが、
前記入力テキストを形態素解析して単語列データを出力する形態素解析ステップと、
前記入力テキストの単語の所定の文字長の単語について近似照合し、近似辞書照合単語列データを出力する近似辞書照合ステップと、
前記単語列データと前記近似辞書照合単語列データを用いて誤字脱字修正を行う誤字脱字修正ステップを行い、
前記誤字脱字修正ステップでは、
前記単語列データと前記近似辞書照合単語列データの単語の照合タイプに基づいて、該単語列データと該近似辞書照合単語列データとに所定の重みを付与し、さらに、該単語列データと該近似辞書照合単語列データの単語の近似文字状況に応じて前記文字混同確率記憶手段または読み・漢字対応記憶手段を参照して、該単語列データと該近似辞書照合単語列データとに重みを付与し、重み付け単語列データを出力する近似タイプ重み付けステップと、
前記重み付け単語列データの各位置に存在する単語候補について、前記統計的言語モデル記憶手段を参照して、
の同時確率が最大となる最尤単語列を修正済み単語列データとして出力する単語列確率計算ステップを行う
ことを特徴とする誤字脱字対応テキスト解析方法。 - 前記近似タイプ重み付けステップにおいて、
前記照合タイプを、
前記単語列データの単語と単語辞書との「完全一致」、前記近似辞書照合単語列データの文字列が辞書登録語の表記の一部文字列から置換された形で出現している「置換」、該近似辞書照合単語列データの文字列が辞書登録語の表記に任意の文字が挿入されている「挿入」、該近似辞書照合単語列データの文字列が辞書登録語の表記から任意の文字が削除された形で出現している「削除」とし、各照合タイプ毎に予め決められた重みを設定する
請求項4記載の誤字脱字対応テキスト解析方法。 - 文字混同確率記憶手段における前記文字混同確率は、前記別の文字が
(1)前記ある文字と母音または子音が共通しており、かつ、文字種(ひらがなまたはカタカナ)が共通している場合、
(2)前記ある文字と同音の文字である場合、
(3)前記ある文字と形が似ていて文字種が異なる文字である場合、
(4)前記ある文字の母音部分が落ちた文字である場合、
(5)伏せ字を表す記号である場合、
(6)任意の文字の削除または挿入に対応する場合、
のいずれかである場合に値が大きくなるよう設定されることを特徴とする
請求項4記載の誤字脱字対応テキスト解析方法。 - 請求項1乃至3のいずれか1項に記載の誤字脱字対応テキスト解析装置を構成する各手段としてコンピュータを機能させるための誤字脱字対応テキスト解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009214959A JP5203324B2 (ja) | 2009-09-16 | 2009-09-16 | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009214959A JP5203324B2 (ja) | 2009-09-16 | 2009-09-16 | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011065384A true JP2011065384A (ja) | 2011-03-31 |
JP5203324B2 JP5203324B2 (ja) | 2013-06-05 |
Family
ID=43951565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009214959A Expired - Fee Related JP5203324B2 (ja) | 2009-09-16 | 2009-09-16 | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5203324B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145287A (zh) * | 2018-07-05 | 2019-01-04 | 广东外语外贸大学 | 印尼语单词检错纠错方法及系统 |
JP2020016939A (ja) * | 2018-07-23 | 2020-01-30 | 株式会社デンソーアイティーラボラトリ | 単語列修正装置、単語列修正方法及びプログラム |
CN110929502A (zh) * | 2018-08-30 | 2020-03-27 | 北京嘀嘀无限科技发展有限公司 | 一种文本检错方法及装置 |
US11687599B2 (en) | 2019-01-31 | 2023-06-27 | Nippon Telegraph And Telephone Corporation | Data retrieving apparatus, method, and program |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60164864A (ja) * | 1984-02-08 | 1985-08-27 | Hitachi Ltd | デ−タ処理装置 |
JPS6394364A (ja) * | 1986-10-08 | 1988-04-25 | Nippon Telegr & Teleph Corp <Ntt> | 日本文誤字自動修正装置 |
JPH01205377A (ja) * | 1988-02-12 | 1989-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 日本文文書解析装置 |
JPH0275059A (ja) * | 1988-09-12 | 1990-03-14 | Ricoh Co Ltd | 日本文誤り訂正処理装置 |
JPH0362260A (ja) * | 1989-07-31 | 1991-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 片仮名単語誤り検出訂正装置 |
JPH03291747A (ja) * | 1990-04-10 | 1991-12-20 | Ricoh Co Ltd | かな漢字変換方式 |
JPH05225183A (ja) * | 1992-02-10 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | 日本文単語誤り自動検出装置 |
JP2003223441A (ja) * | 2002-01-28 | 2003-08-08 | Fuji Xerox Co Ltd | 文字列整形装置、方法及びプログラム |
-
2009
- 2009-09-16 JP JP2009214959A patent/JP5203324B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60164864A (ja) * | 1984-02-08 | 1985-08-27 | Hitachi Ltd | デ−タ処理装置 |
JPS6394364A (ja) * | 1986-10-08 | 1988-04-25 | Nippon Telegr & Teleph Corp <Ntt> | 日本文誤字自動修正装置 |
JPH01205377A (ja) * | 1988-02-12 | 1989-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 日本文文書解析装置 |
JPH0275059A (ja) * | 1988-09-12 | 1990-03-14 | Ricoh Co Ltd | 日本文誤り訂正処理装置 |
JPH0362260A (ja) * | 1989-07-31 | 1991-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 片仮名単語誤り検出訂正装置 |
JPH03291747A (ja) * | 1990-04-10 | 1991-12-20 | Ricoh Co Ltd | かな漢字変換方式 |
JPH05225183A (ja) * | 1992-02-10 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | 日本文単語誤り自動検出装置 |
JP2003223441A (ja) * | 2002-01-28 | 2003-08-08 | Fuji Xerox Co Ltd | 文字列整形装置、方法及びプログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145287A (zh) * | 2018-07-05 | 2019-01-04 | 广东外语外贸大学 | 印尼语单词检错纠错方法及系统 |
JP2020016939A (ja) * | 2018-07-23 | 2020-01-30 | 株式会社デンソーアイティーラボラトリ | 単語列修正装置、単語列修正方法及びプログラム |
JP7098463B2 (ja) | 2018-07-23 | 2022-07-11 | 株式会社デンソーアイティーラボラトリ | 単語列修正装置、単語列修正方法及びプログラム |
CN110929502A (zh) * | 2018-08-30 | 2020-03-27 | 北京嘀嘀无限科技发展有限公司 | 一种文本检错方法及装置 |
CN110929502B (zh) * | 2018-08-30 | 2023-08-25 | 北京嘀嘀无限科技发展有限公司 | 一种文本检错方法及装置 |
US11687599B2 (en) | 2019-01-31 | 2023-06-27 | Nippon Telegraph And Telephone Corporation | Data retrieving apparatus, method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5203324B2 (ja) | 2013-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Azmi et al. | A survey of automatic Arabic diacritization techniques | |
Laboreiro et al. | Tokenizing micro-blogging messages using a text classification approach | |
ERYİǦİT et al. | Social media text normalization for Turkish | |
Shaalan et al. | Arabic word generation and modelling for spell checking. | |
Sawalha | Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Oravecz et al. | Semi-automatic normalization of Old Hungarian codices | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
Jamro | Sindhi language processing: A survey | |
Kaur et al. | Spell checker for Punjabi language using deep neural network | |
Kaur et al. | Hybrid approach for spell checker and grammar checker for Punjabi | |
Abu Bakar et al. | NUWT: Jawi-specific buckwalter corpus for Malay word tokenization | |
Htun et al. | Improving transliteration mining by integrating expert knowledge with statistical approaches | |
Nguyen et al. | OCR error correction for Vietnamese handwritten text using neural machine translation | |
UzZaman et al. | A comprehensive bangla spelling checker | |
Tufiş et al. | Tiered tagging revisited | |
Nguyen et al. | An Efficient Unsupervised Approach for OCR Error Correction of Vietnamese OCR Text | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
CN110377897A (zh) | 中英文地址自动检测方法及系统 | |
Mijlad et al. | Arabic text diacritization: Overview and solution | |
Mekki et al. | COTA 2.0: An automatic corrector of tunisian Arabic social media texts | |
Ahmed et al. | Discovering lexical similarity using articulatory feature-based phonetic edit distance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5203324 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160222 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |