JP2005050386A - 文章校正装置 - Google Patents

文章校正装置 Download PDF

Info

Publication number
JP2005050386A
JP2005050386A JP2004334751A JP2004334751A JP2005050386A JP 2005050386 A JP2005050386 A JP 2005050386A JP 2004334751 A JP2004334751 A JP 2004334751A JP 2004334751 A JP2004334751 A JP 2004334751A JP 2005050386 A JP2005050386 A JP 2005050386A
Authority
JP
Japan
Prior art keywords
word
words
correct
unit
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004334751A
Other languages
English (en)
Inventor
Jun Ibuki
潤 伊吹
Kunio Matsui
くにお 松井
Manabu Satsusano
学 颯々野
Tomoya Ogawa
知也 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004334751A priority Critical patent/JP2005050386A/ja
Publication of JP2005050386A publication Critical patent/JP2005050386A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】誤って入力された文字列を正しい文字列に校正する文章校正装置に関し、誤った単語の校正を効率よく行える文章校正装置を提供することを目的とする。
【解決手段】テキスト中の構成単語を抽出する構成単語抽出部と、構成単語抽出部で抽出された抽出単語間の類似度を算出する単語間類似度算出部と、単語間類似度算出部で算出された類似度に応じて前記抽出単語を類似単語群に分類する単語分類部と、単語分類部で分類された類似単語群毎に正解単語を設定する正解単語設定部とを有することを特徴とする。
【選択図】図2

Description

本発明は、文章校正装置に係わり、特に、誤って入力された文字列を正しい文字列に校正する文章校正装置に関する。
近年、ワードプロセッサなどの文章処理装置には、誤って入力された文字列を正しい文字列に訂正するいわゆる文章校正機能を有するものがある。このような、文章校正機能には、表記の僅かな違いのある単語群や同義語を自動的に標準化してユーザの行うテキストの校正作業を能率化したり類義語の情報をテキスト・辞書などから自動的に獲得した文章データに対して、誤って入力された文字列を正しい文字列に自動的に訂正することにより文章校正作業の効率を大幅に向上させることが望まれている。
図12に従来の一例のブロック図を示す。従来の文書校正装置は、入力単語の形態素解析を行う形態解析部51、誤った表記の単語に対して正しい表記の単語を対応させる単語辞書52、形態素解析部51で得られた単語をアドレスとして正しい単語に変換する単語変換部53より構成される。
しかるに、従来の文章校正装置では、正しい単語に対して誤った表記の単語を予め辞書に登録しておくことにより正しい単語の指示を行っていたため、辞書に登録されていない、誤った単語に対しては、正しい単語を指示できず、また、誤りやすいすべての単語を登録しておくには辞書の容量を大きくする必要がある等の問題点があった。
本発明は、テキスト中の構成単語を抽出する構成単語抽出部と、前記構成単語抽出部で抽出された抽出単語間の類似度を算出する単語間類似度算出部と、前記単語間類似度算出部で算出された類似度に応じて前記抽出単語をカテゴリに分類する単語分類部と、前記単語分類部で分類されたカテゴリ毎に正解単語を設定する正解単語設定部とを有することを特徴とする。
本発明によれば、単語間類似度算出部により抽出された単語間の類似度を算出し、算出された類似度に応じて互いに類似する単語を単語群に分類し、分類された単語群のなかの単語から正解単語を設定することにより、正解単語辞書を持つ必要がないため、装置の構成を簡単にできる。
上述の如く、本発明によれば、単語間類似度算出部により抽出された単語間の類似度を算出し、算出された類似度に応じて互いに類似する単語を単語群に分類し、分類された単語群のなかの単語から正解単語を設定することにより、正解単語辞書を持つ必要がないため、装置の構成を簡単にできる等の特長を有する。
図2に本発明の第1実施例のブロック構成図を示す。本実施例の文章校正装置10は、請求項1の実施例に相当しており、テキストから語彙を抽出する語彙抽出部11、語彙抽出部11で抽出された単語の類似単語と正解単語とのペアを生成する類似単語検出部12、テキスト及び類似単語検出部12で生成された単語ペアが供給され、テキスト中の類似単語を正解単語に置換する単語置換部13より構成される。
図3に本発明の第1実施例の動作説明図を示す。語彙抽出部11は、入力テキストを形態素解析し、単語を抽出する。例えば、図3(A)に示されるように「シミュレイションを行う。」と言うテキストが入力されると、図3(B)に示されるように「シミュレイション」、「を」、「行う」、「。」に分解する。語彙抽出部11で抽出された単語は、類似単語検出部12に供給される。
類似単語検出部12は、正解単語を格納した正解単語辞書14、語彙抽出部11で抽出された単語と、正解単語辞書14中の正解単語との類似度を求め互いに類似する抽出単語と正解単語との単語ペアを生成する類似度判定部15、語彙抽出部11で抽出された抽出単語に類似する正解単語を単語辞書14から検索する辞書検索部16より構成される。正解単語辞書14には、正しい表記の単語が予め格納されている。
類似度判定部15には、語彙抽出部11で抽出された抽出単語及び辞書検索部16で検索された検索単語が供給され、抽出単語と検索単語との非類似度を算出し、非類似度が最も小さい抽出単語と正解単語との単語ペアを生成する。非類似度は、抽出単語と正解単語との距離に相当する。単語間の距離は、予め与えられたルールにより決定される。ルールは、例えば、図3(C)に示されるように「レイ」と「レー」、「タ」と「ター」、「フェイ」と「フェー」の距離が「1」、「タ」と「タ」、「イ」と「イ」の距離が「0」となるように測定を行う例えば、図3(B)に示されるように語彙抽出部11で抽出単語として「シミュレイション」という単語が抽出されたとすると抽出単語「シュミレイション」と1文字違い、つまり、非類似度が「1」で互いに類似と判断される予め設定された所定の類似度「4」より小さく、かつ、最も小さい正解単語「シュミレーション」と単語ペアを生成し、単語置換部13に供給する。
単語置換部13には、類似度判定部15より単語ペアが供給されると共にテキストが供給され、類似度判定部15で生成された単語ペアの抽出単語に対応するテキストの単語を単語ペアの正解単語に変換する。図4に本発明の第1実施例の動作説明図を示す。ここでは、図4(A)に示されるように原テキストとして「インターフェイス部の速度性能の向上を図るために新たなCPUを搭載しており、又グラフィック・インターフェイスの採用によって先進のユーザ・インターフェースを手に入れています。」という文書が供給されると、図4(D)に示されるように「CPU」、「インターフェイス」、「インターフェース」などの単語に分解される。分解された単語には出現頻度が付与される。「CPU」の出現頻度は「1」、「インターフェイス」の出現頻度は「2」、「インターフェース」の出現頻度は「1」となる。
また、正解単語辞書14には、図4(B)に示されるように正解単語として「インタフェース」が登録されていたとすると図4(E)に示されるように抽出された「インターフェイス」及び「インターフェース」は、距離の小さい正解単語辞書14の「インタフェイス」を正解単語する。このため、図4(A)に示される文書は図4(F)に示すように「インタフェース部の速度性能の向上を・・・ユーザ・インタフェースを手に入れています。」のように校正される。
以上、本実施例によれば、単語辞書14には正解単語のみを記憶すればよいため、単語辞書の容量を減少させることが出来る。また、単語ペアを生成し、抽出単語と、正解単語とを比較できるため、単語の比較検討が行える。図5に本発明の第1実施例の変形例の動作説明図を示す。
本変形例は、請求項2の実施例に相当し、文字単位のマッチングを行う際に文字の完全一致のみでなく文字の構成要素による得点付け(類似度の算出)を行い、付与された得点に応じて正解となる単語を求めるものである。得点付けは、文字の全体構成型(偏傍型等)、「偏」の構成、「傍」の構成等の一致・不一致を比較し、一致なら「1」、不一致なら「0」を得点として付与することで実現される。
例えば、「観光」と「勧光」という文字が入力された場合、「光」が一致しているので、マッチングの候補として上げられる。次に、異なる文字である「観」と「勧」との比較が行われる。文字の比較は、「観」の全体構成の型である偏傍型と、「勧」の全体構成型である偏傍型とを比較することにより行われる。ここでは、同一の型であるため、「1」が付与される。また、「偏」の構成の「かん」が同一であるため、「1」が付与される。さらに、「傍」の構成の「見」と、「力」とは互いに異なるため、「0」が付与される。ここで、付与された得点を加算し、総得点を算出する。
算出された総得点は、予め設定された、類似と判断しうる所定の得点と比較され、算出された総得点が例えば、「2」以上のときには、互いに同一の文字であると判断する。上記、「観」と「勧」では、総得点は「2」であるため、互いに同一であると判断される。したがって、「観光」と「勧光」とが一致するものとして判別される。
図6に本発明の第2実施例のブロック構成図を示す。同図中、図1と同一構成部分には同一符号を付し、その説明は省略する。本実施例は、請求項3、4の実施例に相当し、図2に示す第1実施例とは、類似単語検出部22の構成が異なる。本実施例の類似単語検出部22は、語彙抽出部11で抽出された単語をカテゴリ化するカテゴリ化部23、カテゴリ化部23でカテゴリ化された単語群より正解単語を判定する正解単語判定部24より構成される。
図7に本発明の第2実施例のカテゴリ化部のブロック構成図を示す。カテゴリ化部23は、語彙抽出部11で抽出された単語のペアを生成する単語ペア生成部25、単語ペア生成部25で生成された単語ペアのうち非類似度が所定の値より高い単語ペアを判定する類似度判定部26、類似度判定部26で判定された単語ペアをグループ化するグループ化処理部27より構成される。
類似度判定部26は、単語ペア生成部25で生成された単語ペアの同一文字を非類似度「0」、異なる文字数、及び、同一の文字間の距離に応じて非類似度が増加するように非類似度を設定し、設定された非類似度が所定値より小さい、つまり、類似度が所定値より高いときに単語ペア生成部25で生成された単語ペアを互いに類似した単語ペアとして判定する。
図8に本発明の第2実施例のカテゴリ化部の動作説明図を示す。語彙抽出部11で「インターフェース」及び「インタフェイス」が抽出され、単語ペア生成部25で単語ペアとされた場合、類似度判定部26では、まず、「インターフェース」と、「インタフェイス」とで、互いに異なる文字である「ー」と、「ー」及び「イ」の2つの相違に相当する「2」を非類似度とする。次に、類似度判定部26は、求められた非類似度「2」が、予め設定された非類似度より小さいか否かを判断する。非類似度は、互いに類似する単語間の距離を示し、同一の単語であると判断する距離が設定される。ここでは、例えば、非類似度が「4」以下を互いに類似する単語として判別するものとする。
類似度判定部26は、単語ペア生成部25で生成された単語ペアの非類似度が「4」以下で、互いに類似する単語として判断すると類似すると判断した単語ペアをグループ化処理部27に供給する。グループ化処理部27は、類似度判定部26で類似と判断された単語を同一のグループとしてグループ化する。したがって、「インターフェース」と「インタフェイス」とは同一のグループとしてグループ化される。
グループ化処理部27でグループ化された単語群は正解単語判定部24に供給される。正解単語部24ではグループ化処理部27から供給された単語群から出現頻度の最も多い単語を正解単語とする。正解単語判定部24で判定された正解単語は正解単語が含まれる単語群とセットで単語置換部13に供給される。
単語置換部13にはテキストが供給されると共に、正解単語判定部24から正解単語が供給され、テキスト中の正解単語と同一の単語群に含まれる単語を正解単語に変換する。図9に本発明の第2実施例の動作説明図を示す。図9(A)に示すようなテキストが入力され、図9(B)に示すように単語に分解された場合、図9(C)に示されるように類似度が所定値以下の「インターフェイス」と「インターフェース」とが同一のカテゴリに分類される。このとき、「インターフェイス」の出現頻度は「2」、「インターフェース」の出現頻度は「1」であるため、出現頻度の高い「インターフェイス」が正解単語とされる。
このため、図4(A)に示されるテキストは、図9(B)に示されるように「インターフェイス部の速度性能の・・・ユーザ・インターフェイスを手に入れています。」に校正する。以上のように本実施例によれば、テキスト中の互いに類似し、異なる文字列を持つ単語をそのなかで最も多く出現する単語で置換することによりテキストの校正を行うため、単語辞書が不要になる。
図10に本発明の第2実施例の第1変形例の動作説明図を示す。本変形例は、請求項5の実施例に相当しており、ここでは、図10(A)に示されるような「ダンプ関数は内部テーブル項目を・・・一部実行されないことがある。」というテキストが供給されるものとする。本実施例では、図10(B)に示されるように上記テキストで互いに「主語」、「述語」のようにかかり受けを持つ単語を抽出する。
例えば、「ダンプ関数」、「プログラム」は「書き出す」の「主語」となっている。また、「内部テーブル項目」、「データ」は、「書き出す」の「述語」となっている。したがって、主語と述語とによりカテゴリ化を行えば、図10(C)に示すように「ダンプ関数」と「プログラム」とが、「主語」という同一のカテゴリとしてカテゴリ化され、図10(D)に示すように「内部テーブル項目」と「データ」とが、「述語」という同一のカテゴリとしてカテゴリ化される。このように、単語同士の統語的関係(例えば、主語と述語)を抽出し、カテゴリ化することにより、異なる表記の単語の校正も可能となり、例えば、図10(A)に示されるテキストは、図10(E)に示されるように校正される。
図11に本発明の第2実施例の第2変形例の動作説明図を示す。本変形例は、請求項6の実施例に相当する。本変形例では、単語辞書として訳語辞書を有し、訳語辞書に図11(B)に示すように「機械翻訳」に対して「machine translation」、「計算機」に対して「computer」などのように原語と訳語の関係を記述しておき、訳語が同一のものを同一のカテゴリとする。
本発明の原理図である。 本発明の第1実施例のブロック構成図である。 本発明の第1実施例の語彙抽出部の動作説明図である。 本発明の第1実施例の動作説明図である。 本発明の第1実施例の変形例の動作説明図である。 本発明の第2実施例のブロック構成図である。 本発明の第2実施例のカテゴリ化部のブロック構成図である。 本発明の第2実施例のカテゴリ化部の動作説明図である。 本発明の第2実施例の動作説明図である。 本発明の第2実施例の第1変形例の動作説明図である。 本発明の第2実施例の第2変形例の動作説明図である。 従来の一例のブロック構成図である。 従来の一例の動作説明図である。
符号の説明
1 単語群抽出部
2 単語ペア生成部
3 単語置換部
10 文書校正装置
11 語彙抽出部
12 類似度検出部
13 単語置換部
14 正解単語辞書
15 類似度判定部
16 辞書検索部

Claims (4)

  1. テキスト中の構成単語を抽出する構成単語抽出部と、
    前記構成単語抽出部で抽出された抽出単語間の類似度を算出する単語間類似度算出部と、
    前記単語間類似度算出部で算出された類似度に応じて前記抽出単語を類似単語群に分類する単語分類部と、
    前記単語分類部で分類された類似単語群毎に正解単語を設定する正解単語設定部とを有することを特徴とする文章校正装置。
  2. 前記正解単語設定部は、前記単語分類部で分類された類似単語群のうち出現頻度が最も高い単語を前記正解単語として設定することを特徴とする請求項1記載の文章校正装置。
  3. 前記単語分類部は、前記抽出単語の統語的関係に応じて前記単語を分類することを特徴とする請求項1又は2記載の文章校正装置。
  4. 前記単語分類部は、同義語辞書を有し、前記抽出単語を該同義語辞書により同義語に変換し、同一の同義語を有する単語を同一の類似単語群に分類することを特徴とする請求項1又は2記載の文書校正装置。
JP2004334751A 2004-11-18 2004-11-18 文章校正装置 Pending JP2005050386A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004334751A JP2005050386A (ja) 2004-11-18 2004-11-18 文章校正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004334751A JP2005050386A (ja) 2004-11-18 2004-11-18 文章校正装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP27313895A Division JP4283898B2 (ja) 1995-10-20 1995-10-20 文章校正装置

Publications (1)

Publication Number Publication Date
JP2005050386A true JP2005050386A (ja) 2005-02-24

Family

ID=34270462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004334751A Pending JP2005050386A (ja) 2004-11-18 2004-11-18 文章校正装置

Country Status (1)

Country Link
JP (1) JP2005050386A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022177864A (ja) * 2021-05-19 2022-12-02 株式会社ミラセンシズ 検査装置、学習装置、検査方法、学習器の生産方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022177864A (ja) * 2021-05-19 2022-12-02 株式会社ミラセンシズ 検査装置、学習装置、検査方法、学習器の生産方法、およびプログラム
JP7429974B2 (ja) 2021-05-19 2024-02-09 株式会社ミラセンシズ 検査装置、学習装置、検査方法、学習器の生産方法、およびプログラム

Similar Documents

Publication Publication Date Title
Kissos et al. OCR error correction using character correction and feature-based word classification
Karimi et al. Machine transliteration survey
JP5356197B2 (ja) 単語意味関係抽出装置
US8606559B2 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
US20080059146A1 (en) Translation apparatus, translation method and translation program
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
Mishra et al. A survey of spelling error detection and correction techniques
US11537795B2 (en) Document processing device, document processing method, and document processing program
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Tufiş et al. DIAC+: A professional diacritics recovering system
Nehar et al. Rational kernels for Arabic root extraction and text classification
Sifat et al. Synthetic error dataset generation mimicking bengali writing pattern
Aziz et al. Urdu spell checker: A scarce resource language
Yang et al. Spell Checking for Chinese.
Kumar et al. Design and implementation of nlp-based spell checker for the tamil language
JP4283898B2 (ja) 文章校正装置
Alfonseca et al. German decompounding in a difficult corpus
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
Mohapatra et al. Spell checker for OCR
Anbananthen et al. Typographic error identification and correction in chatbot using n-gram overlapping approach
JP2005050386A (ja) 文章校正装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
Doermann et al. Translation lexicon acquisition from bilingual dictionaries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060530

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061017