JP2005050386A

JP2005050386A - 文章校正装置

Info

Publication number: JP2005050386A
Application number: JP2004334751A
Authority: JP
Inventors: Jun Ibuki; 潤伊吹; Kunio Matsui; くにお松井; Manabu Satsusano; 学颯々野; Tomoya Ogawa; 知也小川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-11-18
Filing date: 2004-11-18
Publication date: 2005-02-24

Abstract

【課題】誤って入力された文字列を正しい文字列に校正する文章校正装置に関し、誤った単語の校正を効率よく行える文章校正装置を提供することを目的とする。
【解決手段】テキスト中の構成単語を抽出する構成単語抽出部と、構成単語抽出部で抽出された抽出単語間の類似度を算出する単語間類似度算出部と、単語間類似度算出部で算出された類似度に応じて前記抽出単語を類似単語群に分類する単語分類部と、単語分類部で分類された類似単語群毎に正解単語を設定する正解単語設定部とを有することを特徴とする。
【選択図】図２

Description

本発明は、文章校正装置に係わり、特に、誤って入力された文字列を正しい文字列に校正する文章校正装置に関する。

近年、ワードプロセッサなどの文章処理装置には、誤って入力された文字列を正しい文字列に訂正するいわゆる文章校正機能を有するものがある。このような、文章校正機能には、表記の僅かな違いのある単語群や同義語を自動的に標準化してユーザの行うテキストの校正作業を能率化したり類義語の情報をテキスト・辞書などから自動的に獲得した文章データに対して、誤って入力された文字列を正しい文字列に自動的に訂正することにより文章校正作業の効率を大幅に向上させることが望まれている。

図１２に従来の一例のブロック図を示す。従来の文書校正装置は、入力単語の形態素解析を行う形態解析部５１、誤った表記の単語に対して正しい表記の単語を対応させる単語辞書５２、形態素解析部５１で得られた単語をアドレスとして正しい単語に変換する単語変換部５３より構成される。

しかるに、従来の文章校正装置では、正しい単語に対して誤った表記の単語を予め辞書に登録しておくことにより正しい単語の指示を行っていたため、辞書に登録されていない、誤った単語に対しては、正しい単語を指示できず、また、誤りやすいすべての単語を登録しておくには辞書の容量を大きくする必要がある等の問題点があった。

本発明は、テキスト中の構成単語を抽出する構成単語抽出部と、前記構成単語抽出部で抽出された抽出単語間の類似度を算出する単語間類似度算出部と、前記単語間類似度算出部で算出された類似度に応じて前記抽出単語をカテゴリに分類する単語分類部と、前記単語分類部で分類されたカテゴリ毎に正解単語を設定する正解単語設定部とを有することを特徴とする。

本発明によれば、単語間類似度算出部により抽出された単語間の類似度を算出し、算出された類似度に応じて互いに類似する単語を単語群に分類し、分類された単語群のなかの単語から正解単語を設定することにより、正解単語辞書を持つ必要がないため、装置の構成を簡単にできる。

上述の如く、本発明によれば、単語間類似度算出部により抽出された単語間の類似度を算出し、算出された類似度に応じて互いに類似する単語を単語群に分類し、分類された単語群のなかの単語から正解単語を設定することにより、正解単語辞書を持つ必要がないため、装置の構成を簡単にできる等の特長を有する。

図２に本発明の第１実施例のブロック構成図を示す。本実施例の文章校正装置１０は、請求項１の実施例に相当しており、テキストから語彙を抽出する語彙抽出部１１、語彙抽出部１１で抽出された単語の類似単語と正解単語とのペアを生成する類似単語検出部１２、テキスト及び類似単語検出部１２で生成された単語ペアが供給され、テキスト中の類似単語を正解単語に置換する単語置換部１３より構成される。

図３に本発明の第１実施例の動作説明図を示す。語彙抽出部１１は、入力テキストを形態素解析し、単語を抽出する。例えば、図３（Ａ）に示されるように「シミュレイションを行う。」と言うテキストが入力されると、図３（Ｂ）に示されるように「シミュレイション」、「を」、「行う」、「。」に分解する。語彙抽出部１１で抽出された単語は、類似単語検出部１２に供給される。

類似単語検出部１２は、正解単語を格納した正解単語辞書１４、語彙抽出部１１で抽出された単語と、正解単語辞書１４中の正解単語との類似度を求め互いに類似する抽出単語と正解単語との単語ペアを生成する類似度判定部１５、語彙抽出部１１で抽出された抽出単語に類似する正解単語を単語辞書１４から検索する辞書検索部１６より構成される。正解単語辞書１４には、正しい表記の単語が予め格納されている。

類似度判定部１５には、語彙抽出部１１で抽出された抽出単語及び辞書検索部１６で検索された検索単語が供給され、抽出単語と検索単語との非類似度を算出し、非類似度が最も小さい抽出単語と正解単語との単語ペアを生成する。非類似度は、抽出単語と正解単語との距離に相当する。単語間の距離は、予め与えられたルールにより決定される。ルールは、例えば、図３（Ｃ）に示されるように「レイ」と「レー」、「タ」と「ター」、「フェイ」と「フェー」の距離が「１」、「タ」と「タ」、「イ」と「イ」の距離が「０」となるように測定を行う例えば、図３（Ｂ）に示されるように語彙抽出部１１で抽出単語として「シミュレイション」という単語が抽出されたとすると抽出単語「シュミレイション」と１文字違い、つまり、非類似度が「１」で互いに類似と判断される予め設定された所定の類似度「４」より小さく、かつ、最も小さい正解単語「シュミレーション」と単語ペアを生成し、単語置換部１３に供給する。

単語置換部１３には、類似度判定部１５より単語ペアが供給されると共にテキストが供給され、類似度判定部１５で生成された単語ペアの抽出単語に対応するテキストの単語を単語ペアの正解単語に変換する。図４に本発明の第１実施例の動作説明図を示す。ここでは、図４（Ａ）に示されるように原テキストとして「インターフェイス部の速度性能の向上を図るために新たなＣＰＵを搭載しており、又グラフィック・インターフェイスの採用によって先進のユーザ・インターフェースを手に入れています。」という文書が供給されると、図４（Ｄ）に示されるように「ＣＰＵ」、「インターフェイス」、「インターフェース」などの単語に分解される。分解された単語には出現頻度が付与される。「ＣＰＵ」の出現頻度は「１」、「インターフェイス」の出現頻度は「２」、「インターフェース」の出現頻度は「１」となる。

また、正解単語辞書１４には、図４（Ｂ）に示されるように正解単語として「インタフェース」が登録されていたとすると図４（Ｅ）に示されるように抽出された「インターフェイス」及び「インターフェース」は、距離の小さい正解単語辞書１４の「インタフェイス」を正解単語する。このため、図４（Ａ）に示される文書は図４（Ｆ）に示すように「インタフェース部の速度性能の向上を・・・ユーザ・インタフェースを手に入れています。」のように校正される。

以上、本実施例によれば、単語辞書１４には正解単語のみを記憶すればよいため、単語辞書の容量を減少させることが出来る。また、単語ペアを生成し、抽出単語と、正解単語とを比較できるため、単語の比較検討が行える。図５に本発明の第１実施例の変形例の動作説明図を示す。

本変形例は、請求項２の実施例に相当し、文字単位のマッチングを行う際に文字の完全一致のみでなく文字の構成要素による得点付け（類似度の算出）を行い、付与された得点に応じて正解となる単語を求めるものである。得点付けは、文字の全体構成型（偏傍型等）、「偏」の構成、「傍」の構成等の一致・不一致を比較し、一致なら「１」、不一致なら「０」を得点として付与することで実現される。

例えば、「観光」と「勧光」という文字が入力された場合、「光」が一致しているので、マッチングの候補として上げられる。次に、異なる文字である「観」と「勧」との比較が行われる。文字の比較は、「観」の全体構成の型である偏傍型と、「勧」の全体構成型である偏傍型とを比較することにより行われる。ここでは、同一の型であるため、「１」が付与される。また、「偏」の構成の「かん」が同一であるため、「１」が付与される。さらに、「傍」の構成の「見」と、「力」とは互いに異なるため、「０」が付与される。ここで、付与された得点を加算し、総得点を算出する。

算出された総得点は、予め設定された、類似と判断しうる所定の得点と比較され、算出された総得点が例えば、「２」以上のときには、互いに同一の文字であると判断する。上記、「観」と「勧」では、総得点は「２」であるため、互いに同一であると判断される。したがって、「観光」と「勧光」とが一致するものとして判別される。

図６に本発明の第２実施例のブロック構成図を示す。同図中、図１と同一構成部分には同一符号を付し、その説明は省略する。本実施例は、請求項３、４の実施例に相当し、図２に示す第１実施例とは、類似単語検出部２２の構成が異なる。本実施例の類似単語検出部２２は、語彙抽出部１１で抽出された単語をカテゴリ化するカテゴリ化部２３、カテゴリ化部２３でカテゴリ化された単語群より正解単語を判定する正解単語判定部２４より構成される。

図７に本発明の第２実施例のカテゴリ化部のブロック構成図を示す。カテゴリ化部２３は、語彙抽出部１１で抽出された単語のペアを生成する単語ペア生成部２５、単語ペア生成部２５で生成された単語ペアのうち非類似度が所定の値より高い単語ペアを判定する類似度判定部２６、類似度判定部２６で判定された単語ペアをグループ化するグループ化処理部２７より構成される。

類似度判定部２６は、単語ペア生成部２５で生成された単語ペアの同一文字を非類似度「０」、異なる文字数、及び、同一の文字間の距離に応じて非類似度が増加するように非類似度を設定し、設定された非類似度が所定値より小さい、つまり、類似度が所定値より高いときに単語ペア生成部２５で生成された単語ペアを互いに類似した単語ペアとして判定する。

図８に本発明の第２実施例のカテゴリ化部の動作説明図を示す。語彙抽出部１１で「インターフェース」及び「インタフェイス」が抽出され、単語ペア生成部２５で単語ペアとされた場合、類似度判定部２６では、まず、「インターフェース」と、「インタフェイス」とで、互いに異なる文字である「ー」と、「ー」及び「イ」の２つの相違に相当する「２」を非類似度とする。次に、類似度判定部２６は、求められた非類似度「２」が、予め設定された非類似度より小さいか否かを判断する。非類似度は、互いに類似する単語間の距離を示し、同一の単語であると判断する距離が設定される。ここでは、例えば、非類似度が「４」以下を互いに類似する単語として判別するものとする。

類似度判定部２６は、単語ペア生成部２５で生成された単語ペアの非類似度が「４」以下で、互いに類似する単語として判断すると類似すると判断した単語ペアをグループ化処理部２７に供給する。グループ化処理部２７は、類似度判定部２６で類似と判断された単語を同一のグループとしてグループ化する。したがって、「インターフェース」と「インタフェイス」とは同一のグループとしてグループ化される。

グループ化処理部２７でグループ化された単語群は正解単語判定部２４に供給される。正解単語部２４ではグループ化処理部２７から供給された単語群から出現頻度の最も多い単語を正解単語とする。正解単語判定部２４で判定された正解単語は正解単語が含まれる単語群とセットで単語置換部１３に供給される。

単語置換部１３にはテキストが供給されると共に、正解単語判定部２４から正解単語が供給され、テキスト中の正解単語と同一の単語群に含まれる単語を正解単語に変換する。図９に本発明の第２実施例の動作説明図を示す。図９（Ａ）に示すようなテキストが入力され、図９（Ｂ）に示すように単語に分解された場合、図９（Ｃ）に示されるように類似度が所定値以下の「インターフェイス」と「インターフェース」とが同一のカテゴリに分類される。このとき、「インターフェイス」の出現頻度は「２」、「インターフェース」の出現頻度は「１」であるため、出現頻度の高い「インターフェイス」が正解単語とされる。

このため、図４（Ａ）に示されるテキストは、図９（Ｂ）に示されるように「インターフェイス部の速度性能の・・・ユーザ・インターフェイスを手に入れています。」に校正する。以上のように本実施例によれば、テキスト中の互いに類似し、異なる文字列を持つ単語をそのなかで最も多く出現する単語で置換することによりテキストの校正を行うため、単語辞書が不要になる。

図１０に本発明の第２実施例の第１変形例の動作説明図を示す。本変形例は、請求項５の実施例に相当しており、ここでは、図１０（Ａ）に示されるような「ダンプ関数は内部テーブル項目を・・・一部実行されないことがある。」というテキストが供給されるものとする。本実施例では、図１０（Ｂ）に示されるように上記テキストで互いに「主語」、「述語」のようにかかり受けを持つ単語を抽出する。

例えば、「ダンプ関数」、「プログラム」は「書き出す」の「主語」となっている。また、「内部テーブル項目」、「データ」は、「書き出す」の「述語」となっている。したがって、主語と述語とによりカテゴリ化を行えば、図１０（Ｃ）に示すように「ダンプ関数」と「プログラム」とが、「主語」という同一のカテゴリとしてカテゴリ化され、図１０（Ｄ）に示すように「内部テーブル項目」と「データ」とが、「述語」という同一のカテゴリとしてカテゴリ化される。このように、単語同士の統語的関係（例えば、主語と述語）を抽出し、カテゴリ化することにより、異なる表記の単語の校正も可能となり、例えば、図１０（Ａ）に示されるテキストは、図１０（Ｅ）に示されるように校正される。

図１１に本発明の第２実施例の第２変形例の動作説明図を示す。本変形例は、請求項６の実施例に相当する。本変形例では、単語辞書として訳語辞書を有し、訳語辞書に図１１（Ｂ）に示すように「機械翻訳」に対して「ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ」、「計算機」に対して「ｃｏｍｐｕｔｅｒ」などのように原語と訳語の関係を記述しておき、訳語が同一のものを同一のカテゴリとする。

本発明の原理図である。本発明の第１実施例のブロック構成図である。本発明の第１実施例の語彙抽出部の動作説明図である。本発明の第１実施例の動作説明図である。本発明の第１実施例の変形例の動作説明図である。本発明の第２実施例のブロック構成図である。本発明の第２実施例のカテゴリ化部のブロック構成図である。本発明の第２実施例のカテゴリ化部の動作説明図である。本発明の第２実施例の動作説明図である。本発明の第２実施例の第１変形例の動作説明図である。本発明の第２実施例の第２変形例の動作説明図である。従来の一例のブロック構成図である。従来の一例の動作説明図である。

符号の説明

１単語群抽出部
２単語ペア生成部
３単語置換部
１０文書校正装置
１１語彙抽出部
１２類似度検出部
１３単語置換部
１４正解単語辞書
１５類似度判定部
１６辞書検索部

Claims

テキスト中の構成単語を抽出する構成単語抽出部と、
前記構成単語抽出部で抽出された抽出単語間の類似度を算出する単語間類似度算出部と、
前記単語間類似度算出部で算出された類似度に応じて前記抽出単語を類似単語群に分類する単語分類部と、
前記単語分類部で分類された類似単語群毎に正解単語を設定する正解単語設定部とを有することを特徴とする文章校正装置。
前記正解単語設定部は、前記単語分類部で分類された類似単語群のうち出現頻度が最も高い単語を前記正解単語として設定することを特徴とする請求項１記載の文章校正装置。
前記単語分類部は、前記抽出単語の統語的関係に応じて前記単語を分類することを特徴とする請求項１又は２記載の文章校正装置。
前記単語分類部は、同義語辞書を有し、前記抽出単語を該同義語辞書により同義語に変換し、同一の同義語を有する単語を同一の類似単語群に分類することを特徴とする請求項１又は２記載の文書校正装置。