JPH07225763A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH07225763A
JPH07225763A JP6016033A JP1603394A JPH07225763A JP H07225763 A JPH07225763 A JP H07225763A JP 6016033 A JP6016033 A JP 6016033A JP 1603394 A JP1603394 A JP 1603394A JP H07225763 A JPH07225763 A JP H07225763A
Authority
JP
Japan
Prior art keywords
character string
similarity
document
document processing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6016033A
Other languages
English (en)
Inventor
Etsuko Sato
悦子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6016033A priority Critical patent/JPH07225763A/ja
Publication of JPH07225763A publication Critical patent/JPH07225763A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明は、文書処理を実行する文書処理装置に
関し、誤り辞書を用いることなく、作成された文書に存
在する文字列の表記揺れや誤りを自動検出できるように
することを目的とする。 【構成】処理対象文書から文字列を抽出する抽出部10
と、抽出部10の抽出した文字列と、与えられたキー文
字列との間の類似度を評価し、指定される類似度よりも
高い類似度を示すキー文字列類似の文字列を特定する特
定部12と、特定部12の特定した文字列を出力する出
力部15とを備えるように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書処理を実行する文
書処理装置に関し、特に、誤り辞書を用いることなく、
作成された文書に存在する文字列の表記揺れや誤りを自
動検出できるようにする文書処理装置に関する。
【0002】ワードプロセッサ等で日本語文書等の文書
を作成していく場合、文書中に、文字列の表記揺れや誤
りが発生することは避けて通ることができない。これか
ら、作成された文書に存在する文字列の表記揺れや誤り
を自動検出する構成を構築していく必要がある。
【0003】
【従来の技術】従来の文書処理装置では、作成された文
書に存在する文字列の表記揺れや誤りについての修正
は、オペレータの手作業に委ねられているというのが実
情であった。すなわち、オペレータは、作成された文書
中に、「フロッピィ」と「フロッピー」とが混在すると
いったような文字列の表記揺れがあるか否かを手作業で
検出するとともに、「プログラム」が「ブログラム」と
綴られているような文字列の表記誤りがあるか否かを手
作業で検出して、それらの検出した文字列を修正してい
くという方法を採っていたのである。
【0004】しかしながら、このような方法では、文書
が大量になるに従って、オペレータに多大な労力を強い
るという問題点があった。このようなことを背景にし
て、最近では、文字列の表記揺れや誤りを登録した誤り
辞書を用意する構成を採って、その誤り辞書の登録文字
列と作成された文書とのマッチング処理を実行すること
で、作成された文書に存在する文字列の表記揺れや誤り
を自動的に検出するという方法が用いられるようになっ
てきた。
【0005】
【発明が解決しようとする課題】しかしながら、この誤
り辞書を用いる方法に従うと、確かに、作成された文書
に存在する文字列の表記揺れや誤りを自動的に検出でき
るようになるものの、誤り辞書に登録されていない文字
列の表記揺れや誤りについては検出できないという問題
点があった。
【0006】この問題点を解決するための1つの方法と
して、誤り辞書の登録データを多くしていくという方法
を採ることが考えられるが、そうすると、今度は、マッ
チング処理に時間がかかることで、文字列の表記揺れや
誤りの検出に時間がかかるという別の問題点が出てくる
ことになる。
【0007】本発明はかかる事情に鑑みてなされたもの
であって、誤り辞書を用いることなく、作成された文書
に存在する文字列の表記揺れや誤りを自動検出できるよ
うにする新たな文書処理装置の提供を目的とする。
【0008】
【課題を解決するための手段】図1に本発明の原理構成
を図示する。図中、1は本発明を具備する文書処理装
置、2は文書処理装置1の備える端末、3は文書処理装
置1の備える文書ファイル、4は文書処理装置1の備え
る抽出文字列ファイル、5は文書処理装置1の備える類
似度情報ファイル、6は文書処理装置1の備える出力フ
ァイルである。
【0009】文書処理装置1は、本発明を実現するため
に、抽出部10と、設定部11と、特定部12と、評価
部13と、分割部14と、出力部15とを備える。この
抽出部10は、処理対象となる文書から規定の条件を充
足する文字列を抽出する。設定部11は、対話処理に従
って、検出対象となる文字列の対象範囲及び出力形態を
設定する。特定部12は、抽出部10の抽出した文字列
の中から、設定部11の設定した対象範囲に属する文字
列を特定したり、指定されるキー文字列に類似する文字
列を特定したり、類似する文字列ペアを特定したり、類
似する文字列グループを特定したりする。
【0010】評価部13は、例えば特定部12に備えら
れて、文字列間の類似度を評価する。分割部14は、例
えば特定部12に備えられて、特定部12の特定した文
字列グループを更に分割する。出力部15は、設定部1
1の設定した出力形態に従って、特定部12の特定した
文字列や文字列ペアや文字列グループを出力する。
【0011】
【作用】本発明では、抽出部10は、文書ファイル3か
ら処理対象の文書を読み出して、この読み出した処理対
象の文書から規定の条件を充足する文字列を抽出し、更
に、この抽出した文字列が複数構成要素の文字列からな
るときには、その構成要素文字列についても抽出すると
ともに、これらの抽出した文字列の出現回数を計数し
て、それらの抽出情報(出現位置や文字種も含む)を抽
出文字列ファイル4に格納する。
【0012】例えば、処理対象の文書に含まれる名詞を
抽出するときには、処理対象の文書の中から、例えば、
「ひらがな及び区切り記号を含まず、かつ、同一又は異
なる文字種が続く一連の文字列」として定義される名詞
を抽出していくことで、処理対象の文書に含まれる名詞
を抽出するとともに、その抽出した名詞が異なる文字種
の名詞が連結する複合名詞である場合には、その複合名
詞を構成する同一文字種の名詞についても抽出していく
のである。そして、抽出した名詞の表記と、その出現回
数と、その出現位置と、その文字種とを抽出文字列ファ
イル4に格納するのである。
【0013】一方、設定部11は、端末2と対話するこ
とで、検出対象となる文字列の対象範囲及び出力形態を
設定する。例えば、英字のみの名詞を対象範囲とすると
か、漢字のみの名詞を対象範囲とするとか、全ての名詞
を対象範囲とするとかいうように検出対象となる文字列
の対象範囲を設定するとともに、例えば、出現回数の昇
順に出力するとか、類似度の高い順に出力するとかいう
ように検出対象となる文字列の出力形態を設定するので
ある。
【0014】このようにして、抽出文字列ファイル4に
抽出文字列が格納され、設定部11により文字列の対象
範囲及び出力形態が設定されると、特定部12は、端末
2から抽出文字列のリスト出力が指示されるときには、
抽出文字列ファイル4に格納される抽出文字列の中か
ら、設定部11の設定した対象範囲に属するものを特定
し、この特定結果を受けて、出力部15は、特定された
文字列を設定された出力形態に従って出力ファイル6に
出力する。
【0015】この特定部12の特定処理に従って、ユー
ザは、処理対象となる文書に含まれる文字列の表記揺れ
や誤りをチェックできるようになる。また、抽出文字列
ファイル4に抽出文字列が格納され、設定部11により
文字列の対象範囲及び出力形態が設定されるときにあっ
て、特定部12は、端末2からキー文字列に類似する文
字列のリスト出力が指示されるときには、抽出文字列フ
ァイル4に格納される抽出文字列の中から、設定部11
の設定した対象範囲に属するものを選択して、評価部1
3を使って、その選択した文字列と、与えられたキー文
字列との間の類似度を評価することで、その選択した文
字列の中から、指定される類似度よりも高い類似度を示
すキー文字列類似の文字列を特定し、この特定結果を受
けて、出力部15は、特定された文字列を設定された出
力形態に従って出力ファイル6に出力する。
【0016】ここで、特定部12は、最初に、抽出文字
列ファイル4に格納される抽出文字列の中から、キー文
字列類似の文字列を特定し、次に、そのキー文字列類似
の文字列の中から、設定部11の設定した対象範囲に属
するものを選択していく手順を採ることも可能である。
【0017】この特定部12の特定処理に従って、ユー
ザは、処理対象となる文書に含まれる文字列の表記揺れ
や誤りをチェックできるようになる。また、抽出文字列
ファイル4に抽出文字列が格納され、設定部11により
文字列の対象範囲及び出力形態が設定されるときにあっ
て、特定部12は、端末2から類似する文字列ペアのリ
スト出力が指示されるときには、抽出文字列ファイル4
に格納される抽出文字列の中から、設定部11の設定し
た対象範囲に属するものを選択して、評価部13を使っ
て、その選択した文字列間の類似度を評価することで、
その選択した文字列の中から、指定される類似度よりも
高い類似度を示す文字列ペアを特定し、この特定結果を
受けて、出力部15は、特定された文字列ペアを設定さ
れた出力形態に従って出力ファイル6に出力する。
【0018】ここで、特定部12は、最初に、抽出文字
列ファイル4に格納される抽出文字列の文字列間の類似
度を算出して類似度情報ファイル5に格納し、次に、そ
の類似度情報ファイル5の格納データを使って、設定部
11の設定した対象範囲に属し、かつ、指定される類似
度よりも高い類似度を示す文字列ペアを特定していく手
順を採ることも可能である。
【0019】この特定部12の特定処理に従って、ユー
ザは、処理対象となる文書に含まれる文字列の表記揺れ
や誤りをチェックできるようになる。また、抽出文字列
ファイル4に抽出文字列が格納され、設定部11により
文字列の対象範囲及び出力形態が設定されるときにあっ
て、特定部12は、端末2から類似する文字列グループ
のリスト出力が指示されるときには、抽出文字列ファイ
ル4に格納される抽出文字列の中から、設定部11の設
定した対象範囲に属するものを選択して、評価部13を
使って、その選択した文字列間の類似度を評価すること
で、その選択した文字列の中から、直接的あるいは間接
的に、指定される類似度よりも高い類似度でつながる文
字列グループを特定し、この特定結果を受けて、出力部
15は、特定された文字列グループを設定された出力形
態に従って出力ファイル6に出力する。
【0020】ここで、特定部12は、最初に、抽出文字
列ファイル4に格納される抽出文字列の文字列間の類似
度を算出して類似度情報ファイル5に格納し、次に、そ
の類似度情報ファイル5の格納データを使って、設定部
11の設定した対象範囲に属し、かつ、指定される類似
度よりも高い類似度でつながる文字列グループを特定し
ていく手順を採ることも可能である。
【0021】このとき、分割部14が備えられるときに
は、分割部14は、特定部12の特定した各文字列グル
ープを、更に、密な類似性を示す1つ又は複数の文字列
グループに分割し、この分割結果を受けて、出力部15
は、分割部14の分割した文字列グループを単位として
文字列グループを出力していく。
【0022】この特定部12の特定処理に従って、ユー
ザは、処理対象となる文書に含まれる文字列の表記揺れ
や誤りをチェックできるようになる。このようにして、
本発明の文書処理装置1によれば、誤り辞書を用いるこ
となく、作成された文書に存在する文字列の表記揺れや
誤りを自動検出できるようになるのである。
【0023】
【実施例】以下、実施例に従って本発明を詳細に説明す
る。図2に、本発明を具備する文書処理装置1の備える
プログラム構成の一実施例を図示する。図中、図1で説
明したものと同じものについては同一の記号で示してあ
る。
【0024】20は文書入力プログラムであって、端末
2から指定される処理文書を文書ファイル3から読み出
すもの、21は文字列抽出プログラムであって、文書入
力プログラム20の読み出した処理文書から規定の条件
を充足する文字列を抽出するもの、22は処理指定情報
設定プログラムであって、端末2と対話することで、検
出対象となる文字列の対象範囲や出力形態やキー文字列
等を設定するもの、23は出力情報作成プログラムであ
って、処理文書に含まれる文字列の表記揺れや誤りの検
出のために必要となる出力情報を作成して出力ファイル
6等に出力するものである。
【0025】この出力情報作成プログラム23は、出力
情報の作成処理のために、キー文字列類似リスト作成プ
ログラム24と、抽出文字列リスト作成プログラム25
と、類似ペアリスト作成プログラム26と、類似グルー
プリスト作成プログラム27とを展開する構成を採る。
【0026】このように構成される文書処理装置1は、
図3の処理フローに示すように、先ず最初に、ステップ
1で、文書入力プログラム20を起動することで、ユー
ザとの対話処理に従って処理文書の指定を実行し、次
に、ステップ2で、文書入力プログラム20の処理に従
って、指定された処理文書の読み込みを実行し、続い
て、ステップ3で、文字列抽出プログラム21を起動す
ることで、読み出した処理文書から規定の条件を充足す
る文字列の抽出を実行し、続いて、ステップ4で、処理
指定情報設定プログラム22を起動することで、ユーザ
との対話処理に従って処理指定情報の設定を実行し、続
いて、ステップ5で、出力情報作成プログラム23を起
動することで、処理文書に含まれる文字列の表記揺れや
誤りの検出のために必要となる出力情報の作成を実行
し、続いて、ステップ6で、出力情報作成プログラム2
3の処理に従って、作成した出力情報の出力を実行して
いくことになる。
【0027】次に、文字列抽出プログラム21、処理指
定情報設定プログラム22、出力情報作成プログラム2
3の実行する処理について詳細に説明する。文字列抽出
プログラム21は、読み出された処理文書から規定の条
件を充足する文字列を抽出するよう処理するものであっ
て、処理文書の中から、例えば、「ひらがな及び区切り
記号を含まず、かつ、同一又は異なる文字種が続く一連
の文字列、または、そのような一連の文字列が格助詞の
“の”で連結される文字列」として定義される名詞を抽
出していくときには、図4に示す処理フローに従って、
処理文書の中から、「ひらがな及び区切り記号を含ま
ず、かつ、同一文字種が続く一連の文字列」として定義
される名詞と、「ひらがな及び区切り記号を含まず、か
つ、異なる文字種が続く一連の文字列」として定義され
る名詞と、「ひらがな及び区切り記号を含まず、かつ、
同一又は異なる文字種が続く一連の文字列が格助詞の
“の”で連結される文字列」として定義される名詞とを
抽出していくことで、処理文書に含まれる名詞を抽出し
ていくよう処理するのである。
【0028】すなわち、「ひらがな及び区切り記号を含
まず、かつ、同じ文字種が続く一連の文字列」として名
詞を再定義するならば、文字列抽出プログラム21は、
図5に示すように、そのように定義される名詞と、その
ように定義される複数の名詞の連結表記として定義され
る複合名詞と、そのように定義される複数の名詞(複合
名詞)の格助詞“の”を介しての連結表記として定義さ
れる複合名詞に準ずるものとを、処理文書から抽出して
いくよう処理するのである。
【0029】この抽出処理に従って、文字列抽出プログ
ラム21は、処理文書中に「指定した文書フロッピーの
名前は、“ABCDEF”です。」という文書部分があ
ると、この文書部分から、図6に示すように、「指
定」、「文書フロッピーの名前」、「ABCDEF」、
「文書フロッピー」、「名前」、「文書」、「フロッピ
ー」という7個の文字列を抽出していくことになる。
【0030】文字列抽出プログラム21は、このように
して文字列を抽出すると、抽出した文字列の表記と、そ
の出現回数と、その出現位置と、その文字種とを抽出文
字列ファイル4に格納して処理を終了する。
【0031】一方、処理指定情報設定プログラム22
は、ユーザと対話することで、検出対象となる文字列の
対象範囲と、出力情報作成プログラム23の作成する出
力情報の種別と、この出力情報のソート形式(ソートの
キー項目と、昇順/降順の指定)とを設定するととも
に、キー文字列を必要とする出力情報種別が指定される
ときにはキー文字列を設定し、類似度評価を必要とする
出力情報種別が指定されるときには類似度の閾値を設定
する。
【0032】このとき設定する文字列の対象範囲とは、
文字列抽出プログラム21により図7(a)に示すよう
な名詞が抽出されるときには、全ての名詞を対象範囲と
するとか、複合名詞を対象範囲とするとか、英字のみの
名詞を対象範囲とするとかいうことを指示するものであ
る。
【0033】また、このとき設定する出力情報種別と
は、出力情報作成プログラム23の持つキー文字列類似
リスト作成プログラム24、抽出文字列リスト作成プロ
グラム25、類似ペアリスト作成プログラム26、類似
グループリスト作成プログラム27の内のどのプログラ
ムを起動していくのかということを指示するものであ
る。
【0034】すなわち、図7(b)に示すように、キー
文字列類似リスト作成プログラム24は、設定された対
象範囲に属する文字列抽出プログラム21の抽出文字列
の中から、指定されるキー文字列に類似する文字列を検
出しソートして出力情報を作成するプログラムであるの
で、ユーザは、この出力情報を要求するときには、この
出力情報種別を設定することになる。また、抽出文字列
リスト作成プログラム25は、設定された対象範囲に属
する文字列抽出プログラム21の抽出文字列をソートし
て出力情報を作成するプログラムであるので、ユーザ
は、この出力情報を要求するときには、この出力情報種
別を設定することになる。
【0035】また、類似ペアリスト作成プログラム26
は、設定された対象範囲に属する文字列抽出プログラム
21の抽出文字列に含まれる類似文字列ペアを検出しソ
ートして出力情報を作成するプログラムであるので、ユ
ーザは、この出力情報を要求するときには、この出力情
報種別を設定することになる。また、類似グループリス
ト作成プログラム27は、設定された対象範囲に属する
文字列抽出プログラム21の抽出文字列に含まれる類似
文字列グループを検出しソートして出力情報を作成する
プログラムであるので、ユーザは、この出力情報を要求
するときには、この出力情報種別を設定することにな
る。
【0036】従って、図7(b)中にも示すように、ユ
ーザは、キー文字列類似リスト作成プログラム24の作
成する出力情報種別を設定するときには、合わせてキー
文字列を設定していく必要があり、また、キー文字列類
似リスト作成プログラム24/類似ペアリスト作成プロ
グラム26/類似グループリスト作成プログラム27の
作成する出力情報種別を設定するときには、合わせて類
似度の閾値を設定していく必要がある。
【0037】次に、出力情報作成プログラム23の実行
する処理について説明する。図8ないし図14に、出力
情報作成プログラム23の実行する処理フローの一実施
例を図示する。
【0038】出力情報作成プログラム23は、ユーザか
ら出力情報の作成要求があると、図8の処理フローに示
すように、先ず最初に、ステップ1で、抽出文字列ファ
イル4に格納される文字列の中から、処理指定情報設定
プログラム22の設定した対象範囲に属する文字列を特
定して、その特定した文字列を読み込む。例えば、文字
列抽出プログラム21が処理文書に含まれる名詞を抽出
するときにあって、処理指定情報設定プログラム22が
処理文書に含まれる全ての名詞を対象範囲と設定すると
きには、抽出文字列ファイル4に格納される全ての名詞
を読み込むのである。
【0039】次に、ステップ2で、処理指定情報設定プ
ログラム22の設定した出力情報種別が、キー文字列類
似リスト作成プログラム24の起動を指示するものであ
るのか否かを判断して、起動指示を判断するときには、
ステップ3に進んで、キー文字列類似リスト作成プログ
ラム24の起動をする。
【0040】このようにして起動されると、キー文字列
類似リスト作成プログラム24は、図9の処理フローに
示すように、先ず最初に、処理指定情報設定プログラム
22の設定したキー文字列と、ステップ1で読み込んだ
全ての文字列との間の類似度を算出し、続いて、この算
出した類似度の中で、処理指定情報設定プログラム22
の設定した類似度閾値を超えるものを特定することで、
キー文字列に類似する文字列を特定し、続いて、この特
定した文字列を処理指定情報設定プログラム22の設定
したソート形式に従ってソートすることで、図15に示
すような出力情報を作成する。
【0041】一方、図8の処理フローのステップ2で、
処理指定情報設定プログラム22の設定した出力情報種
別が、キー文字列類似リスト作成プログラム24の起動
を指示しないものであることを判断するときには、ステ
ップ4に進んで、処理指定情報設定プログラム22の設
定した出力情報種別が、類似ペアリスト作成プログラム
26/類似グループリスト作成プログラム27の起動を
指示するものであるか否かを判断して、これらの起動を
指示しないことを判断するとき、すなわち、抽出文字列
リスト作成プログラム25の起動を指示することを判断
するときには、ステップ5に進んで、抽出文字列リスト
作成プログラム25を起動する。
【0042】このようにして起動されると、抽出文字列
リスト作成プログラム25は、図10の処理フローに示
すように、ステップ1で読み込んだ文字列を処理指定情
報設定プログラム22の設定したソート形式に従ってソ
ートすることで、図16に示すような出力情報を作成す
る。
【0043】一方、図8の処理フローのステップ4で、
処理指定情報設定プログラム22の設定した出力情報種
別が、類似ペアリスト作成プログラム26/類似グルー
プリスト作成プログラム27の起動を指示することを判
断するときには、ステップ6に進んで、処理指定情報設
定プログラム22の設定した出力情報種別が、類似グル
ープリスト作成プログラム27の起動を指示するもので
あるか否かを判断して、この起動を指示しないことを判
断するとき、すなわち、類似ペアリスト作成プログラム
26の起動を指示することを判断するときには、ステッ
プ7に進んで、類似ペアリスト作成プログラム26を起
動する。
【0044】このようにして起動されると、類似ペアリ
スト作成プログラム26は、図11の処理フローに示す
ように、ステップ1で読み込んだ全ての文字列の組み合
わせについての類似度が既に算出されて類似度情報ファ
イル5に格納されているか否かを判断して、格納されて
いることを判断するときには、類似度情報ファイル5か
ら類似度を読み出し、格納されていないことを判断する
ときには、その類似度を算出(類似度情報ファイル5に
も格納する)する。続いて、このようにして得た類似度
の中で、処理指定情報設定プログラム22の設定した類
似度閾値を超えるものを特定することで、類似する文字
列ペアを特定し、続いて、この特定した文字列ペアを処
理指定情報設定プログラム22の設定したソート形式に
従ってソートすることで、図17に示すような出力情報
を作成する。
【0045】一方、図8の処理フローのステップ6で、
処理指定情報設定プログラム22の設定した出力情報種
別が、類似グループリスト作成プログラム27の起動を
指示することを判断するときには、ステップ8に進ん
で、類似グループリスト作成プログラム27を起動す
る。
【0046】このようにして起動されると、類似グルー
プリスト作成プログラム27は、図12の処理フローに
示すように、ステップ1で読み込んだ全ての文字列の組
み合わせについての類似度が既に算出されて類似度情報
ファイル5に格納されているか否かを判断して、格納さ
れていることを判断するときには、類似度情報ファイル
5から類似度を読み出し、格納されていないことを判断
するときには、その類似度を算出(類似度情報ファイル
5にも格納する)する。続いて、このようにして得た類
似度に従って、ステップ1で読み込んだ文字列に対して
第1のグルーピング処理を実行することで、その読み込
んだ文字列を大グループに分割し、続いて、この得た類
似度に従って、この求めた大グループに対して第2のグ
ルーピング処理を実行することで、各大グループを更に
小グループに分割することで、図18に示すような出力
情報を作成する。
【0047】このとき実行される第1のグルーピング処
理は、具体的には、図13の処理フローに従って実行さ
れるものであって、文字列A1〜Anが同じ類似グルー
プに属し、文字列B1〜Bmが同じグループに属すると
きにあって、前者の類似グループAに属する文字列Ai
と、後者の類似グループBに属する文字列Bjとの間の
類似度が閾値以上であることで類似関係にあるときに
は、類似度グループAと類似グループBとをマージして
新たな類似グループCを生成していくことで実行される
ものである。
【0048】また、このとき実行される第2のグルーピ
ング処理は、具体的には、図14の処理フローに従って
実行されるものであって、大グループの文字列の中で類
似度が最大を示す最大文字列ペアを特定して、最大類似
度の相手先がその最大文字列ペアとなる文字列をまとめ
ていくことで実行されるものである。
【0049】このようにして、図8の処理フローのステ
ップ3/ステップ5/ステップ7/ステップ8で出力情
報を作成すると、ステップ9に進んで、その作成した出
力情報をディスプレイ画面等に出力していくともに、出
力ファイル6に格納していくことで処理を終了する。
【0050】この出力される出力情報に従って、ユーザ
は、処理対象となる文書に含まれる文字列の表記揺れや
誤りをチェックできるようになる。そして、本発明の文
書処理装置1では、ユーザから要求があると、抽出ファ
イル4/出力ファイル6の格納情報を使って、図19に
示すように、出力情報に記録される文字列(図19の例
では「ブログラム」)の位置する原文書部分を出力して
いくことになる。
【0051】図8の処理フローで説明したように、キー
文字列類似リスト作成プログラム24/類似ペアリスト
作成プログラム26/類似グループリスト作成プログラ
ム27が起動されると、文字列間の類似度を算出してい
く処理を実行していくことになるが、この類似度の算出
処理は、例えば、最長共通部分列の長さ(角田博保:フ
ァイル間の相違検査法,情報処理,Vol.24,No.4,pp.514-
520(1983))を利用することで実行されることになる。
【0052】すなわち、最長共通部分列の長さ(LCS
長)は、図20(a)に示すように、順序が変わらない
ことを条件にして、2つの文字列の間での最も長い共通
部分列の長さとして定義されるものであることから、こ
れを使い、
【0053】
【数1】
【0054】に従って、図20(b)に示すように、2
つの文字列の間の類似度を算出していくことで実行する
のである。図示実施例について説明したが、本発明はこ
れに限定されるものではない。例えば、実施例で開示し
た抽出対象となる名詞の定義はあくまで一例であって、
本発明はこれに限られるものではない。また、実施例で
は、名詞を抽出対象としたが、本発明はこれに限られる
ものでもない。
【0055】
【発明の効果】以上説明したように、本発明によれば、
従来技術で必要とした誤り辞書を用いることなく、作成
された文書に存在する文字列の表記揺れや誤りを自動検
出できるようになる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例である。
【図3】本発明の実行する処理の全体構成図である。
【図4】文字列抽出プログラムの実行する処理フローの
一実施例である。
【図5】文字列抽出プログラムの抽出対象の一例であ
る。
【図6】文字列抽出プログラムの抽出処理の一例であ
る。
【図7】処理指定情報の説明図である。
【図8】出力情報作成プログラムの実行する処理フロー
の一実施例である。
【図9】キー文字列類似リスト作成プログラムの実行す
る処理フローである。
【図10】抽出文字列リスト作成プログラムの実行する
処理フローである。
【図11】類似ペアリスト作成プログラムの実行する処
理フローである。
【図12】類似グループリスト作成プログラムの実行す
る処理フローである。
【図13】類似グループリスト作成プログラムの実行す
る処理フローである。
【図14】類似グループリスト作成プログラムの実行す
る処理フローである。
【図15】キー文字列類似リスト作成プログラムの作成
する出力情報の一実施例である。
【図16】抽出文字列リスト作成プログラムの作成する
出力情報の一実施例である。
【図17】類似ペアリスト作成プログラムの作成する出
力情報の一実施例である。
【図18】類似グループリスト作成プログラムの作成す
る出力情報の一実施例である。
【図19】出力データの一実施例である。
【図20】類似度算出処理の一実施例である。
【符号の説明】
1 文書処理装置 2 端末 3 文書ファイル 4 抽出文字列ファイル 5 類似度情報ファイル 6 出力ファイル 10 抽出部 11 設定部 12 特定部 13 評価部 14 分割部 15 出力部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文書処理を実行する文書処理装置におい
    て、 処理対象となる文書から文字列を抽出する抽出部(10)
    と、 上記抽出部(10)の抽出した文字列の中から、指定される
    対象範囲に属するものを特定する特定部(12)と、 上記特定部(12)の特定した文字列を出力する出力部(15)
    とを備えることを、 特徴とする文書処理装置。
  2. 【請求項2】 文書処理を実行する文書処理装置におい
    て、 処理対象となる文書から文字列を抽出する抽出部(10)
    と、 上記抽出部(10)の抽出した文字列と、与えられたキー文
    字列との間の類似度を評価し、指定される類似度よりも
    高い類似度を示すキー文字列類似の文字列を特定する特
    定部(12)と、 上記特定部(12)の特定した文字列を出力する出力部(15)
    とを備えることを、 特徴とする文書処理装置。
  3. 【請求項3】 文書処理を実行する文書処理装置におい
    て、 処理対象となる文書から文字列を抽出する抽出部(10)
    と、 上記抽出部(10)の抽出した文字列の文字列間の類似度を
    評価し、指定される類似度よりも高い類似度を示す文字
    列ペアを特定する特定部(12)と、 上記特定部(12)の特定した文字列ペアを出力する出力部
    (15)とを備えることを、 特徴とする文書処理装置。
  4. 【請求項4】 文書処理を実行する文書処理装置におい
    て、 処理対象となる文書から文字列を抽出する抽出部(10)
    と、 上記抽出部(10)の抽出した文字列の文字列間の類似度を
    評価し、直接的あるいは間接的に、指定される類似度よ
    りも高い類似度でつながる文字列グループを特定する特
    定部(12)と、 上記特定部(12)の特定した文字列グループを出力する出
    力部(15)とを備えることを、 特徴とする文書処理装置。
  5. 【請求項5】 請求項4記載の文書処理装置において、 特定部(12)の特定した各文字列グループを、更に、密な
    類似性を示す1つ又は複数の文字列グループに分割する
    分割部(14)を備え、 かつ、出力部(15)は、上記分割部(14)の分割した文字列
    グループを単位として文字列グループを出力していくよ
    う処理することを、 特徴とする文書処理装置。
  6. 【請求項6】 請求項1、2、3、4又は5記載の文書
    処理装置において、 抽出部(10)は、抽出した文字列が複数構成要素の文字列
    からなるときには、該構成要素文字列についても抽出し
    ていくよう処理することを、 特徴とする文書処理装置。
  7. 【請求項7】 請求項1、2、3、4、5又は6記載の
    文書処理装置において、 出力部(15)は、出力対象となる文字列の位置する原文書
    部分を出力していくよう処理することを、 特徴とする文書処理装置。
JP6016033A 1994-02-10 1994-02-10 文書処理装置 Pending JPH07225763A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6016033A JPH07225763A (ja) 1994-02-10 1994-02-10 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6016033A JPH07225763A (ja) 1994-02-10 1994-02-10 文書処理装置

Publications (1)

Publication Number Publication Date
JPH07225763A true JPH07225763A (ja) 1995-08-22

Family

ID=11905268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6016033A Pending JPH07225763A (ja) 1994-02-10 1994-02-10 文書処理装置

Country Status (1)

Country Link
JP (1) JPH07225763A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012169128A1 (ja) * 2011-06-08 2012-12-13 株式会社 東芝 表記ゆれ検出装置及び表記ゆれ検出プログラム
JP2018036744A (ja) * 2016-08-30 2018-03-08 株式会社パスコ 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012169128A1 (ja) * 2011-06-08 2012-12-13 株式会社 東芝 表記ゆれ検出装置及び表記ゆれ検出プログラム
JP2012256197A (ja) * 2011-06-08 2012-12-27 Toshiba Corp 表記ゆれ検出装置及び表記ゆれ検出プログラム
CN103080937A (zh) * 2011-06-08 2013-05-01 株式会社东芝 表述不一致检测装置及表述不一致检测程序
US9128923B2 (en) 2011-06-08 2015-09-08 Kabushiki Kaisha Toshiba Orthographical variant detection apparatus and orthographical variant detection method
JP2018036744A (ja) * 2016-08-30 2018-03-08 株式会社パスコ 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
JP4114600B2 (ja) 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
JPH07225763A (ja) 文書処理装置
WO2018077059A1 (zh) 一种条形码的识别方法和装置
JP3534471B2 (ja) マージソート方法及びマージソート装置
JP3253657B2 (ja) 文書検索方法
WO2021051600A1 (zh) 基于信息熵识别新词的方法、装置、设备及存储介质
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH0619962A (ja) テキスト分割装置
JP3188154B2 (ja) 文字認識処理方法
JP3955410B2 (ja) 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体
CN110175234B (zh) 未登录词识别方法、装置、计算机设备及存储介质
KR20050054713A (ko) 문자 군집화 기술 기반 문서의 디지털화 검증 시스템 및방법
JPH0743728B2 (ja) 要約文生成方式
JP3115459B2 (ja) 文字認識辞書の構成方法及び検索方法
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3166995B2 (ja) コメント付与方法及び文書処理装置
JP2918380B2 (ja) 文字認識結果の後処理方法
WO2017126057A1 (ja) 情報検索方法
JPH0795337B2 (ja) 単語認識方式
JP2874199B2 (ja) 単語辞書照合装置
JP2503259B2 (ja) 全角,半角文字の決定方法
JP2900628B2 (ja) 辞書検索装置
JP3657680B2 (ja) 名標検索装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051005

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051110

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20051228

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080118

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080118

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080118