JP2001265773A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JP2001265773A
JP2001265773A JP2000073807A JP2000073807A JP2001265773A JP 2001265773 A JP2001265773 A JP 2001265773A JP 2000073807 A JP2000073807 A JP 2000073807A JP 2000073807 A JP2000073807 A JP 2000073807A JP 2001265773 A JP2001265773 A JP 2001265773A
Authority
JP
Japan
Prior art keywords
document
structured
character
information
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000073807A
Other languages
English (en)
Other versions
JP3719089B2 (ja
Inventor
Osamu Katayama
修 片山
Takamasa Koyama
隆正 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000073807A priority Critical patent/JP3719089B2/ja
Publication of JP2001265773A publication Critical patent/JP2001265773A/ja
Application granted granted Critical
Publication of JP3719089B2 publication Critical patent/JP3719089B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 構造化文書の構造を処理するため従来は、構
造化文書の構造にビットを対応させており、構造の繰り
返しや階層の深さなどによる構造の大きさに制限を受け
てしまう。また、論理構造と文字を別々に管理する方法
においては、管理が分離しているため処理に無駄が生じ
る恐れがある。本発明は従来技術の以上のような問題を
解決し、構造化文書の検索において検索条件に要素指定
の構造化検索と要素内容における文字列検索を効率よく
行うことが可能となる。 【解決手段】 本発明は、構造化情報として、要素を識
別する要素ID、構造化文書における要素の位置を特定
する情報と、各要素の範囲および各要素間の位置関係を
示す情報を格納する手段と、各要素に出現する文字列の
位置情報を格納する手段を備え、これらの2つの情報を
要素の位置情報で連結または結合し1つの索引情報とし
て処理することにより、上記目的を達成するものであ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検索、情報処
理分野における構造化文書の登録検索に利用されるもの
で、構造化文書の検索情報を構造化情報と文字位置情報
に分け、これらの情報を別々に、または同時に処理を行
い、登録検索処理する文書処理装置に関する。
【0002】
【発明が解決しようとする課題】文書情報処理分野にお
ける構造化文書の登録検索に利用される文書処理装置に
関して従来行われている登録および検索の方法として
は、特開平8−329116号のように構造単位にビッ
トを立てる方法、特開平10−143511号のように
タグをもとに領域を分割する方法、特開平6−2667
64号のように構造と単語を別々に管理する方法があ
る。
【0003】たとえば、特開平8−329116号で
は、構造単位にビットを立て、文字索引ファイルに構造
化情報を埋め込むことが可能である。また、特開平10
−143511号では、タグの情報のみを扱うため索引
情報の格納が簡単にすることが可能となる。また、特開
平6−266764号では、構造と単語の検索を別々に
行うことによりそれぞれの処理の効率化が図れる。
【0004】しかし、以上のような方法においては、た
とえば、特開平8−329116号では、構造化文書の
構造にビットを対応させており、構造の繰り返しや階層
の深さなどによる構造の大きさに制限を受けてしまう。
たとえば、対応ビット列が8ビットの場合は8階層まで
の構造化文書というようにである。また、特開平10−
143511号では、構造化情報がタグの情報のみであ
るためタグ示す要素の文書構造における位置や各要素間
の前後関係などの情報が欠落しており、他の方法で補う
必要がある。また、特開平6−266764号では、管
理が分離しているため処理に無駄が生じる恐れがある。
【0005】本発明は従来技術の以上のような問題を解
決し、構造化文書の検索において検索条件に要素指定の
構造化検索と要素内容における文字列検索を効率よく行
うことが可能となる文書処理装置を提供することにあ
る。
【0006】
【課題を解決するための手段】本発明は、上記の課題を
解決するための第1の方法として、構造化情報として、
要素を識別する要素ID、構造化文書における要素の位
置を特定する情報と、各要素の範囲および各要素間の位
置関係を示す情報を格納する手段と、各要素に出現する
文字列の位置情報を格納する手段を備え、これらの2つ
の情報を要素の位置情報で連結または結合し1つの索引
情報として処理することにより、上記目的を達成するも
のである。
【0007】
【発明の実施の形態】以下、本発明の実施例について図
面を参照しながら説明する。
【0008】(実施の形態1)図1は本発明の第1の文
書処理方法の概念を示し、図2は本発明の第1の文書処
理装置のブロック構成図、を示している。
【0009】図1は本発明の第1の文書処理方法の概念
を示している。図1において、201は文書処理装置が
扱う構造化文書の構造、202は構造201の要素名と
要素IDを示す要素ID表、203は構造201に基づ
く文書番号nの構造化文書、204は構造化文書203
の要素内容番号とその要素ID、要素の終端の要素内容
番号である要素終端番号からなるノード情報、205は
要素内容に出現する文字列の文字列位置情報、206は
構造化文書203に出現する文字列「構造」の文字列位
置情報、207は構造化文書203に出現する文字列
「造化」の文字列位置情報である。本発明の登録方法で
は入力する文書203の構造を要素ID表202に従い
要素内容番号が1の<本文>は要素IDが1でその要素
終端番号は8であり、要素内容番号が2の<タイトル>
は要素IDが2でその要素終端番号はその要素内容番号
と同じ2、要素内容番号が3の<章>は要素IDが3で
その要素終端番号は5であり、以下それぞれ要素は要素
内容番号4から8に応じてノード表204のノード情報
が格納される。この時同時に、各要素内容に出現する文
字列は2文字の連鎖の文字列に分解され、各文字列は位
置を一意に定める文書番号、要素内容番号、要素ID、
文字の出現順位(順番)または出現位置(要素内容にお
ける相対的・絶対的位置)の情報で与えられる文字列位
置情報205を作成する。たとえば、文字列「構造化・
・」は2文字連鎖の文字列「構造」、「造化」に分解
し、文字列が出現する要素内容番号2、5、8に従い
「構造」の文字列位置情報206と「造化」の文字列位
置情報207に格納する。この時、2番目の<章>の<
段落>にある文字列「構造化」を検出する構造化検索
は、<章>の要素ID「3」と<段落>の要素ID
「5」を要素ID表202より検出し、2番目の<章>
をノード表204の要素ID欄の「3」を計数して、2
番目の<章>の要素内容番号に対応している要素を求
め、その要素の要素終端番号までの範囲における要素I
D「5」の要素として要素内容番号「8」を検出する。
以上で、構造化文書の構造検索として該当する要素が検
出される。この構造検索で検出された要素内容番号
「8」と文書番号をもとに文字列位置情報の文字の連続
性を検出し(たとえば、「構造化」は「構造」の位置情
報の次の値が「造化」の位置情報となる)、上記構造化
文字列検索を行うことが可能となる。
【0010】図1において、211は終端情報を追加し
たノード表で、第1の方法ではさらに、ノード表211
で示すようにノード情報に要素が子要素を持つかどうか
の情報として、終端で子要素がないときは0で、子要素
を持つときは1の終端情報を追加し、文書構造における
各要素の意味付けを分類し、たとえば、文書の実体情報
である要素内容をこの終端情報が0の要素に限定して行
ったりして処理の効率を上げることが可能である。
【0011】図1において、221は終端情報の代わり
にノードIDとリーフIDを追加したノード表で、第1
の方法ではさらに、ノード表221で示すようにノード
情報に要素が子要素を持つ場合は要素IDをノードID
とし、終端で子要素がないときは要素IDをリーフID
とする情報を追加し、文書構造における各要素の意味付
けを分類し、たとえば、文書の実体情報である要素内容
をリーフIDの要素に限定して行ったりして処理の効率
を上げることが可能である。
【0012】図1(b)において、231は要素の範囲
を示す要素終端番号の代わりに要素の終端までの差分を
要素範囲としたノード表である。この時、要素の範囲
は、その要素の要素内容番号に要素範囲を加えた要素内
容番号の要素までである。この方法は、図1でのノード
表204、211、221において要素終端番号の代わ
りに用いることができる。
【0013】図2は本発明の多言語文書を管理する文書
処理装置の構成を示したものである。
【0014】図2において、101は構造化文書を読み
込み構造を要素毎に分解し構造化文書のタグに応じて要
素毎にデータを取り込む文書入力部、102は文書入力
部より文書の構造とタグ名を取り込みタグ名を一意に対
応づける要素IDを作成する要素ID作成部、103は
タグ名の要素IDを記憶する要素ID格納部、104は
取り込んだ構造化文書の要素ID表と構造をもとに各要
素の要素内容番号、要素ID、要素終端番号、終端情報
を要素のノード情報として作成する文書構造情報作成
部、105は各要素のノード情報を格納するノード情報
格納部、106は取り込んだ構造化文書の各要素に出現
する文字列を2文字の文字列に分解し各文字列の位置を
構造化文書の文書番号、出現した要素の要素内容番号、
要素IDと、要素内の出現位置により文字列位置情報を
作成する文字位置索引作成部、107は文字位置索引作
成部106が作成する文字列位置情報を格納する文字位
置情報格納部、108は構造化文書文字列検索の条件を
入力する検索条件入力部、109は検索条件入力部10
8の構造化検索条件に応じて要素ID格納部103とノ
ード情報格納部105から構造検索を行い該当する要素
の検出を行う構造化検索部、110は検索条件入力部1
08の文字列検索条件の文字列に応じて構造化検索部1
09で検出する要素と文字位置情報格納部107から該
当する文字列を検出する文字列検索部である。
【0015】要素の範囲をその要素の要素内容番号から
要素終端番号204までの範囲として求め、構造化文書
203を入力すると、構造化文書203の構造情報を要
素ID格納部103およびノード情報格納部105に格
納し、構造化文書203の各要素内容に含まれる文字情
報を文字位置情報格納部107に格納し、構造化文書の
検索時に構造化検索を前記要素ID格納部103および
ノード情報格納部105の情報より行い、文字列検索を
前記文字位置情報格納部107より行って、文字列検索
の該当する要素内容番号から構造化条件に該当する要素
内容番号204を検出することにより、文字列検索部1
10より該当する文書番号と要素内容番号が出力され
る。以上により構造化文書の登録と構造化文書の構造化
文字列検索が可能となる。
【0016】(実施の形態2)本発明の第2の方法によ
る文書処理装置は、図1の構成と同じ構成で実現するこ
とができる。図3は、本発明の第2の文書処理方法の概
念を示している。
【0017】図3において、301は要素の位置関係を
要素の親要素の要素内容番号を親要素番号、親要素内に
おけるこの要素と同じ要素名要素における出現の順位を
同一要素順位として設定するノード情報である。このと
き、本発明の登録方法では入力する文書203の構造を
要素ID表202に従い要素内容番号が1の<本文>は
要素IDが1で親要素がないので親要素番号と同一要素
番号は空欄で、要素内容番号が2の<タイトル>は要素
IDが2で要素内容番号が1の親要素をもつので親要素
番号が1で同一要素順位は1、要素内容番号が3の<章
>は要素IDが3で要素内容番号1の親要素をもつので
親要素番号が1で同一要素順位は1である。以下それぞ
れ要素は要素内容番号4から8に応じてノード表301
のノード情報が格納される。この時、要素内容番号が6
の<章>では要素IDが3でこの要素の出現はこの要素
をもつ親要素<本文>内で2番目であるから同一要素順
位は2となる。この時、2番目の<章>の<段落>にあ
る文字列「構造化」を検出する構造化検索は、<章>お
よび<段落>の要素IDを要素ID表202より検出
し、2番目の<章>をノード表301の要素ID欄の
「3」を計数して、2番目の<章>の要素内容番号
「6」に対応している要素を求め、その要素を親要素と
する要素を親要素番号欄より検出してその要素の範囲の
子要素の要素内容番号「7」「8」を得る。これらの要
素の要素IDと求める<段落>の要素ID「5」を照合
し目的の要素として要素内容番号「8」を検出する。以
上により、構造化文書の構造検索として該当する要素が
検出される。この構造検索の結果の要素内容番号「8」
と文書番号をもとに文字列位置情報の文字の連続性を検
出し(たとえば、「構造化」は「構造」の位置情報の次
の値が「造化」の位置情報となる)、上記構造化文字列
検索を行うことが可能となる。
【0018】図3において、311は終端情報を追加し
たノード表で、第1の方法ではさらに、ノード表311
で示すようにノード情報に要素が子要素を持つかどうか
の情報として、終端で子要素がないときは0で、子要素
を持つときは1の終端情報を追加し、文書構造における
各要素の意味付けを分類し、たとえば、文書の実体情報
である要素内容をこの終端情報が0の要素に限定して行
ったりして処理の効率を上げることが可能である。
【0019】要素の範囲をその要素内容番号を親要素番
号にもつ子要素をノード情報により検出し、これを要素
内容番号の最後まで繰り返して求め、構造化文書203
を入力すると、構造化文書203の構造情報を要素ID
格納部103およびノード情報格納部105に格納し、
構造化文書203の各要素内容に含まれる文字情報を文
字位置情報格納部107に格納し、構造化文書203の
検索時に構造化検索を前記要素ID格納部103および
ノード情報格納手段105の情報より行い、文字列検索
を前記文字位置情報格納部107より行って、文字列検
索の該当する要素内容番号から構造化条件に該当する要
素内容番号を検出することにより、構造化文書検索を行
う。
【0020】(実施の形態3)図4は、本発明の第3の
文書処理方法の概念を示している。
【0021】図4において、401は要素の位置関係を
要素の要素内容番号とその要素ID、要素の出現する階
層を最上位を1とした階層番号を格納するノード表であ
る。この時、要素内容番号は、要素の出現する順に振ら
れ、結果的にグラフアルゴリズムにおける深さ優先の順
位で番号付けされ、構造化文書202の場合は、ノード
表401のように番号付けられる。本発明の登録方法で
は入力する文書203の構造を要素ID表202に従い
要素内容番号が1の<本文>は要素IDが1でこの要素
の出現する階層は階層番号が1、要素内容番号が2の<
タイトル>は要素IDが2でこの要素の出現する階層は
階層番号が2、要素内容番号が3の<章>は要素IDが
3でこの要素の出現する階層は階層番号が2、要素内容
番号が4の<章題>は要素IDが4でこの要素の出現す
る階層は階層番号が3、要素内容番号が5の<段落>は
要素IDが5でこの要素の出現する階層は階層番号が3
となる。以下それぞれ要素は要素内容番号6から8に応
じてノード表401のノード情報が格納される。この
時、2番目の<章>の<段落>にある文字列「構造化」
を検出する構造化検索は、<章>の要素ID「3」と<
段落>の要素ID「5」を要素ID表202より検出
し、2番目の<章>をノード表401の要素ID欄の
「3」を計数して、2番目の<章>の要素内容番号
「6」に対応している要素を求め、その要素の範囲をそ
の要素内容番号に続けて要素の階層より1つ下の階層番
号までの範囲(ここでは要素内容番号が6以上で階層番
号が2の要素内容番号「7」、「8」の要素が該当す
る)における要素ID「5」の要素として要素内容番号
「8」を検出する。以上で、構造化文書の構造検索とし
て該当する要素が検出される。
【0022】この構造検索で検出された要素内容番号
「8」と文書番号をもとに文字列位置情報の文字の連続
性を検出し(たとえば、「構造化」は「構造」の位置情
報の次の値が「造化」の位置情報となる)、上記構造化
文字列検索を行うことが可能となる。
【0023】図4において、411は終端情報を追加し
たノード表で、第3の方法ではさらに、ノード表411
で示すようにノード情報に要素が子要素を持つかどうか
の情報として、要素が終端で下位層がないときは0、終
端でなく下位層があるときは1の終端情報を追加し、文
書構造における各要素の意味付けを分類し、たとえば、
文書の実体情報である要素内容をこの終端情報が0の要
素に限定して行ったりして処理の効率を上げることが可
能である。
【0024】図2において、要素の範囲をその要素内容
番号の下位の階層番号401から検出し、構造化文書を
入力すると、構造化文書の構造情報を要素ID格納部1
03およびノード情報格納部105に格納し、構造化文
書の各要素内容に含まれる文字情報を文字位置情報格納
部107に格納し、構造化文書の検索時に構造化検索を
要素ID格納部103およびノード情報格納部105の
情報より行い、文字列検索を文字位置情報格納部107
より行って、文字列検索の該当する要素内容番号から構
造化条件に該当する要素内容番号を検出することによ
り、構造化文書検索を行う。
【0025】(実施の形態4)図5は、本発明の第4の
文書処理装置のブロック構成図を示し、図9で文書処理
装置で格納する索引情報を、図10では文書検索の例を
示す。
【0026】はじめに使用するデータとその構造を説明
する。図6は本発明の構造化文書の文書構造601と検
索対象としての構造化文書データの例602である。6
01では、構造化文書のタグ名を<>で囲まれた文字列
とする。601において、<資料>をルートとして<ヘ
ッダ>、<章>がその子、以下<タイトル><節><説
明文>が子としてつながっている構造を持っている。こ
の構造に対して602に構造化文書データがタグ<要素
名>で囲まれ、そのタグ<要素名>の内容として開始タ
グ<要素名>と終了タグ</要素名>となっている。
【0027】本発明のブロック図に戻って、文書構造入
力部501は、上記601の構造を読み取り、要素ID
表作成部502が、文書構造を識別し、要素IDとその
番号を作成する。作成する表は図7の701、702で
ある。たとえば、702において602の要素にしたが
って要素IDで<資料>が1、<ヘッダ>が2、<説明
文>が4、以下同様に作成され要素ID表格納部503
に格納される。さらに文書構造要素階層表作成部504
は、各要素IDに対して親の要素IDを作成する。70
2の例では<説明文>に対する親は、<ヘッダ>と<節
>が要素名として存在することから2と6を親の要素I
D1,2として格納する。以下同様に親の要素および子
の要素を作成し、701と702の表を作成し文書構造
要素階層表データとして文書構造要素階層表格納部50
5に格納される。
【0028】また、文書構造要素階層表格納部505で
作成された文書構造要素階層表データをもとにして、構
造化文書データ602を要素に分解する。最初に図5の
文書入力部506で構造化文書データ602を読み取り
文書番号を付与し、文書構造要素順位作成部507は文
書構造要素階層表データにしたがって要素ごとに分解す
る。図8の801は分解された図である。このとき、同
一要素IDに対する要素名が複数存在する場合には、要
素ID別に出現の回数を記憶する。たとえば、要素ID
=6の<節>の場合には4個が出現することから<節>
(1)〜<節>(4)と番号がふられる。また<章>の
場合にはがふられる。
【0029】一方、文字位置索引作成部508では要素
ID別かつ文字種別に文字位置の出現位置を計算する。
たとえば、図6の602の10行目、<説明文>の要素
は「全文検索の方法は…」であり、文字種「全」は1番
目、「文」は2番目となっている。
【0030】次に、図5の索引情報格納部509は、図
8の文書構造と前記文字位置索引作成部の結果を合わせ
て、図9の索引情報を作成する。図9において索引情報
は901のように、文字種および連続する文字連鎖ごと
に文書番号と親の要素ID、親と同じ要素IDの出現順
位、自分の要素ID、文字位置情報を格納する。たとえ
ば902のように「全文検索…」の場合には、文字種
(全)と文字種(文)から(全、文)の組み合わせに対
して索引情報を作成し、同じく(文、検)の組み合わせ
に対しても索引情報を作成する。このとき索引情報のソ
ートの順位は前記索引情報格納手段の索引情報が文字種
が含まれる文書IDと、文字種が含まれる親の要素ID
と、文字種が含まれる親の要素IDに対する同一文書の
出現順位と、文字種が含まれる要素IDと、同一要素I
D内での文字位置情報の順番で格納し、かつ各情報は優
先度を持ってソートされ、ソートの優先順位は、文字種
が含まれる要素ID、親の要素ID、親の要素IDに対
する同一文書の出現順位、文書番号、文字位置情報とな
るように索引情報を格納するようにしている。
【0031】904には(全、文)と(文、検)の索引
情報の例が示されている。904では、<説明文>ID
=4での親のIDが6(=節)であり、節の順位は1、
2、4である(図8の節の( )の数字参照)。この時の
文字種「全」の文字位置が1となっている。同様にして
(文、検)については「文」の文字位置は2である。な
お、文書番号はともにNの場合とした。
【0032】次に図10で文字列を指定した時の検索
と、要素を指定した時の検索の処理の流れを説明する。
【0033】図10(a)で文字列を「全文検」として
説明する。図5において検索条件入力部510が図10
(a)の文字列「全文検」を読み取り、構造化文書検索
部511が図7の文書構造要素階層表格納データを取得
する。ここでは要素名、IDが指定されていないことか
らに文字列検索部512が(全、文)と(文、検)に分
解し、各々の文字種を含む索引情報から文字種が連続し
ているかどうかを調べる。図10(b)において2つの
索引情報1001、1002から1004の文字位置1
と1005の文字位置2を算出しかつ文書番号Nが一致
していることから文書番号Nを取り出す。
【0034】次に要素を指定した時の検索として図10
(c)の4番目の<節>で<説明文>に「全文検」が含
まれる検索条件の場合の文書および要素の取得を考え
る。この時、図5の構造化要素検索部511が図5の要
素照合部513に文書構造要素階層表データを送付し、
要素照合部512は索引情報格納部509から文字種別
の索引情報を取得する。すなわち図10(d)において
(全、文)の索引情報1007と(文、検)の索引情報
1008を取得する。照合の方法は、<節>の4番目で
あることから、親の要素ID=6(1010)であり要
素IDの出現回数は4(1009)、しかも<説明文>
の要素ID=4(1008)であることから、文書番号
はNを取得し、さらに要素の組み合わせは1013とし
て、(文、検)に対しても1013の組み合わせで照合
を実施する。これに該当するのは1014であることか
ら、要素照合部512は文字列照合部513に1013
と1014を含む索引情報を送付する。文字列照合部5
14は、(全、文)の文字位置が1、(文、検)の文字
位置が2であることから一致していると判断し、検索結
果として1013、1014の索引情報を照合結果をし
て返し、結果として文書番号Nを取得することができ
る。
【0035】(実施の形態5)図11は、本発明の第5
の文書処理装置のブロック構成図を示し、図12で文書
処理装置で追加される階層関係を記述した要素情報を、
図13では文書検索の例を示す。使用するデータは実施
の形態4と同様である。索引情報の格納に関する処理の
流れは実施の形態4と同様である。したがって図7,
9、10に関しては実施の形態4と同様である。また、
図11のブロック図では1101〜1113までは図5
の501〜513までと同様となっており番号のみ付け
替えて本実施の形態で説明する。
【0036】図11において、文書構造要素順位作成部
1107(図5では507)では、構造化文書の親子の
関係を図12で示すような親子表を作成し、要素順位格
納部1114に格納する。これはタグ<>の関係のみを
記述した表であり、要素IDに対するそのIDに対する
同一文書の順位と子の要素IDと子の要素IDに対する
同一文書の順位を格納した表である。たとえば、110
1において要素ID=1<資料>に対しては、子の要素
IDは<ヘッダ>ID=2、と<章>ID=5が存在
し、<章>に対しては出現回数が1と2が存在する。
【0037】同様に、1102において要素ID=5<
章>に対しては、出現回数1についての<章>の子の要
素IDは<タイトル>ID=3、と<節>ID=6が存
在し、<節>に対しては出現回数が1と2が存在する。
以下同様に、<章>に対しては、出現回数2についても
表として作成される。
【0038】次に図13で文字列と要素IDの範囲を指
定した時の文書番号と要素番号を取得する検索の処理の
流れを説明する。
【0039】図10(a)の<節>の出現回数が2番目
以上で<説明文>に「全文検」が含まれる検索条件の場
合の文書および要素の取得を考える。この時、図11の
構造化要素検索部1111が図7より(節のID番号、
説明文の要素ID)が(6、4)を判定し(図13
(b))、さらに図11の要素照合部1112に文書構
造要素階層表データを送付し、要素照合部1112は索
引情報格納部1109から文字種別の索引情報を取得す
る。すなわち図13(c)において(全、文)の索引情
報1301と(文、検)の索引情報1302を取得す
る。照合の方法は、<節>の要素ID=6、<説明文>
の要素ID=4であることから、1304で<説明文>
でありことを探索し、1310で要素ID=6であるこ
とから1303全てが候補になることを絞り込む。続い
て、<節>の出現回数が2以上であることから、親の出
現回数1303で2と4が候補となる。同様に(文、
検)の文字連鎖に対しても1306で<説明文>に対し
て1305で2、4が候補となり、さらに図11の文字
列検索部1113で文字の連続性(1301の文字位置
が1、1302の文字位置が2)を判定し、該当文書番
号Nを取得する。
【0040】一方、要素照合部1112は要素順位格納
部1114から、子の要素ID=6、子の要素IDの出
現回数が2と4の親の要素IDを検索する。図13
(d)において1307は要素順位格納部のデータであ
り、子の要素ID=6(1308)に注目して、子の要
素IDの出現回数が2、4の子の要素IDと子の要素I
Dの出現回数の組み1309(6,2)、1310
(6,4)を検出するため、さらに1309、1310
を含む親の要素IDと出現回数の組み合わせを探し、1
311(5,1)、1312(5,2)を取得する。取
得した結果を文字列検索部1112に送付し、すでに文
字列検索を実施した結果とあわせて、文書番号、要素番
号6、親の要素番号5、子の要素番号6が付与される。
【0041】(実施の形態6)図15は、本発明の第6
の文書処理装置のブロック構成図を示し、図15で文書
処理装置で格納する索引情報の例を示す。
【0042】はじめに使用するデータとその構造を説明
する。図14は本発明の構造化文書の文書構造1401
と検索対象としての構造化文書データの例1402であ
る。601との相違は<章>の子として<補足>という
タグが入ったことであり、1402のデータでは140
2の行番号7の下Aの行と、1402の行番号15の下
のBの行が新たに挿入された場合の索引の管理方法につ
いて記述したものである。
【0043】文字位置情報に関して索引情報の格納に関
する処理の流れは実施の形態4と同様である。したがっ
て図7、9、10に関しては実施の形態4と同様であ
る。また、図15のブロック図では1501〜1513
までは図11の1101〜1113までと同様となって
おり番号のみ付け替えて本実施の形態で説明する。
【0044】図15において、文書構造変更入力部17
10は、1401の構造を読み取り、要素番号変更部1
711に通知する。要素番号変更部1711は要素ID
表作成部1702と要素ID表格納部1703から作成
された図7に対して、追加された要素名、要素IDを検
出し、要素階層関係変更部1712に検出結果(要素
名、要素番号)を通知する。要素階層関係変更1712
は、検出結果をもとに図161601に示すように要素
名が追加された場合の親子関係を作成する。この際、追
加された要素名に対しては、「入れ替え」の列を設け、
その列の中に新しい要素ID=7を追加し(1602を
参照)、文書構造要素階層格納部1705に格納する。
【0045】続いて、文書構造要素順位作成部1707
は、図10(b)の1503に示すような要素順位格納
データを書き換える。要素ID=7の親の要素である<
章>要素ID=5の出現回数1の子の要素IDとして配
置され(1604)、同時に要素ID=7の子の要素I
D=6(要素名では<節>)の親の要素IDとして配置
される(1605)。
【0046】次に図16の場合の文字列を指定した時の
検索、および要素を指定した時の検索の処理の流れであ
るが、索引情報に関しては検索処理の変更点は発生しな
いため実施例4,5の場合と同様である。本発明により
構造が挿入された場合の索引の変化を最小にとどめる工
夫がされている。
【0047】
【発明の効果】以上のように本発明は、文書処理におけ
る構造化文書の登録および構造化文書検索において、構
造化情報を格納するノード表から構造化条件に対応する
要素を抽出し、該要素において出現する文字位置情報を
格納する文字位置情報から検索文字列条件に該当する文
字列を検出し、構造化文書検索の目的を達成することが
できる。また、要素の範囲および任意の位置関係におい
ても構造の階層の制限を受けることなく対応できる。さ
らに、特定の要素の追加、削除などの登録処理に対して
も柔軟に対応することができ、その効果は大きい。
【図面の簡単な説明】
【図1】本発明の第1の方法による構造化文書処理方法
を示す概念図
【図2】本発明の第1の方法による文書処理装置のブロ
ック構成図
【図3】本発明の第2の方法による構造化文書処理方法
を示す概念図
【図4】本発明の第3の方法による構造化文書処理方法
を示す概念図
【図5】本発明の第4の方法による文書処理装置のブロ
ック構成図
【図6】本発明の第4、第5の方法による構造化文書デ
ータの例を示す図
【図7】本発明の文書構造要素階層表データの説明図
【図8】本発明の第4、5の方法による構造化文書の構
造図
【図9】本発明の第4の方法による構造化文書処理方法
を示す概念図
【図10】本発明の第4の方法による文書検索の概念図
【図11】本発明の第5の方法による文書処理装置のブ
ロック構成図
【図12】本発明の第5の方法による構造化文書処理方
法を示す概念図
【図13】本発明の第5の方法による文書検索の概念図
【図14】本発明の第6の方法による構造化文書データ
の例を示す図
【図15】本発明の第6方法による文書処理装置のブロ
ック構成図
【図16】本発明の第6の方法による構造化文書処理方
法を示す概念図
【符号の説明】
103 要素ID格納部 105 ノード情報格納部 107 文字位置情報格納手段 109 構造化検索部 110 文字列検索部 503 要素ID表格納手段 504 文書構造要素階層表格納手段 507 文書構造要素順位作成手段 508 文字位置索引作成手段 509 索引情報格納手段 512 要素照合部 513 文字列検索部 1104 文書構造要素階層表作成部 1107 文書構造要素順位作成部 1109 索引情報格納部 1113 要素照合部 1511 構造化要素検索部 1512 要素照合部 1514 要素順位格納部 1517 要素階層関係変更部

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 構造化文書のタグまたは文書型定義から
    得られる要素名とその要素名に対応する識別番号である
    要素IDを格納する要素ID格納手段と、構造化文書に
    出現する要素内容の位置をその要素の文書における出現
    の順位で表わした要素内容番号とその要素IDとその要
    素が子要素を持つ場合はその要素の子要素で子要素を持
    たない最終の子要素の要素内容番号で与えられる要素終
    端番号を格納するノード情報格納手段と、要素内容に出
    現する文字列の文字の出現位置をその要素の要素内容番
    号と要素IDとともに格納する文字位置情報格納手段
    と、構造化文書文字列を検索する条件である構造化検索
    条件に応じて前記要素ID格納手段とノード情報格納部
    から構造化検索を行う構造化検索手段と、前記構造化検
    索条件の文字列に応じて構造化検索手段で検出する要素
    と前記文字位置情報格納手段から該当する文字列を検出
    する文字列検索手段とを備え、文字列検索の該当する要
    素内容番号から構造化条件に該当する要素内容番号を検
    出することが可能な文書処理装置。
  2. 【請求項2】 前記ノード情報格納手段は、要素IDの
    代わりにその要素が子要素を持たない場合はリーフID
    を、子要素を持つ場合はノードIDを格納し、検索の範
    囲をこのノードIDと終端要素番号の範囲で前記構造化
    検索を行なうことにより、文書の実態情報である要素内
    容をリーフIDの要素に限定して行うことを特徴とする
    請求項1記載の文書処理装置。
  3. 【請求項3】 前記ノード情報格納手段は、要素が子要
    素を持つ場合、要素の範囲を示す要素終端番号の代わり
    にその要素の要素内容番号からその要素の子要素で子要
    素を持たない最終の子要素の要素内容番号までの差分で
    与えられる要素範囲を備え、検索の範囲を要素の要素内
    容番号から要素範囲を加えた要素内容番号の範囲で前記
    構造化検索を行なうことを特徴とする請求項1記載の文
    書処理装置。
  4. 【請求項4】 構造化文書のタグまたは文書型定義から
    得られる要素名とその要素名に対応する識別番号である
    要素IDを格納する要素ID格納手段と、構造化文書に
    出現する要素内容の位置をその要素の文書における出現
    の順位で表わした要素内容番号と、その要素の要素ID
    と、その要素の親要素の要素内容番号である親要素番号
    と、その要素の親要素内における同一要素の出現順位を
    示す順位番号を格納するノード情報格納手段と、要素内
    容に出現する文字の出現位置の情報をその要素内容番
    号、要素IDとともに格納する文字位置情報格納手段を
    備え、要素の範囲をその要素内容番号を親要素番号にも
    つ子要素をノード情報により検出し、これを要素内容番
    号の最後まで繰り返して求め、構造化文書を入力する
    と、構造化文書の構造情報を要素ID格納手段およびノ
    ード情報格納手段に格納し、構造化文書の各要素内容に
    含まれる文字情報を文字位置情報格納手段に格納し、前
    記要素ID格納手段およびノード情報格納手段の情報よ
    り構造化検索を行い、文字列検索を前記文字位置情報格
    納手段より行って、文字列検索の該当する要素内容番号
    から構造化条件に該当する要素内容番号を検出すること
    により、構造化文書検索を行うことを特徴とする文書処
    理装置。
  5. 【請求項5】 構造化文書のタグまたは文書型定義から
    得られる要素名とその要素名に対応する識別番号である
    要素IDを格納する要素ID格納手段と、構造化文書に
    出現する要素内容の位置をその要素の出現順位で表した
    要素内容番号と、その要素のルートからの階層の深さを
    示す階層情報を格納するノード情報格納手段と、要素内
    容に出現する文字の出現位置の情報をその要素内容番号
    とともに格納する文字位置情報格納手段を備え、要素の
    範囲をその要素内容番号の下位の階層情報から検出し、
    構造化文書を入力すると構造化文書の構造情報を要素I
    D格納手段およびノード情報格納手段に格納し、構造化
    文書の各要素内容に含まれる文字情報を文字位置情報格
    納手段に格納し、前記要素ID格納手段およびノード情
    報格納手段の情報より構造化検索を行い、文字列検索を
    前記文字位置情報格納手段より行って、文字列検索の該
    当する要素内容番号から構造化条件に該当する要素内容
    番号を検出することにより、構造化文書検索を行うこと
    を特徴とする文書処理装置。
  6. 【請求項6】 前記ノード情報格納手段は、要素が子要
    素を持つかどうかの終端情報を備え、範囲検索では検索
    の範囲を終端情報から子要素を持つ要素からその要素の
    下位のすべての要素までとし、文書の実態情報である要
    素内容を子要素を持たない要素の範囲に限定して構造化
    検索を行うことを特徴とする請求項1、3、4、5のい
    ずれかに記載の文書処理装置。
  7. 【請求項7】 構造化文書に文書番号が付与され、構造
    化文書がタグまたは要素名で付与された文書でタグ以下
    に文章が付与される構造化文書に対して番号が付与され
    た構造化文書のタグまたは文書型定義から得られる要素
    名とその要素名に対応する要素IDを格納する要素ID
    表格納手段と、要素名または要素IDと連結する複数の
    親の要素IDの組み合わせを作成し表として格納し、要
    素名または要素IDと連結する複数の子の要素IDの組
    み合わせを作成し表として格納する文書構造要素階層表
    格納手段と、構造化文書に出現する各要素IDに対し
    て、各要素IDごとに同一文書内に同じ要素IDが出現
    する回数について順位を計算する文書構造要素順位作成
    手段と、同じ要素IDに付与される文章に対して1つ1
    つの文字に対して文字位置を算出するに文字位置索引作
    成手段と、文字種毎に、文書番号と、文字種が含まれる
    要素IDと、格納手段前記文書構造要素階層表格納手段
    から親の要素IDと親の要素IDに対する同一要素ID
    の出現回数および前記文字位置索引作成手段で作成され
    た文字位置を索引情報として格納し、文字種別ごとに索
    引情報を格納する索引情報格納手段と、格納した構造化
    文書に対して要素名または要素IDと要素に含まれる文
    字列を入力すると前記索引情報格納手段から入力した文
    字列が含まれる文書番号を文字位置情報から取得する文
    字列検索手段と、前記取得した文書番号に対して指定し
    た要素名または要素IDが含まれるかを照合する要素照
    合手段とを備え、 前記文字列検索手段が、前記要素照合手段の結果とを照
    合し一致する文書番号および要素番号を検出することに
    より、構造化文書検索を行うことを特徴とする文書処理
    装置。
  8. 【請求項8】 前記索引情報格納手段に格納された索引
    情報が、文字種が含まれる文書IDと、文字種が含まれ
    る親の要素IDと、文字種が含まれる親の要素IDに対
    する同一文書の出現順位と、文字種が含まれる要素ID
    と、同一要素ID内での文字位置情報の順番で格納し、
    かつ各情報は優先度を持ってソートされ、ソートの優先
    順位は、文字種が含まれる要素ID、親の要素ID、親
    の要素IDに対する同一文書の出現順位、文書番号、文
    字位置情報となるように索引情報を格納することを特徴
    とする請求項7記載の文書処理装置。
  9. 【請求項9】 前記要素照合手段は、要素名と要素名の
    出現回数と、要素名に対して含まれる文字列を入力する
    と、前記要素ID表格納手段から要素IDを取得し、前
    記文書構造要素階層表格納手段から要素IDの出現回数
    を算出し、取得した要素IDと要素IDの出現回数と文
    字列が含まれる文書番号と要素IDを索引情報格納手段
    から照合することを特徴とする請求項7記載の文書処理
    装置。
  10. 【請求項10】 前記要素照合手段が、入力した文字列
    を構成する連続する2文字連鎖で該当する索引情報が取
    得された場合に、次の文字連鎖の索引情報の取得に対し
    て、先に該当した索引情報の文字位置情報を除く文書番
    号、親の要素ID、親の要素IDの出現回数、要素ID
    のみでまとめて照合を行い、前記要素照合手段で次の文
    字連鎖に対して該当する索引情報に対して一致するもの
    が取得された場合に前記文字列検索手段が文字位置情報
    の連続性を判定することを特徴とする請求項7、8、9
    のいずれかに記載の文書処理装置。
  11. 【請求項11】 前記文書構造要素順位作成手段が、親
    と子の要素IDと同一要素IDの出現順位を組みとした
    表で親の要素IDと親の要素IDの出現回数と、その子
    となる複数の要素IDとその要素IDの出現回数を組み
    とする表を作成し、文書構造要素順位作成手段が作成し
    た表を格納する要素順位格納手段を備えたことを特徴と
    する請求項7記載の文書処理装置。
  12. 【請求項12】 指定した要素IDと前記要素順位格納
    手段の表で前記格納した構造化文書に対して、要素名と
    要素名の出現回数を範囲で示し、要素名に対して含まれ
    る文字列を入力すると、前記要素ID表格納手段から要
    素IDを取得し、前記文書構造要素階層表格納手段から
    要素IDの出現回数を算出し、取得した要素IDと要素
    IDの出現回数と文字列が含まれる文書番号と要素ID
    を索引情報格納手段から照合し、さらに前記要素順位格
    納手段から該当する複数の親の要素IDと子の要素ID
    を取得する要素照合手段を備えたことを特徴とする請求
    項7、9、10のいずれかに記載の文書処理装置。
  13. 【請求項13】 構造化文書のタグまたは文書型定義か
    ら得られる要素名とその要素名に対応して要素名または
    要素IDが追加された場合に、追加された要素IDの親
    となる要素IDに追加要素IDを前記要素ID格納部の
    要素IDの末尾に追加し、さらに前記要素順位格納手段
    が格納する要素順位格納情報である要素IDと要素ID
    の出現回数の表に追加する要素階層関係変更手段を有す
    ることを特徴とする文書処理装置。
  14. 【請求項14】 指定した要素IDと前記要素順位格納
    手段の表で前記格納した構造化文書に対して、要素名と
    要素名の出現回数を範囲で示し、要素名に対して含まれ
    る文字列を入力すると、前記要素ID表格納手段から要
    素IDを取得する際に前記要素ID格納部の要素IDの
    末尾の変更IDを取得し、要素IDの検索は変更IDを
    使って前記要素階層関係変更手段の要素順位格納情報か
    ら要素IDと親子の要素IDを取得する構造化要素検索
    手段を有し、前記構造化要素検索手段の候補要素IDと
    前記文字列検索手段から該当する複数の親の要素IDと
    子の要素IDを取得する要素照合手段を備えたことを特
    徴とする請求項7、9、10、12のいずれかに記載の
    文書処理装置。
JP2000073807A 2000-03-16 2000-03-16 文書処理装置 Expired - Fee Related JP3719089B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000073807A JP3719089B2 (ja) 2000-03-16 2000-03-16 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000073807A JP3719089B2 (ja) 2000-03-16 2000-03-16 文書処理装置

Publications (2)

Publication Number Publication Date
JP2001265773A true JP2001265773A (ja) 2001-09-28
JP3719089B2 JP3719089B2 (ja) 2005-11-24

Family

ID=18591990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000073807A Expired - Fee Related JP3719089B2 (ja) 2000-03-16 2000-03-16 文書処理装置

Country Status (1)

Country Link
JP (1) JP3719089B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013506913A (ja) * 2009-10-02 2013-02-28 ムスルリ,アラビンド 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法
WO2018185921A1 (ja) 2017-04-06 2018-10-11 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240752A (ja) * 1997-02-26 1998-09-11 Hitachi Ltd 構造化文書の登録方法,検索方法、およびそれに用いられる可搬型媒体
JPH11242676A (ja) * 1998-02-25 1999-09-07 Hitachi Ltd 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240752A (ja) * 1997-02-26 1998-09-11 Hitachi Ltd 構造化文書の登録方法,検索方法、およびそれに用いられる可搬型媒体
JPH11242676A (ja) * 1998-02-25 1999-09-07 Hitachi Ltd 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013506913A (ja) * 2009-10-02 2013-02-28 ムスルリ,アラビンド 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法
WO2018185921A1 (ja) 2017-04-06 2018-10-11 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法
US11520765B2 (en) 2017-04-06 2022-12-06 Fujitsu Limited Computer-readable recording medium recording index generation program, information processing apparatus and search method

Also Published As

Publication number Publication date
JP3719089B2 (ja) 2005-11-24

Similar Documents

Publication Publication Date Title
US10169354B2 (en) Indexing and search query processing
US7917493B2 (en) Indexing and searching product identifiers
US8504553B2 (en) Unstructured and semistructured document processing and searching
US20100281030A1 (en) Document management & retrieval system and document management & retrieval method
US20100169311A1 (en) Approaches for the unsupervised creation of structural templates for electronic documents
JP4860416B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN109726274A (zh) 问题生成方法、装置及存储介质
Chang et al. Applying pattern mining to Web information extraction
JP2005190163A (ja) 構造化データ検索方法、構造化データ検索装置およびプログラム
JP2693914B2 (ja) 検索システム
Klampfl et al. Reconstructing the logical structure of a scientific publication using machine learning
JP2009205499A (ja) ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム
JP2001265773A (ja) 文書処理装置
Putra et al. BudayaKB: Extraction of cultural heritage entities from heterogeneous formats
JP3632643B2 (ja) 構造化文書管理装置
Sloan et al. Data preparation and fuzzy matching techniques for improved statistical modeling
WO2014002212A1 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
US20080033953A1 (en) Method to search transactional web pages
JP3709890B2 (ja) 文字列検索装置
JP4352840B2 (ja) プログラム、データ処理方法およびデータ処理システム
US20070047823A1 (en) System and method for structuring and searching sets of signals
JP2001195400A (ja) 文書文脈構造化方法及び装置
Wu Integrating deep web data sources
JPH10283375A (ja) 全文検索装置および方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050602

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050829

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080916

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees