JP3719089B2 - 文書処理装置 - Google Patents

文書処理装置 Download PDF

Info

Publication number
JP3719089B2
JP3719089B2 JP2000073807A JP2000073807A JP3719089B2 JP 3719089 B2 JP3719089 B2 JP 3719089B2 JP 2000073807 A JP2000073807 A JP 2000073807A JP 2000073807 A JP2000073807 A JP 2000073807A JP 3719089 B2 JP3719089 B2 JP 3719089B2
Authority
JP
Japan
Prior art keywords
document
structured
information
character
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000073807A
Other languages
English (en)
Other versions
JP2001265773A (ja
Inventor
修 片山
隆正 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2000073807A priority Critical patent/JP3719089B2/ja
Publication of JP2001265773A publication Critical patent/JP2001265773A/ja
Application granted granted Critical
Publication of JP3719089B2 publication Critical patent/JP3719089B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報検索、情報処理分野における構造化文書の登録検索に利用されるもので、構造化文書の検索情報を構造化情報と文字位置情報に分け、これらの情報を別々に、または同時に処理を行い、登録検索処理する文書処理装置に関する。
【0002】
【発明が解決しようとする課題】
文書情報処理分野における構造化文書の登録検索に利用される文書処理装置に関して従来行われている登録および検索の方法としては、特開平8−329116号のように構造単位にビットを立てる方法、特開平10−143511号のようにタグをもとに領域を分割する方法、特開平6−266764号のように構造と単語を別々に管理する方法がある。
【0003】
たとえば、特開平8−329116号では、構造単位にビットを立て、文字索引ファイルに構造化情報を埋め込むことが可能である。また、特開平10−143511号では、タグの情報のみを扱うため索引情報の格納が簡単にすることが可能となる。また、特開平6−266764号では、構造と単語の検索を別々に行うことによりそれぞれの処理の効率化が図れる。
【0004】
しかし、以上のような方法においては、たとえば、特開平8−329116号では、構造化文書の構造にビットを対応させており、構造の繰り返しや階層の深さなどによる構造の大きさに制限を受けてしまう。たとえば、対応ビット列が8ビットの場合は8階層までの構造化文書というようにである。また、特開平10−143511号では、構造化情報がタグの情報のみであるためタグ示す要素の文書構造における位置や各要素間の前後関係などの情報が欠落しており、他の方法で補う必要がある。また、特開平6−266764号では、管理が分離しているため処理に無駄が生じる恐れがある。
【0005】
本発明は従来技術の以上のような問題を解決し、構造化文書の検索において検索条件に要素指定の構造化検索と要素内容における文字列検索を効率よく行うことが可能となる文書処理装置を提供することにある。
【0006】
【課題を解決するための手段】
本発明は、上記の課題を解決するために、構造化文書のタグまたは文書型定義から得られる要素名とその要素名に対応する識別番号である要素IDを格納する要素ID格納手段と、構造化文書に出現する要素内容の位置をその要素の文書における出現の順位で表わした要素内容番号と、その要素の要素IDと、その要素の親要素の要素内容番号である親要素番号と、その要素の親要素内における同一要素の出現順位を示す順位番号を格納するノード情報格納手段と、要素内容に出現する文字の出現位置の情報をその要素内容番号、要素IDとともに格納する文字位置情報格納手段を備え、要素の範囲をその要素内容番号を親要素番号にもつ子要素をノード情報により検出し、これを要素内容番号の最後まで繰り返して求め、構造化文書を入力すると、構造化文書の構造情報を要素ID格納手段およびノード情報格納手段に格納し、構造化文書の各要素内容に含まれる文字情報を文字位置情報格納手段に格納し、前記要素ID格納手段およびノード情報格納手段の情報より構造化検索を行い、文字列検索を前記文字位置情報格納手段より行って、文字列検索の該当する要素内容番号から構造化条件に該当する要素内容番号を検出することにより、構造化文書検索を行うことにより、上記目的を達成するものである。
【0007】
【発明の実施の形態】
以下、本発明の実施例について図面を参照しながら説明する。
【0008】
(実施の形態1)
図1は本発明の第1の文書処理方法の概念を示し、図2は本発明の第1の文書処理装置のブロック構成図、を示している。
【0009】
図1は本発明の第1の文書処理方法の概念を示している。図1において、201は文書処理装置が扱う構造化文書の構造、202は構造201の要素名と要素IDを示す要素ID表、203は構造201に基づく文書番号nの構造化文書、204は構造化文書203の要素内容番号とその要素ID、要素の終端の要素内容番号である要素終端番号からなるノード情報、205は要素内容に出現する文字列の文字列位置情報、206は構造化文書203に出現する文字列「構造」の文字列位置情報、207は構造化文書203に出現する文字列「造化」の文字列位置情報である。本発明の登録方法では入力する文書203の構造を要素ID表202に従い要素内容番号が1の<本文>は要素IDが1でその要素終端番号は8であり、要素内容番号が2の<タイトル>は要素IDが2でその要素終端番号はその要素内容番号と同じ2、要素内容番号が3の<章>は要素IDが3でその要素終端番号は5であり、以下それぞれ要素は要素内容番号4から8に応じてノード表204のノード情報が格納される。この時同時に、各要素内容に出現する文字列は2文字の連鎖の文字列に分解され、各文字列は位置を一意に定める文書番号、要素内容番号、要素ID、文字の出現順位(順番)または出現位置(要素内容における相対的・絶対的位置)の情報で与えられる文字列位置情報205を作成する。たとえば、文字列「構造化・・」は2文字連鎖の文字列「構造」、「造化」に分解し、文字列が出現する要素内容番号2、5、8に従い「構造」の文字列位置情報206と「造化」の文字列位置情報207に格納する。この時、2番目の<章>の<段落>にある文字列「構造化」を検出する構造化検索は、<章>の要素ID「3」と<段落>の要素ID「5」を要素ID表202より検出し、2番目の<章>をノード表204の要素ID欄の「3」を計数して、2番目の<章>の要素内容番号に対応している要素を求め、その要素の要素終端番号までの範囲における要素ID「5」の要素として要素内容番号「8」を検出する。以上で、構造化文書の構造検索として該当する要素が検出される。この構造検索で検出された要素内容番号「8」と文書番号をもとに文字列位置情報の文字の連続性を検出し(たとえば、「構造化」は「構造」の位置情報の次の値が「造化」の位置情報となる)、上記構造化文字列検索を行うことが可能となる。
【0010】
図1において、211は終端情報を追加したノード表で、第1の方法ではさらに、ノード表211で示すようにノード情報に要素が子要素を持つかどうかの情報として、終端で子要素がないときは0で、子要素を持つときは1の終端情報を追加し、文書構造における各要素の意味付けを分類し、たとえば、文書の実体情報である要素内容をこの終端情報が0の要素に限定して行ったりして処理の効率を上げることが可能である。
【0011】
図1において、221は終端情報の代わりにノードIDとリーフIDを追加したノード表で、第1の方法ではさらに、ノード表221で示すようにノード情報に要素が子要素を持つ場合は要素IDをノードIDとし、終端で子要素がないときは要素IDをリーフIDとする情報を追加し、文書構造における各要素の意味付けを分類し、たとえば、文書の実体情報である要素内容をリーフIDの要素に限定して行ったりして処理の効率を上げることが可能である。
【0012】
図1(b)において、231は要素の範囲を示す要素終端番号の代わりに要素の終端までの差分を要素範囲としたノード表である。この時、要素の範囲は、その要素の要素内容番号に要素範囲を加えた要素内容番号の要素までである。この方法は、図1でのノード表204、211、221において要素終端番号の代わりに用いることができる。
【0013】
図2は本発明の多言語文書を管理する文書処理装置の構成を示したものである。
【0014】
図2において、101は構造化文書を読み込み構造を要素毎に分解し構造化文書のタグに応じて要素毎にデータを取り込む文書入力部、102は文書入力部より文書の構造とタグ名を取り込みタグ名を一意に対応づける要素IDを作成する要素ID作成部、103はタグ名の要素IDを記憶する要素ID格納部、104は取り込んだ構造化文書の要素ID表と構造をもとに各要素の要素内容番号、要素ID、要素終端番号、終端情報を要素のノード情報として作成する文書構造情報作成部、105は各要素のノード情報を格納するノード情報格納部、106は取り込んだ構造化文書の各要素に出現する文字列を2文字の文字列に分解し各文字列の位置を構造化文書の文書番号、出現した要素の要素内容番号、要素IDと、要素内の出現位置により文字列位置情報を作成する文字位置索引作成部、107は文字位置索引作成部106が作成する文字列位置情報を格納する文字位置情報格納部、108は構造化文書文字列検索の条件を入力する検索条件入力部、109は検索条件入力部108の構造化検索条件に応じて要素ID格納部103とノード情報格納部105から構造検索を行い該当する要素の検出を行う構造化検索部、110は検索条件入力部108の文字列検索条件の文字列に応じて構造化検索部109で検出する要素と文字位置情報格納部107から該当する文字列を検出する文字列検索部である。
【0015】
要素の範囲をその要素の要素内容番号から要素終端番号204までの範囲として求め、構造化文書203を入力すると、構造化文書203の構造情報を要素ID格納部103およびノード情報格納部105に格納し、構造化文書203の各要素内容に含まれる文字情報を文字位置情報格納部107に格納し、構造化文書の検索時に構造化検索を前記要素ID格納部103およびノード情報格納部105の情報より行い、文字列検索を前記文字位置情報格納部107より行って、文字列検索の該当する要素内容番号から構造化条件に該当する要素内容番号204を検出することにより、文字列検索部110より該当する文書番号と要素内容番号が出力される。以上により構造化文書の登録と構造化文書の構造化文字列検索が可能となる。
【0016】
(実施の形態2)
本発明の第2の方法による文書処理装置は、図1の構成と同じ構成で実現することができる。図3は、本発明の第2の文書処理方法の概念を示している。
【0017】
図3において、301は要素の位置関係を要素の親要素の要素内容番号を親要素番号、親要素内におけるこの要素と同じ要素名要素における出現の順位を同一要素順位として設定するノード情報である。このとき、本発明の登録方法では入力する文書203の構造を要素ID表202に従い要素内容番号が1の<本文>は要素IDが1で親要素がないので親要素番号と同一要素番号は空欄で、要素内容番号が2の<タイトル>は要素IDが2で要素内容番号が1の親要素をもつので親要素番号が1で同一要素順位は1、要素内容番号が3の<章>は要素IDが3で要素内容番号1の親要素をもつので親要素番号が1で同一要素順位は1である。以下それぞれ要素は要素内容番号4から8に応じてノード表301のノード情報が格納される。この時、要素内容番号が6の<章>では要素IDが3でこの要素の出現はこの要素をもつ親要素<本文>内で2番目であるから同一要素順位は2となる。この時、2番目の<章>の<段落>にある文字列「構造化」を検出する構造化検索は、<章>および<段落>の要素IDを要素ID表202より検出し、2番目の<章>をノード表301の要素ID欄の「3」を計数して、2番目の<章>の要素内容番号「6」に対応している要素を求め、その要素を親要素とする要素を親要素番号欄より検出してその要素の範囲の子要素の要素内容番号「7」「8」を得る。これらの要素の要素IDと求める<段落>の要素ID「5」を照合し目的の要素として要素内容番号「8」を検出する。以上により、構造化文書の構造検索として該当する要素が検出される。この構造検索の結果の要素内容番号「8」と文書番号をもとに文字列位置情報の文字の連続性を検出し(たとえば、「構造化」は「構造」の位置情報の次の値が「造化」の位置情報となる)、上記構造化文字列検索を行うことが可能となる。
【0018】
図3において、311は終端情報を追加したノード表で、第1の方法ではさらに、ノード表311で示すようにノード情報に要素が子要素を持つかどうかの情報として、終端で子要素がないときは0で、子要素を持つときは1の終端情報を追加し、文書構造における各要素の意味付けを分類し、たとえば、文書の実体情報である要素内容をこの終端情報が0の要素に限定して行ったりして処理の効率を上げることが可能である。
【0019】
要素の範囲をその要素内容番号を親要素番号にもつ子要素をノード情報により検出し、これを要素内容番号の最後まで繰り返して求め、構造化文書203を入力すると、構造化文書203の構造情報を要素ID格納部103およびノード情報格納部105に格納し、構造化文書203の各要素内容に含まれる文字情報を文字位置情報格納部107に格納し、構造化文書203の検索時に構造化検索を前記要素ID格納部103およびノード情報格納手段105の情報より行い、文字列検索を前記文字位置情報格納部107より行って、文字列検索の該当する要素内容番号から構造化条件に該当する要素内容番号を検出することにより、構造化文書検索を行う。
【0020】
(実施の形態3)
図4は、本発明の第3の文書処理方法の概念を示している。
【0021】
図4において、401は要素の位置関係を要素の要素内容番号とその要素ID、要素の出現する階層を最上位を1とした階層番号を格納するノード表である。この時、要素内容番号は、要素の出現する順に振られ、結果的にグラフアルゴリズムにおける深さ優先の順位で番号付けされ、構造化文書202の場合は、ノード表401のように番号付けられる。本発明の登録方法では入力する文書203の構造を要素ID表202に従い要素内容番号が1の<本文>は要素IDが1でこの要素の出現する階層は階層番号が1、要素内容番号が2の<タイトル>は要素IDが2でこの要素の出現する階層は階層番号が2、要素内容番号が3の<章>は要素IDが3でこの要素の出現する階層は階層番号が2、要素内容番号が4の<章題>は要素IDが4でこの要素の出現する階層は階層番号が3、要素内容番号が5の<段落>は要素IDが5でこの要素の出現する階層は階層番号が3となる。以下それぞれ要素は要素内容番号6から8に応じてノード表401のノード情報が格納される。この時、2番目の<章>の<段落>にある文字列「構造化」を検出する構造化検索は、<章>の要素ID「3」と<段落>の要素ID「5」を要素ID表202より検出し、2番目の<章>をノード表401の要素ID欄の「3」を計数して、2番目の<章>の要素内容番号「6」に対応している要素を求め、その要素の範囲をその要素内容番号に続けて要素の階層より1つ下の階層番号までの範囲(ここでは要素内容番号が6以上で階層番号が2の要素内容番号「7」、「8」の要素が該当する)における要素ID「5」の要素として要素内容番号「8」を検出する。以上で、構造化文書の構造検索として該当する要素が検出される。
【0022】
この構造検索で検出された要素内容番号「8」と文書番号をもとに文字列位置情報の文字の連続性を検出し(たとえば、「構造化」は「構造」の位置情報の次の値が「造化」の位置情報となる)、上記構造化文字列検索を行うことが可能となる。
【0023】
図4において、411は終端情報を追加したノード表で、第3の方法ではさらに、ノード表411で示すようにノード情報に要素が子要素を持つかどうかの情報として、要素が終端で下位層がないときは0、終端でなく下位層があるときは1の終端情報を追加し、文書構造における各要素の意味付けを分類し、たとえば、文書の実体情報である要素内容をこの終端情報が0の要素に限定して行ったりして処理の効率を上げることが可能である。
【0024】
図2において、要素の範囲をその要素内容番号の下位の階層番号401から検出し、構造化文書を入力すると、構造化文書の構造情報を要素ID格納部103およびノード情報格納部105に格納し、構造化文書の各要素内容に含まれる文字情報を文字位置情報格納部107に格納し、構造化文書の検索時に構造化検索を要素ID格納部103およびノード情報格納部105の情報より行い、文字列検索を文字位置情報格納部107より行って、文字列検索の該当する要素内容番号から構造化条件に該当する要素内容番号を検出することにより、構造化文書検索を行う。
【0025】
(実施の形態4)
図5は、本発明の第4の文書処理装置のブロック構成図を示し、図9で文書処理装置で格納する索引情報を、図10では文書検索の例を示す。
【0026】
はじめに使用するデータとその構造を説明する。図6は本発明の構造化文書の文書構造601と検索対象としての構造化文書データの例602である。601では、構造化文書のタグ名を<>で囲まれた文字列とする。601において、<資料>をルートとして<ヘッダ>、<章>がその子、以下<タイトル><節><説明文>が子としてつながっている構造を持っている。この構造に対して602に構造化文書データがタグ<要素名>で囲まれ、そのタグ<要素名>の内容として開始タグ<要素名>と終了タグ</要素名>となっている。
【0027】
本発明のブロック図に戻って、文書構造入力部501は、上記601の構造を読み取り、要素ID表作成部502が、文書構造を識別し、要素IDとその番号を作成する。作成する表は図7の701、702である。たとえば、702において602の要素にしたがって要素IDで<資料>が1、<ヘッダ>が2、<説明文>が4、以下同様に作成され要素ID表格納部503に格納される。さらに文書構造要素階層表作成部504は、各要素IDに対して親の要素IDを作成する。702の例では<説明文>に対する親は、<ヘッダ>と<節>が要素名として存在することから2と6を親の要素ID1,2として格納する。以下同様に親の要素および子の要素を作成し、701と702の表を作成し文書構造要素階層表データとして文書構造要素階層表格納部505に格納される。
【0028】
また、文書構造要素階層表格納部505で作成された文書構造要素階層表データをもとにして、構造化文書データ602を要素に分解する。最初に図5の文書入力部506で構造化文書データ602を読み取り文書番号を付与し、文書構造要素順位作成部507は文書構造要素階層表データにしたがって要素ごとに分解する。図8の801は分解された図である。このとき、同一要素IDに対する要素名が複数存在する場合には、要素ID別に出現の回数を記憶する。たとえば、要素ID=6の<節>の場合には4個が出現することから<節>(1)〜<節>(4)と番号がふられる。また<章>の場合には▲1▼▲2▼がふられる。
【0029】
一方、文字位置索引作成部508では要素ID別かつ文字種別に文字位置の出現位置を計算する。たとえば、図6の602の10行目、<説明文>の要素は「全文検索の方法は…」であり、文字種「全」は1番目、「文」は2番目となっている。
【0030】
次に、図5の索引情報格納部509は、図8の文書構造と前記文字位置索引作成部の結果を合わせて、図9の索引情報を作成する。図9において索引情報は901のように、文字種および連続する文字連鎖ごとに文書番号と親の要素ID、親と同じ要素IDの出現順位、自分の要素ID、文字位置情報を格納する。たとえば902のように「全文検索…」の場合には、文字種(全)と文字種(文)から(全、文)の組み合わせに対して索引情報を作成し、同じく(文、検)の組み合わせに対しても索引情報を作成する。このとき索引情報のソートの順位は前記索引情報格納手段の索引情報が文字種が含まれる文書IDと、文字種が含まれる親の要素IDと、文字種が含まれる親の要素IDに対する同一文書の出現順位と、文字種が含まれる要素IDと、同一要素ID内での文字位置情報の順番で格納し、かつ各情報は優先度を持ってソートされ、ソートの優先順位は、文字種が含まれる要素ID、親の要素ID、親の要素IDに対する同一文書の出現順位、文書番号、文字位置情報となるように索引情報を格納するようにしている。
【0031】
904には(全、文)と(文、検)の索引情報の例が示されている。904では、<説明文>ID=4での親のIDが6(=節)であり、節の順位は1、2、4である(図8の節の( )の数字参照)。この時の文字種「全」の文字位置が1となっている。同様にして(文、検)については「文」の文字位置は2である。なお、文書番号はともにNの場合とした。
【0032】
次に図10で文字列を指定した時の検索と、要素を指定した時の検索の処理の流れを説明する。
【0033】
図10(a)で文字列を「全文検」として説明する。図5において検索条件入力部510が図10(a)の文字列「全文検」を読み取り、構造化文書検索部511が図7の文書構造要素階層表格納データを取得する。ここでは要素名、IDが指定されていないことからに文字列検索部512が(全、文)と(文、検)に分解し、各々の文字種を含む索引情報から文字種が連続しているかどうかを調べる。図10(b)において2つの索引情報1001、1002から1004の文字位置1と1005の文字位置2を算出しかつ文書番号Nが一致していることから文書番号Nを取り出す。
【0034】
次に要素を指定した時の検索として図10(c)の4番目の<節>で<説明文>に「全文検」が含まれる検索条件の場合の文書および要素の取得を考える。この時、図5の構造化要素検索部511が図5の要素照合部513に文書構造要素階層表データを送付し、要素照合部512は索引情報格納部509から文字種別の索引情報を取得する。すなわち図10(d)において(全、文)の索引情報1007と(文、検)の索引情報1008を取得する。照合の方法は、<節>の4番目であることから、親の要素ID=6(1010)であり要素IDの出現回数は4(1009)、しかも<説明文>の要素ID=4(1008)であることから、文書番号はNを取得し、さらに要素の組み合わせは1013として、(文、検)に対しても1013の組み合わせで照合を実施する。これに該当するのは1014であることから、要素照合部512は文字列照合部513に1013と1014を含む索引情報を送付する。文字列照合部514は、(全、文)の文字位置が1、(文、検)の文字位置が2であることから一致していると判断し、検索結果として1013、1014の索引情報を照合結果をして返し、結果として文書番号Nを取得することができる。
【0035】
(実施の形態5)
図11は、本発明の第5の文書処理装置のブロック構成図を示し、図12で文書処理装置で追加される階層関係を記述した要素情報を、図13では文書検索の例を示す。使用するデータは実施の形態4と同様である。索引情報の格納に関する処理の流れは実施の形態4と同様である。したがって図7,9、10に関しては実施の形態4と同様である。また、図11のブロック図では1101〜1113までは図5の501〜513までと同様となっており番号のみ付け替えて本実施の形態で説明する。
【0036】
図11において、文書構造要素順位作成部1107(図5では507)では、構造化文書の親子の関係を図12で示すような親子表を作成し、要素順位格納部1114に格納する。これはタグ<>の関係のみを記述した表であり、要素IDに対するそのIDに対する同一文書の順位と子の要素IDと子の要素IDに対する同一文書の順位を格納した表である。たとえば、1101において要素ID=1<資料>に対しては、子の要素IDは<ヘッダ>ID=2、と<章>ID=5が存在し、<章>に対しては出現回数が1と2が存在する。
【0037】
同様に、1102において要素ID=5<章>に対しては、出現回数1についての<章>の子の要素IDは<タイトル>ID=3、と<節>ID=6が存在し、<節>に対しては出現回数が1と2が存在する。以下同様に、<章>に対しては、出現回数2についても表として作成される。
【0038】
次に図13で文字列と要素IDの範囲を指定した時の文書番号と要素番号を取得する検索の処理の流れを説明する。
【0039】
図10(a)の<節>の出現回数が2番目以上で<説明文>に「全文検」が含まれる検索条件の場合の文書および要素の取得を考える。この時、図11の構造化要素検索部1111が図7より(節のID番号、説明文の要素ID)が(6、4)を判定し(図13(b))、さらに図11の要素照合部1112に文書構造要素階層表データを送付し、要素照合部1112は索引情報格納部1109から文字種別の索引情報を取得する。すなわち図13(c)において(全、文)の索引情報1301と(文、検)の索引情報1302を取得する。照合の方法は、<節>の要素ID=6、<説明文>の要素ID=4であることから、1304で<説明文>でありことを探索し、1310で要素ID=6であることから1303全てが候補になることを絞り込む。続いて、<節>の出現回数が2以上であることから、親の出現回数1303で2と4が候補となる。同様に(文、検)の文字連鎖に対しても1306で<説明文>に対して1305で2、4が候補となり、さらに図11の文字列検索部1113で文字の連続性(1301の文字位置が1、1302の文字位置が2)を判定し、該当文書番号Nを取得する。
【0040】
一方、要素照合部1112は要素順位格納部1114から、子の要素ID=6、子の要素IDの出現回数が2と4の親の要素IDを検索する。図13(d)において1307は要素順位格納部のデータであり、子の要素ID=6(1308)に注目して、子の要素IDの出現回数が2、4の子の要素IDと子の要素IDの出現回数の組み1309(6,2)、1310(6,4)を検出するため、さらに1309、1310を含む親の要素IDと出現回数の組み合わせを探し、1311(5,1)、1312(5,2)を取得する。取得した結果を文字列検索部1112に送付し、すでに文字列検索を実施した結果とあわせて、文書番号、要素番号6、親の要素番号5、子の要素番号6が付与される。
【0041】
(実施の形態6)
図15は、本発明の第6の文書処理装置のブロック構成図を示し、図15で文書処理装置で格納する索引情報の例を示す。
【0042】
はじめに使用するデータとその構造を説明する。図14は本発明の構造化文書の文書構造1401と検索対象としての構造化文書データの例1402である。601との相違は<章>の子として<補足>というタグが入ったことであり、1402のデータでは1402の行番号7の下Aの行と、1402の行番号15の下のBの行が新たに挿入された場合の索引の管理方法について記述したものである。
【0043】
文字位置情報に関して索引情報の格納に関する処理の流れは実施の形態4と同様である。したがって図7、9、10に関しては実施の形態4と同様である。また、図15のブロック図では1501〜1513までは図11の1101〜1113までと同様となっており番号のみ付け替えて本実施の形態で説明する。
【0044】
図15において、文書構造変更入力部1710は、1401の構造を読み取り、要素番号変更部1711に通知する。要素番号変更部1711は要素ID表作成部1702と要素ID表格納部1703から作成された図7に対して、追加された要素名、要素IDを検出し、要素階層関係変更部1712に検出結果(要素名、要素番号)を通知する。要素階層関係変更1712は、検出結果をもとに図161601に示すように要素名が追加された場合の親子関係を作成する。この際、追加された要素名に対しては、「入れ替え」の列を設け、その列の中に新しい要素ID=7を追加し(1602を参照)、文書構造要素階層格納部1705に格納する。
【0045】
続いて、文書構造要素順位作成部1707は、図10(b)の1503に示すような要素順位格納データを書き換える。要素ID=7の親の要素である<章>要素ID=5の出現回数1の子の要素IDとして配置され(1604)、同時に要素ID=7の子の要素ID=6(要素名では<節>)の親の要素IDとして配置される(1605)。
【0046】
次に図16の場合の文字列を指定した時の検索、および要素を指定した時の検索の処理の流れであるが、索引情報に関しては検索処理の変更点は発生しないため実施例4,5の場合と同様である。本発明により構造が挿入された場合の索引の変化を最小にとどめる工夫がされている。
【0047】
【発明の効果】
以上のように本発明は、文書処理における構造化文書の登録および構造化文書検索において、構造化情報を格納するノード表から構造化条件に対応する要素を抽出し、該要素において出現する文字位置情報を格納する文字位置情報から検索文字列条件に該当する文字列を検出し、構造化文書検索の目的を達成することができる。また、要素の範囲および任意の位置関係においても構造の階層の制限を受けることなく対応できる。さらに、特定の要素の追加、削除などの登録処理に対しても柔軟に対応することができ、その効果は大きい。
【図面の簡単な説明】
【図1】本発明の第1の方法による構造化文書処理方法を示す概念図
【図2】本発明の第1の方法による文書処理装置のブロック構成図
【図3】本発明の第2の方法による構造化文書処理方法を示す概念図
【図4】本発明の第3の方法による構造化文書処理方法を示す概念図
【図5】本発明の第4の方法による文書処理装置のブロック構成図
【図6】本発明の第4、第5の方法による構造化文書データの例を示す図
【図7】本発明の文書構造要素階層表データの説明図
【図8】本発明の第4、5の方法による構造化文書の構造図
【図9】本発明の第4の方法による構造化文書処理方法を示す概念図
【図10】本発明の第4の方法による文書検索の概念図
【図11】本発明の第5の方法による文書処理装置のブロック構成図
【図12】本発明の第5の方法による構造化文書処理方法を示す概念図
【図13】本発明の第5の方法による文書検索の概念図
【図14】本発明の第6の方法による構造化文書データの例を示す図
【図15】本発明の第6方法による文書処理装置のブロック構成図
【図16】本発明の第6の方法による構造化文書処理方法を示す概念図
【符号の説明】
103 要素ID格納部
105 ノード情報格納部
107 文字位置情報格納手段
109 構造化検索部
110 文字列検索部
503 要素ID表格納手段
504 文書構造要素階層表格納手段
507 文書構造要素順位作成手段
508 文字位置索引作成手段
509 索引情報格納手段
512 要素照合部
513 文字列検索部
1104 文書構造要素階層表作成部
1107 文書構造要素順位作成部
1109 索引情報格納部
1113 要素照合部
1511 構造化要素検索部
1512 要素照合部
1514 要素順位格納部
1517 要素階層関係変更部

Claims (1)

  1. 構造化文書のタグまたは文書型定義から得られる要素名とその要素名に対応する識別番号である要素IDを格納する要素ID格納手段と、構造化文書に出現する要素内容の位置をその要素の文書における出現の順位で表わした要素内容番号と、その要素の要素IDと、その要素の親要素の要素内容番号である親要素番号と、その要素の親要素内における同一要素の出現順位を示す順位番号を格納するノード情報格納手段と、要素内容に出現する文字の出現位置の情報をその要素内容番号、要素IDとともに格納する文字位置情報格納手段を備え、要素の範囲をその要素内容番号を親要素番号にもつ子要素をノード情報により検出し、これを要素内容番号の最後まで繰り返して求め、構造化文書を入力すると、構造化文書の構造情報を要素ID格納手段およびノード情報格納手段に格納し、構造化文書の各要素内容に含まれる文字情報を文字位置情報格納手段に格納し、前記要素ID格納手段およびノード情報格納手段の情報より構造化検索を行い、文字列検索を前記文字位置情報格納手段より行って、文字列検索の該当する要素内容番号から構造化条件に該当する要素内容番号を検出することにより、構造化文書検索を行うことを特徴とする文書処理装置。
JP2000073807A 2000-03-16 2000-03-16 文書処理装置 Expired - Fee Related JP3719089B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000073807A JP3719089B2 (ja) 2000-03-16 2000-03-16 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000073807A JP3719089B2 (ja) 2000-03-16 2000-03-16 文書処理装置

Publications (2)

Publication Number Publication Date
JP2001265773A JP2001265773A (ja) 2001-09-28
JP3719089B2 true JP3719089B2 (ja) 2005-11-24

Family

ID=18591990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000073807A Expired - Fee Related JP3719089B2 (ja) 2000-03-16 2000-03-16 文書処理装置

Country Status (1)

Country Link
JP (1) JP3719089B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223455B2 (en) * 2009-10-02 2019-03-05 Aravind Musuluri System and method for block segmenting, identifying and indexing visual elements, and searching documents
WO2018185921A1 (ja) 2017-04-06 2018-10-11 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3887867B2 (ja) * 1997-02-26 2007-02-28 株式会社日立製作所 構造化文書の登録方法
JP3692764B2 (ja) * 1998-02-25 2005-09-07 株式会社日立製作所 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
JP3287307B2 (ja) * 1998-06-19 2002-06-04 日本電気株式会社 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2001265773A (ja) 2001-09-28

Similar Documents

Publication Publication Date Title
US20190026300A1 (en) Indexing and search query processing
CN1728142B (zh) 信息检索系统中的短语识别方法和设备
US7917493B2 (en) Indexing and searching product identifiers
US8504553B2 (en) Unstructured and semistructured document processing and searching
Embley et al. Record-boundary discovery in Web documents
Liu et al. Mining data records in web pages
Lu et al. Annotating structured data of the deep Web
US20050267902A1 (en) Database and method of generating same
KR100638695B1 (ko) 구조화 문서의 데이터를 검색하는 장치 및 방법
JP2001167087A (ja) 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法
JP2009211263A (ja) 情報検索システム、方法及びプログラム
JP2006185408A (ja) データベース構築装置及びデータベース検索装置及びデータベース装置
Chang et al. Applying pattern mining to Web information extraction
Klampfl et al. Reconstructing the logical structure of a scientific publication using machine learning
JP3719089B2 (ja) 文書処理装置
JP2004078446A (ja) キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
US20050154703A1 (en) Information partitioning apparatus, information partitioning method and information partitioning program
JP5894273B2 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
Putra et al. BudayaKB: Extraction of cultural heritage entities from heterogeneous formats
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP2002202973A (ja) 構造化文書管理装置
US20080033953A1 (en) Method to search transactional web pages
JP3578045B2 (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JP2002297603A (ja) 情報抽出方法および構造化文書管理装置およびプログラム
JP2001195400A (ja) 文書文脈構造化方法及び装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050602

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050829

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080916

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees