JP3573471B2 - Full-text database search method - Google Patents

Full-text database search method Download PDF

Info

Publication number
JP3573471B2
JP3573471B2 JP09108093A JP9108093A JP3573471B2 JP 3573471 B2 JP3573471 B2 JP 3573471B2 JP 09108093 A JP09108093 A JP 09108093A JP 9108093 A JP9108093 A JP 9108093A JP 3573471 B2 JP3573471 B2 JP 3573471B2
Authority
JP
Japan
Prior art keywords
component
search
document
phrase
search request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP09108093A
Other languages
Japanese (ja)
Other versions
JPH06301721A (en
Inventor
浩史 太田
泰嗣 野村
徹也 紅林
清志 山田
正光 根岸
敬三 大山
彰 宮澤
耕司 芝野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP09108093A priority Critical patent/JP3573471B2/en
Publication of JPH06301721A publication Critical patent/JPH06301721A/en
Application granted granted Critical
Publication of JP3573471B2 publication Critical patent/JP3573471B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、予め人手によるキーワードの作成を必要とせずに文章に含まれる全ての単語を検索対象とすることが可能である全文データベース検索方法、特に論理的構造をもった文書データをデ−タベ−スとして格納し検索するデータベース検索方法に関する。
【0002】
【従来の技術】
従来の文書検索方式では、キーワード作成に必要とする工数およびキーワードの付け方が悪かったことによるヒット漏れの問題を解決する方法として、文献全文を検索対象とする全文デーベース検索方式が用いられている。しかし、この全文データベース検索方式では全文書が検索範囲となり、無駄なヒットが生じる。この問題を解決する手段として、文書の論理構造を指定して検索要求を行ない、検索効率を上げる方法が用いられている。このような検索を行う検索方式として、文書を何らかの方法で分解し蓄積して、検索処理を行うものがある。このような検索方式の公知例として、例えば、特開平01−189721号公報、特開平01−189722号公報では、文書を予め設定された複数の軸により整理して文書を格納し、検索時にはそれらの軸により検索を指定する方式がある。しかし、この手法では文書構造を指定した検索処理は行えない。また、特開平03−62169号公報では、文書を画像、図形、テキストの情報に分離し各メディアごとにデ−タの構造を自動的に抽出し分解し、マルチメディアファイルとして格納し検索を行う。
【0003】
【発明が解決しようとする課題】
上記従来技術では、文書の分解を画像、図形、テキストなどのメディアごとに、行い、マルチメディア情報としてデ−タベ−スに格納するために、画像、図形に対する検索要求を実行することが可能である反面、専用のマルチメディアデ−タベ−ス管理システムを開発する必要がある。
【0004】
本発明の目的は、論理的構造をもった文書をその構成要素単位に分解し、汎用のリレーショナルデータベースに格納することにより、デ−タベ−ス利用者が認識している文書構造と検索システムが認識しているデ−タ構造を一致させ、その文書構造情報を含む検索要求をリレーショナルデータベース検索用の記述言語で記載することにより、文書の構造情報を含む検索要求文の指定による検索結果の表示を可能とする全文デ−タベ−ス検索方法を提供することにある。
【0005】
【課題を解決するための手段】
本発明は、文書の構成要素単位で文書を分解して、文書の論理的構造を示す構造情報と、この構成要素を識別するための構成要素識別子例えばタグと、この構成要素識別子に続くテキスト情報とを含むデ−タベ−スを作成するデ−タベ−ス作成ステップと、入力された構成要素識別子を含む検索要求文をデ−タベ−ス検索用の言語記述に変換する検索要求文生成ステップと、検索要求文生成ステップにより生成される検索要求文に基づいてデータベースを検索するステップと、得られた検索結果を構成要素識別子とこれに続くテキスト情報の形式に変換する検索結果編成ステップと、この検索結果を表示する表示ステップとを設ける。
【0006】
【作用】
論理的構造をもった文章の全文データベース検索処理において、デ−タベ−ス作成ステップでは入力される原文書を分割し、文書の構造情報と、その構成要素を識別するための構成要素識別子と、構成要素識別子に続くテキストとを含むデ−タベ−スを作成し、検索要求文生成ステップでは検索処理の際に指定される検索要求文を文書の論理的構造とデ−タベ−ス構造の対応関係をもとにデ−タベ−ス検索用の言語記述に変換し、検索結果編成ステップでは検索処理の結果得られる文書デ−タをそのID、順序番号をもとにソ−トして結合することにより文書の構造情報を含む言語記述に変換し、表示ステップでは表示装置に検索結果を表示することにより、文書の構造情報を含む検索要求文の指定と、検索結果の表示を可能とする。
【0007】
【実施例】
以下、本発明の一実施例について図面を用いて説明する。
【0008】
図1は本発明の一実施例のシステム構成図である。本実施例では、原文書はSGMLで記載され、デ−タベ−ス管理システムとのインタ−フェ−スにはSQLを用いるものとする。SGML(Standard Generalized Markup Language)とは、ISO(国際標準機構)で定められた規格で、文書を構造化することを可能とする汎用組版指示言語である。SQL(Structured Query Language)はリレ−ショナルデ−タベ−スの標準処理言語である。SGMLを用いた文書の構造の表現にはタグが用いられる。タグには開始タグと終了タグとがあり、文書構造情報の構成要素を開始タグと終了タグで囲むことにより、文書中の文章の区切りと、その文章が文書構造上どの構成要素に属するのかを明確にする。ここで開始タグは要素名称を記号「<」と「>」で閉じたものであり、終了タグは要素名称を「</」と「>」で閉じたものである。タグに続く構成要素の内容がテキストである。検索対象である構造情報を含む文書は、タグとテキストからなる。
【0009】
図1に基づいて本発明を実現するシステム構成を説明する。本発明は、SGMLサーバ1および汎用のリレーショナルデータベース管理システム2により構成され、さらにSGMLサーバ1はデータベース作成部3、SQL生成部4、SGML再作成部5により構成される。データベース作成部3は文書構造情報を内部に持つ言語の1つであるSGML11で記載された原文書を入力し、入力されたSGMLに基づいてリレーショナルデータベース管理システム2にデ−タベ−スのテ−ブル定義を行うための言語であるDDL(Data Definition Language)12を発行することにより、SGMLによる構造情報7、タグ情報8、テキスト情報9のテーブルを作成し、SGMLを用いた原文書デ−タのデータ13を格納する。SQL生成部4ではワークステーション10より文書構造を指定可能な検索言語DQL(Document Query Language)で作成される検索要求16を入力し、SQL14を用いた検索要求文を作成し、リレーショナルデータベース管理システム2に対して検索要求を発行する。SGML再作成部5では、リレ−ショナルデ−タベ−ス管理システム2でSQL生成部4により生成され、SQL14を用いた検索要求文により検索された検索結果15について構造情報7を用いてタグを含むSGML17を編成し、ワークステーション10に表示する。
【0010】
図2(a)は、図1のSGML11で表現される文書の論理構造のモデルであり、一般誌101が表紙102より段落109までの8つの構成要素により構成されている。図2(b)は、SGMLで表現される文書の構成要素の性質を示す図の一例である。
【0011】
図3は論理構造を持つSGMLで表現される文書の一例であり、タグ201より208を用いてテキスト211より214の論理構造が表現されている例である。
【0012】
図4から図6は、図2、図3のSGMLで表現される文書をリレーショナルデータベースに格納する場合の各テ−ブルデ−タフォ−マットの一例である。図4の構造情報テーブルのデ−タフォ−マットは図2(a)、(b)のモデルをテーブル化したもので、上下の構造を各要素のタグ302にタグID301を付加するとともにその上位タグID303と関係付け、同一階層にある構成要素間の定義される順序は順序番号304として、その定義の順序に従って表し、タグが出現するか否かは連結タイプ305として表わす。
【0013】
図5のタグ情報テーブルのデ−タフォ−マットは図4のタグの階層毎に作成するものであり、図3のSGMLのタグごとにIDを付加し、その上位レベルで出現したタグのタグIDとともに格納される。同一文書で同一種のタグに対して複数回出現する可能性のあるタグに対しては著者タグテーブル504の著者NO.423のようにNO.を付加する。
【0014】
図6のテキスト情報テーブルのデ−タフォ−マットはSGMLで記載された原文書から分解されたテキストをその要素別にそのタグID及び文書中での一連の通し番号であるテキストNO.を付加して格納するものである。
【0015】
図4から図6のIDの付け方は一例であり、キーとしてユニークなものであれば良い。
【0016】
図7は本発明によるデ−タベ−ス検索処理の流れで、図8は本発明によるデ−タベ−ス検索処理の実行例である。ワ−クステ−ション10からDQLに従って入力された検索要求は、SQL生成部4で処理される。例えば、「章に「印刷」を含む一般誌の表紙」という検索要求が、DQL701としてワ−クステ−ション10より入力される。DQL701のFROM句712より図2の文書構造情報を呼出し(601)、DQL701のWHERE句713の「章」は構成要素として章106、表題107、節108、段落109を持ち、テキストを持つ要素は表題107、節108、段落109であることが分かる。、テキストを持つ図6の表題テキスト513、節テキスト514、段落テキスト515のそれぞれのテ−ブルに対してWHERE句713の「LIKE’%印刷%」を展開し(602)、表題ID417、節ID418、段落ID419を求め、さらにそれぞれのIDが図5の表題タグ507、節タグ508、段落タグ509の其れ其れのテ−ブルで一致する上位構造の要素である章IDを求めるというようにWHERE句713で指定した構成要素の章IDが得られるまで図5のテ−ブルに検索を行い、さらにそれら全てを組み合わせるSQLを用いた検索要求文を作成する。図2の文書構造情報から、SELECT句711とWHERE句713で指定される「表紙」と「章」の要素間の階層の上下関係がないと判定し(603)、図2の文書構造情報から表紙102と章106の最も下位レベルで共通の上位要素として存在する一般誌101が最終的に求める要素IDと決定され(605)、図5の章タグ506のテ−ブルで章IDが一致する本文ID415を得るというように、一般誌IDが得られるまで図5のテ−ブルに検索を行うように繰返し展開し(607)、最終結果を一時テ−ブルに格納する。指定された検索要求をSQLで記載された検索要求文に変換し、SQLで記載された検索要求文702を完成させ検索を実行する。SELECT句711で指定されている要素「表紙」は、図2の文章構造情報から表紙102−題名103、表紙102−著者104という2通りの経路でテキストを持つ構造にたどりつくことが分かり、処理607で求められた一時テ−ブルの一般誌ID101の下位に存在する全要素のIDとテキストの順序番号と内容を得られるようなSQL731とSQL732をそれぞれの経路で作成して実行し、検索結果741と検索結果742を得る(608)。検索結果741と検索結果742の表紙IDが一致していることと順序番号から、同一の表紙に属し、題名「よくわかるDQL」、著者「日立太郎」の順で並んでいることを解析する(609)。処理610で処理609で解析されたテキストにタグを付加し、SGMLに従った検索結果文705を編成する(610)。
【0017】
【発明の効果】
本発明によれば以下のような効果が得られる。
【0018】
論理的構造をもった文書を検索する処理において、文書をその構成要素単位に分解し、デ−タベ−スに格納し、それを検索し、検索結果を構成要素識別子とテキスト情報の形式に変換し表示することにより、特定の言語を用いる論理的構造情報を含む検索要求文の指定と、構造情報を含む検索結果の表示が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例のシステム構成を示す図である。
【図2】論理的文書構造のモデルを示す図及び論理的構造情報である文書の種類の一例を示す図である。
【図3】SGML文書の一例を示す図である。
【図4】リレ−ショナルデ−タベ−ス管理システムに格納する構造情報テ−ブルの一例
である。
【図5】リレ−ショナルデ−タベ−ス管理システムに格納する構造情報記号テ−ブルの
一例を示す図である。
【図6】リレ−ショナルデ−タベ−ス管理システムに格納するテキスト情報テ−ブルの
一例を示す図である。
【図7】本発明における検索処理の流れの一例を示す図である。
【図8】本発明における検索処理実行の一例を示す図である。
【符号の説明】
1 SGMLサーバ
2 リレーショナルデータベース管理システム
3 データベース作成部
4 検索要求文生成部
5 検索結果編成部
6 原文書
7 構造情報のデ−タベ−ス
8 タグ情報のデ−タベ−ス
9 テキスト情報のデ−タベ−ス
10 検索用ワークステーション
[0001]
[Industrial applications]
The present invention relates to a full-text database search method capable of searching for all words included in a sentence without the need for manual creation of keywords in advance, and particularly to a method of searching document data having a logical structure. A database search method for storing and searching as a database.
[0002]
[Prior art]
In the conventional document search method, a full-text database search method for searching the entire text of a document is used as a method of solving a problem of hit omission due to a poor man-hour required for keyword creation and poor keyword attachment. . However, in this full-text database search method, all documents become a search range, and a useless hit occurs. As a means for solving this problem, a method has been used in which a search request is made by designating the logical structure of a document to increase the search efficiency. As a search method for performing such a search, there is a method in which a document is decomposed and stored by some method to perform a search process. As a known example of such a search method, for example, Japanese Patent Application Laid-Open Nos. H01-189721 and H01-189722 disclose documents arranged in a plurality of preset axes and store the documents. There is a method to specify the search by the axis. However, this method cannot perform a search process specifying a document structure. In Japanese Patent Application Laid-Open No. 03-62169, a document is separated into image, graphic, and text information, and the data structure is automatically extracted and decomposed for each medium, stored as a multimedia file, and searched. .
[0003]
[Problems to be solved by the invention]
According to the above-mentioned prior art, it is possible to execute a search request for an image or a figure in order to perform decomposition of a document for each medium such as an image, a figure, or a text and to store the information as multimedia information in a database. On the other hand, it is necessary to develop a dedicated multimedia database management system.
[0004]
An object of the present invention is to decompose a document having a logical structure into its constituent elements and store it in a general-purpose relational database so that a document structure and a search system recognized by a database user can be realized. By displaying the search request including the document structure information in a description language for relational database search by matching the recognized data structures and displaying the search result by specifying the search request statement including the document structure information Is to provide a full-text database search method that enables
[0005]
[Means for Solving the Problems]
According to the present invention, a document is decomposed in component units of a document, and structural information indicating a logical structure of the document, a component identifier for identifying the component, for example, a tag, and text information following the component identifier A database creation step for creating a database including the following, and a search request statement generation step for converting a search request sentence including the input component element identifier into a language description for database search. Searching the database based on the search request sentence generated by the search request sentence generating step, and a search result organizing step of converting the obtained search result into a component element identifier and a format of text information subsequent thereto, And a display step of displaying the search result.
[0006]
[Action]
In a full-text database search process for a sentence having a logical structure, an input original document is divided in a database creation step, and structural information of the document, a component identifier for identifying the component, and A database including a text following the component identifier is created, and in the search request sentence generation step, the search request sentence specified at the time of the search processing is associated with the logical structure of the document and the database structure. Based on the relations, it is converted into a language description for database search, and in the search result organizing step, the document data obtained as a result of the search processing is sorted and combined based on its ID and sequence number. In the display step, the search result is displayed on a display device, whereby a search request sentence including the document structure information can be specified and the search result can be displayed. .
[0007]
【Example】
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
[0008]
FIG. 1 is a system configuration diagram of an embodiment of the present invention. In this embodiment, the original document is described in SGML, and SQL is used for an interface with the database management system. SGML (Standard Generalized Markup Language) is a standard defined by ISO (International Organization for Standardization), and is a general-purpose typesetting instruction language that makes it possible to structure a document. SQL (Structured Query Language) is a standard processing language for relational databases. Tags are used to represent the structure of a document using SGML. Tags have a start tag and an end tag. By enclosing the components of the document structure information with start tags and end tags, it is possible to separate the text in the document and to which component in the document structure the text belongs. To clarify. Here, the start tag is obtained by closing the element name with symbols “<” and “>”, and the end tag is obtained by closing the element name with “<//” and “>”. The content of the component following the tag is text. A document including structural information to be searched is composed of a tag and a text.
[0009]
A system configuration for realizing the present invention will be described based on FIG. The present invention comprises an SGML server 1 and a general-purpose relational database management system 2, and the SGML server 1 further comprises a database creating unit 3, an SQL generating unit 4, and an SGML recreating unit 5. The database creation unit 3 inputs an original document described in SGML11, which is one of the languages having document structure information therein, and based on the input SGML, the relational database management system 2 generates a database database. By issuing a DDL (Data Definition Language) 12 which is a language for defining a table, a table of structure information 7, tag information 8, and text information 9 by SGML is created, and original document data using SGML is created. Is stored. The SQL generation unit 4 inputs a search request 16 created in a search language DQL (Document Query Language) from which the document structure can be specified from the workstation 10, creates a search request sentence using the SQL 14, and creates a relational database management system 2. Issues a search request to. The SGML re-creating unit 5 includes a tag using the structure information 7 with respect to the search result 15 generated by the SQL generation unit 4 in the relational database management system 2 and searched by the search request sentence using the SQL 14. The SGML 17 is organized and displayed on the workstation 10.
[0010]
FIG. 2A is a model of a logical structure of a document represented by the SGML 11 of FIG. 1, and a general journal 101 is composed of eight components from a cover 102 to a paragraph 109. FIG. 2B is an example of a diagram showing properties of components of a document expressed in SGML.
[0011]
FIG. 3 is an example of a document represented by SGML having a logical structure, and is an example in which the logical structure of the text 211 to 214 is expressed by using the tag 201 to 208.
[0012]
FIGS. 4 to 6 show an example of each table data format when the document expressed in SGML of FIGS. 2 and 3 is stored in the relational database. The data format of the structure information table shown in FIG. 4 is a tabulation of the models shown in FIGS. 2A and 2B. The order defined between the components in the same hierarchy with the ID 303 is represented by an order number 304 according to the order of the definition, and whether or not a tag appears is represented by a connection type 305.
[0013]
The data format of the tag information table of FIG. 5 is created for each tag hierarchy of FIG. 4, and an ID is added for each SGML tag of FIG. Stored with For a tag that may appear multiple times for the same type of tag in the same document, the author number in the author tag table 504 is set. NO.423. Is added.
[0014]
The data format of the text information table shown in FIG. 6 is obtained by converting the text decomposed from the original document described in SGML into its tag ID and text number, which is a series of serial numbers in the document, for each element. Is added and stored.
[0015]
The method of assigning IDs in FIGS. 4 to 6 is an example, and any ID may be used as long as it is unique.
[0016]
FIG. 7 shows the flow of a database search process according to the present invention, and FIG. 8 shows an example of execution of the database search process according to the present invention. The search request input from the workstation 10 in accordance with the DQL is processed by the SQL generator 4. For example, a search request for “cover of a general magazine including“ print ”in a chapter” is input from the workstation 10 as DQL 701. The document structure information shown in FIG. 2 is called from the FROM clause 712 of the DQL 701 (601). The “chapter” of the WHERE clause 713 of the DQL 701 has a chapter 106, a title 107, a section 108, and a paragraph 109 as constituent elements. It can be seen that the title 107, the section 108, and the paragraph 109 are included. 6, "LIKE '% print%" of the WHERE clause 713 is developed for each table of the title text 513, section text 514, and paragraph text 515 in FIG. 6 (602), and the title ID 417 and the section ID 418 are obtained. , A paragraph ID 419, and a chapter ID which is an element of a higher-order structure whose respective IDs match in the title tag 507, the section tag 508, and the paragraph tag 509 in FIG. Until the chapter ID of the component specified by the WHERE clause 713 is obtained, the table shown in FIG. 5 is searched, and a search request sentence using SQL combining all of them is created. From the document structure information of FIG. 2, it is determined that there is no hierarchical relationship between the elements of “cover” and “chapter” specified by the SELECT clause 711 and the WHERE clause 713 (603), and from the document structure information of FIG. The general magazine 101 existing as a common upper element at the lowest level of the cover 102 and the chapter 106 is determined as the element ID to be finally obtained (605), and the chapter ID matches in the table of the chapter tag 506 in FIG. Until the general journal ID is obtained, the table of FIG. 5 is repeatedly expanded so as to obtain the text ID 415 (607), and the final result is stored in the temporary table. The designated search request is converted into a search request sentence described in SQL, a search request sentence 702 written in SQL is completed, and a search is executed. The element “cover” specified in the SELECT clause 711 is found from the sentence structure information in FIG. 2 to reach a structure having a text in two paths, namely, cover 102-title 103 and cover 102-author 104. SQL731 and SQL732 that can obtain the IDs of all elements existing under the general journal ID 101 of the temporary table, the sequence number of the text, and the contents obtained by the above are created and executed by the respective paths, and the search result 741 is obtained. And a search result 742 is obtained (608). Based on the fact that the cover IDs of the search result 741 and the search result 742 match and the sequence number, it is analyzed that they belong to the same cover, and are arranged in the order of the title “DQL that is easy to understand” and the author “Taro Hitachi” ( 609). In processing 610, a tag is added to the text analyzed in processing 609, and a search result sentence 705 according to SGML is organized (610).
[0017]
【The invention's effect】
According to the present invention, the following effects can be obtained.
[0018]
In a process of searching for a document having a logical structure, a document is decomposed into its constituent elements, stored in a database, searched, and the search result is converted into a form of a constituent element identifier and text information. By displaying the search request, it is possible to specify a search request sentence including logical structure information using a specific language and to display a search result including structure information.
[Brief description of the drawings]
FIG. 1 is a diagram showing a system configuration according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a model of a logical document structure and a diagram illustrating an example of a document type that is logical structure information.
FIG. 3 is a diagram illustrating an example of an SGML document.
FIG. 4 is an example of a structural information table stored in a relational database management system.
FIG. 5 is a diagram showing an example of a structural information symbol table stored in a relational database management system.
FIG. 6 is a diagram showing an example of a text information table stored in a relational database management system.
FIG. 7 is a diagram illustrating an example of a flow of a search process according to the present invention.
FIG. 8 is a diagram illustrating an example of execution of a search process according to the present invention.
[Explanation of symbols]
Reference Signs List 1 SGML server 2 Relational database management system 3 Database creation unit 4 Search request sentence generation unit 5 Search result organization unit 6 Original document 7 Data base of structure information 8 Data base of tag information 9 Data of text information Tabe 10 Search workstation

Claims (1)

論理的構造をもった文書の全文を検索する方法において、
文書の構成要素の論理的構造情報を内部に持つマークアップ言語で記述された原文書を入力してリレーショナルデータベースを作成するステップであって、前記言語による文書の構成要素の上下関係と出現順序関係などの文書の論理的構造情報を格納するテーブルと、前記構成要素を識別するための構成要素識別子を格納するテーブルと、前記構成要素識別子に続くテキスト情報を格納するテーブルとを定義し、前記言語を用いた原文書のデータを各テーブルに格納するデータベース作成ステップと、
論理的構造を持った文書の構成要素を指定可能な検索言語で作成され、抽出対象指定句と検索範囲指定句と検索条件指定句を有する第1の検索要求文を入力する検索要求入力ステップと、
前記第1の検索要求文の検索範囲指定句で指定された構成要素により前記文書の論理的構造情報を呼び出して参照し、前記第1の検索要求文の検索条件指定句で指定された構成要素の下位の構成要素であってテキストを持つすべての構成要素について、前記検索条件指定句に記述された検索条件を満たす構成要素識別子を前記リレーショナルデータベースから検索するSQL文を生成し、
前記呼び出された前記文書の論理的構造情報を参照して前記第1の検索要求文の抽出対象指定句で指定された構成要素と検索条件指定句で指定された構成要素の共通の上位若しくは同位の構成要素のうちで最も下位である構成要素を決定し、
当該決定された構成要素の構成要素識別子であって、前記検索条件指定句に記述された検索条件を満たす構成要素の構成要素識別子を下位に持つ構成要素識別子を求め、求めた構成要素識別子を前記リレーショナルデータベースの一時テーブルに格納するように前記SQL文を展開して新たなSQL文を生成し、
当該新たなSQL文により前記リレーショナルベータベースを検索して検索された構成要素識別子を前記リレーショナルデータベースの一時テーブルに格納する構成要素識別子抽出ステップと、
前記構成要素識別子抽出ステップで抽出された構成要素識別子に対応する構成要素により前記文書の論理的構造情報を参照して前記第1の検索要求文の抽出対象指定句で指定された構成要素の下位であってテキストを持つ構成要素を判別し、当該判別された構成要素の構成要素識別子であって前記抽出された構成要素識別子と同一の文書の構成要素識別子を前記リレーショナルデータベースから検索する第2の検索要求文生成ステップと、
前記第2の検索要求文に基づいて前記リレーショナルデータベースを検索する検索ステップと、
前記検索ステップにより得られた検索結果を前記マークアップ言語により表現される文書の構成要素の形式に変換する検索結果編成ステップと、
前記検索結果編成ステップにより編成された検索結果を表示する表示ステップと
を設けることを特徴とする全文データベース検索方法。
In a method of searching the full text of a document having a logical structure,
Creating a relational database by inputting an original document described in a markup language having therein the logical structure information of the document components, the hierarchical relationship between document components in the language and the order of appearance Defining a table for storing logical structure information of a document such as a document, a table for storing component identifiers for identifying the components, and a table for storing text information following the component identifiers, A database creation step of storing original document data in each table using
A search request inputting step of inputting a first search request sentence which is created in a search language capable of designating a component of a document having a logical structure and has an extraction target designation phrase, a search range designation phrase, and a search condition designation phrase; ,
The logical structure information of the document is called by the component specified by the search range specification phrase of the first search request sentence and referred to, and the component specified by the search condition specification phrase of the first search request sentence Generating an SQL statement for searching, from the relational database, a component identifier that satisfies the search condition described in the search condition specification phrase, for all the components having texts that are subordinate components of
Referring to the logical structure information of the called document, a common upper or same rank of the component specified by the extraction target specification phrase and the configuration component specified by the search condition specification phrase of the first search request sentence Determine the lowest component among the components of
A component identifier of the determined component, which has a component identifier of a component that satisfies the search condition described in the search condition specifying phrase at a lower level, is obtained. Generating a new SQL statement by expanding the SQL statement to be stored in a temporary table of a relational database;
A component identifier extracting step of searching the relational beta base using the new SQL statement and storing the component identifier searched in a temporary table of the relational database;
The logical component information of the document is referred to by the component corresponding to the component identifier extracted in the component identifier extracting step, and the component specified in the extraction target specification phrase of the first search request sentence is subordinate to the component. A second component that determines a component having a text and searches the relational database for a component identifier of the document that is the component identifier of the determined component and that is the same as the extracted component identifier. A search request sentence generation step;
A search step of searching the relational database based on the second search request statement ;
A search result organizing step of converting a search result obtained by the search step into a form of a component of a document expressed by the markup language ;
Displaying a search result organized by the search result organizing step.
JP09108093A 1993-04-19 1993-04-19 Full-text database search method Expired - Lifetime JP3573471B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09108093A JP3573471B2 (en) 1993-04-19 1993-04-19 Full-text database search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09108093A JP3573471B2 (en) 1993-04-19 1993-04-19 Full-text database search method

Publications (2)

Publication Number Publication Date
JPH06301721A JPH06301721A (en) 1994-10-28
JP3573471B2 true JP3573471B2 (en) 2004-10-06

Family

ID=14016541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09108093A Expired - Lifetime JP3573471B2 (en) 1993-04-19 1993-04-19 Full-text database search method

Country Status (1)

Country Link
JP (1) JP3573471B2 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3384017B2 (en) * 1993-03-26 2003-03-10 凸版印刷株式会社 Data extraction system
JPH08147311A (en) * 1994-11-17 1996-06-07 Hitachi Ltd Method for retrieving structured document and device therefor
JPH08255155A (en) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd Device and method for full-text registered word retrieval
JP3099683B2 (en) * 1995-06-09 2000-10-16 松下電器産業株式会社 Information retrieval device
JP3568062B2 (en) * 1995-06-22 2004-09-22 富士ゼロックス株式会社 Document database management device and document database management method
JP3287307B2 (en) * 1998-06-19 2002-06-04 日本電気株式会社 Structured document search system, structured document search method, and recording medium storing structured document search program
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
JP3754253B2 (en) 1999-11-19 2006-03-08 株式会社東芝 Structured document search method, structured document search apparatus, and structured document search system
JP2002073614A (en) * 2000-08-24 2002-03-12 Nec Nexsolutions Ltd System for providing reservation relating information
JP2002183182A (en) * 2000-12-19 2002-06-28 Toshiba Corp Document diversion method, decision-making support system and document management system

Also Published As

Publication number Publication date
JPH06301721A (en) 1994-10-28

Similar Documents

Publication Publication Date Title
JP3842577B2 (en) Structured document search method, structured document search apparatus and program
JP3842573B2 (en) Structured document search method, structured document management apparatus and program
JP4644420B2 (en) Method and machine-readable storage device for retrieving and presenting data over a network
US6853992B2 (en) Structured-document search apparatus and method, recording medium storing structured-document searching program, and method of creating indexes for searching structured documents
JP3754253B2 (en) Structured document search method, structured document search apparatus, and structured document search system
US7548933B2 (en) System and method for exploiting semantic annotations in executing keyword queries over a collection of text documents
Doedens Text databases: one database model and several retrieval languages
Loeffen Text databases: A survey of text models and systems
JP3492246B2 (en) XML data search processing method and search processing system
JP3573471B2 (en) Full-text database search method
US20050144153A1 (en) Structured data retrieval apparatus, method, and computer readable medium
US6282509B1 (en) Thesaurus retrieval and synthesis system
JP2000020537A (en) Text retrieving device and computer-readable recording medium having recorded text retrieving program thereon
Elmasri et al. Conceptual modeling for customized XML schemas
JP2014089646A (en) Electronic data processor and electronic data processing method
Tari et al. Parse tree database for information extraction
Calabretto et al. The philological workstation bambi (better access to manuscripts and browsing of images)
JP2004118543A (en) Method for retrieving structured document, and method, device and program for supporting retrieval
JP2003288332A (en) Method and system for supporting structured document creation
JP3842574B2 (en) Information extraction method, structured document management apparatus and program
JP2000250930A (en) Structured document retrieval system
JP2005202612A (en) Data base generation program preparing apparatus
Zwol et al. Using webspaces to model document collections on the web
JP2007233631A (en) Method for generating operation button for computer processing of text data
Meghini et al. Conceptual document modelling and retrieval

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040629

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070709

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080709

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080709

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090709

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090709

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100709

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100709

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110709

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110709

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120709

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 9

EXPY Cancellation because of completion of term