JP3765459B2 - XML document search device - Google Patents

XML document search device Download PDF

Info

Publication number
JP3765459B2
JP3765459B2 JP05496099A JP5496099A JP3765459B2 JP 3765459 B2 JP3765459 B2 JP 3765459B2 JP 05496099 A JP05496099 A JP 05496099A JP 5496099 A JP5496099 A JP 5496099A JP 3765459 B2 JP3765459 B2 JP 3765459B2
Authority
JP
Japan
Prior art keywords
element name
category
xml
xml document
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05496099A
Other languages
Japanese (ja)
Other versions
JP2000250938A (en
Inventor
智弘 小野
智 西山
貞夫 小花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP05496099A priority Critical patent/JP3765459B2/en
Publication of JP2000250938A publication Critical patent/JP2000250938A/en
Application granted granted Critical
Publication of JP3765459B2 publication Critical patent/JP3765459B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明はXML文書検索装置に関し、特に、ユーザが検索対象となる文書の型のタグ定義(DTD:Document Type Definition)を知らなくても、XML(eXtensible Markup Language)データベースから所望のデータを検索することのできるXML文書検索装置に関する。
【0002】
【従来の技術】
近年、インターネットやイントラネット上で文書を記述、交換するための言語として、XMLが注目されている。XMLはHTMLと異なり、構造をもった文書を記述するためのタグを用いることにより、文書を一まとまりではなく、細かい要素の単位で記述、管理することを可能としている。今日までに、XMLで記述された文書を格納し、検索するためのデータベースが幾つか発表されている。例えば、Object Design 社のeXcelon という名の商品等がある。
【0003】
さて、XML文書では、タグはユーザが自由に定義して使用できるため、全ての利用者間で共通のDTDが利用されるのではなく、情報発信者が独自に定義/拡張したDTDを用いて文書が記述されることがあると考えられる。この結果、インターネットやイントラネット上では、構造上は異なっているが、意味的に類似したDTDをもつXML文書が散在することになる。
【0004】
図6に、構造上は異なっているが、意味的に類似した2種類のDTDの例と、これに基づいたXML文書および検索式の例を示す。図6(a) は、paper,title,author, およびdateの各タグ(タグの名前を要素名と呼ぶ)を定義しているDTDで、paper が残りの3つを含むことを示している。一方、同図(a')は、article,Title,page, およびwriterの各タグを定義しているDTDで、article が残りの3つを含むことを示している。
【0005】
同図(b) はXML文書の表現を示し、paper を起点(ルート要素名)とするDTDに従っていること、各要素名に対する値が、SAMPLE TITLE、john,1103 であることを示している。同図(b')は、article を起点とするDTDに従っていること、各要素名に対する値が、SAMPLE TITLE,123,john であることを示している。
【0006】
さらに、同図(c) はXML−QLで記述した検索式で、paper をルート要素名とし、authorの値がjohnであるXML文書からtitle の値を取得することを示している。また、同図(c')は、article をルート要素名とし、writerの値がjohnであるXML文書からTitle の値を取得することを示している。
【0007】
図9は、前記のXMLデータベースを使用した文書の検索例の説明図である。プロセス構成は、ユーザの検索要求を受付け、データベースへデータベース操作言語で要求を送るデータベースクライアント31と、XML文書を格納し、外部へデータベース操作言語による操作を提供するXMLデータベース32からなっている。この従来構成では、ユーザあるいはアプリケーションプログラムが、データベースから文書全体あるいはその一部を取得しようとすると、該ユーザ等は目的とする文書が存在しそうな全ての型(例えば、paper 型、article 型)のDTDをそれぞれ理解し、図示されている33、34のように、それらの型毎に検索操作を発行することが必要になる。
【0008】
【発明が解決しようとする課題】
前記したように、インターネットやイントラネット上では、構造上は異なっているが、意味的に類似したDTDをもつXMLデータベースが散在するため、ユーザあるいはアプリケーションプログラムが、該XMLデータベースからXML文書を検索しようとすると、必要な値があると思われる全てのDTDの文書に対して別々に検索式を記述することが必要になり、効率的でないという問題があった。
【0009】
例えば、図9を例にとると、john氏が書いた著書の題名を知りたい場合、XMLデータベースでは、paper とarticle で定義される文書は異なったものであるため、paper とarticlのそれぞれに対して、図9の33、34のように、別々に検索式を記述して問い合わせることが必要になる。
また、このため、そのコストは類似した異なるDTDに基づいて記述された文書が増えるに従って増大するという問題もあった。
【0010】
本発明の目的は、前記した従来技術の問題点を除去し、構造上は異なっているが、意味的に類似したDTDをもつXMLデータベースに対して、ユーザがDTDの差異を意識せずに効率的に検索することのできるXML文書検索装置を提供することにある。
【0011】
【課題を解決するための手段】
前記した目的を達成するために、この発明は、XML文書から所望の文書を検索するためのXML文書検索装置において、入力された検索式からタグの要素名を抽出する手段と、該抽出された要素名の類義語を抽出する手段と、該類義語を、XMLデータベースのタグ定義(DTD)に対応したカテゴリ索引と対照し、該カテゴリ索引から前記類義語と一致するタグの要素名を取得する手段と、該カテゴリ索引から取得したタグの要素名を用いて出力用の検索式を作成する手段とを具備し、該出力用の検索式を用いて、前記XMLデータベースを検索するようにした点に特徴がある。
【0012】
この発明によれば、入力された検索式は、該検索式に記述されているタグの要素名の類義語を基に、XMLデータベース内に実在する文書のタグ定義に対応した要素名をもつ出力用の検索式に自動的に変換されるので、データベースクライアントは検索対象となる文書の型のDTDを知る必要がなく、検索手続きが簡単になると共に、検索範囲を拡張させることができるようになる。
【0013】
【発明の実施の形態】
以下に、図面を参照して、本発明を詳細に説明する。図1は、本発明のXML文書検索システムの一実施形態の構成を示すブロック図である。
図1に示されているように、XML文書検索システムは、XML文書検索装置1と、XMLデータベース2と、データベースクライアント3から構成されている。
【0014】
XML文書検索装置1は、外部からの入力を受付けてこれを解析する入力解析部11と、要素の集合を受取り、その要素の集合を特徴付けるカテゴリ名を出力するカテゴリ類推部12と、XMLデータベース2のDTDの情報に対応したカテゴリ索引13を管理するカテゴリ索引管理部14と、与えたキーワードの複数の類義語を出力する類義語抽出部15と、検索装置1の処理結果を外部へ送出する出力合成部16と、前記各部の全体の制御を行う中央制御部17から構成されている。
【0015】
前記XML文書検索装置1の構成をさらに詳細に説明すると、前記入力解析部11は、データベースクライアント3からのデータベース操作要求を受付け、操作要求のパラメタの抽出を行う。また、XMLデータベース2からの応答を受け付ける。前記カテゴリ類推部12は同一要素名に属する要素の集合を中央制御部17から受取り、その要素集合を特徴付けるカテゴリ名を類推し、その中で最も信頼度の高いものを中央制御部17へ送出する。前記カテゴリ索引管理部14は、XMLデータベース2のDTDの情報に対応したカテゴリ索引13を管理する。
【0016】
前記カテゴリ索引13は、DTDのあるタグに対応した要素の集合を特徴付ける「カテゴリ名」を索引鍵とし、それに対応する実際のDTDを値とするものである。該「カテゴリ名」は、実際のXMLデータベース2の値からシソーラスを利用した類推により導出される。
【0017】
また、前記類義語抽出部15は、与えたキーワードの複数の類義語を出力する。既存のシソーラスDB等が使用可能である。例えば、QZS Dictionary Server 等のシソーラスDBが使用可能である。前記出力合成部16は、データベースクライアント3によってなされたデータベース操作要求に伴ってXML文書検索装置1によってなされた処理結果である検索式の各パラメタを受取り、複数の検索式を合成してXMLデータベース2に送出する。また、入力解析部11から転送されたXMLデータベース2からの応答をデータベースクライアント3へ送出する。前記中央制御部17は、入力解析部11からパラメタを受取り、カテゴリ類推部12、カテゴリ索引管理部14、および類義語抽出部15を利用して、データベース操作処理、カテゴリ索引構築/変更処理を行い、その結果を出力合成部16に送る。
【0018】
次に、前記の構成を有するXML文書検索装置1の動作を、以下に説明する。まず、該XML文書検索装置1を初めてXMLデータベース2に接続した時に、前記中央制御部17が行う動作を、図2のフローチャートと図3の具体例を参照して説明する。この動作は、実際のXMLデータベース2の値からカテゴリ索引13を構築する動作である。
【0019】
ステップS1では、XMLデータベース2から全てのルート要素名と、それに対応する型(DTD)を取得し、カテゴリ索引管理部14へDTD登録要求を出す。カテゴリ索引管理部14はカテゴリ索引13にDTDを登録する。図3の例では、XMLデータベース2中に格納されているルート要素名「paper 」とそれに対応するDTD「paper,title,author,date 」、次のルート要素名「article 」とそれに対応するDTD「article,Title,page,writer 」、さらに次のルート要素名「trip」とそれに対応するDTD「destination,departure,arrival 」、…を、XMLデータベース2から取得し、一旦カテゴリ索引13に登録する。
【0020】
ステップS2では、前記ルート要素名の中の、あるルート要素名について、XMLデータベース2から、任意個の文書(data) を取得する。図3の例では、ルート要素名「paper 」に対応する文書「SAMPLE,john,9701」、「SAMPLE2,john,9811 」等を、XMLデータベース2から取得する。
【0021】
ステップS3では、取得した複数の文書をカテゴリ類推部12へ送り、送った複数の文書を代表するカテゴリ名を取得する。カテゴリ類推部12では、複数の文書を基にそれを代表するカテゴリ名を類推し、最も信頼度の高いもの(cname)を中央制御部17へ送出する。図3の例では、カテゴリ類推部12が前記文書「SAMPLE,john,9701」、「SAMPLE2,john,9811 」から、カテゴリ名「本」を類推したとする。
【0022】
ステップS4では、カテゴリ索引管理部14に対して、該cname の登録要求を出す。カテゴリ索引管理部14は該cname を前記ルート要素名と対応付けてカテゴリ索引13に登録し管理する。図3の例では、cname である「本」をルート要素名「paper 」と関連付けてカテゴリ索引13に登録する。
【0023】
ステップS5では、全部のルート要素名にcname が対応付けられたか否かの判断がなされ、この判断が否定の時にはステップS2に戻って、前記の動作が繰り返される。図3の例では、次に、ルート要素名「article 」に対応する文書「Flower,101,thomas 」、「Animals,100,tom 」、「Database,56,john」が取得され、これらから例えばカテゴリ名「本」が類推されて、cname である「本」をルート要素名「article 」と関連付けてカテゴリ索引13に登録する。
【0024】
以上の処理が繰返し行われ、前記ステップS5の判断が肯定になると、カテゴリ索引構築の処理は終了する。以上の動作により、例えば、図5に示されているような、カテゴリ索引13が作成される。
【0025】
なお、構築されたカテゴリ索引は、データ型の挿入や更新に伴って変更したり、格納する文書の増加あるいは変化に伴ってカテゴリ名の精度を向上させる等により、維持することが必要である。このカテゴリ名の更新は、データ操作やデータ型操作を契機として、前記中央制御部17とカテゴリ索引管理部14とカテゴリ類推部12が行う。
【0026】
次に、XML文書検索装置1のデータ検索処理の動作を、図4のフローチャートおよび図5の説明図を参照して説明する。
ステップS11では、前記データベースクライアント3の検索操作により、検索式の入力があったか否かの判断がなされる。この判断が肯定になるとステップS12に進み、ある数iが1と置かれる。ステップS13では、前記検索式21から、ルート要素名と、パラメタ要素名と、その値が抽出される。抽出されたパラメタ数(ルート要素名+パラメタ要素名)の個数をx個とする。
【0027】
例えば、図5に示されているように、データベースクライアント3から、検索式21が入力されたとすると、該検索式は入力解析部11を通って中央制御部17に送られる。該中央制御部17は、検索式21から、ルート要素名「文書」と、パラメタの要素名に相当する「著者」とその値である「john」と、他の要素名である「題名」を抽出する。この場合には、パラメタ数x=3となる。
【0028】
ステップS14では、類義語抽出部15へ、該抽出したルート要素名とパラメタの要素名を渡し、それぞれの類義語を取得する。図5の例では、ルート要素名である「文書」と、パラメタの要素名である「著者」と「題名」が、類義語抽出部15に渡される。そうすると、該類義語抽出部15は、前記ルート要素名およびパラメタの要素名に対応する類義語を中央制御部17に回答する。なお、該類義語抽出部15としては、市販のシソーラスDB23を使用することができる。
【0029】
ステップS15では、該ルート要素名の類義語、例えば前記「文書」の類義語である本、paper,Paper,Document,article等を前記カテゴリ索引管理部14を通してカテゴリ索引13に送り、該カテゴリ索引13から、該類義語をカテゴリ名にもつルート要素名とDTDを取得する。図5の例では、カテゴリ索引13から、カテゴリ索引「本」に対応するルート要素名「paper 」と「article 」とを取得する。また、各ルート要素名に対応するDTDを取得する。
【0030】
ステップS16では、カテゴリ索引の中に、前記ルート要素名の類義語群が存在するか否かの判断がなされる。この判断が否定の時には、処理を終了する。一方、肯定の時には、ステップS17に進んで、前記カテゴリ索引から取得したルート要素名の個数をk個とし、i番目のルート要素名のDTDを取得し、該DTDの中で前記類義語と一致する要素名を選択する。この時、選択した要素名の個数をyとする。
【0031】
図5の例では、ルート要素名「paper 」のDTD「paper,title,author,date 」を取得し、前記ルート要素名の下位のパラメタの類義語「author,writer,Author,....,Title,title,Theme,... 」と一致する要素名を、前記DTDから選択する。この例では、「paper,title,author」が一致するので、該「paper,title,author」が選択される。
【0032】
ステップS18では、該一致した要素名の個数y=前記検索式から抽出したパラメタ個数xが成立するか否かの判断を行い、この判断が肯定の場合には、ステップS19に進んで、出力検索式を1個作成する。図5の例では、「paper,title,author」を用いて一つの出力検索式が作成される。
【0033】
ステップS20では、i≧kが成立するか否かの判断が行われる。この判断が否定の時およびステップS18の判断が否定の時には、ステップS21に進んでiに1が加算される。そして、ステップS17に戻って、次のルート要素名(図5の例では、「article 」)のDTDを取得し、該DTDの中で前記類義語と一致する要素名を選択する。この例では、「article,writer,Title」が選択される。以上の動作が繰返し行われ、ステップS20の判断が肯定になると、ステップS22に進んで、前記出力合成部16にて、出力検索式の合成が行われる。図5の例では、この合成により、出力検索式22aと22bが得られることになる。
【0034】
ステップS23では、該検索式22aと22bが前記XMLデータベース2に送られる。ステップS24では、XMLデータベース2からの応答が収集されて入力解析部11を介して出力合成部16に送られ、ステップS25では収集結果が該出力合成部16からデータベースクライアント3へ送られる。
【0035】
以上のようにして、上記の実施形態によれば、ユーザはDTDの要素名の差や配置を意識せずに、XMLデータベースを効率的に検索することができるようになる。
【0036】
次に、本発明の第2実施形態を、図6および図7を参照して説明する。図6は前記カテゴリ索引13を構築する動作の説明図である。この実施形態は、図3で示したようなカテゴリ類推部12を用いずに、XMLデータベース2から、この中に格納されているルート要素名とそれに対応するDTDを任意の個数または全部取得し、カテゴリ索引13に登録するようにしたものである。この方法によれば、図7に示されているような内容の、ルート要素名とDTDがカテゴリ索引13として登録されることになる。
【0037】
次に、XML文書検索装置1のデータ検索処理の動作を図7を参照して説明する。本実施形態の動作が図5の動作と異なる点は、中央制御部17が、類義語抽出部15から取得したルート要素名の類義語を基に、カテゴリ索引13のルート要素名を検索するようにしたことにあり、他の点は、図5と同じである。
【0038】
この実施形態によれば、XMLデータベースの検索の精度は、前記第1実施形態に比べて若干低下すると考えられるが、カテゴリ索引13を簡単な構成でかつ安価に構築できるという利点を有している。
【0039】
【発明の効果】
以上の説明から明らかなように、本発明によれば、入力された検索式からタグの要素名を抽出し、該要素名を、その類義語を基にXMLデータベースに格納されているタグの要素名に変換して、出力検索式を作成するようにしているので、ユーザは、検索対象となるXMLデータベースの文書の型のDTDを予め知っている必要がなく、簡単に検索式を作成することができる。したがって、ユーザは効率的に検索でき、しかも、精度良く検索結果を取得することができる。
【0040】
また、カテゴリ索引は、XMLデータベースの文書に追加、変更、削除等の更新があると自動的に更新されるので、何らのメンテナンスをすることなく、最良の状態に維持できる。
【図面の簡単な説明】
【図1】 本発明の一実施形態の概略の構成を示すブロック図である。
【図2】 本発明の第1実施形態のカテゴリ索引構築の動作を示すフローチャートである。
【図3】 該第1実施形態のカテゴリ索引構築の動作説明図である。
【図4】 本発明の第1実施形態のXML文書検索装置のデータ検索処理の動作を示すフローチャートである。
【図5】 前記第1実施形態のXML文書検索装置のデータ検索処理の動作説明図である。
【図6】 本発明の第2実施形態のカテゴリ索引構築の動作説明図である。
【図7】 本発明の第2実施形態のXML文書検索装置のデータ検索処理の動作説明図である。
【図8】 DTD、XML文書、および検索式の一例の説明図である。
【図9】 従来のXML文書検索方法の説明図である。
【符号の説明】
1…XML文書検索装置、2…XMLデータベース、3…データベースクライアント、11…入力解析部、12…カテゴリ類推部、13…カテゴリ索引、14…カテゴリ索引管理部、15…類義語抽出部、16…出力合成部、21…入力された検索式、22a,22b…出力検索式。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an XML document search apparatus, and in particular, searches for desired data from an XML (eXtensible Markup Language) database even if a user does not know a tag type (DTD: Document Type Definition) of a document type to be searched. The present invention relates to an XML document search apparatus capable of performing the above.
[0002]
[Prior art]
In recent years, XML has attracted attention as a language for describing and exchanging documents on the Internet or an intranet. Unlike HTML, XML uses a tag for describing a document having a structure, so that the document can be described and managed in units of small elements rather than as a unit. To date, several databases have been published for storing and retrieving documents written in XML. For example, there is a product named eXcelon from Object Design.
[0003]
In an XML document, since tags can be freely defined and used by users, a common DTD is not used among all users, but a DTD uniquely defined / extended by an information sender is used. A document may be described. As a result, on the Internet or an intranet, XML documents having DTDs that are structurally different but having semantically similar DTDs are scattered.
[0004]
FIG. 6 shows two types of DTDs that are structurally different but semantically similar, and examples of XML documents and search formulas based on the examples. FIG. 6A shows a DTD that defines each tag of paper, title, author, and date (the tag name is called an element name), and shows that paper includes the remaining three. On the other hand, (a ′) in the figure shows a DTD that defines each tag of article, title, page, and writer, and shows that article includes the remaining three.
[0005]
FIG. 6B shows the representation of the XML document, which shows that it follows DTD starting from paper (root element name), and that the value for each element name is SAMPLE TITLE, john, 1103. FIG. 4B 'shows that DTD is followed starting from article, and that the value for each element name is SAMPLE TITLE, 123, john.
[0006]
Further, FIG. 6C shows a retrieval formula described in XML-QL, in which the value of title is acquired from an XML document in which paper is the root element name and the value of author is john. Further, (c ′) in the figure shows that a Title value is acquired from an XML document in which article is the root element name and the writer value is john.
[0007]
FIG. 9 is an explanatory diagram of an example of document search using the XML database. The process configuration includes a database client 31 that accepts a user search request and sends a request to the database in a database operation language, and an XML database 32 that stores an XML document and provides an operation in the database operation language to the outside. In this conventional configuration, when a user or an application program tries to acquire the entire document or a part thereof from the database, the user or the like has all types (for example, paper type and article type) where the target document is likely to exist. It is necessary to understand each DTD and issue a search operation for each of those types, as shown by 33 and 34 shown in the figure.
[0008]
[Problems to be solved by the invention]
As described above, XML databases having different DTDs that are structurally different on the Internet or an intranet are scattered, but a user or an application program tries to retrieve an XML document from the XML database. Then, it is necessary to separately describe a search expression for all DTD documents that are considered to have a necessary value, and there is a problem that it is not efficient.
[0009]
For example, taking Fig. 9 as an example, if you want to know the title of a book written by Mr. John, the document defined by paper and article is different in the XML database, so for each of paper and articl Thus, it is necessary to separately inquire by describing a search expression as indicated by 33 and 34 in FIG.
For this reason, there is also a problem that the cost increases as the number of documents described based on different DTDs increases.
[0010]
The object of the present invention is to eliminate the above-mentioned problems of the prior art and to improve the efficiency of the XML database having a DTD that is structurally different but having a DTD that is semantically similar without being aware of the difference in DTD. It is an object of the present invention to provide an XML document search apparatus that can search automatically.
[0011]
[Means for Solving the Problems]
In order to achieve the above-described object, the present invention provides an XML document search apparatus for searching a desired document from an XML document, means for extracting a tag element name from an input search expression, and the extracted Means for extracting a synonym of an element name; and means for comparing the synonym with a category index corresponding to a tag definition (DTD) of an XML database, and obtaining an element name of a tag that matches the synonym from the category index; And a means for creating an output search expression using the element name of the tag acquired from the category index, and the XML database is searched using the output search expression. is there.
[0012]
According to this invention, the input search expression is for output having an element name corresponding to the tag definition of the document existing in the XML database based on the synonym of the element name of the tag described in the search expression. Therefore, the database client does not need to know the DTD of the document type to be searched, and the search procedure is simplified and the search range can be expanded.
[0013]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing a configuration of an embodiment of an XML document search system of the present invention.
As shown in FIG. 1, the XML document search system includes an XML document search device 1, an XML database 2, and a database client 3.
[0014]
The XML document search apparatus 1 includes an input analysis unit 11 that receives and analyzes an input from the outside, a category analogy unit 12 that receives a set of elements and outputs a category name that characterizes the set of elements, and an XML database 2. Category index management unit 14 for managing the category index 13 corresponding to the DTD information, a synonym extraction unit 15 for outputting a plurality of synonyms of the given keyword, and an output synthesis unit for sending processing results of the search device 1 to the outside 16 and a central control unit 17 that performs overall control of each unit.
[0015]
The configuration of the XML document search apparatus 1 will be described in more detail. The input analysis unit 11 receives a database operation request from the database client 3 and extracts an operation request parameter. Also, a response from the XML database 2 is accepted. The category analogy unit 12 receives a set of elements belonging to the same element name from the central control unit 17, estimates the category names that characterize the element set, and sends the most reliable one to the central control unit 17. . The category index management unit 14 manages the category index 13 corresponding to the DTD information in the XML database 2.
[0016]
The category index 13 uses a “category name” characterizing a set of elements corresponding to a tag having a DTD as an index key and an actual DTD corresponding to the “category name” as a value. The “category name” is derived from the values in the actual XML database 2 by analogy using a thesaurus.
[0017]
The synonym extraction unit 15 outputs a plurality of synonyms of the given keyword. An existing thesaurus DB or the like can be used. For example, a thesaurus DB such as QZS Dictionary Server can be used. The output synthesizing unit 16 receives parameters of a search expression that is a processing result made by the XML document search apparatus 1 in response to a database operation request made by the database client 3, and synthesizes a plurality of search expressions to the XML database 2 To send. Also, the response from the XML database 2 transferred from the input analysis unit 11 is sent to the database client 3. The central control unit 17 receives parameters from the input analysis unit 11 and performs database operation processing and category index construction / change processing using the category analogy unit 12, the category index management unit 14, and the synonym extraction unit 15, The result is sent to the output composition unit 16.
[0018]
Next, the operation of the XML document search apparatus 1 having the above configuration will be described below. First, the operation performed by the central control unit 17 when the XML document retrieval apparatus 1 is first connected to the XML database 2 will be described with reference to the flowchart of FIG. 2 and the specific example of FIG. This operation is an operation for constructing the category index 13 from the values in the actual XML database 2.
[0019]
In step S 1, all root element names and corresponding types (DTD) are acquired from the XML database 2, and a DTD registration request is issued to the category index management unit 14. The category index management unit 14 registers DTD in the category index 13. In the example of FIG. 3, the root element name “paper” stored in the XML database 2 and the corresponding DTD “paper, title, author, date”, the next root element name “article” and the corresponding DTD “ “article, Title, page, writer” and the next root element name “trip” and the corresponding DTD “destination, department, arrival”,... are acquired from the XML database 2 and temporarily registered in the category index 13.
[0020]
In step S2, an arbitrary number of documents (data) is acquired from the XML database 2 for a certain root element name among the root element names. In the example of FIG. 3, the documents “SAMPLE, john, 9701”, “SAMPLE2, john, 9811”, etc. corresponding to the root element name “paper” are acquired from the XML database 2.
[0021]
In step S3, the acquired plurality of documents are sent to the category analogy unit 12, and category names representing the plurality of sent documents are acquired. The category analogy unit 12 infers a category name representing it based on a plurality of documents, and sends the most reliable one (cname) to the central control unit 17. In the example of FIG. 3, it is assumed that the category analogy unit 12 analogizes the category name “book” from the documents “SAMPLE, john, 9701” and “SAMPLE2, john, 9811”.
[0022]
In step S4, a registration request for the cname is issued to the category index management unit 14. The category index management unit 14 registers and manages the cname in the category index 13 in association with the root element name. In the example of FIG. 3, “book” as cname is associated with the root element name “paper” and registered in the category index 13.
[0023]
In step S5, it is determined whether or not cname is associated with all the root element names. If this determination is negative, the process returns to step S2 to repeat the above operation. In the example of FIG. 3, next, the documents “Flower, 101, thomas”, “Animals, 100, tom”, “Database, 56, john” corresponding to the root element name “article” are acquired. The name “book” is inferred, and “book” which is cname is associated with the root element name “article” and registered in the category index 13.
[0024]
When the above process is repeated and the determination in step S5 is affirmative, the category index construction process ends. With the above operation, for example, the category index 13 as shown in FIG. 5 is created.
[0025]
It is necessary to maintain the constructed category index by changing it with the insertion or update of the data type, or improving the accuracy of the category name as the number of stored documents increases or changes. The update of the category name is performed by the central control unit 17, the category index management unit 14, and the category analogy unit 12 triggered by a data operation or a data type operation.
[0026]
Next, the data search processing operation of the XML document search apparatus 1 will be described with reference to the flowchart of FIG. 4 and the explanatory diagram of FIG.
In step S11, it is determined whether or not a search expression has been input by the search operation of the database client 3. If this determination becomes affirmative, the process proceeds to step S12, and a certain number i is set to 1. In step S13, a root element name, a parameter element name, and a value thereof are extracted from the search formula 21. Let x be the number of extracted parameters (root element name + parameter element name).
[0027]
For example, as shown in FIG. 5, if a search formula 21 is input from the database client 3, the search formula is sent to the central control unit 17 through the input analysis unit 11. The central control unit 17 obtains the root element name “document”, the “author” corresponding to the element name of the parameter, the value “john”, and the other element name “title” from the search expression 21. Extract. In this case, the parameter number x = 3.
[0028]
In step S14, the extracted root element name and the element name of the parameter are passed to the synonym extraction unit 15, and each synonym is acquired. In the example of FIG. 5, “document” as the root element name and “author” and “title” as parameter element names are passed to the synonym extraction unit 15. Then, the synonym extraction unit 15 returns a synonym corresponding to the root element name and the element name of the parameter to the central control unit 17. In addition, as this synonym extraction part 15, commercially available thesaurus DB23 can be used.
[0029]
In step S15, a synonym of the root element name, for example, a book, paper, paper, document, article, or the like that is a synonym of the “document” is sent to the category index 13 through the category index management unit 14, and from the category index 13, A root element name and DTD having the synonym as a category name are acquired. In the example of FIG. 5, the root element names “paper” and “article” corresponding to the category index “book” are acquired from the category index 13. Also, a DTD corresponding to each root element name is acquired.
[0030]
In step S16, it is determined whether or not a synonym group of the root element name exists in the category index. When this determination is negative, the process is terminated. On the other hand, if the determination is affirmative, the process proceeds to step S17, where the number of root element names acquired from the category index is k, the DTD of the i-th root element name is acquired, and matches the synonym in the DTD. Select an element name. At this time, the number of selected element names is y.
[0031]
In the example of FIG. 5, the DTD “paper, title, author, date” of the root element name “paper” is acquired, and the synonyms “author, writer, Author,... , title, Theme, ... "is selected from the DTD. In this example, “paper, title, author” matches, so “paper, title, author” is selected.
[0032]
In step S18, it is determined whether or not the number y of matched element names is equal to the number of parameters x extracted from the search expression. If this determination is affirmative, the process proceeds to step S19, and an output search is performed. Create one expression. In the example of FIG. 5, one output search expression is created using “paper, title, author”.
[0033]
In step S20, it is determined whether i ≧ k is satisfied. When this determination is negative and when the determination in step S18 is negative, the process proceeds to step S21 and 1 is added to i. Then, returning to step S17, the DTD of the next root element name (“article” in the example of FIG. 5) is acquired, and the element name that matches the synonym is selected in the DTD. In this example, “article, writer, Title” is selected. When the above operation is repeated and the determination in step S20 becomes affirmative, the process proceeds to step S22, and the output combining unit 16 combines the output search expressions. In the example of FIG. 5, the output search formulas 22a and 22b are obtained by this synthesis.
[0034]
In step S23, the search expressions 22a and 22b are sent to the XML database 2. In step S24, responses from the XML database 2 are collected and sent to the output synthesis unit 16 via the input analysis unit 11, and in step S25, the collection results are sent from the output synthesis unit 16 to the database client 3.
[0035]
As described above, according to the above-described embodiment, the user can efficiently search the XML database without being aware of the difference or arrangement of the DTD element names.
[0036]
Next, a second embodiment of the present invention will be described with reference to FIGS. FIG. 6 is an explanatory diagram of the operation of constructing the category index 13. In this embodiment, an arbitrary number or all of root element names and corresponding DTDs stored therein are acquired from the XML database 2 without using the category analogy unit 12 as shown in FIG. This is registered in the category index 13. According to this method, the root element name and DTD having contents as shown in FIG. 7 are registered as the category index 13.
[0037]
Next, the operation of the data search process of the XML document search apparatus 1 will be described with reference to FIG. The operation of this embodiment is different from the operation of FIG. 5 in that the central control unit 17 searches for the root element name in the category index 13 based on the synonym of the root element name acquired from the synonym extraction unit 15. In particular, the other points are the same as in FIG.
[0038]
According to this embodiment, the accuracy of the XML database search is considered to be slightly lower than that of the first embodiment, but has the advantage that the category index 13 can be constructed with a simple configuration and at a low cost. .
[0039]
【The invention's effect】
As is apparent from the above description, according to the present invention, the element name of the tag is extracted from the input search expression, and the element name is stored in the XML database based on the synonym. Therefore, the user does not need to know the DTD of the document type of the XML database to be searched in advance, and can easily create the search expression. it can. Therefore, the user can efficiently search, and can acquire the search result with high accuracy.
[0040]
Further, the category index is automatically updated when there is an update such as addition, change, or deletion in the document of the XML database, so that it can be maintained in the best state without any maintenance.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration of an embodiment of the present invention.
FIG. 2 is a flowchart showing an operation of category index construction according to the first embodiment of this invention.
FIG. 3 is an operation explanatory diagram of category index construction according to the first embodiment.
FIG. 4 is a flowchart showing the data search processing operation of the XML document search apparatus according to the first embodiment of the present invention.
FIG. 5 is an operation explanatory diagram of data search processing of the XML document search apparatus of the first embodiment.
FIG. 6 is an operation explanatory diagram of category index construction according to the second embodiment of this invention.
FIG. 7 is an operation explanatory diagram of a data search process of the XML document search device according to the second embodiment of the present invention.
FIG. 8 is an explanatory diagram of an example of a DTD, an XML document, and a search expression;
FIG. 9 is an explanatory diagram of a conventional XML document search method.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... XML document search apparatus, 2 ... XML database, 3 ... Database client, 11 ... Input analysis part, 12 ... Category analogy part, 13 ... Category index, 14 ... Category index management part, 15 ... Synonym extraction part, 16 ... Output Synthesizer, 21... Input search formula, 22a, 22b... Output search formula.

Claims (5)

複数のXML文書から所望の文書を検索するためのXML文書検索装置において、
入力された検索式からタグの要素名を抽出する手段と、
該抽出された要素名の類義語を抽出する手段と、
該類義語を、XMLデータベースのタグ定義(DTD)に対応したカテゴリ索引と対照し、該カテゴリ索引から前記類義語と一致するタグの要素名を取得する手段と、
該カテゴリ索引から取得したタグの要素名を用いて出力用の検索式を作成する手段とを具備し、
該出力用の検索式を用いて、前記XMLデータベースを検索するようにしたことを特徴とするXML文書検索装置。
In an XML document search apparatus for searching a desired document from a plurality of XML documents,
Means for extracting the element name of the tag from the input search expression;
Means for extracting a synonym of the extracted element name;
Means for comparing the synonym with a category index corresponding to a tag definition (DTD) of the XML database, and obtaining an element name of a tag matching the synonym from the category index;
Means for creating a search expression for output using the element name of the tag acquired from the category index,
An XML document search apparatus, wherein the XML database is searched using the search expression for output.
請求項1に記載のXML文書検索装置において、
前記入力された検索式はルート要素名を有し、該ルート要素名の類義語と一致するタグの要素名を、前記カテゴリ索引から取得するようにしたことを特徴とするXML文書検索装置。
The XML document search device according to claim 1,
The XML document search apparatus characterized in that the inputted search expression has a root element name, and an element name of a tag that matches a synonym of the root element name is obtained from the category index.
請求項1または2に記載のXML文書検索装置において、
前記カテゴリ索引は、カテゴリ名と、それの下位に位置するタグの要素名とからなり、前記入力された検索式のルート要素名の類義語と前記カテゴリ索引のカテゴリ名とが対照され、両者が一致したものについて、さらに該ルート要素名の下位にある要素名の類義語と、前記カテゴリ索引の前記カテゴリ名と関連するタグの要素名との対照がなされるようにしたことを特徴とするXML文書検索装置。
The XML document search device according to claim 1 or 2,
The category index includes a category name and an element name of a tag positioned below the category name. The synonym of the root element name of the input search expression is compared with the category name of the category index, and the two match. XML document search, wherein a synonym of an element name further subordinate to the root element name is compared with an element name of a tag related to the category name of the category index. apparatus.
請求項3に記載のXML文書検索装置において、
前記カテゴリ索引のカテゴリ名は、前記XMLデータベースに格納されている複数の文書を基に、類推して決定されることを特徴とするXML文書検索装置。
The XML document search device according to claim 3,
The XML document search apparatus according to claim 1, wherein the category name of the category index is determined by analogy based on a plurality of documents stored in the XML database.
請求項1〜4のいずれかに記載のXML文書検索装置において、
前記カテゴリ索引は、前記XMLデータベースの内容の変化に伴って更新されるようにしたことを特徴とするXML文書検索装置。
In the XML document search device according to any one of claims 1 to 4,
2. The XML document search apparatus according to claim 1, wherein the category index is updated with a change in the contents of the XML database.
JP05496099A 1999-03-03 1999-03-03 XML document search device Expired - Fee Related JP3765459B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05496099A JP3765459B2 (en) 1999-03-03 1999-03-03 XML document search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05496099A JP3765459B2 (en) 1999-03-03 1999-03-03 XML document search device

Publications (2)

Publication Number Publication Date
JP2000250938A JP2000250938A (en) 2000-09-14
JP3765459B2 true JP3765459B2 (en) 2006-04-12

Family

ID=12985250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05496099A Expired - Fee Related JP3765459B2 (en) 1999-03-03 1999-03-03 XML document search device

Country Status (1)

Country Link
JP (1) JP3765459B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295674A (en) 2003-03-27 2004-10-21 Fujitsu Ltd Xml document analysis method, xml document retrieval method, xml document analysis program, xml document retrieval program, and xml document retrieval device
JP3923961B2 (en) * 2004-06-04 2007-06-06 大日本印刷株式会社 XML variant search system and XML variant search method
US20090070295A1 (en) * 2005-05-09 2009-03-12 Justsystems Corporation Document processing device and document processing method
JP4770694B2 (en) * 2006-10-18 2011-09-14 セイコーエプソン株式会社 Device connected to device, method for searching in data, computer program, and index data
KR101795716B1 (en) 2016-11-17 2017-11-09 한국항공우주산업 주식회사 Aircraft wire harness circuit search method and system

Also Published As

Publication number Publication date
JP2000250938A (en) 2000-09-14

Similar Documents

Publication Publication Date Title
US5926812A (en) Document extraction and comparison method with applications to automatic personalized database searching
KR101450358B1 (en) Searching structured geographical data
US7454398B2 (en) Support for object search
JP2009020901A (en) Database system, method of database retrieval and recording medium
CN101655862A (en) Method and device for searching information object
JPH10143532A (en) Information filtering device/method
CN109643315A (en) Method, system, computer equipment and the computer-readable medium of Chinese ontology library are automatically generated based on structured network knowledge
JP2006099341A (en) Update history generation device and program
JP2001325290A (en) System for retrieving document file
JP2003271609A (en) Information monitoring device and information monitoring method
US20110252313A1 (en) Document information selection method and computer program product
JP3765459B2 (en) XML document search device
JP4428850B2 (en) Information search apparatus and information search method
US20080215597A1 (en) Information processing apparatus, information processing system, and program
JP3786233B2 (en) Information search method and information search system
JP3908634B2 (en) Search support method and search support device
JP3999093B2 (en) Structured document search method and structured document search system
JP4417497B2 (en) Information retrieval apparatus and storage medium storing program
JPH1166078A (en) Retrieval request embodiment method/device and storage medium storing retrieval, request embodiment program
Kunze et al. CBR on semi-structured documents: the experience book and the FAllQ project
JP4146067B2 (en) Document search system and document search method
JP2003186901A (en) Web SITE RETRIEVAL METHOD AND SYSTEM, EXECUTION PROGRAM FOR THE METHOD, AND RECORDING MEDIUM WITH ITS PROGRAM RECORDED THEREON
JP2003288365A (en) Additive information management method and additive information management system
JP2009043288A (en) Community-dependent type retrieval system and method
JP4034503B2 (en) Document search system and document search method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060119

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120203

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees