JP4343206B2 - 構造化文書検索支援装置およびプログラム - Google Patents
構造化文書検索支援装置およびプログラム Download PDFInfo
- Publication number
- JP4343206B2 JP4343206B2 JP2006263114A JP2006263114A JP4343206B2 JP 4343206 B2 JP4343206 B2 JP 4343206B2 JP 2006263114 A JP2006263114 A JP 2006263114A JP 2006263114 A JP2006263114 A JP 2006263114A JP 4343206 B2 JP4343206 B2 JP 4343206B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- structured document
- search
- logic
- query logic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/832—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の第1の実施の形態を図1ないし図15に基づいて説明する。図1は、本発明の第1の実施の形態にかかる構造化文書検索支援装置1のモジュール構成図である。構造化文書検索支援装置1は、例えば、一般的なパーソナルコンピュータである。
・ <カテゴリ>というタグで囲まれた3つの子要素
・ <年>というタグで囲まれた3つの子要素
・ <カテゴリ>というタグで囲まれた1つの子要素
・ <特許データ>というタグで囲まれた1つの子要素
が存在する。「カテゴリ」要素は、3+1の計4回、「DB」要素の直下に発生し、さらに3番目の「カテゴリ」要素には、孫要素として2つの「カテゴリ」要素が存在する。「特許データ」要素の直下には、複数の「特許」要素が発生している。末端には、テキスト要素が発生している。1番目の「カテゴリ」要素には、「XML」というテキストが存在する。
・ for $c in db()//カテゴリ//text()
構造化文書DB中の任意の階層にある「カテゴリ」のテキストについて、変数$c
にセットしてループをまわす。
・ for $y in db()//年//text()
構造化文書DB中の任意の階層にある「年」のテキストについて、変数$yにセッ
トしてループをまわす。
・ let $z := count(db()//特許[年 = $y and カテゴリ = $c])
構造化文書DB中の任意の階層にある「特許」について、「特許」の直下の「年
」が変数$yと同じ、かつ「特許」の直下の「カテゴリ」が変数$cと同じものを選
択し、その件数をカウントして、変数$zにセットする。
・ return <レコード>….</レコード>
「レコード」要素として出力する。「カテゴリ」、「年」、「件数」という並び
で子要素を配置し、それぞれに対応する変数値をセットする。
「特許」の件数 × 「年」
の件数である。
・ タグの指定 例) 「db」、「カテゴリ」、「text()」
・ 要素間の階層関係 例) 「/」、「//」
・ データ比較 例) 「=」
・ 出力タグの指定 例) 「<カテゴリ>」
<db()//カテゴリ/text(), db()//マイカテゴリ/text()>
<<カテゴリ>, <マイカテゴリ>>
<カテゴリ, マイカテゴリ>
という関係が得られる。これは矛盾の無い対応関係である。
・ For $c in db()//マイカテゴリ//text()
構造化文書DB21中の任意の階層にある「マイカテゴリ」のテキストについて
変数$cにセットしてループをまわす。
・ For $y in db()//年//text()
構造化文書DB中の任意の階層にある「年」のテキストについて、変数$yにセッ
トしてループをまわす。
・ let $z := count(db()//特許[年 = $y and カテゴリ = $c])
構造化文書DB中の任意の階層にある「特許」について、「特許」の直下の「年」
が変数$yと同じ、かつ「特許」の直下の「カテゴリ」が変数$cと同じものを選択
し、その件数をカウントして、変数$zにセットする。
・ return <レコード>….</レコード>
「レコード」要素として出力する。「マイカテゴリ」、「年」、「件数」という
並びで子要素を配置し、それぞれに対応する変数値をセットする。
・ カテゴリ → マイカテゴリ
に変換されている。この対応関係を<カテゴリ,マイカテゴリ>と表記する。
・ <db()//カテゴリ/text(),db()//マイカテゴリ/text()>
・ <<カテゴリ>,<マイカテゴリ>>
というように、先の対応関係と矛盾の無い対応関係になっていることがわかる。すなわち、図12でのユーザ操作により、「XML」、「SGML」、…、「RDB」に対応する「カテゴリ」を「XML」、「SGML」に対応する「マイカテゴリ」で置き換えたい、というユーザ意図を推測していることになる。
次に、本発明の第2の実施の形態を図18ないし図26に基づいて説明する。なお、前述した第1の実施の形態と同じ部分は同じ符号で示し説明も省略する。
<db()//年/text(), db()//月/text()>
<<年>,<月>>
<db()//特許/年, db()//特許/月>
という関係が得られる。これは矛盾の無い対応関係である。
・ 要素は、各対応関係に対する類似度
・ 整合性は、各要素の対応関係の整合性
・ 合計は、要素と整合性のスコアを足したもの
データ上の一致度は、以下の意味を持つものである。
・ 「=」などデータ比較の成功度
また、合計スコアは、これらの加重平均をとるものであり、整合性のウエイトを“4”とする。
・ <db()//年/text(), db()//月/text()>
各クエリロジックのfor節での対応
・ <<年>, <月>>
各クエリロジックのreturn節、出力部分での対応
・ <db()//特許/年, db()//特許/年>
左のクエリロジックにはあるが、右のクエリロジックには無いので、そのまま使
う。
となっている。
・ <db()//年/text(), db()//月/text()>
各クエリロジックのfor節での対応
・ <<年>, <年>>
左のクエリロジックをそのまま使う。
・ <db()//特許/年, db()//特許/月>
上記の対応関係から、<年,月>が対応しているので、その置き換えで生成する。
となっている。
・ <db()//年/text(), db()//月/text()>
各クエリロジックのfor節での対応
・ <<年>, <月>>
上記の対応関係から、<年,月>が対応していることを抽出する。
・ <db()//特許/年, db()//特許/月>
上記の対応関係から、<年,月>が対応しているので、その置き換えで生成する。
となっている。
・ <db()//年/text(), db()//月/text()>
2/3の要素が対応しているので、0.7(小数点第2位を四捨五入)
・ <<年>, <月>>
全く対応していないので、0
・ <db()//特許/年, db()//特許/年>
2/3の要素が対応しているので、0.7(小数点第2位を四捨五入)
・ <年,月>という対応関係で、2/3の構造が対応しているので、0.7で、ウ
エイトを4とするので、0.7×4
・ Db()//年/text()=db()//月/text()というデータ上の一致度は、
構造化文書DBにアクセスすることで、データ比較の成功度は0なので、0
となり、構造上の類似度、データ上の一致度、構造上の類似度とデータ上の一致度との合計が算出される。結果として、マッチング候補M3が最高のスコア6.4を持つ。したがって、マッチング候補M3を最高のスコアを持つマッチング候補として選択する。
次に、本発明の第3の実施の形態を図27ないし図30に基づいて説明する。なお、前述した第1の実施の形態または第2の実施の形態と同じ部分は同じ符号で示し説明も省略する。
16 クエリロジック写像手段
17 クエリロジック抽出手段
18 クエリ生成手段
21 構造化文書データベース
104 記憶部
Claims (7)
- 階層化された論理構造を有している構造化文書を記憶する構造化文書データベースに対する検索処理に用いるクエリの作成を支援する構造化文書検索支援装置において、
前記クエリを記憶部に記憶するクエリ記憶手段と、
このクエリ記憶手段により記憶された少なくとも2以上の前記クエリを用いて各検索結果の所定の構造部分をそれぞれ選択して対応付ける対応付け手段と、
この対応付け手段により対応付けられた2つの前記各検索結果から関連のある部分を表わすものであって構造化文書の構成要素からなるクエリロジックを、それぞれ抽出するクエリロジック抽出手段と、
このクエリロジック抽出手段により抽出された前記各クエリロジックを構成する要素に含まれるテキスト要素に着目した対応関係の候補についての構造上の類似度およびデータ上の一致度に関する評価関数のスコアが最高となる前記対応関係の候補を最良の対応関係であるとし、当該最良の対応関係であるクエリロジックの写像を生成するクエリロジック写像手段と、
このクエリロジック写像手段により生成された前記クエリロジックの写像をもとに前記クエリに対して変換を施して新たなクエリを生成するクエリ変換手段と、
を備えることを特徴とする構造化文書検索支援装置。 - 前記クエリ変換手段により生成された前記新たなクエリを用いて前記構造化文書データベースに対する検索処理を実行する検索手段と、
この検索手段により検索結果を提示する結果提示手段と、
更に備えることを特徴とする請求項1記載の構造化文書検索支援装置。 - 前記対応付け手段は、前記結果一覧提示手段により提示されている2つの前記各検索結果の所定の構造部分の内、一方の前記検索結果の所定の構造部分を他方の前記検索結果の所定の構造部分に対してドラッグ&ドロップ操作された場合に、前記各検索結果の所定の構造部分を対応付ける、
ことを特徴とする請求項1または2記載の構造化文書検索支援装置。 - 前記クエリロジック写像手段による前記各クエリロジック間における評価関数の設定は、前記クエリロジックを構成する構造上の類似度およびデータ上の一致度に関する評価関数である、
ことを特徴とする請求項1ないし3のいずれか一記載の構造化文書検索支援装置。 - 前記クエリロジック写像手段は、前記各クエリロジック間における最適な対応関係として複数の候補がある場合には、前記各候補から一の前記候補を選択可能とする、
ことを特徴とする請求項1ないし4のいずれか一記載の構造化文書検索支援装置。 - 前記結果一覧提示手段は、前記クエリ記憶手段により記憶された前記クエリから少なくとも2以上の前記クエリを選択する手段と、選択された少なくとも2以上の前記クエリを用いて前記構造化文書データベースに対する検索処理をそれぞれ実行する手段と、選択された少なくとも2以上の前記クエリを用いた検索結果をそれぞれ提示する手段と、を備える、
ことを特徴とする請求項1ないし5のいずれか一記載の構造化文書検索支援装置。 - 階層化された論理構造を有している構造化文書を記憶する構造化文書データベースに対する検索処理に用いるクエリの作成支援処理をコンピュータに実行させるプログラムであって、
前記クエリを記憶部に記憶するクエリ記憶機能と、
このクエリ記憶機能により記憶された少なくとも2以上の前記クエリを用いて各検索結果の所定の構造部分をそれぞれ選択して対応付ける操作機能と、
この操作機能により対応付けられた2つの前記各検索結果から関連のある部分を表わすものであって構造化文書の構成要素からなるクエリロジックを、それぞれ抽出するクエリロジック抽出機能と、
このクエリロジック抽出機能により抽出された前記各クエリロジックを構成する要素に含まれるテキスト要素に着目した対応関係の候補についての構造上の類似度およびデータ上の一致度に関する評価関数のスコアが最高となる前記対応関係の候補を最良の対応関係であるとし、当該最良の対応関係であるクエリロジックの写像を生成するクエリロジック写像機能と、
このクエリロジック写像機能により生成された前記クエリロジックの写像をもとに前記クエリに対して変換を施して新たなクエリを生成するクエリ変換機能と、
を前記コンピュータに実行させることを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006263114A JP4343206B2 (ja) | 2006-09-27 | 2006-09-27 | 構造化文書検索支援装置およびプログラム |
US11/851,264 US20080077564A1 (en) | 2006-09-27 | 2007-09-06 | Document-search supporting apparatus and computer program product therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006263114A JP4343206B2 (ja) | 2006-09-27 | 2006-09-27 | 構造化文書検索支援装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008083992A JP2008083992A (ja) | 2008-04-10 |
JP4343206B2 true JP4343206B2 (ja) | 2009-10-14 |
Family
ID=39226264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006263114A Expired - Fee Related JP4343206B2 (ja) | 2006-09-27 | 2006-09-27 | 構造化文書検索支援装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20080077564A1 (ja) |
JP (1) | JP4343206B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4825712B2 (ja) | 2007-03-22 | 2011-11-30 | 株式会社東芝 | クエリ処理装置、プログラムおよびクエリ処理方法 |
US8046353B2 (en) * | 2007-11-02 | 2011-10-25 | Citrix Online Llc | Method and apparatus for searching a hierarchical database and an unstructured database with a single search query |
JP5349101B2 (ja) * | 2009-03-23 | 2013-11-20 | 株式会社ソニー・コンピュータエンタテインメント | 情報処理装置、情報処理方法、プログラム及び情報記憶媒体 |
US8495062B2 (en) * | 2009-07-24 | 2013-07-23 | Avaya Inc. | System and method for generating search terms |
JP5490632B2 (ja) * | 2010-06-28 | 2014-05-14 | 日立アロカメディカル株式会社 | 診断レポート検索装置 |
US8675957B2 (en) | 2010-11-18 | 2014-03-18 | Ebay, Inc. | Image quality assessment to merchandise an item |
US9720972B2 (en) * | 2013-06-17 | 2017-08-01 | Microsoft Technology Licensing, Llc | Cross-model filtering |
KR102194306B1 (ko) | 2013-12-30 | 2020-12-22 | 삼성전자주식회사 | 응용 프로그램을 실행하는 전자 장치 및 방법 |
JP6895795B2 (ja) * | 2017-04-27 | 2021-06-30 | 株式会社日立製作所 | データ処理システム、データ処理方法、およびデータ処理プログラム |
US11386164B2 (en) | 2020-05-13 | 2022-07-12 | City University Of Hong Kong | Searching electronic documents based on example-based search query |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06506548A (ja) * | 1991-03-12 | 1994-07-21 | ウォング・ラボラトリーズ・インコーポレーテッド | データベース管理システムのグラフィック照会フロントエンド |
US5608899A (en) * | 1993-06-04 | 1997-03-04 | International Business Machines Corporation | Method and apparatus for searching a database by interactively modifying a database query |
US5619688A (en) * | 1993-09-02 | 1997-04-08 | Microsoft Corporation | Method and system for constructing database queries using a field selection grid |
US5577239A (en) * | 1994-08-10 | 1996-11-19 | Moore; Jeffrey | Chemical structure storage, searching and retrieval system |
US5950190A (en) * | 1997-05-13 | 1999-09-07 | Aptek, Inc. | Dynamic, self-modifying graphical user interface for relational database applications |
-
2006
- 2006-09-27 JP JP2006263114A patent/JP4343206B2/ja not_active Expired - Fee Related
-
2007
- 2007-09-06 US US11/851,264 patent/US20080077564A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20080077564A1 (en) | 2008-03-27 |
JP2008083992A (ja) | 2008-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4343206B2 (ja) | 構造化文書検索支援装置およびプログラム | |
US9798748B2 (en) | Database query builder | |
AU2020260374B2 (en) | Building reports | |
Jayapandian et al. | Automating the design and construction of query forms | |
US7844607B2 (en) | Annotation of query components | |
US9396284B2 (en) | Method and system for implementing efficient updatable relational views over XML data | |
US9785725B2 (en) | Method and system for visualizing relational data as RDF graphs with interactive response time | |
US20110276915A1 (en) | Automated development of data processing results | |
JP2004240954A (ja) | 階層データを提示する方法 | |
JP2006172446A (ja) | 複合データアクセス | |
JP2008234430A (ja) | クエリ処理装置、プログラムおよびクエリ処理方法 | |
US7596577B2 (en) | Methods and systems for specifying a user interface for an application | |
JP2009015511A (ja) | メタデータ管理装置、プログラムおよびメタデータ管理方法 | |
JP2004341770A (ja) | データ管理システム及びデータ管理方法 | |
Ahmad et al. | Data Models, Semantics, Query languages | |
Fredrick et al. | A GUI based tool for generating XQuery and fuzzy XQuery | |
JP2007018221A (ja) | Guiによるsql文作成ソフトウエア | |
JP2008234429A (ja) | 部分ライブラリ構築装置、プログラムおよび部分ライブラリ構築方法 | |
JPH10293764A (ja) | 構造化文書データベース検索方法、構造化文書データベース検索システム及び記録媒体 | |
Trujillo et al. | Design and Representation of Multidimensional Models with UML and XML Technologies | |
JP2010079709A (ja) | 文書作成支援装置、プログラムおよび文書作成支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081007 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090616 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090708 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120717 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4343206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120717 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130717 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |