JP2003296355A - 構造化文書の処理装置と処理プログラム - Google Patents

構造化文書の処理装置と処理プログラム

Info

Publication number
JP2003296355A
JP2003296355A JP2002099650A JP2002099650A JP2003296355A JP 2003296355 A JP2003296355 A JP 2003296355A JP 2002099650 A JP2002099650 A JP 2002099650A JP 2002099650 A JP2002099650 A JP 2002099650A JP 2003296355 A JP2003296355 A JP 2003296355A
Authority
JP
Japan
Prior art keywords
attribute
search
thesaurus
attribute name
structured document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002099650A
Other languages
English (en)
Inventor
Yoshifumi Tanimoto
好史 谷本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Murata Machinery Ltd
Original Assignee
Murata Machinery Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Murata Machinery Ltd filed Critical Murata Machinery Ltd
Priority to JP2002099650A priority Critical patent/JP2003296355A/ja
Publication of JP2003296355A publication Critical patent/JP2003296355A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【構成】 入力手段から入力された検索語中の、属性名
またはその上位概念をシソーラス展開して一群の属性名
とし、かつ属性名が一致し、検索語中の属性の値と一致
するものを、構造化文書から検索する。 【効果】 構造化文書中で用いられている属性名を知ら
なくても、データの意味と値とが一致する項目を容易に
検索できる。

Description

【発明の詳細な説明】
【0001】
【発明の利用分野】この発明は、構造化文書を検索する
ための、構造化文書の処理装置と処理プログラムとに関
する。
【0002】
【従来技術】XML(Extensible Markup Language)な
どの構造化文書は、一種のデータベースとして用いるこ
とができる。構造化文書では、データは属性名(タグ
名)と属性の値の組み合わせとして構成され、属性名は
データ処理上で重要な意味を持ち、さらに属性の値の意
味を示している。そして任意の属性名を定義できる。こ
のような構造化文書を検索する場合、属性名を知らない
と検索が困難な場合が多く、単に属性の値が一致するだ
けでは検索として無意味な場合が多い。そして構造化文
書の種類が多い、あるいは属性名の種類が多いと、適切
な属性名を検索語として選択するのは困難である。
【0003】
【発明の課題】この発明の基本的課題は、構造化文書で
用いられている属性名を知らない場合等でも、構造化文
書を容易に検索できるようにすることにある(請求項1
〜6)。請求項2,5の発明での追加の課題は、属性名
での検索を容易にするための具体的な手法を提供するこ
とにある。請求項3,6の発明での追加の課題は、意味
と値とが検索の目的に一致する属性を容易に検索できる
ようにすることにある。
【0004】
【発明の構成】この発明の構造化文書の処理装置は、構
造化文書を記憶するための記憶手段と、検索語を入力す
るための入力手段と、入力された検索語をシソーラス展
開するための辞書手段と、前記辞書手段によりシソーラ
ス展開された類義語のグループを用いて、記憶手段に記
憶した構造化文書の属性を検索するための検索手段と、
検索手段での検索結果を出力するための出力手段、とを
備えたものである(請求項1)。
【0005】好ましくは、前記辞書手段は、属性名また
は属性名の上位概念を検索語として、属性名の類義語の
グループにシソーラス展開するものである(請求項
2)。特に好ましくは、前記入力手段を、属性名または
属性名の上位概念と、これに対応する属性の値とを検索
語として入力するように構成し、前記検索手段を、属性
名がシソーラス展開された属性名の類義語のグループの
いずれかに一致し、かつ属性名が一致した属性の値と検
索語として入力された属性の値とが一致する属性を検索
するように構成する(請求項3)。
【0006】この発明の構造化文書の処理プログラム
は、検索語の入力を受け付けるための入力命令と、入力
された検索語をシソーラス展開するためのシソーラス命
令と、シソーラス展開された類義語のグループを用い
て、記憶された構造化文書の属性を検索するための検索
命令と、検索命令による検索結果を出力するための出力
命令、とを備えたものである(請求項4)。
【0007】好ましくは、前記シソーラス命令は、属性
名または属性名の上位概念を検索語として、属性名の類
義語のグループにシソーラス展開するものである(請求
項5)。特に好ましくは、前記入力命令を、属性名また
は属性名の上位概念と、これに対応する属性の値との組
み合わせを、検索語の入力として受け付けるように構成
し、前記検索命令を、属性名がシソーラス展開された属
性名の類義語のグループのいずれかに一致し、かつ属性
名が一致した属性の値と検索語として入力された属性の
値とが一致する属性を検索するように構成する(請求項
6)。
【0008】
【発明の作用と効果】この発明の構造化文書の処理装置
では、入力手段から入力された検索語をシソーラス展開
するので、例えば構造化文書中で用いられている属性名
を知らなくてもシソーラスで補い、あるいは属性の値が
どのように表現されているかを知らなくてもシソーラス
で補うことができるので、構造化文書を的確に検索でき
る(請求項1)。
【0009】シソーラス展開する検索語は、属性名ある
いは属性の値のいずれかとするが、好ましくは属性名を
シソーラス展開する。そして請求項2の発明では、属性
名または属性名の上位概念を検索語として入力し、属性
名の類義語のグループにシソーラス展開するので、属性
名を知らなくても、容易に構造化文書を検索できる。こ
こで属性名またはその上位概念の他に、属性の値を検索
語として入力するようにして、属性名または属性名の上
位概念を属性名の類義語のグループにシソーラス展開す
ると、属性名を知らなくても、検索したい事項とデータ
の意味が一致し、かつ値が一致するものを容易に検索で
きる(請求項3)。
【0010】この発明の構造化文書の処理プログラムで
は、入力手段から入力された検索語をシソーラス展開す
るので、例えば構造化文書中で用いられている属性名を
知らなくてもシソーラスで補い、あるいは属性の値がど
のように表現されているかを知らなくてもシソーラスで
補い、構造化文書を的確に検索できる(請求項4)。
【0011】シソーラス展開する検索語は、属性名ある
いは属性の値のいずれかとするが、好ましくは属性名を
シソーラス展開する。そして請求項5の発明では、属性
名または属性名の上位概念を検索語として、属性名の類
義語のグループにシソーラス展開するので、属性名を知
らなくても、容易に構造化文書を検索できる。ここで属
性名またはその上位概念の他に、属性の値を検索語とし
て入力するようにし、属性名または属性名の上位概念を
属性名の類義語のグループにシソーラス展開すると、属
性名を知らなくても、検索したい事項とデータの意味が
一致し、かつ値が一致するものを容易に検索できる(請
求項6)。
【0012】
【実施例】図1〜図6に構造化文書の処理装置2の実施
例を示す。これらの図において、4は入力手段としての
キーボードで、6は出力手段の例としての表示部、8は
同様に出力手段の例としてのプリンタで、他に外部装置
へのデータ転送用のインターフェースなどを出力手段と
しても良い。10はシソーラス(類義語検索用の辞書)
で、12は属性名(タグ名)と属性の値(タグの値)と
を検索語として、構造化文書14を検索するための検索
手段である。構造化文書14は、実施例で用いたXML
に限らず、SVL(Scalable Vector Graphics)、SM
IL(Synchronized Multimedia Integrated Languag
e)などの任意のものでよい。実施例では複数の構造化
文書を用いるが、1つの巨大な構造化文書を検索対象と
しても良い。
【0013】16〜18は記憶部で、記憶部16はシソ
ーラス展開により得られた類義語のタグ名のグループを
記憶し、記憶部17は検索語の一部として入力されたタ
グの値(属性の値)を記憶する。記憶部18は検索条件
に一致する属性、あるいはこれを含む上位概念の属性、
もしくは検索条件に一致する属性を含む構造化文書を記
憶する。記憶部16〜18は検索語や検索結果を記憶す
るための作業用の記憶部である。
【0014】図1の実線は、タグ名(属性名)やその上
位概念のグループ名による検索を示し、破線はタグの値
(属性値)による検索を示す。一点鎖線は検索結果の流
れを示し、2点差線はシソーラス10を作成するための
入力を示す。キーボード4からは、検索語として属性名
を入力し、属性名が欧文であるような場合に備えて、属
性名の上位概念(グループ名)を入力するようにしても
良い。このほかに、属性の値を入力する。これらの組み
合わせが入力された時点での検索語である。
【0015】属性名やその上位概念はシソーラス10
で、一群の互いに類義語となる属性名に展開され、これ
を記憶部16に記憶し、表示部6に表示する。表示部6
で表示された属性名に対して、キーボード等から検索に
用いるものを絞り込むように入力することもでき、ある
いはシソーラス展開された属性名が検索書の意図にそぐ
わない場合、検索を中断して検索語を変更することもで
きる。
【0016】検索手段12は、構造化文書14に対し
て、タグ名が、シソーラス展開されたタグ名のいずれか
と一致するものを検索し、この内で検索語中のタグの値
と値が一致するタグを出力する。一致したタグを含む項
目を出力する範囲は、そのタグのみが問題で他は不要な
場合は、そのタグのみを出力すれば良い。これは、検索
するタグ名が<message>などで、メッセージの内容が問
題なときなどに適している。また検索したタグがより大
きなタグの一部で、より大きなタグに意味がある場合に
は、より大きなタグを出力する。また多数の構造化文書
を記憶している場合で構造化文書自体を探している場合
は、検索条件と一致したタグを含む構造化文書を出力す
ればよい。なおここに、検索条件と一致とは、タグ名が
シソーラス展開されたタグ名と一致し、かつタグの値が
一致することである。
【0017】図2にシソーラス10の構成を示すと、欧
文のタグ名の上位概念としてグループ名があり、1つの
グループに対して複数のグループ名、例えば”価格”
と”値段”や”単価”、を持たせて記憶しても良い。1
つのグループ内でのタグ名は互いに類義語ないしは同義
語で、構造化文書の処理を容易にするため欧文で定義し
てある。また文書型は構造化文書の文書型を意味し、タ
グ名とタグの値の他に、文書型を検索語に加えても良
い。シソーラス10は、例えばキーボード4からグルー
プ名やグループ内のタグ名、及び各タグ名の文書型を入
力して記憶することで作成される。
【0018】構造化文書の処理プログラムは、構造化文
書の処理装置2をソフトウェア的に実現するための命令
やデータで構成されており、 ・ 検索語のタグ名またはその上位概念と、タグの値の
入力を受け付けるための入力命令と、 ・ 入力された検索語中のタグ名またはその上位概念を
一群の類義語のタグ名へシソーラス展開するためのシソ
ーラス命令と、 ・ シソーラス展開されたタグ名とその値とを用いて構
造化文書を検索するための検索命令と、 ・ 検索結果を出力するための出力命令とを含んでい
る。なおシソーラス10は、プログラム中にデータとし
て記憶しても良く、あるいはシソーラス10をプログラ
ムの外部に記憶しても良い。また構造化文書の処理装置
2の機能や構成に関する開示は、そのまま構造化文書の
処理プログラムにも当てはまる。
【0019】構造化文書の検索アルゴリズムを図3に示
し、これは構造化文書の処理プログラムをアルゴリズム
表現したものである。また検索対象の構造化文書の例を
図4〜図6に示す。これらの構造化文書はXML文書
で、図4の文書は<Product>に関するデータベースとな
るもので、図5の文書は<Part>に関するデータベース
で、図6の文書は<Env>に関するデータベースである。
【0020】ステップ1で入力手段から例えばタグ名の
上位概念あるいはタグ名を入力し、この上位概念に含ま
れるタグ名や入力したタグ名と一致するタグ名がシソー
ラスにあれば(ステップ2)、これらをシソーラス展開
して該当するタグ名のリストを表示する(ステップ
3)。図3では、上位概念”価格”に対してその下位概
念のタグ名を5種類表示する。ここで検索不要なタグ名
があれば、検索に用いるタグ名を絞り込むようにタグ名
を選択でき、表示されたタグ名のリストが検索者の意図
にそぐわなければ、ステップ1に戻って、タグ名の上位
概念あるいはタグ名を入力しても良い。またタグ名やそ
の上位概念は、大きなタグに対応するものと小さなタグ
に対応するものとを複数入力しても良く、例えばタグ名
<Product>とタグ名の上位概念”価格”をアンド条件を
指定して入力すると、図4の構造化文書でのタグ名<Pro
duct>の3つのタグが検索され、これらのタグの中で”
価格”をシソーラス展開したタグ(ここではタグ名<Pri
ce>)が検索される。
【0021】タグ名はデータの意味を表し、タグ名のリ
ストを表示することにより、検索者の意図にかなったデ
ータを検索していることを確認した後、検索条件として
のタグの値を入力する(ステップ4)。タグの値は、タ
グ名の上位概念やタグ名と同時に入力しても良い。図3
では、”価格”に相当するタグ名を持ち、値”1000”を
持つタグを検索する。なお検索条件は”>1000”,”<
1000”,”1500〜1000”などのように範囲や論理式とし
て入力しても良い。
【0022】ステップ5で検索結果、ここでは<Product
>,<CHIP>に関する2つの属性を表示して検索を終了す
る。また検索結果が不完全であれば、絞り込み検索を行
う、ステップ1に戻り新規に検索をやり直す、などを行
う。
【0023】実施例では、タグ名を知らなくても検索で
き、タグ名がシソーラス展開されたタグ名と一致するの
でデータの意味が検索者の意図と一致し、かつタグの値
が一致するものを検索する。このため高い検索精度が得
られる。なお属性名とその上位概念は、そのいずれかを
入力できてシソーラス展開できれば良く、双方を入力自
在にする必要はない。
【図面の簡単な説明】
【図1】 実施例の構造化文書の処理装置のブロック図
【図2】 実施例の構造化文書の処理装置で用いたシソ
ーラスを示す図
【図3】 実施例での構造化文書の検索アルゴリズムを
示すフローチャート
【図4】 検索対象の構造化文書の例を示す図
【図5】 検索対象の構造化文書の例を示す図
【図6】 検索対象の構造化文書の例を示す図
【符号の説明】
2 構造化文書の処理装置 4 キーボード 6 表示部 8 プリンタ 10 シソーラス 12 検索手段 14 構造化文書 16〜18 記憶部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 構造化文書を記憶するための記憶手段
    と、検索語を入力するための入力手段と、入力された検
    索語をシソーラス展開するための辞書手段と、前記辞書
    手段によりシソーラス展開された類義語のグループを用
    いて、記憶手段に記憶した構造化文書の属性を検索する
    ための検索手段と、検索手段での検索結果を出力するた
    めの出力手段、とを備えた構造化文書の処理装置。
  2. 【請求項2】 前記辞書手段は、属性名または属性名の
    上位概念を検索語として、属性名の類義語のグループに
    シソーラス展開するものであることを特徴とする、請求
    項1の構造化文書の処理装置。
  3. 【請求項3】 前記入力手段を、属性名または属性名の
    上位概念と、これに対応する属性の値とを検索語として
    入力するように構成し、 前記検索手段を、属性名がシソーラス展開された属性名
    の類義語のグループのいずれかに一致し、かつ属性名が
    一致した属性の値と検索語として入力された属性の値と
    が一致する属性を検索するように構成したことを特徴と
    する、請求項2の構造化文書の処理装置。
  4. 【請求項4】 検索語の入力を受け付けるための入力命
    令と、入力された検索語をシソーラス展開するためのシ
    ソーラス命令と、シソーラス展開された類義語のグルー
    プを用いて、記憶された構造化文書の属性を検索するた
    めの検索命令と、検索命令による検索結果を出力するた
    めの出力命令、とを備えた構造化文書の処理プログラ
    ム。
  5. 【請求項5】 前記シソーラス命令は、属性名または属
    性名の上位概念を検索語として、属性名の類義語のグル
    ープにシソーラス展開するものであることを特徴とす
    る、請求項4の構造化文書の処理プログラム。
  6. 【請求項6】 前記入力命令を、属性名または属性名の
    上位概念と、これに対応する属性の値との組み合わせ
    を、検索語の入力として受け付けるように構成し、 前記検索命令を、属性名がシソーラス展開された属性名
    の類義語のグループのいずれかに一致し、かつ属性名が
    一致した属性の値と検索語として入力された属性の値と
    が一致する属性を検索するように構成したことを特徴と
    する、請求項5の構造化文書の処理プログラム。
JP2002099650A 2002-04-02 2002-04-02 構造化文書の処理装置と処理プログラム Pending JP2003296355A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002099650A JP2003296355A (ja) 2002-04-02 2002-04-02 構造化文書の処理装置と処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002099650A JP2003296355A (ja) 2002-04-02 2002-04-02 構造化文書の処理装置と処理プログラム

Publications (1)

Publication Number Publication Date
JP2003296355A true JP2003296355A (ja) 2003-10-17

Family

ID=29388208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002099650A Pending JP2003296355A (ja) 2002-04-02 2002-04-02 構造化文書の処理装置と処理プログラム

Country Status (1)

Country Link
JP (1) JP2003296355A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346537A (ja) * 2004-06-04 2005-12-15 Dainippon Printing Co Ltd Xml異体字検索システムおよびxml異体字検索方法
WO2006137565A1 (ja) * 2005-06-24 2006-12-28 Justsystems Corporation 文書処理装置及び文書処理方法
JP2010079857A (ja) * 2008-09-29 2010-04-08 Toshiba Corp 構造化データ検索プログラム及び構造化データ検索装置
JP2012032886A (ja) * 2010-07-28 2012-02-16 Fujitsu Ltd 検索装置、検索プログラム、および検索方法
CN104981802A (zh) * 2013-02-27 2015-10-14 日立数据系统有限公司 针对对象存储器索引系统的内容类别

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346537A (ja) * 2004-06-04 2005-12-15 Dainippon Printing Co Ltd Xml異体字検索システムおよびxml異体字検索方法
WO2006137565A1 (ja) * 2005-06-24 2006-12-28 Justsystems Corporation 文書処理装置及び文書処理方法
JPWO2006137565A1 (ja) * 2005-06-24 2009-01-22 株式会社ジャストシステム 文書処理装置及び文書処理方法
JP2010079857A (ja) * 2008-09-29 2010-04-08 Toshiba Corp 構造化データ検索プログラム及び構造化データ検索装置
JP2012032886A (ja) * 2010-07-28 2012-02-16 Fujitsu Ltd 検索装置、検索プログラム、および検索方法
CN104981802A (zh) * 2013-02-27 2015-10-14 日立数据系统有限公司 针对对象存储器索引系统的内容类别
JP2016512634A (ja) * 2013-02-27 2016-04-28 ヒタチ データ システムズ コーポレーションHitachi Data Systems Corporation オブジェクトストレージインデキシングシステムのためのコンテンツクラス
US9639564B2 (en) 2013-02-27 2017-05-02 Hitachi Data Systems Corporation Content class for object storage indexing system
US9965502B2 (en) 2013-02-27 2018-05-08 Hitachi Vantara Corporation Content class for object storage indexing system
US10817489B2 (en) 2013-02-27 2020-10-27 Hitachi Vantara Llc Content class for object storage indexing system

Similar Documents

Publication Publication Date Title
JPH09114860A (ja) データ検索方法及び装置
US20120259829A1 (en) Generating related input suggestions
JP2009026195A (ja) 商品分類装置、商品分類方法及びプログラム
US20180089335A1 (en) Indication of search result
JP2008084070A (ja) 構造化文書検索装置およびプログラム
JP2003296355A (ja) 構造化文書の処理装置と処理プログラム
JPH0581326A (ja) データベース検索装置
JP2008102773A (ja) データを共通のフォーマットに変換する方法
JP2003108582A (ja) 類義語抽出方法および文書検索装置
JP2004318381A (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009075662A (ja) 検索支援装置
JP2005011301A (ja) 文書処理装置及び文書処理プログラム
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
JPH08137892A (ja) 文書検索方法及び文書検索装置
JPH1031677A (ja) 文書検索装置
US11314725B2 (en) Integrated review and revision of digital content
JP2009251845A (ja) 検索結果評価装置及び検索結果評価方法
JP2004295301A (ja) 文書検索装置
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007018443A (ja) 情報処理装置
JP2006172029A (ja) 検索結果提示方法
JP2007199987A (ja) 特許情報検索システム
JP2006163723A (ja) ドキュメント検索方法
JPH05165889A (ja) 文書検索装置
JP4739637B2 (ja) シソーラス構築支援装置およびシソーラス構築支援方法