JPH08255155A - 全文登録語検索装置および方法 - Google Patents

全文登録語検索装置および方法

Info

Publication number
JPH08255155A
JPH08255155A JP7083534A JP8353495A JPH08255155A JP H08255155 A JPH08255155 A JP H08255155A JP 7083534 A JP7083534 A JP 7083534A JP 8353495 A JP8353495 A JP 8353495A JP H08255155 A JPH08255155 A JP H08255155A
Authority
JP
Japan
Prior art keywords
word
text
compressed
search
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7083534A
Other languages
English (en)
Inventor
Shoichi Tateno
昌一 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7083534A priority Critical patent/JPH08255155A/ja
Priority to US08/614,697 priority patent/US5812999A/en
Publication of JPH08255155A publication Critical patent/JPH08255155A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Abstract

(57)【要約】 【目的】 本文中の単語を登録しタグにより区切った参
照単位毎にアクセス可能に検索インデックスを作成する
と共に、参照単位毎に本文を圧縮し、本文の記憶容量を
少なくして、全文の登録語の検索を能率よく行う。 【構成】 タグを有する文書の本文を収めた本文ファイ
ルを入力し、タグで区切られた参照単位に分割する参照
単位分割部と、参照単位の本文を圧縮し、圧縮された本
文の圧縮ブロックの位置と参照単位の位置を関係づける
本文圧縮処理部と、参照単位に含まれる検索対象とする
単語に対して、単語と当該単語が出現する本文における
参照単位の位置の対を抽出する単語位置抽出部と、抽出
された単語と参照単位の位置に対応する圧縮ブロックの
位置との対を単語に従って分類し、単語に対し当該単語
が出現する全ての圧縮ブロックの位置を組とした単語位
置集合を得る分類部と、単語位置集合に対し、単語から
圧縮ブロックの位置集合を得る検索インデックスを生成
する検索インデックス生成部と、生成した検索インデッ
クスと圧縮された本文の圧縮ブロックとを接続する検索
インデックス圧縮本文接続部とを備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、全文登録語検索装置お
よび方法に関し、特に、タグを有する文書において本文
中の単語を登録し、タグにより区切った参照単位毎にア
クセス可能に検索インデックスを作成すると共に、参照
単位毎に本文を圧縮し、本文の記憶容量を少なくして、
全文の登録語の検索を能率よく行うことのできる全文登
録語検索装置および方法に関するものである。
【0002】
【従来の技術】従来から、ワークステーション上の文書
編集装置(ワードプロセッサ)など、文書処理を行う文
書編集装置においては、文書の作成を効率よく行うた
め、タグを用いて文書内容を部分的に区別して、予じ
め、見出し,段落などの複数の文書部品を作成し、その
各々の文書部品の間の関係を定めて、文書を構造化して
編集することが試みられている。
【0003】このような文書に対して構造の概念を取り
入れた構造化文書の例としては、例えば、国際規格のO
DA(ISO8613: Open Document Architectur
e)や、SGML(ISO8879: Standard General
ized Markup Language)の規格による構造化文書が知ら
れている。ODAの規格による構造化文書を用いた文書
処理方法の一例は、特開平5−135054号公報に記
載されている「文書処理方法」が参照できる。
【0004】ところで、SGMLによる構造化文書は、
従来のテキスト処理システムとの親和性が高く、アメリ
カを中心として普及してきており、既に実用の段階に入
っている。このようなSGMLによる構造化文書の手法
では、タグとよばれるマークを文書テキスト中に挿入す
ることで、文書テキストを部分的に区分し(例えば文書
部品として区分し)、その区分の関係を規定して構造化
し、木構造の文書構造を表現する。
【0005】SGMLによる構造化文書を例にとって、
マーク(タグ)付けされた構造化文書の処理例について
説明する。SGMLによる構造化文書では、予じめ文書
の構造のひな型が与えられ、文書の構造は、その与えら
れたひな型の範囲内に制約される。この文書構造のひな
型は、SGMLにおいては、文書型定義(DTD:Docu
ment Type Definition)と呼ばれる。
【0006】SGMLの構造化文書では、まず、文書型
定義を規定して、文書の構造を表現するために、文書テ
キスト内にタグと呼ばれるマークを挿入し、そのタグに
より文書テキストを部分的に区分する。例えば、文書に
おける一つの段落は、名前が“段落”とされたタグ<段
落>を用いて、次のように表現される。 『<段落>これは一つの段落です。</段落>』ここで
のタグ<段落>が段落の開始を意味し、スタートタグと
呼ばれる。タグ</段落>が段落の終了を意味し、エン
ドタグと呼ばれる。つまり、ここでは、タグの名前が
“段落”とされたスタートタグ<段落>とエンドタグ<
/段落>との2つのタグを用いてマーク付けし、文書に
おけるテキストを文書部品として部分的に区分する。つ
まり、2つのタグの間に挾まれたテキスト部分が、タグ
で指示された構造の内容部分を示している。
【0007】名前が付けられたタグは各々が区別され
て、文書型定義の中で構造上のその位置付けが定義され
る。その意味では、タグが文書の構造(構成要素)を表
現している。したがって、混合が生じない場合におい
て、以下で言う構造化文書(SGMLによる文書)の構
造とは、タグと同義であることを意味している。
【0008】また、SGMLによる構造化文書(以下、
SGML文書と略称する)においては、一部のタグを省
略できる。その場合の省略の可/不可は、文書型定義
(DTD)により指定する。省略はスタートタグおよび
エンドタグのそれぞれに独立に指定できる。例えば、エ
ンドタグ</段落>が省略可とする場合は、これが文書
型定義内で指定された場合であり、その場合、先の例は 『<段落>これは一つの段落です。』と記述してもよい
ことになる。
【0009】SGML文書の文書型定義の具体例は、例
えば、図4に示される。図4に示す文書型定義40によ
り規定される文書構造では、名前が“題”とされたスタ
ートタグ、“題”のエンドタグ、“段落”のエンドダ
ク、“図”のエンドタグ、および“図本体”のエンドタ
グが省略可能であることが定義されている。
【0010】更に、図4に示す文書型定義40の内容を
具体的に説明すると、ここでの文書型定義(DTD)
は、SGMLの表記法に従って記述されているので、そ
れに従って解釈できる。つまり、文書型定義の内容の行
の最初の“<!”はマークアップ宣言区切り子であり、
空白なしに続く次の“ELEMENT”は要素宣言キー
ワードである。この行の最初の“<!ELEMENT”
により、次に続く記述によって、その構造の内容(下部
の構造)がどのようになるのかを指定する。そして、そ
の次に記述される項目の名前(文書,章,題,段落,図
など)が、対象となるタグの名前を表している。
【0011】更に、次の記号(“− −”,“−
O”,“O O”など)は、その項目の対象のタグが、
スタートタグおよびエンドタグの順でそれぞれ省略可能
かどうかを表す記号である。“−”が省略不可を意味
し、“O”が省略可を意味する。例えば、ここでの記号
が“− O”であれば、スタートタグは省略不可であ
り、エンドタグは省略可であることを意味する。
【0012】更に続く次の項目は、タグの下部の構造を
表す規定の定義である。ここでの記号“,”は項目(タ
グ)が順序立てて出現することを意味し、記号“|”は
どちらかの項目であれば良いことを意味し、記号“*”
は0回以上の繰り返しを意味する。また、記号“?”は
それがあってもなくても良いことを意味している。
【0013】したがって、例えば、タグの下部構造が
“(章題,段落*,章*)”と規定されている場合は
『章題の次に段落の0回以上の繰り返しがあり、更にそ
の次に章の0回以上の繰り返しがある』という順序で下
部の構造が規定されることを意味する。具体例で説明す
ると、図4に示す文書型定義40の第2行目のように、
タグの下部構造が“(題,(段落|図)*,章*)”と
規定されている場合、『章の次に段落または図の0回以
上の繰り返しがあり、その次に章の0回以上の繰り返し
がある』順序で下部の構造が規定されることを意味す
る。
【0014】また、第3行目および第4行目に記述され
ているタグの下部構造の“#PCDATA”はSGML
の予約語の1つであり、構造の規定で、その内容が文字
データであること意味している。したがって、文書型定
義40の例では、章を構成する「題」と「段落」のタグ
の下部には文字データが来ることを意味している。
【0015】つまり、図4に示す文書型定義(DTD)
の意味するところによる文書構造のひな型では、当該文
書が、「章」の繰り返しからなる“<文書>”というタ
グから始まる文書であり、その「章」は、「題」の次に
「段落」または「図」の0回以上の繰り返しがあり、更
にその次に「章」の0回以上の繰り返しがあるものから
構成されている。そして、ここでの「題」および「段
落」が、文字データから構成される。
【0016】更に細部の規定として、文書構造の「図」
の内容は、「題」とそれに続く「図本体」から構成され
ると定義され、「図本体」は、例えば外部のイメージフ
ァイルを参照するので、下部構造を持たない(“EMP
TY”)と定義される。また、ここでの構造のタグの省
略可/省略不可の指定は、「文書」および「章」はタグ
の省略不可であり、「段落」,「図」,および「図本
体」は、エンドタグのみが省略可であり、「題」は両方
のタグが省略可であるということが定義される。
【0017】このような文書型定義に従っている実際の
文書(以下、対象文書と呼ぶ)の例としては、例えば、
図5に示されているSGML文書50がある。なお、こ
の図5に示す文書の中では、文書の構造の深さに応じて
インデンテーションを変えて表記しているが、この表記
は、ここでの構造化文書の文書例の説明上、見やすくす
るために行っているものであり、実際の文書ではインデ
ンテーションされないことが多い。
【0018】図5を参照すると、この例の構造化文書の
SGML文書50を見ると理解されるように、「章」を
構成するその下位の構造の「題」を表すタグは、スター
トタグおよびエンドタグは共にこの文書中には現れてい
ない。しかし、実体的には、第2行目のタグ“<章>”
とその内容部分の“SGMLとは”との間のスタートタ
グ“<題>”が省略されている形となっている。なお、
このようなタグが省略されているかどうかは、前述の文
書型定義40を参照しなければ分からない。したがっ
て、対象文書は常にそれに従っている文書型定義とのセ
ットでないと正確な構造を読み取ることができない。
【0019】SGML文書では、このようにタグの省略
が行われるため、SGML文書を処理する際には、ま
ず、文書構造を解析する処理(SGMLパーサによる構
文解析処理)が必要とされる。文書構造の解析の処理で
は、対象文書を解析しながら、文書型定義との照らし合
わせを行い、対象文書において省略されたタグを復元す
る処理が主として行われる。実際の文書処理において実
行される構文解析処理では、これ以外の処理(例えば、
属性の復元やエンティティの展開などの処理)も行われ
る。
【0020】図5に例示したSGML文書50を対象文
書として、タグ(構造)の復元処理を行うと、図6に示
すようようなSGML文書60が得られる。図6に示す
SGML文書60においては、下線を引いた部分が復元
されたタグ(構造)を示している。この対象文書は、図
4に示すような文書型定義40を参照して、省略された
タグが復元されたもである。つまり、「章」の構造の規
定から、タグ<章>の次には必ずタグ<題>が存在しな
ければならないので、まず、タグ<章>の次にタグ<題
>を復元し、同様に、タグ<図>の次には必ずタグ<題
>が存在しなければならないので、タグ<図>の次にタ
グ<題>を復元する。また、それぞれのエンドタグが省
略されているので、内容部分の次に(対応する次のタグ
の手前の位置に)、それぞれのエンドタグ</題>,<
/段落>などを復元する。このようにして下線が引かれ
たようにタグ(構造)が復元される。
【0021】次に、このようにして、タグが復元され、
構造表現されたSGML文書60において、構造を検索
する場合の処理について説明する。構造化文書において
は、文書編集を行う場合、単なるテキストの文字列の検
索だけでなく、文書構造における構造の検索も文書処理
の重要な処理となる。これは、構造化文書の処理を行う
場合においては、文書構造の構造を利用した編集処理が
積極的に行なわれるためである。
【0022】構造化文書の検索においては、従来のよう
な文字列の検索だけではなく、構造を積極的に利用した
検索も有効に利用される。例えば、文書内のSGMLに
関連した図を検索したい場合、これまでの検索処理で
は、文書内を全文検索(文字列検索)を行い、テキスト
の文字列からその「関連した図」の文字列を捜し出して
いた。
【0023】しかし、文書構造の構造自体を検索に用い
ると、例えば、「図のタイトルにSGMLを含んでいる
図」や「図の下部構造の題」のように文書構造における
構造を指示して、検索を行うことができ、より対象を絞
った検索を行うことができることになる。また、その場
合の検索処理も、文書の構造に従って対象範囲が限定し
て検索できるので、検索処理の効率が良くなるという利
点も持つ。
【0024】前述したように、SGML文書は、テキス
ト中にマーク付けを行うだけのタグを埋め込んだ形式の
文書アーキテクチャとなっているため、従来からのテキ
スト処理システムとの親和性が高く、構造がマーク付け
のタグで表現されるため、構造を検索する際にも特別な
装置あるいは処理プログラムを用いなくとも良い。タグ
の文字列を検索するという文字列検索を用いて、文書構
造の検索を行うことができる。つまり、従来からのテキ
スト処理装置(文書エディタなど)により、SGML文
書を作成することができ、基本的にはスタートタグとそ
れに対応するエンドタグを、タグの文字列を検索すると
いう従来の文字列検索のテキスト検索手法を用いて検索
することにより、構造検索を行うことができる。
【0025】
【発明が解決しようとする課題】このように、SGML
などのタグ付き文書の規格が標準化され、多方面で利用
され始めている。このタグ付き文書は、フォーマット情
報や、その他の文書に関する構造の情報を示すマークア
ップをタグにより表現する手法を取り入れた文書である
ため、SGMLの標準化の規格によって、文書の内容が
構造化されて、その内容の利用が容易になる。このた
め、企業、官庁、学校の内外を問わず、この種の文書の
流通が盛んになり始めている。このように、タグ付き文
書が電子化されて、蓄積されていくことにより、大規模
な電子化文書の資源が蓄えられ、利用可能になる。
【0026】しかし、SMGLなどのタグ付き文書の中
から、必要な情報を探す場合、文書構造は、タグを利用
することにより容易に判定されるので、構造の検索は容
易になっているが、文書内容については、これまでのフ
ルテキストサーチなどの手法を利用しなければならず、
十分に効率よく内容の検索までは行えないという問題が
あった。なお、タグを利用することにより、文書構造の
位置関係など判別できるので、このようなタグを利用し
て、タグを検索結果の参照単位の区切りとすることがで
き、文書内容の利用が効率化できる。
【0027】本発明は、上述のような問題を解決するた
めになされたものであり、本発明の目的は、タグを有す
る文書において、本文中の単語を登録し、タグにより区
切った参照単位毎にアクセス可能に検索インデックスを
作成すると共に、参照単位毎に本文を圧縮し、本文の記
憶容量を少なくして、全文の登録語の検索を能率よく行
うことのできる全文登録語検索装置および方法を提供す
ることにある。
【0028】
【課題を解決するための手段】上記のような目的を達成
するため、本発明の第1の特徴とする全文登録語検索装
置は、タグを有する文書の本文を収めた本文ファイルを
入力し、タグで区切られた参照単位に分割する参照単位
分割部と、参照単位の本文を圧縮し、圧縮された本文の
圧縮ブロックの位置と参照単位の位置を関係づける本文
圧縮処理部と、参照単位に含まれる検索対象とする単語
に対して、単語と当該単語が出現する本文における参照
単位の位置の対を抽出する単語位置抽出部と、抽出され
た単語と参照単位の位置に対応する圧縮ブロックの位置
との対を単語に従って分類し、単語に対し当該単語が出
現する全ての圧縮ブロックの位置を組とした単語位置集
合を得る分類部と、単語位置集合に対し、単語から圧縮
ブロックの位置集合を得る検索インデックスを生成する
検索インデックス生成部と、生成した検索インデックス
と圧縮された本文の圧縮ブロックとを接続する検索イン
デックス圧縮本文接続部とを備えることを特徴とする。
【0029】また、本発明において、第2の特徴とする
全文登録語検索方法は、タグを有する文書の本文を収め
た本文ファイルをタグで区切られた参照単位に分割し、
参照単位の本文を圧縮し、圧縮された本文の圧縮ブロッ
クの位置と参照単位の位置を関係づけ、参照単位内に含
まれる検索対象とする単語に対して、単語と当該単語が
出現する全ての参照単位の位置の対を抽出し、抽出され
た単語と参照単位の位置に対応する圧縮ブロックの位置
との対を単語により分類し、単語と当該単語が出現する
全ての圧縮ブロックの位置を組とした単語位置集合を作
成し、作成された単語位置集合に基づいて、単語から圧
縮ブロックの位置集合を得ることができる検索インデッ
クスを生成し、生成した検索インデックスと圧縮された
本文の圧縮ブロックとを接続することを特徴とする。
【0030】また、本発明の第3の特徴とする全文登録
語検索装置では、更に、検索インデックス生成部により
作成された検索インデックスを用いて得られた圧縮ブロ
ックの位置の集合に基づいて、圧縮ブロックの参照単位
を伸長し、伸長された参照単位を出力し、検索結果とし
て表示する検索処理部を有することを特徴とする。
【0031】
【作用】本発明の第1の特徴とする全文登録語検索装置
においては、タグを有する文書に対して、まず、参照単
位分割部が、タグを有する文書の本文を収めた本文ファ
イルを入力し、タグで区切られた参照単位に分割する
と、本文圧縮処理部が、参照単位の本文を圧縮し、圧縮
された本文の圧縮ブロックの位置と参照単位の位置を関
係づける。また、単語位置抽出部が、参照単位に含まれ
る検索対象とする単語に対して、単語と当該単語が出現
する本文における参照単位の位置の対を抽出する。次
に、分類部が、抽出された単語と参照単位の位置に対応
する圧縮ブロックの位置との対を単語に従って分類し、
単語に対し当該単語が出現する全ての圧縮ブロックの位
置を組とした単語位置集合を得る。そして、検索インデ
ックス生成部が、単語位置集合に対し、単語から圧縮ブ
ロックの位置集合を得る検索インデックスを生成し、検
索インデックス圧縮本文接続部が、生成した検索インデ
ックスと圧縮された本文の圧縮ブロックとを接続する。
【0032】これにより、文書中の全ての単語は、その
単語が含む本文の参照単位が圧縮された圧縮ブロックの
位置と共に、検索インデックスに登録されるので、検索
インデックスを用いて検索を行うことにより、文書中の
検索対象の単語の参照単位の圧縮ブロックの位置が直ち
に検索できる。そして、検索された位置から圧縮ブロッ
クを伸長することにより、検索対象の単語を含む参照単
位の本文内容の部分が表示出力される。
【0033】また、本発明において、第2の特徴とする
全文登録語検索方法においては、検索対象の文書に対し
て、検索処理を開始する前に、まず、タグを有する文書
の本文を収めた本文ファイルをタグで区切られた参照単
位に分割し、参照単位の本文を圧縮し、圧縮された本文
の圧縮ブロックの位置と参照単位の位置を関係づけ、参
照単位内に含まれる検索対象とする単語に対して、単語
と当該単語が出現する全ての参照単位の位置の対を抽出
する。そして、抽出された単語と参照単位の位置に対応
する圧縮ブロックの位置との対を単語により分類し、単
語と当該単語が出現する全ての圧縮ブロックの位置を組
とした単語位置集合を作成し、作成された単語位置集合
に基づいて、単語から圧縮ブロックの位置集合を得るこ
とができる検索インデックスを生成する。そして、生成
した検索インデックスと圧縮された本文の圧縮ブロック
とを接続する。
【0034】これにより、文書中の全ての単語は、その
単語が含む本文の参照単位が圧縮されたブロックの位置
と共に、登録された検索インデックスが作成される。検
索インデックスが作成され、検索インデックと圧縮ブロ
ックが接続された後は、本文ファイルは削除することが
でき、本文ファイルを削除することにより、検索インデ
ックスと圧縮ブロックを合せた容量は、十分に元の本文
ファイルの容量よりも小さくなる。
【0035】また、検索インデックスが作成された後
は、次回の検索処理からは、作成された検索インデック
スを用いた検索を行うことによって、文書中の単語の参
照単位となっている圧縮ブロックの位置が直ちに検索で
き、そして、検索された位置から圧縮ブロックを伸長し
て出力することにより、検索対象の単語を含む参照単位
の本文内容の部分が表示される。
【0036】また、本発明の第3の特徴とする全文登録
語検索装置においては、更に、検索処理部が設けられ、
検索処理部が、検索インデックス生成部により作成され
た検索インデックスを用いて得られた圧縮ブロックの位
置の集合に基づいて、圧縮ブロックの参照単位を伸長
し、伸長された参照単位を出力し、検索結果として表示
する。すなわち、検索対象の単語を検索する場合、検索
インデックス生成部により作成された検索インデックス
を利用することにより、検索結果として、単語に対して
タグの位置の集合が得られるので、これにより、得られ
た圧縮ブロックの位置の集合に基づいて、該当する圧縮
ブロックを伸長し、それぞれに該当する参照単位の本文
を得る。ここで得られた参照単位を次の参照単位まであ
るいは適当な長さだけ出力し、検索結果として表示す
る。このため、検索結果の対象文書の箇所の表示が能率
よく行える。
【0037】
【実施例】以下、本発明の一実施例を図面を用いて具体
的に説明する。図1は本発明の実施例の全文登録語検索
装置の装置構成の要部を示すブロック図である。図1に
おいて、1は検索語登録処理部、2は登録語検索処理
部、3はタグを有する文書の本文ファイル、4は圧縮本
文ファイルに付加された検索インデックス、5は圧縮本
文ファイル、11は参照単位分割部、12は単語位置抽
出部、13は分類処理機構、14は検索インデックス生
成部、15は本文圧縮処理部、16は検索インデックス
圧縮本文接続部、17は検索単語入力部、18は検索機
構、19は圧縮本文伸長出力部、20は検索結果出力表
示部である。
【0038】この全文登録語検索装置においては、検索
対象の単語を入力して本文検索の処理を実行する前に、
その前処理として、検索語登録処理部1が、タグを有す
る文書の本文ファイル3から、本文ファイルを参照単位
毎に圧縮して圧縮ブロックとすると共に、本文ファイル
3から検索対象とする単語の登録を行い、本文ファイル
を参照単位毎に圧縮した圧縮ブロックに付加する検索イ
ンデックス4を作成する。そして、検索インデックス4
が付加された本文の圧縮ブロックは、登録語検索処理部
2において、付加された検索インデックス4を利用し
て、検索対象の本文からその登録語を検索する処理が行
われる。図1を参照して説明する。
【0039】検索語登録処理部1において、まず、参照
単位分割部11にタグを有する文書の本文ファイル3を
入力する。参照単位分割部11は、本文ファイル3が入
力されると、本文をタグで区切られた参照単位に分割す
る。この参照単位の本文を入力として、次に、単語位置
抽出部12が、検索対象とする単語として、単語と当該
単語が出現する本文における参照単位の位置の対を抽出
する。
【0040】一方、本文圧縮処理部15は、参照単位分
割部11により分割された参照単位毎に、各々の参照単
位の本文を圧縮し、圧縮ブロックとする。分割された各
々の参照単位はタグ位置と対応付けられているので、こ
の各々の参照単位の本文の圧縮処理の際、圧縮した各々
の参照単位の圧縮ブロックの先頭位置を、対応するタグ
の位置と関係付ける。
【0041】次に、分類処理機構13が、抽出された単
語と圧縮ブロックの位置(参照単位の位置)の対を単語
に従って分類し、後述するように、単語に対し当該単語
が出現する全ての圧縮ブロックの位置を組とした単語位
置集合を生成する。そして、検索インデックス生成部1
4が、得られた単語位置集合に対し、単語から圧縮ブロ
ックの位置集合を得る検索インデックス4を生成する。
【0042】検索インデックス圧縮本文接続部16は、
本文ファイル3の本文が圧縮された圧縮ブロックの圧縮
本文ファイル5に対して、その対応の検索インデックス
4を接続する処理を行い、検索インデックス4が付加さ
れた状態の圧縮本文ファイル5を作成する。これによ
り、ここでの検索インデックス4が付加された圧縮本文
ファイル5は、検索インデックス4を用いる登録語検索
処理部2の検索処理により、検索対象の単語から高速に
圧縮ブロックの位置(参照単位の位置)を得ることがで
き、後述するように、圧縮本文伸長出力部19により、
該当の圧縮ブロックを伸長して出力することにより、参
照単位の内容が直ちに表示できる。
【0043】検索対象の単語から本文の検索処理を行う
場合には、登録語検索処理部2において、検索単語入力
部17を介して、検索対象とする単語を入力する。検索
対象の単語が入力されると、検索機構18が、圧縮本文
ファイル5に付加された検索インデックス4を用いて、
検索対象の単語の検索処理を行い、その単語が含まれる
対応の圧縮ブロックの位置の集合を検索する。圧縮ブロ
ックの位置が検索できると、次に、圧縮本文伸長出力部
19が、圧縮本文ファイル5をアクセスして、その圧縮
ブロックの位置から該当の圧縮ブロックを伸長し、参照
単位の本文内容に戻して出力する。そして、検索結果出
力表示部20により、該当の参照単位を出力表示する。
【0044】このように、タグを有する文書の本文ファ
イル3が、検索語登録処理部1の参照単位分割部11に
入力されると、参照単位分割部11は、タグで区切られ
た参照単位に分割し、参照単位分割部11から参照単位
とその位置を得る。また、本文圧縮処理部15が、参照
単位の本文を圧縮し、圧縮された本文の圧縮ブロックの
位置と参照単位の位置を関係づける。単語位置抽出部1
2は、この参照単位と関係付けられた圧縮ブロックの位
置を入力とし、この参照単位内に含まれる全ての単語に
ついて、その単語と、当該単語が出現する本文における
参照単位の圧縮ブロックの位置の対を生成する。次に、
分類処理機構13が、それぞれの単語について、その単
語が表れる全ての参照単位の圧縮ブロックの位置の組の
(単語・参照単位の圧縮ブロックの位置集合)対を得
る。そして、検索インデックス生成部14により、全て
の(単語・圧縮ブロックの位置集合)対から、各々の単
語についての圧縮ブロックの位置集合を生成し、検索イ
ンデックス4を作成する。
【0045】これにより、文書内の全ての単語は、その
単語が含まれる圧縮ブロック(参照単位)の位置の情報
と共に、検索インデックス4に登録されるので、検索対
象とする単語から検索インデックス4を用いて検索する
ことにより、文書中の検索対象の単語を含む参照単位の
圧縮ブロックの位置が直ちに検索でき、該当の圧縮ブロ
ックの位置から、圧縮ブロックを伸長することにより、
参照単位の文書内容の部分が表示出力される。
【0046】図2は、第1の実施例の本文ファイルに対
する検索インデックスの作成処理を示す処理フローを示
すPAD(Problem Analysis Diagram)図である。ま
た、図3は、図2に示す処理フローにより検索インデッ
クスを作成する場合の作成プロセスの要部を具体的に説
明する図である。図2および図3を参照して、全文登録
語検索のための検索インデックスの作成処理を説明す
る。
【0047】まず、図2を参照して、本文ファイルに対
する検索インデックスの作成処理の処理フローを概要を
説明する。処理を開始すると、処理ブロック21におい
て、本文ファイル35をタグの位置で分割し、分割した
部分を参照単位とし、そのタグ位置を一時記憶する処理
を行う。次に、繰り返し処理の制御ブロック22の処理
を行う。この制御ブロック22の処理では、タグで分割
された全てのタグ位置とその本文部分の対に対して、次
の処理ブロック23および処理ブロック24の処理を繰
り返し行う処理制御を行う。
【0048】この制御ブロック22の制御下の繰り返し
処理では、まず、処理ブロック23において、処理対象
の参照単位のタグ位置をAファイルに書き出す。次に、
処理ブロック24において、処理対象の参照単位の本文
の単語を、Aファイルに先に書き出したタグ位置に続い
て、順番にAファイルに書き出す。これにより、Aファ
イルには、1つの参照単位について、タグ位置に続い
て、その本文中の単語が連続して書き出される。このよ
うな処理を全ての参照単位について、制御ブロック22
の処理制御により、繰り返し行う。このため、図3に示
すように、Aファイル37には、本文ファイル35から
各々の参照単位について、まず、タグ位置が書き出さ
れ、続いて、当該タグ位置に対応する参照単位の本文の
中の単語が順次に書き出される。この結果、Aファイル
37の内容は、タグ位置とそれに続く単語の組37a
が、参照単位の数だけ続くデータが得られる。
【0049】次に、繰り返し処理の制御ブロック25の
処理を行う。制御ブロック25の処理では、タグで分割
された全てのタグ位置とその本文部分の対に対して、次
の処理ブロック26および処理ブロック27の処理を繰
り返し行う処理制御を行う。
【0050】制御ブロック25の制御下の繰り返し処理
では、まず、処理ブロック26において、処理対象の参
照単位の本文を圧縮し、圧縮ブロックとする。次に、処
理ブロック27において、処理対象の参照単位のタグの
位置を対応の圧縮ブロックの先頭位置に変換し、Bファ
イルに書き出す。これにより、Bファイルには、1つの
参照単位の圧縮ブロックについて、圧縮ブロックの先頭
位置に続いて、その本文中の単語が連続して書き出され
る。このような処理を全ての参照単位(圧縮ブロック)
について、制御ブロック25の処理制御により、繰り返
し行う。この結果、Bファイル38としては、図3に示
すように、本文ファイル35から各々の参照単位につい
て圧縮した圧縮ブロック毎の圧縮本文ファイル36が得
られており、この圧縮本文ファイル36の圧縮ブロック
の先頭位置と、先に作成されたAファイル37のタグ位
置が関係付けられ、その対応づけられているタグ位置が
圧縮ブロックの先頭位置に変換された内容のBファイル
38が作成される。この結果、Bファイル38の内容
は、各々の圧縮ブロックの先頭位置とそれに続く単語の
組38aが、参照単位(圧縮ブロック)の数だけ続くデ
ータとなる。
【0051】このようにして、Bファイルが作成される
と、次に、繰り返し処理の制御ブロック28の処理を行
う。この制御ブロック28の処理では、Bファイルに含
まれる全ての単語に対して、次の処理ブロック29およ
び処理ブロック30の処理を繰り返し行う処理制御を行
う。
【0052】この制御ブロック28の制御下の繰り返し
処理では、まず、処理ブロック29において、単語をキ
ーとして、当該単語の対応の圧縮ブロックの先頭位置を
値とする対を作成する。続いて、処理ブロック30にお
いて、同じキー(単語)を持つ値(圧縮ブロックの先頭
位置)の対を集めて、キーと値の集合から構成されるリ
ストを作成し、これをCファイルに書き出す。これによ
り、Cファイルには、1つの単語について、その単語が
出現する参照単位の圧縮ブロックの先頭位置のリストが
得られる。このような処理を全てのBファイルの単語に
ついて、制御ブロック28による処理制御により、繰り
返し行う。
【0053】この結果、図3に示すように、Cファイル
39には、本文ファイルの各タグに区切られる参照単位
(圧縮ブロック)の全ての単語について、当該単語がそ
の出現する各々の参照単位に対応する圧縮ブロックの先
頭位置のリストが得られる。図3に示すCファイル39
の例で説明すると、第1番目の単語1および第2番目の
単語2に対応して、それぞれに、『(単語1,0,
…)』および『(単語2,0,52,…)』のリストデ
ータが得られている。つまり、これらのリストデータ
は、それぞれに『単語1が出現する参照単位の圧縮ブロ
ックの先頭位置がアドレス“0”,…であること』およ
び『単語2が出現する参照単位の圧縮ブロックの先頭位
置がアドレス“0”,アドレス“52”,…であるこ
と』を意味している。
【0054】次に、処理ブロック31の処理を行い、C
ファイルの内容に基づいて、単語から参照単位の圧縮ブ
ロックの先頭位置の集合を検索できる検索インデックス
を作成し、ここでの処理を終了する。これにより、各々
の単語に対する検索インデックスが作成されると、その
検索インデックスを用いることにより、検索対象の単語
から直ちに、その単語が出現する参照単位の圧縮ブロッ
クの先頭位置の集合が得られる。したがって、検索単語
から得られた圧縮ブロックの先頭位置の集合に従って、
当該圧縮ブロックの先頭位置の集合から、該当の圧縮ブ
ロックの参照単位を伸長して出力し、それぞれの参照単
位の内容を表示できる。
【0055】以上、本発明の実施例について説明した
が、本発明は、上述した実施例に限定されるものではな
い。ここでは、全ての単語を抽出して登録語とする例に
ついて示しているが、単語位置抽出部12において形態
素解析処理を行うことにより、単語を抽出し、助詞、助
動詞、接続詞などは、検索対象となりにくいので、抽出
せず、検索対象を特定して検索語として登録するように
してもよいことは明らかである。その際、検索対象の特
徴を必ずしも示していないような単語を登録しないこと
も可能である。また、活用形については、検索時に活用
形を意識しないで検索できるようにするため、単語の抽
出語、終止形にするようにもできる。
【0056】
【発明の効果】以上、説明したように、本発明の全文登
録語検索装置によれば、本文中のタグの位置を区切り単
位として本文を参照単位に分割し、各々の参照単位毎に
本文を圧縮して圧縮ブロックとすると共に、検索対象と
する単語については、例えば、本文中の全ての単語につ
いて、その単語が出現する位置の直前にあるタグの位置
を全て集めて、タグの位置と圧縮ブロックの位置との対
応関係から、検索対象の単語と圧縮ブロックの位置の対
の検索インデックスを作成し、検索インデックスと圧縮
ブロックの圧縮本文ファイルと接続する。これにより、
検索対象の本文のファイルの容量を小さくすると共に、
検索インデックスにより全文登録語の検索が可能にな
る。検索する場合は、検索対象の単語を入力とし、その
単語が出現する参照単位の圧縮ブロックの位置集合を検
索結果として得て、圧縮ブロックを伸長して出力し、参
照単位の本文内容を表示出力する。
【図面の簡単な説明】
【図1】 図1は本発明の実施例の全文登録語検索装置
の装置構成の要部を示すブロック図、
【図2】 図2は本発明の実施例の本文ファイルに対す
る検索インデックスの作成処理を示す処理フローを示す
PAD(Problem Analysis Diagram)図、
【図3】 図3は図2に示す処理フローにより検索イン
デックスを作成する場合の作成プロセスの要部を具体的
に説明する図、
【図4】 図4はSGMLの文書型定義(DTD)の一
例を示す図、
【図5】 図5はタグ付き文書としてのタグが省略され
たSGML文書の一例を説明する図、
【図6】 図6は省略されたタグが復元されたSGML
文書の一例を説明する図である。
【符号の説明】
1…検索語登録処理部、2…登録語検索処理部、3…タ
グを有する文書の本文ファイル、4…圧縮本文ファイル
に付加された検索インデックス、5…圧縮本文ファイ
ル、11…参照単位分割部、12…単語位置抽出部、1
3…分類処理機構、14…検索インデックス生成部、1
5…本文圧縮処理部、16…検索インデックス圧縮本文
接続部、17…検索単語入力部、18…検索機構、19
…圧縮本文伸長出力部、20…検索結果出力表示部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 タグを有する文書の本文を収めた本文フ
    ァイルを入力し、タグで区切られた参照単位に分割する
    参照単位分割部と、 参照単位の本文を圧縮し、圧縮された本文の圧縮ブロッ
    クの位置と参照単位の位置を関係づける本文圧縮処理部
    と、 参照単位に含まれる検索対象とする単語に対して、単語
    と当該単語が出現する本文における参照単位の位置の対
    を抽出する単語位置抽出部と、 抽出された単語と参照単位の位置に対応する圧縮ブロッ
    クの位置との対を単語に従って分類し、単語に対し当該
    単語が出現する全ての圧縮ブロックの位置を組とした単
    語位置集合を得る分類部と、 単語位置集合に対し、単語から圧縮ブロックの位置集合
    を得る検索インデックスを生成する検索インデックス生
    成部と、 生成した検索インデックスと圧縮された本文の圧縮ブロ
    ックとを接続する検索インデックス圧縮本文接続部とを
    備えることを特徴とする全文登録語検索装置。
  2. 【請求項2】 タグを有する文書の本文を収めた本文フ
    ァイルをタグで区切られた参照単位に分割し、 参照単位の本文を圧縮し、圧縮された本文の圧縮ブロッ
    クの位置と参照単位の位置を関係づけ、 参照単位内に含まれる検索対象とする単語に対して、単
    語と当該単語が出現する全ての参照単位の位置の対を抽
    出し、 抽出された単語と参照単位の位置に対応する圧縮ブロッ
    クの位置との対を単語により分類し、 単語と当該単語が出現する全ての圧縮ブロックの位置を
    組とした単語位置集合を作成し、 作成された単語位置集合に基づいて、単語から圧縮ブロ
    ックの位置集合を得ることができる検索インデックスを
    生成し、 生成した検索インデックスと圧縮された本文の圧縮ブロ
    ックとを接続することを特徴とする全文登録語検索方
    法。
  3. 【請求項3】 請求項1に記載の全文登録語検索装置に
    おいて、更に、 検索インデックス生成部により作成された検索インデッ
    クスを用いて得られた圧縮ブロックの位置の集合に基づ
    いて、圧縮ブロックの参照単位を伸長し、伸長された参
    照単位を出力し、検索結果として表示する検索処理部を
    有することを特徴とする全文登録語検索装置。
JP7083534A 1995-03-16 1995-03-16 全文登録語検索装置および方法 Pending JPH08255155A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7083534A JPH08255155A (ja) 1995-03-16 1995-03-16 全文登録語検索装置および方法
US08/614,697 US5812999A (en) 1995-03-16 1996-03-13 Apparatus and method for searching through compressed, structured documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7083534A JPH08255155A (ja) 1995-03-16 1995-03-16 全文登録語検索装置および方法

Publications (1)

Publication Number Publication Date
JPH08255155A true JPH08255155A (ja) 1996-10-01

Family

ID=13805173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7083534A Pending JPH08255155A (ja) 1995-03-16 1995-03-16 全文登録語検索装置および方法

Country Status (2)

Country Link
US (1) US5812999A (ja)
JP (1) JPH08255155A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
US6330574B1 (en) 1997-08-05 2001-12-11 Fujitsu Limited Compression/decompression of tags in markup documents by creating a tag code/decode table based on the encoding of tags in a DTD included in the documents
US6633887B2 (en) 1996-11-12 2003-10-14 Fujitsu Limited Information management apparatus dividing files into paragraph information and header information linked to the paragraph information and recording medium thereof
JP2008186053A (ja) * 2007-01-26 2008-08-14 Nec Corp ファイル管理装置、ファイル管理方法およびファイル管理プログラム
JP2012038141A (ja) * 2010-08-09 2012-02-23 Fujitsu Ltd 文字列検索装置、文字列検索方法および文字列検索プログラム
JP2014171053A (ja) * 2013-03-01 2014-09-18 Sky Com:Kk 電子文書コンテナデータファイル、電子文書コンテナデータファイル生成装置、電子文書コンテナデータファイル生成プログラム、サーバ装置および電子文書コンテナデータファイル生成方法
JP2016139309A (ja) * 2015-01-28 2016-08-04 富士通株式会社 文字データ変換プログラム、文字データ変換装置および文字データ変換方法

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724847B2 (ja) * 1995-06-05 2005-12-07 株式会社日立製作所 構造化文書差分抽出方法および装置
US5754840A (en) * 1996-01-23 1998-05-19 Smartpatents, Inc. System, method, and computer program product for developing and maintaining documents which includes analyzing a patent application with regards to the specification and claims
US5946692A (en) * 1997-05-08 1999-08-31 At & T Corp Compressed representation of a data base that permits AD HOC querying
US6105021A (en) * 1997-11-21 2000-08-15 International Business Machines Corporation Thorough search of document database containing compressed and noncompressed documents
JP4003854B2 (ja) * 1998-09-28 2007-11-07 富士通株式会社 データ圧縮装置及び復元装置並びにその方法
CA2361398A1 (en) * 1999-02-03 2000-08-10 Quark, Inc. System and process for creating a structured tag representation of a document
US6665838B1 (en) * 1999-07-30 2003-12-16 International Business Machines Corporation Web page thumbnails and user configured complementary information provided from a server
US6405192B1 (en) 1999-07-30 2002-06-11 International Business Machines Corporation Navigation assistant-method and apparatus for providing user configured complementary information for data browsing in a viewer context
US6356908B1 (en) 1999-07-30 2002-03-12 International Business Machines Corporation Automatic web page thumbnail generation
US20040102197A1 (en) * 1999-09-30 2004-05-27 Dietz Timothy Alan Dynamic web page construction based on determination of client device location
AU2001263500A1 (en) * 2000-05-01 2001-11-12 R.R. Donnelley And Sons Company Methods and apparatus for serving a web page to a client device based on printed publications and publisher controlled links
US7080314B1 (en) * 2000-06-16 2006-07-18 Lucent Technologies Inc. Document descriptor extraction method
US7003506B1 (en) * 2000-06-23 2006-02-21 Microsoft Corporation Method and system for creating an embedded search link document
EP1323075A1 (en) * 2000-09-29 2003-07-02 BRITISH TELECOMMUNICATIONS public limited company Information access
US7046851B2 (en) * 2000-11-08 2006-05-16 California Institute Of Technology Image and video indexing scheme for content analysis
FR2818409B1 (fr) * 2000-12-18 2003-03-14 Expaway Procede pour diviser des documents structures en plusieurs parties
US20020169803A1 (en) * 2000-12-18 2002-11-14 Sudarshan Sampath System and user interface for generating structured documents
GB0104227D0 (en) * 2001-02-21 2001-04-11 Ibm Information component based data storage and management
US7036072B1 (en) 2001-12-18 2006-04-25 Jgr Acquisition, Inc. Method and apparatus for declarative updating of self-describing, structured documents
US7415669B1 (en) 2001-02-27 2008-08-19 Open Invention Network Method and apparatus for viewing electronic commerce-related documents
JP4843867B2 (ja) * 2001-05-10 2011-12-21 ソニー株式会社 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
US6886161B1 (en) * 2001-05-24 2005-04-26 Nortel Networks Limited Method and data structure for compressing file-reference information
JP2003150424A (ja) * 2001-11-16 2003-05-23 Fujitsu Ltd ファイルシステム、制御方法及びプログラム
US7237191B1 (en) * 2001-12-18 2007-06-26 Open Invention Network, Llc Method and apparatus for generic search interface across document types
US6909384B2 (en) * 2002-01-31 2005-06-21 Microsoft Corporation Generating and searching compressed data
WO2004036461A2 (en) * 2002-10-14 2004-04-29 Battelle Memorial Institute Information reservoir
US20040117354A1 (en) * 2002-12-16 2004-06-17 Azzaro Steven Hector Process for tagging and measuring quality
US7299404B2 (en) * 2003-05-06 2007-11-20 International Business Machines Corporation Dynamic maintenance of web indices using landmarks
US20050005239A1 (en) * 2003-07-03 2005-01-06 Richards James L. System and method for automatic insertion of cross references in a document
US7917480B2 (en) * 2004-08-13 2011-03-29 Google Inc. Document compression system and method for use with tokenspace repository
US8407239B2 (en) * 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
CN100458774C (zh) * 2004-11-29 2009-02-04 国际商业机器公司 文档编辑器及文档编辑方法
US8607151B2 (en) * 2006-08-01 2013-12-10 Nvidia Corporation Method and system for debugging a graphics pipeline subunit
JP5239367B2 (ja) * 2007-03-19 2013-07-17 富士通株式会社 情報提供システム、情報提供プログラムおよび情報提供方法
JP2013045208A (ja) * 2011-08-23 2013-03-04 Fujitsu Ltd データ生成方法、装置及びプログラム、検索処理方法、装置及びプログラム
US20150163326A1 (en) * 2013-12-06 2015-06-11 Dropbox, Inc. Approaches for remotely unzipping content
KR20150111221A (ko) * 2014-03-25 2015-10-05 삼성전자주식회사 페이지 구성 방법 및 이를 지원하는 전자장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04348468A (ja) * 1991-04-12 1992-12-03 Fuji Xerox Co Ltd データベース装置
JPH06301721A (ja) * 1993-04-19 1994-10-28 Hitachi Ltd 全文デ−タベ−ス検索方法
JPH06348757A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書検索装置および方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4959769A (en) * 1983-10-03 1990-09-25 Wang Laboratories, Inc. Structures and methods for representing and processing documents
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
US4682150A (en) * 1985-12-09 1987-07-21 Ncr Corporation Data compression method and apparatus
US4803643A (en) * 1987-08-10 1989-02-07 Oclc Online Computer Library Center Incorporated System and method for creating memory-retained, formatted pages of text, tabulation, and graphic data
US5469354A (en) * 1989-06-14 1995-11-21 Hitachi, Ltd. Document data processing method and apparatus for document retrieval
DE69032712T2 (de) * 1989-06-14 1999-07-01 Hitachi Ltd Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
JPH05135054A (ja) * 1991-11-13 1993-06-01 Hitachi Ltd 文書処理方法
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
JP2964831B2 (ja) * 1993-03-31 1999-10-18 富士ゼロックス株式会社 構造データ処理装置
US5652879A (en) * 1993-05-12 1997-07-29 Apple Computer, Inc. Dynamic value mechanism for computer storage container manager enabling access of objects by multiple application programs
US5623681A (en) * 1993-11-19 1997-04-22 Waverley Holdings, Inc. Method and apparatus for synchronizing, displaying and manipulating text and image documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04348468A (ja) * 1991-04-12 1992-12-03 Fuji Xerox Co Ltd データベース装置
JPH06301721A (ja) * 1993-04-19 1994-10-28 Hitachi Ltd 全文デ−タベ−ス検索方法
JPH06348757A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書検索装置および方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633887B2 (en) 1996-11-12 2003-10-14 Fujitsu Limited Information management apparatus dividing files into paragraph information and header information linked to the paragraph information and recording medium thereof
US6330574B1 (en) 1997-08-05 2001-12-11 Fujitsu Limited Compression/decompression of tags in markup documents by creating a tag code/decode table based on the encoding of tags in a DTD included in the documents
JP2000010988A (ja) * 1998-06-19 2000-01-14 Nec Corp 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2008186053A (ja) * 2007-01-26 2008-08-14 Nec Corp ファイル管理装置、ファイル管理方法およびファイル管理プログラム
JP2012038141A (ja) * 2010-08-09 2012-02-23 Fujitsu Ltd 文字列検索装置、文字列検索方法および文字列検索プログラム
JP2014171053A (ja) * 2013-03-01 2014-09-18 Sky Com:Kk 電子文書コンテナデータファイル、電子文書コンテナデータファイル生成装置、電子文書コンテナデータファイル生成プログラム、サーバ装置および電子文書コンテナデータファイル生成方法
JP2016139309A (ja) * 2015-01-28 2016-08-04 富士通株式会社 文字データ変換プログラム、文字データ変換装置および文字データ変換方法

Also Published As

Publication number Publication date
US5812999A (en) 1998-09-22

Similar Documents

Publication Publication Date Title
JPH08255155A (ja) 全文登録語検索装置および方法
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
KR100345945B1 (ko) 텍스트및이미지문서를동기시켜표시하며조작하기위한방법및장치
JP2536998B2 (ja) 非テキスト・オブジェクトの格納及び検索
US7707139B2 (en) Method and apparatus for searching and displaying structured document
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
JPH11203381A (ja) 情報閲覧システム
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
JP2001067348A (ja) 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
US7814408B1 (en) Pre-computing and encoding techniques for an electronic document to improve run-time processing
KR20000069633A (ko) 파일 처리 방법, 데이터 처리 장치 및 기억 매체
KR100305363B1 (ko) 전자문서를위한메타데이타모형화방법과메타데이타관리시스템및그관리방법
CN115687566A (zh) 一种全文检索及显示检索结果的方法及装置
JP2008084341A (ja) 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
KR101251686B1 (ko) 표시 가능 파일의 필드 및 참조 문헌 및 인용문에 대한확장형 마크업 언어 스키마의 결정
JP3239845B2 (ja) 全文検索装置および方法
KR20130062667A (ko) 속성 정보를 이용한 파일 검색 장치 및 방법
JPWO2005101210A1 (ja) データ解析装置およびデータ解析プログラム
JP3099683B2 (ja) 情報検索装置
JP2962287B2 (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JPH1115826A (ja) 文書解析装置及び方法
JP2003316773A (ja) 文書管理システム、方法、プログラム及び記憶媒体
JP3384017B2 (ja) データ抽出システム
Marur et al. A Novel Architecture for Production of Glance-Friendly Online Documents Using Semiformal Approach
Lorie Preserving Digital Documents for the Long-Term