JP2000330979A - 検索対象となる電子文書の解析方法及び電子文書登録システム - Google Patents

検索対象となる電子文書の解析方法及び電子文書登録システム

Info

Publication number
JP2000330979A
JP2000330979A JP11137090A JP13709099A JP2000330979A JP 2000330979 A JP2000330979 A JP 2000330979A JP 11137090 A JP11137090 A JP 11137090A JP 13709099 A JP13709099 A JP 13709099A JP 2000330979 A JP2000330979 A JP 2000330979A
Authority
JP
Japan
Prior art keywords
contents
electronic document
item
divided
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11137090A
Other languages
English (en)
Inventor
Kiyoaki Yagi
清晃 八木
Keiko Hara
恵子 原
Hidekazu Komuro
英一 小室
Koushi Yamanaka
航史 山中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP11137090A priority Critical patent/JP2000330979A/ja
Publication of JP2000330979A publication Critical patent/JP2000330979A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 利用者が欲する情報に迅速に到達できるよう
な形態で文書登録を行うことができる電子文書登録シス
テムを提供する。 【解決手段】 文書ファイルに含まれる目次情報を抽出
して目次項目の構造を解析し、各目次項目に構造解析結
果に基づく目次レベルを付与する目次情報解析モジュー
ル13と、目次レベルに基づいて文書ファイルの本文を
目次レベル毎に分割し、分割後の本文データを検索単位
として登録する本文分割モジュール14と、分割された
一の本文データに含まれる個々のキーワードと当該キー
ワードを含む目次項目に対応する本文データとを相互に
関連付ける関連付けモジュール15とを有し、文書ファ
イルを検索前に所定の意味内容単位に分割しておくよう
に構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大容量の文書ファ
イルを効率的に検索できるようにするための文書登録技
術に係り、特に、検索対象となる電子文書の解析方法及
び電子文書登録システムに関する。
【0002】
【従来の技術】日々作成して蓄積された多種多様の電子
文書、例えば会議録、報告書、稟議書、論文、マニュア
ル等を電子化した文書ファイルから利用者の要求するも
のを検索し、検索した情報を提供する情報検索サービス
システムがある。この種の情報検索サービスシステムで
は、全文検索等の手法を用いて該当する情報を利用者に
提供するようになっているが、検索結果が、作成時の情
報単位、例えば文書ファイル単位で利用者に提供される
場合が多く、サイズが大きい文書ファイルの場合は、真
に要求される情報の存在ポイント近くにナビゲートする
のが困難であった。このような場合に、例えば利用者の
要求度合いに応じて文書ファイルを分割し、検索単位を
細かくして登録することも考えられるが、それを実現す
る場合は、どの基準で分割したら良いかどうかを人間が
判断する必要があり、実際に分割する際にも人手を要し
ていた。
【0003】
【発明が解決しようとする課題】上述のように、従来の
情報検索サービスシステムでは、検索対象となる文書フ
ァイルが大容量でいくつもの話題を扱った文書、あるい
は複数の章を持つ文書であった場合、利用者は、検索結
果から真に欲する情報に到達するまでに大量の不要な情
報をも確認しなければならなかった。また、検索結果が
多すぎて結果に対する2次検索が改めて必要になるとい
う問題もあった。一方では、検索結果が大容量の場合、
データの転送及びディスプレイ上への表示に大きな負荷
がかかっていた。さらに、同一の電子文書から利用者の
レベルに応じて複数のファイルを作成する場合、データ
ベース構築のための作業が膨大になり、文書の管理形態
が複雑となり、人の手による作業もまた増大するという
問題もあった。
【0004】そこで、本発明は、利用者が欲する情報に
迅速に到達できるような形態での文書登録を可能にする
解析方法及びこの解析方法を応用した電子文書登録シス
テムを提供することを主たる課題とする。
【0005】
【課題を解決するための手段】上記課題を解決する本発
明の電子文書の解析方法は、情報検索の対象となる電子
文書から目次情報を抽出して当該電子文書における目次
項目の構造解析を行い、各目次項目に前記構造解析結果
に基づく目次レベルを付与するとともに、当該電子文書
の本文を前記目次レベル毎に分割し、分割後の本文デー
タを検索単位として登録することを特徴とする。つま
り、事前に電子文書を自動分割して管理しておき、検索
時に少ないオペレーションで必要情報に到達できるよう
にする。
【0006】目次項目が階層的な構造を有する場合、目
次レベルは、当該目次項目の階層関係を識別するための
識別情報として利用される。この場合において、電子文
書がその本文中に同一階層の次の目次項目と同じフレー
ズ又は定型キーワードが出現するものである場合、電子
分割の分割は、定型キーワードが出現するポイントを探
し、当該ポイント以降を次の目次項目に対応する本文デ
ータとして分割する。一方、電子文書がその本文中に同
一階層の次の目次項目と同じフレーズ又は定型キーワー
ドが出現しないものである場合、電子文書の分割は、電
子文書の本文を段落毎に分割するとともに、各段落にお
いて所定の定型キーワードが存在し且つ当該段落に分割
の対象となっている目次項目の名詞句が含まれている割
合が1つ前の段落の目次項目の名詞句を含む割合よりも
大きい場合に当該段落と前記1つ前の段落とを分割す
る。
【0007】検索の便宜を図るため、分割後の電子文書
を登録する際に、分割された一の本文データに含まれる
個々のキーワードと当該キーワードを含む目次項目に対
応する電子文書とを相互に関連付けておくようにしても
良い。
【0008】本発明が提供する文書登録システムは、検
索対象となる電子文書を保持する電子文書データベース
と、前記電子文書から目次情報を抽出して当該電子文書
における目次項目の構造解析を行い、各目次項目に前記
構造解析結果に基づく目次レベルを付与する目次情報解
析モジュールと、前記目次レベルに基づいて前記電子文
書の本文を目次レベル毎に分割し、分割後の本文データ
を検索単位として登録する本文分割モジュールとを備
え、必要に応じて、分割された一の本文データに含まれ
る個々のキーワードと当該キーワードを含む目次項目に
対応する電子文書とを相互に関連付ける関連付けモジュ
ールを備えて構成されるシステムである。
【0009】電子文書に含まれる目次項目の構造を特定
するための目次情報解析ルール、前記電子文書における
定型キーワードの記述部位に応じた文書分割ポイントを
決定するための文書分割ルール、及び、電子文書の分割
単位同士の相互関連付けルールを格納したルール格納手
段を備え、これらのルールを使用して上記分割及び関連
付けを行うようにすることもできる。
【0010】
【発明の実施の形態】以下、図面を参照して、本発明に
おける実施の形態を詳細に説明する。図1は、本発明の
情報検索システムの一実施形態を示す構成図である。こ
の情報検索システム1は、キーボードやポインティング
デバイス等の入力装置及びディスプレイパネル等の表示
装置を有するコンピュータによって実現されるもので、
目次情報解析ルール、文書分割ルール、関連付けルール
を格納したルール格納部10、入出力インタフェース1
1、検索モジュール12、目次解析モジュール13、本
文分割モジュール14、関連付けモジュール15、電子
文書DB16を備えて構成される。
【0011】入出力インタフェース11は、入力装置や
表示装置と本システムとの間で授受されるデータや各種
情報の入出力制御を行う。情報検索を要求する利用者端
末がネットワーク等を介して接続される場合、入出力イ
ンタフェース11は、これらの利用者端末との間で検索
条件の入力や検索結果の出力をも制御する。
【0012】検索モジュール12は、入力装置を通じて
利用者から検索要求が入力されたときに、表示装置に検
索条件の入力を促すための画面を表示させるとともに、
この表示に対応して入力された検索条件に基づく検索結
果(文書ファイル)を表示装置に表示させる。
【0013】目次解析モジュール13及び本文分割モジ
ュール14は、検索対象となる電子文書(文書ファイ
ル)の自動分割処理を行うものである。目次解析モジュ
ール13は、文書ファイルから目次情報を抽出して当該
文書ファイルにおける目次項目の構造解析を行い、各目
次項目に前記構造解析結果に基づく目次レベルを付与す
るものである。目次項目の構造解析に際しては、目次項
目及びその内容を把握するために文書ファイル内の形態
素毎に品詞を与える公知の形態素解析手法を用いる。目
次レベルは、目次項目が構造を特定する文中にどのよう
な形態で出現するかによって定める。例えば、目次項目
が本文中の段落先頭に出現する場合は「レベル1」、目
次項目に対応す定型語句や記号(以下、「定型キーワー
ド」又は単に「キーワード」と称する)が本文中の段落
先頭に出現する場合は「レベル2」、いずれにも該当し
ない場合は、「レベル3」のように付与する。なお、レ
ベル数は任意であって良い。目次項目が階層的な構造
(ツリー構造)を有する場合、目次レベルは、当該目次
項目の階層関係を識別するための識別情報として機能す
る。
【0014】本文分割モジュール14は、目次解析モジ
ュール13の処理結果及び文書分割ルールに基づいて文
書ファイルの本文を分割する。分割方法は、目次レベル
によって異なる。これについては後述する。
【0015】関連付け処理部15は、関連付けルールに
記述されている定型キーワードを含む分割結果とその定
型キーワードを含む目次項目の本文情報との相互関連付
けを行う。
【0016】次に、上記のように構成される情報検索シ
ステム1において、電子文書DB16内の文書ファイル
を自動分割する場合の動作例を説明する。ここでは、図
2に示されるように、文書ファイル20に含まれる目次
21を目次解析モジュール13で解析してその目次21
にそれぞれ目次レベルを付与し、この目次レベルに基づ
いて、本文分割モジュール14で1枚の文書ファイル2
0をM(M:2以上の自然数)枚に分割する場合の例を
挙げる。
【0017】図3(a)は目次情報解析ルールの一例、
図3(b)は文書分割ルールの一例であり、それぞれ分
割対象となる文書ファイルが決定されたときにチューニ
ング(内容の調整・決定)されるようになっている。目
次情報解析ルールでは、階層構造のルール、つまりツリ
ー配下をもつ目次のルールも定められている。例えば第
1章「ddd」の配下に第1項「ccc」・・・があり、第1
項「ccc」の配下に1.「eee」、「fff」がある場合の
レベルの決定ルールも定められている。
【0018】文書分割ルールは、主として目次項目がレ
ベル3の場合の分割ポイント(分割部位)を画定する際
に用いるルールであり、意味の切れ目である定型キーワ
ードがどの部位に存在した場合に分割ポイントとするか
を定めたものである。定型キーワードが文頭にある場合
のルールが「文頭ルール」、文中にある場合のルールが
「文中ルール」、文末にある場合のルールが「文末ルー
ル」である。文頭ルールの例としては、「次に、それで
は」等、文中ルールの例としては、「について、に関し
て」等、文末ルールの例としては、「伺います、お尋ね
します」等の定型キーワードが挙げられる。
【0019】目次情報解析モジュール13は、図4の手
順に従って各目次項目のフラグチャック(目次レベルの
付与)を行う。まず、ルール格納部10から目次情報解
析ルールを読み出す(ステップS101)。そして、目
次21から1項目ずつ読み出し(ステップS102)、
その項目を目次情報解析ルールに従って、3段階のレベ
ルの何れか、つまりレベル1、レベル2、レベル3の何
れかにフラグチャックする(ステップS103)。
【0020】レベル1に該当する場合は、その項目に
「レベル1」を付与する(ステップS104a)。レベ
ル2の項目をツリー配下に含む場合はレベル2フラグを
ONにし(ステップS105a:Yes、S106b)、
レベル2の項目をツリー配下に含まない場合は、レベル
2フラグをOFFにする(ステップS105a:No、S
106a)。
【0021】ステップS103において、レベル2に該
当する場合は、その項目に「レベル2」を付与する(ス
テップS104b)。レベル3項目をツリー配下に含む
場合はレベル3フラグをONにし(ステップS105
b:Yes、S106c)、レベル3項目をツリー配下に
含まない場合は、レベル3フラグをOFFにする(ステ
ップS105b:No、S106d)。ステップS103
において、レベル3に該当する場合は、その項目に「レ
ベル3」を設定する(ステップS104c)。以上の処
理をすべての項目について繰り返す。
【0022】上記のような目次情報解析結果に基づい
て、本文分割モジュール14は、目次レベルに応じた文
書ファイルの分割を行う。図5は、この場合の本文分割
モジュール14の処理手順図である。
【0023】本文分割モジュール14は、まず、レベル
1の分割処理を行う(ステップS201)。すなわち、
文書ファイルの本文中(段落の先頭)に次の目次項目と
同じフレーズが出現するポイントを探し、当該ポイント
以降を次の目次項目に対応する本文データとして分割す
る。次に、レベル1の分割処理により分割された本文デ
ータについて、レベル2または3の目次項目をツリー配
下に含むかどうかを判定し、含む場合は、レベル2の分
割処理を行う(ステップS202:Yes、S20
3)。すなわち、本文中(段落の先頭)に次の目次項目
を表す定型キーワードが出現するポイントを探し、当該
ポイント以降を次の目次項目に対応する本文データとし
て分割する。
【0024】その後、そのレベル2の分割処理がなされ
た文書ファイルについて、レベル3の項目をツリー配下
に含むかどうかを判定し、含む場合は、レベル3の分割
処理を行う(ステップS204:Yes、S205)。
なお、ステップS202においてツリー配下にレベル2
又は3の目次項目を含まない場合はレベル1の分割を行
い、ステップS204においてツリー配下にレベル3の
目次項目を含まない場合はレベル2の分割を行うことに
なる。
【0025】レベル3の場合は、レベル1及びレベル2
の分割のように明確なポイントが存在しないのが通常で
ある。そのため、本文分割モジュール14は、文書分割
ルールに従い、図6の手順で分割ポイントを画定する。
まず、ルール格納部10から文書分割ルールを読み出す
(ステップS301)。そして、レベル2の分割処理が
された文書ファイルを段落毎に分割し(ステップS30
2)、各段落において、意味の切れ目となる定型キーワ
ードが前の段落の文末、次の段落の文頭又は文中のいず
れかに存在するかどうかを調べる(ステップS30
3)。
【0026】定型キーワードが上記のいずれかの部位に
存在する場合は、当該段落に分割の対象となっている目
次項目の形態素である名詞句が含まれているかどうかを
調べる(ステップS303:Yes、S304)。名詞句
が含まれている場合は目次項目の名詞句を含む割合が、
1つ前の目次項目の名詞句を含む割合よりも大きいかど
うかを調べる(ステップS304:Yes、S305)。
【0027】なお、目次項目の名詞句を含む割合は、目
次項目の形態素解析結果と当該段落の形態素解析結果と
を比較することによって求めることができる。例えば、
名詞句を対象とし、1つマッチすることによって1点と
することで、割合を比較できるようにする。以上の処理
をすべての段落について繰り返し、解析する段落がなく
なった時点で分割処理を終了する(ステップS30
6)。
【0028】次に、関連付けモジュール15において実
行される分割結果の関連付け処理の内容について説明す
る。図7(a)は関連付け処理の概念図、同(b)は関
連付けルールの例を示した図であり、図8は、関連付け
処理の手順説明図である。
【0029】関連付けモジュール15は、ルール格納部
10から関連付けルールを読み出すとともに(ステップ
S401)、本文分割モジュール14で文書ファイル2
0から分割された本文データ(レベル3の目次項目に対
応するデータ)23〜26を順次読み出し(ステップS
402)、関連付けルールにマッチする定型キーワード
が存在するかどうかを確認する(ステップS403)。
存在する場合は、その定型キーワードが他の本文データ
の目次項目に含まれているかどうかを調べる(ステップ
S403:Yes、S404)。他の目次項目に含まれて
いた場合は、その本文データと他の目次項目に対応する
本文データとを関連付ける(ステップS404:Yes、
S405)。この処理をすべての本文データについて繰
り返す。
【0030】図7の例では、本文データ23に「XYZ
の定理」という定型キーワードが含まれており、本文デ
ータ25に対応する目次項目に「XYZの定理」という
定型キーワードが含まれていた場合に両本文データ2
3,25の位置情報を相互に関連付ける。なお、「XY
Zの定理」という定型キーワードは、図7(b)に記述
されている関連付けルールである「の定理」の前に記述
されている名詞句「XYZ」を連結することによって生
成する。
【0031】このように、本実施形態の情報検索システ
ム1では、検索対象となる文書ファイルの目次情報を解
析して、事前にその文書ファイルを自動的分割して管理
しておくようにしたので、従来のように文書ファイル全
体を検索して提示する場合に比べて、利用者の欲しい情
報により速く到達することができ、しかもより細かいポ
イントにナビゲートできるようになる。自動分割に際し
ては、「巻」、「節」、「章」、「項」、「文」といっ
た、複数の意味的、文法的、形式的固まりからなる大き
なサイズの文書ファイルから目次情報を抽出して解析す
るようにしたので、人的作業に近い形態で文書ファイル
を自動分割することができ(もともと目次情報は、人的
作業により当該文書ファイルの意味的、文法的、形式的
固まりを判断して作成されたものである)、検索精度も
向上する。
【0032】また、文書ファイルを細かく分割しておく
ことで、検索結果やデータ閲覧のためのファイル転送及
び表示の際の負荷を軽減することもできる。
【0033】さらに、分割された本文データの関連付け
を行うようにしたので、利用者が目的情報に到達するル
ートを新たに付加することができるようになる。
【0034】本発明は、例えば会議録、マニュアル、論
文、報告書のように、目次項目がほぼ定型的なフォーマ
ットで記述される文書ファイルにおいて、特に顕著な効
果を奏することができる。
【0035】
【実施例】次に、本発明の実施例を説明する。上記情報
検索システム1は、多様な情報検索に適用することがで
きる。例えば、議員が質問をし、役職者がその質問に回
答するという会議の議事録を記録した文書ファイル(会
議録)を検索する際に、本システムを応用することがで
きる。会議録は、対象となる文書ファイルが大容量であ
り、いくつもの話題を扱ったもの(複数の章を持つ文
書)であり、目次項目も略定型的なフォーマットで、ツ
リー構造になっている。会議録としての性質上、質問部
分とそれに対応する回答部分とを関連付けることによ
り、検索の便宜を図る利点も生じる。
【0036】図9は、会議録の自動分割及び関連付けを
行う場合に使用される各種ルールの内容例を示したもの
であり、(a)は、目次情報解析ルール、(b)は文書
分割ルール、(c)は関連付けルールである。なお、各
ルールは、適宜修正できるようになっている。
【0037】図10(a)は目次解析モジュール13に
よってレベルが付与された目次項目の例である。図示の
例では、便宜上、文字の先頭位置によって目次項目のツ
リー構造を表現している。図中、最左端の目次項目から
順にレベル1、レベル2、レベル3が付与されている。
【0038】図10(b)は、図10(a)におけるX
X議員(レベル2)のツリー配下にあるレベル3の目次
項目、すなわち、「来年度予算について」a1と「行政
改革について」a2の本文データの例を示した図であ
る。この図10(b)の例について、どのようにして両
者の本文データを分割するか、つまりレベル3分割を行
うかについて説明する。
【0039】分割対象となる図10(b)下段の本文デ
ータにおいて、「次に」b1は文頭ルールにマッチし、
「に関連して」b2は文中ルールにマッチする。一方、
上段の本文データにおける「お伺い」b3は文末ルール
にマッチする。
【0040】また、下段の本文データには、目次項目の
名詞句である「行政改革」b4が含まれている。この
「行政改革」が含まれる割合は、上段の本文データに対
応する目次項目である「来年度予算について」よりも大
きい。つまり、図6に示したステップS303〜S30
5の3つの条件をすべて満足している分割ポイントPを
境として分割を行う。
【0041】次に、関連付け処理の例を説明する。図1
1(a)は目次解析モジュール13によってレベルが付
与された目次項目の例である。最左端の目次項目から順
にレベル1、レベル2、レベル3が付与されている。図
11(b)は、レベル3の目次項目「震災対策につい
て」a11の本文データ、つまりXX議員の質問データ
の一部を記述したものである。文面中のYY「局長」b
11は、関連付けルールに記述されている定型キーワー
ドであり、図11(a)の他の目次項目a12にもその
定型キーワード「局長」が含まれているので、この目次
項目a12に張り付けられている分割結果と互いに位置
情報を保持し合う。つまり、2つの分割結果は、条件を
満足することで関連付けられる。
【0042】
【発明の効果】以上の説明から明らかなように、本発明
によれば、大容量の電子文書が事前に自動分割され、し
かも関連性のあるものについては相互に関連付けされて
いるので、必要とする情報を少ないオペレーションで索
出して利用者に提示できるようになる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る情報検索システムの
構成図。
【図2】本実施形態による自動分割処理の概念図。
【図3】(a)は目次情報解析ルールの一例、(b)は
文書分割ルールの一例を示した説明図。
【図4】本実施形態による自動分割処理の手順説明図。
【図5】本文分割モジュールによる分割処理の手順説明
図。
【図6】本実施形態によるレベル3の分割処理の手順説
明図。
【図7】(a)は関連付け処理の概念図、(b)は関連
付けルールの一例を示した説明図。
【図8】本実施形態による関連付けの処理の手順説明
図。
【図9】(a)本発明の実施例で用いる目次情報解析ル
ール、(b)は文書分割ルール、(c)は関連付けルー
ルの一例を示した説明図。
【図10】(a)はレベルが付与された目次項目の例、
(b)は、XX議員(レベル2)のツリー配下にあるレ
ベル3の二つの目次項目の本文データの例を示した図。
【図11】(a)はレベルが付与された目次項目の例、
(b)は、レベル3の目次項目「震災対策について」の
本文データの例を示した図。
【符号の説明】
1 情報検索システム 10 ルール格納部 11 入出力インタフェース 12 検索モジュール 13 目次情報解析モジュール 14 本文分割モジュール 15 関連付けモジュール 16 電子文書DB(データベース)
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小室 英一 東京都江東区豊洲三丁目3番3号 株式会 社エヌ・ティ・ティ・データ内 (72)発明者 山中 航史 東京都江東区豊洲三丁目3番3号 株式会 社エヌ・ティ・ティ・データ内 Fターム(参考) 5B009 ND01 QA09 QA12 SA12 VA02 5B075 ND03 NR02 NR12 PR10

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 情報検索の対象となる電子文書から目次
    情報を抽出して当該電子文書における目次項目の構造解
    析を行い、各目次項目に前記構造解析結果に基づく目次
    レベルを付与するとともに、当該電子文書の本文を前記
    目次レベルに基づいて分割し、分割後の本文データを検
    索単位として登録することを特徴とする、 電子文書の解析方法。
  2. 【請求項2】 前記目次項目が階層的な構造を有するも
    のであり、前記目次レベルは、当該目次項目の階層関係
    を識別するための識別情報であることを特徴とする、 請求項1記載の解析方法。
  3. 【請求項3】 前記電子文書は、前記目次項目が略定型
    的なフォーマットで記述された文書であることを特徴と
    する、 請求項1記載の解析方法。
  4. 【請求項4】 前記電子文書の分割は、当該電子文書が
    その本文中に同一階層の次の目次項目と同じフレーズ又
    は定型キーワードが出現するものである場合は、前記出
    現するポイントを探し、当該ポイント以降を前記次の目
    次項目に対応する本文データとして分割する処理である
    ことを特徴とする、 請求項1、2又は3記載の解析方法。
  5. 【請求項5】 前記電子文書の分割は、当該電子文書が
    その本文中に同一階層の次の目次項目と同じフレーズ又
    は定型キーワードが出現しないものである場合は、前記
    電子文書の本文を段落毎に分割するとともに、各段落に
    おいて所定の定型キーワードが存在し且つ当該段落に分
    割の対象となっている目次項目の名詞句が含まれている
    割合が1つ前の段落の目次項目の名詞句を含む割合より
    も大きい場合に当該段落と前記1つ前の段落とを分割す
    る処理であることを特徴とする、 請求項1、2又は3記載の解析方法。
  6. 【請求項6】 前記登録の際に、分割された一の本文デ
    ータに含まれる個々のキーワードと当該キーワードを含
    む目次項目に対応する電子文書とを相互に関連付けてお
    くことを特徴とする、 請求項1、2又は3記載の解析方法。
  7. 【請求項7】 検索対象となる電子文書を保持する電子
    文書データベースと、 前記電子文書から目次情報を抽出して当該電子文書にお
    ける目次項目の構造解析を行い、各目次項目に前記構造
    解析結果に基づく目次レベルを付与する目次情報解析モ
    ジュールと、 前記目次レベルに基づいて前記電子文書の本文を目次レ
    ベル毎に分割し、分割後の本文データを検索単位として
    登録する本文分割モジュールとを備えて成る、電子文書
    登録システム。
  8. 【請求項8】 分割された一の本文データに含まれる個
    々のキーワードと当該キーワードを含む目次項目に対応
    する電子文書とを相互に関連付ける関連付けモジュール
    をさらに備えて成る、 請求項7記載の電子文書登録システム。
  9. 【請求項9】 検索対象となる電子文書を保持する電子
    文書データベースと、前記電子文書に含まれる目次項目
    の構造を特定するための目次情報解析ルール、前記電子
    文書における定型キーワードの記述部位に応じた文書分
    割ポイントを決定するための文書分割ルール、及び、電
    子文書の分割単位同士の相互関連付けルールを格納した
    ルール格納手段と、 前記電子文書に含まれる目次情報を抽出して目次項目の
    構造を前記目次情報解析ルールに従って解析し、各目次
    項目に前記構造解析結果に基づく目次レベルを付与する
    目次情報解析モジュールと、 前記目次レベルのみ又はその目次レベルと前記文書分割
    ルールに基づいて前記電子文書の本文を目次レベル毎に
    分割し、分割後の本文データを検索単位として登録する
    本文分割モジュールと、 分割された一の本文データに含まれる個々のキーワード
    と当該キーワードを含む目次項目に対応する電子文書と
    を前記関連付けルールに従って相互に関連付ける関連付
    けモジュールとを有し、 前記電子文書を検索前に所定の意味内容単位に分割して
    おくことを特徴とする、電子文書登録システム。
  10. 【請求項10】 前記目次項目が階層的な構造を有する
    ものであり、 前記目次情報解析モジュールは、前記電子文書の目次項
    目の階層関係を識別するための目次レベルを各目次項目
    に付与するものであり、 前記本文関連付けモジュールは、前記目次レベルが最下
    位層であって目次項目と同じフレーズ又は定型キーワー
    ドによっては分割ポイントを画定できない場合に前記文
    書分割ルールに基づいて前記電子文書の本文を分割する
    ものであることを特徴とする、 請求項9記載の電子文書登録システム。
JP11137090A 1999-05-18 1999-05-18 検索対象となる電子文書の解析方法及び電子文書登録システム Pending JP2000330979A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11137090A JP2000330979A (ja) 1999-05-18 1999-05-18 検索対象となる電子文書の解析方法及び電子文書登録システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11137090A JP2000330979A (ja) 1999-05-18 1999-05-18 検索対象となる電子文書の解析方法及び電子文書登録システム

Publications (1)

Publication Number Publication Date
JP2000330979A true JP2000330979A (ja) 2000-11-30

Family

ID=15190659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11137090A Pending JP2000330979A (ja) 1999-05-18 1999-05-18 検索対象となる電子文書の解析方法及び電子文書登録システム

Country Status (1)

Country Link
JP (1) JP2000330979A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269091A (ja) * 2001-03-09 2002-09-20 Minolta Co Ltd 電子ブック装置
JP2006195982A (ja) * 2005-01-10 2006-07-27 Xerox Corp コンテンツテーブルの検出ならびに参照判定の方法
JP2007226797A (ja) * 2006-02-23 2007-09-06 Xerox Corp 目次判別目的類似度リンク計算の高速化
JP2008269216A (ja) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd 文書画像取得装置
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2009289122A (ja) * 2008-05-30 2009-12-10 Canon Inc サーバ装置、カタログ処理方法及びプログラム
JP5263851B1 (ja) * 2012-10-09 2013-08-14 株式会社エスキュービズム 文書変換方法および文書変換プログラム
JP2022104893A (ja) * 2020-12-30 2022-07-12 深▲ゼン▼市世強元件網絡有限公司 Pdfファイル分割方法及びホームページにpdfファイルを読み込む方法
JP2023008685A (ja) * 2021-07-06 2023-01-19 株式会社 情報システムエンジニアリング 情報提供システム、情報提供方法、及びデータ構造

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002269091A (ja) * 2001-03-09 2002-09-20 Minolta Co Ltd 電子ブック装置
JP2006195982A (ja) * 2005-01-10 2006-07-27 Xerox Corp コンテンツテーブルの検出ならびに参照判定の方法
JP2007226797A (ja) * 2006-02-23 2007-09-06 Xerox Corp 目次判別目的類似度リンク計算の高速化
JP2008269216A (ja) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd 文書画像取得装置
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP5187313B2 (ja) * 2007-10-12 2013-04-24 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
US8983965B2 (en) 2007-10-12 2015-03-17 Nec Corporation Document rating calculation system, document rating calculation method and program
JP2009289122A (ja) * 2008-05-30 2009-12-10 Canon Inc サーバ装置、カタログ処理方法及びプログラム
JP5263851B1 (ja) * 2012-10-09 2013-08-14 株式会社エスキュービズム 文書変換方法および文書変換プログラム
JP2022104893A (ja) * 2020-12-30 2022-07-12 深▲ゼン▼市世強元件網絡有限公司 Pdfファイル分割方法及びホームページにpdfファイルを読み込む方法
JP2023008685A (ja) * 2021-07-06 2023-01-19 株式会社 情報システムエンジニアリング 情報提供システム、情報提供方法、及びデータ構造
JP7272540B2 (ja) 2021-07-06 2023-05-12 株式会社 情報システムエンジニアリング 情報提供システム、情報提供方法、及びデータ構造

Similar Documents

Publication Publication Date Title
US6915308B1 (en) Method and apparatus for information mining and filtering
US10296584B2 (en) Semantic textual analysis
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
JP3266586B2 (ja) データ分析システム
KR101873873B1 (ko) 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법
JPH08255172A (ja) 文書検索システム
JP3353829B2 (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
JP2000330979A (ja) 検索対象となる電子文書の解析方法及び電子文書登録システム
KR20000050225A (ko) 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100836878B1 (ko) 정보 검색 시스템에서의 주제 또는 분야 할당 장치 및 그방법
JPH08171569A (ja) 文書検索装置
JP2010266971A (ja) 端末装置
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
KR100504632B1 (ko) 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법
JP2004046870A (ja) 情報単位群操作装置
KR20010107810A (ko) 웹 검색시스템 및 그 방법
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
JP2002312389A (ja) 情報検索装置および情報検索方法
JP2004178167A (ja) 情報検索方法及び装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents