JP2004013745A - Device and method for extracting document dependence - Google Patents

Device and method for extracting document dependence Download PDF

Info

Publication number
JP2004013745A
JP2004013745A JP2002169236A JP2002169236A JP2004013745A JP 2004013745 A JP2004013745 A JP 2004013745A JP 2002169236 A JP2002169236 A JP 2002169236A JP 2002169236 A JP2002169236 A JP 2002169236A JP 2004013745 A JP2004013745 A JP 2004013745A
Authority
JP
Japan
Prior art keywords
document
word
definition
dependency
appeared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002169236A
Other languages
Japanese (ja)
Inventor
Takeshi Nagamine
永峯 猛志
Akio Yamashita
山下 明男
Katsunori Yoshiji
芳地 克典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002169236A priority Critical patent/JP2004013745A/en
Publication of JP2004013745A publication Critical patent/JP2004013745A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system in which it can be considered that dependence exists between documents when a word defined in a certain document is used in a different document and which extracts dependence between a plurality of documents and supports document understanding. <P>SOLUTION: A defined attribute giving part 11 gives defined attribute to each document of a document group. For instance, a morpheme analysis is conducted so as to divide the document into words, and "defined attribute" is given to the word or the like which corresponds to "A" extracted by a language pattern such as "A is B". The defined attribute giving part 11 gives a word having the extracted defined attribute and an original document given to a reference attribute giving part 12. The reference attribute giving part 12 examines whether a word which is the same character string as the word having the defined attribute received and has no defined attribute exists in each of six original documents or not. When the word exists, the reference attribute is given to the word. A dependence link generating part 13 pasts a link to the word of the same character string having the defined attribute from the word having the reference attribute, quantitatively evaluates the link to generate the dependance between the documents and preserves it in a dependence link data base 15 by a dependence link preserving part 14. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
この発明は、文書間の依存関係を抽出する技術に関する。
【0002】
【背景の技術】
ある文書中に定義されている単語を、別の文書で使用している場合その文書間に依存関係があると考えることができる。複数の文書間の依存関係を抽出し文書理解を支援することが望まれる。
【0003】
すなわち、人間がある文書を読む場合、その文書を読むための前提となる文書がある場合がある。たとえば、ある装置のマニュアルのある個所を読もうとしても、あらかじめその装置に関する部位名称等の用語を知らなければならない。
【0004】
また、あるプロジェクトのある資料を読む場合に、そのプロジェクトに精通している場合は問題ないが、余り詳しくない場合、そのプロジェクト内で定義されている用語などが使われていると、その資料以外にも目を通す必要が出てくる。
【0005】
また、大学などの授業では学生が取得したい単位の前にあらかじめ学んだほうがよい単位などがある場合がある。つまり、ある授業で使用する教材文書を読む前に、別の授業の教材文書を読んだほうがよい場合がある。
【0006】
このような場合、そのプロジェクトで使用されている全資料や、大学で使用している全教材の文書間の依存関係を調べて、ある文書を読む前に、読むべき文書を推薦できれば文書読解を支援できる。
【0007】
この発明は以上の要望に対処してなされたものである。
【0008】
なお、この発明と関連する先行文献としては以下のものがある。
(1)特開平7−325827号公報:「ハイパーテキスト自動生成装置」
(2)特開平5−225247号公報:「文書間構造表示方法」
(3)特開2000−259657公報:「用語定義の検索/収集装置」
【0009】
(1)では、文書に含まれる単語同士のマッチングまたはシソーラスを使って同義語に展開し、単語の文字ストリング同士のマッチングに基づいてリンク(ハイパーリンク)を生成したり、リンクもとの単語から、その単語が多く出現する節のタイトルへリンクを生成することを開示している。単語間のリンクであるので文書間の依存関係を抽出できない。
【0010】
(2)では、2つの文書に含まれる共通の単語の数をもとに文書間の関連度を求めその値をもとにグラフに色付けやリンクの太さの設定を行って文書間の関連の強さをあらわしている。同じ単語が含まれる場合、2つの文書が関連していることはいえそうであるが、どのような関連かは分からないので読むか否か判断するには難しい。
【0011】
(3)では与えられた文書から用語とその定義部を抽出し、データベースに登録することにより検索できるようにしてある。しかし、その用語が出てきた背景や、その用語に関する例などが、実際にその用語が定義されている資料には記述されている場合が多く、ユーザに定義だけ与えるよりも、定義されている資料やそのページを与えたほうがよい場合がある。
【0012】
【発明が解決する課題】
この発明は、以上の事情を考慮してなされたものであり、文書間の依存関係を抽出する技術を提供することを目的としている。
【0013】
【課題を解決するための手段】
この発明によれば、上述の目的を達成するために、例えば、与えられた文書群に含まれるそれぞれの文書を構成する各単語について、定義されているか、参照(使用)されているかの属性を「定義属性」、「参照属性」として与え、参照属性を持つ単語から、定義属性を持つ同じ文字ストリングの単語へリンクを張りそれらをもとに依存度を計算する。
【0014】
すなわち、この発明の一側面に、上述の目的を達成するために、文書依存関係抽出装置に:それぞれ1塊の文書として他の文書と区別して扱うことができる複数の文書単位を記憶する文書記憶手段と;上記文書記憶手段に記憶された各文書単位において、単語が定義を伴って出現したこと(定義属性であること)を判別する第1の判別手段と;上記文書記憶手段に記憶された各文書単位において、上記第1の判別手段により定義を伴って出現したと判別された単語が定義を伴うことなく出現したこと(参照属性であること)を判別する第2の判別手段と;定義を伴って出現した単語と、当該単語に対応し定義を伴うことなく出現した単語との対応関係に基づいて、上記定義を伴って出現した単語が判別された文書単位と、上記当該単語に対応し定義を伴うことなく出現した単語が判別された文書単位との依存関係を決定する依存関係決定手段とを設けるようにしている。
【0015】
この構成においては、異なる文書位置において現れる同一の文字ストリングの単語間に定義−参照関係がある蓋然性があるかどうかを判別し、これに基づいて文書単位間の依存関係を簡易に決定することができる。
【0016】
なお、シソーラス等を用いて同義語との間の「定義属性」−「参照属性」の関係を考慮して依存度を測定してもよい。「単語」は、ひろく、文章の構成要素を指し、複合語も含まれる。
【0017】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
【0018】
この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され、以下実施例を用いて詳細に説明される。
【0019】
【発明の実施の形態】
以下、この発明の実施例について説明する。
【0020】
[文書依存関係抽出手法]
まず、実施例で用いる文書依存関係抽出手法の原理的な説明を行う。
【0021】
この実施例では、与えられた文書群に含まれるそれぞれの文書を構成する各単語について、定義されているか、参照(使用)されているかの属性を、「定義属性」、「参照属性」として与え、参照属性を持つ単語から、定義属性を持つ同じ文字ストリングの単語へリンクを張りそれらのもとに依存度を計算する。
【0022】
定義属性の付与方法は、「〜とは〜である」等のように言語パタンを使用して定義されている単語を抽出し、それらに「定義属性」与えることができる。
【0023】
また文書のレイアウト情報を用いて定義属性を付与してもよい。たとえば、文書や章のタイトルが抽出できる場合で、それが単語や複合語のみ場合は、その文書や節はその単語について説明をしている可能性が高いので定義されているとみなしそれらに「定義属性」与えてもよい。また、「項目名 文章」などのように、項目名があって、その説明文が続くようようなレイアウトがある場合はその項目名が説明されているとして定義属性を与えてもよい。
【0024】
参照属性の付与方法は、上記の定義属性が付与された単語と同じ文字ストリングの単語で定義属性が付与されていない単語に「参照属性」を付与すればよい。参照属性を持つ単語で、定義属性を持つ同じ文字ストリングがある場合、参照属性を持つ単語から定義属性を持つ同じ文字ストリングの単語へリンクは張る。
【0025】
ある文書の単語から別の文書の単語への上記リンクが貼られる場合、リンクの数等に基づいて文書間の依存度を表わす。ある文書間に依存度がある場合、依存度を属性値として持つ依存リンクを文書間にはる。そして上記の文書間の依存度をビジュアルに見せ文書の理解を支援する。
【0026】
依存リンクには依存度が付与されており、ある文書を読む際に、その文書に依存する、ある依存度以上の文書のみを集めたり、依存度の高い順にランクしユーザへ提示することができる。
【0027】
文書Daから文書Dbへの依存度Dep(Da,Db)は以下の式で計算される。
【数1】
Dep(Da,Db)=Σw(Kab[n]) (a≠b)
【0028】
ただし、Kab:文書Db中で定義属性を持つ単語で文書Da中において参照属性を持つ同じ文字ストリングの単語の集合。
Kab[n]:単語集合Kabのnで示される単語(1≦n≦Kabに含まれる単語の数)。
w(Kab[n]):単語Kab[n]の重み。
【0029】
w(Kab[n])は単語Kab[n]が文書Daに参照属性を伴って出現する回数と、その単語が文書Db中で定義属性を伴って出現する回数から計算される。
【数2】
w(Kab[n])=ref_tf(Da,Kab[n])*ref_w+def_tf(Db,Kab[n])*def_w
【0030】
ref_tf(Da,Kab[n])は文書Da中に参照属性を持つKab[n]の出現回数である。
def_tf(Db,Kab[n])は文書Db中に定義属性を持つKab[n]の出現回数である。
ref_w、def_wは重みで変更可能である。たとえば、単語の一般性を加味するためにidf(inverted document frequency)を与えられた文書群や、辞書やニュース記事等からあらかじめ計算しておいてもよい。下記のように重みを付加することにより、一般的な用語と思われる単語の重みを下げることができる。
【数3】
ref_w(Kab[n])=[単語Kab[n]の新聞記事1年分から得たidf]
【0031】
[文書登録装置]
つぎにこの実施例で用いる文書登録装置100について説明する。この文書登録装置100は、複数の文書を受け付けてそれら文書間の依存度を生成して登録するものである。文書登録装置100は、例えば、スタンドアローンのパーソナルコンピュータで実現することもでき、またネットワーク上に配置されたサーバにより実現することもできる。
【0032】
図1は、文書登録装置100の構成を示しており、この図において、文書登録装置100は、文書群受付部10、定義属性付与部11、参照属性付与部12、依存リンク生成部13、依存リンク保存部14、および依存リンクデータベース15を含んで構成されている。
【0033】
文書群受付部10は、ユーザが指定した文書群を受け取る。指定方法としてはあるディレクトリ以下に保存されているすべての文書などというものであるが、これに限定されない。文書群受付部10が、図2に示すような7つの文書を受け取ったと仮定する。
【0034】
文書群受付部10は、受け取った文書群を定義属性付与部11に渡す。定義属性付与部11はそれぞれの文書に対して定義属性の付与を行う。
【0035】
まず形態素解析を行い単語に分割する。「〜とは−である」等や「−のことを〜と呼びます」等の言語パタンで抽出された「〜」に相当する単語または複合語、またはタイトルや項目名として使用されている単語や複合語を定義されているとみなし「定義属性」を与える。
(1)文書1からは、タイトルとなっている「プロトコル」、また「〜とは−を定義したもの」の「〜」の部分にあたる「プロトコル」を抽出する。
(2)文書2からは、タイトルとなっている「ネットワーク」、「〜は−からなる」の「〜」にあたる「ネットワーク」、また「−として〜がある」の「〜」の部分にあたる「OSI参照モデル」を抽出する。
(3)文書3からは、「〜とは−の一つで」の「〜」の部分にあたる「インターネット」を抽出する。
(4)文書4からは、タイトルとなっている「パケット通信」を抽出する。
(5)文書5からは、タイトルとなっている「パケット」を抽出する。
(6)文書6からは、タイトルとなっている「TCP/IP」を抽出する。
(7)文書7からは、タイトルとなっている「メディア論」、「〜とは−である。」の「〜」の部分にあたる「メディア」を抽出する。
【0036】
定義属性付与部11は抽出した定義属性を持つ単語と、与えられた元の文書とを、参照属性付与部12に渡す。参照属性付与部12に渡される情報は図3に示すようなものである。なお、図3で「*n」は個数(n)を表わす。
【0037】
参照属性付与部12は受け取った定義属性を持つ単語と同じ文字ストリングで定義属性を持たない単語が元の7つの文書にあるか否かを調べる。あった場合はその単語に参照属性を付与する。参照属性付与部12の判別結果はつぎのようなものである
(1)文書1からはなし。
(2)文書2からは「プロトコル」が抽出される。
(3)文書3からはタイトルに含まれる「インターネット」、「ネットワーク」、「TCP/IP」、「パケット通信」、「メディア」を抽出する。
(4)文書4からは「パケット」を抽出する。
(5)文書5からは「TCP/IP」を抽出する。
(6)文書6からは「インターネット」、「プロトコル」、「OSI参照モデル」、「パケット」が抽出される。
(7)文書7からはなし。
【0038】
参照属性付与部12は、抽出された上記の単語に参照属性を付与し、依存リンク生成部13へ渡す。単語の参照属性は図4に示すようなものである。
【0039】
依存リンク生成部13は、受け取った定義属性と参照属性とからリンクを生成する。リンクの生成方法は参照属性を持つ単語から、定義属性をもつ同じ文字ストリングの単語へリンクを貼る。リンク先に自分自身が含まれるファイルとなる場合は無視する。もし、複数文書に定義属性をもつ同じ単語がある場合、それぞれにリンクを貼る。この例では図5に示すようにリンクが張られる。図5ではリンクを「−>」で表わす。
【0040】
リンクを生成したら次に、文書間の依存度を計算する。ここでは、ref_wとdef_wはそれぞれ1とする。値が0となる場合は無視する。
(1)文書2から文書1へ依存度(Σw(Kab[n]))=(1*1+2*1)=3
(2)文書3から文書2へ依存度=(1*1+1*1)=2
(3)文書3から文書4へ依存度=(1*1+1*1)=2
(4)文書3から文書6へ依存度=(1*1+1*1)=2
(5)文書3から文書7へ依存度=(1*1+1*1)=2
(6)文書4から文書5へ依存度=(1*1+1*1)=2
(7)文書5から文書6へ依存度=(2*1+1*1)=3
(8)文書6から文書1へ依存度=(2*1+1*1)=3
(9)文書6から文書2へ依存度=(1*1+1*1)=2
(10)文書6から文書3へ依存度=(1*1+1*1)=2
(11)文書6から文書5へ依存度=(3*1+1*1)=4
【0041】
各文書間の依存度を依存リンク保存部14へ渡す。依存リンク保存部14は各文書間の依存度を依存リンクデータベース15へ保存する。依存リンクデータベース15に渡される依存度の情報は図6に示すようなものである。
【0042】
以上のようにして文書登録装置100により文書間の依存度が抽出・記憶される。
【0043】
[依存関係提示装置]
つぎに図1の文書登録装置100により抽出・記憶された依存度を用いて文書間の依存関係を提示する依存関係提示装置200について説明する。この依存関係提示装置200もスタンドアローンのパーソナルコンピュータやサーバにより構成される。文書登録装置100と依存関係提示装置200が1つの装置・システムを構成していてもよい。
【0044】
図7は、この実施例の依存関係提示装置200の構成を示しており、この図において、依存関係提示装置200は、文書名受付部20、依存リンク検索部21、文書関係提示部22、依存リンクデータベース15等を含んで構成される。依存リンクデータベース15は図1の依存リンクデータベースである。
【0045】
ユーザは自分が読まなければならない(学習しなければならない)文書の文書名を文書名受付部20に指示する。ここでは文書6を指示したとする。文書名受付部20は依存リンク検索部21に文書名を渡す。依存リンク検索部21は文書6が依存している文書を依存リンクデータベース15から検索し、検索結果を文書関係提示部22へ渡す。文書関係提示部22は、その結果を依存度の高い順にソートしてユーザへ提示する。例えば図8に示すように提示する。または、図9に示すように、文書6にリンクされる他の文書との関係を依存度によってリンクの線を太くするなどしてビジュアルに見せてもよい。
【0046】
上述の文書登録装置100および依存関係提示装置200は、例えば、図10に示すようにネットワーク300上に配置されたサーバ装置400で構成することができる。サーバ装置400は、ウェブサーバ、アプリケーションサーバ等で構成することができる。クライアント装置500からの要求により文書間の依存度を依存リンクデータベース15に登録し、また提示要求に応じて依存関係を表示できる。また、学習支援やマニュアル文書等の閲覧用のアプリケーションプログラムのプロセスが依存リンクデータベース15の情報を利用するようにしてもよい。サーバ装置300のインストールには文書登録装置100や依存関係提示装置200に対応したプログラムを記録した記録媒体401を用いる。このプログラムはネットワークを介して外部から送られたものでもよい。
【0047】
以上のように、この実施例によれば、ユーザがある文書を読む場合にその文書を読むための前提となる文書を提示することによりユーザの文書の読解支援を行うことができる。
【0048】
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、リンクを制限するために、文書群にグループ名を付与しそのグループのみにリンクを限定したり、個人設定を設け、個人が読んだ文書は、既に理解しているものとして依存度を下げることが考えられる。それはユーザによって手動で設定する場合やその文書を開いたか否かで自動で設定できる。
【0049】
【発明の効果】
以上説明したように、この発明によれば、文書間の依存度を抽出して文書理解等の支援を簡易に行うことができる。
【図面の簡単な説明】
【図1】この発明の実施例の文書登録装置100の構成例を示すブロック図である。
【図2】図1の文書登録装置100の動作を説明する図である。
【図3】図1の文書登録装置100の動作を説明する図である。
【図4】図1の文書登録装置100の動作を説明する図である。
【図5】図1の文書登録装置100の動作を説明する図である。
【図6】図1の文書登録装置100の動作を説明する図である。
【図7】上述実施例の依存関係提示装置200の構成例を示すブロック図である。
【図8】図7の依存関係提示装置200の動作を説明する図である。
【図9】図7の依存関係提示装置200の動作を説明する図である。
【図10】上述文書登録装置100および依存関係提示装置200のサーバ装置により実装例を説明する図である。
【符号の説明】
10   文書群受付部
11   定義属性付与部
12   参照属性付与部
13   依存リンク生成部
14   依存リンク保存部
15   依存リンクデータベース
20   文書名受付部
21   依存リンク検索部
22   文書関係提示部
100   文書登録装置
200   依存関係提示装置
300   ネットワーク
400   サーバ装置
401   記録媒体
500   クライアント装置
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a technique for extracting a dependency between documents.
[0002]
[Background technology]
When words defined in one document are used in another document, it can be considered that there is a dependency between the documents. It is desired to extract dependencies between a plurality of documents to support document understanding.
[0003]
That is, when a human reads a certain document, there may be a document serving as a premise for reading the document. For example, in order to read a certain part of a manual of a certain device, it is necessary to know terms such as a part name related to the device in advance.
[0004]
Also, when reading certain materials of a project, there is no problem if you are familiar with the project, but if you are not very familiar, if the terms etc defined in the project are used, you will not be able to read other materials. You need to look over it.
[0005]
Also, in classes at universities and the like, there may be cases where there are credits that should be learned in advance before the credits that the student wants to acquire. In other words, it may be better to read a teaching material document of another class before reading a teaching material document used in one class.
[0006]
In such a case, examine the dependencies between all the materials used in the project and all the teaching materials used in the university, and if you can recommend the documents to be read before reading a certain document, read the document if you can recommend it. I can help.
[0007]
The present invention has been made in response to the above needs.
[0008]
Prior art documents related to the present invention include the following.
(1) Japanese Unexamined Patent Publication No. 7-325827: "Automatic hypertext generator"
(2) JP-A-5-225247: "Method of displaying structure between documents"
(3) Japanese Patent Application Laid-Open No. 2000-259657: "Term Definition Search / Collection Device"
[0009]
In (1), the words included in the document are expanded into synonyms using matching or a thesaurus, and a link (hyperlink) is generated based on the matching between the character strings of the words, or the link source word is generated. Discloses that a link is generated to the title of a section in which the word frequently appears. Since it is a link between words, the dependency between documents cannot be extracted.
[0010]
In (2), the degree of relevance between documents is determined based on the number of common words included in two documents, and the graph is colored and the thickness of the link is set based on the value to determine the relation between the documents. It shows the strength of. If the same word is included, it is likely that the two documents are related, but it is difficult to judge whether to read or not because the relation is not known.
[0011]
In (3), a term and its definition part are extracted from a given document, and registered in a database so that a search can be performed. However, the background where the term came out, examples of the term, etc. are often described in the material in which the term is actually defined, and are defined rather than giving the user only the definition. Sometimes it is better to give a document or its page.
[0012]
[Problems to be solved by the invention]
The present invention has been made in view of the above circumstances, and has as its object to provide a technique for extracting a dependency between documents.
[0013]
[Means for Solving the Problems]
According to the present invention, in order to achieve the above-mentioned object, for example, for each word constituting each document included in a given document group, an attribute of whether the word is defined or referenced (used) is set. Given as "definition attribute" and "reference attribute", a link is established from a word having the reference attribute to a word of the same character string having the definition attribute, and the degree of dependence is calculated based on the link.
[0014]
That is, according to one aspect of the present invention, in order to achieve the above-described object, a document dependency extracting apparatus includes: a document storage for storing a plurality of document units each of which can be treated as a single document and distinguished from other documents; Means; first discriminating means for discriminating that a word appears with a definition (being a definition attribute) in each document unit stored in the document storage means; and stored in the document storage means. A second discriminating unit for discriminating that a word determined to have appeared with a definition by the first discriminating unit appears without a definition (that is, a reference attribute) in each document unit; Based on the correspondence between the word that appeared with the word and the word corresponding to the word and without the definition, the document unit in which the word that appeared with the above definition was determined, and the Appearing words are to be provided with a dependency determination means for determining dependencies between document units is determined without definition.
[0015]
In this configuration, it is possible to determine whether there is a probability that there is a definition-reference relationship between words of the same character string appearing in different document positions, and to easily determine the dependency between document units based on this. it can.
[0016]
The dependency may be measured using a thesaurus or the like in consideration of the relationship between the “definition attribute” and the “reference attribute” with a synonym. "Word" broadly refers to a component of a sentence, and includes a compound word.
[0017]
The present invention can be realized not only as a device or a system but also as a method. In addition, it goes without saying that a part of such an invention can be configured as software. Also, it goes without saying that a software product used for causing a computer to execute such software is also included in the technical scope of the present invention.
[0018]
The above aspects of the present invention and other aspects of the present invention are set forth in the following claims, and will be described in detail below with reference to embodiments.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described.
[0020]
[Document dependency extraction method]
First, the principle of the document dependency extraction method used in the embodiment will be described.
[0021]
In this embodiment, for each word constituting each document included in a given document group, attributes that are defined or referenced (used) are given as “definition attribute” and “reference attribute”. A link is formed from a word having a reference attribute to a word having the same character string having a definition attribute, and the dependency is calculated based on the link.
[0022]
As a method of assigning the definition attribute, words defined by using a language pattern such as “is a to” are extracted, and “definition attributes” can be assigned to them.
[0023]
Further, a definition attribute may be given by using document layout information. For example, if you can extract the title of a document or chapter, and it is only words or compound words, it is likely that the document or section explains the word and it is defined as " Definition attribute ". If there is an item name such as "item name text" and there is a layout in which the explanation is continued, the definition attribute may be given assuming that the item name is explained.
[0024]
The reference attribute may be assigned to a word having the same character string as the word to which the above-described definition attribute has been assigned, but not having the definition attribute, to which the “reference attribute” has been assigned. If a word having a reference attribute has the same character string having a definition attribute, a link is provided from the word having the reference attribute to a word having the same character string having the definition attribute.
[0025]
When the above-mentioned link from a word of a certain document to a word of another document is attached, the degree of dependence between documents is represented based on the number of links and the like. If there is a dependency between certain documents, a dependent link having the dependency as an attribute value is placed between the documents. The dependency between the documents is visually shown to support the understanding of the documents.
[0026]
Dependency links are given a degree of dependency, so that when reading a certain document, only documents that depend on that document and have a certain degree of dependency or higher can be collected or ranked in descending order of dependency and presented to the user. .
[0027]
Dependency Dep (Da, Db) from document Da to document Db is calculated by the following equation.
(Equation 1)
Dep (Da, Db) = Σw (Kab [n]) (a ≠ b)
[0028]
Here, Kab is a set of words having the same attribute as the word having the definition attribute in the document Db and having the reference attribute in the document Da.
Kab [n]: the word indicated by n in the word set Kab (the number of words included in 1 ≦ n ≦ Kab).
w (Kab [n]): weight of word Kab [n].
[0029]
w (Kab [n]) is calculated from the number of times that the word Kab [n] appears with the reference attribute in the document Da and the number of times that the word appears with the definition attribute in the document Db.
(Equation 2)
w (Kab [n]) = ref_tf (Da, Kab [n]) * ref_w + def_tf (Db, Kab [n]) * def_w
[0030]
ref_tf (Da, Kab [n]) is the number of appearances of Kab [n] having the reference attribute in the document Da.
def_tf (Db, Kab [n]) is the number of appearances of Kab [n] having the definition attribute in the document Db.
ref_w and def_w can be changed by weight. For example, it may be calculated in advance from a document group given idf (inverted document frequency) in order to take into account the generality of words, a dictionary, a news article, or the like. By adding weights as described below, it is possible to reduce the weight of words considered to be general terms.
[Equation 3]
ref_w (Kab [n]) = [idf obtained from one year of newspaper article of word Kab [n]]
[0031]
[Document Registration Device]
Next, the document registration device 100 used in this embodiment will be described. The document registration apparatus 100 receives a plurality of documents and generates and registers a degree of dependency between the documents. The document registration device 100 can be realized by, for example, a stand-alone personal computer, or can be realized by a server arranged on a network.
[0032]
FIG. 1 shows the configuration of a document registration device 100. In this figure, the document registration device 100 includes a document group reception unit 10, a definition attribute assignment unit 11, a reference attribute assignment unit 12, a dependency link generation unit 13, It includes a link storage unit 14 and a dependent link database 15.
[0033]
The document group receiving unit 10 receives a document group specified by the user. The designation method is, for example, all the documents stored in a certain directory, but is not limited to this. It is assumed that the document group receiving unit 10 has received seven documents as shown in FIG.
[0034]
The document group receiving unit 10 passes the received document group to the definition attribute providing unit 11. The definition attribute assigning unit 11 assigns a definition attribute to each document.
[0035]
First, morphological analysis is performed to divide the words. Words or compound words equivalent to "~" extracted by language patterns such as "is a-" or "-is called-", or words used as titles or item names And compound words are defined and given a "definition attribute".
(1) From the document 1, the “protocol” which is the title and the “protocol” corresponding to the “to” part of the “to which − is defined” are extracted.
(2) From the document 2, "Network" corresponding to the title "Network", "Network" corresponding to "-" of "consisting of-", and "OSI" corresponding to "-" of "there is-". Reference model "is extracted.
(3) From the document 3, "Internet" which is a part of "to" of "is one of-" is extracted.
(4) From the document 4, “Packet communication” as a title is extracted.
(5) From the document 5, “Packet” as a title is extracted.
(6) From the document 6, “TCP / IP” as a title is extracted.
(7) From the document 7, “media” which is the title of “media” and “to is-” is extracted.
[0036]
The definition attribute assigning unit 11 passes the word having the extracted definition attribute and the given original document to the reference attribute assigning unit 12. The information passed to the reference attribute assignment unit 12 is as shown in FIG. In FIG. 3, “* n” represents the number (n).
[0037]
The reference attribute assigning unit 12 checks whether or not a word having no definition attribute in the original seven documents is the same character string as the received word having the definition attribute. If so, a reference attribute is assigned to the word. The determination result of the reference attribute assigning unit 12 is as follows.
(2) “Protocol” is extracted from document 2.
(3) “Internet”, “network”, “TCP / IP”, “packet communication”, and “media” included in the title are extracted from document 3.
(4) “Packet” is extracted from document 4.
(5) “TCP / IP” is extracted from the document 5.
(6) From the document 6, "Internet", "protocol", "OSI reference model", and "packet" are extracted.
(7) None from document 7.
[0038]
The reference attribute assigning unit 12 assigns a reference attribute to the extracted word, and passes the word to the dependent link generating unit 13. The reference attributes of the words are as shown in FIG.
[0039]
The dependent link generation unit 13 generates a link from the received definition attribute and reference attribute. The link generation method is to link a word having a reference attribute to a word having the same character string having a definition attribute. Ignore if the link destination is a file that contains itself. If the same word having the definition attribute exists in a plurality of documents, a link is attached to each word. In this example, links are provided as shown in FIG. In FIG. 5, the link is represented by "->".
[0040]
After creating the links, the degree of dependency between the documents is calculated. Here, ref_w and def_w are each set to 1. If the value is 0, ignore it.
(1) Dependency from document 2 to document 1 (@w (Kab [n])) = (1 * 1 + 2 * 1) = 3
(2) Dependency from document 3 to document 2 = (1 * 1 + 1 * 1) = 2
(3) Dependency from document 3 to document 4 = (1 * 1 + 1 * 1) = 2
(4) Dependency from document 3 to document 6 = (1 * 1 + 1 * 1) = 2
(5) Dependency from document 3 to document 7 = (1 * 1 + 1 * 1) = 2
(6) Dependency from document 4 to document 5 = (1 * 1 + 1 * 1) = 2
(7) Dependency from document 5 to document 6 = (2 * 1 + 1 * 1) = 3
(8) Dependency from document 6 to document 1 = (2 * 1 + 1 * 1) = 3
(9) Dependency from document 6 to document 2 = (1 * 1 + 1 * 1) = 2
(10) Dependency from document 6 to document 3 = (1 * 1 + 1 * 1) = 2
(11) Dependency from document 6 to document 5 = (3 * 1 + 1 * 1) = 4
[0041]
The dependency between the documents is passed to the dependency link storage unit 14. The dependency link storage unit 14 stores the dependency between documents in the dependency link database 15. The information on the degree of dependence passed to the dependence link database 15 is as shown in FIG.
[0042]
As described above, the dependency between documents is extracted and stored by the document registration device 100.
[0043]
[Dependency presentation device]
Next, a dependency presenting apparatus 200 that presents a dependency between documents using the degree of dependency extracted and stored by the document registration apparatus 100 of FIG. 1 will be described. The dependency relationship presentation device 200 is also configured by a stand-alone personal computer or server. The document registration device 100 and the dependency relationship presentation device 200 may constitute one device / system.
[0044]
FIG. 7 shows the configuration of the dependency presenting apparatus 200 of this embodiment. In this figure, the dependency presenting apparatus 200 includes a document name receiving unit 20, a dependent link searching unit 21, a document relationship presenting unit 22, It is configured to include a link database 15 and the like. The dependency link database 15 is the dependency link database of FIG.
[0045]
The user instructs the document name accepting unit 20 of the document name of the document that the user must read (learn). Here, it is assumed that the document 6 is designated. The document name receiving unit 20 passes the document name to the dependent link search unit 21. The dependent link search unit 21 searches the dependent link database 15 for a document on which the document 6 depends, and passes the search result to the document relation presenting unit 22. The document relation presentation unit 22 sorts the results in descending order of the degree of dependence and presents them to the user. For example, it is presented as shown in FIG. Alternatively, as shown in FIG. 9, the relationship between the document 6 and another document linked to the document 6 may be visually shown by thickening the link line depending on the degree of dependency.
[0046]
The above-described document registration device 100 and the dependency relationship presentation device 200 can be configured by, for example, a server device 400 arranged on a network 300 as shown in FIG. The server device 400 can be configured by a web server, an application server, and the like. The dependency between documents can be registered in the dependency link database 15 in response to a request from the client device 500, and the dependency can be displayed in response to a presentation request. Further, a process of an application program for learning support or browsing a manual document or the like may use information of the dependent link database 15. For installation of the server device 300, a recording medium 401 storing a program corresponding to the document registration device 100 or the dependency relationship presentation device 200 is used. This program may be sent from outside via a network.
[0047]
As described above, according to this embodiment, when a user reads a certain document, the user can assist reading of the document by presenting the document that is a prerequisite for reading the document.
[0048]
It should be noted that the present invention is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present invention. For example, in order to restrict links, assign a group name to a group of documents and restrict links only to that group, or set personal settings, and reduce the dependence on documents read by individuals as they already understand It is possible. It can be set manually by the user or automatically depending on whether the document is opened or not.
[0049]
【The invention's effect】
As described above, according to the present invention, it is possible to easily support the understanding of a document by extracting the dependency between documents.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration example of a document registration device 100 according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating the operation of the document registration device 100 of FIG.
FIG. 3 is a diagram illustrating the operation of the document registration device 100 of FIG.
FIG. 4 is a diagram illustrating the operation of the document registration device 100 of FIG.
FIG. 5 is a diagram illustrating the operation of the document registration device 100 of FIG.
FIG. 6 is a diagram illustrating an operation of the document registration device 100 of FIG.
FIG. 7 is a block diagram illustrating a configuration example of a dependency relationship presentation device 200 according to the above embodiment.
8 is a diagram illustrating the operation of the dependency relationship presentation device 200 of FIG.
FIG. 9 is a diagram illustrating the operation of the dependency relationship presentation device 200 of FIG.
FIG. 10 is a diagram illustrating an example of mounting the document registration device 100 and the dependency relationship presentation device 200 using a server device.
[Explanation of symbols]
10 Document Group Receiving Unit 11 Definition Attribute Giving Unit 12 Reference Attribute Giving Unit 13 Dependent Link Generating Unit 14 Dependent Link Storage Unit 15 Dependent Link Database 20 Document Name Receiving Unit 21 Dependent Link Searching Unit 22 Document Relationship Presentation Unit 100 Dependent on Document Registration Device 200 Relationship presentation device 300 Network 400 Server device 401 Recording medium 500 Client device

Claims (9)

それぞれ1塊の文書として他の文書と区別して扱うことができる複数の文書単位を記憶する文書記憶手段と、
上記文書記憶手段に記憶された各文書単位において、単語が定義を伴って出現したことを判別する第1の判別手段と、
上記文書記憶手段に記憶された各文書単位において、上記第1の判別手段により定義を伴って出現したと判別された単語が定義を伴うことなく出現したことを判別する第2の判別手段と、
定義を伴って出現した単語と、当該単語に対応し定義を伴うことなく出現した単語との対応関係に基づいて、上記定義を伴って出現した単語が判別された文書単位と、上記当該単語に対応し定義を伴うことなく出現した単語が判別された文書単位との依存関係を決定する依存関係決定手段とを有することを特徴とする文書依存関係抽出装置。
A document storage unit for storing a plurality of document units each of which can be treated as one lump document separately from other documents;
A first determination unit that determines that a word appears with a definition in each document unit stored in the document storage unit;
A second discriminator for discriminating that a word determined to have appeared with a definition by the first discriminator has appeared without a definition in each document unit stored in the document storage;
Based on the correspondence between the word that appeared with the definition and the word corresponding to the word and appeared without the definition, a document unit in which the word that appeared with the definition was determined, A dependency determining unit for determining a dependency with respect to a document unit in which a corresponding word that has appeared without a definition is determined.
上記第1の判別手段は、文章のパターンに基づいて単語が定義を伴って出現したことを判別する請求項1記載の文書依存関係抽出装置。2. The document dependency extracting apparatus according to claim 1, wherein the first determining means determines that the word appears with a definition based on a sentence pattern. 上記文章のパターンは「〜とは〜である」というパターンとする請求項2記載の文書依存関係抽出装置。3. The document dependency extracting apparatus according to claim 2, wherein the pattern of the sentence is a pattern of "is a ...". 上記第1の判別手段は、上記文書単位中の所定のレイアウトに基づいて単語が定義を伴って出現したことを判別する請求項1、2または3記載の文書依存関係抽出装置。4. The document dependency extracting apparatus according to claim 1, wherein the first determination unit determines that a word appears with a definition based on a predetermined layout in the document unit. 上記所定のレイアウトは、文書や章のタイトルが単語または複合語であるレイアウトである請求項4記載の文書依存関係抽出装置。5. The document dependency extracting apparatus according to claim 4, wherein the predetermined layout is a layout in which a title of a document or a chapter is a word or a compound word. 上記所定のレイアウトは、「項目名 文章」のように、項目名があって、それに続けて説明文があるレイアウトである請求項4記載の文書依存関係抽出装置。5. The document dependency extracting apparatus according to claim 4, wherein the predetermined layout is a layout having an item name and a description following the item name, such as "item name @ text". 請求項1〜6のいずれかに記載の文書依存関係抽出装置により抽出した文書単位間の依存関係を保存する依存関係保存手段と、
ユーザがアクセス使用としている文書単位を指定する手段と、
指定された文書単位に基づいて上記依存関係保存手段を参照して上記指定された文書単位に関連する依存度を取り出す手段と、
取り出した依存度を表示する手段とを有することを特徴とする文書依存関係表示装置。
Dependency storing means for storing a dependency between document units extracted by the document dependency extracting apparatus according to any one of claims 1 to 6,
Means for specifying a document unit that the user is using for access;
Means for extracting a dependency related to the specified document unit by referring to the dependency storage means based on the specified document unit;
Means for displaying the taken-out dependency degree.
それぞれ1塊の文書として他の文書と区別して扱うことができる複数の文書単位を記憶する文書記憶ステップと、
上記文書記憶ステップにより記憶された各文書単位において、単語が定義を伴って出現したことを判別する第1の判別ステップと、
上記文書記憶ステップにより記憶された各文書単位において、上記第1の判別ステップにより定義を伴って出現したと判別された単語が定義を伴うことなく出現したことを判別する第2の判別ステップと、
定義を伴って出現した単語と、当該単語に対応し定義を伴うことなく出現した単語との対応関係に基づいて、上記定義を伴って出現した単語が判別された文書単位と、上記当該単語に対応し定義を伴うことなく出現した単語が判別された文書単位との依存関係を決定する依存関係決定ステップとを有することを特徴とする文書依存関係抽出方法。
A document storing step of storing a plurality of document units each of which can be treated as one lump document separately from other documents;
A first determination step of determining that a word has appeared with a definition in each document unit stored in the document storage step;
A second determination step of determining, in each document unit stored in the document storage step, that a word determined to have appeared with a definition in the first determination step has appeared without a definition;
On the basis of the correspondence between the word that appeared with the definition and the word that appeared without the definition corresponding to the word, the document unit in which the word that appeared with the above definition was determined, A dependency determining step of determining a dependency on a document unit in which a word that has appeared without a definition is determined.
それぞれ1塊の文書として他の文書と区別して扱うことができる複数の文書単位を記憶する文書記憶ステップと、
上記文書記憶ステップにより記憶された各文書単位において、単語が定義を伴って出現したことを判別する第1の判別ステップと、
上記文書記憶ステップにより記憶された各文書単位において、上記第1の判別ステップにより定義を伴って出現したと判別された単語が定義を伴うことなく出現したことを判別する第2の判別ステップと、
定義を伴って出現した単語と、当該単語に対応し定義を伴うことなく出現した単語との対応関係に基づいて、上記定義を伴って出現した単語が判別された文書単位と、上記当該単語に対応し定義を伴うことなく出現した単語が判別された文書単位との依存関係を決定する依存関係決定ステップとをコンピュータに実行させるために用いられることを特徴とする文書依存関係抽出用コンピュータプログラム。
A document storing step of storing a plurality of document units each of which can be treated as one lump document separately from other documents;
A first determination step of determining that a word has appeared with a definition in each document unit stored in the document storage step;
A second determination step of determining, in each document unit stored in the document storage step, that a word determined to have appeared with a definition in the first determination step has appeared without a definition;
On the basis of the correspondence between the word that appeared with the definition and the word that appeared without the definition corresponding to the word, the document unit in which the word that appeared with the above definition was determined, A dependency determining step of determining a dependency on a document unit in which a word appearing without a corresponding definition has been determined.
JP2002169236A 2002-06-10 2002-06-10 Device and method for extracting document dependence Withdrawn JP2004013745A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002169236A JP2004013745A (en) 2002-06-10 2002-06-10 Device and method for extracting document dependence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002169236A JP2004013745A (en) 2002-06-10 2002-06-10 Device and method for extracting document dependence

Publications (1)

Publication Number Publication Date
JP2004013745A true JP2004013745A (en) 2004-01-15

Family

ID=30435897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002169236A Withdrawn JP2004013745A (en) 2002-06-10 2002-06-10 Device and method for extracting document dependence

Country Status (1)

Country Link
JP (1) JP2004013745A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031577A (en) * 2004-07-21 2006-02-02 Hideki Mima Information retrieval overlooking method and device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031577A (en) * 2004-07-21 2006-02-02 Hideki Mima Information retrieval overlooking method and device

Similar Documents

Publication Publication Date Title
US10929487B1 (en) Customization of search results for search queries received from third party sites
JP4365074B2 (en) Document expansion system with user-definable personality
US7844594B1 (en) Information search, retrieval and distillation into knowledge objects
US8868549B1 (en) In-context searching
Mahmud et al. Csurf: a context-driven non-visual web-browser
US20070234140A1 (en) Method and apparatus for determining relative relevance between portions of large electronic documents
JP2002334106A (en) Device, method, program for extracting topic and recording medium to record the same program
JP2006344102A (en) Question answering system, data retrieval method and computer program
Kozakov et al. Glossary extraction and utilization in the information search and delivery system for IBM Technical Support
WO2008091095A1 (en) Apparatus and method for integration search of web site
JPH1166081A (en) Profile acquisition system, information provision system, profile acquiring method and medium
JP4428850B2 (en) Information search apparatus and information search method
Brooks The Semantic Web, universalist ambition and some lessons from librarianship
Machill et al. Transparency on the Net: functions and deficiencies of Internet search engines
JP2004078446A (en) Keyword extraction device, extraction method, document retrieval system, retrieval method, device and method for classifying document, and program
Chen et al. Automatically Generating an e-Textbook on the Web
JPH1145257A (en) Web document retrieval supporting device and computer readable recording medium recorded with program for functioning computer as the device
JP2004013745A (en) Device and method for extracting document dependence
JPH11338869A (en) Information recommendation method and system, storage medium storing information recommendation program, information storage method and device, and storage medium storing information storage program
JP4428703B2 (en) Information retrieval method and system, and computer program
JP2003208447A (en) Device, method and program for retrieving document, and medium recorded with program for retrieving document
JP2005025418A (en) Question answering device, question answering method, and program
Mbipom et al. Harnessing background knowledge for e-learning recommendation
Jones et al. A probabilistic model of information retrieval: Develepment and STatus
Khatavkar et al. Use of noun phrases in identification of a website

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050517

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080221