JP2004013745A - Device and method for extracting document dependence - Google Patents
Device and method for extracting document dependence Download PDFInfo
- Publication number
- JP2004013745A JP2004013745A JP2002169236A JP2002169236A JP2004013745A JP 2004013745 A JP2004013745 A JP 2004013745A JP 2002169236 A JP2002169236 A JP 2002169236A JP 2002169236 A JP2002169236 A JP 2002169236A JP 2004013745 A JP2004013745 A JP 2004013745A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- definition
- dependency
- appeared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、文書間の依存関係を抽出する技術に関する。
【0002】
【背景の技術】
ある文書中に定義されている単語を、別の文書で使用している場合その文書間に依存関係があると考えることができる。複数の文書間の依存関係を抽出し文書理解を支援することが望まれる。
【0003】
すなわち、人間がある文書を読む場合、その文書を読むための前提となる文書がある場合がある。たとえば、ある装置のマニュアルのある個所を読もうとしても、あらかじめその装置に関する部位名称等の用語を知らなければならない。
【0004】
また、あるプロジェクトのある資料を読む場合に、そのプロジェクトに精通している場合は問題ないが、余り詳しくない場合、そのプロジェクト内で定義されている用語などが使われていると、その資料以外にも目を通す必要が出てくる。
【0005】
また、大学などの授業では学生が取得したい単位の前にあらかじめ学んだほうがよい単位などがある場合がある。つまり、ある授業で使用する教材文書を読む前に、別の授業の教材文書を読んだほうがよい場合がある。
【0006】
このような場合、そのプロジェクトで使用されている全資料や、大学で使用している全教材の文書間の依存関係を調べて、ある文書を読む前に、読むべき文書を推薦できれば文書読解を支援できる。
【0007】
この発明は以上の要望に対処してなされたものである。
【0008】
なお、この発明と関連する先行文献としては以下のものがある。
(1)特開平7−325827号公報:「ハイパーテキスト自動生成装置」
(2)特開平5−225247号公報:「文書間構造表示方法」
(3)特開2000−259657公報:「用語定義の検索/収集装置」
【0009】
(1)では、文書に含まれる単語同士のマッチングまたはシソーラスを使って同義語に展開し、単語の文字ストリング同士のマッチングに基づいてリンク(ハイパーリンク)を生成したり、リンクもとの単語から、その単語が多く出現する節のタイトルへリンクを生成することを開示している。単語間のリンクであるので文書間の依存関係を抽出できない。
【0010】
(2)では、2つの文書に含まれる共通の単語の数をもとに文書間の関連度を求めその値をもとにグラフに色付けやリンクの太さの設定を行って文書間の関連の強さをあらわしている。同じ単語が含まれる場合、2つの文書が関連していることはいえそうであるが、どのような関連かは分からないので読むか否か判断するには難しい。
【0011】
(3)では与えられた文書から用語とその定義部を抽出し、データベースに登録することにより検索できるようにしてある。しかし、その用語が出てきた背景や、その用語に関する例などが、実際にその用語が定義されている資料には記述されている場合が多く、ユーザに定義だけ与えるよりも、定義されている資料やそのページを与えたほうがよい場合がある。
【0012】
【発明が解決する課題】
この発明は、以上の事情を考慮してなされたものであり、文書間の依存関係を抽出する技術を提供することを目的としている。
【0013】
【課題を解決するための手段】
この発明によれば、上述の目的を達成するために、例えば、与えられた文書群に含まれるそれぞれの文書を構成する各単語について、定義されているか、参照(使用)されているかの属性を「定義属性」、「参照属性」として与え、参照属性を持つ単語から、定義属性を持つ同じ文字ストリングの単語へリンクを張りそれらをもとに依存度を計算する。
【0014】
すなわち、この発明の一側面に、上述の目的を達成するために、文書依存関係抽出装置に:それぞれ1塊の文書として他の文書と区別して扱うことができる複数の文書単位を記憶する文書記憶手段と;上記文書記憶手段に記憶された各文書単位において、単語が定義を伴って出現したこと(定義属性であること)を判別する第1の判別手段と;上記文書記憶手段に記憶された各文書単位において、上記第1の判別手段により定義を伴って出現したと判別された単語が定義を伴うことなく出現したこと(参照属性であること)を判別する第2の判別手段と;定義を伴って出現した単語と、当該単語に対応し定義を伴うことなく出現した単語との対応関係に基づいて、上記定義を伴って出現した単語が判別された文書単位と、上記当該単語に対応し定義を伴うことなく出現した単語が判別された文書単位との依存関係を決定する依存関係決定手段とを設けるようにしている。
【0015】
この構成においては、異なる文書位置において現れる同一の文字ストリングの単語間に定義−参照関係がある蓋然性があるかどうかを判別し、これに基づいて文書単位間の依存関係を簡易に決定することができる。
【0016】
なお、シソーラス等を用いて同義語との間の「定義属性」−「参照属性」の関係を考慮して依存度を測定してもよい。「単語」は、ひろく、文章の構成要素を指し、複合語も含まれる。
【0017】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
【0018】
この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され、以下実施例を用いて詳細に説明される。
【0019】
【発明の実施の形態】
以下、この発明の実施例について説明する。
【0020】
[文書依存関係抽出手法]
まず、実施例で用いる文書依存関係抽出手法の原理的な説明を行う。
【0021】
この実施例では、与えられた文書群に含まれるそれぞれの文書を構成する各単語について、定義されているか、参照(使用)されているかの属性を、「定義属性」、「参照属性」として与え、参照属性を持つ単語から、定義属性を持つ同じ文字ストリングの単語へリンクを張りそれらのもとに依存度を計算する。
【0022】
定義属性の付与方法は、「〜とは〜である」等のように言語パタンを使用して定義されている単語を抽出し、それらに「定義属性」与えることができる。
【0023】
また文書のレイアウト情報を用いて定義属性を付与してもよい。たとえば、文書や章のタイトルが抽出できる場合で、それが単語や複合語のみ場合は、その文書や節はその単語について説明をしている可能性が高いので定義されているとみなしそれらに「定義属性」与えてもよい。また、「項目名 文章」などのように、項目名があって、その説明文が続くようようなレイアウトがある場合はその項目名が説明されているとして定義属性を与えてもよい。
【0024】
参照属性の付与方法は、上記の定義属性が付与された単語と同じ文字ストリングの単語で定義属性が付与されていない単語に「参照属性」を付与すればよい。参照属性を持つ単語で、定義属性を持つ同じ文字ストリングがある場合、参照属性を持つ単語から定義属性を持つ同じ文字ストリングの単語へリンクは張る。
【0025】
ある文書の単語から別の文書の単語への上記リンクが貼られる場合、リンクの数等に基づいて文書間の依存度を表わす。ある文書間に依存度がある場合、依存度を属性値として持つ依存リンクを文書間にはる。そして上記の文書間の依存度をビジュアルに見せ文書の理解を支援する。
【0026】
依存リンクには依存度が付与されており、ある文書を読む際に、その文書に依存する、ある依存度以上の文書のみを集めたり、依存度の高い順にランクしユーザへ提示することができる。
【0027】
文書Daから文書Dbへの依存度Dep(Da,Db)は以下の式で計算される。
【数1】
Dep(Da,Db)=Σw(Kab[n]) (a≠b)
【0028】
ただし、Kab:文書Db中で定義属性を持つ単語で文書Da中において参照属性を持つ同じ文字ストリングの単語の集合。
Kab[n]:単語集合Kabのnで示される単語(1≦n≦Kabに含まれる単語の数)。
w(Kab[n]):単語Kab[n]の重み。
【0029】
w(Kab[n])は単語Kab[n]が文書Daに参照属性を伴って出現する回数と、その単語が文書Db中で定義属性を伴って出現する回数から計算される。
【数2】
w(Kab[n])=ref_tf(Da,Kab[n])*ref_w+def_tf(Db,Kab[n])*def_w
【0030】
ref_tf(Da,Kab[n])は文書Da中に参照属性を持つKab[n]の出現回数である。
def_tf(Db,Kab[n])は文書Db中に定義属性を持つKab[n]の出現回数である。
ref_w、def_wは重みで変更可能である。たとえば、単語の一般性を加味するためにidf(inverted document frequency)を与えられた文書群や、辞書やニュース記事等からあらかじめ計算しておいてもよい。下記のように重みを付加することにより、一般的な用語と思われる単語の重みを下げることができる。
【数3】
ref_w(Kab[n])=[単語Kab[n]の新聞記事1年分から得たidf]
【0031】
[文書登録装置]
つぎにこの実施例で用いる文書登録装置100について説明する。この文書登録装置100は、複数の文書を受け付けてそれら文書間の依存度を生成して登録するものである。文書登録装置100は、例えば、スタンドアローンのパーソナルコンピュータで実現することもでき、またネットワーク上に配置されたサーバにより実現することもできる。
【0032】
図1は、文書登録装置100の構成を示しており、この図において、文書登録装置100は、文書群受付部10、定義属性付与部11、参照属性付与部12、依存リンク生成部13、依存リンク保存部14、および依存リンクデータベース15を含んで構成されている。
【0033】
文書群受付部10は、ユーザが指定した文書群を受け取る。指定方法としてはあるディレクトリ以下に保存されているすべての文書などというものであるが、これに限定されない。文書群受付部10が、図2に示すような7つの文書を受け取ったと仮定する。
【0034】
文書群受付部10は、受け取った文書群を定義属性付与部11に渡す。定義属性付与部11はそれぞれの文書に対して定義属性の付与を行う。
【0035】
まず形態素解析を行い単語に分割する。「〜とは−である」等や「−のことを〜と呼びます」等の言語パタンで抽出された「〜」に相当する単語または複合語、またはタイトルや項目名として使用されている単語や複合語を定義されているとみなし「定義属性」を与える。
(1)文書1からは、タイトルとなっている「プロトコル」、また「〜とは−を定義したもの」の「〜」の部分にあたる「プロトコル」を抽出する。
(2)文書2からは、タイトルとなっている「ネットワーク」、「〜は−からなる」の「〜」にあたる「ネットワーク」、また「−として〜がある」の「〜」の部分にあたる「OSI参照モデル」を抽出する。
(3)文書3からは、「〜とは−の一つで」の「〜」の部分にあたる「インターネット」を抽出する。
(4)文書4からは、タイトルとなっている「パケット通信」を抽出する。
(5)文書5からは、タイトルとなっている「パケット」を抽出する。
(6)文書6からは、タイトルとなっている「TCP/IP」を抽出する。
(7)文書7からは、タイトルとなっている「メディア論」、「〜とは−である。」の「〜」の部分にあたる「メディア」を抽出する。
【0036】
定義属性付与部11は抽出した定義属性を持つ単語と、与えられた元の文書とを、参照属性付与部12に渡す。参照属性付与部12に渡される情報は図3に示すようなものである。なお、図3で「*n」は個数(n)を表わす。
【0037】
参照属性付与部12は受け取った定義属性を持つ単語と同じ文字ストリングで定義属性を持たない単語が元の7つの文書にあるか否かを調べる。あった場合はその単語に参照属性を付与する。参照属性付与部12の判別結果はつぎのようなものである
(1)文書1からはなし。
(2)文書2からは「プロトコル」が抽出される。
(3)文書3からはタイトルに含まれる「インターネット」、「ネットワーク」、「TCP/IP」、「パケット通信」、「メディア」を抽出する。
(4)文書4からは「パケット」を抽出する。
(5)文書5からは「TCP/IP」を抽出する。
(6)文書6からは「インターネット」、「プロトコル」、「OSI参照モデル」、「パケット」が抽出される。
(7)文書7からはなし。
【0038】
参照属性付与部12は、抽出された上記の単語に参照属性を付与し、依存リンク生成部13へ渡す。単語の参照属性は図4に示すようなものである。
【0039】
依存リンク生成部13は、受け取った定義属性と参照属性とからリンクを生成する。リンクの生成方法は参照属性を持つ単語から、定義属性をもつ同じ文字ストリングの単語へリンクを貼る。リンク先に自分自身が含まれるファイルとなる場合は無視する。もし、複数文書に定義属性をもつ同じ単語がある場合、それぞれにリンクを貼る。この例では図5に示すようにリンクが張られる。図5ではリンクを「−>」で表わす。
【0040】
リンクを生成したら次に、文書間の依存度を計算する。ここでは、ref_wとdef_wはそれぞれ1とする。値が0となる場合は無視する。
(1)文書2から文書1へ依存度(Σw(Kab[n]))=(1*1+2*1)=3
(2)文書3から文書2へ依存度=(1*1+1*1)=2
(3)文書3から文書4へ依存度=(1*1+1*1)=2
(4)文書3から文書6へ依存度=(1*1+1*1)=2
(5)文書3から文書7へ依存度=(1*1+1*1)=2
(6)文書4から文書5へ依存度=(1*1+1*1)=2
(7)文書5から文書6へ依存度=(2*1+1*1)=3
(8)文書6から文書1へ依存度=(2*1+1*1)=3
(9)文書6から文書2へ依存度=(1*1+1*1)=2
(10)文書6から文書3へ依存度=(1*1+1*1)=2
(11)文書6から文書5へ依存度=(3*1+1*1)=4
【0041】
各文書間の依存度を依存リンク保存部14へ渡す。依存リンク保存部14は各文書間の依存度を依存リンクデータベース15へ保存する。依存リンクデータベース15に渡される依存度の情報は図6に示すようなものである。
【0042】
以上のようにして文書登録装置100により文書間の依存度が抽出・記憶される。
【0043】
[依存関係提示装置]
つぎに図1の文書登録装置100により抽出・記憶された依存度を用いて文書間の依存関係を提示する依存関係提示装置200について説明する。この依存関係提示装置200もスタンドアローンのパーソナルコンピュータやサーバにより構成される。文書登録装置100と依存関係提示装置200が1つの装置・システムを構成していてもよい。
【0044】
図7は、この実施例の依存関係提示装置200の構成を示しており、この図において、依存関係提示装置200は、文書名受付部20、依存リンク検索部21、文書関係提示部22、依存リンクデータベース15等を含んで構成される。依存リンクデータベース15は図1の依存リンクデータベースである。
【0045】
ユーザは自分が読まなければならない(学習しなければならない)文書の文書名を文書名受付部20に指示する。ここでは文書6を指示したとする。文書名受付部20は依存リンク検索部21に文書名を渡す。依存リンク検索部21は文書6が依存している文書を依存リンクデータベース15から検索し、検索結果を文書関係提示部22へ渡す。文書関係提示部22は、その結果を依存度の高い順にソートしてユーザへ提示する。例えば図8に示すように提示する。または、図9に示すように、文書6にリンクされる他の文書との関係を依存度によってリンクの線を太くするなどしてビジュアルに見せてもよい。
【0046】
上述の文書登録装置100および依存関係提示装置200は、例えば、図10に示すようにネットワーク300上に配置されたサーバ装置400で構成することができる。サーバ装置400は、ウェブサーバ、アプリケーションサーバ等で構成することができる。クライアント装置500からの要求により文書間の依存度を依存リンクデータベース15に登録し、また提示要求に応じて依存関係を表示できる。また、学習支援やマニュアル文書等の閲覧用のアプリケーションプログラムのプロセスが依存リンクデータベース15の情報を利用するようにしてもよい。サーバ装置300のインストールには文書登録装置100や依存関係提示装置200に対応したプログラムを記録した記録媒体401を用いる。このプログラムはネットワークを介して外部から送られたものでもよい。
【0047】
以上のように、この実施例によれば、ユーザがある文書を読む場合にその文書を読むための前提となる文書を提示することによりユーザの文書の読解支援を行うことができる。
【0048】
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、リンクを制限するために、文書群にグループ名を付与しそのグループのみにリンクを限定したり、個人設定を設け、個人が読んだ文書は、既に理解しているものとして依存度を下げることが考えられる。それはユーザによって手動で設定する場合やその文書を開いたか否かで自動で設定できる。
【0049】
【発明の効果】
以上説明したように、この発明によれば、文書間の依存度を抽出して文書理解等の支援を簡易に行うことができる。
【図面の簡単な説明】
【図1】この発明の実施例の文書登録装置100の構成例を示すブロック図である。
【図2】図1の文書登録装置100の動作を説明する図である。
【図3】図1の文書登録装置100の動作を説明する図である。
【図4】図1の文書登録装置100の動作を説明する図である。
【図5】図1の文書登録装置100の動作を説明する図である。
【図6】図1の文書登録装置100の動作を説明する図である。
【図7】上述実施例の依存関係提示装置200の構成例を示すブロック図である。
【図8】図7の依存関係提示装置200の動作を説明する図である。
【図9】図7の依存関係提示装置200の動作を説明する図である。
【図10】上述文書登録装置100および依存関係提示装置200のサーバ装置により実装例を説明する図である。
【符号の説明】
10 文書群受付部
11 定義属性付与部
12 参照属性付与部
13 依存リンク生成部
14 依存リンク保存部
15 依存リンクデータベース
20 文書名受付部
21 依存リンク検索部
22 文書関係提示部
100 文書登録装置
200 依存関係提示装置
300 ネットワーク
400 サーバ装置
401 記録媒体
500 クライアント装置[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a technique for extracting a dependency between documents.
[0002]
[Background technology]
When words defined in one document are used in another document, it can be considered that there is a dependency between the documents. It is desired to extract dependencies between a plurality of documents to support document understanding.
[0003]
That is, when a human reads a certain document, there may be a document serving as a premise for reading the document. For example, in order to read a certain part of a manual of a certain device, it is necessary to know terms such as a part name related to the device in advance.
[0004]
Also, when reading certain materials of a project, there is no problem if you are familiar with the project, but if you are not very familiar, if the terms etc defined in the project are used, you will not be able to read other materials. You need to look over it.
[0005]
Also, in classes at universities and the like, there may be cases where there are credits that should be learned in advance before the credits that the student wants to acquire. In other words, it may be better to read a teaching material document of another class before reading a teaching material document used in one class.
[0006]
In such a case, examine the dependencies between all the materials used in the project and all the teaching materials used in the university, and if you can recommend the documents to be read before reading a certain document, read the document if you can recommend it. I can help.
[0007]
The present invention has been made in response to the above needs.
[0008]
Prior art documents related to the present invention include the following.
(1) Japanese Unexamined Patent Publication No. 7-325827: "Automatic hypertext generator"
(2) JP-A-5-225247: "Method of displaying structure between documents"
(3) Japanese Patent Application Laid-Open No. 2000-259657: "Term Definition Search / Collection Device"
[0009]
In (1), the words included in the document are expanded into synonyms using matching or a thesaurus, and a link (hyperlink) is generated based on the matching between the character strings of the words, or the link source word is generated. Discloses that a link is generated to the title of a section in which the word frequently appears. Since it is a link between words, the dependency between documents cannot be extracted.
[0010]
In (2), the degree of relevance between documents is determined based on the number of common words included in two documents, and the graph is colored and the thickness of the link is set based on the value to determine the relation between the documents. It shows the strength of. If the same word is included, it is likely that the two documents are related, but it is difficult to judge whether to read or not because the relation is not known.
[0011]
In (3), a term and its definition part are extracted from a given document, and registered in a database so that a search can be performed. However, the background where the term came out, examples of the term, etc. are often described in the material in which the term is actually defined, and are defined rather than giving the user only the definition. Sometimes it is better to give a document or its page.
[0012]
[Problems to be solved by the invention]
The present invention has been made in view of the above circumstances, and has as its object to provide a technique for extracting a dependency between documents.
[0013]
[Means for Solving the Problems]
According to the present invention, in order to achieve the above-mentioned object, for example, for each word constituting each document included in a given document group, an attribute of whether the word is defined or referenced (used) is set. Given as "definition attribute" and "reference attribute", a link is established from a word having the reference attribute to a word of the same character string having the definition attribute, and the degree of dependence is calculated based on the link.
[0014]
That is, according to one aspect of the present invention, in order to achieve the above-described object, a document dependency extracting apparatus includes: a document storage for storing a plurality of document units each of which can be treated as a single document and distinguished from other documents; Means; first discriminating means for discriminating that a word appears with a definition (being a definition attribute) in each document unit stored in the document storage means; and stored in the document storage means. A second discriminating unit for discriminating that a word determined to have appeared with a definition by the first discriminating unit appears without a definition (that is, a reference attribute) in each document unit; Based on the correspondence between the word that appeared with the word and the word corresponding to the word and without the definition, the document unit in which the word that appeared with the above definition was determined, and the Appearing words are to be provided with a dependency determination means for determining dependencies between document units is determined without definition.
[0015]
In this configuration, it is possible to determine whether there is a probability that there is a definition-reference relationship between words of the same character string appearing in different document positions, and to easily determine the dependency between document units based on this. it can.
[0016]
The dependency may be measured using a thesaurus or the like in consideration of the relationship between the “definition attribute” and the “reference attribute” with a synonym. "Word" broadly refers to a component of a sentence, and includes a compound word.
[0017]
The present invention can be realized not only as a device or a system but also as a method. In addition, it goes without saying that a part of such an invention can be configured as software. Also, it goes without saying that a software product used for causing a computer to execute such software is also included in the technical scope of the present invention.
[0018]
The above aspects of the present invention and other aspects of the present invention are set forth in the following claims, and will be described in detail below with reference to embodiments.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described.
[0020]
[Document dependency extraction method]
First, the principle of the document dependency extraction method used in the embodiment will be described.
[0021]
In this embodiment, for each word constituting each document included in a given document group, attributes that are defined or referenced (used) are given as “definition attribute” and “reference attribute”. A link is formed from a word having a reference attribute to a word having the same character string having a definition attribute, and the dependency is calculated based on the link.
[0022]
As a method of assigning the definition attribute, words defined by using a language pattern such as “is a to” are extracted, and “definition attributes” can be assigned to them.
[0023]
Further, a definition attribute may be given by using document layout information. For example, if you can extract the title of a document or chapter, and it is only words or compound words, it is likely that the document or section explains the word and it is defined as " Definition attribute ". If there is an item name such as "item name text" and there is a layout in which the explanation is continued, the definition attribute may be given assuming that the item name is explained.
[0024]
The reference attribute may be assigned to a word having the same character string as the word to which the above-described definition attribute has been assigned, but not having the definition attribute, to which the “reference attribute” has been assigned. If a word having a reference attribute has the same character string having a definition attribute, a link is provided from the word having the reference attribute to a word having the same character string having the definition attribute.
[0025]
When the above-mentioned link from a word of a certain document to a word of another document is attached, the degree of dependence between documents is represented based on the number of links and the like. If there is a dependency between certain documents, a dependent link having the dependency as an attribute value is placed between the documents. The dependency between the documents is visually shown to support the understanding of the documents.
[0026]
Dependency links are given a degree of dependency, so that when reading a certain document, only documents that depend on that document and have a certain degree of dependency or higher can be collected or ranked in descending order of dependency and presented to the user. .
[0027]
Dependency Dep (Da, Db) from document Da to document Db is calculated by the following equation.
(Equation 1)
Dep (Da, Db) = Σw (Kab [n]) (a ≠ b)
[0028]
Here, Kab is a set of words having the same attribute as the word having the definition attribute in the document Db and having the reference attribute in the document Da.
Kab [n]: the word indicated by n in the word set Kab (the number of words included in 1 ≦ n ≦ Kab).
w (Kab [n]): weight of word Kab [n].
[0029]
w (Kab [n]) is calculated from the number of times that the word Kab [n] appears with the reference attribute in the document Da and the number of times that the word appears with the definition attribute in the document Db.
(Equation 2)
w (Kab [n]) = ref_tf (Da, Kab [n]) * ref_w + def_tf (Db, Kab [n]) * def_w
[0030]
ref_tf (Da, Kab [n]) is the number of appearances of Kab [n] having the reference attribute in the document Da.
def_tf (Db, Kab [n]) is the number of appearances of Kab [n] having the definition attribute in the document Db.
ref_w and def_w can be changed by weight. For example, it may be calculated in advance from a document group given idf (inverted document frequency) in order to take into account the generality of words, a dictionary, a news article, or the like. By adding weights as described below, it is possible to reduce the weight of words considered to be general terms.
[Equation 3]
ref_w (Kab [n]) = [idf obtained from one year of newspaper article of word Kab [n]]
[0031]
[Document Registration Device]
Next, the
[0032]
FIG. 1 shows the configuration of a
[0033]
The document
[0034]
The document
[0035]
First, morphological analysis is performed to divide the words. Words or compound words equivalent to "~" extracted by language patterns such as "is a-" or "-is called-", or words used as titles or item names And compound words are defined and given a "definition attribute".
(1) From the
(2) From the document 2, "Network" corresponding to the title "Network", "Network" corresponding to "-" of "consisting of-", and "OSI" corresponding to "-" of "there is-". Reference model "is extracted.
(3) From the document 3, "Internet" which is a part of "to" of "is one of-" is extracted.
(4) From the
(5) From the document 5, “Packet” as a title is extracted.
(6) From the
(7) From the document 7, “media” which is the title of “media” and “to is-” is extracted.
[0036]
The definition
[0037]
The reference
(2) “Protocol” is extracted from document 2.
(3) “Internet”, “network”, “TCP / IP”, “packet communication”, and “media” included in the title are extracted from document 3.
(4) “Packet” is extracted from
(5) “TCP / IP” is extracted from the document 5.
(6) From the
(7) None from document 7.
[0038]
The reference
[0039]
The dependent
[0040]
After creating the links, the degree of dependency between the documents is calculated. Here, ref_w and def_w are each set to 1. If the value is 0, ignore it.
(1) Dependency from document 2 to document 1 (@w (Kab [n])) = (1 * 1 + 2 * 1) = 3
(2) Dependency from document 3 to document 2 = (1 * 1 + 1 * 1) = 2
(3) Dependency from document 3 to document 4 = (1 * 1 + 1 * 1) = 2
(4) Dependency from document 3 to document 6 = (1 * 1 + 1 * 1) = 2
(5) Dependency from document 3 to document 7 = (1 * 1 + 1 * 1) = 2
(6) Dependency from
(7) Dependency from document 5 to document 6 = (2 * 1 + 1 * 1) = 3
(8) Dependency from
(9) Dependency from
(10) Dependency from
(11) Dependency from
[0041]
The dependency between the documents is passed to the dependency
[0042]
As described above, the dependency between documents is extracted and stored by the
[0043]
[Dependency presentation device]
Next, a
[0044]
FIG. 7 shows the configuration of the
[0045]
The user instructs the document
[0046]
The above-described
[0047]
As described above, according to this embodiment, when a user reads a certain document, the user can assist reading of the document by presenting the document that is a prerequisite for reading the document.
[0048]
It should be noted that the present invention is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present invention. For example, in order to restrict links, assign a group name to a group of documents and restrict links only to that group, or set personal settings, and reduce the dependence on documents read by individuals as they already understand It is possible. It can be set manually by the user or automatically depending on whether the document is opened or not.
[0049]
【The invention's effect】
As described above, according to the present invention, it is possible to easily support the understanding of a document by extracting the dependency between documents.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration example of a
FIG. 2 is a diagram illustrating the operation of the
FIG. 3 is a diagram illustrating the operation of the
FIG. 4 is a diagram illustrating the operation of the
FIG. 5 is a diagram illustrating the operation of the
FIG. 6 is a diagram illustrating an operation of the
FIG. 7 is a block diagram illustrating a configuration example of a dependency
8 is a diagram illustrating the operation of the dependency
FIG. 9 is a diagram illustrating the operation of the dependency
FIG. 10 is a diagram illustrating an example of mounting the
[Explanation of symbols]
10 Document
Claims (9)
上記文書記憶手段に記憶された各文書単位において、単語が定義を伴って出現したことを判別する第1の判別手段と、
上記文書記憶手段に記憶された各文書単位において、上記第1の判別手段により定義を伴って出現したと判別された単語が定義を伴うことなく出現したことを判別する第2の判別手段と、
定義を伴って出現した単語と、当該単語に対応し定義を伴うことなく出現した単語との対応関係に基づいて、上記定義を伴って出現した単語が判別された文書単位と、上記当該単語に対応し定義を伴うことなく出現した単語が判別された文書単位との依存関係を決定する依存関係決定手段とを有することを特徴とする文書依存関係抽出装置。A document storage unit for storing a plurality of document units each of which can be treated as one lump document separately from other documents;
A first determination unit that determines that a word appears with a definition in each document unit stored in the document storage unit;
A second discriminator for discriminating that a word determined to have appeared with a definition by the first discriminator has appeared without a definition in each document unit stored in the document storage;
Based on the correspondence between the word that appeared with the definition and the word corresponding to the word and appeared without the definition, a document unit in which the word that appeared with the definition was determined, A dependency determining unit for determining a dependency with respect to a document unit in which a corresponding word that has appeared without a definition is determined.
ユーザがアクセス使用としている文書単位を指定する手段と、
指定された文書単位に基づいて上記依存関係保存手段を参照して上記指定された文書単位に関連する依存度を取り出す手段と、
取り出した依存度を表示する手段とを有することを特徴とする文書依存関係表示装置。Dependency storing means for storing a dependency between document units extracted by the document dependency extracting apparatus according to any one of claims 1 to 6,
Means for specifying a document unit that the user is using for access;
Means for extracting a dependency related to the specified document unit by referring to the dependency storage means based on the specified document unit;
Means for displaying the taken-out dependency degree.
上記文書記憶ステップにより記憶された各文書単位において、単語が定義を伴って出現したことを判別する第1の判別ステップと、
上記文書記憶ステップにより記憶された各文書単位において、上記第1の判別ステップにより定義を伴って出現したと判別された単語が定義を伴うことなく出現したことを判別する第2の判別ステップと、
定義を伴って出現した単語と、当該単語に対応し定義を伴うことなく出現した単語との対応関係に基づいて、上記定義を伴って出現した単語が判別された文書単位と、上記当該単語に対応し定義を伴うことなく出現した単語が判別された文書単位との依存関係を決定する依存関係決定ステップとを有することを特徴とする文書依存関係抽出方法。A document storing step of storing a plurality of document units each of which can be treated as one lump document separately from other documents;
A first determination step of determining that a word has appeared with a definition in each document unit stored in the document storage step;
A second determination step of determining, in each document unit stored in the document storage step, that a word determined to have appeared with a definition in the first determination step has appeared without a definition;
On the basis of the correspondence between the word that appeared with the definition and the word that appeared without the definition corresponding to the word, the document unit in which the word that appeared with the above definition was determined, A dependency determining step of determining a dependency on a document unit in which a word that has appeared without a definition is determined.
上記文書記憶ステップにより記憶された各文書単位において、単語が定義を伴って出現したことを判別する第1の判別ステップと、
上記文書記憶ステップにより記憶された各文書単位において、上記第1の判別ステップにより定義を伴って出現したと判別された単語が定義を伴うことなく出現したことを判別する第2の判別ステップと、
定義を伴って出現した単語と、当該単語に対応し定義を伴うことなく出現した単語との対応関係に基づいて、上記定義を伴って出現した単語が判別された文書単位と、上記当該単語に対応し定義を伴うことなく出現した単語が判別された文書単位との依存関係を決定する依存関係決定ステップとをコンピュータに実行させるために用いられることを特徴とする文書依存関係抽出用コンピュータプログラム。A document storing step of storing a plurality of document units each of which can be treated as one lump document separately from other documents;
A first determination step of determining that a word has appeared with a definition in each document unit stored in the document storage step;
A second determination step of determining, in each document unit stored in the document storage step, that a word determined to have appeared with a definition in the first determination step has appeared without a definition;
On the basis of the correspondence between the word that appeared with the definition and the word that appeared without the definition corresponding to the word, the document unit in which the word that appeared with the above definition was determined, A dependency determining step of determining a dependency on a document unit in which a word appearing without a corresponding definition has been determined.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002169236A JP2004013745A (en) | 2002-06-10 | 2002-06-10 | Device and method for extracting document dependence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002169236A JP2004013745A (en) | 2002-06-10 | 2002-06-10 | Device and method for extracting document dependence |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004013745A true JP2004013745A (en) | 2004-01-15 |
Family
ID=30435897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002169236A Withdrawn JP2004013745A (en) | 2002-06-10 | 2002-06-10 | Device and method for extracting document dependence |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004013745A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031577A (en) * | 2004-07-21 | 2006-02-02 | Hideki Mima | Information retrieval overlooking method and device |
-
2002
- 2002-06-10 JP JP2002169236A patent/JP2004013745A/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031577A (en) * | 2004-07-21 | 2006-02-02 | Hideki Mima | Information retrieval overlooking method and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929487B1 (en) | Customization of search results for search queries received from third party sites | |
JP4365074B2 (en) | Document expansion system with user-definable personality | |
US7844594B1 (en) | Information search, retrieval and distillation into knowledge objects | |
US8868549B1 (en) | In-context searching | |
Mahmud et al. | Csurf: a context-driven non-visual web-browser | |
US20070234140A1 (en) | Method and apparatus for determining relative relevance between portions of large electronic documents | |
JP2002334106A (en) | Device, method, program for extracting topic and recording medium to record the same program | |
JP2006344102A (en) | Question answering system, data retrieval method and computer program | |
Kozakov et al. | Glossary extraction and utilization in the information search and delivery system for IBM Technical Support | |
WO2008091095A1 (en) | Apparatus and method for integration search of web site | |
JPH1166081A (en) | Profile acquisition system, information provision system, profile acquiring method and medium | |
JP4428850B2 (en) | Information search apparatus and information search method | |
Brooks | The Semantic Web, universalist ambition and some lessons from librarianship | |
Machill et al. | Transparency on the Net: functions and deficiencies of Internet search engines | |
JP2004078446A (en) | Keyword extraction device, extraction method, document retrieval system, retrieval method, device and method for classifying document, and program | |
Chen et al. | Automatically Generating an e-Textbook on the Web | |
JPH1145257A (en) | Web document retrieval supporting device and computer readable recording medium recorded with program for functioning computer as the device | |
JP2004013745A (en) | Device and method for extracting document dependence | |
JPH11338869A (en) | Information recommendation method and system, storage medium storing information recommendation program, information storage method and device, and storage medium storing information storage program | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
JP2003208447A (en) | Device, method and program for retrieving document, and medium recorded with program for retrieving document | |
JP2005025418A (en) | Question answering device, question answering method, and program | |
Mbipom et al. | Harnessing background knowledge for e-learning recommendation | |
Jones et al. | A probabilistic model of information retrieval: Develepment and STatus | |
Khatavkar et al. | Use of noun phrases in identification of a website |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050517 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080221 |