JP2009151373A - Citation relation extraction system, citation relation extraction method, and citation relation extracting program - Google Patents
Citation relation extraction system, citation relation extraction method, and citation relation extracting program Download PDFInfo
- Publication number
- JP2009151373A JP2009151373A JP2007326365A JP2007326365A JP2009151373A JP 2009151373 A JP2009151373 A JP 2009151373A JP 2007326365 A JP2007326365 A JP 2007326365A JP 2007326365 A JP2007326365 A JP 2007326365A JP 2009151373 A JP2009151373 A JP 2009151373A
- Authority
- JP
- Japan
- Prior art keywords
- citation
- content
- document
- relationship
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、コンテンツ間の引用関係を抽出する引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラムに関する。 The present invention relates to a citation relationship extraction system, a citation relationship extraction method, and a citation relationship extraction program for extracting citation relationships between contents.
企業等の組織の日常業務において、上司や同僚又は部下が作成したコンテンツを引用したり、参考にしたりして新たなコンテンツを作成することが多い。例えば、プロジェクトメンバの資料の一部を取り込んで報告書を作成することがある。引用関係を明らかにすることは、直接的には原著や出典を明確にすることに繋がり、著作権保護には重要である。また、コンテンツ群全体について引用関係を発見することは、コンテンツの体系化を行ったり検索を容易にしたりするためにも重要な役割がある。 In daily operations of organizations such as companies, new content is often created by quoting or referring to content created by supervisors, colleagues, or subordinates. For example, a report may be created by incorporating a part of the project member's material. Clarifying the citation relationship directly leads to clarifying the original work and source, and is important for copyright protection. Also, finding citation relationships for the entire content group plays an important role in organizing the content and facilitating searches.
例えば、研究機関等において、被引用回数に基づいて論文のインパクトファクタを測って研究者を評価したり、引用関係に基づいて文書のネットワークを生成して文書群の整理を行ったりすることが行われている。 For example, a research institution or the like may evaluate a researcher by measuring the impact factor of a paper based on the number of citations, or create a network of documents based on a citation relationship and organize a group of documents. It has been broken.
しかしながら、研究機関等で用いられる論文とは違って、企業等の組織内で用いられる社内コンテンツの引用関係は明示されないことが多い。そのため、引用関係に基づくコンテンツの体系化技術のメリットを十分に享受できないとともに、オリジナルアイディアの発案者を正しく評価できない場合がある。 However, unlike papers used in research institutions, etc., the citation relationship of in-house content used in organizations such as companies is often not specified. For this reason, there are cases in which the merit of the content organization technology based on the citation relationship cannot be fully enjoyed, and the original idea creator cannot be evaluated correctly.
以下、社内コンテンツにおける明示されない引用関係を暗黙引用関係という。また、以下、特別な説明がない限り、「引用関係」とは暗黙引用関係のことを示すものとする。 In the following, citation relationships that are not specified in the in-house content are referred to as implicit citation relationships. In addition, hereinafter, unless otherwise specified, “quoting relationship” indicates an implicit quoting relationship.
引用とは、2つのコンテンツ間又は2つのコンテンツ中の部分(以下パッセージ)間にある関係である。引用とは、あるコンテンツ(以下、引用元コンテンツ)の一部又は全部を、別のコンテンツ(以下、引用先コンテンツ)の中でそのまま又は一部を改変して再利用することである。また、以下、引用元コンテンツの一部又は全部を引用元パッセージといい、引用先コンテンツの一部又は全部を引用先パッセージという。 Citation is a relationship between two contents or between parts in two contents (hereinafter referred to as passages). Citation refers to reusing part or all of a certain content (hereinafter referred to as “citation content”) as it is or in a part of another content (hereinafter referred to as “citation content”). Hereinafter, a part or all of the citation source content is referred to as a citation source passage, and a part or all of the citation destination content is referred to as a citation destination passage.
引用関係は文書の組織化と検索の容易化のための重要ファクタであるため、文書やコンテンツの引用や再利用関係を発見する手法が多数提案されている。例えば、特許文献1では、文字列のマッチングにより同一文字列を発見し、同一文字列の出現場所と出現回数等との表層情報を用いたコンテンツの再利用関係の抽出手法が記載されている。また、特許文献2では、パッセージ類似に基づいてリンク関係を自動生成する手法が記載されている。
Since citation relationships are an important factor for organizing documents and facilitating search, many techniques for finding citation and reuse relationships of documents and contents have been proposed. For example,
しかし、特許文献1や特許文献2に記載された手法を用いただけでは、引用関係を誤判定する可能性がある。例えば、繋がりのない2人の研究者がほぼ同時に書いた論文は、相互に引用関係がないといえる。しかし、この場合に、特許文献1や特許文献2に記載された手法を用いただけでは、文字列やパッセージが類似であると判断され、引用関係があると誤認識されてしまう可能性がある。すなわち、特許文献1や特許文献2に記載された手法では、2つのコンテンツの作成時期が非常に離れている場合や、組織内でコンテンツの作成者の関係が非常に離れている場合、両者が独立に作成されたコンテンツである可能性が高くなるという点が考慮されていない。
However, the citation relationship may be erroneously determined only by using the methods described in
また、一般にアクセス権の設定を行うシステムでは、アクセス権のない機密文書を引用することは不可能である。しかし、特許文献1や特許文献2に記載された類似関係ベースで引用関係を判定する手法では、アクセス権のない機密文書であっても、偶然類似する文字列やパッセージが含まれていれば、引用関係があると誤検出されてしまう可能性がある。
In general, it is impossible to quote a confidential document without access right in a system for setting access right. However, in the method of determining the citation relationship based on the similarity relationship described in
そこで、本発明は、上記課題を解決するためになされたものであって、コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とする引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラムを提供することを目的とする。 Accordingly, the present invention has been made to solve the above-described problem, and enables the extraction of the implicit citation relationship in the content and the citation relationship extraction system that enables the accuracy of the implicit citation relationship extraction to be improved, It is an object to provide a citation relationship extraction method and a citation relationship extraction program.
本発明による引用関係抽出システムは、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出手段と、引用度算出手段が算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出手段とを備えたことを特徴とする。 The citation relationship extraction system according to the present invention enables citation between contents based on the difference in creation, update or reference time between contents and the degree of relationship between authors who created, updated or referred to the content. A citation degree calculating means for calculating a citation degree indicating the degree of sexuality, and a citation relation extracting means for extracting a citation relation between contents based on the citation degree calculated by the citation degree calculating means. .
また、本発明による引用関係抽出方法は、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出ステップと、算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出ステップとを含むことを特徴とする。 In addition, the citation relation extraction method according to the present invention performs citation between contents based on the difference in creation, update or reference time between contents and the degree of relation between authors who created, updated or referred to the contents. A citation degree calculating step for calculating a citation degree indicating the degree of possibility, and a citation relation extracting step for extracting a citation relation between contents based on the calculated citation degree.
また、本発明による引用関係抽出用プログラムは、コンピュータに、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出処理と、算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出処理とを実行させるためのものである。 In addition, the citation relationship extraction program according to the present invention enables a computer to extract between contents based on the difference in creation, update or reference time between contents and the degree of relationship between authors who created, updated or referenced the contents. A citation degree calculation process for calculating a citation degree indicating the degree of possibility that citations have been performed, and a citation relation extraction process for extracting a citation relation between contents based on the calculated citation degree. is there.
本発明によれば、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとを考慮して、コンテンツ間の引用関係を抽出するので、引用関係の誤検出を除外することができる。従って、コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とすることができる。 According to the present invention, the citation relationship between contents is extracted in consideration of the difference in creation, update or reference time between contents and the degree of relationship between authors who created, updated or referenced content. Relationship detection errors can be excluded. Accordingly, it is possible to extract the implicit citation relationship in the content and improve the accuracy of the implicit citation relationship extraction.
実施形態1.
以下、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による暗黙引用関係発見システム(引用関係抽出システム)の構成の一例を示すブロック図である。本発明は、例えば、社内情報システムに関する。例えば、暗黙引用関係発見システムは、企業等の組織内において、電子文書等の社内コンテンツの組織化や検索の容易化に関して、特に、社内コンテンツ間の暗黙的引用関係を発見する処理を行う。
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of the configuration of an implicit citation relationship discovery system (citation relationship extraction system) according to the present invention. The present invention relates to an in-house information system, for example. For example, an implicit citation relationship discovery system performs processing for finding an implicit citation relationship between in-house content, particularly regarding organization of in-house content such as an electronic document and facilitating search within an organization such as a company.
なお、暗黙引用関係発見システムは、電子文書に限らず、静止画像や映像等のコンテンツにも適用できるが、以下、便利上、特別な説明がない限り、本実施形態では、コンテンツの一例である電子文書を用いて説明を行う。例えば、引用元コンテンツと引用先コンテンツとを、それぞれ引用元文書と引用先文書とに言い換えて説明を行う。 The implicit citation relationship discovery system can be applied not only to electronic documents but also to contents such as still images and videos. However, for the sake of convenience, this embodiment is an example of contents unless otherwise specified. An explanation is given using an electronic document. For example, the citation source content and the citation destination content will be described as a citation source document and a citation destination document, respectively.
まず、本発明による暗黙引用関係発見システム(引用関係抽出システム)の概念について説明する。本発明では、引用関係の時空間制約条件と引用方向制約条件とを導入して、引用関係の誤判定を除外できる暗黙引用関係の発見手段を提供する。 First, the concept of the implicit citation relationship discovery system (citation relationship extraction system) according to the present invention will be described. In the present invention, a space-time constraint condition and a citation direction constraint condition for citation relations are introduced to provide a means for finding an implicit citation relation that can exclude erroneous judgment of citation relations.
引用方向制約は、引用元コンテンツが引用先コンテンツより以前に作成されている必要があるという時間条件と、引用先コンテンツの著者が引用元コンテンツにアクセスできる権限がある必要があるというアクセス権条件とを含む。暗黙引用関係発見システムは、この引用方向制約を利用して、引用関係が存在しえないコンテンツペアを排除し、引用先と引用元との順序関係を与える。 The citation direction constraint includes a time condition that the citation content must be created before the citation content, and a permission condition that the author of the citation content must have access to the citation content. including. The implicit citation relationship discovery system uses this citation direction constraint to eliminate a content pair in which a citation relationship cannot exist and to give an order relationship between a citation destination and a citation source.
時空間制約条件は、引用関係が発生するためには、コンテンツの作成時刻の差が一定範囲内にある必要があるという時間間隔条件と、著者間に繋がりがある必要があるという組織空間における著者の相関条件とを含む。これらの時空間制約条件は、コンテンツの引用における以下に示すような一般的な傾向を定式化したものである。 For space-time constraints, in order for citation relationships to occur, authors in organizational space must have a time interval condition that the difference in content creation time must be within a certain range and that there must be a connection between authors. Correlation conditions. These spatio-temporal constraints formulate general trends as follows in content citations.
(1)時間間隔条件:同時に作成されたコンテンツには引用関係が存在する可能性が低い。つまり、引用元文書と引用先文書との作成時刻が近いほど、引用関係が存在しない可能性が高い。また、この作成時刻の差が大きくなると、コンテンツにアクセスされる可能性が高くなるので、引用される可能性が大きくなる。 (1) Time interval condition: There is a low possibility that a citation relationship exists in content created at the same time. In other words, the closer the creation times of the citation source document and the citation destination document are, the higher the possibility that the citation relationship does not exist. Also, if the difference in creation time increases, the possibility of accessing the content increases, so the possibility of citation increases.
しかしながら、この作成時刻の差が極端に大きくなると、非常に優れたコンテンツでない限り、かえって忘却されてしまい、引用される可能性が低くなる。つまり、作成時刻の差の増加に伴って、コンテンツ間の引用可能性は一旦増大した後に次第に減少していく傾向がある。 However, if this difference in creation time becomes extremely large, unless the content is very good, it will be forgotten, and the possibility of being quoted will be low. In other words, as the difference in creation time increases, the citation possibility between contents once tends to increase and then gradually decrease.
(2)組織相関条件:組織空間において、強い繋がりのある著者同士は、近い空間にいるため、密にコミュニケーションを行っている可能性が高い。そのため、相手の考え方や相手が作成したコンテンツに対する理解が高く、コンテンツを引用する可能性が高い。 (2) Organization correlation condition: In an organization space, authors who are strongly connected are in close spaces, so there is a high possibility that they are communicating closely. Therefore, there is a high understanding of the other party's way of thinking and the content created by the other party, and the possibility of quoting the content is high.
暗黙引用関係発見システムは、以上の考え方に従って、コンテンツ間の引用関係の抽出を行う。 The implicit citation relationship discovery system extracts citation relationships between contents according to the above-described concept.
図1に示すように、暗黙引用関係発見システムは、コントローラ100と、文書データベース101と、組織構成表記憶手段102と、アクセスデータベース103と、仮想引用データベース104と、順序関係推定手段201と、引用度計算手段202とを含む。
As shown in FIG. 1, the implicit citation relationship discovery system includes a
暗黙引用関係発見システムは、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。なお、暗黙引用関係発見システムは、1つの情報処理装置によって実現されてもよく、複数の情報処理装置を用いて実現されてもよい。例えば、暗黙引用関係発見システムは、企業等の組織内に設置されている文書共有システムや人事管理システム等を実現する複数の情報処理装置を用いて実現されていてもよい。 Specifically, the implicit citation relationship discovery system is realized by an information processing apparatus such as a personal computer that operates according to a program. Note that the implicit citation relationship discovery system may be realized by one information processing apparatus or may be realized by using a plurality of information processing apparatuses. For example, the implicit citation relationship discovery system may be implemented using a plurality of information processing apparatuses that implement a document sharing system, a personnel management system, or the like installed in an organization such as a company.
文書データベース101は、社内で用いられる社内文書(電子文書)を格納するデータベースであり、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。また、文書データベース101は、企業等の組織内における文章共有システムを実現する1つ又は複数のデータベースサーバによって実現されてもよい。
The
また、文書データベース101は、文書に関する情報として、文書IDや、ファイルパス、著者ID、作成時刻、アクセスレベル、文書タイプの組を格納する。また、文書データベース101は、文書中に含まれるパッセージに関する情報として、パッセージIDや、文書ID、パッセージの組を格納する。また、文書データベース101は、コンテンツのタイプ毎の引用度の計算パラメータの情報として、文書のタイプや、単位時間距離の換算パラメータの組を格納する。
The
なお、文書データベース101は、例えば、「文書に関する情報」や「パッセージに関する情報」、「計算パラメータの情報」を、文書共有システムに文書を登録するタイミングで予め格納している。例えば、文書データベース101は、文書登録の際に入力されるIDやパスワードに基づいて特定された著者名(例えば、著者ID)を、「文書に関する情報」の1つとして格納している。
The
パッセージは、コンテンツ(例えば、電子文書)に含まれる意味的に1つのまとまりを構成する部分である。例えば、コンテンツが文書である場合、パッセージは段落である。 The passage is a part that semantically constitutes one unit included in the content (for example, an electronic document). For example, if the content is a document, the passage is a paragraph.
また、アクセスレベルは、その文書にアクセスするために必要な権限のレベルを示す情報である。例えば、アクセスレベルは、0から10までの数字で表される。例えば、暗黙引用関係発見システムは、電子文書(コンテンツ)を作成した著者の操作に従って、電子文書を文書データベース101に登録する際に、適切なアクセスレベルを設定する。また、利用者は、利用者端末等を操作して、自分に許可されたアクセスレベルに従って、文書データベース101に蓄積された文書にアクセスする。
The access level is information indicating the level of authority necessary for accessing the document. For example, the access level is represented by a number from 0 to 10. For example, the implicit citation relationship discovery system sets an appropriate access level when registering an electronic document in the
また、文書の作成時刻は、文書データベース101に電子文書(コンテンツ)を登録した時点の時刻である。
The document creation time is the time when the electronic document (content) is registered in the
コンテンツのタイプ毎の引用度の計算パラメータの情報を構成する情報のうち、文書タイプとは、例えば、メモ書きや週報、月報、報告書、論文等の文書の目的・用途に応じたタイプ分けを示す情報である。 Among the information that makes up the information of the calculation parameters for the citation level for each type of content, the document type is, for example, type classification according to the purpose and use of documents such as notes, weekly reports, monthly reports, reports, and papers. It is information to show.
また、単位時間距離の換算パラメータとは、各タイプの文書が作成されてから参照される最も可能性が高い時までの時間(有効期間)である。例えば、週報であれば、作成直後から1ヶ月ぐらいまでの間に参照される可能性が高く、その後参照される可能性が低くなる場合には、単位時間距離の換算パラメータの値は1ヶ月である。同様に、例えば、月報であれば、単位時間距離の換算パラメータの値は1年である。文書データベース101は、このような形で予め文書タイプに応じて定められた換算パラメータが登録されているものとする。
The unit time distance conversion parameter is the time (effective period) from the creation of each type of document to the most likely time of reference. For example, in the case of weekly reports, if there is a high possibility that it will be referred to in about one month immediately after creation, and the possibility that it will be referred to after that becomes low, the value of the conversion parameter for unit time distance is one month. is there. Similarly, for example, in the case of monthly reports, the value of the conversion parameter for unit time distance is one year. In the
組織構成表記憶手段102は、具体的には、磁気ディスク装置や光ディスク装置等の記憶装置によって実現される。組織構成表記憶手段102は、著者情報と、組織構成グラフの隣接行列と、組織構成グラフの更新時間とを含む組織構成表を格納する。なお、組織構成表は、例えば、企業等の組織内の人事部門によって作成され、予め組織構成表記憶手段102に登録される。また、暗黙引用関係発見システムは、組織内の人事管理システムから組織構成表を取得し、処理を実行するようにしてもよい。
Specifically, the organization configuration
図2は、組織構成グラフと、その組織構成グラフに対する隣接行列と、著者情報との例を示す説明図である。このうち、図2(a)は、組織構成グラフの例を示している。また、図2(b)に示すように、組織構成表記憶手段102は、組織構成表に含まれる著者情報として、著者や著者IDの組を蓄積する。また、図2(c)に示すように、組織構成表記憶手段102は、著者IDを用いて表現される隣接グラフとして、グラフIDや隣接行列の組を格納する。
FIG. 2 is an explanatory diagram illustrating an example of the organization configuration graph, an adjacency matrix for the organization configuration graph, and author information. Among these, Fig.2 (a) has shown the example of the organization structure graph. As shown in FIG. 2B, the organization structure
また、組織構成表記憶手段102は、組織構成グラフの更新時間として、グラフIDや更新時刻の組を格納する。暗黙引用関係発見システムは、この組織構成表記憶手段102が格納する更新時間の情報を用いて、組織改正や人事異動に伴う組織グラフの更新を管理することができる。
The organization configuration
アクセスデータベース103は、文書のアクセス権情報を格納するデータベースであり、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。なお、アクセス権情報は、予め企業等の組織内の人事部門やシステム管理部門によって作成され、予めアクセスデータベース103に登録される。また、暗黙引用関係発見システムは、組織内の人事管理システムやアクセス権管理システムからアクセス情報を取得し、処理を実行するようにしてもよい。
The
アクセスデータベース103は、アクセス権情報として、著者IDや、更新時間、アクセスレベルの組を格納している。アクセスレベルは、著者IDに対応する著者のアクセス権限のレベルを示す情報である。例えば、アクセスレベルは、0から10までの数字で表される。従って、本実施形態では、文書のアクセスに必要なアクセスレベル以上のアクセスレベルをもつ著者しか、その文書にアクセスすることができない。更新時間は、組織改正や人事異動に伴う著者のアクセスレベルの変更時間である。従って、アクセスレベルを特定するには、著者IDと更新時間とを同時に用いて判断する必要がある。
The
仮想引用データベース104は、暗黙引用関係発見システムが抽出した引用関係の抽出結果を格納するデータベースであり、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。仮想引用データベース104は、暗黙引用関係発見システムが抽出したパッセージの引用関係の抽出結果として、引用元の文書IDや、引用元のパッセージID、引用先の文書ID、引用先のパッセージID、引用度の組を格納している。
The
コントローラ100は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。コントローラ100は、引用度計算手段202が算出した引用度及び順序関係推定手段201が推定した順序関係に基づいて、コンテンツ間の引用関係を抽出する機能を備える。
Specifically, the
本実施形態では、コントローラ100は、文書データベース101が格納する文書の全部又は一部を対象に、順序関係推定手段201の推定結果(推定処理の判定結果)と引用度計算手段202の計算結果とを用いて、暗黙引用関係の抽出を行う。また、コントローラ100は、コンテンツ(例えば、電子文書)間の暗黙引用関係の抽出結果を、仮想引用データベース104に格納させる。
In the present embodiment, the
順序関係推定手段201は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。順序関係推定手段201は、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する機能を備える。図1に示すように、順序関係推定手段201は、アクセス権判断手段2011と、時間順序判断手段2012とを含む。
Specifically, the order
本実施形態では、順序関係推定手段201は、引用方向制約に基づいて、引用度の高い文書ペアの引用元と引用先との順序関係を推定する。つまり、順序関係推定手段201は、引用元へのアクセスの可否に関わるアクセス権条件と、引用元が引用先より先に作成される必要があるという時間条件とに基づいて、引用元と引用先とを推定する。
In the present embodiment, the order
順序関係推定手段201に含まれる各手段のうち、アクセス権判断手段2011は、アクセス権条件を検査して、引用元と引用先との順序関係を推定する機能を備える。アクセス権判断手段2011は、コンテンツに設定されたアクセス権のレベルと、著者に設定されたアクセス権のレベルとに基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する。この場合、アクセス権判断手段2011は、著者に設定されたアクセス権のレベルがコンテンツに設定されたアクセス権のレベル以上であると判断すると、そのコンテンツを引用元となりうるコンテンツと推定する。
Among the means included in the order relation estimation means 201, the access right determination means 2011 has a function of examining the access right condition and estimating the order relation between the citation source and the citation destination. The access right judging means 2011 estimates the order relationship between the content that can be cited and the content that can be cited based on the level of access right set for the content and the level of access right set for the author. . In this case, if the access
また、時間順序判断手段2012は、時間条件を検査して、引用元と引用先との順序関係を推定する機能を備える。時間順序判断手段2012は、コンテンツの作成、更新又は参照時間(本実施形態では作成時間)に基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する。この場合、時間順序判断手段2012は、作成、更新又は参照時間が古いコンテンツを引用元となりうるコンテンツと推定し、作成、更新又は参照時間が新しいコンテンツを引用先となりうるコンテンツと推定する。
Further, the time
引用度計算手段202は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。引用度計算手段202は、電子文書中のパッセージの引用の可能性の度合いを示す引用度を計算する機能を備える。引用度計算手段202は、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する。図1に示すように、引用度計算手段202は、類似度計算手段2021と、時間距離計算手段2022と、著者距離計算手段2023と、統合計算手段2024とを含む。 Specifically, the citation level calculation means 202 is realized by a CPU of an information processing apparatus that operates according to a program. The citation level calculation means 202 has a function of calculating a citation level indicating the degree of possibility of citation of passages in an electronic document. The citation level calculation means 202 indicates the possibility that citations have been made between contents based on the difference in creation, update or reference time between contents and the degree of relationship between authors who created, updated or referred to the contents. The degree of citation indicating the degree is calculated. As shown in FIG. 1, the citation degree calculation means 202 includes a similarity degree calculation means 2021, a time distance calculation means 2022, an author distance calculation means 2023, and an integrated calculation means 2024.
類似度計算手段2021は、コンテンツ間の類似度を算出する機能を備える。本実施形態では、類似度計算手段2021は、異なる文書に含まれるパッセージ間の類似度を計算する。例えば、類似度計算手段2021は、ベクトル空間モデルに基づいて計算されるキーワードベクトルの余弦を用いて、文書中のパッセージの類似度を求めることができる。なお、ベクトル空間モデルに基づいて計算されるキーワードベクトルの余弦を用いて、文書中のパッセージの類似度を求める方法は、例えば、文献A「徳永健伸、”情報検索と言語処理”、東京大学出版会、pp.31,41−43」に記載されている。
The
なお、類似度計算手段2021は、文書以外のコンテンツの類似度を求める場合には、そのコンテンツの種類に応じて用意された類似度計算方式を用いて、コンテンツ間の類似度を計算する。
Note that the
時間距離計算手段2022は、コンテンツ間の作成、更新又は参照時間の差を示す時間距離を算出する機能を備える。本実施形態では、時間距離計算手段2022は、2つの文書の作成時刻の差の絶対値を計算する。なお、時間距離計算手段2022は、例えば、2つの文書の更新時刻や参照時刻の差の絶対値を計算してもよい。
The time
また、時間距離計算手段2022は、求めた作成時刻の差の絶対値を、単位時間距離に換算する機能を備える。なお、単位時間距離に換算するためのパラメータは、文書のタイプ毎に決められ、予め文書データベース101に格納されている。そして、時間距離計算手段2022は、単位距離に換算するためのパラメータを文書データベース101から取得(抽出)し、抽出したパラメータを用いて正規化することによって、作成時刻の差の絶対値を単位時間距離に換算する。すなわち、時間距離計算手段2022は、コンテンツタイプに応じたコンテンツの作成、更新又は参照時間(本実施形態では作成時間)の差を正規化するための正規化パラメータを用いて、正規化した時間距離を算出する。
In addition, the time
著者距離計算手段2023は、コンテンツを作成、更新又は参照した著者間の関係の度合いを示す著者距離を算出する機能を備える。本実施形態では、著者距離計算手段2023は、組織構成グラフにおける文書の著者に対応するノード間の最短パスの長さを、著者距離として計算する。
The author distance calculation means 2023 has a function of calculating an author distance indicating the degree of relationship between authors who created, updated, or referred to content. In the present embodiment, the author
総合計算手段2024は、時間距離計算手段2022が算出した時間距離と、著者距離計算手段2023が算出した著者距離と、類似度計算手段2021が算出した類似度とを統合した引用度を算出する機能を備える。本実施形態では、統合計算手段2024は、類似度計算手段2021が求めたパッセージ間の類似度と、著者距離計算手段2023が求めた著者距離と、時間距離計算手段2022が求めた時間距離とを用いて、文書中のパッセージの引用度を計算する。つまり、引用度は、時空間制約条件に基づく、類似度と、時間距離と、著者距離との関数である。
The
なお、本実施形態において、暗黙引用関係発見システムを実現する情報処理装置の記憶装置(図示せず)は、コンテンツ(例えば、電子文書)間の暗黙的引用関係を発見するための各種プログラムを記憶している。例えば、暗黙引用関係発見システムを実現する情報処理装置の記憶装置は、コンピュータに、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出処理と、算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出処理とを実行させるための暗黙引用関係発見用プログラム(引用関係抽出用プログラム)を記憶している。 In this embodiment, the storage device (not shown) of the information processing apparatus that implements the implicit citation relationship discovery system stores various programs for discovering the implicit citation relationship between contents (for example, electronic documents). is doing. For example, the storage device of the information processing apparatus that implements the implicit citation relationship discovery system allows a computer to determine the difference in creation, update, or reference time between contents and the degree of relationship between authors who created, updated, or referenced content. A citation degree calculation process for calculating a citation degree indicating the degree of possibility that citation was performed between contents, and a citation relation extraction process for extracting a citation relation between contents based on the calculated citation degree. An implicit citation relationship discovery program (citation relationship extraction program) for execution is stored.
次に、動作について説明する。図3は、暗黙引用関係発見システムがコンテンツ(電子文書中のパッセージ)間に含まれる暗黙引用関係を抽出する処理の一例を示す流れ図である。暗黙引用関係発見システムは、所定のタイミングで、図3に示す暗黙引用関係の抽出処理を開始する。 Next, the operation will be described. FIG. 3 is a flowchart illustrating an example of a process in which the implicit citation relationship discovery system extracts an implicit citation relationship included between contents (passages in an electronic document). The implicit citation relationship discovery system starts the implicit citation relationship extraction process shown in FIG. 3 at a predetermined timing.
例えば、暗黙引用関係発見システムは、システム管理者の指示操作をトリガとして、暗黙引用関係の抽出処理を開始する。また、例えば、暗黙引用関係発見システムは、夜間バッチ等を用いて所定時間毎に、暗黙引用関係の抽出処理を実行してもよい。また、例えば、暗黙引用関係発見システムは、文書データベース101に新規の電子文書が登録されたことに基づいて、暗黙引用関係の抽出処理を開始してもよい。さらに、例えば、暗黙引用関係発見システムは、文書データベース101に所定量の電子文書が登録されたことに基づいて、暗黙引用関係の抽出処理を開始してもよい。
For example, the implicit citation relationship discovery system starts the extraction process of the implicit citation relationship with the instruction operation of the system administrator as a trigger. Further, for example, the implicit citation relationship discovery system may execute an implicit citation relationship extraction process at predetermined time intervals using a nighttime batch or the like. For example, the implicit citation relationship discovery system may start the extraction process of the implicit citation relationship based on the registration of a new electronic document in the
まず、コントローラ100は、文書データベース101から処理対象文書の集合Dを取得(抽出)する(ステップS101)。
First, the
コントローラ100は、抽出した文書集合Dに含まれる文書di(0<i<D.count)を対象に、以下に示すステップS103〜S112の処理を繰り返し実行する(ステップS102)。なお、iは文書の順番を示し、D.countは文書の総数を示している。
The
文書diに対するループ処理において、コントローラ100は、文書集合Dに含まれる文書dj(i+1≦j≦D.count)を対象に、以下に示すステップS104〜S111の処理を繰り返し実行する(ステップS103)。なお、jは文書の順番を示している。
In the loop process for the document di, the
まず、コントローラ100は、順序関係推定手段201に、処理対象となる文書diと文書djとを渡す(出力する)。順序関係推定手段201は、アクセス権判断手段2011と時間判断手段2012とを用いて、文書diと文書djとの引用の順序関係を推定する(ステップS104)。そして、順序関係の推定結果をコントローラ100に返す(出力する)。
First, the
コントローラ100は、順序関係推定手段201から順序関係の推定結果を受け取る(入力する)。そして、コントローラ100は、入力した推定結果が文書diと文書djとに引用の順序関係があることを示しているか否かを判断する(ステップS105)。文書diと文書djとに引用の順序関係がないという推定結果であれば、コントローラ100は、そのままステップS112にジャンプ(移行)する。そして、ステップS103〜S112のループ処理を繰り返す。
The
文書diと文書djとに引用の順序関係があるという推定結果であれば、コントローラ100は、文書di及び文書djとともに、文書diと文書djとの引用の順序関係を引用度計算手段202に渡す(出力する)。
If the estimation result indicates that the document di and the document dj have a citation order relationship, the
次いで、引用度計算手段202は、時間距離計算手段2022を用いて、文書diと文書djとの時間距離を計算する(ステップS106)。また、同時に、引用度計算手段202は、著者距離計算手段2023を用いて、文書diの著者と文書djの著者との著者距離を計算する(ステップS107)。さらに、同時に、引用度計算手段202は、類似度計算手段2021を用いて、文書di及び文書djに含まれるパッセージの類似度を計算する(ステップS108)。
Next, the citation
なお、ステップS106〜S108の処理を実行する順番は問わない。例えば、引用度計算手段202は、ステップS106の時間距離の算出処理を実行した後にステップS107,S108の処理を実行してもよいし、ステップS107の著者距離の算出処理を実行した後にステップS106,S108の処理を実行してもよい。また、引用度計算手段202は、ステップS108の類似度の算出処理を実行した後にステップS106,S107の処理を実行してもよく、タイムシェアリングによりステップS106,S107,S108の処理を並行して実行してもよい。 In addition, the order which performs the process of step S106-S108 is not ask | required. For example, the citation level calculation means 202 may execute the processing of steps S107 and S108 after executing the time distance calculation processing of step S106, or may execute step S106, after executing the author distance calculation processing of step S107. You may perform the process of S108. Further, the citation level calculation means 202 may execute the processing of steps S106 and S107 after executing the similarity calculation processing of step S108, and the processing of steps S106, S107, and S108 in parallel by time sharing. May be executed.
次いで、引用度計算手段202は、ステップS106で計算した時間距離と、ステップS107で計算した著者距離と、ステップS108で計算したパッセージ類似度とを用いて、引用度cを求める。この場合、引用度計算手段202は、統合計算手段2024を利用して、文書di及び文書djに含まれる2つのパッセージの組み合わせの引用度cを計算する(ステップS109)。そして、引用度計算手段202は、引用度cの計算結果を、コントローラ100に渡す(出力する)。
Next, the citation degree calculating means 202 obtains the citation degree c using the time distance calculated in step S106, the author distance calculated in step S107, and the passage similarity calculated in step S108. In this case, the citation
次いで、コントローラ100は、ステップS109で計算した引用度cの値を引用度計算手段202から受け取る(入力する)。そして、コントローラ100は、入力した引用度cと予め定義されている閾値との比較を行い、引用度cの値が所定の閾値より大きいか否かを判断する(ステップS110)。
Next, the
コントローラ100は、引用度cが所定の閾値より大きいと判断した場合には、文書diと文書djとに含まれるパッセージの組み合わせに引用関係があると判断する。そして、コントローラ100は、引用関係があると判断した判定結果を、仮想引用データベース104に登録する(ステップS111)。
When the
次いで、コントローラ100は、文書の順番を示す係数jに1加算(j=j+1)して、ステップS103に移行する。すなわち、次の文書djについて、ステップS104〜S111の処理を行う。
Next, the
ステップS113では、コントローラ100は、文書の順番を示す係数iに1加算(i=i+1)して、ステップS102に移行する。すなわち、次の文書diについて、ステップS103〜S112の処理を行う。
In step S113, the
以上のように、文書データベース101が蓄積する全ての電子文書についてステップS103〜S112の処理が繰り返し実行されることによって、全ての電子文書に含まれるパッセージの組み合わせについて引用関係が抽出される。そして、引用関係があると判断された全てのパッセージの判定結果が仮想引用データベース104に格納される。
As described above, the citation relationship is extracted for the combination of passages included in all electronic documents by repeatedly executing the processes of steps S103 to S112 for all the electronic documents stored in the
なお、仮想引用データベース104に格納された判定結果は、企業等の組織内の各部門からの要求に応じて提供され利用することができる。例えば、暗黙引用関係発見システムは、組織内のマネジメント部門や人事部門の端末からの要求に応じて、仮想引用データベース104から引用関係の判定結果を抽出して送信する。そして、マネジメント部門や人事部門の端末において受信した引用関係の判定結果を表示することによって、組織の業績評価や人事評価に利用することができる。
The determination result stored in the
以下、図3に示した暗黙引用関係の抽出処理に含まれるそれぞれのステップについて説明する。 Hereinafter, each step included in the extraction process of the implicit citation relationship illustrated in FIG. 3 will be described.
(1)処理対象文書集合の取得処理(ステップS101):ステップS101では、コントローラ100は、文書データベース101にアクセスして、処理対象となる文書のID集合を文書データベース101から取得(抽出)する。一般的には、コントローラ100は、文書データベース101に蓄積されている全ての文書を対象として、文書IDを抽出する。なお、コントローラ100は、条件を指定して、文書データベース101に蓄積されている一部の文書を対象として、文書IDを抽出することも可能である。
(1) Processing for Acquiring Document Set for Processing (Step S101): In step S101, the
なお、文書IDと文書とは一対一に対応しているため、以下では、特別の説明がない限り、この文書IDの集合を文書集合Dという。 Since document IDs and documents correspond one-to-one, hereinafter, a set of document IDs is referred to as a document set D unless otherwise specified.
(2)順序関係の推定処理(ステップS104):引用には、順序関係がある。つまり、引用元となりうる文書と引用先となりうる文書とは、予め決まっている。本実施形態では、順序関係推定手段201は、このような引用元となりうる文書と引用先となりうる文書との方向性の制約である引用方向制約を導入して、引用の順序関係を決める。引用方向制約は、時間条件と、アクセス権条件とを含む。時間条件とは、引用元の文書は、引用先の文書が作成されるより以前に作成されている必要があるという条件である。また、アクセス権条件とは、引用先の文書の著者は引用元の文書にアクセスできる(アクセス権が与えられている)という条件である。
(2) Order relation estimation process (step S104): Citations have an order relation. That is, a document that can be a citation source and a document that can be a citation destination are determined in advance. In this embodiment, the order
順序関係推定手段201は、文書データベース101にアクセスして、文書の作成時刻を文書データベース101から取得(抽出)して比較することによって、時間条件をチェックできる。なお、時間条件のチェック処理は、順序関係推定手段201の時間順序判断手段2012によって実行される。
The order
時間順序判断手段2012は、文書の作成時刻を、順序関係推定手段201を通して文書データベース101から取得(抽出)する。そして、時間順序判断手段2012は、抽出した各文書の作成時刻を比較して、引用先となりうる文書と、引用元となりうる文書とを判断する。なお、時間順序判断手段2012は、文書データベース101にアクセスして、直接文書の作成時刻を取得(抽出)するようにしてもよい。
The time
また、順序関係推定手段201は、著者Aが文書bにアクセスできるか否かを、アクセス権判断手段2011を用いて判断する。アクセス権判断手段2011は、順序関係推定手段201を通して、文書データベース101から文書bに必要なアクセスレベルを抽出する。また、アクセス権判断手段2011は、順序関係推定手段201を通して、アクセスデータベース103から著者Aのアクセスレベルを抽出する。そして、アクセス権判断手段2011は、抽出した文書bのアクセスレベルと著者Aのアクセスレベルとを比較して、アクセス権条件を満たすか否かを判断する。
Further, the order
この場合、アクセス権判断手段2011は、著者Aのアクセスレベルが文書bのアクセスレベル以上であれば、著者Aが文書bにアクセスできる(アクセス権条件を満たす)と判断する。すなわち、アクセス権判断手段2011は、文書bが引用元となりえると判断する。また、アクセス権判断手段2011は、著者Aのアクセスレベルが文書bのアクセスレベル以上でなければ、著者Aが文書bにアクセスできない(アクセス権条件を満たさない)と判断する。すなわち、アクセス権判断手段2011は、文書bが引用元となりえないと判断する。
In this case, the access
なお、アクセス権判断手段2011は、文書データベース101とアクセスデータベース103とに、直接アクセスするようにしてもよい。
Note that the access
図4は、ステップS104の順序関係の推定処理の一例を示す流れ図である。ステップS104において、順序関係推定手段201は、ステップS101で取得した文書集合に含まれる文書の組み合わせ(di,dj)に対して、文書データベース101から文書(di又はdj)の作成時刻を抽出する。また、順序関係推定手段201は、文書di及び文書djの著者のIDを用いて、アクセスレベル情報をアクセスデータベース103から取得(抽出)する。
FIG. 4 is a flowchart illustrating an example of the order relation estimation process in step S104. In step S104, the order
すなわち、順序関係推定手段201は、文書(di又はdj)の作成時刻の直前のアクセスレベル情報を用いて引用順序を決定する。そして、順序関係推定手段201は、引用方向制約条件を用いて、以下に示す手順に従って、文書diと文書djとの引用順序を決める。
That is, the order
順序関係推定手段201は、文書diの著者が文書djにアクセスできるか否かを判断するとともに、文書djの著者が文書diにアクセスできるか否かを判断する。文書djの著者が文書diにアクセスできるが、文書diの著者が文書djにアクセスできないと判断した場合には(ステップS401)、順序関係推定手段201は、文書djが引用先の文書であり、文書diが引用元の文書であると判断する(ステップS402)。
The order
また、文書diの著者が文書djにアクセスできるが、文書djの著者が文書diにアクセスできないと判断した場合には(ステップS403)、順序関係推定手段201は、文書diが引用先の文書であり、文書djが引用元の文書であると判断する(ステップS404)。
If it is determined that the author of the document di can access the document dj, but the author of the document dj cannot access the document di (step S403), the order
また、文書diの著者が文書djにアクセスでき、かつ、文書djの著者が文書diにアクセスできると判断した場合には(ステップS405のY)、順序関係推定手段201は、文書diと文書djとの作成時刻に基づいて、文書diと文書djとの順序関係を推定する。
When it is determined that the author of the document di can access the document dj and the author of the document dj can access the document di (Y in step S405), the order
文書diが文書djより先に作成されたと判断した場合には(ステップS406)、順序関係推定手段201は、文書diが引用元の文書であり、文書djが引用先の文書であると判断する(ステップS407)。逆に、文書djが文書diより先に作成されたと判断した場合には(ステップS408のY)、順序関係推定手段201は、文書diが文書djを引用していると判断する(ステップS409)。また、文書diと文書djとの作成時刻が同じであると判断した場合には(ステップS408のN)、順序関係推定手段201は、この2つの文書di,djには引用関係がないと判断する(ステップS410)。
When it is determined that the document di is created before the document dj (step S406), the order
また、文書diの著者が文書djにアクセスできず、かつ、文書djの著者が文書diにアクセスできないと判断した場合には(ステップS405のN)、順序関係推定手段201は、文書diと文書djとに引用関係がないと判断する(ステップS410)。
If it is determined that the author of the document di cannot access the document dj and the author of the document dj cannot access the document di (N in step S405), the order
そして、ステップS105に移行し、順序関係推定手段201は、コントローラ100に推定結果を返す(出力する)。
Then, the process proceeds to step S <b> 105, and the order
(3)時空間制約条件を用いた引用度計算処理(ステップS106、ステップS107、ステップS108、及びステップS109)と、引用関係登録処理(ステップS110,S111):文書ペア(di,dj)に対して、コントローラ100は、引用度計算手段202を用いて、パッセージ単位に総当たりで引用度を計算する。
(3) Citation degree calculation processing (step S106, step S107, step S108, and step S109) using a spatiotemporal constraint condition and citation relationship registration processing (step S110, S111): for document pair (di, dj) Then, the
引用は文書中のパッセージ単位で行われることが多いため、本実施形態では、暗黙引用関係発見システムは、パッセージ単位で引用度を計算して引用関係の有無を判定する。暗黙引用関係発見システムは、2つのパッセージの引用度が高ければ、この2つのパッセージには引用関係があると判断する。なお、この場合、この2つのパッセージを含む文書間にも引用関係があることになる。以下、特別の説明がない限り、文書d1を引用元文書とし、文書d2を引用先文書として説明を行う。 Since citation is often performed in units of passages in a document, in this embodiment, the implicit citation relationship discovery system determines the citation relationship by calculating the citation level in units of passages. If the quotation level of two passages is high, the implicit quotation relationship discovery system determines that the two passages have a quotation relationship. In this case, there is also a citation relationship between documents including these two passages. Hereinafter, the description will be made with the document d1 as a citation source document and the document d2 as a citation destination document unless otherwise specified.
引用度計算手段202は、文書の時間距離と、著者距離と、パッセージ間の類似度とを用いて、引用度を計算される。引用度計算手段202は、時間距離と著者距離とを文書単位で計算する。一方、引用度計算手段202は、類似度をパッセージ単位で計算する。 The citation degree calculation means 202 calculates the citation degree using the time distance of the document, the author distance, and the similarity between passages. The citation level calculation means 202 calculates the time distance and the author distance in document units. On the other hand, the citation level calculation means 202 calculates the similarity level in units of passages.
本実施形態では、時間距離は、2つの文書の作成時刻の差である。また、著者距離は、組織空間における文書の著者を繋げるパスの最短距離であり、著者の繋がりの強弱を示す尺度である。 In this embodiment, the time distance is the difference between the creation times of two documents. The author distance is the shortest distance of the path connecting the authors of the document in the organization space, and is a measure indicating the strength of the connection between the authors.
基本的に、類似度が高いほど、パッセージ間の引用可能性が高く、引用度が高くなる。また、著者距離が短いほど、パッセージ間の引用可能性が高く、引用度が高くなる。また、時間距離が小さい又は大きいパッセージ間の引用度は小さくなる。 Basically, the higher the similarity, the higher the possibility of citation between passages, and the higher the citation level. In addition, the shorter the author distance, the higher the possibility of citation between passages and the higher the citation level. In addition, the degree of citation between passages with small or large time distance is small.
引用度計算手段202は、ステップS106で計算した時間距離と、ステップS107で計算した著者距離と、ステップS108で計算したパッセージ類似度とを用いて、ステップS109において引用度を計算する。この場合、引用度計算手段202は、統合計算手段2024を用いて、文書d1のパッセージp1と文書d2のパッセージp2との引用度citを、次の式(1)に従って計算する。
The citation level calculation means 202 calculates the citation level in step S109 using the time distance calculated in step S106, the author distance calculated in step S107, and the passage similarity calculated in step S108. In this case, the citation
ただし、式(1)において、simはパッセージの類似度である。また、式(1)において、timedisは時間距離であり、authdisは著者距離である。 However, in Formula (1), sim is a passage similarity. In the formula (1), timedis is a time distance, and authdis is an author distance.
引用度計算手段202が求めた文書d1のパッセージp1と文書d2のパッセージp2との引用度citが予め定義された閾値より大きければ、コントローラ100は、文書d1のパッセージp1と文書d2のパッセージp2との間に引用関係があると判断する。そして、コントローラ100は、文書d1のID、パッセージp1のID、文書d2のID、パッセージp2のID、及び引用度citを対応付けた形で、仮想引用データベース104に引用関係の判定結果の登録を行う。なお、この引用関係の判定結果の登録処理は、ステップS111で行われる。
If the citation degree cit between the passage p1 of the document d1 and the passage p2 of the document d2 obtained by the citation degree calculation means 202 is larger than a predetermined threshold, the
以下、パッセージの類似度、時間距離、及び著者距離の計算方法についてそれぞれ説明する。 Hereinafter, a method of calculating passage similarity, time distance, and author distance will be described.
(3−1)時間間隔条件を用いた時間距離計算(ステップS106):一般に、同時に作成された文書には引用関係が存在する可能性が低い。つまり、引用元の文書と引用先の文書との作成時刻が近いほど、引用関係が存在する可能性が高い。一方、この文書間の作成時刻の差が大きくなると、文書が読まれる可能性が高くなるので、引用される可能性が大きくなる。 (3-1) Time distance calculation using time interval conditions (step S106): In general, there is a low possibility that a citation relationship exists in a document created at the same time. In other words, the closer the creation time between the citation source document and the citation destination document is, the higher the possibility that a citation relationship exists. On the other hand, when the difference in creation time between the documents increases, the possibility that the document is read increases, so that the possibility that the document is cited increases.
しかしながら、この文書館の作成時刻の差が極端に大きくなると、非常に優れた文書でない限り、かえって忘却されてしまい、引用される可能性が低くなる。つまり、図5に示しているように、文書間の作成時刻の差の増加に伴って、文書間の引用可能性は、一旦増大した後にある時点から減少していく傾向がある。 However, if the difference in the creation time of the document building becomes extremely large, unless it is a very good document, it will be forgotten, and the possibility of being cited will be reduced. That is, as shown in FIG. 5, as the difference in creation time between documents increases, the citation possibility between documents tends to decrease from a certain point after increasing once.
本実施形態では、時間距離計算手段2022は、時間距離として、単位時間距離に換算された(正規化された)文書の作成時刻の差を求める。ステップS106では、時間距離計算手段2022は、コントローラ100を通して、文書データベース101から各文書の作成時刻、文書タイプ、及び文書タイプに対応した単位時間距離の換算パラメータを取得(抽出)する。そして、時間距離計算手段2022は、抽出したこれらの情報を用いて、次の式(2)に従って、文書d1と文書d2との時間距離を計算する。
In the present embodiment, the time
timedis(d1,d2)=(|time(d1)−time(d2)|)/μ(d1) ・・・ 式(2) timedis (d1, d2) = (| time (d1) −time (d2) |) / μ (d1) (2)
ただし、式(2)において、time(d1)及びtime(d2)は、それぞれ、時間(hour)単位とした文書d1及び文書d2の作成時刻である。また、μは、引用元文書のタイプに対応した単位時間距離の換算パラメータである。単位時間距離の換算パラメータは、前述したように、文書のタイプ毎に予め設定されている。 However, in Expression (2), time (d1) and time (d2) are the creation times of the document d1 and the document d2 in units of time (hour), respectively. Further, μ is a conversion parameter for the unit time distance corresponding to the type of the citation source document. As described above, the unit time distance conversion parameter is set in advance for each document type.
例えば、文書が週報である場合には、換算パラメータμは、24時間(1日)と設定できる。また、例えば、文書が社内報告RNである場合には、換算パラメータは、720時間(1ヶ月)と設定できる。このように、単位時間距離に換算することによって、時間距離計算手段2022は、文書の有効時間の長短の影響を取り除いた形で時間距離を求めることができる。
For example, when the document is a weekly report, the conversion parameter μ can be set to 24 hours (1 day). For example, when the document is an in-house report RN, the conversion parameter can be set to 720 hours (one month). In this way, by converting the unit time distance, the time
なお、時間距離計算手段2022は、文書データベース101にアクセスして、文書の作成時刻と換算パラメータμとを直接取得(抽出)するようにしてもよい。
The time
(3−2)組織相関条件を用いた著者距離計算(ステップS107):一般に、組織空間において、強い繋がりのある著者同士は、近い空間にいるため、密にコミュニケーションを行っている可能性が高い。そのため、相手の考え方や相手が作成した文書に対する理解が高く、相手が作成した文書を引用する可能性が高い。例えば、同じ部署内の同僚や上司、部下の関係にある著者同士は、相手が作成した文書を引用する可能性が高い。 (3-2) Author distance calculation using organization correlation condition (step S107): Generally, in an organization space, authors with strong connections are close to each other, so there is a high possibility that they are communicating closely. . Therefore, there is a high understanding of the partner's way of thinking and the document created by the partner, and there is a high possibility that the document created by the partner is cited. For example, co-workers, supervisors, and subordinate authors in the same department are likely to cite documents created by the other party.
本実施形態では、著者距離計算手段2023は、著者距離は、組織構成表記憶手段102から取得(抽出)する組織グラフを用いて、著者距離を計算する。例えば、図2(a)に示す組織グラフでは、ノードは社員に対応し、枝は社員間の組織関係を表している。著者距離計算手段2023は、図2(a)に示されるような組織グラフを用いて、以下の処理に従って著者距離を算出する。
In the present embodiment, the author
著者距離計算手段2023は、引用度計算手段202を通して、引用先文書d2の作成時刻に基づいて、組織構成表記憶手段102から組織グラフを取得(抽出)する。つまり、著者距離計算手段2023は、文書d2の作成時刻の直前の組織グラフを取得して利用することによって、著者距離を求める。なお、著者距離計算手段2023は、引用度計算手段202を通さず、直接組織構成表記憶手段102から組織グラフに関する情報を取得(抽出)するようにしてもよい。
The author distance calculation means 2023 acquires (extracts) the organization graph from the organization configuration table storage means 102 through the citation degree calculation means 202 based on the creation time of the cited document d2. That is, the author
ステップS107では、著者距離計算手段2023は、文書d1と文書d2との著者距離authdisを、次の式(3)に従って求める。すなわち、著者距離計算手段2023は、組織グラフにおけるノードd1.authorとノードd2.authorとを結ぶ最短パスの長さとして計算する。なお、パスの長さは、パスの枝の数として数えられる。また、文書diと文書djとの著者が複数いる場合には、著者距離計算手段2023は、その全ての組み合わせについて、著者距離を計算することになる。 In step S107, the author distance calculation means 2023 obtains the author distance authdis between the document d1 and the document d2 according to the following equation (3). That is, the author distance calculation means 2023 has the nodes d1. author and node d2. It is calculated as the length of the shortest path connecting the author. Note that the length of the path is counted as the number of branches of the path. Further, when there are a plurality of authors of the document di and the document dj, the author distance calculation means 2023 calculates the author distance for all the combinations.
authdis(d1,d2)=shortestpath(d1.author,d2.author) ・・・ 式(3) authdis (d1, d2) = shortestpath (d1.author, d2.author) (3)
この求めた著者距離が短いほど、文書d1と文書d2との著者の繋がりが強く、同じ空間にいる可能性が高い。そのため、コントローラ100は、相手の文書を引用する可能性が高いと判断できる。
As the calculated author distance is shorter, the author's connection with the document d1 and the document d2 is stronger and the possibility of being in the same space is higher. Therefore, the
例えば、図2(a)に示す組織グラフの例では、「S統括」と「H部長」との距離は1であり、「S統括」と「K主任研究員」との距離は2である。従って、コントローラ100は、「S統括」と「H部長」の繋がりがより強く、「S統括」が「K主任研究員」の文書より「H部長]の文書を引用する可能性が高いと判断する。
For example, in the example of the organization graph shown in FIG. 2A, the distance between the “S supervisor” and the “H manager” is 1, and the distance between the “S supervisor” and the “K senior researcher” is two. Therefore, the
なお、著者距離計算手段2023は、2人の著者を繋げる最短パスを、グラフの最短路問題として求めることができる。例えば、著者距離計算手段2023は、著者間を繋げる最短パスを、Dijkstraのアルゴリズムを利用して求めることができる。なお、Dijkstraのアルゴリズムを利用して最短パスを求める方法は、例えば、文献B「石畑清、”アルゴリズムとデータ構造”、岩波書店、pp.260−270」に記載されている。 The author distance calculation means 2023 can determine the shortest path connecting two authors as the shortest path problem of the graph. For example, the author distance calculation means 2023 can obtain the shortest path connecting the authors using the Dijkstra algorithm. A method for obtaining the shortest path using Dijkstra's algorithm is described in, for example, Document B “Kei Ishihata,“ Algorithm and Data Structure ”, Iwanami Shoten, pp. 260-270”.
(3−3)類似度計算(ステップS108):類似度計算手段2021は、例えば、以下に示す式(4)を用いて、類似度を計算することができる。なお、式(4)は、ベクトル空間モデルに基づいてキーワードベクトルの余弦を計算する式である(文献A参照)。 (3-3) Similarity calculation (step S108): The similarity calculation means 2021 can calculate the similarity using, for example, the following equation (4). Expression (4) is an expression for calculating the cosine of the keyword vector based on the vector space model (see Document A).
ただし、式(4)において、パッセージp1に対するキーワードベクトルは(x1,x2,...,xn)であり、パッセージp2に対するキーワードベクトルは(y1,y12,...,ym)である。 However, in Equation (4), the keyword vector for the passage p1 is (x1, x2,..., Xn), and the keyword vector for the passage p2 is (y1, y12,..., Ym).
類似度計算手段2021は、引用度計算手段202を通して、文書データベース101から、パッセージp1とp2とのテキストをそれぞれ抽出する。なお、類似度計算手段2021は、引用度計算手段202を通さず、文書データベース101から直接パッセージp1とp2とのテキストを取得(抽出)してもよい。パッセージ間の類似度が高い場合には、パッセージ間に引用関係のある可能性が高い。なお、類似度計算手段2021は、文書以外のコンテンツである場合、相応する類似度の計算式を用意して類似度計算を行う。
The
以上のように、本実施形態によれば、コンテンツ間の作成時間の差と、コンテンツを作成した著者間の関係の度合いとを考慮して、コンテンツ間の引用関係を抽出するので、引用関係の誤検出を除外することができる。従って、コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とすることができる。 As described above, according to the present embodiment, the citation relationship between contents is extracted in consideration of the difference in creation time between contents and the degree of relationship between authors who created the content. False detection can be excluded. Accordingly, it is possible to extract the implicit citation relationship in the content and improve the accuracy of the implicit citation relationship extraction.
すなわち、本実施形態によれば、引用方向制約を用いた順序関係の推定手段と、時空間制約条件に基づいて、類似度、時間距離及び著者距離を用いた引用度の計算手段とを備える。引用度に基づいて引用関係の抽出が行えるので、コンテンツ中に明示されていない暗黙引用関係であっても抽出することができる。また、時間距離及び著者距離を考慮した抽出を行えるので、類似度ベースの手法を用いただけでは、実際には引用関係がないにもかかわらず引用関係があるものと誤検出されることを除外できる。つまり、引用関係の検出の精度を向上させることができる。 In other words, according to the present embodiment, there is provided an order relation estimation means using citation direction constraints, and a citation degree calculation means using similarity, time distance and author distance based on spatiotemporal constraint conditions. Since the citation relationship can be extracted based on the citation level, it is possible to extract even an implicit citation relationship that is not explicitly specified in the content. In addition, since extraction can be performed in consideration of time distance and author distance, it is possible to exclude false detection of a citation relationship even though there is no citation relationship by using a similarity-based method. . That is, the accuracy of citation relationship detection can be improved.
本実施形態に示した手法によって構築された暗黙引用関係抽出システムの仮想引用データベースと文書データベースとを参照することによって、以下のような利用方法が可能となる。例えば、文書データベース内の文書IDやファイルパスを参照して社内の文書を表示し、表示した文書に関連する文書を表示することができる。また、文書中のパッセージ間で自動的にハイパーリンクを生成し、相互に参照を行うことが可能となる。また、引用関係をWebのリンクと同様に見なせば、Webの検索と同様にリンク関係を用い、重要文書のランキングを行うことができる。 By referring to the virtual citation database and the document database of the implicit citation relationship extraction system constructed by the method shown in the present embodiment, the following usage method becomes possible. For example, an in-house document can be displayed with reference to a document ID or file path in the document database, and a document related to the displayed document can be displayed. In addition, it is possible to automatically generate hyperlinks between passages in a document and refer to each other. If the citation relationship is regarded in the same way as a Web link, the ranking of important documents can be performed using the link relationship in the same manner as the Web search.
さらに、引用関係のパッセージ単位でのノベルティ(新規度)やオーソリティ(非引用度)を求め、オリジナリティの高い文書を作成している著者を特定することによって業績評価を行うことができる。 Furthermore, it is possible to evaluate performance by determining novelty (novelty) and authority (non-quoting) in citation-related passage units, and identifying authors who have created highly original documents.
なお、ノベルティやオーソリティ、オリジナリティは、例えば以下のような式(5)を用いて求めることができる。 Note that novelty, authority, and originality can be obtained using, for example, the following equation (5).
O(p)=A(p)・N(p)
N(p)=1/(refin(p)+1)
A(p)=refout(p)
・・・ 式(5)
O (p) = A (p) · N (p)
N (p) = 1 / (refin (p) +1)
A (p) = refout (p)
... Formula (5)
ここで、式(5)において、O(p)はパッセージpのオリジナリティであり、N(p)はパッセージpのノベルティであり、A(p)はパッセージpのオーソリティである。また、refout(p)はパッセージpを引用するパッセージの数であり、refin(p)はパッセージpが引用しているパッセージの数である。例えば、著者毎の文書内のパッセージのオリジナリティを求め、平均値を求めることで、著者の作成する文書の平均のオリジナリティを求めることができる。 Here, in Equation (5), O (p) is the originality of the passage p, N (p) is the novelty of the passage p, and A (p) is the authority of the passage p. Further, refout (p) is the number of passages that quote the passage p, and refin (p) is the number of passages that the passage p cites. For example, by obtaining the originality of the passage in the document for each author and obtaining the average value, the average originality of the document created by the author can be obtained.
実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。図6は、第2の実施形態における暗黙引用関係発見システムの構成例を示すブロック図である。図6に示すように、本実施形態では、暗黙引用関係発見システムは、第1の実施形態で示した構成要素に加えて、文書登録監視手段301を含む点で、第1の実施形態と異なる。また、本実施形態では、順序関係推定手段201が、第1の実施形態で示した構成要素のうち、時間順序判断手段2012を含まない点で、第1の実施形態と異なる。
Embodiment 2. FIG.
Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 6 is a block diagram illustrating a configuration example of the implicit citation relationship discovery system in the second embodiment. As shown in FIG. 6, in this embodiment, the implicit citation relationship discovery system is different from the first embodiment in that it includes a document
すなわち、本実施形態では、暗黙引用関係発見システムは、コントローラ100と、文書データベース101と、組織構成表記憶手段102と、アクセスデータベース103と、仮想引用データベース104と、順序関係推定手段201と、引用度計算手段202と、文書監視手段301とを含む。以下、第1の実施形態と同様の構成要素については、図1に示したブロック図と同一の符号を付し、詳細な説明を省略する。
That is, in this embodiment, the implicit citation relationship discovery system includes the
文書登録監視手段301は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。文書監視手段301は、文書データベース101への新規文書の登録をモニタリングする機能を備える。
Specifically, the document
本実施形態では、コントローラ100は、文書監視手段301が検出する新規文書に対して、文書データベース101に格納されている各文書について、検出した新規文書より以前に登録された文書(既登録文書)との引用関係を判定する。この場合、コントローラ100は、順序関係推定手段201と引用度計算手段202とを用いて、新規文書と既登録文書との引用関係を判定する。そして、コントローラ100は、引用関係の判定結果を仮想引用データベース104に登録する。
In the present embodiment, the
順序関係推定手段201は、アクセス権判断手段2011を含む。順序関係推定手段201は、引用方向制約に基づいて、引用度の高い文書ペアの引用元と引用先との順序関係を推定する。すなわち、順序関係推定手段201は、文書監視手段301が検出した新規文書と、コントローラ100を通して文書データベース101から取得(抽出)した新規文書より以前に登録された既登録文書との引用の順序関係を推定する。この場合、順序関係推定手段201は、アクセス権判断手段2011を利用して、引用元文書へのアクセス権が必要である旨のアクセス権条件に基づいて推定する。つまり、順序関係推定手段201は、引用元の文書と引用先の文書とを推定して決める。
The order
引用度計算手段202は、パッセージの引用の可能性を示す引用度を計算する。 The citation degree calculation means 202 calculates a citation degree indicating the possibility of passage citation.
コントローラ100は、順序関係推定手段201と引用度計算手段202とを用いて、パッセージ間の引用関係を抽出して、仮想引用データベース104に格納させる。
The
次に、動作について説明する。図7は、第2の実施形態における暗黙引用関係発見システムがコンテンツ(電子文書中のパッセージ)間に含まれる暗黙引用関係を抽出する処理の一例を示す流れ図である。なお、本実施形態において、第1の実施形態と同様の処理を行うステップについては、詳細な説明を省略する。 Next, the operation will be described. FIG. 7 is a flowchart illustrating an example of a process for extracting an implicit citation relationship included between contents (passages in an electronic document) by the implicit citation relationship discovery system according to the second embodiment. In the present embodiment, detailed description of steps for performing the same processing as in the first embodiment is omitted.
本実施形態では、文書登録監視手段301は、文書データベース101の新規文書の登録を繰り返しモニタリングしている。例えば、文書登録監視手段301は、所定時間毎に、文書データベース101に新規文書が登録されたか否かを判断する(ステップS200)。新規文書が登録されたと判断すると、文書登録監視手段301は、新規文書が登録された旨を、コントローラ100に知らせる(例えば、通知情報を出力する)。新規文書の登録がなければ、文書登録監視手段301は、ステップS200のモニタリングの処理を継続する。
In this embodiment, the document
コントローラ100は、文書登録監視手段301が検出した新規文書dに対して、引用関係抽出の処理を開始する(ステップS201)。コントローラ100は、文書データベース101から、文書登録監視手段301が検出した新しい文書の登録の時刻より以前に作成された既登録文書の集合Dを取得(抽出)する(ステップS202)。そして、コントローラ100は、ステップS200で検出した個々の新規文書dに対して、以下の処理を行う。
The
コントローラ100は、抽出した文書集合Dに含まれる文書di(0<i<D.count)を対象に、以下に示すステップS204〜S211の処理を繰り返し実行する(ステップS203)。なお、iは文書の順番を示し、D.countは文書の総数を示している。
The
まず、コントローラ100は、順序関係推定手段201に、処理対象となる文書dと文書diとを渡す(出力する)。順序関係推定手段201は、アクセス権判断手段2011を用いて、文書dと文書diとの引用の順序関係を推定する(ステップS204)。そして、順序関係の推定結果をコントローラ100に返す(出力する)。
First, the
コントローラ100は、順序関係推定手段201から順序関係の推定結果を受け取る(入力する)。そして、コントローラ100は、入力した推定結果が文書dと文書diとに引用の順序関係があることを示しているか否かを判断する(ステップS205)。文書dと文書diとに引用の順序関係がないという推定結果であれば、コントローラ100は、そのままステップS212にジャンプ(移行)する。そして、ステップS204〜S212のループ処理を繰り返す。
The
文書dと文書diとに引用の順序関係があるという推定結果であれば、コントローラ100は、文書d及び文書diとともに、文書dと文書diとの引用の順序関係を引用度計算手段202に渡す(出力する)。
If the estimation result indicates that there is a citation order relationship between the document d and the document di, the
次いで、引用度計算手段202は、時間距離計算手段2022を用いて、文書dと文書diとの時間距離を計算する(ステップS206)。また、同時に、引用度計算手段202は、著者距離計算手段2023を用いて、文書dの著者と文書diの著者との著者距離を計算する(ステップS207)。さらに、同時に、引用度計算手段202は、類似度計算手段2021を用いて、文書d及び文書diに含まれるパッセージの類似度を計算する(ステップS208)。
Next, the citation
次いで、引用度計算手段202は、ステップS206で計算した時間距離と、ステップS207で計算した著者距離と、ステップS208で計算したパッセージ類似度とを用いて、引用度cを求める。この場合、引用度計算手段202は、統合計算手段2024を利用して、文書d及び文書diに含まれる2つのパッセージの組み合わせの引用度cを計算する(ステップS209)。そして、引用度計算手段202は、引用度cの計算結果を、コントローラ100に渡す(出力する)。
Next, the citation degree calculating means 202 obtains the citation degree c using the time distance calculated in step S206, the author distance calculated in step S207, and the passage similarity calculated in step S208. In this case, the citation
次いで、コントローラ100は、ステップS209で計算した引用度cの値を引用度計算手段202から受け取る(入力する)。そして、コントローラ100は、入力した引用度cと予め定義されている閾値との比較を行い、引用度cの値が所定の閾値より大きいか否かを判断する(ステップS210)。
Next, the
コントローラ100は、引用度cが所定の閾値より大きいと判断した場合には、文書dと文書diとに含まれるパッセージの組み合わせに引用関係があると判断する。そして、コントローラ100は、引用関係があると判断した判定結果を、仮想引用データベース104に登録する(ステップS211)。
If the
次いで、コントローラ100は、文書の順番を示す係数iに1加算(i=i+1)して、ステップS203に移行する。すなわち、次の文書diについて、ステップS204〜S211の処理を行う。
Next, the
その後、文書登録監視手段301が次の新規文書dを検出した場合には(ステップS213)、コントローラ100は、次の新規文書dを対象にステップS201〜S212と同様の処理を行う。
Thereafter, when the document
以下、第1の実施形態とは異なる処理を行うステップS200,S202,S204の処理について説明する。まず、ステップS200において、文書登録監視手段301は、文書データベース101をモニタリングし、新規文書の登録があるか否かを監視する。新規文書の登録を検出したら、文書登録監視手段301は、新規登録された新規文書群をコントローラ100に知らせる(例えば、通知情報を出力する)。そして、コントローラ100は、新規文書群と、文書データベース101に以前に登録された既登録文書との引用関係の抽出を行う。つまり、本実施形態では、暗黙引用関係発見システムは、新規文書の登録をトリガとして、引用関係の発見の処理を行う。文書登録監視手段301による新規文書登録の検出は、このトリガの役割を果たす。
Hereinafter, the processes of steps S200, S202, and S204 that perform processes different from those of the first embodiment will be described. First, in step S200, the document
ステップS202において、コントローラ100は、文書データベース101にアクセスして、ステップS200で検出した新規文書より以前に登録された既登録文書の集合を、文書データベース101から取得(抽出)する。本実施形態では、文書データベース101への登録時刻が文書の作成時刻を示している。そのため、コントローラ100は、文書データベース101が格納する文書の作成時刻をチェックすることによって、新規文書より以前に登録された既登録文書集合を取得(抽出)することができる。
In step S202, the
図8は、第2の実施形態におけるステップS204の順序関係の推定処理の一例を示す流れ図である。本実施形態では、文書集合Dに含まれる文書diが新規文書dより以前に作成されていることが既知であるため、順序関係推定手段201は、時間条件の検査の処理を行う必要がない。そのため、順序関係推定手段201は、アクセス権判断手段2011を用いて、文書データベース101から取得(抽出)した著者情報とアクセスデータベース103から取得(抽出)したアクセス権条件とに基づいて、以下に示す手順に従って、文書dと文書diとの引用順序を決める。なお、アクセス権判断手段2011は、順序関係推定手段201を通さず、文書データベース101とアクセスデータベース103とに直接アクセスするようにしてもよい。
FIG. 8 is a flowchart illustrating an example of the order relationship estimation processing in step S204 in the second embodiment. In this embodiment, since it is known that the document di included in the document set D is created before the new document d, the order
順序関係推定手段201は、文書diの著者が文書dにアクセスできるか否かを判断するとともに、文書dの著者が文書diにアクセスできるか否かを判断する。文書dの著者が文書diにアクセスできるが、文書diの著者が文書dにアクセスできないと判断した場合には(ステップS451)、順序関係推定手段201は、文書dが引用先の文書であり、文書diが引用元の文書であると判断する(ステップS452)。
The order
また、文書diの著者が文書dにアクセスできるが、文書dの著者が文書diにアクセスできないと判断した場合には(ステップS453)、順序関係推定手段201は、文書diが引用先の文書であり、文書dが引用元の文書であると判断する(ステップS454)。
If it is determined that the author of the document di can access the document d, but the author of the document d cannot access the document di (step S453), the order
また、文書dの著者が文書diにアクセスでき、かつ、文書diの著者が文書dにアクセスできると判断した場合には(ステップS455のY)、順序関係推定手段201は、文書dが引用先の文書であり、文書diが引用元の文書であると判断する(ステップS456)。
If it is determined that the author of the document d can access the document di and the author of the document di can access the document d (Y in step S455), the order
また、文書dの著者が文書diにアクセスできず、かつ、文書diの著者が文書dにアクセスできないと判断した場合には(ステップS455のN)、順序関係推定手段201は、文書diと文書dには引用関係がないと判断する(ステップS457)。
When it is determined that the author of the document d cannot access the document di and the author of the document di cannot access the document d (N in step S455), the order
そして、ステップS205に移行し、順序関係推定手段201は、コントローラ100に推定結果を渡す(出力する)。
Then, the process proceeds to step S <b> 205, and the order
以上のように、本実施形態によれば、順序関係推定手段201は、文書登録監視手段301が検出した新規文書より以前に登録された既登録文書のみを取得して処理すれば、文書間の引用関係を推定することができる。従って、引用の順序関係の推定処理において、時間条件の検査の処理を省略することができ、処理負担の軽減を図ることができる。また、本実施形態によれば、既登録文書に対しての処理のみを行えばよいので、処理の対象となる文書数を削減することができる。
As described above, according to the present embodiment, the order
次に、本発明による引用関係抽出システムの最小構成について説明する。図9は、引用関係抽出システムの最小の構成例を示すブロック図である。図9に示すように、引用関係抽出システムは、最小の構成要素として、文書データベース101と、引用度計算手段202とを含む。
Next, the minimum configuration of the citation relationship extraction system according to the present invention will be described. FIG. 9 is a block diagram illustrating a minimum configuration example of the citation relationship extraction system. As shown in FIG. 9, the citation relationship extraction system includes a
引用度計算手段202は、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する機能を備える。また、コントローラ100は、引用度計算手段202が算出した引用度に基づいて、コンテンツ間の引用関係を抽出する機能を備える。
The citation level calculation means 202 indicates the possibility that citations have been made between contents based on the difference in creation, update or reference time between contents and the degree of relationship between authors who created, updated or referred to the contents. A function for calculating the degree of citation indicating the degree is provided. In addition, the
図9に示す最小構成の引用関係抽出システムによれば、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとを考慮して、コンテンツ間の引用関係を抽出するので、引用関係の誤検出を除外することができる。従って、コンテンツ中の暗黙引用関係の抽出を可能とするとともに、暗黙引用関係抽出の精度向上を可能とすることができる。 According to the citation relation extraction system with the minimum configuration shown in FIG. 9, the difference between creation, update or reference time between contents and the degree of relation between authors who created, updated or referred to the contents are considered. Since the citation relationship is extracted, erroneous detection of the citation relationship can be excluded. Accordingly, it is possible to extract the implicit citation relationship in the content and improve the accuracy of the implicit citation relationship extraction.
なお、上記の各実施形態では、以下の(1)〜(8)に示すような引用関係抽出システム(暗黙引用関係発見システム)の特徴的構成が示されている。 In each of the above embodiments, the characteristic configuration of the citation relationship extraction system (implicit citation relationship discovery system) as shown in the following (1) to (8) is shown.
(1)引用関係抽出システムは、コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出手段(例えば、引用度計算手段202によって実現される)と、引用度算出手段が算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出手段(例えば、コントローラ100によって実現される)とを備えたことを特徴とする。 (1) In the citation relationship extraction system, citations can be made between contents based on the difference in creation, update or reference time between contents and the degree of relationship between authors who created, updated or referenced the contents. The citation relationship between the contents is extracted based on the citation degree calculated by the citation degree calculating means (for example, realized by the citation degree calculating means 202) and the citation degree calculated by the citation degree calculating means. Citation relationship extraction means (for example, realized by the controller 100) is provided.
(2)引用関係抽出システムは、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する順序関係推定手段(例えば、順序関係推定手段201によって実現される)を備え、引用関係抽出手段は、引用度算出手段が算出した引用度及び順序関係推定手段が推定した順序関係に基づいて、コンテンツ間の引用関係を抽出するように構成されていてもよい。 (2) The citation relation extraction system includes order relation estimation means (for example, realized by the order relation estimation means 201) for estimating the order relation between content that can be a citation source and content that can be a citation destination. The means may be configured to extract a citation relation between contents based on the citation degree calculated by the citation degree calculation means and the order relation estimated by the order relation estimation means.
(3)引用関係抽出システムにおいて、引用度算出手段は、コンテンツ間の作成、更新又は参照時間の差を示す時間距離を算出する時間距離算出手段(例えば、時間距離計算手段2022によって実現される)と、時間距離算出手段が算出した時間距離に基づいて引用度を算出する算出手段(例えば、総合計算手段2024によって実現される)とを含むように構成されていてもよい。 (3) In the citation relationship extraction system, the citation degree calculating means calculates a time distance indicating a difference in creation, update or reference time between contents (for example, realized by the time distance calculating means 2022). And a calculation unit (for example, realized by the total calculation unit 2024) that calculates the citation degree based on the time distance calculated by the time distance calculation unit.
(4)引用関係抽出システムにおいて、引用度算出手段は、コンテンツを作成、更新又は参照した著者間の関係の度合いを示す著者距離を算出する著者距離算出手段(例えば、著者距離計算手段2023によって実現される)と、著者距離算出手段が算出した著者距離に基づいて引用度を算出する算出手段(例えば、総合計算手段2024によって実現される)とを含むように構成されていてもよい。 (4) In the citation relation extraction system, the citation degree calculation means is realized by an author distance calculation means (for example, an author distance calculation means 2023) that calculates an author distance indicating a degree of relation between authors who created, updated, or referred to content. And a calculation means (for example, realized by the total calculation means 2024) for calculating the citation degree based on the author distance calculated by the author distance calculation means.
(5)引用関係抽出システムにおいて、引用度算出手段は、コンテンツ間の類似度を算出する類似度算出手段(例えば、類似度計算手段2021によって実現される)を含み、算出手段は、時間距離算出手段が算出した時間距離と、著者距離算出手段が算出した著者距離と、類似度算出手段が算出した類似度とを統合した引用度を算出するように構成されていてもよい。 (5) In the citation relation extraction system, the citation degree calculating means includes a similarity degree calculating means (for example, realized by the similarity degree calculating means 2021) for calculating a similarity degree between contents, and the calculating means calculates a time distance. The citation degree may be calculated by integrating the time distance calculated by the means, the author distance calculated by the author distance calculation means, and the similarity calculated by the similarity calculation means.
(6)引用関係抽出システムにおいて、順序関係推定手段は、コンテンツに設定されたアクセス権のレベルと、著者に設定されたアクセス権のレベルとに基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定するアクセス権順序推定手段(例えば、アクセス権判断手段2011によって実現される)を含み、アクセス権順序推定手段は、著者に設定されたアクセス権のレベルがコンテンツに設定されたアクセス権のレベル以上であると判断すると、当該コンテンツを引用元となりうるコンテンツと推定するように構成されていてもよい。 (6) In the citation relationship extraction system, the order relationship estimation means can be a content that can be a citation source and a citation destination based on the level of access right set for the content and the level of access right set for the author. Including an access right order estimating unit (e.g., realized by the access right determining unit 2011) for estimating the order relation with the content, and the access right order estimating unit is configured such that the level of the access right set for the author is set for the content. If it is determined that the access right level or higher, the content may be estimated as content that can be cited.
(7)引用関係抽出システムにおいて、順序関係推定手段は、コンテンツの作成、更新又は参照時間に基づいて、引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する時間順序推定手段(例えば、時間順序判断手段2012によって実現される)を含み、時間順序推定手段は、作成、更新又は参照時間が古いコンテンツを引用元となりうるコンテンツと推定し、作成、更新又は参照時間が新しいコンテンツを引用先となりうるコンテンツと推定するように構成されていてもよい。 (7) In the citation relation extraction system, the order relation estimation means estimates time order estimation means for estimating the order relation between content that can be a citation source and content that can be a citation destination based on the creation, update, or reference time of the content. For example, the time order estimation means estimates the content that has been created, updated, or referred to as the content that can be cited, and the content that has the new creation, update, or reference time. The content may be estimated as a content that can be cited.
(8)引用関係抽出システムにおいて、時間距離算出手段は、コンテンツタイプに応じたコンテンツの作成、更新又は参照時間の差を正規化するための正規化パラメータ(例えば、単位時間距離に換算するためのパラメータ)を用いて、正規化した時間距離を算出するように構成されていてもよい。 (8) In the citation relationship extraction system, the time distance calculation means is a normalization parameter (for example, for converting to a unit time distance) for normalizing a difference in content creation, update or reference time according to the content type. The parameter may be used to calculate a normalized time distance.
本発明は、社内コンテンツを体系化する情報処理装置や、社内コンテンツの検索装置、社内の業績評価を支援する装置といった用途に適用できる。また、コンテンツの再利用関係を発見して原著と出典とを明確にし著作権保護を支援するための装置といった用途にも適用できる。 The present invention can be applied to uses such as an information processing apparatus that organizes in-house content, an in-house content search apparatus, and an in-house performance evaluation support apparatus. It can also be applied to uses such as a device for discovering the reuse relationship of content, clarifying the original and the source, and supporting copyright protection.
100 コントローラ
101 文書データベース
102 組織構成表記憶手段
103 アクセスデータベース
104 仮想引用データベース
201 順序関係の推定手段
2011 アクセス権判断手段
2012 時間順序判断手段
202 引用度計算手段
2021 類似度計算手段
2022 時間距離計算手段
2023 著者距離計算手段
2024 統合計算手段
301 文書登録監視手段
100
Claims (18)
前記引用度算出手段が算出した引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出手段とを
備えたことを特徴とする引用関係抽出システム。 Based on the difference in creation, update, or reference time between contents and the degree of relationship between authors who created, updated, or referenced the contents, the degree of citation that indicates the likelihood of citations between the contents was calculated A citation level calculating means to
A citation relationship extraction system comprising: citation relationship extraction means for extracting a citation relationship between contents based on the citation level calculated by the citation level calculation means.
引用関係抽出手段は、引用度算出手段が算出した引用度及び前記順序関係推定手段が推定した順序関係に基づいて、コンテンツ間の引用関係を抽出する
請求項1記載の引用関係抽出システム。 An order relationship estimating means for estimating an order relationship between content that can be cited and content that can be cited;
The citation relationship extraction system according to claim 1, wherein the citation relationship extraction unit extracts a citation relationship between contents based on the citation degree calculated by the citation degree calculation unit and the order relationship estimated by the order relationship estimation unit.
コンテンツ間の作成、更新又は参照時間の差を示す時間距離を算出する時間距離算出手段と、
前記時間距離算出手段が算出した時間距離に基づいて引用度を算出する算出手段とを含む
請求項1又は請求項2記載の引用関係抽出システム。 Citation level calculation means
A time distance calculating means for calculating a time distance indicating a difference in creation, update or reference time between contents;
The citation relationship extraction system according to claim 1, further comprising a calculation unit that calculates a citation degree based on the time distance calculated by the time distance calculation unit.
コンテンツを作成、更新又は参照した著者間の関係の度合いを示す著者距離を算出する著者距離算出手段と、
前記著者距離算出手段が算出した著者距離に基づいて引用度を算出する算出手段とを含む
請求項1から請求項3のうちのいずれか1項に記載の引用関係抽出システム。 Citation level calculation means
Author distance calculation means for calculating the author distance indicating the degree of relationship between the authors who created, updated or referred to the content;
The citation relation extraction system according to any one of claims 1 to 3, further comprising a calculation unit that calculates a citation degree based on the author distance calculated by the author distance calculation unit.
算出手段は、時間距離算出手段が算出した時間距離と、著者距離算出手段が算出した著者距離と、前記類似度算出手段が算出した類似度とを統合した引用度を算出する
請求項3又は請求項4記載のの引用関係抽出システム。 The citation degree calculating means includes a similarity calculating means for calculating the similarity between contents,
The calculation means calculates a citation degree obtained by integrating the time distance calculated by the time distance calculation means, the author distance calculated by the author distance calculation means, and the similarity calculated by the similarity calculation means. Item 5. The citation relationship extraction system according to item 4.
前記アクセス権順序推定手段は、著者に設定されたアクセス権のレベルがコンテンツに設定されたアクセス権のレベル以上であると判断すると、当該コンテンツを引用元となりうるコンテンツと推定する
請求項2記載の引用関係抽出システム。 The order relation estimation means estimates the order relation between the content that can be cited and the content that can be cited based on the level of access right set for the content and the level of access right set for the author. A right order estimation means,
3. The access right order estimating unit estimates the content as a content that can be cited from the content when the access right level set for the author is determined to be equal to or higher than the access right level set for the content. Citation relationship extraction system.
前記時間順序推定手段は、作成、更新又は参照時間が古いコンテンツを引用元となりうるコンテンツと推定し、作成、更新又は参照時間が新しいコンテンツを引用先となりうるコンテンツと推定する
請求項2又は請求項6記載の引用関係抽出システム。 The order relation estimation means includes time order estimation means for estimating an order relation between content that can be a citation source and content that can be a citation destination based on the creation, update, or reference time of the content,
The time order estimation means estimates content that has an old creation, update, or reference time as content that can be cited, and estimates content that has a new creation, update, or reference time as content that can be cited. 6. The citation relationship extraction system according to 6.
算出した前記引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出ステップとを
含むことを特徴とする引用関係抽出方法。 Based on the difference in creation / update / reference time between contents and the degree of relationship between authors who created / updated / referenced the content, the degree of citation indicating the possibility of citation between the contents was calculated. Quoting level calculating step,
A citation relationship extraction method, comprising: a citation relationship extraction step for extracting a citation relationship between contents based on the calculated citation degree.
引用関係抽出ステップで、算出した引用度及び推定した前記順序関係に基づいて、コンテンツ間の引用関係を抽出する
請求項9記載の引用関係抽出方法。 Including an order relation estimation step for estimating an order relation between content that can be cited and content that can be cited;
The citation relationship extraction method according to claim 9, wherein in the citation relationship extraction step, a citation relationship between contents is extracted based on the calculated citation degree and the estimated order relationship.
コンテンツ間の作成、更新又は参照時間の差を示す時間距離を算出し、
算出した前記時間距離に基づいて引用度を算出する
請求項9又は請求項10記載の引用関係抽出方法。 In the citation level calculation step,
Calculate the time distance indicating the difference in creation, update or reference time between content,
The citation relationship extraction method according to claim 9 or 10, wherein a citation degree is calculated based on the calculated time distance.
コンテンツを作成、更新又は参照した著者間の関係の度合いを示す著者距離を算出し、
算出した前記著者距離に基づいて引用度を算出する
請求項9から請求項11のうちのいずれか1項に記載の引用関係抽出方法。 In the citation level calculation step,
Calculate the author distance that indicates the degree of relationship between authors who created, updated, or referenced content,
The citation relationship extraction method according to any one of claims 9 to 11, wherein a citation degree is calculated based on the calculated author distance.
コンテンツ間の類似度を算出し、
算出した時間距離、著者距離及び前記類似度を統合した引用度を算出する
請求項11又は請求項12記載のの引用関係抽出方法。 In the citation level calculation step,
Calculate the similarity between content,
The citation relationship extraction method according to claim 11, wherein a citation degree is calculated by integrating the calculated time distance, author distance, and similarity.
コンテンツ間の作成、更新又は参照時間の差と、コンテンツを作成、更新又は参照した著者間の関係の度合いとに基づいて、コンテンツ間で引用が行われた可能性の度合いを示す引用度を算出する引用度算出処理と、
算出した前記引用度に基づいて、コンテンツ間の引用関係を抽出する引用関係抽出処理とを
実行させるための引用関係抽出用プログラム。 On the computer,
Based on the difference in creation, update, or reference time between contents and the degree of relationship between authors who created, updated, or referenced the contents, the degree of citation that indicates the likelihood of citations between the contents was calculated Citation level calculation process to
A citation relationship extraction program for executing a citation relationship extraction process for extracting a citation relationship between contents based on the calculated citation level.
引用元となりうるコンテンツと引用先となりうるコンテンツとの順序関係を推定する順序関係推定処理を実行させ、
引用関係抽出処理で、算出した引用度及び推定した前記順序関係に基づいて、コンテンツ間の引用関係を抽出する処理を実行させる
請求項17記載の引用関係抽出用プログラム。 On the computer,
Execute an order relationship estimation process that estimates the order relationship between content that can be cited and content that can be cited.
The citation relationship extraction program according to claim 17, wherein the citation relationship extraction process executes a process of extracting a citation relationship between contents based on the calculated citation degree and the estimated order relationship.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007326365A JP2009151373A (en) | 2007-12-18 | 2007-12-18 | Citation relation extraction system, citation relation extraction method, and citation relation extracting program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007326365A JP2009151373A (en) | 2007-12-18 | 2007-12-18 | Citation relation extraction system, citation relation extraction method, and citation relation extracting program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009151373A true JP2009151373A (en) | 2009-07-09 |
Family
ID=40920497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007326365A Pending JP2009151373A (en) | 2007-12-18 | 2007-12-18 | Citation relation extraction system, citation relation extraction method, and citation relation extracting program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009151373A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011060228A (en) * | 2009-09-11 | 2011-03-24 | Qinghua Univ | Webpage correlation evaluation device for detecting information spreading |
JP2012133578A (en) * | 2010-12-21 | 2012-07-12 | Yahoo Japan Corp | Web page evaluation device and web page evaluation method |
JP2013529332A (en) * | 2010-04-30 | 2013-07-18 | マイクロソフト コーポレーション | Prioritize resources based on user activity |
JP2013174988A (en) * | 2012-02-24 | 2013-09-05 | Hitachi Ltd | Similar document retrieval support apparatus and similar document retrieval support program |
US9477574B2 (en) | 2011-05-12 | 2016-10-25 | Microsoft Technology Licensing, Llc | Collection of intranet activity data |
US9697500B2 (en) | 2010-05-04 | 2017-07-04 | Microsoft Technology Licensing, Llc | Presentation of information describing user activities with regard to resources |
WO2018117342A1 (en) * | 2016-12-21 | 2018-06-28 | 한국과학기술정보연구원 | Method for generating technology cycle time index database on basis of backward citation and method for calculating expected profit period of registered patent using same |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08161214A (en) * | 1994-10-06 | 1996-06-21 | Ricoh Co Ltd | Data access control system for electronic conference |
JPH1153387A (en) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | Method and system for correlating document |
JP2004005063A (en) * | 2002-05-30 | 2004-01-08 | Ricoh Co Ltd | Document processor |
JP2005122295A (en) * | 2003-10-14 | 2005-05-12 | Fujitsu Ltd | Relationship figure creation program, relationship figure creation method, and relationship figure generation device |
-
2007
- 2007-12-18 JP JP2007326365A patent/JP2009151373A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08161214A (en) * | 1994-10-06 | 1996-06-21 | Ricoh Co Ltd | Data access control system for electronic conference |
JPH1153387A (en) * | 1997-08-06 | 1999-02-26 | Ibm Japan Ltd | Method and system for correlating document |
JP2004005063A (en) * | 2002-05-30 | 2004-01-08 | Ricoh Co Ltd | Document processor |
JP2005122295A (en) * | 2003-10-14 | 2005-05-12 | Fujitsu Ltd | Relationship figure creation program, relationship figure creation method, and relationship figure generation device |
Non-Patent Citations (1)
Title |
---|
JPN6009049688; 松尾豊、外3名: 'Webからの人間関係ネットワークの抽出と情報支援' 第17回人工知能学会全国大会[online] , 20030625, p.1-4 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011060228A (en) * | 2009-09-11 | 2011-03-24 | Qinghua Univ | Webpage correlation evaluation device for detecting information spreading |
JP2013529332A (en) * | 2010-04-30 | 2013-07-18 | マイクロソフト コーポレーション | Prioritize resources based on user activity |
US9697500B2 (en) | 2010-05-04 | 2017-07-04 | Microsoft Technology Licensing, Llc | Presentation of information describing user activities with regard to resources |
JP2012133578A (en) * | 2010-12-21 | 2012-07-12 | Yahoo Japan Corp | Web page evaluation device and web page evaluation method |
US9477574B2 (en) | 2011-05-12 | 2016-10-25 | Microsoft Technology Licensing, Llc | Collection of intranet activity data |
JP2013174988A (en) * | 2012-02-24 | 2013-09-05 | Hitachi Ltd | Similar document retrieval support apparatus and similar document retrieval support program |
WO2018117342A1 (en) * | 2016-12-21 | 2018-06-28 | 한국과학기술정보연구원 | Method for generating technology cycle time index database on basis of backward citation and method for calculating expected profit period of registered patent using same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng | Prediction of the subcellular location of prokaryotic proteins based on a new representation of the amino acid composition | |
Gómez et al. | Centrality in primate–parasite networks reveals the potential for the transmission of emerging infectious diseases to humans | |
JP2009151373A (en) | Citation relation extraction system, citation relation extraction method, and citation relation extracting program | |
US20140317756A1 (en) | Anonymization apparatus, anonymization method, and computer program | |
US9667644B2 (en) | Risk identification | |
JP2009151760A (en) | Method and system for calculating competitiveness metric between objects | |
US20130311507A1 (en) | Representing Incomplete and Uncertain Information in Graph Data | |
US9514176B2 (en) | Database update notification method | |
WO2019148712A1 (en) | Phishing website detection method, device, computer equipment and storage medium | |
JP2020201935A (en) | API access based on privacy reliability | |
CN104252447A (en) | File behavior analysis method and device | |
CN113836314A (en) | Knowledge graph construction method, device, equipment and storage medium | |
JP5177223B2 (en) | Information processing apparatus, information processing program and method | |
Maag et al. | Graph anonymization using machine learning | |
JP2012003603A (en) | Information retrieval system | |
EP4002152A1 (en) | Data tagging and synchronisation system | |
JP7441157B2 (en) | Data management methods, computer programs and data management systems | |
KR101607771B1 (en) | Method and apparatus for identifying author | |
JP2009199385A (en) | Information management unit | |
JP2005078334A (en) | Retrieval method in document managing system | |
TWI484359B (en) | Method and system for providing article information | |
Xu et al. | Optimal two‐phase sampling design for comparing accuracies of two binary classification rules | |
KR101923996B1 (en) | Detection system of cyber information leaking action | |
CN110781309A (en) | Entity parallel relation similarity calculation method based on pattern matching | |
WO2013150633A1 (en) | Document processing system and document processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121115 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130108 |