JP2008217637A - 情報分析装置及びプログラム - Google Patents

情報分析装置及びプログラム Download PDF

Info

Publication number
JP2008217637A
JP2008217637A JP2007056723A JP2007056723A JP2008217637A JP 2008217637 A JP2008217637 A JP 2008217637A JP 2007056723 A JP2007056723 A JP 2007056723A JP 2007056723 A JP2007056723 A JP 2007056723A JP 2008217637 A JP2008217637 A JP 2008217637A
Authority
JP
Japan
Prior art keywords
relationship
weight
virtual
information
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007056723A
Other languages
English (en)
Inventor
Hiroshi Okamoto
洋 岡本
Yukihiro Tsuboshita
幸寛 坪下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007056723A priority Critical patent/JP2008217637A/ja
Priority to US11/907,604 priority patent/US20080222137A1/en
Publication of JP2008217637A publication Critical patent/JP2008217637A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対象となるデータ全体のランク付け条件の公平性を向上できる情報分析装置を提供する。
【解決手段】文献の引用などといった有向の関係と関係重みとが設定された複数の対象物に係る情報について、当該対象物の対の間に仮想の双方向の関係を設定し、当該仮想の関係についての重みを、予め設定されていた関係重みと異ならせて設定する。そして当該関係に基づいて、対象物について予め定められた情報を生成する処理を実行する。
【選択図】図1

Description

本発明は、情報分析装置及びプログラムに関する。
文書群等のデータ群において、特許における引用や、学術論文における引用など相互の引用関係が規定されている場合に、当該引用関係を参照して、個々のデータについて定義した活性量を伝播させ、データをランク付けする技術が知られている(非特許文献1など)。また、ウェブページのリンクの関係に基づいて、仮想的なランダムウォークを行い、その結果に基づいてランク付けを行う方法もある(非特許文献2)。
Allison Woodruff, Rich Gossweiler, James Pitkow, Ed H. Chi, andStuart K. Card, "Enhancing a Digital Book with a ReadingRecommender", Proceedings of the CHI 2000 conference on Human Factors inComputing Systems, (153-160). The Hague, The Netherlands. Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd,"The PageRank Citation Ranking: Bringing Order to the Web", 1998
しかしながら、文書の引用関係などのように、時系列の関係から、必ず時間的に後に発表された文献が先行する文献を引用している場合がある。このような関係は常に一方向の関係となる。そこでこの関係に従って、活性伝播や、仮想的ランダムウォークなどの方法によってデータランク付け処理を実行すると、活性量やランダムウォークが定まった方向にしか流れず、したがって例えば、蓄積されている文書のうち、作成日より新しいものほど、当該文書を引用する文書が蓄積されていないことにより、活性量を受け入れることができない。このように当該関係の方向(例えば時間の向き)によって各データ間の公平性に欠ける結果になってしまう。
本発明は上記実情に鑑みて為されたもので、関係に基づくランク付け処理において、本発明を実施しない場合に比して対象となるデータ全体のランク付け条件の公平性を向上できる情報分析装置及びプログラムを提供することを、その目的の一つとする。
請求項1に記載の発明は、情報分析装置であって、有向の関係と関係重みとが設定された複数の対象物に係る情報を取得する手段と、前記取得した情報により、前記対象物の対の間に仮想の双方向の関係を設定する手段と、前記仮想の関係についての重みを、予め設定されていた前記関係重みと異ならせて設定する手段と、前記関係に基づいて、前記対象物について予め定められた情報を生成する処理を実行する手段と、を含むこととしている。
請求項2記載の発明は、情報分析装置であって、有向の関係と関係重みとが設定された複数の対象物に係る情報を取得する手段と、前記取得した情報により、前記複数の対象物に含まれる対象物の対の間に設定された有向の関係が単方向であるときに、当該関係の方向とは反対の仮想関係を設定して双方向の関係を設定する手段と、前記仮想関係についての重みを、当該仮想関係の元となった単方向の関係重みと異ならせて設定する手段と、前記関係に基づいて、前記対象物について予め定められた情報を生成する処理を実行する手段と、を含むこととしている。
請求項3に記載の発明は、情報分析装置であって、有向の引用関係と関係重みとが設定された複数の文書に係る情報を取得する手段と、前記取得した情報により、前記対象物の対の間に仮想の双方向の引用関係を設定する手段と、前記仮想の引用関係についての重みを、予め設定されていた前記関係重みと異ならせて設定する手段と、前記関係に基づいて、前記文書について予め定められた情報を生成する処理を実行する手段と、を含むこととしている。
また請求項4記載の発明は、プログラムであって、コンピュータを、有向の関係と関係重みとが設定された複数の対象物に係る情報を取得する手段と、前記取得した情報により、前記対象物の対の間に仮想の双方向の関係を設定する手段と、前記仮想の関係についての重みを、予め設定されていた前記関係重みと異ならせて設定する手段と、前記関係に基づいて、前記対象物について予め定められた情報を生成する処理を実行する手段と、して動作させることとしている。
本発明によると、双方向でないリンクがあるときに、当該リンクを仮想的に双方向に設定する。これによって、関係に基づくランク付け処理において、本発明を実施しない場合に比して対象となるデータ全体のランク付け条件の公平性を向上できる。
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報分析装置は、コンピュータ等によってソフトウエア的に実現される。本実施の形態の情報分析装置は、図1に例示するように、制御部11と、記憶部12と、入力部13と、出力部14とを含んで構成される。
ここに制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態の制御部11は、例えば入力部13を介してデータベース(不図示)などから予め有向の関係と関係重みとが設定された複数の対象物に係る情報を取得する。そして当該取得した情報により、複数の対象物に含まれる対象物の対の間に設定された有向の関係が双方向でないときに、当該対象物の対の間に仮想の関係を設定して双方向の関係を設定する。このとき、この仮想の関係についての重みを、当該仮想関係の元となった単方向の関係重みと異ならせて設定する。そして当該関係に基づいて、対象物について予め定められた情報を生成する処理を実行する。この制御部11の具体的な処理の内容については、後に詳しく述べる。
記憶部12は、RAM(Random Access Memory)などのメモリ素子や、ハードディスクなどを含んで構成されている。この記憶部12には、制御部11が実行するプログラムが保持される。このプログラムは、光ディスク媒体や、磁気媒体など、各種のコンピュータ可読な記録媒体に格納された状態で提供され、この記憶部12に複写等されて格納されたものであってもよい。また、この記憶部12は、制御部11のワークメモリとしても動作する。
入力部13は、例えばデータベースなどから情報を受け入れる通信手段であってもよい。また、この入力部13は、利用者の指示操作を受け入れるキーボードや、マウスなどを含んでも構わない。入力部13は、入力された情報を制御部11に出力する。
出力部14は、制御部11から入力される指示に従い、情報を外部に出力する。例えば、この出力部14は、ディスプレイなどを含んで、情報を表示出力する。また、この出力部14は、プリンタなどを含んで、情報を印刷出力することとしてもよい。
次に制御部11による具体的な処理の内容について説明する。以下では、説明のため、本実施の形態の情報分析装置による分析の対象物は、文書であるとし、各文書には、向きのある(有向の)関係として、引用関係が設定されているものとする。この場合、どの文書も、その作成日より後の文書を引用することはないので、引用関係は、時系列的に必ず単方向となる。
なお、以下ではこの引用関係を表す情報として、引用ネットワークを表す行列Aを次のように定義する。すなわち、この行列Aは、処理の対象となる文書の数をNとして、N×Nの行列として規定される。また文書は、生成された順に1,2,3…と番号付けされているものとする。
そして文書jが文書iを引用しているとすると、
Aij=w
とする。ここでwは、0以外の値であり、文書の引用関係に対する重みの値(関係重み)である。具体的な例として、一律にw=1としてもよい。また文書jが文書iを引用していない場合は、
Aij=0
とする。自己自身を引用する文書はないとすると、
Aii=0
である。
この行列Aを用いると、文書jが引用している(文書jにより引用されている)文書の数(アウトリンク数)kout(j)は、
Figure 2008217637
となる。
そして文書jを引用している(文書jが引用されている)文書の数(インリンク数)kin(j)は、
Figure 2008217637
となる。
制御部11は、引用関係のない文書を分析の対象から除外し、この行列Aを生成する。従って、アウトリンク数もインリンク数も0である文書がないようになっている。つまり、
Figure 2008217637
または
Figure 2008217637
である。
制御部11は、この行列からAij≠0かつ、Aji=0なるi,jの組み合わせを見出す。つまり、対象物の対の間に設定された有向の関係が単方向である組み合わせを見出す。既に述べたように、ここでの例では分析の対象物が文書であり、その引用関係に基づく処理を行うこととしているので、ある文書jが他の文書iを引用しているとき、当該文書jが文書iによって引用されることはない。つまり当初は、
Aij≠0であれば、かならずAji=0
となっている。
制御部11は、ここで見出したi,jの組み合わせ(Aij≠0かつ、Aji=0なるi,jの組み合わせ)につき、本来は存在しないiからjへのリンクを、仮想的に設定、すなわち、iとjとの関係を、双方化する。
制御部11は、この仮想の関係についての重みを、以下のように設定する。文書iのアウトリンク数が0でない(他を引用している)場合、すなわち、ここで仮想的な双方向化のために設定した引用関係を含め、文書iが引用している文書の重みの総計が所定値m(ただしm>0)となるように補正する。つまり、
Figure 2008217637
当該文書iについてのアウトリンク数が0である(他を引用していない)場合(このときにはインリンク数は0でない)には、
Figure 2008217637
として、補正した行列Aを生成する。ここで補正したAijの値にはバーを付して、
Figure 2008217637
と表している。
制御部11は、こうして補正した後の行列Aに基づき、活性伝播、または連続不動点アトラクター力学、仮想的ランダムウォーク等、動的な手法を用いて、各文書のランクを演算する。ここで、動的な手法には、例えば、特開2006−133844号公報、特開2006−243804号公報、特願2006−060124の公開公報等に開示のものなどがある。また、(1)式において、引用している文書の重みの総計が所定値mとなるようにする操作は、アウトリンク数をmに補正することに他ならない。この操作は任意の文書jに対して行われるものである。個々の文書は実際には様々な本数の他の文献を引用しているが、上記の操作は、これを一律にm本に正規化するということに相当している。以上は、活性伝播、または連続不動点アトラクター力学、仮想的ランダムウォーク等、動的な手法を用いて、各文書のランクを演算する際に、各文書のランク付けが、各文書が他の文献を引用するその本数(多いからといって、価値が高いとは限らず、また、少ないからといって、価値が低いわけではない)によってではなく、それがどれくらい引用されているかということが主たる要因として定められることとなる。
なお、この重みの設定の処理は、「jからiへの引用はあるが、iからjへの引用はない」という場合に限らず行うこともできる。
なお、ここまでの説明では、元々単方向の関係が設定されている文書の対について、当該単方向とは逆方向の仮想的な関係を設定する場合を例として述べたが、本実施の形態はこれに限られない。すなわち個々の文書について、他のすべての文書に対して仮想的な関係を設定してもよい。この場合、既に関係が設定されているか否かにかかわらず、仮想的な関係を設定してもよい。すなわちこの場合は、行列Aの成分Aijを用いて、
Figure 2008217637
なる値を演算しておき、これを用いて、行列Aの成分Aijを
Figure 2008217637
と補正することになる。
さらに、(2)式の場合に、仮想的に設定するアウトリンクの値(インリンクの値と同じになる)を用いて、仮想的に設定したアウトリンクの重みの総和がm・wとなるように設定してもよい。すなわち、制御部11は、(2)式に代えて、文書iについてのアウトリンク数が0である(他を引用していない)場合の行列Aの成分Aijの補正値を、
Figure 2008217637
としてもよい。
本実施の形態の情報分析装置によると、図2に概念的に示すように、個々の文書(図2では円で示している)に予め設定されている重みwの引用関係に基づき、仮想的に逆方向の引用関係を定める(S1)。そして本実施の形態の情報分析装置は、この仮想的に定めた引用関係の重みを、アウトリンク全体の重みの合計がm・wとなるように設定する(S2)。本実施の形態の分析装置は、このように引用関係を設定した文書のネットワークについて、活性伝播など、動的なランク付けの処理を実行して、文書のランク付けを行う。
なお、ここではランク付けの対象を文書であるとしたが、これに限らず、例えば連絡経路が設定された人物情報など、方向を持った(有向の)関係が設定されている対象物の情報であれば、いかなる対象物についても本実施の形態の情報分析装置の処理を行うことができる。
本発明の実施の形態に係る情報分析装置の構成ブロック図である。 本発明の実施の形態に係る情報分析装置の動作例を表す説明図である。
符号の説明
11 制御部、12 記憶部、13 入力部、14 出力部。

Claims (4)

  1. 有向の関係と関係重みとが設定された複数の対象物に係る情報を取得する手段と、
    前記取得した情報により、前記対象物の対の間に仮想の双方向の関係を設定する手段と、
    前記仮想の関係についての重みを、予め設定されていた前記関係重みと異ならせて設定する手段と、
    前記関係に基づいて、前記対象物について予め定められた情報を生成する処理を実行する手段と、
    を含むことを特徴とする情報分析装置。
  2. 有向の関係と関係重みとが設定された複数の対象物に係る情報を取得する手段と、
    前記取得した情報により、前記複数の対象物に含まれる対象物の対の間に設定された有向の関係が単方向であるときに、当該関係の方向とは反対の仮想関係を設定して双方向の関係を設定する手段と、
    前記仮想関係についての重みを、当該仮想関係の元となった単方向の関係重みと異ならせて設定する手段と、
    前記関係に基づいて、前記対象物について予め定められた情報を生成する処理を実行する手段と、
    を含むことを特徴とする情報分析装置。
  3. 有向の引用関係と関係重みとが設定された複数の文書に係る情報を取得する手段と、
    前記取得した情報により、前記対象物の対の間に仮想の双方向の引用関係を設定する手段と、
    前記仮想の引用関係についての重みを、予め設定されていた前記関係重みと異ならせて設定する手段と、
    前記関係に基づいて、前記文書について予め定められた情報を生成する処理を実行する手段と、
    を含むことを特徴とする情報分析装置。
  4. コンピュータを、
    有向の関係と関係重みとが設定された複数の対象物に係る情報を取得する手段と、
    前記取得した情報により、前記対象物の対の間に仮想の双方向の関係を設定する手段と、
    前記仮想の関係についての重みを、予め設定されていた前記関係重みと異ならせて設定する手段と、
    前記関係に基づいて、前記対象物について予め定められた情報を生成する処理を実行する手段と、
    して動作させることを特徴とするプログラム。
JP2007056723A 2007-03-07 2007-03-07 情報分析装置及びプログラム Pending JP2008217637A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007056723A JP2008217637A (ja) 2007-03-07 2007-03-07 情報分析装置及びプログラム
US11/907,604 US20080222137A1 (en) 2007-03-07 2007-10-15 Information analyzing device, and computer readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007056723A JP2008217637A (ja) 2007-03-07 2007-03-07 情報分析装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2008217637A true JP2008217637A (ja) 2008-09-18

Family

ID=39742679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007056723A Pending JP2008217637A (ja) 2007-03-07 2007-03-07 情報分析装置及びプログラム

Country Status (2)

Country Link
US (1) US20080222137A1 (ja)
JP (1) JP2008217637A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151392A (ja) * 2007-12-18 2009-07-09 Fuji Xerox Co Ltd 情報分析装置、及び情報分析プログラム
JP2010140096A (ja) * 2008-12-09 2010-06-24 Fuji Xerox Co Ltd 情報分析装置及びプログラム
JP2010140296A (ja) * 2008-12-12 2010-06-24 Fuji Xerox Co Ltd 情報分析装置及びプログラム
JP2012003700A (ja) * 2010-06-21 2012-01-05 Fuji Xerox Co Ltd プログラム及び情報分析装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7281005B2 (en) * 2003-10-20 2007-10-09 Telenor Asa Backward and forward non-normalized link weight analysis method, system, and computer program product

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSND200201158002; 原田昌紀: 'サーチエンジンにおける検索結果のランキング' bit Vol.32,No.8, 20000801, pp.8-14, 共立出版株式会社 *
CSNJ200610062054; 鷲崎弘宜: '片方向引用情報に基づく論文の品質評価' 電子情報通信学会2001年総合大会講演論文集 情報・システム1 , 20010307, p.54, 社団法人電子情報通信学会 *
JPN6012015087; 鷲崎弘宜: '片方向引用情報に基づく論文の品質評価' 電子情報通信学会2001年総合大会講演論文集 情報・システム1 , 20010307, p.54, 社団法人電子情報通信学会 *
JPN6012015088; 原田昌紀: 'サーチエンジンにおける検索結果のランキング' bit Vol.32,No.8, 20000801, pp.8-14, 共立出版株式会社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151392A (ja) * 2007-12-18 2009-07-09 Fuji Xerox Co Ltd 情報分析装置、及び情報分析プログラム
JP2010140096A (ja) * 2008-12-09 2010-06-24 Fuji Xerox Co Ltd 情報分析装置及びプログラム
JP2010140296A (ja) * 2008-12-12 2010-06-24 Fuji Xerox Co Ltd 情報分析装置及びプログラム
JP2012003700A (ja) * 2010-06-21 2012-01-05 Fuji Xerox Co Ltd プログラム及び情報分析装置

Also Published As

Publication number Publication date
US20080222137A1 (en) 2008-09-11

Similar Documents

Publication Publication Date Title
CN107239318B (zh) 应用转换方法、装置及设备
Bontcheva et al. The GATE crowdsourcing plugin: Crowdsourcing annotated corpora made easy
Conejo et al. A trust-region derivative-free algorithm for constrained optimization
JP2008003721A (ja) 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体
JP7365267B2 (ja) 広告文自動作成システム
CN109063105A (zh) 文件存储方法、装置、计算机设备和存储介质
JP4936295B2 (ja) コンピュータ・システムにより実行されるアクセシビリティ・メタデータの作成・拡張・検証を支援する方法
JP2008217637A (ja) 情報分析装置及びプログラム
JP2019040260A (ja) 情報処理装置及びプログラム
Zhan et al. Methods for dealing with unequal cluster sizes in cluster randomized trials: A scoping review
US9817913B2 (en) Method and apparatus for collecting, merging and presenting content
JP5165200B2 (ja) スコア導出システム
Liu et al. Multiple sequence alignment based on deep reinforcement learning with self-attention and positional encoding
US7792060B2 (en) Information analysis apparatus and computer readable medium
Cape et al. Estimating Heston's and Bates’ models parameters using Markov chain Monte Carlo simulation
US7596750B2 (en) Data processing method, program, and information processor
Hillier et al. A continuous-time diffusion limit theorem for dynamical decoupling and intrinsic decoherence
JP2007179228A (ja) 履歴管理装置、履歴管理装置の制御方法、および履歴管理装置の制御プログラム
Economou et al. The batch Markovian arrival process subject to renewal generated geometric catastrophes
JP2008171336A (ja) 文書クラスタ処理装置、文書クラスタ処理方法およびプログラム
KR20210121537A (ko) 텍스트 분류를 위한 적응형 콘볼루션 필터 생성 방법 및 서버
US20080010583A1 (en) Computer-readable medium storing markup documents, and method and apparatus of processing the markup documents
JP6292886B2 (ja) レイアウティング装置、レイアウティング方法およびレイアウティングプログラム
Mulvany et al. Enhanced Wayfinding Insights Through VR and Eye-Tracking Analysis
Shilu et al. Implementation of FAST clustering-based feature subset selection algorithm for high-dimensional data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121120