JP6743623B2

JP6743623B2 - 情報処理装置及びプログラム

Info

Publication number: JP6743623B2
Application number: JP2016190217A
Authority: JP
Inventors: 元樹谷口; 大熊　智子; 智子大熊; 康秀三浦
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2020-08-19
Anticipated expiration: 2036-09-28
Also published as: JP2018055376A

Description

本発明は、情報処理装置及びプログラムに関する。

従来、文章から複数の語の関係を抽出する技術が知られている。例えば、特許文献１には、名詞間関係及び動詞／形容詞間関係を一括して語間関係として扱い、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類する技術が開示されている。

また、例えば、非特許文献１には、時系列ウェブテキストから二つの固有表現とその間の関係を二項関係として獲得し、獲得した二項関係に対して、時系列ウェブテキストの頻度情報に基づく機械学習により、時間において恒久的に成立するか否か（恒久性）、一対一で成立するか否か（一意性）の分類を行う技術が開示されている。

特開２０１２−０４３２９４号公報

高久陽平、外３名、「恒久性と一意性に基づく固有表現の二項関係の分類」、[online]、第4回データ工学と情報マネジメントに関するフォーラム、［平成２８年８月２４日検索］、インターネット（URL：http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/extract/1171/data/deim20120304_takaku.pdf）

例えばウェブテキスト等の文書に含まれる語間の関係（二項関係）の分類を行うために、機械学習を行う場合がある。ここで、文書中の情報を用いる場合には、文書中に二項関係が出現する頻度が大きく関わることになり、例えば、文書中に出現しない二項関係や出現回数が時間的に大きく変化する二項関係について、分類の精度が低下するおそれがある。
本発明の目的は、文書中の情報を用いて機械学習を行う構成と比較して、互いに関係を有する複数の情報について、関係に対する分類の精度を向上させることにある。

請求項１に記載の発明は、互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する取得手段と、前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する算出手段と、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する出力手段とを備える情報処理装置である。
請求項２に記載の発明は、前記算出手段は、前記特徴量として、前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報について編集を行った編集者の信頼度による特徴量を算出することを特徴とする請求項１に記載の情報処理装置である。
請求項３に記載の発明は、前記算出手段は、前記編集者の信頼度として、編集者毎に、編集者が編集を行った回数に基づく値を算出することを特徴とする請求項２に記載の情報処理装置である。
請求項４に記載の発明は、前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な分散による特徴量を算出し、前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が時間的に変化しないことを示す情報を出力することを特徴とする請求項１乃至３の何れか１項に記載の情報処理装置である。
請求項５に記載の発明は、前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な平均による特徴量を算出し、前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が１対１の対であることを示す情報を出力することを特徴とする請求項１乃至４の何れか１項に記載の情報処理装置である。
請求項６に記載の発明は、コンピュータに、互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する機能と、取得された前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する機能と、算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する機能とを実現させるためのプログラムである。

請求項１記載の発明によれば、文書中の情報を用いて機械学習を行う構成と比較して、互いに関係を有する複数の情報について、関係に対する分類の精度を向上させることができる。
請求項２記載の発明によれば、編集者の信頼度に関わらず編集履歴を一律に用いる構成と比較して、関係に対する分類の精度を向上させることができる。
請求項３記載の発明によれば、編集者の信頼度の算出が容易になる。
請求項４記載の発明によれば、編集履歴を蓄積したデータベースの情報を用いる場合であっても、関係を有する複数の情報が時間的に変化しないことを示す情報を出力することができる。
請求項５記載の発明によれば、編集履歴を蓄積したデータベースの情報を用いる場合であっても、関係を有する複数の情報が１対１の対であることを示す情報を出力することができる。
請求項６記載の発明によれば、文書中の情報を用いて機械学習を行う構成と比較して、互いに関係を有する複数の情報について、関係に対する分類の精度を向上させる機能を、コンピュータにより実現できる。

機械学習の一例を説明するための図である本実施の形態が適用されるコンピュータシステムの全体構成例を示した図である。本実施の形態に係る分類装置のハードウェア構成例を示す図である。本実施の形態に係る分類装置の機能構成例を示したブロック図である。情報記憶装置から取得される編集履歴データベースの情報の一例を示す図である。信頼度算出部が算出する編集者の信頼度の一例を示す図である。関係クラスリストの一例を示す図である。特徴量計算部が計算する特徴量の一例を説明するための図である。関係クラスの特徴量の分布の一例を説明するための図である。学習データの一例を説明するための図である。判定対象データの一例を説明するための図である。分類装置による機械学習の学習プロセスにおける手順の一例を示したフローチャートである。分類装置による機械学習の分類プロセスにおける手順の一例を示したフローチャートである。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
＜背景＞
まず、本実施の形態の背景について説明する。
図１は、機械学習の一例を説明するための図である。図１に示す例は、従来のニューラルネットワークのモデルを用いた機械学習を示している。具体的には、入力されるデータ（入力データ）は入力層を通り、中間層、出力層を通過して処理され、出力結果（出力データ）が生成される。ここで、学習（訓練）の処理では、複数のデータを入力し、入力層、中間層、出力層を繋ぐ重み付けの調整が行われる。このような学習を行って重み付けを調整することにより、何らかのデータが入力されて分類（識別）する場合に、希望する出力結果が得られるようになる。

なお、一般に、機械学習では、事前に人間により判断基準が示されたデータ、いわゆる教師データを基に学習を行い、入力データに対して適正な出力を行う規則を導き出す教師付き学習が知られている。また、入力されるデータのみが与えられ、そのデータを基に学習を行い、コンピュータ自身が一定の基準に基づき自動でそれを適正化するような出力の割り当てを求める教師なし学習も知られている。

そして、本実施の形態は、文書やデータベース等の編集履歴を蓄積したデータベースの情報を利用して機械学習を行うものである。即ち、本実施の形態では、編集履歴を蓄積したデータベースの情報を用いて学習を行い、重み付けを調整する。そして、重み付けの調整を行って生成した学習モデルに対してデータが入力されると、入力されたデータについての分類を行う。なお、編集が行われる文書やデータベースとしては、例えば、Ｗｉｋｉｐｅｄｉａのようなインターネット上の辞典を例示することができる。

より具体的には、本実施の形態で編集の対象となる文書やデータベースには、エンティティ（固有表現）の情報が含まれる。エンティティとは、固有名詞（人名、住所、地名、組織名など）や日付、年齢、時間表現などを示す情報である。また、本実施の形態で編集の対象となる文書やデータベースには、エンティティ間の関係（二項関係）を示す情報も含まれる。以下では、このエンティティ間の関係を、関係クラスと称する場合がある。

例えば、「夏目漱石（１８６７年２月９日−１９１６年１２月９日）は、日本の小説家である。」という文を例として説明する。この文には、「夏目漱石」、「１８６７年２月９日」、「１９１６年１２月９日」、「小説家」などのエンティティが含まれる。例えば、「夏目漱石」・「小説家」は「職業」という関係にあり、この場合の関係クラスは「職業」である。また、例えば、「夏目漱石」・「１８６７年２月９日」は「生年月日」という関係にあり、この場合の関係クラスは「生年月日」である。さらに、例えば、「夏目漱石」・「１９１６年１２月９日」は「没年月日」という関係にあり、この場合の関係クラスは「没年月日」である。

ところで、このようなエンティティ間の関係（即ち、関係クラス）には、時間的変化がないものもあれば、時間的変化があるものも存在する。例えば、「日本」・「東京」は「首都」という関係にあり、時間的変化はない。言い換えると、関係クラスに恒久性があるといえる。一方、例えば、企業のＣＥＯ（Chief Executive Officer）などは交代する場合があるため、「ＣＥＯ」という関係クラスには時間的変化があり、恒久性はないといえる。

また、エンティティ間の関係（関係クラス）としては、１対１でエンティティ同士が関係付けられる場合もあれば、１対多でエンティティ同士が関係付けられる場合もある。例えば、「日本」・「東京」の「首都」という関係では、エンティティ同士が１対１の対になる。言い換えると、関係クラスに一意性があるといえる。一方、例えば、企業の創設者などは複数人存在する場合がある。このような場合、企業と創設者である複数人とが１対多で関係付けられるため、「創設者」という関係クラスには一意性がないといえる。

さらに、編集の対象となる文書やデータベースが複数の編集者により編集される場合には、各編集者の信頼度（即ち、各編集者が編集する情報の信頼度）が編集者毎にばらつき、信頼度の高い情報もあれば、信頼度の低い情報もあることが考えられる。
そこで、本実施の形態では、複数の編集者が編集を行う文書やデータベースの編集履歴を蓄積したデータベースを用いた機械学習において、エンティティ間の関係の恒久性、一意性、各編集者の信頼度を考慮した機械学習を行う手順について説明する。

＜システムの全体構成＞
本実施の形態が適用されるコンピュータシステムについて説明する。図２は、本実施の形態が適用されるコンピュータシステムの全体構成例を示した図である。図示するように、このコンピュータシステムでは、クライアント端末１００（図示の例では、クライアント端末１００ａ〜１００ｃ）、情報記憶装置２００、及び分類装置３００がネットワーク４００に接続されている。

クライアント端末１００は、編集の対象となる文書やデータベースの編集者が使用する端末装置であり、例えば、携帯情報端末（いわゆる、スマートフォンやタブレット端末等）やＰＣ（Personal Computer）などを例示することができる。編集者は、このクライアント端末１００を使用して、情報記憶装置２００に記憶されている文書やデータベースの編集を行う。言い換えると、クライアント端末１００は、編集者の操作入力に基づいて、文書やデータベースの編集に係る情報を情報記憶装置２００へ送信する。
なお、図２では、３台のクライアント端末１００しか示していないが、３台に限定されるものではなく、実際には、編集を行う複数の編集者のクライアント端末が対象となる。

情報記憶装置２００は、クライアント端末１００により編集される文書やデータベースを記憶するコンピュータ装置であり、サーバ等を例示することができる。より具体的には、情報記憶装置２００は、例えば、Ｗｉｋｉｐｅｄｉａのようなインターネット上の辞典を構成するデータベースを記憶するサーバである。また、情報記憶装置２００では、文書やデータベースに対する編集履歴についてもデータベースとして管理されている。この編集履歴を表すデータベース（以下、編集履歴データベースと称する場合がある）の情報は、分類装置３００へ出力される。この編集履歴データベースとしては、例えば、Ｗｉｋｉｐｅｄｉａからの構造化コンテントの抽出を目的とする、ＤＢｐｅｄｉａ等を例示することができる。なお、本実施の形態では、互いに関係を有する複数の情報の編集履歴を蓄積したデータベースの一例として、編集履歴データベースが用いられる。
なお、図２では、１台の情報記憶装置２００しか示していないが、１台に限定されるものではなく、複数の情報記憶装置２００を用いても良い。

情報処理装置の一例としての分類装置３００は、情報記憶装置２００に記憶された編集履歴データベースの情報を利用して機械学習を行うコンピュータ装置である。分類装置３００としては、例えば、ＰＣ、ワークステーション等が例示される。
より具体的には、分類装置３００は、情報記憶装置２００から編集履歴データベースの情報を取得し、取得した編集履歴データベースの情報を基に機械学習を行う。そして、詳しくは後述するが、この機械学習において、分類装置３００は、取得した編集履歴データベースの情報を基に、エンティティ間の関係（即ち、関係クラス）の恒久性の有無及び一意性の有無を判定するための学習モデルを生成する。そして、分類装置３００は、学習モデルを生成した後、生成した学習モデルを用いて、編集履歴データベースに含まれる関係クラスに対して、恒久性の有無及び一意性の有無を判定する。なお、機械学習の手法、学習モデルを作成する手法については、従来の手法を用いれば良い。また、本実施の形態では、一定の属性の一例として、恒久性、一意性が用いられる。

ネットワーク４００は、クライアント端末１００、情報記憶装置２００、分類装置３００の間の情報通信に用いられる通信手段であり、例えば、インターネットである。

なお、図２に示す例では、分類装置３００は、情報記憶装置２００から、編集履歴データベースの情報を取得することとしたが、このような構成に限られるものではない。例えば、分類装置３００が、編集履歴データベースを記憶することとしても良い。また、編集履歴データベースの情報を記憶しておく別の記憶装置を設けて、分類装置３００は、その別の記憶装置から編集履歴データベースの情報を取得するような構成にしても良い。

＜分類装置のハードウェア構成＞
次に、本実施の形態に係る分類装置３００のハードウェア構成について説明する。図３は、本実施の形態に係る分類装置３００のハードウェア構成例を示す図である。図示するように、分類装置３００は、演算手段であるＣＰＵ（Central Processing Unit）３０１と、記憶手段であるメインメモリ３０２及び磁気ディスク装置３０３とを備える。

ここで、ＣＰＵ３０１は、ＯＳ（Operating System）やアプリケーション等の各種プログラムを実行し、分類装置３００の各種機能を実現する。また、メインメモリ３０２は、各種プログラムやその実行に用いるデータ等を記憶する記憶領域である。また、磁気ディスク装置３０３は、各種プログラムに対する入力データや各種プログラムからの出力データ等を記憶する記憶領域である。
さらに、分類装置３００は、外部との通信を行うための通信インタフェース（通信Ｉ／Ｆ）３０４と、ビデオメモリやディスプレイ等からなる表示機構３０５と、キーボードやマウス等の入力デバイス３０６とを備える。

＜分類装置の機能構成＞
図４は、本実施の形態に係る分類装置３００の機能構成例を示したブロック図である。
分類装置３００は、編集履歴データベースの情報を取得するデータベース情報取得部３１１と、データベースの編集者の信頼度を算出する信頼度算出部３１２と、関係クラスについての恒久性の有無及び一意性の有無を定義したリスト（以下、関係クラスリストと称する）を格納する関係クラスリスト格納部３１３とを備える。
また、分類装置３００は、編集履歴データベースの情報を基に、編集に係る特徴量を計算する特徴量計算部３１４と、機械学習を行って学習モデルを生成する学習部３１５と、生成された学習モデルを格納する学習モデル格納部３１６と、学習モデルを用いて、関係クラスについての恒久性の有無及び一意性の有無を判定する関係判定部３１７と、判定結果を出力する判定結果出力部３１８とを備える。

データベース情報取得部３１１は、情報記憶装置２００に記憶されている編集履歴データベースの情報を取得する。この編集履歴データベースの情報には、編集者によって編集されたエンティティの情報、エンティティ間の関係を示す関係クラスの情報、編集した編集者の情報、編集日時の情報などが含まれる。

信頼度算出部３１２は、データベース情報取得部３１１が取得した編集履歴データベースの情報を基に、編集者の信頼度を算出する。ここで、信頼度算出部３１２は、編集者がデータベースを編集した回数などを基に、各編集者の信頼度を算出する。

関係クラスリスト格納部３１３は、関係クラスについての恒久性の有無及び一意性の有無を定義した関係クラスリストを格納する。この関係クラスリストは、関係クラス毎に、恒久性の有無、一意性の有無が定義されており、例えば、関係クラスについての恒久性の有無及び一意性の有無を示すラベルを人手によって付けることで作成される。関係クラスリストの情報は、学習部３１５の機械学習における教師データとして用いられる。

特徴量計算部３１４は、データベース情報取得部３１１が取得した編集履歴データベースの情報を基に、編集に係る特徴量、言い換えると、関係クラスの恒久性の有無及び一意性の有無を判定するための特徴量を計算する。また、ここで計算される特徴量は、複数の情報の時間的変化に基づく特徴量の一例として捉えることができる。

より具体的には、特徴量計算部３１４は、関係クラスについての恒久性の有無を判定するための特徴量として、関係クラス毎に、エンティティが出現する出現頻度の時間的な分散（時間分散）、及びエンティティの編集を行った編集者の信頼度の合計値を計算する。また、特徴量計算部３１４は、関係クラスについての一意性の有無を判定するための特徴量として、関係クラス毎に、エンティティが出現する出現頻度の時間的な平均（時間平均）、及びエンティティの編集を行った編集者の信頼度の合計値を計算する。特徴量計算部３１４が計算するこれらの特徴量の詳細については、後述する。

学習部３１５は、機械学習の学習プロセスにおいて、学習モデルの生成を行う。より具体的には、学習部３１５は、特徴量計算部３１４が計算した特徴量、及び関係クラスリストにて定義されている関係クラスの情報を基に、学習を行う。そして、関係クラスについての恒久性の有無及び一意性の有無を判定するための学習モデルの更新・生成を行う。なお、学習部３１５が学習に用いるデータ（以下、学習データと称する）の詳細については、後述する。

学習モデル格納部３１６は、学習部３１５による学習にて更新・生成された学習モデルを格納する。

関係判定部３１７は、機械学習の分類プロセスにおいて、関係クラスについての恒久性の有無及び一意性の有無を判定する。ここで、関係判定部３１７は、学習部３１５により生成された学習モデルを用いて、編集履歴データベースに含まれる関係クラスを対象として、恒久性の有無及び一意性の有無を判定する。より具体的には、関係判定部３１７は、学習モデルに対して、判定対象とする関係クラスの特徴量（特徴量計算部３１４が計算した特徴量）を入力することにより、関係クラスについての恒久性の有無及び一意性の有無を判定する。なお、関係判定部３１７が判定対象とする関係クラスのデータ（以下、判定対象データと称する）の詳細については、後述する。
ここで、関係判定部３１７は、判定対象とする関係クラスの特徴量が予め定められた条件を満たす場合に、関係クラスが一定の属性（即ち、恒久性、一意性）を有すると判定するものとして捉えることができる。

判定結果出力部３１８は、関係判定部３１７による判定結果を出力する。出力される判定結果は、例えば、分類装置３００の表示機構３０５に表示されたり、通信Ｉ／Ｆ３０４を介して他の装置へ出力されたりする。
ここで、判定結果出力部３１８は、判定対象とする関係クラスの特徴量が予め定められた条件を満たす場合に、関係クラスが一定の属性（即ち、恒久性、一意性）を有することを示す情報を出力するものとして捉えることができる。

また、本実施の形態では、取得手段の一例として、データベース情報取得部３１１が用いられる。算出手段の一例として、信頼度算出部３１２、特徴量計算部３１４が用いられる。出力手段の一例として、関係判定部３１７、判定結果出力部３１８が用いられる。

なお、図４に示す分類装置３００を構成する各機能部は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、分類装置３００を図３に示したハードウェア構成にて実現した場合、磁気ディスク装置３０３に格納されているＯＳのプログラムやアプリケーション・プログラムが、メインメモリ３０２に読み込まれてＣＰＵ３０１に実行されることにより、データベース情報取得部３１１、信頼度算出部３１２、特徴量計算部３１４、学習部３１５、関係判定部３１７、判定結果出力部３１８等の各機能が実現される。また、関係クラスリスト格納部３１３、学習モデル格納部３１６は、メインメモリ３０２や磁気ディスク装置３０３等の記憶手段により実現される

＜編集履歴データベースの情報の説明＞
次に、情報記憶装置２００から取得される編集履歴データベースの情報について、具体例を挙げて説明する。図５は、情報記憶装置２００から取得される編集履歴データベースの情報の一例を示す図である。

ここで、「関係クラス」は、「エンティティ１」のエンティティと「エンティティ２」のエンティティとの間の関係を示す関係クラスである。「編集者ＩＤ」は、データベースを編集した編集者のＩＤ（編集者ＩＤ）を示す。この編集者ＩＤは、編集者を一意に識別するために各編集者に付与されるＩＤ（identification）である。「追加・削除」は、データベースに対して行われた編集操作が追加又は削除の何れであるかを示す。「日時」は、データベースの編集が行われた日時を示す。

例えば、項番１のデータは、「エンティティ１」が「Ｓｔｅｖｅ」、「エンティティ２」が「Ａ社」であり、「関係クラス」が「ＣｅｏＯｆ」である。ここで、「ＣｅｏＯｆ」は、企業のＣＥＯを示す関係クラスである。よって、項番１のデータでは、Ａ社のＣＥＯがＳｔｅｖｅであることを示している。また、「編集者ＩＤ」が「００１」の編集者が、２０００年１月に、このデータを追加したことを示している。

また、例えば、項番２のデータは、「編集者ＩＤ」が「００２」の編集者が、２０１０年１月に、Ａ社のＣＥＯがＳｔｅｖｅであることを示すデータを削除したことを示している。
さらに、例えば、項番３のデータは、「編集者ＩＤ」が「００２」の編集者が、２０１０年１月に、新たな情報を追加したことを示している。ここで追加された情報は、「エンティティ１」が「Ｔｉｍ」、「エンティティ２」が「Ａ社」であり、「関係クラス」が「ＣｅｏＯｆ」である。よって、Ａ社のＣｅｏがＴｉｍであることを示すデータが追加されたことを示している。

また、例えば、項番４のデータは、「エンティティ１」が「Ｂａｒａｋ」、「エンティティ２」が「アメリカ」であり、「関係クラス」が「ＢｏｒｎＩｎ」である。ここで、「ＢｏｒｎＩｎ」は、出生地を示す関係クラスである。よって、項番４のデータでは、Ｂａｒａｋの出生地がアメリカであることを示している。また、「編集者ＩＤ」が「００２」の編集者が、２０１０年１月に、このデータを追加したことを示している。

このように、情報記憶装置２００には、図５に示すような編集履歴データベースが記憶されている。分類装置３００は、機械学習のために、情報記憶装置２００からこのような編集履歴データベースの情報を取得する。

＜編集者信頼度の説明＞
次に、信頼度算出部３１２が算出する編集者の信頼度について、具体例を挙げて説明する。図６は、信頼度算出部３１２が算出する編集者の信頼度の一例を示す図である。

図６に示すように、信頼度算出部３１２は、編集履歴データベースの情報を基に、各編集者の信頼度を算出する。例えば、信頼度算出部３１２は、編集者の編集回数が多いほど編集者の信頼度も高いものと捉えて、総編集回数をそのまま編集者の信頼度とする。

例えば、「編集者ＩＤ」が「００１」の編集者は、総編集回数が１回である。よって、この編集者の信頼度は、「１」として算出される。また、例えば、「編集者ＩＤ」が「００２」の編集者は、総編集回数が３回である。よって、この編集者の信頼度は、「３」として算出される。さらに、例えば、「編集者ＩＤ」が「００３」の編集者は、総編集回数が０回である。よって、この編集者の信頼度は、「０」として算出される。

このようにして、信頼度算出部３１２は、編集履歴データベースの情報を基に、各編集者の信頼度を算出する。
なお、編集者の信頼度を算出する手法としては、ここで説明した手法に限定されるものではなく、どのような手法を用いても良い。例えば、他の編集者によって修正された回数を考慮しても良い。この場合には、例えば、編集者の「総編集回数」に対する「他の編集者によって修正された回数」の割合を求め、求めた割合を１から引くことによって、信頼度が算出される。

例えば、「編集者ＩＤ」が「００１」の編集者は、総編集回数が１回で、そのうち他の編集者によって修正された回数が０回である。よって、この編集者の信頼度は、「１」（＝１−０／１）として算出される。また、例えば、「編集者ＩＤ」が「００２」の編集者は、総編集回数が３回で、そのうち他の編集者によって修正された回数が２回である。よって、この編集者の信頼度は、「１／３」（＝１−２／３）として算出される。

＜関係クラスリストの説明＞
次に、関係クラスリスト格納部３１３に格納されている関係クラスリストについて、具体例を挙げて説明する。図７は、関係クラスリストの一例を示す図である。図７に示すように、関係クラスリストでは、関係クラス毎に、恒久性の有無及び一意性の有無が予め定義されている。

例えば、項番１のデータでは、「関係クラス」が「ＣｅｏＯｆ」であり、「恒久性」は「なし」、「一意性」は「あり」ということを示している。より具体的には、企業のＣＥＯは、恒久性がなく、エンティティ（ここでは、企業のＣＥＯである人物）が時間的に変化することを示している。また、企業のＣＥＯは、一意性があり、複数のエンティティ（企業のＣＥＯである人物）が同時に存在しないこと、言い換えると、エンティティ同士（ここでは、企業とそのＣＥＯである人物）が１対１の対であることを示している。

また、例えば、項番２のデータでは、「関係クラス」が「ＢｏｒｎＩｎ」であり、「恒久性」は「あり」、「一意性」は「あり」ということを示している。より具体的には、出生地は、恒久性があり、エンティティ（ここでは、出生地である場所）が時間的に変化しないことを示している。また、出生地は、一意性があり、複数のエンティティ（出生地である場所）が複数同時に存在しないこと、言い換えると、エンティティ同士（ここでは、人物とその出生地である場所）が１対１の対であることを示している。

＜特徴量計算部が計算する特徴量の説明＞
次に、特徴量計算部３１４が計算する特徴量について説明する。特徴量としては、上述したように、時間分散、時間平均、編集を行った編集者の信頼度の合計値が計算される。

まず、時間分散、時間平均について説明する。
ここで、連続変数ｆ（ｔ）の区間［ａ，ｂ］における時間平均μ、時間分散σはそれぞれ、以下の数１式、数２式により算出される。

数１式、数２式を用いて計算される特徴量（時間平均μ、時間分散σ）について、具体例を挙げて説明する。図８は、特徴量計算部３１４が計算する特徴量の一例を説明するための図である。ここで、特徴量計算部３１４は、図５の項番１〜３のデータを基に、関係クラス「ＣｅｏＯｆ」について、特徴量を計算するものとして説明する。より具体的には、特徴量計算部３１４は、関係クラス「ＣｅｏＯｆ」とエンティティ「Ａ社」との組み合わせについて、特徴量を計算する。言い換えると、Ａ社のＣＥＯについての特徴量を計算する。

図５の項番１〜３のデータにおいて、編集日時が２０００年１月〜２０１０年１月の間（１０年）は、Ａ社のＣＥＯが「Ｓｔｅｖｅ」であることが示されている。また、２０１０年１月以降、言い換えると、２０１０年１月〜現在（例えば、２０１５年１月）の間（５年）は、Ａ社のＣＥＯが「Ｔｉｍ」であることが示されている。ここで、特徴量計算部３１４は、「エンティティ１」の「Ｓｔｅｖｅ」、「Ｔｉｍ」のそれぞれに対して、時間平均及び時間分散を計算する。

より具体的には、「Ｓｔｅｖｅ」の時間平均μ_１は、数１式を基にして、以下の数３式により算出される。また、「Ｓｔｅｖｅ」の時間分散σ_１は、数２式を基にして、以下の数４式により算出される。
同様に、「Ｔｉｍ」の時間平均μ_２は、数１式を基にして、以下の数５式により算出される。また、「Ｔｉｍ」の時間分散σ_２は、数２式を基にして、以下の数６式により算出される。
ここで、区間［ａ，ｂ］としては、［２０００年１月，２０１５年１月］の値が用いられる。また、「エンティティ１」が出現した区間の値を「１」、出現しない区間の値を「０」として計算する。

そして、特徴量計算部３１４は、「Ｓｔｅｖｅ」の時間平均μ_１と、「Ｔｉｍ」の時間平均μ_２とを足して、Ａ社ＣＥＯの時間平均和を計算する。ここでは、Ａ社ＣＥＯの時間平均和は、１（＝μ_１＋μ_２＝１／３＋２／３）として計算される。
また、特徴量計算部３１４は、関係クラス「ＣｅｏＯｆ」について、編集履歴データベースの情報を基に、エンティティ「Ａ社」以外のエンティティについても同様にして、時間平均和を計算する。より具体的には、特徴量計算部３１４は、例えば、Ｂ社のＣＥＯ、Ｃ社のＣＥＯなど、Ａ社以外の企業のＣＥＯについて時間平均和を計算する。ここで、Ｂ社のＣＥＯが「Ｔｏｍ」、「Ｂｏｂ」の場合、「Ｔｏｍ」の時間平均、「Ｂｏｂ」の時間平均を計算し、それらを足してＢ社ＣＥＯの時間平均和を計算する。また、Ｃ社のＣＥＯが「Ｊｉｍ」の１人である場合、「Ｊｉｍ」の時間平均を計算し、その値をＣ社ＣＥＯの時間平均和とする。そして、各社ＣＥＯの時間平均和に対して、平均値（時間平均和の平均値μ_ａｖｅ）、最大値（時間平均和の最大値μ_ｍａｘ）、最小値（時間平均和の最小値μ_ｍｉｎ）を計算する。これらの計算された値は、一意性の有無を判定するための特徴量であり、学習データ又は判定対象データに使用されて機械学習が行われる。

さらに、特徴量計算部３１４は、関係クラス「ＣｅｏＯｆ」について、編集履歴データベースの情報を基に、エンティティ「Ａ社」以外のエンティティについても同様にして、時間分散を計算する。より具体的には、特徴量計算部３１４は、例えば、Ｂ社のＣＥＯ、Ｃ社のＣＥＯなど、Ａ社以外の企業のＣＥＯについて時間分散を計算する。例えば、上述したように、Ｂ社のＣＥＯが「Ｔｏｍ」、「Ｂｏｂ」の場合、「Ｔｏｍ」の時間分散、「Ｂｏｂ」の時間分散を計算する。また、Ｃ社のＣＥＯが「Ｊｉｍ」の場合、「Ｊｉｍ」の時間分散を計算する。そして、各社ＣＥＯの時間分散、ここでは、Ａ社の「Ｓｔｅｖｅ」、「Ｔｉｍ」、Ｂ社の「Ｔｏｍ」、「Ｂｏｂ」、Ｃ社の「Ｊｉｍ」の５人の時間分散に対して、平均値（時間分散の平均値σ_ａｖｅ）、最大値（時間分散の最大値σ_ｍａｘ）、最小値（時間分散の最小値σ_ｍｉｎ）を計算する。これらの計算された値は、恒久性の有無を判定するための特徴量であり、学習データ又は判定対象データに使用されて機械学習が行われる。

次に、特徴量として、編集を行った編集者の信頼度の合計値について説明する。
例えば、特徴量計算部３１４は、図５の項番１〜３のデータを基に、関係クラス「ＣｅｏＯｆ」について、特徴量を計算するものとして説明する。図５の項番１〜３のデータの編集者はそれぞれ、「編集者ＩＤ」が「００１」、「００２」、「００２」である。また、例えば、「編集者ＩＤ」が「００１」の編集者の信頼度は「１」であり、「編集者ＩＤ」が「００２」の編集者の信頼度は「３」である。よって、「００１」、「００２」、「００２」の編集者の信頼度の合計値は、７（＝１＋３＋３）として計算される。

このようにして、特徴量計算部３１４は、編集履歴データベースの情報を基に、一意性の有無を判定するための特徴量として、時間平均に関する特徴量、即ち、「時間平均和の平均値μ_ａｖｅ」、「時間平均和の最大値μ_ｍａｘ」、「時間平均和の最小値μ_ｍｉｎ」を計算する。また、恒久性の有無を判定するための特徴量として、時間分散に関する特徴量、即ち、「時間分散の平均値σ_ａｖｅ」、「時間分散の最大値σ_ｍａｘ」、「時間分散の最小値σ_ｍｉｎ」を計算する。さらに、「編集者の信頼度の合計値」は、恒久性の有無を判定するための特徴量、及び、一意性の有無を判定するための特徴量として計算される。

なお、本実施の形態では、編集を行った編集者の信頼度の合計値を特徴量とする構成に限られるものではない。編集者の信頼度を基に特徴量を計算すれば良く、例えば、編集を行った編集者の信頼度の合計値ではなく、編集を行った編集者の信頼度を平均した値を特徴量としても良い。

また、上述した例では、エンティティが出現した区間の値を「１」、出現しない区間の値を「０」として計算したが、このような構成に限られるものではない。エンティティが出現した区間の値を「α」、出現しない区間の値を「β」として、α及びβに何らかの値を設定して特徴量を計算すれば良い。

＜関係クラスの特徴量の分布の例＞
関係クラスと特徴量との関係について、さらに説明する。図９は、関係クラスの特徴量の分布の一例を説明するための図である。図９に示すグラフにおいて、縦軸は一意性のレベルを示し、横軸は恒久性のレベルを示す。

ここで、一意性については、時間平均和が１（時間平均和＝１）の関係クラスは一意性あり、時間平均和が１ではない（時間平均和 ≠１）関係クラスは一意性なしであるといえる。即ち、座標平面を４つに分けたうちの第１象限（図９に示す領域Ａ１）、第２象限（図９に示す領域Ａ２）は、一意性ありの関係クラスが属する領域である。一方、第３象限（図９に示す領域Ａ３）、第４象限（図９に示す領域Ａ４）は、一意性なしの関係クラスが属する領域である。

また、恒久性については、時間分散が０（時間分散＝０）の関係クラスは恒久性あり、時間分散が０ではない（時間分散 ≠０）関係クラスは、恒久性なしであるといえる。即ち、第１象限、第４象限は、恒久性ありの関係クラスが属する領域である。また、第２象限、第３象限は、恒久性なしの関係クラスが属する領域である。

例えば、領域Ａ２には、関係クラス「ＣｅｏＯｆ」が属している。より具体的には、ある時期のＡ社のＣＥＯは「Ｓｔｅｖｅ」であり、「Ｓｔｅｖｅ」の後のＣＥＯは「Ｔｉｍ」である。この場合、図８にて説明したように、Ａ社のＣＥＯである「Ｓｔｅｖｅ」、「Ｔｉｍ」のそれぞれについて時間平均及び時間分散を計算した結果、時間平均和は１になり、時間分散は０にならない。即ち、関係クラス「ＣｅｏＯｆ」は、一意性はあるが恒久性はない関係クラスとして、領域Ａ２に属することになる。

また、例えば、領域Ａ１には、関係クラス「ＢｏｒｎＩｎ」が属している。より具体的には、Ｂａｒａｋの出生地がアメリカである場合、「アメリカ」について時間平均及び時間分散を計算した結果、時間平均和は１になり、時間分散は０になる。即ち、関係クラス「ＢｏｒｎＩｎ」は、一意性があり恒久性もある関係クラスとして、領域Ａ１に属することになる。

同様に、例えば、領域Ａ３には、関係クラス「ＥｍｐｌｏｙｅｄＢｙ」が属している。ここで、関係クラス「ＥｍｐｌｏｙｅｄＢｙ」は、企業の従業員を示す関係クラスである。より具体的には、Ｂ社には、従業員として「Ｊｉｒｏ」、「Ｈａｎａｋｏ」、「Ｔａｒｏ」の３人が勤務している。この場合、Ｂ社の従業員である「Ｊｉｒｏ」、「Ｈａｎａｋｏ」、「Ｔａｒｏ」のそれぞれについて時間平均及び時間分散を計算した結果、時間平均和は１にならず、時間分散も０にならない。即ち、関係クラス「ＥｍｐｌｏｙｅｄＢｙ」は、一意性がなく恒久性もない関係クラスとして、領域Ａ３に属することになる。

また、例えば、領域Ａ４には、関係クラス「ＦｏｕｎｄｅｒＯｆ」が属している。より具体的には、Ｃ社の創設者は「Ａｌｌｅｎ」、「Ｇａｔｅｓ」の２人である。この場合、Ｃ社の創設者である「Ａｌｌｅｎ」、「Ｇａｔｅｓ」のそれぞれについて時間平均及び時間分散を計算した結果、時間平均和は１にならず、時間分散は０になる。即ち、関係クラス「ＦｏｕｎｄｅｒＯｆ」は、一意性がなく恒久性はある関係クラスとして、領域Ａ４に属することになる。

このように、各関係クラスは、特徴量により、恒久性の有無、一意性の有無が決まることになる。ただし、データの誤りやデータの欠落などにより、本来は一意性のある関係クラスであるのに、時間平均和が１にならなかったり、本来は恒久性のある関係クラスであるのに時間分散が０にならなかったりする場合が考えられる。また、編集された情報には、各編集者の信頼度が関わってくる。よって、本実施の形態に係る分類装置３００は、編集履歴データベースの情報を基に機械学習を行うことにより、学習モデルを作成し、関係クラスの恒久性の有無、一意性の有無を判定する。

＜学習データの説明＞
次に、学習部３１５が機械学習の学習プロセスにおいて用いる学習データについて、具体例を挙げて説明する。図１０は、学習データの一例を説明するための図である。

図１０に示すように、学習データには、関係クラス毎に、「時間分散の平均値σ_ａｖｅ」、「時間分散の最大値σ_ｍａｘ」、「時間分散の最小値σ_ｍｉｎ」、「時間平均和の平均値μ_ａｖｅ」、「時間平均和の最大値μ_ｍａｘ」、「時間平均和の最小値μ_ｍｉｎ」、「編集者の信頼度の合計値」、「恒久性」、「一意性」が含まれる。

ここで、「時間分散の平均値σ_ａｖｅ」、「時間分散の最大値σ_ｍａｘ」、「時間分散の最小値σ_ｍｉｎ」、「編集者の信頼度の合計値」は、関係クラスについての恒久性の有無を判定するための特徴量として、特徴量計算部３１４が計算した特徴量である。また、「時間平均和の平均値μ_ａｖｅ」、「時間平均和の最大値μ_ｍａｘ」、「時間平均和の最小値μ_ｍｉｎ」、「編集者の信頼度の合計値」は、関係クラスについての一意性の有無を判定するための特徴量として、特徴量計算部３１４が計算した特徴量である。そして、「恒久性」、「一意性」は、関係クラスリストで定義された情報である。

このように、機械学習の学習プロセスでは、特徴量計算部が計算した特徴量と関係クラスリストで定義された情報とが学習データとして用いられる。そして、関係クラスの恒久性の有無、一意性の有無が正しく出力されるように、従来の機械学習の手法により、学習モデルを構成する重み付けの調整が行われて、学習モデルが生成される。

＜判定対象データの例＞
次に、関係判定部３１７が機械学習の分類プロセスにおいて用いる判定対象データについて、具体例を挙げて説明する。図１１は、判定対象データの一例を説明するための図である。

図１１に示すように、判定対象データには、関係クラス毎に、「時間分散の平均値σ_ａｖｅ」、「時間分散の最大値σ_ｍａｘ」、「時間分散の最小値σ_ｍｉｎ」、「時間平均和の平均値μ_ａｖｅ」、「時間平均和の最大値μ_ｍａｘ」、「時間平均和の最小値μ_ｍｉｎ」、「編集者の信頼度の合計値」が含まれる。これらの項目は、特徴量計算部３１４が計算する特徴量であり、学習データに含まれる項目と同じである。関係判定部３１７は、これらの各項目のデータを学習モデルに入力することにより、関係クラスについての恒久性の有無及び一意性の有無を判定する。

例えば、項番１のデータでは、関係クラス「ＦｏｕｎｄｅｒＯｆ」について、特徴量計算部３１４が計算した特徴量が示されている。ここで、「ＦｏｕｎｄｅｒＯｆ」は、企業の創設者を示す関係クラスである。よって、項番１のデータは、企業の創設者についての恒久性の有無及び一意性の有無を判定するためのデータといえる。

例えば、編集履歴データベースの情報として、Ｃ社の創業者、Ｄ社の創業者の情報が取得されたものとする。ここで、Ｃ社の創業者が「Ａｌｌｅｎ」、「Ｇａｔｅｓ」の場合、「Ａｌｌｅｎ」の時間平均、「Ｇａｔｅｓ」の時間平均が計算され、それらの値を足して時間平均和が計算される。また、「Ａｌｌｅｎ」の時間分散、「Ｇａｔｅｓ」の時間分散も計算される。同様に、Ｄ社の創業者が「Ｋｅｎ」、「Ｊｏｅ」の場合、「Ｋｅｎ」の時間平均、「Ｊｏｅ」の時間平均が計算され、それらの値を足して時間平均和が計算される。また、「Ｋｅｎ」の時間分散、「Ｊｏｅ」の時間分散が計算される。

そして、特徴量計算部３１４は、Ｃ社の時間平均和、Ｄ社の時間平均和の平均値を「時間平均和の平均値μ_ａｖｅ」とする。また、Ｃ社の時間平均和、Ｄ社の時間平均和のうちの最大値（この例では、２つのうちの大きい方の値）を「時間平均和の最大値μ_ｍａｘ」とする。さらに、Ｃ社の時間平均和、Ｄ社の時間平均和のうちの最小値（この例では、２つのうちの小さい方の値）を「時間平均和の最小値μ_ｍｉｎ」とする。図１１に示す例では、関係クラス「ＦｏｕｎｄｅｒＯｆ」の「時間平均和の平均値μ_ａｖｅ」、「時間平均和の最大値μ_ｍａｘ」、「時間平均和の最小値μ_ｍｉｎ」はそれぞれ、「０．１」、「０．１」、「０．１」である。

また、特徴量計算部３１４は、「Ａｌｌｅｎ」、「Ｇａｔｅｓ」、「Ｋｅｎ」、「Ｊｏｅ」の４つの時間分散の平均値を「時間分散の平均値σ_ａｖｅ」とする。また、「Ａｌｌｅｎ」、「Ｇａｔｅｓ」、「Ｋｅｎ」、「Ｊｏｅ」の４つの時間分散のうちの最大値を「時間分散の最大値σ_ｍａｘ」とする。さらに、特徴量計算部３１４は、「Ａｌｌｅｎ」、「Ｇａｔｅｓ」、「Ｋｅｎ」、「Ｊｏｅ」の４つの時間分散のうちの最小値を「時間分散の最小値σ_ｍｉｎ」とする。図１１に示す例では、関係クラス「ＦｏｕｎｄｅｒＯｆ」の「時間分散の平均値σ_ａｖｅ」、「時間分散の最大値σ_ｍａｘ」、「時間分散の最小値σ_ｍｉｎ」はそれぞれ、「０．２」、「０．２」、「０．２」である。

また、特徴量計算部３１４は、信頼度算出部３１２により算出された各編集者の信頼度を基に、関係クラス「ＦｏｕｎｄｅｒＯｆ」について編集した編集者の信頼度の合計値を算出する。図１１に示す例では、関係クラス「ＦｏｕｎｄｅｒＯｆ」の「編集者の信頼度の合計値」は、「２」である。

そして、関係判定部３１７は、「時間平均和の平均値μ_ａｖｅ」、「時間平均和の最大値μ_ｍａｘ」、「時間平均和の最小値μ_ｍｉｎ」、「編集者の信頼度の合計値」、即ち、「０．１」、「０．１」、「０．１」、「２」の値を学習モデルに入力して、関係クラス「ＦｏｕｎｄｅｒＯｆ」の一意性の有無を判定する。
また、関係判定部３１７は、「時間分散の平均値σ_ａｖｅ」、「時間分散の最大値σ_ｍａｘ」、「時間分散の最小値σ_ｍｉｎ」、「編集者の信頼度の合計値」、即ち、「０．２」、「０．２」、「０．２」、「２」の値を学習モデルに入力して、関係クラス「ＦｏｕｎｄｅｒＯｆ」の恒久性の有無を判定する。

＜学習プロセスの手順＞
次に、分類装置３００による機械学習の学習プロセスにおける手順について説明する。図１２は、分類装置３００による機械学習の学習プロセスにおける手順の一例を示したフローチャートである。

まず、データベース情報取得部３１１は、情報記憶装置２００から編集履歴データベースの情報を取得する（ステップ１０１）。ここで、データベース情報取得部３１１は、図５に示すような編集履歴データベースの情報を取得する。次に、信頼度算出部３１２は、データベース情報取得部３１１が取得した編集履歴データベースの情報を基に、編集者の信頼度を計算する（ステップ１０２）。

次に、特徴量計算部３１４は、データベース情報取得部３１１が取得した編集履歴データベースの情報を基に、編集に係る特徴量を計算する（ステップ１０３）。ここで、特徴量計算部３１４は、関係クラスについての恒久性の有無を判定するための特徴量として、関係クラス毎に、エンティティの時間分散の平均値σ_ａｖｅ、時間分散の最大値σ_ｍａｘ、時間分散の最小値σ_ｍｉｎ、編集者の信頼度の合計値を計算する。また、特徴量計算部３１４は、関係クラスについての一意性の有無を判定するための特徴量として、関係クラス毎に、エンティティの時間平均和の平均値μ_ａｖｅ、時間平均和の最大値μ_ｍａｘ、時間平均和の最小値μ_ｍｉｎ、編集者の信頼度の合計値を計算する。

次に、学習部３１５は、特徴量計算部３１４が計算した特徴量と関係クラスリストで定義されている情報とを基に、即ち、図１０に示すような学習データを基に、学習を行い、学習モデルの更新・生成を行う（ステップ１０４）。そして、本処理フローは終了する。

＜分類プロセスの手順＞
次に、分類装置３００による機械学習の分類プロセスにおける手順について説明する。図１３は、分類装置３００による機械学習の分類プロセスにおける手順の一例を示したフローチャートである。この分類プロセスは、学習プロセスにより学習モデルが生成された後に行われる。

この分類プロセスでは、学習プロセスと同様に、情報記憶装置２００から編集履歴データベースの情報を取得し、特徴量の計算が行われる。このステップ２０１〜ステップ２０３の処理は、図１２に示すステップ１０１〜ステップ１０３の処理と同様であるので、ここでは説明を省略する。

ステップ２０３の後、関係判定部３１７は、特徴量計算部３１４が計算した特徴量の情報、即ち、図１１に示すような判定対象データの情報を学習モデルに入力することにより、判定対象とされた関係クラスについての恒久性の有無及び一意性の有無を判定する（ステップ２０４）。次に、判定結果出力部３１８は、関係判定部３１７による判定結果を出力する（ステップ２０５）。そして、本処理フローは終了する。

なお、本実施の形態において、分類装置３００は、関係クラスについて恒久性の有無及び一意性の有無の両方について機械学習することとしたが、このような構成に限られるものではない。例えば、分類装置３００の学習部３１５は、機械学習の学習プロセスにおいて、関係クラスについての恒久性の有無又は一意性の有無の何れか一方を判定するための学習モデルを生成することとしても良い。また、例えば、分類装置３００の関係判定部３１７は、ある関係クラスに対して、例えば、恒久性の有無を判定せずに一意性の有無を判定したり、一意性の有無を判定せずに恒久性の有無を判定したりしても良い。

また、本実施の形態では、１台の分類装置３００が、データベース情報取得部３１１、信頼度算出部３１２、関係クラスリスト格納部３１３、特徴量計算部３１４、学習部３１５、学習モデル格納部３１６、関係判定部３１７、判定結果出力部３１８の機能を有することとしたが、これらの機能を１台の装置ではなく複数台の装置で実現しても良い。

また、本発明の実施の形態を実現するプログラムは、通信手段により提供することはもちろん、ＣＤ−ＲＯＭ等の記録媒体に格納して提供することも可能である。

以上、本発明の実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

３００…分類装置、３１１…データベース情報取得部、３１２…信頼度算出部、３１３…関係クラスリスト格納部、３１４…特徴量計算部、３１５…学習部、３１６…学習モデル格納部、３１７…関係判定部、３１８…判定結果出力部

Claims

互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する取得手段と、
前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する算出手段と、
前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する出力手段と
を備える情報処理装置。
前記算出手段は、前記特徴量として、前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報について編集を行った編集者の信頼度による特徴量を算出すること
を特徴とする請求項１に記載の情報処理装置。
前記算出手段は、前記編集者の信頼度として、編集者毎に、編集者が編集を行った回数に基づく値を算出すること
を特徴とする請求項２に記載の情報処理装置。
前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な分散による特徴量を算出し、
前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が時間的に変化しないことを示す情報を出力すること
を特徴とする請求項１乃至３の何れか１項に記載の情報処理装置。
前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な平均による特徴量を算出し、
前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が１対１の対であることを示す情報を出力すること
を特徴とする請求項１乃至４の何れか１項に記載の情報処理装置。
コンピュータに、
互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する機能と、
取得された前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する機能と、
算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する機能と
を実現させるためのプログラム。