JP6743623B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP6743623B2
JP6743623B2 JP2016190217A JP2016190217A JP6743623B2 JP 6743623 B2 JP6743623 B2 JP 6743623B2 JP 2016190217 A JP2016190217 A JP 2016190217A JP 2016190217 A JP2016190217 A JP 2016190217A JP 6743623 B2 JP6743623 B2 JP 6743623B2
Authority
JP
Japan
Prior art keywords
information
relationship
feature amount
editor
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016190217A
Other languages
English (en)
Other versions
JP2018055376A (ja
Inventor
元樹 谷口
元樹 谷口
大熊 智子
智子 大熊
康秀 三浦
康秀 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2016190217A priority Critical patent/JP6743623B2/ja
Publication of JP2018055376A publication Critical patent/JP2018055376A/ja
Application granted granted Critical
Publication of JP6743623B2 publication Critical patent/JP6743623B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
従来、文章から複数の語の関係を抽出する技術が知られている。例えば、特許文献1には、名詞間関係及び動詞/形容詞間関係を一括して語間関係として扱い、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類する技術が開示されている。
また、例えば、非特許文献1には、時系列ウェブテキストから二つの固有表現とその間の関係を二項関係として獲得し、獲得した二項関係に対して、時系列ウェブテキストの頻度情報に基づく機械学習により、時間において恒久的に成立するか否か(恒久性)、一対一で成立するか否か(一意性)の分類を行う技術が開示されている。
特開2012−043294号公報
高久 陽平、外3名、「恒久性と一意性に基づく固有表現の二項関係の分類」、[online]、第4回データ工学と情報マネジメントに関するフォーラム、[平成28年8月24日検索]、インターネット(URL:http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/extract/1171/data/deim20120304_takaku.pdf)
例えばウェブテキスト等の文書に含まれる語間の関係(二項関係)の分類を行うために、機械学習を行う場合がある。ここで、文書中の情報を用いる場合には、文書中に二項関係が出現する頻度が大きく関わることになり、例えば、文書中に出現しない二項関係や出現回数が時間的に大きく変化する二項関係について、分類の精度が低下するおそれがある。
本発明の目的は、文書中の情報を用いて機械学習を行う構成と比較して、互いに関係を有する複数の情報について、関係に対する分類の精度を向上させることにある。
請求項1に記載の発明は、互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する取得手段と、前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する算出手段と、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する出力手段とを備える情報処理装置である。
請求項2に記載の発明は、前記算出手段は、前記特徴量として、前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報について編集を行った編集者の信頼度による特徴量を算出することを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記算出手段は、前記編集者の信頼度として、編集者毎に、編集者が編集を行った回数に基づく値を算出することを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な分散による特徴量を算出し、前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が時間的に変化しないことを示す情報を出力することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置である。
請求項5に記載の発明は、前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な平均による特徴量を算出し、前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が1対1の対であることを示す情報を出力することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置である。
請求項6に記載の発明は、コンピュータに、互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する機能と、取得された前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する機能と、算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する機能とを実現させるためのプログラムである。
請求項1記載の発明によれば、文書中の情報を用いて機械学習を行う構成と比較して、互いに関係を有する複数の情報について、関係に対する分類の精度を向上させることができる。
請求項2記載の発明によれば、編集者の信頼度に関わらず編集履歴を一律に用いる構成と比較して、関係に対する分類の精度を向上させることができる。
請求項3記載の発明によれば、編集者の信頼度の算出が容易になる。
請求項4記載の発明によれば、編集履歴を蓄積したデータベースの情報を用いる場合であっても、関係を有する複数の情報が時間的に変化しないことを示す情報を出力することができる。
請求項5記載の発明によれば、編集履歴を蓄積したデータベースの情報を用いる場合であっても、関係を有する複数の情報が1対1の対であることを示す情報を出力することができる。
請求項6記載の発明によれば、文書中の情報を用いて機械学習を行う構成と比較して、互いに関係を有する複数の情報について、関係に対する分類の精度を向上させる機能を、コンピュータにより実現できる。
機械学習の一例を説明するための図である 本実施の形態が適用されるコンピュータシステムの全体構成例を示した図である。 本実施の形態に係る分類装置のハードウェア構成例を示す図である。 本実施の形態に係る分類装置の機能構成例を示したブロック図である。 情報記憶装置から取得される編集履歴データベースの情報の一例を示す図である。 信頼度算出部が算出する編集者の信頼度の一例を示す図である。 関係クラスリストの一例を示す図である。 特徴量計算部が計算する特徴量の一例を説明するための図である。 関係クラスの特徴量の分布の一例を説明するための図である。 学習データの一例を説明するための図である。 判定対象データの一例を説明するための図である。 分類装置による機械学習の学習プロセスにおける手順の一例を示したフローチャートである。 分類装置による機械学習の分類プロセスにおける手順の一例を示したフローチャートである。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
<背景>
まず、本実施の形態の背景について説明する。
図1は、機械学習の一例を説明するための図である。図1に示す例は、従来のニューラルネットワークのモデルを用いた機械学習を示している。具体的には、入力されるデータ(入力データ)は入力層を通り、中間層、出力層を通過して処理され、出力結果(出力データ)が生成される。ここで、学習(訓練)の処理では、複数のデータを入力し、入力層、中間層、出力層を繋ぐ重み付けの調整が行われる。このような学習を行って重み付けを調整することにより、何らかのデータが入力されて分類(識別)する場合に、希望する出力結果が得られるようになる。
なお、一般に、機械学習では、事前に人間により判断基準が示されたデータ、いわゆる教師データを基に学習を行い、入力データに対して適正な出力を行う規則を導き出す教師付き学習が知られている。また、入力されるデータのみが与えられ、そのデータを基に学習を行い、コンピュータ自身が一定の基準に基づき自動でそれを適正化するような出力の割り当てを求める教師なし学習も知られている。
そして、本実施の形態は、文書やデータベース等の編集履歴を蓄積したデータベースの情報を利用して機械学習を行うものである。即ち、本実施の形態では、編集履歴を蓄積したデータベースの情報を用いて学習を行い、重み付けを調整する。そして、重み付けの調整を行って生成した学習モデルに対してデータが入力されると、入力されたデータについての分類を行う。なお、編集が行われる文書やデータベースとしては、例えば、Wikipediaのようなインターネット上の辞典を例示することができる。
より具体的には、本実施の形態で編集の対象となる文書やデータベースには、エンティティ(固有表現)の情報が含まれる。エンティティとは、固有名詞(人名、住所、地名、組織名など)や日付、年齢、時間表現などを示す情報である。また、本実施の形態で編集の対象となる文書やデータベースには、エンティティ間の関係(二項関係)を示す情報も含まれる。以下では、このエンティティ間の関係を、関係クラスと称する場合がある。
例えば、「夏目漱石(1867年2月9日−1916年12月9日)は、日本の小説家である。」という文を例として説明する。この文には、「夏目漱石」、「1867年2月9日」、「1916年12月9日」、「小説家」などのエンティティが含まれる。例えば、「夏目漱石」・「小説家」は「職業」という関係にあり、この場合の関係クラスは「職業」である。また、例えば、「夏目漱石」・「1867年2月9日」は「生年月日」という関係にあり、この場合の関係クラスは「生年月日」である。さらに、例えば、「夏目漱石」・「1916年12月9日」は「没年月日」という関係にあり、この場合の関係クラスは「没年月日」である。
ところで、このようなエンティティ間の関係(即ち、関係クラス)には、時間的変化がないものもあれば、時間的変化があるものも存在する。例えば、「日本」・「東京」は「首都」という関係にあり、時間的変化はない。言い換えると、関係クラスに恒久性があるといえる。一方、例えば、企業のCEO(Chief Executive Officer)などは交代する場合があるため、「CEO」という関係クラスには時間的変化があり、恒久性はないといえる。
また、エンティティ間の関係(関係クラス)としては、1対1でエンティティ同士が関係付けられる場合もあれば、1対多でエンティティ同士が関係付けられる場合もある。例えば、「日本」・「東京」の「首都」という関係では、エンティティ同士が1対1の対になる。言い換えると、関係クラスに一意性があるといえる。一方、例えば、企業の創設者などは複数人存在する場合がある。このような場合、企業と創設者である複数人とが1対多で関係付けられるため、「創設者」という関係クラスには一意性がないといえる。
さらに、編集の対象となる文書やデータベースが複数の編集者により編集される場合には、各編集者の信頼度(即ち、各編集者が編集する情報の信頼度)が編集者毎にばらつき、信頼度の高い情報もあれば、信頼度の低い情報もあることが考えられる。
そこで、本実施の形態では、複数の編集者が編集を行う文書やデータベースの編集履歴を蓄積したデータベースを用いた機械学習において、エンティティ間の関係の恒久性、一意性、各編集者の信頼度を考慮した機械学習を行う手順について説明する。
<システムの全体構成>
本実施の形態が適用されるコンピュータシステムについて説明する。図2は、本実施の形態が適用されるコンピュータシステムの全体構成例を示した図である。図示するように、このコンピュータシステムでは、クライアント端末100(図示の例では、クライアント端末100a〜100c)、情報記憶装置200、及び分類装置300がネットワーク400に接続されている。
クライアント端末100は、編集の対象となる文書やデータベースの編集者が使用する端末装置であり、例えば、携帯情報端末(いわゆる、スマートフォンやタブレット端末等)やPC(Personal Computer)などを例示することができる。編集者は、このクライアント端末100を使用して、情報記憶装置200に記憶されている文書やデータベースの編集を行う。言い換えると、クライアント端末100は、編集者の操作入力に基づいて、文書やデータベースの編集に係る情報を情報記憶装置200へ送信する。
なお、図2では、3台のクライアント端末100しか示していないが、3台に限定されるものではなく、実際には、編集を行う複数の編集者のクライアント端末が対象となる。
情報記憶装置200は、クライアント端末100により編集される文書やデータベースを記憶するコンピュータ装置であり、サーバ等を例示することができる。より具体的には、情報記憶装置200は、例えば、Wikipediaのようなインターネット上の辞典を構成するデータベースを記憶するサーバである。また、情報記憶装置200では、文書やデータベースに対する編集履歴についてもデータベースとして管理されている。この編集履歴を表すデータベース(以下、編集履歴データベースと称する場合がある)の情報は、分類装置300へ出力される。この編集履歴データベースとしては、例えば、Wikipediaからの構造化コンテントの抽出を目的とする、DBpedia等を例示することができる。なお、本実施の形態では、互いに関係を有する複数の情報の編集履歴を蓄積したデータベースの一例として、編集履歴データベースが用いられる。
なお、図2では、1台の情報記憶装置200しか示していないが、1台に限定されるものではなく、複数の情報記憶装置200を用いても良い。
情報処理装置の一例としての分類装置300は、情報記憶装置200に記憶された編集履歴データベースの情報を利用して機械学習を行うコンピュータ装置である。分類装置300としては、例えば、PC、ワークステーション等が例示される。
より具体的には、分類装置300は、情報記憶装置200から編集履歴データベースの情報を取得し、取得した編集履歴データベースの情報を基に機械学習を行う。そして、詳しくは後述するが、この機械学習において、分類装置300は、取得した編集履歴データベースの情報を基に、エンティティ間の関係(即ち、関係クラス)の恒久性の有無及び一意性の有無を判定するための学習モデルを生成する。そして、分類装置300は、学習モデルを生成した後、生成した学習モデルを用いて、編集履歴データベースに含まれる関係クラスに対して、恒久性の有無及び一意性の有無を判定する。なお、機械学習の手法、学習モデルを作成する手法については、従来の手法を用いれば良い。また、本実施の形態では、一定の属性の一例として、恒久性、一意性が用いられる。
ネットワーク400は、クライアント端末100、情報記憶装置200、分類装置300の間の情報通信に用いられる通信手段であり、例えば、インターネットである。
なお、図2に示す例では、分類装置300は、情報記憶装置200から、編集履歴データベースの情報を取得することとしたが、このような構成に限られるものではない。例えば、分類装置300が、編集履歴データベースを記憶することとしても良い。また、編集履歴データベースの情報を記憶しておく別の記憶装置を設けて、分類装置300は、その別の記憶装置から編集履歴データベースの情報を取得するような構成にしても良い。
<分類装置のハードウェア構成>
次に、本実施の形態に係る分類装置300のハードウェア構成について説明する。図3は、本実施の形態に係る分類装置300のハードウェア構成例を示す図である。図示するように、分類装置300は、演算手段であるCPU(Central Processing Unit)301と、記憶手段であるメインメモリ302及び磁気ディスク装置303とを備える。
ここで、CPU301は、OS(Operating System)やアプリケーション等の各種プログラムを実行し、分類装置300の各種機能を実現する。また、メインメモリ302は、各種プログラムやその実行に用いるデータ等を記憶する記憶領域である。また、磁気ディスク装置303は、各種プログラムに対する入力データや各種プログラムからの出力データ等を記憶する記憶領域である。
さらに、分類装置300は、外部との通信を行うための通信インタフェース(通信I/F)304と、ビデオメモリやディスプレイ等からなる表示機構305と、キーボードやマウス等の入力デバイス306とを備える。
<分類装置の機能構成>
図4は、本実施の形態に係る分類装置300の機能構成例を示したブロック図である。
分類装置300は、編集履歴データベースの情報を取得するデータベース情報取得部311と、データベースの編集者の信頼度を算出する信頼度算出部312と、関係クラスについての恒久性の有無及び一意性の有無を定義したリスト(以下、関係クラスリストと称する)を格納する関係クラスリスト格納部313とを備える。
また、分類装置300は、編集履歴データベースの情報を基に、編集に係る特徴量を計算する特徴量計算部314と、機械学習を行って学習モデルを生成する学習部315と、生成された学習モデルを格納する学習モデル格納部316と、学習モデルを用いて、関係クラスについての恒久性の有無及び一意性の有無を判定する関係判定部317と、判定結果を出力する判定結果出力部318とを備える。
データベース情報取得部311は、情報記憶装置200に記憶されている編集履歴データベースの情報を取得する。この編集履歴データベースの情報には、編集者によって編集されたエンティティの情報、エンティティ間の関係を示す関係クラスの情報、編集した編集者の情報、編集日時の情報などが含まれる。
信頼度算出部312は、データベース情報取得部311が取得した編集履歴データベースの情報を基に、編集者の信頼度を算出する。ここで、信頼度算出部312は、編集者がデータベースを編集した回数などを基に、各編集者の信頼度を算出する。
関係クラスリスト格納部313は、関係クラスについての恒久性の有無及び一意性の有無を定義した関係クラスリストを格納する。この関係クラスリストは、関係クラス毎に、恒久性の有無、一意性の有無が定義されており、例えば、関係クラスについての恒久性の有無及び一意性の有無を示すラベルを人手によって付けることで作成される。関係クラスリストの情報は、学習部315の機械学習における教師データとして用いられる。
特徴量計算部314は、データベース情報取得部311が取得した編集履歴データベースの情報を基に、編集に係る特徴量、言い換えると、関係クラスの恒久性の有無及び一意性の有無を判定するための特徴量を計算する。また、ここで計算される特徴量は、複数の情報の時間的変化に基づく特徴量の一例として捉えることができる。
より具体的には、特徴量計算部314は、関係クラスについての恒久性の有無を判定するための特徴量として、関係クラス毎に、エンティティが出現する出現頻度の時間的な分散(時間分散)、及びエンティティの編集を行った編集者の信頼度の合計値を計算する。また、特徴量計算部314は、関係クラスについての一意性の有無を判定するための特徴量として、関係クラス毎に、エンティティが出現する出現頻度の時間的な平均(時間平均)、及びエンティティの編集を行った編集者の信頼度の合計値を計算する。特徴量計算部314が計算するこれらの特徴量の詳細については、後述する。
学習部315は、機械学習の学習プロセスにおいて、学習モデルの生成を行う。より具体的には、学習部315は、特徴量計算部314が計算した特徴量、及び関係クラスリストにて定義されている関係クラスの情報を基に、学習を行う。そして、関係クラスについての恒久性の有無及び一意性の有無を判定するための学習モデルの更新・生成を行う。なお、学習部315が学習に用いるデータ(以下、学習データと称する)の詳細については、後述する。
学習モデル格納部316は、学習部315による学習にて更新・生成された学習モデルを格納する。
関係判定部317は、機械学習の分類プロセスにおいて、関係クラスについての恒久性の有無及び一意性の有無を判定する。ここで、関係判定部317は、学習部315により生成された学習モデルを用いて、編集履歴データベースに含まれる関係クラスを対象として、恒久性の有無及び一意性の有無を判定する。より具体的には、関係判定部317は、学習モデルに対して、判定対象とする関係クラスの特徴量(特徴量計算部314が計算した特徴量)を入力することにより、関係クラスについての恒久性の有無及び一意性の有無を判定する。なお、関係判定部317が判定対象とする関係クラスのデータ(以下、判定対象データと称する)の詳細については、後述する。
ここで、関係判定部317は、判定対象とする関係クラスの特徴量が予め定められた条件を満たす場合に、関係クラスが一定の属性(即ち、恒久性、一意性)を有すると判定するものとして捉えることができる。
判定結果出力部318は、関係判定部317による判定結果を出力する。出力される判定結果は、例えば、分類装置300の表示機構305に表示されたり、通信I/F304を介して他の装置へ出力されたりする。
ここで、判定結果出力部318は、判定対象とする関係クラスの特徴量が予め定められた条件を満たす場合に、関係クラスが一定の属性(即ち、恒久性、一意性)を有することを示す情報を出力するものとして捉えることができる。
また、本実施の形態では、取得手段の一例として、データベース情報取得部311が用いられる。算出手段の一例として、信頼度算出部312、特徴量計算部314が用いられる。出力手段の一例として、関係判定部317、判定結果出力部318が用いられる。
なお、図4に示す分類装置300を構成する各機能部は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、分類装置300を図3に示したハードウェア構成にて実現した場合、磁気ディスク装置303に格納されているOSのプログラムやアプリケーション・プログラムが、メインメモリ302に読み込まれてCPU301に実行されることにより、データベース情報取得部311、信頼度算出部312、特徴量計算部314、学習部315、関係判定部317、判定結果出力部318等の各機能が実現される。また、関係クラスリスト格納部313、学習モデル格納部316は、メインメモリ302や磁気ディスク装置303等の記憶手段により実現される
<編集履歴データベースの情報の説明>
次に、情報記憶装置200から取得される編集履歴データベースの情報について、具体例を挙げて説明する。図5は、情報記憶装置200から取得される編集履歴データベースの情報の一例を示す図である。
ここで、「関係クラス」は、「エンティティ1」のエンティティと「エンティティ2」のエンティティとの間の関係を示す関係クラスである。「編集者ID」は、データベースを編集した編集者のID(編集者ID)を示す。この編集者IDは、編集者を一意に識別するために各編集者に付与されるID(identification)である。「追加・削除」は、データベースに対して行われた編集操作が追加又は削除の何れであるかを示す。「日時」は、データベースの編集が行われた日時を示す。
例えば、項番1のデータは、「エンティティ1」が「Steve」、「エンティティ2」が「A社」であり、「関係クラス」が「CeoOf」である。ここで、「CeoOf」は、企業のCEOを示す関係クラスである。よって、項番1のデータでは、A社のCEOがSteveであることを示している。また、「編集者ID」が「001」の編集者が、2000年1月に、このデータを追加したことを示している。
また、例えば、項番2のデータは、「編集者ID」が「002」の編集者が、2010年1月に、A社のCEOがSteveであることを示すデータを削除したことを示している。
さらに、例えば、項番3のデータは、「編集者ID」が「002」の編集者が、2010年1月に、新たな情報を追加したことを示している。ここで追加された情報は、「エンティティ1」が「Tim」、「エンティティ2」が「A社」であり、「関係クラス」が「CeoOf」である。よって、A社のCeoがTimであることを示すデータが追加されたことを示している。
また、例えば、項番4のデータは、「エンティティ1」が「Barak」、「エンティティ2」が「アメリカ」であり、「関係クラス」が「BornIn」である。ここで、「BornIn」は、出生地を示す関係クラスである。よって、項番4のデータでは、Barakの出生地がアメリカであることを示している。また、「編集者ID」が「002」の編集者が、2010年1月に、このデータを追加したことを示している。
このように、情報記憶装置200には、図5に示すような編集履歴データベースが記憶されている。分類装置300は、機械学習のために、情報記憶装置200からこのような編集履歴データベースの情報を取得する。
<編集者信頼度の説明>
次に、信頼度算出部312が算出する編集者の信頼度について、具体例を挙げて説明する。図6は、信頼度算出部312が算出する編集者の信頼度の一例を示す図である。
図6に示すように、信頼度算出部312は、編集履歴データベースの情報を基に、各編集者の信頼度を算出する。例えば、信頼度算出部312は、編集者の編集回数が多いほど編集者の信頼度も高いものと捉えて、総編集回数をそのまま編集者の信頼度とする。
例えば、「編集者ID」が「001」の編集者は、総編集回数が1回である。よって、この編集者の信頼度は、「1」として算出される。また、例えば、「編集者ID」が「002」の編集者は、総編集回数が3回である。よって、この編集者の信頼度は、「3」として算出される。さらに、例えば、「編集者ID」が「003」の編集者は、総編集回数が0回である。よって、この編集者の信頼度は、「0」として算出される。
このようにして、信頼度算出部312は、編集履歴データベースの情報を基に、各編集者の信頼度を算出する。
なお、編集者の信頼度を算出する手法としては、ここで説明した手法に限定されるものではなく、どのような手法を用いても良い。例えば、他の編集者によって修正された回数を考慮しても良い。この場合には、例えば、編集者の「総編集回数」に対する「他の編集者によって修正された回数」の割合を求め、求めた割合を1から引くことによって、信頼度が算出される。
例えば、「編集者ID」が「001」の編集者は、総編集回数が1回で、そのうち他の編集者によって修正された回数が0回である。よって、この編集者の信頼度は、「1」(=1−0/1)として算出される。また、例えば、「編集者ID」が「002」の編集者は、総編集回数が3回で、そのうち他の編集者によって修正された回数が2回である。よって、この編集者の信頼度は、「1/3」(=1−2/3)として算出される。
<関係クラスリストの説明>
次に、関係クラスリスト格納部313に格納されている関係クラスリストについて、具体例を挙げて説明する。図7は、関係クラスリストの一例を示す図である。図7に示すように、関係クラスリストでは、関係クラス毎に、恒久性の有無及び一意性の有無が予め定義されている。
例えば、項番1のデータでは、「関係クラス」が「CeoOf」であり、「恒久性」は「なし」、「一意性」は「あり」ということを示している。より具体的には、企業のCEOは、恒久性がなく、エンティティ(ここでは、企業のCEOである人物)が時間的に変化することを示している。また、企業のCEOは、一意性があり、複数のエンティティ(企業のCEOである人物)が同時に存在しないこと、言い換えると、エンティティ同士(ここでは、企業とそのCEOである人物)が1対1の対であることを示している。
また、例えば、項番2のデータでは、「関係クラス」が「BornIn」であり、「恒久性」は「あり」、「一意性」は「あり」ということを示している。より具体的には、出生地は、恒久性があり、エンティティ(ここでは、出生地である場所)が時間的に変化しないことを示している。また、出生地は、一意性があり、複数のエンティティ(出生地である場所)が複数同時に存在しないこと、言い換えると、エンティティ同士(ここでは、人物とその出生地である場所)が1対1の対であることを示している。
<特徴量計算部が計算する特徴量の説明>
次に、特徴量計算部314が計算する特徴量について説明する。特徴量としては、上述したように、時間分散、時間平均、編集を行った編集者の信頼度の合計値が計算される。
まず、時間分散、時間平均について説明する。
ここで、連続変数f(t)の区間[a,b]における時間平均μ、時間分散σはそれぞれ、以下の数1式、数2式により算出される。
Figure 0006743623
Figure 0006743623
数1式、数2式を用いて計算される特徴量(時間平均μ、時間分散σ)について、具体例を挙げて説明する。図8は、特徴量計算部314が計算する特徴量の一例を説明するための図である。ここで、特徴量計算部314は、図5の項番1〜3のデータを基に、関係クラス「CeoOf」について、特徴量を計算するものとして説明する。より具体的には、特徴量計算部314は、関係クラス「CeoOf」とエンティティ「A社」との組み合わせについて、特徴量を計算する。言い換えると、A社のCEOについての特徴量を計算する。
図5の項番1〜3のデータにおいて、編集日時が2000年1月〜2010年1月の間(10年)は、A社のCEOが「Steve」であることが示されている。また、2010年1月以降、言い換えると、2010年1月〜現在(例えば、2015年1月)の間(5年)は、A社のCEOが「Tim」であることが示されている。ここで、特徴量計算部314は、「エンティティ1」の「Steve」、「Tim」のそれぞれに対して、時間平均及び時間分散を計算する。
より具体的には、「Steve」の時間平均μは、数1式を基にして、以下の数3式により算出される。また、「Steve」の時間分散σは、数2式を基にして、以下の数4式により算出される。
同様に、「Tim」の時間平均μは、数1式を基にして、以下の数5式により算出される。また、「Tim」の時間分散σは、数2式を基にして、以下の数6式により算出される。
ここで、区間[a,b]としては、[2000年1月,2015年1月]の値が用いられる。また、「エンティティ1」が出現した区間の値を「1」、出現しない区間の値を「0」として計算する。
Figure 0006743623
Figure 0006743623
Figure 0006743623
Figure 0006743623
そして、特徴量計算部314は、「Steve」の時間平均μと、「Tim」の時間平均μとを足して、A社CEOの時間平均和を計算する。ここでは、A社CEOの時間平均和は、1(=μ+μ= 1/3+2/3)として計算される。
また、特徴量計算部314は、関係クラス「CeoOf」について、編集履歴データベースの情報を基に、エンティティ「A社」以外のエンティティについても同様にして、時間平均和を計算する。より具体的には、特徴量計算部314は、例えば、B社のCEO、C社のCEOなど、A社以外の企業のCEOについて時間平均和を計算する。ここで、B社のCEOが「Tom」、「Bob」の場合、「Tom」の時間平均、「Bob」の時間平均を計算し、それらを足してB社CEOの時間平均和を計算する。また、C社のCEOが「Jim」の1人である場合、「Jim」の時間平均を計算し、その値をC社CEOの時間平均和とする。そして、各社CEOの時間平均和に対して、平均値(時間平均和の平均値μave)、最大値(時間平均和の最大値μmax)、最小値(時間平均和の最小値μmin)を計算する。これらの計算された値は、一意性の有無を判定するための特徴量であり、学習データ又は判定対象データに使用されて機械学習が行われる。
さらに、特徴量計算部314は、関係クラス「CeoOf」について、編集履歴データベースの情報を基に、エンティティ「A社」以外のエンティティについても同様にして、時間分散を計算する。より具体的には、特徴量計算部314は、例えば、B社のCEO、C社のCEOなど、A社以外の企業のCEOについて時間分散を計算する。例えば、上述したように、B社のCEOが「Tom」、「Bob」の場合、「Tom」の時間分散、「Bob」の時間分散を計算する。また、C社のCEOが「Jim」の場合、「Jim」の時間分散を計算する。そして、各社CEOの時間分散、ここでは、A社の「Steve」、「Tim」、B社の「Tom」、「Bob」、C社の「Jim」の5人の時間分散に対して、平均値(時間分散の平均値σave)、最大値(時間分散の最大値σmax)、最小値(時間分散の最小値σmin)を計算する。これらの計算された値は、恒久性の有無を判定するための特徴量であり、学習データ又は判定対象データに使用されて機械学習が行われる。
次に、特徴量として、編集を行った編集者の信頼度の合計値について説明する。
例えば、特徴量計算部314は、図5の項番1〜3のデータを基に、関係クラス「CeoOf」について、特徴量を計算するものとして説明する。図5の項番1〜3のデータの編集者はそれぞれ、「編集者ID」が「001」、「002」、「002」である。また、例えば、「編集者ID」が「001」の編集者の信頼度は「1」であり、「編集者ID」が「002」の編集者の信頼度は「3」である。よって、「001」、「002」、「002」の編集者の信頼度の合計値は、7(=1+3+3)として計算される。
このようにして、特徴量計算部314は、編集履歴データベースの情報を基に、一意性の有無を判定するための特徴量として、時間平均に関する特徴量、即ち、「時間平均和の平均値μave」、「時間平均和の最大値μmax」、「時間平均和の最小値μmin」を計算する。また、恒久性の有無を判定するための特徴量として、時間分散に関する特徴量、即ち、「時間分散の平均値σave」、「時間分散の最大値σmax」、「時間分散の最小値σmin」を計算する。さらに、「編集者の信頼度の合計値」は、恒久性の有無を判定するための特徴量、及び、一意性の有無を判定するための特徴量として計算される。
なお、本実施の形態では、編集を行った編集者の信頼度の合計値を特徴量とする構成に限られるものではない。編集者の信頼度を基に特徴量を計算すれば良く、例えば、編集を行った編集者の信頼度の合計値ではなく、編集を行った編集者の信頼度を平均した値を特徴量としても良い。
また、上述した例では、エンティティが出現した区間の値を「1」、出現しない区間の値を「0」として計算したが、このような構成に限られるものではない。エンティティが出現した区間の値を「α」、出現しない区間の値を「β」として、α及びβに何らかの値を設定して特徴量を計算すれば良い。
<関係クラスの特徴量の分布の例>
関係クラスと特徴量との関係について、さらに説明する。図9は、関係クラスの特徴量の分布の一例を説明するための図である。図9に示すグラフにおいて、縦軸は一意性のレベルを示し、横軸は恒久性のレベルを示す。
ここで、一意性については、時間平均和が1(時間平均和 =1)の関係クラスは一意性あり、時間平均和が1ではない(時間平均和 ≠1)関係クラスは一意性なしであるといえる。即ち、座標平面を4つに分けたうちの第1象限(図9に示す領域A1)、第2象限(図9に示す領域A2)は、一意性ありの関係クラスが属する領域である。一方、第3象限(図9に示す領域A3)、第4象限(図9に示す領域A4)は、一意性なしの関係クラスが属する領域である。
また、恒久性については、時間分散が0(時間分散 =0)の関係クラスは恒久性あり、時間分散が0ではない(時間分散 ≠0)関係クラスは、恒久性なしであるといえる。即ち、第1象限、第4象限は、恒久性ありの関係クラスが属する領域である。また、第2象限、第3象限は、恒久性なしの関係クラスが属する領域である。
例えば、領域A2には、関係クラス「CeoOf」が属している。より具体的には、ある時期のA社のCEOは「Steve」であり、「Steve」の後のCEOは「Tim」である。この場合、図8にて説明したように、A社のCEOである「Steve」、「Tim」のそれぞれについて時間平均及び時間分散を計算した結果、時間平均和は1になり、時間分散は0にならない。即ち、関係クラス「CeoOf」は、一意性はあるが恒久性はない関係クラスとして、領域A2に属することになる。
また、例えば、領域A1には、関係クラス「BornIn」が属している。より具体的には、Barakの出生地がアメリカである場合、「アメリカ」について時間平均及び時間分散を計算した結果、時間平均和は1になり、時間分散は0になる。即ち、関係クラス「BornIn」は、一意性があり恒久性もある関係クラスとして、領域A1に属することになる。
同様に、例えば、領域A3には、関係クラス「EmployedBy」が属している。ここで、関係クラス「EmployedBy」は、企業の従業員を示す関係クラスである。より具体的には、B社には、従業員として「Jiro」、「Hanako」、「Taro」の3人が勤務している。この場合、B社の従業員である「Jiro」、「Hanako」、「Taro」のそれぞれについて時間平均及び時間分散を計算した結果、時間平均和は1にならず、時間分散も0にならない。即ち、関係クラス「EmployedBy」は、一意性がなく恒久性もない関係クラスとして、領域A3に属することになる。
また、例えば、領域A4には、関係クラス「FounderOf」が属している。より具体的には、C社の創設者は「Allen」、「Gates」の2人である。この場合、C社の創設者である「Allen」、「Gates」のそれぞれについて時間平均及び時間分散を計算した結果、時間平均和は1にならず、時間分散は0になる。即ち、関係クラス「FounderOf」は、一意性がなく恒久性はある関係クラスとして、領域A4に属することになる。
このように、各関係クラスは、特徴量により、恒久性の有無、一意性の有無が決まることになる。ただし、データの誤りやデータの欠落などにより、本来は一意性のある関係クラスであるのに、時間平均和が1にならなかったり、本来は恒久性のある関係クラスであるのに時間分散が0にならなかったりする場合が考えられる。また、編集された情報には、各編集者の信頼度が関わってくる。よって、本実施の形態に係る分類装置300は、編集履歴データベースの情報を基に機械学習を行うことにより、学習モデルを作成し、関係クラスの恒久性の有無、一意性の有無を判定する。
<学習データの説明>
次に、学習部315が機械学習の学習プロセスにおいて用いる学習データについて、具体例を挙げて説明する。図10は、学習データの一例を説明するための図である。
図10に示すように、学習データには、関係クラス毎に、「時間分散の平均値σave」、「時間分散の最大値σmax」、「時間分散の最小値σmin」、「時間平均和の平均値μave」、「時間平均和の最大値μmax」、「時間平均和の最小値μmin」、「編集者の信頼度の合計値」、「恒久性」、「一意性」が含まれる。
ここで、「時間分散の平均値σave」、「時間分散の最大値σmax」、「時間分散の最小値σmin」、「編集者の信頼度の合計値」は、関係クラスについての恒久性の有無を判定するための特徴量として、特徴量計算部314が計算した特徴量である。また、「時間平均和の平均値μave」、「時間平均和の最大値μmax」、「時間平均和の最小値μmin」、「編集者の信頼度の合計値」は、関係クラスについての一意性の有無を判定するための特徴量として、特徴量計算部314が計算した特徴量である。そして、「恒久性」、「一意性」は、関係クラスリストで定義された情報である。
このように、機械学習の学習プロセスでは、特徴量計算部が計算した特徴量と関係クラスリストで定義された情報とが学習データとして用いられる。そして、関係クラスの恒久性の有無、一意性の有無が正しく出力されるように、従来の機械学習の手法により、学習モデルを構成する重み付けの調整が行われて、学習モデルが生成される。
<判定対象データの例>
次に、関係判定部317が機械学習の分類プロセスにおいて用いる判定対象データについて、具体例を挙げて説明する。図11は、判定対象データの一例を説明するための図である。
図11に示すように、判定対象データには、関係クラス毎に、「時間分散の平均値σave」、「時間分散の最大値σmax」、「時間分散の最小値σmin」、「時間平均和の平均値μave」、「時間平均和の最大値μmax」、「時間平均和の最小値μmin」、「編集者の信頼度の合計値」が含まれる。これらの項目は、特徴量計算部314が計算する特徴量であり、学習データに含まれる項目と同じである。関係判定部317は、これらの各項目のデータを学習モデルに入力することにより、関係クラスについての恒久性の有無及び一意性の有無を判定する。
例えば、項番1のデータでは、関係クラス「FounderOf」について、特徴量計算部314が計算した特徴量が示されている。ここで、「FounderOf」は、企業の創設者を示す関係クラスである。よって、項番1のデータは、企業の創設者についての恒久性の有無及び一意性の有無を判定するためのデータといえる。
例えば、編集履歴データベースの情報として、C社の創業者、D社の創業者の情報が取得されたものとする。ここで、C社の創業者が「Allen」、「Gates」の場合、「Allen」の時間平均、「Gates」の時間平均が計算され、それらの値を足して時間平均和が計算される。また、「Allen」の時間分散、「Gates」の時間分散も計算される。同様に、D社の創業者が「Ken」、「Joe」の場合、「Ken」の時間平均、「Joe」の時間平均が計算され、それらの値を足して時間平均和が計算される。また、「Ken」の時間分散、「Joe」の時間分散が計算される。
そして、特徴量計算部314は、C社の時間平均和、D社の時間平均和の平均値を「時間平均和の平均値μave」とする。また、C社の時間平均和、D社の時間平均和のうちの最大値(この例では、2つのうちの大きい方の値)を「時間平均和の最大値μmax」とする。さらに、C社の時間平均和、D社の時間平均和のうちの最小値(この例では、2つのうちの小さい方の値)を「時間平均和の最小値μmin」とする。図11に示す例では、関係クラス「FounderOf」の「時間平均和の平均値μave」、「時間平均和の最大値μmax」、「時間平均和の最小値μmin」はそれぞれ、「0.1」、「0.1」、「0.1」である。
また、特徴量計算部314は、「Allen」、「Gates」、「Ken」、「Joe」の4つの時間分散の平均値を「時間分散の平均値σave」とする。また、「Allen」、「Gates」、「Ken」、「Joe」の4つの時間分散のうちの最大値を「時間分散の最大値σmax」とする。さらに、特徴量計算部314は、「Allen」、「Gates」、「Ken」、「Joe」の4つの時間分散のうちの最小値を「時間分散の最小値σmin」とする。図11に示す例では、関係クラス「FounderOf」の「時間分散の平均値σave」、「時間分散の最大値σmax」、「時間分散の最小値σmin」はそれぞれ、「0.2」、「0.2」、「0.2」である。
また、特徴量計算部314は、信頼度算出部312により算出された各編集者の信頼度を基に、関係クラス「FounderOf」について編集した編集者の信頼度の合計値を算出する。図11に示す例では、関係クラス「FounderOf」の「編集者の信頼度の合計値」は、「2」である。
そして、関係判定部317は、「時間平均和の平均値μave」、「時間平均和の最大値μmax」、「時間平均和の最小値μmin」、「編集者の信頼度の合計値」、即ち、「0.1」、「0.1」、「0.1」、「2」の値を学習モデルに入力して、関係クラス「FounderOf」の一意性の有無を判定する。
また、関係判定部317は、「時間分散の平均値σave」、「時間分散の最大値σmax」、「時間分散の最小値σmin」、「編集者の信頼度の合計値」、即ち、「0.2」、「0.2」、「0.2」、「2」の値を学習モデルに入力して、関係クラス「FounderOf」の恒久性の有無を判定する。
<学習プロセスの手順>
次に、分類装置300による機械学習の学習プロセスにおける手順について説明する。図12は、分類装置300による機械学習の学習プロセスにおける手順の一例を示したフローチャートである。
まず、データベース情報取得部311は、情報記憶装置200から編集履歴データベースの情報を取得する(ステップ101)。ここで、データベース情報取得部311は、図5に示すような編集履歴データベースの情報を取得する。次に、信頼度算出部312は、データベース情報取得部311が取得した編集履歴データベースの情報を基に、編集者の信頼度を計算する(ステップ102)。
次に、特徴量計算部314は、データベース情報取得部311が取得した編集履歴データベースの情報を基に、編集に係る特徴量を計算する(ステップ103)。ここで、特徴量計算部314は、関係クラスについての恒久性の有無を判定するための特徴量として、関係クラス毎に、エンティティの時間分散の平均値σave、時間分散の最大値σmax、時間分散の最小値σmin、編集者の信頼度の合計値を計算する。また、特徴量計算部314は、関係クラスについての一意性の有無を判定するための特徴量として、関係クラス毎に、エンティティの時間平均和の平均値μave、時間平均和の最大値μmax、時間平均和の最小値μmin、編集者の信頼度の合計値を計算する。
次に、学習部315は、特徴量計算部314が計算した特徴量と関係クラスリストで定義されている情報とを基に、即ち、図10に示すような学習データを基に、学習を行い、学習モデルの更新・生成を行う(ステップ104)。そして、本処理フローは終了する。
<分類プロセスの手順>
次に、分類装置300による機械学習の分類プロセスにおける手順について説明する。図13は、分類装置300による機械学習の分類プロセスにおける手順の一例を示したフローチャートである。この分類プロセスは、学習プロセスにより学習モデルが生成された後に行われる。
この分類プロセスでは、学習プロセスと同様に、情報記憶装置200から編集履歴データベースの情報を取得し、特徴量の計算が行われる。このステップ201〜ステップ203の処理は、図12に示すステップ101〜ステップ103の処理と同様であるので、ここでは説明を省略する。
ステップ203の後、関係判定部317は、特徴量計算部314が計算した特徴量の情報、即ち、図11に示すような判定対象データの情報を学習モデルに入力することにより、判定対象とされた関係クラスについての恒久性の有無及び一意性の有無を判定する(ステップ204)。次に、判定結果出力部318は、関係判定部317による判定結果を出力する(ステップ205)。そして、本処理フローは終了する。
なお、本実施の形態において、分類装置300は、関係クラスについて恒久性の有無及び一意性の有無の両方について機械学習することとしたが、このような構成に限られるものではない。例えば、分類装置300の学習部315は、機械学習の学習プロセスにおいて、関係クラスについての恒久性の有無又は一意性の有無の何れか一方を判定するための学習モデルを生成することとしても良い。また、例えば、分類装置300の関係判定部317は、ある関係クラスに対して、例えば、恒久性の有無を判定せずに一意性の有無を判定したり、一意性の有無を判定せずに恒久性の有無を判定したりしても良い。
また、本実施の形態では、1台の分類装置300が、データベース情報取得部311、信頼度算出部312、関係クラスリスト格納部313、特徴量計算部314、学習部315、学習モデル格納部316、関係判定部317、判定結果出力部318の機能を有することとしたが、これらの機能を1台の装置ではなく複数台の装置で実現しても良い。
また、本発明の実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD−ROM等の記録媒体に格納して提供することも可能である。
以上、本発明の実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
300…分類装置、311…データベース情報取得部、312…信頼度算出部、313…関係クラスリスト格納部、314…特徴量計算部、315…学習部、316…学習モデル格納部、317…関係判定部、318…判定結果出力部

Claims (6)

  1. 互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する取得手段と、
    前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する算出手段と、
    前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する出力手段と
    を備える情報処理装置。
  2. 前記算出手段は、前記特徴量として、前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報について編集を行った編集者の信頼度による特徴量を算出すること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記算出手段は、前記編集者の信頼度として、編集者毎に、編集者が編集を行った回数に基づく値を算出すること
    を特徴とする請求項2に記載の情報処理装置。
  4. 前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な分散による特徴量を算出し、
    前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が時間的に変化しないことを示す情報を出力すること
    を特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な平均による特徴量を算出し、
    前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が1対1の対であることを示す情報を出力すること
    を特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. コンピュータに、
    互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する機能と、
    取得された前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する機能と、
    算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する機能と
    を実現させるためのプログラム。
JP2016190217A 2016-09-28 2016-09-28 情報処理装置及びプログラム Active JP6743623B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016190217A JP6743623B2 (ja) 2016-09-28 2016-09-28 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016190217A JP6743623B2 (ja) 2016-09-28 2016-09-28 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2018055376A JP2018055376A (ja) 2018-04-05
JP6743623B2 true JP6743623B2 (ja) 2020-08-19

Family

ID=61835864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016190217A Active JP6743623B2 (ja) 2016-09-28 2016-09-28 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6743623B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7201404B2 (ja) 2018-11-15 2023-01-10 キヤノンメディカルシステムズ株式会社 医用画像処理装置、医用画像処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2018055376A (ja) 2018-04-05

Similar Documents

Publication Publication Date Title
Talpur et al. Cyberbullying severity detection: A machine learning approach
US9582569B2 (en) Targeted content distribution based on a strength metric
Sloan et al. Who tweets? Deriving the demographic characteristics of age, occupation and social class from Twitter user meta-data
Hassan et al. Beyond DCG: user behavior as a predictor of a successful search
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
US11106718B2 (en) Content moderation system and indication of reliability of documents
US20170116203A1 (en) Method of automated discovery of topic relatedness
Sarabadani et al. Building automated vandalism detection tools for Wikidata
Golbeck Predicting personality from social media text
US8682830B2 (en) Information processing apparatus, information processing method, and program
US20120150772A1 (en) Social Newsfeed Triage
US20150356091A1 (en) Method and system for identifying microblog user identity
KR102053635B1 (ko) 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
US10002187B2 (en) Method and system for performing topic creation for social data
JP6252283B2 (ja) キュレーションされたコンテンツを評価する方法及びシステム
CN110741389A (zh) 改进的实体数据的打通
Markovets et al. The structure of the system of processing citizens’ appeals
US20130019163A1 (en) System
JP5218409B2 (ja) 関連情報検索システム及び関連情報検索方法
Lewoniewski et al. Relative quality assessment of Wikipedia articles in different languages using synthetic measure
JP6743623B2 (ja) 情報処理装置及びプログラム
KR20200126424A (ko) 검열된 미디어 코퍼스에의 통합을 위한 미디어 소스 측정
US11526672B2 (en) Systems and methods for term prevalance-volume based relevance
JP5439100B2 (ja) 文書解析システム
Bukhari et al. URWF: user reputation based weightage framework for twitter micropost classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190910

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200617

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200713

R150 Certificate of patent or registration of utility model

Ref document number: 6743623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350