JP6743623B2 - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP6743623B2 JP6743623B2 JP2016190217A JP2016190217A JP6743623B2 JP 6743623 B2 JP6743623 B2 JP 6743623B2 JP 2016190217 A JP2016190217 A JP 2016190217A JP 2016190217 A JP2016190217 A JP 2016190217A JP 6743623 B2 JP6743623 B2 JP 6743623B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- relationship
- feature amount
- editor
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の目的は、文書中の情報を用いて機械学習を行う構成と比較して、互いに関係を有する複数の情報について、関係に対する分類の精度を向上させることにある。
請求項2に記載の発明は、前記算出手段は、前記特徴量として、前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報について編集を行った編集者の信頼度による特徴量を算出することを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記算出手段は、前記編集者の信頼度として、編集者毎に、編集者が編集を行った回数に基づく値を算出することを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な分散による特徴量を算出し、前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が時間的に変化しないことを示す情報を出力することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置である。
請求項5に記載の発明は、前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な平均による特徴量を算出し、前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が1対1の対であることを示す情報を出力することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置である。
請求項6に記載の発明は、コンピュータに、互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する機能と、取得された前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する機能と、算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する機能とを実現させるためのプログラムである。
請求項2記載の発明によれば、編集者の信頼度に関わらず編集履歴を一律に用いる構成と比較して、関係に対する分類の精度を向上させることができる。
請求項3記載の発明によれば、編集者の信頼度の算出が容易になる。
請求項4記載の発明によれば、編集履歴を蓄積したデータベースの情報を用いる場合であっても、関係を有する複数の情報が時間的に変化しないことを示す情報を出力することができる。
請求項5記載の発明によれば、編集履歴を蓄積したデータベースの情報を用いる場合であっても、関係を有する複数の情報が1対1の対であることを示す情報を出力することができる。
請求項6記載の発明によれば、文書中の情報を用いて機械学習を行う構成と比較して、互いに関係を有する複数の情報について、関係に対する分類の精度を向上させる機能を、コンピュータにより実現できる。
<背景>
まず、本実施の形態の背景について説明する。
図1は、機械学習の一例を説明するための図である。図1に示す例は、従来のニューラルネットワークのモデルを用いた機械学習を示している。具体的には、入力されるデータ(入力データ)は入力層を通り、中間層、出力層を通過して処理され、出力結果(出力データ)が生成される。ここで、学習(訓練)の処理では、複数のデータを入力し、入力層、中間層、出力層を繋ぐ重み付けの調整が行われる。このような学習を行って重み付けを調整することにより、何らかのデータが入力されて分類(識別)する場合に、希望する出力結果が得られるようになる。
そこで、本実施の形態では、複数の編集者が編集を行う文書やデータベースの編集履歴を蓄積したデータベースを用いた機械学習において、エンティティ間の関係の恒久性、一意性、各編集者の信頼度を考慮した機械学習を行う手順について説明する。
本実施の形態が適用されるコンピュータシステムについて説明する。図2は、本実施の形態が適用されるコンピュータシステムの全体構成例を示した図である。図示するように、このコンピュータシステムでは、クライアント端末100(図示の例では、クライアント端末100a〜100c)、情報記憶装置200、及び分類装置300がネットワーク400に接続されている。
なお、図2では、3台のクライアント端末100しか示していないが、3台に限定されるものではなく、実際には、編集を行う複数の編集者のクライアント端末が対象となる。
なお、図2では、1台の情報記憶装置200しか示していないが、1台に限定されるものではなく、複数の情報記憶装置200を用いても良い。
より具体的には、分類装置300は、情報記憶装置200から編集履歴データベースの情報を取得し、取得した編集履歴データベースの情報を基に機械学習を行う。そして、詳しくは後述するが、この機械学習において、分類装置300は、取得した編集履歴データベースの情報を基に、エンティティ間の関係(即ち、関係クラス)の恒久性の有無及び一意性の有無を判定するための学習モデルを生成する。そして、分類装置300は、学習モデルを生成した後、生成した学習モデルを用いて、編集履歴データベースに含まれる関係クラスに対して、恒久性の有無及び一意性の有無を判定する。なお、機械学習の手法、学習モデルを作成する手法については、従来の手法を用いれば良い。また、本実施の形態では、一定の属性の一例として、恒久性、一意性が用いられる。
次に、本実施の形態に係る分類装置300のハードウェア構成について説明する。図3は、本実施の形態に係る分類装置300のハードウェア構成例を示す図である。図示するように、分類装置300は、演算手段であるCPU(Central Processing Unit)301と、記憶手段であるメインメモリ302及び磁気ディスク装置303とを備える。
さらに、分類装置300は、外部との通信を行うための通信インタフェース(通信I/F)304と、ビデオメモリやディスプレイ等からなる表示機構305と、キーボードやマウス等の入力デバイス306とを備える。
図4は、本実施の形態に係る分類装置300の機能構成例を示したブロック図である。
分類装置300は、編集履歴データベースの情報を取得するデータベース情報取得部311と、データベースの編集者の信頼度を算出する信頼度算出部312と、関係クラスについての恒久性の有無及び一意性の有無を定義したリスト(以下、関係クラスリストと称する)を格納する関係クラスリスト格納部313とを備える。
また、分類装置300は、編集履歴データベースの情報を基に、編集に係る特徴量を計算する特徴量計算部314と、機械学習を行って学習モデルを生成する学習部315と、生成された学習モデルを格納する学習モデル格納部316と、学習モデルを用いて、関係クラスについての恒久性の有無及び一意性の有無を判定する関係判定部317と、判定結果を出力する判定結果出力部318とを備える。
ここで、関係判定部317は、判定対象とする関係クラスの特徴量が予め定められた条件を満たす場合に、関係クラスが一定の属性(即ち、恒久性、一意性)を有すると判定するものとして捉えることができる。
ここで、判定結果出力部318は、判定対象とする関係クラスの特徴量が予め定められた条件を満たす場合に、関係クラスが一定の属性(即ち、恒久性、一意性)を有することを示す情報を出力するものとして捉えることができる。
次に、情報記憶装置200から取得される編集履歴データベースの情報について、具体例を挙げて説明する。図5は、情報記憶装置200から取得される編集履歴データベースの情報の一例を示す図である。
さらに、例えば、項番3のデータは、「編集者ID」が「002」の編集者が、2010年1月に、新たな情報を追加したことを示している。ここで追加された情報は、「エンティティ1」が「Tim」、「エンティティ2」が「A社」であり、「関係クラス」が「CeoOf」である。よって、A社のCeoがTimであることを示すデータが追加されたことを示している。
次に、信頼度算出部312が算出する編集者の信頼度について、具体例を挙げて説明する。図6は、信頼度算出部312が算出する編集者の信頼度の一例を示す図である。
なお、編集者の信頼度を算出する手法としては、ここで説明した手法に限定されるものではなく、どのような手法を用いても良い。例えば、他の編集者によって修正された回数を考慮しても良い。この場合には、例えば、編集者の「総編集回数」に対する「他の編集者によって修正された回数」の割合を求め、求めた割合を1から引くことによって、信頼度が算出される。
次に、関係クラスリスト格納部313に格納されている関係クラスリストについて、具体例を挙げて説明する。図7は、関係クラスリストの一例を示す図である。図7に示すように、関係クラスリストでは、関係クラス毎に、恒久性の有無及び一意性の有無が予め定義されている。
次に、特徴量計算部314が計算する特徴量について説明する。特徴量としては、上述したように、時間分散、時間平均、編集を行った編集者の信頼度の合計値が計算される。
ここで、連続変数f(t)の区間[a,b]における時間平均μ、時間分散σはそれぞれ、以下の数1式、数2式により算出される。
同様に、「Tim」の時間平均μ2は、数1式を基にして、以下の数5式により算出される。また、「Tim」の時間分散σ2は、数2式を基にして、以下の数6式により算出される。
ここで、区間[a,b]としては、[2000年1月,2015年1月]の値が用いられる。また、「エンティティ1」が出現した区間の値を「1」、出現しない区間の値を「0」として計算する。
また、特徴量計算部314は、関係クラス「CeoOf」について、編集履歴データベースの情報を基に、エンティティ「A社」以外のエンティティについても同様にして、時間平均和を計算する。より具体的には、特徴量計算部314は、例えば、B社のCEO、C社のCEOなど、A社以外の企業のCEOについて時間平均和を計算する。ここで、B社のCEOが「Tom」、「Bob」の場合、「Tom」の時間平均、「Bob」の時間平均を計算し、それらを足してB社CEOの時間平均和を計算する。また、C社のCEOが「Jim」の1人である場合、「Jim」の時間平均を計算し、その値をC社CEOの時間平均和とする。そして、各社CEOの時間平均和に対して、平均値(時間平均和の平均値μave)、最大値(時間平均和の最大値μmax)、最小値(時間平均和の最小値μmin)を計算する。これらの計算された値は、一意性の有無を判定するための特徴量であり、学習データ又は判定対象データに使用されて機械学習が行われる。
例えば、特徴量計算部314は、図5の項番1〜3のデータを基に、関係クラス「CeoOf」について、特徴量を計算するものとして説明する。図5の項番1〜3のデータの編集者はそれぞれ、「編集者ID」が「001」、「002」、「002」である。また、例えば、「編集者ID」が「001」の編集者の信頼度は「1」であり、「編集者ID」が「002」の編集者の信頼度は「3」である。よって、「001」、「002」、「002」の編集者の信頼度の合計値は、7(=1+3+3)として計算される。
関係クラスと特徴量との関係について、さらに説明する。図9は、関係クラスの特徴量の分布の一例を説明するための図である。図9に示すグラフにおいて、縦軸は一意性のレベルを示し、横軸は恒久性のレベルを示す。
次に、学習部315が機械学習の学習プロセスにおいて用いる学習データについて、具体例を挙げて説明する。図10は、学習データの一例を説明するための図である。
次に、関係判定部317が機械学習の分類プロセスにおいて用いる判定対象データについて、具体例を挙げて説明する。図11は、判定対象データの一例を説明するための図である。
また、関係判定部317は、「時間分散の平均値σave」、「時間分散の最大値σmax」、「時間分散の最小値σmin」、「編集者の信頼度の合計値」、即ち、「0.2」、「0.2」、「0.2」、「2」の値を学習モデルに入力して、関係クラス「FounderOf」の恒久性の有無を判定する。
次に、分類装置300による機械学習の学習プロセスにおける手順について説明する。図12は、分類装置300による機械学習の学習プロセスにおける手順の一例を示したフローチャートである。
次に、分類装置300による機械学習の分類プロセスにおける手順について説明する。図13は、分類装置300による機械学習の分類プロセスにおける手順の一例を示したフローチャートである。この分類プロセスは、学習プロセスにより学習モデルが生成された後に行われる。
Claims (6)
- 互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する取得手段と、
前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する算出手段と、
前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する出力手段と
を備える情報処理装置。 - 前記算出手段は、前記特徴量として、前記取得手段が取得した前記編集履歴から、前記関係を有する複数の情報について編集を行った編集者の信頼度による特徴量を算出すること
を特徴とする請求項1に記載の情報処理装置。 - 前記算出手段は、前記編集者の信頼度として、編集者毎に、編集者が編集を行った回数に基づく値を算出すること
を特徴とする請求項2に記載の情報処理装置。 - 前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な分散による特徴量を算出し、
前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が時間的に変化しないことを示す情報を出力すること
を特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。 - 前記算出手段は、前記特徴量として、前記関係を有する複数の情報が出現する出現頻度の時間的な平均による特徴量を算出し、
前記出力手段は、前記算出手段により算出された前記特徴量が予め定められた条件を満たす場合に、前記関係を有する複数の情報が1対1の対であることを示す情報を出力すること
を特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。 - コンピュータに、
互いに関係を有する複数の情報の編集履歴を蓄積したデータベースから当該編集履歴を取得する機能と、
取得された前記編集履歴から、前記関係を有する複数の情報の時間的変化に基づく特徴量を算出する機能と、
算出された前記特徴量が予め定められた条件を満たす場合に、前記関係が一定の属性を有することを示す情報を出力する機能と
を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016190217A JP6743623B2 (ja) | 2016-09-28 | 2016-09-28 | 情報処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016190217A JP6743623B2 (ja) | 2016-09-28 | 2016-09-28 | 情報処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018055376A JP2018055376A (ja) | 2018-04-05 |
JP6743623B2 true JP6743623B2 (ja) | 2020-08-19 |
Family
ID=61835864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016190217A Active JP6743623B2 (ja) | 2016-09-28 | 2016-09-28 | 情報処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6743623B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7201404B2 (ja) | 2018-11-15 | 2023-01-10 | キヤノンメディカルシステムズ株式会社 | 医用画像処理装置、医用画像処理方法、およびプログラム |
-
2016
- 2016-09-28 JP JP2016190217A patent/JP6743623B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018055376A (ja) | 2018-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Talpur et al. | Cyberbullying severity detection: A machine learning approach | |
US9582569B2 (en) | Targeted content distribution based on a strength metric | |
Sloan et al. | Who tweets? Deriving the demographic characteristics of age, occupation and social class from Twitter user meta-data | |
Hassan et al. | Beyond DCG: user behavior as a predictor of a successful search | |
US8407253B2 (en) | Apparatus and method for knowledge graph stabilization | |
US11106718B2 (en) | Content moderation system and indication of reliability of documents | |
US20170116203A1 (en) | Method of automated discovery of topic relatedness | |
Sarabadani et al. | Building automated vandalism detection tools for Wikidata | |
Golbeck | Predicting personality from social media text | |
US8682830B2 (en) | Information processing apparatus, information processing method, and program | |
US20120150772A1 (en) | Social Newsfeed Triage | |
US20150356091A1 (en) | Method and system for identifying microblog user identity | |
KR102053635B1 (ko) | 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 | |
US10002187B2 (en) | Method and system for performing topic creation for social data | |
JP6252283B2 (ja) | キュレーションされたコンテンツを評価する方法及びシステム | |
CN110741389A (zh) | 改进的实体数据的打通 | |
Markovets et al. | The structure of the system of processing citizens’ appeals | |
US20130019163A1 (en) | System | |
JP5218409B2 (ja) | 関連情報検索システム及び関連情報検索方法 | |
Lewoniewski et al. | Relative quality assessment of Wikipedia articles in different languages using synthetic measure | |
JP6743623B2 (ja) | 情報処理装置及びプログラム | |
KR20200126424A (ko) | 검열된 미디어 코퍼스에의 통합을 위한 미디어 소스 측정 | |
US11526672B2 (en) | Systems and methods for term prevalance-volume based relevance | |
JP5439100B2 (ja) | 文書解析システム | |
Bukhari et al. | URWF: user reputation based weightage framework for twitter micropost classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190910 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200617 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6743623 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |