JP2020057168A - 属性推定システム - Google Patents

属性推定システム Download PDF

Info

Publication number
JP2020057168A
JP2020057168A JP2018186897A JP2018186897A JP2020057168A JP 2020057168 A JP2020057168 A JP 2020057168A JP 2018186897 A JP2018186897 A JP 2018186897A JP 2018186897 A JP2018186897 A JP 2018186897A JP 2020057168 A JP2020057168 A JP 2020057168A
Authority
JP
Japan
Prior art keywords
user
text
unit
expression
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018186897A
Other languages
English (en)
Inventor
康秀 三浦
Yasuhide Miura
康秀 三浦
友紀 谷口
Tomonori Taniguchi
友紀 谷口
元樹 谷口
Motoki Taniguchi
元樹 谷口
翔太郎 三沢
Shotaro Misawa
翔太郎 三沢
大熊 智子
Tomoko Okuma
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2018186897A priority Critical patent/JP2020057168A/ja
Publication of JP2020057168A publication Critical patent/JP2020057168A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】通信ネットワークから取得されるテキストの特徴量に基づいてユーザの属性を推定する精度を向上させる。【解決手段】対象ユーザのテキストおよび関連ユーザのテキストを取得するテキスト取得部110と、取得されたテキストを、このテキストに含まれる各単語が分散表現化された単語列に変換するテキスト解析部120と、ニューラルネットワークを用いて、テキスト解析部120により変換された単語列に対する系列処理を行う系列処理部130と、系列処理の結果に基づき、単語列ごとの特徴量を抽出する特徴量抽出部140と、単語列ごとの特徴量に基づき対象ユーザ表現を抽出する対象ユーザ表現抽出部150と、単語列ごとの特徴量に基づき関連ユーザ表現を抽出する関連ユーザ表現抽出部160と、対象ユーザ表現と関連ユーザ表現とを統合するユーザ表現統合部170と、統合結果を用いて対象ユーザの属性を推定する属性推定部180と、を備える。【選択図】図4

Description

本発明は、属性推定システムに関する。
マーケティングや個人化(パーソナライゼーション)の観点から、SNS(Social Networking Service)等に蓄積された情報を用いてユーザの属性を推定することが要請される場合がある。下記の特許文献1には、ユーザによる投稿文(テキスト)に含まれるキーワードからユーザの属性を推定する技術が開示されている。また、サイト上において、ユーザと属性がわかっている他のユーザとのリンク関係に基づいて、一のユーザの属性を推定することも行われている。さらに、今日、ニューラルネットワークを用い、大量のデータに基づいてユーザの属性を推定することが可能となっている。
特開2013−196070号公報
ニューラルネットワークを用いて推論を行う場合、ニューラルネットワークの学習用データが多いほど、推論の精度を向上させることができる。
本発明は、蓄積された情報からニューラルネットワークを用いてユーザの属性を推定するシステムにおいて、対象となるユーザと、対象となるユーザと通信ネットワーク上で関連付けられている関連ユーザとが各々投稿したテキストの特徴量を、ユーザごとに算出する場合と比較して、対象のユーザの属性を推定する精度を向上させることを目的とする。
請求項1に係る本発明は、
対象ユーザのテキストを取得する第1取得手段と、
前記対象ユーザに関連する関連ユーザのテキストを取得する第2取得手段と、
前記第1取得手段および前記第2取得手段により取得されたテキストを、当該テキストに含まれる各単語が分散表現化された単語列に変換する変換手段と、
ニューラルネットワークを用いて、前記変換手段により変換された前記単語列に対する系列処理を行う系列処理手段と、
前記系列処理手段による系列処理の結果に基づき、前記単語列ごとの特徴量を抽出する特徴量抽出手段と、
前記単語列ごとの特徴量に基づき、前記対象ユーザの特徴量を表す対象ユーザ表現を抽出する対象ユーザ表現抽出手段と、
前記単語列ごとの特徴量に基づき、前記関連ユーザの特徴量を表す関連ユーザ表現を抽出する関連ユーザ表現抽出手段と、
前記対象ユーザ表現と前記関連ユーザ表現とを統合する統合手段と、
前記統合手段による統合結果を用いて前記対象ユーザの属性を推定する推定手段と、
を備えることを特徴とする、属性推定システムである。
請求項2に係る本発明は、
前記第1取得手段および前記第2取得手段は、通信ネットワークを介してテキストを取得し、
前記関連ユーザは、前記通信ネットワーク上において前記対象ユーザとの間で予め定められた接続関係を有するユーザであることを特徴とする、請求項1に記載の属性推定システムである。
請求項3に係る本発明は、
前記通信ネットワークにおいて接続される各ユーザをノードで表し、ユーザ間の接続関係をエッジで表したグラフにおけるノードの分散表現を取得するネットワーク情報取得手段をさらに備え、
前記統合手段は、前記ノードの分散表現に基づき、前記対象ユーザ表現と前記関連ユーザ表現とを統合する処理において当該関連ユーザの情報を取り入れる程度を決定することを特徴とする、請求項2に記載の属性推定システムである。
請求項4に係る本発明は、
前記通信ネットワークにおいて接続される各ユーザをノードで表し、ユーザ間の接続関係をエッジで表したグラフにおけるノードの分散表現を取得するネットワーク情報取得手段をさらに備え、
前記第2取得手段は、前記ノードの分散表現に基づいて前記関連ユーザを決定し、テキストを取得することを特徴とする、請求項2に記載の属性推定システムである。
請求項5に係る本発明は、
前記第2取得手段により取得されたテキストを、当該テキストに含まれる各単語が分散表現化された単語列に変換する関連ユーザ固有変換手段と、
前記ニューラルネットワークを用いて、前記関連ユーザ固有変換手段により変換された前記単語列に対する系列処理を行う関連ユーザ固有系列処理手段と、をさらに備え、
前記関連ユーザのテキストは、前記対象ユーザと当該関連ユーザとの関係に応じて、前記変換手段および前記関連ユーザ固有変換手段のいずれか一方により処理され、
前記特徴量抽出手段は、前記関連ユーザ固有系列処理手段による処理結果がある場合は、当該関連ユーザ固有系列処理手段の処理結果および前記系列処理手段の処理結果に基づき、前記単語列ごとの特徴量を抽出することを特徴とする、請求項1に記載の属性推定システムである。
請求項6に係る本発明は、
通信ネットワークにおいて接続される各ユーザをノードで表し、ユーザ間の接続関係をエッジで表したグラフにおけるノードの分散表現を取得するネットワーク情報取得手段をさらに備え、
前記関連ユーザは、前記通信ネットワーク上において前記対象ユーザとの間で予め定められた接続関係を有するユーザであり、
前記関連ユーザのテキストは、前記対象ユーザのノードの分散表現と前記関連ユーザのノードの分散表現との類似度に応じて、前記変換手段および前記関連ユーザ固有変換手段のいずれか一方により処理されることを特徴とする、請求項5に記載の属性推定システムである。
請求項1の発明によれば、蓄積された情報からニューラルネットワークを用いてユーザの属性を推定するシステムにおいて、対象となるユーザと、対象となるユーザと通信ネットワーク上で関連付けられている関連ユーザとが各々投稿したテキストの特徴量を、ユーザごとに算出する場合と比較して、対象のユーザの属性を推定する精度を向上させることができる。
請求項2の発明によれば、単に同じ通信ネットワークを利用するユーザのテキストを取得して処理する構成と比較して、関連性の高いユーザのテキストを用いることで推定精度の向上を図ることができる。
請求項3の発明によれば、対象ユーザ表現と関連ユーザ表現とを単に統合する構成と比較して、通信ネットワークにおける接続関係に基づき関連ユーザ表現を取り入れる程度を制御することで推定精度の向上を図ることができる。
請求項4の発明によれば、対象ユーザと単に接続関係を有するユーザを区別なく関連ユーザとする構成と比較して、接続関係における対象ユーザとの関連性がより高いユーザを関連ユーザとすることで、推定精度の向上を図ることができる。
請求項5の発明によれば、対象ユーザと単に接続関係を有するユーザを区別なく関連ユーザとする構成と比較して、対象ユーザとの関係に応じて対象ユーザのテキストと共に処理する関連ユーザのテキストを選択することで、推定精度の向上を図ることができる。
請求項6の発明によれば、対象ユーザと単に接続関係を有するユーザを区別なく関連ユーザとする構成と比較して、接続関係における対象ユーザとの関連性がより高い関連ユーザのテキストを対象ユーザのテキストと共に処理することで、推定精度の向上を図ることができる。
本実施形態による属性推定システムが適用される情報処理システムの全体構成を示す図である。 テキスト格納装置に格納されたテキストの構成例を示す図であり、図2(A)は、ラベル付きテキストの構成例を示す図、図2(B)は、ラベルなしテキストの構成例を示す図である。 ネットワーク情報格納装置に格納されたネットワーク情報の構成例を示す図である。 属性推定システムの機能構成を示す図である。 特徴量抽出部による処理の具体例を示す図である。 対象ユーザ表現抽出部による処理の具体例を示す図である。 ユーザ表現統合部による処理の具体例を示す図である。 対象ユーザに関して、テキストの解析からユーザ表現を抽出するまでの処理の流れを示すフローチャートである。 関連ユーザに関して、テキストの解析からユーザ表現を抽出するまでの処理の流れを示すフローチャートである。 第2の実施形態による属性推定システムの機能構成を示す図である。 第3の実施形態による属性推定システムの機能構成を示す図である。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
<システム構成>
図1は、本実施形態による属性推定システムが適用される情報処理システムの全体構成を示す図である。属性推定システム100は通信ネットワークを介して、テキスト格納装置200と、ネットワーク情報格納装置300とに接続されている。
属性推定システム100は、テキスト格納装置200から対象ユーザおよび関連ユーザのテキストを取得し、取得したテキストに基づいて、対象ユーザの属性を推定する。対象ユーザおよび関連ユーザは、通信ネットワーク上で提供されるサービスを利用するユーザである。対象ユーザとは、属性推定システム100による属性の推定対象として選択されたユーザである。関連ユーザとは、通信ネットワーク上において対象ユーザとの間で予め定められた要件に基づいて関連付けられるユーザである。対象ユーザと関連ユーザとを関連付ける要件は、客観的に関係性を有することが特定できるものであれば良く、具体的な形式は特に限定されない。実際には、本実施形態を用いた属性の推定を利用するサイトの仕様やサービスの内容等に応じて定めて良い。具体例を挙げると、特定のサービスを利用するユーザであって相互にまたは一方から他方へリンクが張られている関係、利用者が限定される同じサービスを利用しているユーザという関係、サービス・サイトにおいて何らかの関係を有するユーザとして登録されている関係等がある。一例として、本実施形態では、ネットワーク情報格納装置300に格納されている、通信ネットワーク上の各ユーザの接続関係の情報に基づいて、関連ユーザを特定する。
テキスト格納装置200は、SNS等の通信ネットワーク上で提供されるサービスにおいて取得されるテキストを格納した記憶装置である。テキスト格納装置200に格納されるテキストには、サービスにおいてやり取りされるテキスト(例えば、チャット・システム等のメッセージ投稿サイトに投稿されたメッセージ等)の他、サービスを利用するために入力されたテキスト(プロフィールや各種の設定情報に含まれるテキスト等)を含んでも良い。また、テキスト格納装置200は、サービスを提供するサイト(サービス・サイト)自体の記憶装置であっても良いし、サービス・サイトの記憶装置とは別に設けられ、サービス・サイトからAPI(Application Programming Interface)等を用いてテキストを収集し保存するサーバであっても良い。
本実施形態において、テキスト格納装置200には、ラベル付きテキスト210とラベルなしテキスト220とが格納されている。ラベル付きテキスト210とは、ユーザの属性の情報がラベルとして付加されたテキストであり、ラベルなしテキスト220とは、ユーザの属性の情報が付加されていないテキストである。
図2は、テキスト格納装置200に格納されたテキストの構成例を示す図である。図2(A)は、ラベル付きテキスト210の構成例を示す図、図2(B)は、ラベルなしテキスト220の構成例を示す図である。図2(A)、(B)に示す構成例において、ラベル付きテキスト210およびラベルなしテキスト220には、テキストの識別情報(テキストID)と、テキストに関連するユーザの識別情報(ユーザID)とが付加されている。そして、ラベル付きテキスト210のみに、ラベルが付加されている。なお、図2に示す例では、一つのテキストに一つのラベルが付加されているが、ユーザの属性は複数存在し、テキストにおいても、ユーザの複数の属性に係る内容である場合、複数のラベルが付加される。
ネットワーク情報格納装置300は、SNS等の通信ネットワーク上でのユーザ間の接続関係を示す情報(以下、ネットワーク情報)を格納した記憶装置である。ユーザ間の接続関係としては、通信ネットワークにおいて提供されるサービスに応じて様々な関係を用い得る。具体的には、例えば、一のユーザの投稿メッセージをフォローする関係、一のユーザの「友達」として登録された関係等を上げることができる。その他、通信ネットワーク上で何らかの客観的な関係を有するユーザどうしを本実施形態における接続関係として設定して良い。
図3は、ネットワーク情報格納装置300に格納されたネットワーク情報の構成例を示す図である。図3に示す構成例では、各ユーザのユーザIDと、そのユーザに関連するユーザのユーザID(関連ユーザID)とを対応付けて登録している。すなわち、図3に示す例において、ユーザID「1」のユーザの関連ユーザは、ユーザID「100」のユーザである。また、ユーザID「2」のユーザの関連ユーザは、ユーザID「101」のユーザおよびユーザID「102」のユーザである。
本実施形態において、属性推定システム100は、テキスト格納装置200に格納されたテキストのうち、ラベル付きテキスト210に関連するユーザを対象ユーザとして、その属性を推定する。属性推定システム100は、対象ユーザの属性を推定するにあたり、対象ユーザのテキストだけでなく、対象ユーザに関連する関連ユーザのテキストも用いる。属性推定システム100は、対象ユーザを特定した後、ネットワーク情報格納装置300に格納されたネットワーク情報に基づいて関連ユーザを特定し、テキスト格納装置200から関連ユーザのテキストを取得する。
<属性推定システムの機能構成>
図4は、属性推定システム100の機能構成を示す図である。属性推定システム100は、テキスト取得部110と、テキスト解析部120と、系列処理部130と、特徴量抽出部140と、対象ユーザ表現抽出部150と、関連ユーザ表現抽出部160と、ユーザ表現統合部170と、属性推定部180とを備える。また、属性推定システム100は、損失計算部190を備える。
テキスト取得部110は、通信ネットワークを介してテキスト格納装置200からテキストを取得する。テキスト取得部110は、ユーザ別にテキストを取得する。すなわち、テキスト取得部110は、対象ユーザおよびその関連ユーザを特定し、対象ユーザのテキストおよび各関連ユーザのテキストを、テキスト格納装置200からそれぞれ取得する。テキスト取得部110は、例えば、属性推定システム100を学習させようとするシステム使用者による指定を受け付けて、対象ユーザおよび関連ユーザを特定する。さらに具体的には、対象ユーザの指定を受け付ければ、ネットワーク情報格納装置300に格納されたネットワーク情報を参照することで、関連ユーザが特定される。ここで、学習における評価に用いるため、対象ユーザのテキストは、ラベル付きテキストに限定される。言い換えれば、対象ユーザとなるユーザは、ラベル付きテキストのユーザである。一方、関連ユーザのテキストに関しては、ラベルは不要であるので、ラベル付きテキストであっても、ラベルなしテキストであっても良い。したがって、テキスト格納装置200を参照してラベル付きテキストのユーザを選択して対象ユーザとし、ネットワーク情報格納装置300を参照してその対象ユーザの関連ユーザを特定することにより、システム使用者による指定を受け付けなくても対象ユーザおよび関連ユーザを特定してテキストを取得し得る。テキスト取得部110は、第1取得手段の一例であり、第2取得手段の一例である。
テキスト解析部120は、テキスト取得部110により取得されたテキストを解析し、かかるテキストを、テキストに含まれる各単語が分散表現化された単語列に変換する。具体的には、テキスト解析部120は、まずテキストに対して形態素解析等の解析を行い、テキストに含まれる単語を抽出する。そして、テキスト解析部120は、抽出した各単語を分散表現の系列に変換する。単語の分散表現とは、高次元の実数ベクトルで表現したものである。単語を形態素解析および単語を分散表現に変換する手法については、既存の手法を用いて良い。
また、テキスト解析部120は、テキストの解析を行うにあたり、対象ユーザのテキストと関連ユーザのテキストを区別しない。すなわち、対象ユーザを対象とする処理においても、関連ユーザを対象とする処理においても、対象ユーザのテキストおよび関連ユーザのテキストの両方に対して解析処理を行う。テキスト解析部120は、変換手段の一例である。
系列処理部130は、テキスト解析部120により生成された単語の分散表現の系列に対し、ニューラルネットワークに基づく系列処理を行う。系列処理部130は、系列処理手段の一例である。系列処理とは、単語の分散表現の系列の要素を一つずつ順番に処理していく処理方式である。系列処理部130のニューラルネットワークには、系列処理に適したRNN(Recurrent Neural Network)が用いられる。ここでは、LSTM(Long Short-Term Memory)を用いるものとする。LSTMは、次式(数1〜数6)により単語の分散表現を処理する。
なお、上記の各式において、tはテキストにおける単語の位置である。すなわち、t=1は1番目の単語、t=2は2番目の単語であることを表す。そして、xtはt番目の入力を表す。ここで、入力は、分散表現化された単語である。htは隠れ状態であり、σはシグモイド関数である。また、円(○)に点(・)の演算子は要素積を表す。W*およびU*は重み行列であり、b*はバイアス項である。
式(数1)は、入力ゲート(Input Gate)の値を求める式、式(数2)は、出力ゲート(Output Gate)の値を求める式、式(数3)は、忘却ゲート(Forget Gate)の値を求める式である。式(数4)は、入力に対し、−1から1の範囲に対し、どれくらい入力に係る情報を取り入れるかを求める式である。式(数5)は、入力ゲート値itと忘却ゲート値ftとをどれくらい取り出すかを求める式である。式(数6)は、計算した状態をどれくらい取り出すかを求める式である。出力ゲート値otと式(数5)で求めたctとを掛け合わせて採取的な状態を決定する。
なお、上記の構成ではRNNとしてLSTMを用いた例を示したが、系列処理部130として用い得るRNNはLSTMに限定されない。LSTMに代えて、例えば、Elman Recurrent Neural Network、Jordan Recurrent Neural Network、Gated Recurrent Unit等の種々のRNNを用い得る。
特徴量抽出部140は、系列処理部130による処理結果に対する集約処理を行ってテキストの素性(特徴量)を抽出する。特徴量抽出部140は、特徴量抽出手段の一例である。系列処理部130による系列処理により、テキストに含まれる単語数分の状態が得られており、特徴量抽出部140は、この単語ごとの状態をテキスト単位の特徴量として集約する。ここでは、テキストの全体表現として、そのテキストにおける強い特徴を抽出するため、集約処理として、最大プーリング(max pooling)処理を行う。すなわち、テキストに含まれる各単語に関し、単語の状態を表す次元ごとに強い特徴を取って、テキストの全体表現とする。言い換えれば、各単語の状態の次元ごとに最も強く表れている単語の情報を取り出して、テキストの特徴量とする。最大プーリング処理は、次式(数7)により行われる。
なお、上式において、tはテキストにおける単語の位置を表し、nはテキストの特徴量の次元数を表す。上記の例では、テキストにおける強い特徴を抽出するため、最大プーリング処理を行ったが、集約処理としては、この最大プーリング処理の他、例えば、平均プーリング(average pooling)処理、注意機構(attention mechanism)等の既存の手法を用い得る。
図5は、特徴量抽出部140による処理の具体例を示す図である。図5に示す例において、集約処理は、最大プーリング処理により行われている。図5に示す例では、「私の家はバンクーバーにあります」というテキストを対象として、解析処理、系列処理、集約処理が行われている。まず、対象テキストが、形態素解析により「私」、「の」、「家」、「は」、「バンクーバー」、「に」、「あり」、「ます」という単語列に分解される。そして、各単語に対する系列処理により、各単語から5次元の特徴量が抽出される。そして、各単語の特徴量を最大プーリング処理により集約し、対象テキストの特徴量が得られる。図示の例において、第1次元(上から順に第1次元〜第5次元とする)の特徴量は、「バンクーバー」の0.8が最大値である。したがって、第1次元が「バンクーバー」と強く関連すると仮定される。また、5次元の特徴量のうち、第1、第2、第4、第5次元の特徴量は、「バンクーバー」の特徴量が最大値となっている。
対象ユーザ表現抽出部150は、テキスト解析部120により解析された全てのテキスト(単語列)に対し、特徴量抽出部140による集約処理が行われた後、単語列ごとの処理結果(特徴量)をさらに集約し、対象ユーザのユーザ表現を抽出する。対象ユーザ表現抽出部150は、対象ユーザ表現抽出手段の一例である。ユーザ表現とは、そのユーザに関するテキストの特徴量をまとめたものである。以下、対象ユーザのユーザ表現を対象ユーザ表現と呼ぶ。単語列ごとの特徴量の集約は、テキストの特徴量の抽出と同様に、最大プーリング処理により行われる。なお、集約処理としては、上記のテキストの特徴量の抽出において述べた様に、最大プーリング処理の他、例えば、平均プーリング処理、注意機構等の既存の手法を用い得る。
図6は、対象ユーザ表現抽出部150による処理の具体例を示す図である。図6に示す例において、集約処理は、最大プーリング処理により行われている。図6に示す例では、テキスト解析部120により解析された全てのテキスト(単語列)としてテキスト1、テキスト2があり、これらのテキスト1、2の特徴量を集約して対象ユーザ表現を抽出している。図6に示す例において、テキスト1の特徴量は、図5を参照して得られた特徴量である。同様にして、テキスト2に対する5次元の特徴量が得られたものとする。そして、これらのテキスト1、2の特徴量に対して最大プーリング処理を行い、5次元の対象ユーザ表現が得られている。
関連ユーザ表現抽出部160は、テキスト解析部120により解析された全てのテキスト(単語列)に対し、特徴量抽出部140による集約処理が行われた後、単語列ごとの処理結果(特徴量)をさらに集約し、関連ユーザのユーザ表現を抽出する。また、関連ユーザ表現抽出部160は、抽出した各関連ユーザのユーザ表現をさらに集約し、関連ユーザ全体を対象とするユーザ表現を求める。以下、関連ユーザ全体を対象とするユーザ表現を関連ユーザ表現と呼ぶ。関連ユーザ表現抽出部160は、関連ユーザ表現抽出手段の一例である。ここで、各関連ユーザのユーザ表現は、対象ユーザ表現抽出部150と同様に最大プーリング処理を用いた集約処理により抽出される。また、各関連ユーザのユーザ表現の集約は、全ての関連ユーザのユーザ表現における次元ごとに特徴量の平均を取るため、平均プーリング処理により行われる。平均プーリング処理は、次式(数8)により行われる。
なお、上式において、nは各関連ユーザのユーザ表現における特徴量の次元数を表し、Lは関連ユーザの数を表し、lはl番目の関連ユーザのユーザ表現であることを表す。各関連ユーザのユーザ表現を抽出するための特徴量の集約処理は、最大プーリング処理の他、例えば、平均プーリング処理、注意機構等の既存の手法を用い得る。また、各関連ユーザのユーザ表現に基づく関連ユーザ表現(関連ユーザ全体のユーザ表現)を抽出するための特徴量の集約処理は、平均プーリング処理の他、例えば、最大プーリング処理、注意機構等の既存の手法を用い得る。
ユーザ表現統合部170は、対象ユーザ表現と関連ユーザ表現とを統合する。ユーザ表現統合部170は、統合手段の一例である。ユーザ表現の統合には、例えば注意機構が用いられる。注意機構を用いた統合処理は、次式(数9〜数13)により行われる。
なお、上記の式において、g1は対象ユーザ表現であり、g2は関連ユーザ表現である。ntargetは対象ユーザの分散表現であり、nlはl番目の関連ユーザの分散表現である。Wα、Uαは重みであり、bαはバイアス項である。simは対象ユーザと関連ユーザとの間の類似度を計算する関数である。ユーザ間の類似度を計算する手法としては、例えば、cos距離や、Jaccard係数等の既存の手法を用いて良い。
図7は、ユーザ表現統合部170による処理の具体例を示す図である。図7に示す例では、対象ユーザのユーザ表現と、関連ユーザ全体のユーザ表現とを、対象ユーザに対する注意の重みを強く配分した注意機構により統合している。図示の例では、対象ユーザに対する注意の重みα1を0.8、関連ユーザに対する注意の重みα2を0.2としている(すなわち、8対2の割合で注意の重みを配分している)。
属性推定部180は、ユーザ表現統合部170による統合結果を用いて、対象ユーザの属性を推定する。具体的には、属性推定部180は、統合されたユーザ表現を、対象ユーザの属性のラベル数に相当する数の次元に全結合し、ソフトマックス関数を適用して、ラベルごとの属性の確率を得る。得られた各属性の確率が、対象ユーザの属性の推定結果である。属性推定部180は、推定手段の一例である。
損失計算部190は、属性推定部180による対象ユーザの属性の推定結果を用いて損失計算を行う。損失計算の結果は、属性推定システム100の学習に用いられる。具体的には、損失計算部190は、属性推定部180の統合処理(注意機構)により得られた各ラベルの確率と、対象ユーザの属性における真のラベルとの交差エントロピーを損失として計算する。ここで、対象ユーザの属性における真のラベルとは、テキスト格納装置200に格納された対象ユーザのラベル付きテキストにおけるラベルである。属性推定システム100は、損失計算部190の計算により得られた損失を用いて誤差逆伝播アルゴリズムを実行することにより、ユーザ表現統合部170の処理および系列処理部130の処理で用いられた重み値およびバイアス項の値(以下、バイアス値)を更新する。損失の計算および誤差逆伝播アルゴリズムによる重み値およびバイアス値の更新は、既存の手法を用いて行って良い。
<属性推定システムのハードウェア構成>
属性推定システム100は、例えば、パーソナルコンピュータ等の情報処理装置により実現される。上記の機能構成において、テキスト取得部110は、例えば、テキスト格納装置200およびネットワーク情報格納装置300に接続するためのネットワーク・インターフェイスと、プログラム制御されたCPUとにより実現される。テキスト解析部120、系列処理部130、特徴量抽出部140、対象ユーザ表現抽出部150、関連ユーザ表現抽出部160、ユーザ表現統合部170、属性推定部180および損失計算部190の各機能は、CPUがプログラムを実行することにより実現される。
<対象ユーザに関する処理の動作>
図8は、対象ユーザに関して、テキストの解析からユーザ表現を抽出するまでの処理の流れを示すフローチャートである。まず、対象ユーザが特定されると、テキスト取得部110が、テキスト格納装置200から対象ユーザのテキストおよび関連ユーザのテキストを取得する(S801)。関連ユーザが複数存在する場合、全ての関連ユーザのテキストが取得される。
次に、テキスト解析部120が、取得したテキストの一つを選択し(S802)、選択したテキストを各単語が分散表現化された単語列に変換する(S803)。次に、系列処理部130が、得られた単語列における各単語の分散表現に対して系列処理を行う(S804)。次に、特徴量抽出部140が、系列処理された単語の分散表現を集約してテキスト(単語列)の素性(特徴量)を抽出する(S805)。そして、S801で取得されたテキストのうち、S803〜S805の処理が行われていないテキストがある場合(S806でNo)、S802に戻って、テキスト解析部120が、未処理のテキストの一つを選択し、S803〜S805の処理が繰り返される。
一方、S801で取得された全てのテキストに対して処理が行われたならば(S806でYes)、次に、対象ユーザ表現抽出部150が、各テキストの素性を集約して対象ユーザのユーザ表現を抽出する(S807)。
<関連ユーザに関する処理の動作>
図9は、関連ユーザに関して、テキストの解析からユーザ表現を抽出するまでの処理の流れを示すフローチャートである。通常、一人の対象ユーザに対して、関連ユーザは複数存在するので、まず、関連ユーザが特定されると、そのうちの一人が処理対象の関連ユーザとして選択される(S901)。処理対象の関連ユーザが選択されると、テキスト取得部110が、テキスト格納装置200から特定された全ての関連ユーザのテキストおよびS901で処理対象として選択された関連ユーザに対する対象ユーザのテキストを取得する(S902)。
次に、テキスト解析部120が、取得したテキストの一つを選択し(S903)、選択したテキストを各単語が分散表現化された単語列に変換する(S904)。次に、系列処理部130が、得られた単語列における各単語の分散表現に対して系列処理を行う(S905)。次に、特徴量抽出部140が、系列処理された単語の分散表現を集約してテキスト(単語列)の素性(特徴量)を抽出する(S906)。そして、S902で取得されたテキストのうち、S904〜S906の処理が行われていないテキストがある場合(S907でNo)、S903に戻って、テキスト解析部120が、未処理のテキストの一つを選択し、S904〜S906の処理が繰り返される。
一方、S902で取得された全てのテキストに対して処理が行われたならば(S907でYes)、次に、関連ユーザ表現抽出部160が、各テキストの素性を集約して関連ユーザのユーザ表現を抽出する(S908)。関連ユーザ表現抽出部160は、事前に特定された関連ユーザのうち、S902〜S908の処理が行われていない関連ユーザが残っている場合(S909でNo)、S901に戻って、未処理の関連ユーザが処理対象として選択される。そして、選択された関連ユーザに関してS902〜S908の処理が繰り返される。
全ての関連ユーザに対して処理が行われたならば(S909でYes)、関連ユーザ表現抽出部160は、各関連ユーザのユーザ表現をさらに集約し、関連ユーザ全体を対象とするユーザ表現を抽出する(S910)。
図8、図9を参照して説明した手順により、対象ユーザおよび関連ユーザのユーザ表現が得られると、次に、ユーザ表現統合部170による統合処理が行われ、対象ユーザの属性の推定結果として、各属性の確率が得られる。そして、この推定結果と対象ユーザのラベル付きテキストにおけるラベルとを用いて損失計算部190による損失の計算が行われ、計算結果を用いた誤差逆伝播アルゴリズムにより、統合処理および系列処理で用いられた重み値およびバイアス値が更新される。
<第2の実施形態>
上記の実施形態では、対象ユーザのユーザ表現および関連ユーザのユーザ表現を抽出するために、いずれも対象ユーザのテキストおよび関連ユーザのテキストの両方を用いた。このため、上記の実施形態によれば、対象ユーザのユーザ表現を抽出するために対象ユーザのテキストのみを用いる構成と比較して、ユーザ表現を得るための材料となるテキストの量が増大するため、属性推定システム100の学習効率が向上する。
一方、上記の実施形態において、関連ユーザのテキストの中には、対象ユーザの属性を推定するのに適さないテキストが混在する可能性がある。具体的には、例えば、対象ユーザと接続関係を有するものの通信ネットワーク上の活動において対象ユーザとはほとんど共通部分のない関連ユーザのテキストは、対象ユーザの属性を推定するのに適さないと考えられる。そこで、対象ユーザおよび関連ユーザの通信ネットワークにおける接続関係に基づいて対象ユーザと関連ユーザとの類似度を評価し、評価した類似度をユーザ表現の統合処理において用いることが考えられる。
図10は、第2の実施形態による属性推定システム100の機能構成を示す図である。図10に示す属性推定システム100において、テキスト取得部110、テキスト解析部120、系列処理部130、特徴量抽出部140、対象ユーザ表現抽出部150、関連ユーザ表現抽出部160、ユーザ表現統合部170、属性推定部180および損失計算部190は、図4に示した第1の実施形態による属性推定システム100の対応する各機能実行部と同様である。また、図10に示す属性推定システム100は、ネットワーク情報分析部171を備える。ネットワーク情報分析部171の機能は、例えば、属性推定システム100を構成するパーソナルコンピュータにおいて、CPUがプログラムを実行することにより実現される。
ネットワーク情報分析部171は、ネットワーク情報格納装置300からネットワーク情報を取得して、ユーザ間の接続関係を分析する。ネットワーク情報分析部171は、ネットワーク情報取得手段の一例である。具体的には、ネットワーク情報分析部171は、ネットワーク情報格納装置300から取得したネットワーク情報に基づき、各ユーザをノードで表し、ユーザ間の接続関係をエッジで表したグラフを構築する。そして、ネットワーク情報分析部171は、構築したグラフにおける各ノードの分散表現を取得する。ノードの分散表現を取得するには、DeepWalk、LINE(Large-scale Information Network Embedding)、node2vec等の既存の手法を用いて良い。
ユーザ表現統合部170は、ネットワーク情報分析部171により得られたユーザの接続関係を表すグラフにおけるノードの分散表現を用い、式(数13)に示したユーザ間の類似度の計算を行う。すなわち、cos距離や、Jaccard係数等を用いたsim関数の計算において、ネットワーク情報分析部171により得られたノードの分散表現を用いる。このようにすることで、対象ユーザおよび関連ユーザのユーザ表現の統合処理において、通信ネットワークにおけるユーザ間の接続関係の類似度が反映される。
<第3の実施形態>
第1、第2の実施形態では、対象ユーザおよび関連ユーザのユーザ表現の統合処理において、対象ユーザと関連ユーザとの類似度を反映させた処理を行った。これに対し、第3の実施形態では、関連ユーザの選択において、対象ユーザと関連ユーザとの類似度を反映させる。
図11は、第3の実施形態による属性推定システム100の機能構成を示す図である。図11に示す属性推定システム100において、テキスト取得部110、テキスト解析部120、系列処理部130、特徴量抽出部140、対象ユーザ表現抽出部150、関連ユーザ表現抽出部160、ユーザ表現統合部170、属性推定部180および損失計算部190は、図4に示した第1の実施形態による属性推定システム100の対応する各機能実行部と同様である。また、図11に示す属性推定システム100は、選択部111と、関連ユーザ固有テキスト解析部121と、関連ユーザ固有系列処理部131とを備える。選択部111、関連ユーザ固有テキスト解析部121および関連ユーザ固有系列処理部131の各機能は、例えば、属性推定システム100を構成するパーソナルコンピュータにおいて、CPUがプログラムを実行することにより実現される。
図11に示すように、第3の実施形態では、変換手段および系列処理手段に関して2系統が設けられている。選択部111は、対象ユーザと関連ユーザとの類似度に応じて、テキスト取得部110により取得されたテキストを、テキスト解析部120および系列処理部130の処理系統(以下、第1処理系統)で処理するか、関連ユーザ固有テキスト解析部121および関連ユーザ固有系列処理部131の処理系統(以下、第2処理系統)で処理するかを選択する。
関連ユーザ固有テキスト解析部121は、関連ユーザのテキストのみを対象として、テキストに含まれる各単語が分散表現化された単語列に変換する。関連ユーザ固有テキスト解析部121による具体的な処理の内容は、テキスト解析部120による処理と同様である。すなわち、関連ユーザ固有テキスト解析部121とテキスト解析部120との差異は、処理対象のテキストに対象ユーザのテキストを含むか否かである。
関連ユーザ固有系列処理部131は、関連ユーザ固有テキスト解析部121により生成された単語の分散表現の系列に対し、ニューラルネットワークに基づく系列処理を行う。関連ユーザ固有系列処理部131による具体的な処理の内容は、系列処理部130による処理と同様である。すなわち、関連ユーザ固有系列処理部131と系列処理部130との差異は、処理対象のテキストに対象ユーザのテキストを含むか否かである。
選択部111による選択処理について、さらに説明する。選択部111は、ネットワーク情報格納装置300からネットワーク情報を取得して、ユーザ間の接続関係を分析する。具体的には、選択部111は、ネットワーク情報格納装置300から取得したネットワーク情報に基づき、各ユーザをノードで表し、ユーザ間の接続関係をエッジで表したグラフを構築する。そして、選択部111は、構築したグラフにおける各ノードの分散表現を取得する。ノードの分散表現を取得するには、DeepWalk、LINE(Large-scale Information Network Embedding)、node2vec等の既存の手法を用いて良い。また、選択部111は、取得したノードの分散表現に基づき、各ノード(ノードに対応するユーザ)の類似度を評価する。類似度の評価には、cos距離や、Jaccard係数等の既存の手法を用いて良い。そして、選択部111は、対象ユーザとの間の類似度が予め定められた閾値よりも大きい関連ユーザに関しては、そのテキストをテキスト解析部120に送り、第1処理系統による処理を実行させる。一方、選択部111は、対象ユーザとの間の類似度が予め定められた閾値よりも小さい関連ユーザに関しては、そのテキストを関連ユーザ固有テキスト解析部121に送り、第2処理系統による処理を実行させる。
なお、上記の例では、選択部111は、ユーザの接続関係に基づいて構築したグラフにおける各ノードの分散表現を用いて、テキストを第1処理系統と第2処理系統の何れで処理させるかを選択した。これに対し、ノードの分散表現に基づいて評価される各ノード(ノードに対応するユーザ)の類似度に基づいて、ユーザを関連ユーザとするか否かを決定しても良い。すなわち、ノードの類似度が予め定められた閾値よりも大きいユーザのみを関連ユーザとし、ユーザ表現を求めて対象ユーザのユーザ表現と統合させるように構成しても良い。
また、図11に示す属性推定システム100において、特徴量抽出部140は、テキストに対する処理として第1処理系統に加えて第2処理系統による処理が行われ、関連ユーザ固有系列処理部131による処理結果を受け付けた場合、系列処理部130による処理結果および関連ユーザ固有系列処理部131による処理結果の両方を用い、集約処理を行ってテキストの素性(特徴量)を抽出する。
また、図11に示す属性推定システム100において、ユーザ表現統合部170は、テキストに対する処理として第1処理系統に加えて第2処理系統による処理が行われ、関連ユーザ固有系列処理部131による処理結果を受け付けた場合、注意機構による統合処理において、式(数11)に代えて、次式(数14)を用いてユーザ表現の統合を行う。
以上、本発明の実施形態について説明したが、本発明の技術的範囲は上記実施形態には限定されない。例えば、上記の実施形態では、テキスト格納装置200およびネットワーク情報格納装置300を、属性推定システム100の外部装置として設けたが、属性推定システム100に含まれる構成としても良い。また、属性推定システム100の機能を分散し、少なくとも一部を、いわゆるクラウドサーバ等により提供する構成としても良い。また、属性推定システム100を、第2の実施形態で追加したネットワーク情報分析部171と、第3の実施形態で追加した選択部111、関連ユーザ固有テキスト解析部121および関連ユーザ固有系列処理部131とをそれぞれ備える構成としても良い。その他、本発明の技術思想の範囲から逸脱しない様々な変更や構成の代替は、本発明に含まれる。
100…属性推定システム、110…テキスト取得部、111…選択部、120…テキスト解析部、121…関連ユーザ固有テキスト解析部、130…系列処理部、131…関連ユーザ固有系列処理部、140…特徴量抽出部、150…対象ユーザ表現抽出部、160…関連ユーザ表現抽出部、170…ユーザ表現統合部、171…ネットワーク情報分析部、180…属性推定部、190…損失計算部、200…テキスト格納装置、210…ラベル付きテキスト、220…ラベルなしテキスト、300…ネットワーク情報格納装置

Claims (6)

  1. 対象ユーザのテキストを取得する第1取得手段と、
    前記対象ユーザに関連する関連ユーザのテキストを取得する第2取得手段と、
    前記第1取得手段および前記第2取得手段により取得されたテキストを、当該テキストに含まれる各単語が分散表現化された単語列に変換する変換手段と、
    ニューラルネットワークを用いて、前記変換手段により変換された前記単語列に対する系列処理を行う系列処理手段と、
    前記系列処理手段による系列処理の結果に基づき、前記単語列ごとの特徴量を抽出する特徴量抽出手段と、
    前記単語列ごとの特徴量に基づき、前記対象ユーザの特徴量を表す対象ユーザ表現を抽出する対象ユーザ表現抽出手段と、
    前記単語列ごとの特徴量に基づき、前記関連ユーザの特徴量を表す関連ユーザ表現を抽出する関連ユーザ表現抽出手段と、
    前記対象ユーザ表現と前記関連ユーザ表現とを統合する統合手段と、
    前記統合手段による統合結果を用いて前記対象ユーザの属性を推定する推定手段と、
    を備えることを特徴とする、属性推定システム。
  2. 前記第1取得手段および前記第2取得手段は、通信ネットワークを介してテキストを取得し、
    前記関連ユーザは、前記通信ネットワーク上において前記対象ユーザとの間で予め定められた接続関係を有するユーザであることを特徴とする、請求項1に記載の属性推定システム。
  3. 前記通信ネットワークにおいて接続される各ユーザをノードで表し、ユーザ間の接続関係をエッジで表したグラフにおけるノードの分散表現を取得するネットワーク情報取得手段をさらに備え、
    前記統合手段は、前記ノードの分散表現に基づき、前記対象ユーザ表現と前記関連ユーザ表現とを統合する処理において当該関連ユーザの情報を取り入れる程度を決定することを特徴とする、請求項2に記載の属性推定システム。
  4. 前記通信ネットワークにおいて接続される各ユーザをノードで表し、ユーザ間の接続関係をエッジで表したグラフにおけるノードの分散表現を取得するネットワーク情報取得手段をさらに備え、
    前記第2取得手段は、前記ノードの分散表現に基づいて前記関連ユーザを決定し、テキストを取得することを特徴とする、請求項2に記載の属性推定システム。
  5. 前記第2取得手段により取得されたテキストを、当該テキストに含まれる各単語が分散表現化された単語列に変換する関連ユーザ固有変換手段と、
    前記ニューラルネットワークを用いて、前記関連ユーザ固有変換手段により変換された前記単語列に対する系列処理を行う関連ユーザ固有系列処理手段と、をさらに備え、
    前記関連ユーザのテキストは、前記対象ユーザと当該関連ユーザとの関係に応じて、前記変換手段および前記関連ユーザ固有変換手段のいずれか一方により処理され、
    前記特徴量抽出手段は、前記関連ユーザ固有系列処理手段による処理結果がある場合は、当該関連ユーザ固有系列処理手段の処理結果および前記系列処理手段の処理結果に基づき、前記単語列ごとの特徴量を抽出することを特徴とする、請求項1に記載の属性推定システム。
  6. 通信ネットワークにおいて接続される各ユーザをノードで表し、ユーザ間の接続関係をエッジで表したグラフにおけるノードの分散表現を取得するネットワーク情報取得手段をさらに備え、
    前記関連ユーザは、前記通信ネットワーク上において前記対象ユーザとの間で予め定められた接続関係を有するユーザであり、
    前記関連ユーザのテキストは、前記対象ユーザのノードの分散表現と前記関連ユーザのノードの分散表現との類似度に応じて、前記変換手段および前記関連ユーザ固有変換手段のいずれか一方により処理されることを特徴とする、請求項5に記載の属性推定システム。
JP2018186897A 2018-10-01 2018-10-01 属性推定システム Pending JP2020057168A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018186897A JP2020057168A (ja) 2018-10-01 2018-10-01 属性推定システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018186897A JP2020057168A (ja) 2018-10-01 2018-10-01 属性推定システム

Publications (1)

Publication Number Publication Date
JP2020057168A true JP2020057168A (ja) 2020-04-09

Family

ID=70107351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018186897A Pending JP2020057168A (ja) 2018-10-01 2018-10-01 属性推定システム

Country Status (1)

Country Link
JP (1) JP2020057168A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380494A (zh) * 2020-11-17 2021-02-19 中国银联股份有限公司 一种确定对象特征的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380494A (zh) * 2020-11-17 2021-02-19 中国银联股份有限公司 一种确定对象特征的方法及装置
CN112380494B (zh) * 2020-11-17 2023-09-01 中国银联股份有限公司 一种确定对象特征的方法及装置

Similar Documents

Publication Publication Date Title
Cherfi et al. Very fast C4. 5 decision tree algorithm
Balaanand et al. An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter
Zhang et al. Event detection and popularity prediction in microblogging
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
US10223727B2 (en) E-commerce recommendation system and method
JP2019185716A (ja) エンティティ推薦方法及び装置
Xu et al. Casflow: Exploring hierarchical structures and propagation uncertainty for cascade prediction
Bladt et al. The estimation of Phase-type related functionals using Markov chain Monte Carlo methods
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
Long et al. Toward a kinetic-based probabilistic time geography
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
Krishnamoorthi et al. ABK-means: an algorithm for data clustering using ABC and K-means algorithm
CN113158030B (zh) 异地兴趣点的推荐方法、装置、电子设备及存储介质
CN114238764A (zh) 基于循环神经网络的课程推荐方法、装置及设备
JP6368264B2 (ja) 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法
CN115989509A (zh) 混合机器学习
JP2020057168A (ja) 属性推定システム
CN117314593A (zh) 一种基于用户行为分析的保险项目推送方法及系统
Liaghat et al. Application of data mining methods for link prediction in social networks
Wang et al. Approximate Bayesian computation for exponential random graph models for large social networks
CN112052402B (zh) 信息推荐方法、装置、电子设备及存储介质
Sodja Detecting anomalous time series by GAMLSS-Akaike-Weights-Scoring
Iwamoto et al. Improving the reliability of semantic segmentation of medical images by uncertainty modeling with Bayesian deep networks and curriculum learning
US20210231449A1 (en) Deep User Modeling by Behavior
Komamizu et al. Exploring Identical Users on GitHub and Stack Overflow.