JP2016181062A - 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法 - Google Patents

投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法 Download PDF

Info

Publication number
JP2016181062A
JP2016181062A JP2015060179A JP2015060179A JP2016181062A JP 2016181062 A JP2016181062 A JP 2016181062A JP 2015060179 A JP2015060179 A JP 2015060179A JP 2015060179 A JP2015060179 A JP 2015060179A JP 2016181062 A JP2016181062 A JP 2016181062A
Authority
JP
Japan
Prior art keywords
learning
user
vector
profile item
predicate term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015060179A
Other languages
English (en)
Other versions
JP6368264B2 (ja
Inventor
一則 松本
Kazunori Matsumoto
一則 松本
滝嶋 康弘
Yasuhiro Takishima
康弘 滝嶋
服部 元
Hajime Hattori
元 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2015060179A priority Critical patent/JP6368264B2/ja
Publication of JP2016181062A publication Critical patent/JP2016181062A/ja
Application granted granted Critical
Publication of JP6368264B2 publication Critical patent/JP6368264B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ユーザの投稿文からそのユーザのプロフィール項目(例えば商品又は役務)を、できる限り正確に推定することができる投稿者分析装置等を提供する。【解決手段】複数の学習投稿文にプロフィール項目を対応付けて記憶する学習投稿文記憶手段と、学習投稿文から学習述語項構造を抽出する学習述語項構造抽出手段と、プロフィール項目毎に、各学習投稿文から学習述語項構造の学習ベクトルを生成する学習ベクトル生成手段と、投稿者のユーザ投稿文からユーザ述語項構造を抽出するユーザ述語項構造抽出手段と、ユーザ投稿文から、定義ベクトルに対応するユーザ述語項構造のユーザベクトルを生成するユーザベクトル生成手段と、プロフィール項目毎の学習ベクトルの群を用いて、ユーザベクトルに最も類似する学習ベクトルを判定し、その学習ベクトルのプロフィール項目を、当該投稿者に対応付けて登録するプロフィール項目推定手段とを有する。【選択図】図2

Description

本発明は、例えばSNS(Social Networking Service)のようなコミュニケーションサイトサーバの技術に関する。
近年、不特定多数の第三者が、SNSサイトサーバを介して、自らのコメント文章(テキスト情報)を活発に発信することができる。「SNSサイトサーバ」は、複数のユーザへ、1人のユーザによって投稿された投稿文を公開する。例えばfacebook(登録商標)やtwitter(登録商標)、google+(登録商標)、mixi(登録商標)があり、一般にミニブログサイトとも称される。また、各ユーザは、SNSサイトサーバに対してアカウントを登録し、アカウントと共に投稿文が公開される。また、ユーザ毎のプロフィール項目も公開される。プロフィール項目は、ユーザ自らの自己紹介の項目であって、不特定多数の第三者から自由に閲覧される。
一方で、SNSサイトサーバによって発信される投稿文は、商品及び役務に関する口コミ情報である場合も多い。この場合、マーケティングによれば、どのようなユーザがどのような商品又は役務を購入しているかを分析することが所望される。具体的には、ユーザの多数の投稿文を収集し、そのユーザが購入した商品又は役務をプロフィール項目として分析することも考えられる。
従来、情報投稿者のプロフィール項目を、当該投稿者の投稿したテキスト情報に基づいて推定する技術がある(例えば非特許文献1参照)。
また、Web文書中のリンク(co-citation)と、Web文書の内容(テキスト情報)とに基づく分類結果を、識別器を用いて組み合わせて、Web文書群を分類する技術もある(例えば非特許文献2参照)。
更に、twitterの投稿者を対象として、その交流関係に基づいて、コミュニティを抽出する技術もある(例えば非特許文献3参照)。
更に、ユーザ自ら記述したプロフィール項目だけでなく、SNSサイトサーバから得られる投稿者間の交流関係を用いて、投稿者が属するコミュニティを抽出し、そのコミュニティの特徴から投稿者のプロフィールを推定する技術もある(例えば特許文献1参照)。
特開2013−196070号公報
池田和史,服部元,松本一則,小野智弘,東野輝夫、「マーケット分析のためのTwitter投稿者プロフィール推定手法」、DICOMO 2011, 7E-1、[online]、[平成27年3月21日検索]、インターネット<URL:https://www.jstage.jst.go.jp/article/itej/66/4/66_248/_article/references/-char/ja/> P. Calado, M. Cristo, E. Moura, N. Ziviani, B. Ribeiro, N. Marcos, A. Goncalves, "Combining LinkBased and ContentBased Methods for Web Document Classification", CIKM 2003、[online]、[平成27年3月21日検索]、インターネット<URL:http://dl.acm.org/citation.cfm?id=956938> M. Smith, N. M. Frayling, B. Shneiderman, E. M. Rodrigues, J. Leskovec, and C. Dunne, "NodeXL: A Free and Open Network Overview, Discovery and Exploration Add-in for Excel 2007/2010"、[online]、[平成27年3月21日検索]、インターネット<URL:http://nodexl.codeplex.com/>
しかしながら、ユーザの投稿文から、そのユーザのプロフィール項目を推定することは極めて難しい。例えば、以下のような2つの投稿文があったとする。
投稿文a「さっそくコンビニSに行って、ウォレットAを使った」
投稿文b「もしウォレットAが使えたらコンビニSに行くのに」
投稿文a及びbの両方とも、単語「ウォレットA」「コンビニS」「行く」「使う」が出現する。ここで、投稿文aのユーザaは、「ウォレットA」を所持しているのに対し、一方で、投稿文bのユーザbは、「ウォレットA」を所持していない。即ち、プロフィール項目「ウォレットA」は、ユーザaには登録できるが、ユーザbには登録できない。このように、マーケティングの動向調査として、ユーザがどのような商品又は役務を所持しているかを、投稿文のみから推定することは難しい。
そこで、本発明は、ユーザの投稿文から、そのユーザのプロフィール項目(例えば商品又は役務)を推定することができる投稿者分析装置、プログラム及び方法を提供することを目的とする。
本発明によれば、投稿者毎に、投稿文からプロフィール項目を分析する投稿者分析装置であって、
複数の学習投稿文にプロフィール項目を対応付けて記憶する学習投稿文記憶手段と、
学習投稿文から学習述語項構造を抽出する学習述語項構造抽出手段と、
全ての学習述語項構造を要素ビットの列とした定義ベクトルを設定し、プロフィール項目毎に、各学習投稿文から学習述語項構造の学習ベクトルを生成する学習ベクトル生成手段と、
投稿者のユーザ投稿文からユーザ述語項構造を抽出するユーザ述語項構造抽出手段と、
ユーザ投稿文から、定義ベクトルに対応するユーザ述語項構造のユーザベクトルを生成するユーザベクトル生成手段と、
プロフィール項目毎の学習ベクトルの群を用いて、ユーザベクトルに最も類似する学習ベクトルを判定し、当該学習ベクトルの学習投稿文に対応付けられたプロフィール項目を、当該投稿者に対応付けて登録するプロフィール項目推定手段と
を有することを特徴とする。
本発明の投稿者分析装置における他の実施形態によれば、
ユーザベクトルを入力し、当該プロフィール項目の正否のみ出力する機械学習モデルであって、各プロフィール項目専用に複数の学習投稿文の学習ベクトルを用いて内部パラメータを構築する機械学習手段を更に有し、
プロフィール項目推定手段は、機械学習手段にユーザベクトルを入力し、正と判定されたプロフィール項目のみを、投稿者に対応付けて登録することも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、
機械学習手段は、各プロフィール項目専用に正否を判定する複数のサポートベクタマシン、又は、One-VS-Other型識別器であることも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、
学習述語項構造抽出手段及びユーザ述語項構造抽出手段は、述語項構造に、述語の後に続く助動詞から得られる「肯定/否定」及び/又は「時制(現在/未来/過去)」に基づく付加情報を含むように抽出することも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、
各述語項構造に対して、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、情報量規準値Infoを以下のように算出する情報量規準値算出手段を更に有し、
n11=当該述語項構造を含む投稿文の中で、
当該プロフィール項目を正とする投稿数
n12=当該述語項構造を含む投稿文の中で、
当該プロフィール項目を否とする投稿数
n21=当該述語項構造を含まない投稿文の中で、
当該プロフィール項目を正とする投稿数
n22=当該述語項構造を含まない投稿文の中で、
当該プロフィール項目を否とする投稿数
N=n11+n12+n21+n22
MLL_IM=(n11+n12) log(n11+n12)+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)+(n12+n22) log(n12+n22)−2 N log N
MLL_DM=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
AIC_IM=-2 × MLL_IM + 2×2
AIC_DM=-2 × MLL_DM + 2×3
Info=AIC_IM − AIC_DM
学習ベクトル生成手段は、情報量規準値Infoが所定閾値以上又は高い順の所定個数となる述語項構造のみを要素ビットとするベクトルを生成することも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、
投稿者毎に、自ら設定した設定プロフィール項目を有し、
プロフィール項目推定手段は、当該プロフィール項目に対する認定確率を出力するものであり、
設定プロフィール項目毎に、各プロフィール項目に対する属性確率を記憶した属性確率記憶手段と、
投稿者における当該プロフィール項目毎に、認定確率に属性確率を乗算した推定確率を出力する推定確率算出手段と
を更に有することも好ましい。
本発明によれば、投稿者毎に、投稿文からプロフィール項目を分析する装置に搭載されたコンピュータを機能させるプログラムであって、
複数の学習投稿文にプロフィール項目を対応付けて記憶する学習投稿文記憶手段と、
学習投稿文から学習述語項構造を抽出する学習述語項構造抽出手段と、
全ての学習述語項構造を要素ビットの列とした定義ベクトルを設定し、プロフィール項目毎に、各学習投稿文から学習述語項構造の学習ベクトルを生成する学習ベクトル生成手段と、
投稿者のユーザ投稿文からユーザ述語項構造を抽出するユーザ述語項構造抽出手段と、
ユーザ投稿文から、定義ベクトルに対応するユーザ述語項構造のユーザベクトルを生成するユーザベクトル生成手段と、
プロフィール項目毎の学習ベクトルの群を用いて、ユーザベクトルに最も類似する学習ベクトルを判定し、当該学習ベクトルの学習投稿文に対応付けられたプロフィール項目を、当該投稿者に対応付けて登録するプロフィール項目推定手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、投稿者毎に、投稿文からプロフィール項目を分析する装置の投稿者分析方法であって、
装置は、複数の学習投稿文にプロフィール項目を対応付けて記憶する学習投稿文記憶部を有し、
装置は、学習フェーズとして、
学習投稿文から学習述語項構造を抽出する第11のステップと、
全ての学習述語項構造を要素ビットの列とした定義ベクトルを設定し、プロフィール項目毎に、各学習投稿文から学習述語項構造の学習ベクトルを生成する第12のステップと
を有し、
装置は、推定フェーズとして、
投稿者のユーザ投稿文からユーザ述語項構造を抽出する第21のステップと、
ユーザ投稿文から、定義ベクトルに対応するユーザ述語項構造のユーザベクトルを生成する第22のステップと、
プロフィール項目毎の学習ベクトルの群を用いて、ユーザベクトルに最も類似する学習ベクトルを判定し、当該学習ベクトルの学習投稿文に対応付けられたプロフィール項目を、当該投稿者に対応付けて登録する第23のステップと
を有することを特徴とする。
本発明の投稿者分析装置、プログラム及び方法によれば、ユーザの投稿文から、そのユーザのプロフィール項目(例えば商品又は役務)を推定することができる。
本発明におけるシステム構成図である。 本発明における投稿者分析装置の機能構成図である。 学習フェーズの処理を表す説明図である。 推定フェーズの処理を表す説明図である。 属性確率を用いてプロフィール項目の認定確率に重み付けする説明図である。
以下では、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
図1によれば、不特定多数の第三者は、各自の端末3を用いて、インターネットを介してコミュニケーションサイトサーバ2へ、投稿文を送信することができる。以下では、コミュニケーションサーバ2は、例えばSNSサイトサーバであるとして説明する。勿論、SNSサイトサーバに限られないが、複数の投稿者間でコメント文章を発信し、投稿者毎に投稿文を公開することを要する。
図1によれば、本発明の投稿者分析装置1は、インターネットを介してSNSサイトサーバ2と通信する。投稿者分析装置1は、SNSサイトサーバ2に対して、API(Application Programming Interface)を介して、投稿者毎の投稿文を取得することができる。また、投稿者毎のプロフィール項目も取得することができる。APIは、アプリケーションサービスの機能を利用するための規則インタフェースであって、種々のサーバ毎に異なるものとして用意されている。
尚、投稿者分析装置1が、投稿文を予めデータベースに蓄積したものであってもよい。即ち、投稿者分析装置1が、SNSサイトサーバ2と通信することを必須とするものではない。
図2は、本発明における投稿者分析装置の機能構成図である。
本発明の投稿者分析装置1は、投稿者の投稿文からプロフィール項目を推定することができる。
投稿者分析装置1は、<学習フェーズ>として、学習投稿文記憶部110と、学習述語項構造抽出部111と、学習ベクトル生成部112と、情報量規準値算出部113とを有する。
また、投稿者分析装置1は、<推定フェーズ>として、ユーザ投稿文取得部120と、ユーザ述語項構造抽出部121と、ユーザベクトル生成部122と、プロフィール項目推定部123と、機械学習部131と、属性確率記憶部132と、推定確率算出部133とを有する。
これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、投稿者分析方法としても理解できる。
<学習フェーズ>
図3は、学習フェーズの処理を表す説明図である。
[学習投稿文記憶部110]
学習投稿文記憶部110は、複数の学習投稿文にプロフィール項目を対応付けて記憶する。学習投稿文は、不特定多数の第三者によって過去に投稿された多数のコメント文章であってもよい。これら学習投稿文は、プロフィール項目が明確な投稿文であって、ネットワークを介してブログサーバ3から受信したものであってもよい。
プロフィール項目とは、例えば「Aウォレット」「Aサービス」のように、特定の利用サービスであることも好ましい。本発明の投稿者分析装置1は、投稿者毎に、プロフィール項目として利用サービスを推定することができ、マーケティング分析に利用することができる。
[学習述語項構造抽出部111]
学習述語項構造抽出部111は、学習投稿文から学習述語項構造を抽出する。
最初に、学習述語項構造抽出部111は、形態素解析によって、学習投稿文毎に形態素に分割する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。
次に、学習述語項構造抽出部111は、学習投稿文毎に、「述語」「格」「目的語」とからなる「述語項構造」を抽出する。述語項構造解析として、例えばフリーソフトであるSyncha等の述語項構造解析器を用いることができる。述語項構造解析は、機械翻訳システムで一般的に利用されており、文章の意味の骨格を把握することができる。そして、抽出された述語項構造は、学習ベクトル生成部112へ出力される。
また、学習述語項構造抽出部111は、述語項構造に、述語の後に続く助動詞から得られる「肯定/否定」及び/又は「時制(現在/未来/過去)」に基づく付加情報を含むように抽出することも好ましい。
図3の学習述語項構造抽出部111によれば、例えば「Aウォレット」を所持するユーザの投稿文を学習投稿文として、「述語項構造」が抽出されている。
[学習ベクトル生成部112]
学習ベクトル生成部112は、全ての学習述語項構造を要素ビットの列とした定義ベクトルを設定する。具体的には、学習述語項構造毎に「要素ビット」を割り当てる。そして、当該学習投稿文に、当該学習述語項構造Sjが含まれていたら、その要素ビットに「1」をセットする。また、当該述語項構造Sjが含まれていなければ、その要素ビットを「0」にリセットする。
学習投稿文 ベクトル{S1, S2, S3,・・・, S(n)}
1 { 1 , 0, 0, ・・・, 1 }
2 { 0 , 1, 0, ・・・, 0 }
・・・ ・・・
これによって、各学習投稿文を、n次元の要素ビット列のベクトルとして表すことができる。
次に、学習ベクトル生成部112は、プロフィール項目毎に、各学習投稿文から学習述語項構造の学習ベクトルを振り分ける。これによって、プロフィール項目毎に、学習ベクトルの群が生成される。
プロフィール項目Aの学習投稿文 ベクトル{S1, S2, S3,・・・, S(n)}
1 { 1 , 0, 0, ・・・, 1 }
5 { 0 , 0, 1, ・・・, 0 }
・・・ ・・・
プロフィール項目Bの学習投稿文 ベクトル{S1, S2, S3,・・・, S(n)}
2 { 0 , 1, 0, ・・・, 0 }
3 { 1 , 0, 1, ・・・, 0 }
・・・ ・・・
・・・・・
また、以下のように学習投稿文毎に、プロフィール項目Aを利用したユーザからの投稿か否かをラベル値(+1,-1)として付与するものであってもよい。
学習投稿文 ベクトル{S1, S2, S2,・・・, S(n)} プロフィール項目A
1 { 1 , 0, 0, ・・・, 1 } +1(利用)
2 { 0 , 1, 0, ・・・, 0 } -1(未利用)
・・・ ・・・ ・・・
同様に、学習投稿文毎に、プロフィール項目Bを利用したユーザからの投稿か否かをラベル値(+1,-1)として付与するものであってもよい。
学習投稿文 ベクトル{S1, S2, S2,・・・, S(n)} プロフィール項目B
1 { 1 , 0, 0, ・・・, 1 } -1(未利用)
2 { 0 , 1, 0, ・・・, 0 } +1(利用)
・・・ ・・・ ・・・
図3の学習ベクトル生成部112によれば、プロフィール項目A及びBそれぞれに対して、学習ベクトルの群が生成される。そして、プロフィール項目毎の学習ベクトルの群は、機械学習部131へ出力される。
[情報量規準値算出部113]
情報量規準値算出部113は、各述語項構造に対して、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、情報量規準値Infoを以下のように算出する。
n11=当該述語項構造を含む投稿文の中で、
当該プロフィール項目を正とする投稿数
n12=当該述語項構造を含む投稿文の中で、
当該プロフィール項目を否とする投稿数
n21=当該述語項構造を含まない投稿文の中で、
当該プロフィール項目を正とする投稿数
n22=当該述語項構造を含まない投稿文の中で、
当該プロフィール項目を否とする投稿数
N=n11+n12+n21+n22
MLL_IM=(n11+n12) log(n11+n12)+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)+(n12+n22) log(n12+n22)−2 N log N
MLL_DM=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
AIC_IM=-2 × MLL_IM + 2×2
AIC_DM=-2 × MLL_DM + 2×3
Info=AIC_IM − AIC_DM
情報量規準値Infoは、学習投稿文に含まれる述語項構造Sが、投稿者の当該プロフィール項目に偏って出現する割合を表す。当該プロフィール項目の判別に役立つ述語項構造ほど、Infoの値が高くなる。即ち、プロフィール項目が「Aウォレット」に基づくものであるとするならば、Infoは、「Aウォレット」を利用しているユーザによって投稿された投稿文の当該述語項構造ほど、高い値となる。尚、実施形態として、各述語項構造SAに対し、Infoの値が大きい順に、m個の述語項構造Si,1、Si,2、Si,3、・・・、Si,m を抽出し、当該プロフィール項目の代表述語項構造としてもよい。
学習ベクトル生成部112は、情報量規準値Infoが所定閾値以上又は高い順の所定個数となる述語項構造のみを要素ビットとするベクトルを生成する。即ち、全ての述語項構造を判定することなく、判定に役立つ確率が低いInfoに基づく述語項構造を、判定対象から除外する。これによって、ベクトルの列長を短くすることができ、その後のプロフィール項目の推定処理の演算量を削減することができる。
<推定フェーズ>
図4は、推定フェーズの処理を表す説明図である。
[ユーザ投稿文取得部120]
ユーザ投稿文取得部120は、SNSサイトサーバ2から、分析対象者の過去の投稿文を取得する。勿論、投稿者分析装置1が、分析対象者の投稿文を予めデータベースに蓄積したものであってもよい。尚、実施形態として、その分析対象者のグループに属する複数のメンバ投稿者の投稿文(プロフィール文を含む)も、その分析対象者の投稿文として取得するものであってもよい。
[ユーザ述語項構造抽出部121]
ユーザ述語項構造抽出部121は、投稿者のユーザ投稿文からユーザ述語項構造を抽出する。述語項構造の抽出は、前述した学習述語項構造抽出部111の処理と全く同じである。
[ユーザベクトル生成部122]
ユーザベクトル生成部122は、ユーザ投稿文から、定義ベクトルに対応するユーザ述語項構造のユーザベクトルを生成する。ユーザベクトルの生成も、前述した学習ベクトル生成部112の処理と全く同じである。
[プロフィール項目推定部123]
プロフィール項目推定部123は、プロフィール項目毎の学習ベクトルの群を用いて、ユーザベクトルに最も類似する学習ベクトルを判定し、当該学習ベクトルの学習投稿文に対応付けられたプロフィール項目を、当該投稿者に対応付けて登録する。例えば、プロフィール項目毎の学習ベクトルの群から重心ベクトルを算出し、ユーザベクトルに最も類似する重心ベクトルを検索し、その重心ベクトルに基づくプロフィール項目を推定するものであってもよい。
また、プロフィール項目推定部123は、他の実施形態として、機械学習部131を用いて、プロフィール項目を推定するものであってもよい。機械学習部131が、推定したプロフィール項目に対する認定確率を算出する場合、プロフィール項目推定部123は、そのプロフィール項目に対する認定確率を、推定確率算出部133へ出力する。
[機械学習部131]
機械学習部131は、プロフィール項目推定部123からユーザベクトルを入力し、当該プロフィール項目の正否のみを出力する機械学習モデルである。機械学習モデルは、各プロフィール項目専用に複数の学習投稿文の学習ベクトルを用いて内部パラメータを構築する。
機械学習部131は、例えば、各プロフィール項目専用に正否を判定する複数のサポートベクタマシン(SVM(Support Vector Machine))、又は、One-VS-Other型識別器であってもよい。例えば、プロフィール項目A専用に正否を判定するSVM-Aと、プロフィール項目B専用に正否を判定するSVM-Bとのように構築される。
SVM-Aは、プロフィール項目Aに基づく学習投稿文の多数の学習ベクトルを入力することによって、プロフィール項目A専用の正否を判定する内部パラメータを構築する。そして、SVM-Aは、プロフィール項目推定部123から入力したユーザベクトルが、プロフィール項目Aに対して正か否かを、プロフィール項目推定部123へ出力する。このとき、プロフィール項目Aの認定確率P(A)を算出することも好ましい。
SVM-Bは、プロフィール項目Bに基づく学習投稿文の多数の学習ベクトルを入力することによって、プロフィール項目B専用の正否を判定する内部パラメータを構築する。そして、SVM-Bは、プロフィール項目推定部123から入力したユーザベクトルが、プロフィール項目Bに対して正か否かを、プロフィール項目推定部123へ出力する。このとき、プロフィール項目Bの認定確率P(B)を算出することも好ましい。
尚、他の実施形態として、機械学習部131は、非判定モデルとして構築し、否定的判定を用いることもできる。即ち、プロフィール項目Aを利用していない認定確率P(¬A)を出力するものであってもよい。
図5は、属性確率を用いてプロフィール項目の認定確率に重み付けする説明図である。
[属性確率記憶部132]
属性確率記憶部132は、設定プロフィール項目毎に、各プロフィール項目に対する属性確率を記憶する。
図5によれば、属性項目として、分析対象者の「年代」「性別」「趣味」が登録されている。その中で、プロフィール項目「Aウォレット」に対して、「30代」「女性」「ファッション」それぞれに、属性確率が設定されている。
また、投稿者毎に、自ら設定した設定プロフィール項目を有する。例えば、SNSサイトに自ら登録した「自己紹介」欄である。分析対象者の自己紹介欄に、例えば「30代」「女性」「ファッション」と記述されているとする。
[推定確率算出部133]
推定確率算出部133は、投稿者における当該プロフィール項目毎に、認定確率に属性確率を乗算した推定確率を出力する。
P=プロフィール項目の認定確率×分析対象者の設定プロフィール項目の属性確率
図5によれば、属性確率が%で表されているために、重みαを更に乗算することも好ましい。また、推定確率Pの算出の際、不用意に数値計算上の桁落ちが起こらないよう、対数で処理することも好ましい。また、推定確率Pが小さすぎるものについては、投稿者プロフィール不明として扱うこともできる。
以上、詳細に説明したように、本発明の投稿者分析装置、プログラム及び方法によれば、ユーザの投稿文から、そのユーザのプロフィール項目(例えば商品又は役務)を推定することができる。これによって、分析対象者によって記述された設定プロフィール項目のみでは得られないプロフィール項目を推定することができる。
最後に、本発明が、述語項構造検索を用いた効果について詳述する。
例えば、以下のような投稿文に対して、そのユーザが「ウォレットA」を所持しているか否かを判定することは難しい。
投稿文a「さっそくコンビニSに行って、ウォレットAを使った」
投稿文b「もしウォレットAが使えたらコンビニSに行くのに」
なぜなら、投稿文a及びbの両方とも、単語「ウォレットA」「コンビニS」「行く」「使う」が出現するためである。
これに対し、例えばキーワードに基づくBag Of Words(特徴的単語)を用いた検索ではなく、動詞を中心に主語や目的語等の関係を表す「述語項構造」に基づいて検索することによって、投稿文の内容に基づいて判定することができる。一般に、述語項構造の場合、文章に含まれる述語項構造の一致度合いを判定するために、大きい演算量を要する。これに対し、述語項構造をベクトル化して、学習投稿文から機械学習モデルの内部パラメータを事前に学習しておくことによって、ユーザ投稿文に対する当該プロフィール項目の正否を高速に判定することができる。
また、プロフィール項目を商品又は役務をと設定することによって、マーケティングの動向調査によれば、分析対象者(ユーザ)がその商品又は役務を所持しているか否かを、投稿文のみから推定することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 投稿者分析装置
110 学習投稿文記憶部
111 学習述語項構造抽出部
112 学習ベクトル生成部
113 情報量規準値算出部
120 ユーザ投稿文取得部
121 ユーザ述語項構造抽出部
122 ユーザベクトル生成部
123 プロフィール項目推定部
131 機械学習部
132 属性確率記憶部
133 推定確率算出部
2 SNSサイトサーバ
3 端末

Claims (8)

  1. 投稿者毎に、投稿文からプロフィール項目を分析する投稿者分析装置であって、
    複数の学習投稿文にプロフィール項目を対応付けて記憶する学習投稿文記憶手段と、
    前記学習投稿文から学習述語項構造を抽出する学習述語項構造抽出手段と、
    全ての学習述語項構造を要素ビットの列とした定義ベクトルを設定し、プロフィール項目毎に、各学習投稿文から学習述語項構造の学習ベクトルを生成する学習ベクトル生成手段と、
    前記投稿者のユーザ投稿文からユーザ述語項構造を抽出するユーザ述語項構造抽出手段と、
    前記ユーザ投稿文から、前記定義ベクトルに対応するユーザ述語項構造のユーザベクトルを生成するユーザベクトル生成手段と、
    前記プロフィール項目毎の前記学習ベクトルの群を用いて、前記ユーザベクトルに最も類似する学習ベクトルを判定し、当該学習ベクトルの学習投稿文に対応付けられたプロフィール項目を、当該投稿者に対応付けて登録するプロフィール項目推定手段と
    を有することを特徴とする投稿者分析装置。
  2. ユーザベクトルを入力し、当該プロフィール項目の正否のみ出力する機械学習モデルであって、各プロフィール項目専用に複数の学習投稿文の学習ベクトルを用いて内部パラメータを構築する機械学習手段を更に有し、
    前記プロフィール項目推定手段は、前記機械学習手段に前記ユーザベクトルを入力し、正と判定されたプロフィール項目のみを、前記投稿者に対応付けて登録する
    ことを特徴とする請求項1に記載の投稿者分析装置。
  3. 前記機械学習手段は、各プロフィール項目専用に正否を判定する複数のサポートベクタマシン、又は、One-VS-Other型識別器である
    ことを特徴とする請求項2に記載の投稿者分析装置。
  4. 前記学習述語項構造抽出手段及び前記ユーザ述語項構造抽出手段は、前記述語項構造に、述語の後に続く助動詞から得られる「肯定/否定」及び/又は「時制(現在/未来/過去)」に基づく付加情報を含むように抽出する
    ことを特徴とする請求項1から3のいずれか1項に記載の投稿者分析装置。
  5. 各述語項構造に対して、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、情報量規準値Infoを以下のように算出する情報量規準値算出手段を更に有し、
    n11=当該述語項構造を含む投稿文の中で、
    当該プロフィール項目を正とする投稿数
    n12=当該述語項構造を含む投稿文の中で、
    当該プロフィール項目を否とする投稿数
    n21=当該述語項構造を含まない投稿文の中で、
    当該プロフィール項目を正とする投稿数
    n22=当該述語項構造を含まない投稿文の中で、
    当該プロフィール項目を否とする投稿数
    N=n11+n12+n21+n22
    MLL_IM=(n11+n12) log(n11+n12)+(n11+n21) log(n11+n21)
    +(n21+n22) log(n21+n22)+(n12+n22) log(n12+n22)−2 N log N
    MLL_DM=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
    AIC_IM=-2 × MLL_IM + 2×2
    AIC_DM=-2 × MLL_DM + 2×3
    Info=AIC_IM − AIC_DM
    前記学習ベクトル生成手段は、前記情報量規準値Infoが所定閾値以上又は高い順の所定個数となる述語項構造のみを要素ビットとするベクトルを生成する
    ことを特徴とする請求項1から4のいずれか1項に記載の投稿者分析装置。
  6. 前記投稿者毎に、自ら設定した設定プロフィール項目を有し、
    前記プロフィール項目推定手段は、当該プロフィール項目に対する認定確率を出力するものであり、
    前記設定プロフィール項目毎に、各プロフィール項目に対する属性確率を記憶した属性確率記憶手段と、
    前記投稿者における当該プロフィール項目毎に、前記認定確率に前記属性確率を乗算した推定確率を出力する推定確率算出手段と
    を更に有することを特徴とする請求項1から5のいずれか1項に記載の投稿者分析装置。
  7. 投稿者毎に、投稿文からプロフィール項目を分析する装置に搭載されたコンピュータを機能させるプログラムであって、
    複数の学習投稿文にプロフィール項目を対応付けて記憶する学習投稿文記憶手段と、
    前記学習投稿文から学習述語項構造を抽出する学習述語項構造抽出手段と、
    全ての学習述語項構造を要素ビットの列とした定義ベクトルを設定し、プロフィール項目毎に、各学習投稿文から学習述語項構造の学習ベクトルを生成する学習ベクトル生成手段と、
    前記投稿者のユーザ投稿文からユーザ述語項構造を抽出するユーザ述語項構造抽出手段と、
    前記ユーザ投稿文から、前記定義ベクトルに対応するユーザ述語項構造のユーザベクトルを生成するユーザベクトル生成手段と、
    前記プロフィール項目毎の前記学習ベクトルの群を用いて、前記ユーザベクトルに最も類似する学習ベクトルを判定し、当該学習ベクトルの学習投稿文に対応付けられたプロフィール項目を、当該投稿者に対応付けて登録するプロフィール項目推定手段と
    してコンピュータを機能させることを特徴とするプログラム。
  8. 投稿者毎に、投稿文からプロフィール項目を分析する装置の投稿者分析方法であって、
    前記装置は、複数の学習投稿文にプロフィール項目を対応付けて記憶する学習投稿文記憶部を有し、
    前記装置は、学習フェーズとして、
    前記学習投稿文から学習述語項構造を抽出する第11のステップと、
    全ての学習述語項構造を要素ビットの列とした定義ベクトルを設定し、プロフィール項目毎に、各学習投稿文から学習述語項構造の学習ベクトルを生成する第12のステップと
    を有し、
    前記装置は、推定フェーズとして、
    前記投稿者のユーザ投稿文からユーザ述語項構造を抽出する第21のステップと、
    前記ユーザ投稿文から、前記定義ベクトルに対応するユーザ述語項構造のユーザベクトルを生成する第22のステップと、
    前記プロフィール項目毎の前記学習ベクトルの群を用いて、前記ユーザベクトルに最も類似する学習ベクトルを判定し、当該学習ベクトルの学習投稿文に対応付けられたプロフィール項目を、当該投稿者に対応付けて登録する第23のステップと
    を有することを特徴とする装置の投稿者分析方法。
JP2015060179A 2015-03-23 2015-03-23 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法 Active JP6368264B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015060179A JP6368264B2 (ja) 2015-03-23 2015-03-23 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015060179A JP6368264B2 (ja) 2015-03-23 2015-03-23 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2016181062A true JP2016181062A (ja) 2016-10-13
JP6368264B2 JP6368264B2 (ja) 2018-08-01

Family

ID=57131045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015060179A Active JP6368264B2 (ja) 2015-03-23 2015-03-23 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6368264B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6165957B1 (ja) * 2016-12-16 2017-07-19 ファーストアカウンティング株式会社 会計処理装置、会計処理システム、会計処理方法、及び会計処理プログラム
KR102117528B1 (ko) * 2018-12-21 2020-06-01 아주대학교산학협력단 온라인 데이터에 기반한 사용자 특성 예측 장치 및 방법
JP6857775B1 (ja) * 2020-12-07 2021-04-14 株式会社日立製作所 アカウント分析システム、及びアカウント分析方法
US11750548B2 (en) 2020-02-06 2023-09-05 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145968A (ja) * 2007-12-11 2009-07-02 Yahoo Japan Corp 広告配信装置、広告配信方法、広告配信プログラム及び広告入札方法
US20120110071A1 (en) * 2010-10-29 2012-05-03 Ding Zhou Inferring user profile attributes from social information
JP2014112316A (ja) * 2012-12-05 2014-06-19 Kddi Corp 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
JP2014153934A (ja) * 2013-02-08 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145968A (ja) * 2007-12-11 2009-07-02 Yahoo Japan Corp 広告配信装置、広告配信方法、広告配信プログラム及び広告入札方法
US20120110071A1 (en) * 2010-10-29 2012-05-03 Ding Zhou Inferring user profile attributes from social information
JP2014112316A (ja) * 2012-12-05 2014-06-19 Kddi Corp 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
JP2014153934A (ja) * 2013-02-08 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
長浜 祐貴: "ツイート解析による性別推定に有用な因子の検討", FIT2013 第12回情報科学技術フォーラム 講演論文集 第2分冊, JPN6018023337, 20 August 2013 (2013-08-20), pages 189 - 190, ISSN: 0003822349 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6165957B1 (ja) * 2016-12-16 2017-07-19 ファーストアカウンティング株式会社 会計処理装置、会計処理システム、会計処理方法、及び会計処理プログラム
WO2018110522A1 (ja) * 2016-12-16 2018-06-21 ファーストアカウンティング株式会社 会計処理装置、会計処理システム、会計処理方法、及び会計処理プログラム
JP2018097813A (ja) * 2016-12-16 2018-06-21 ファーストアカウンティング株式会社 会計処理装置、会計処理システム、会計処理方法、及び会計処理プログラム
KR102117528B1 (ko) * 2018-12-21 2020-06-01 아주대학교산학협력단 온라인 데이터에 기반한 사용자 특성 예측 장치 및 방법
US11750548B2 (en) 2020-02-06 2023-09-05 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
JP6857775B1 (ja) * 2020-12-07 2021-04-14 株式会社日立製作所 アカウント分析システム、及びアカウント分析方法
JP2022090209A (ja) * 2020-12-07 2022-06-17 株式会社日立製作所 アカウント分析システム、及びアカウント分析方法

Also Published As

Publication number Publication date
JP6368264B2 (ja) 2018-08-01

Similar Documents

Publication Publication Date Title
US10936959B2 (en) Determining trustworthiness and compatibility of a person
US10430255B2 (en) Application program interface mashup generation
US20230237328A1 (en) Information processing method and terminal, and computer storage medium
US20170091270A1 (en) Organizational url enrichment
Hoang Long et al. Privacy-aware framework for matching online social identities in multiple social networking services
US11017002B2 (en) Description matching for application program interface mashup generation
Ting et al. Towards the detection of cyberbullying based on social network mining techniques
JP6368264B2 (ja) 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法
Tajbakhsh et al. Microblogging hash tag recommendation system based on semantic TF-IDF: Twitter use case
Zhao et al. Text sentiment analysis algorithm optimization and platform development in social network
Kalampokis et al. On predicting election results using twitter and linked open data: the case of the UK 2010 election
US11561970B2 (en) Techniques for accurately specifying identification information
CN106575418B (zh) 建议的关键词
CN107688594B (zh) 基于社交信息的风险事件的识别系统及方法
Wang et al. An online sockpuppet detection method based on subgraph similarity matching
CN116431912A (zh) 用户画像推送方法及装置
Vieira et al. A self-training crf method for recognizing product model mentions in web forums
Murthy et al. TwitSenti: a real-time Twitter sentiment analysis and visualization framework
Panchenko et al. Large-scale parallel matching of social network profiles
Komamizu et al. Exploring Identical Users on GitHub and Stack Overflow.
Mary et al. Jen-Ton: A framework to enhance the accuracy of aspect level sentiment analysis in big data
Niu et al. Entity resolution with attribute and connection graph
Valera et al. A peculiar sentiment analysis advancement in big data
JP5829180B2 (ja) グループ内のメンバオブジェクト全体における各クラス種別の比率を推定するクラス種別推定装置、プログラム及び方法
Bhat et al. A framework for user identity resolutions across social networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180706

R150 Certificate of patent or registration of utility model

Ref document number: 6368264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150