JP2017016426A - 群形成方法、群形成装置、及び群形成プログラム - Google Patents

群形成方法、群形成装置、及び群形成プログラム Download PDF

Info

Publication number
JP2017016426A
JP2017016426A JP2015132975A JP2015132975A JP2017016426A JP 2017016426 A JP2017016426 A JP 2017016426A JP 2015132975 A JP2015132975 A JP 2015132975A JP 2015132975 A JP2015132975 A JP 2015132975A JP 2017016426 A JP2017016426 A JP 2017016426A
Authority
JP
Japan
Prior art keywords
attribute
provider
keyword
group
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015132975A
Other languages
English (en)
Other versions
JP6544084B2 (ja
Inventor
浩子 鈴木
Hiroko Suzuki
浩子 鈴木
忠延 古川
Tadanobu Furukawa
忠延 古川
哲朗 高橋
Tetsuro Takahashi
哲朗 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015132975A priority Critical patent/JP6544084B2/ja
Priority to US15/185,426 priority patent/US10303709B2/en
Priority to CN201610490848.6A priority patent/CN106326329B/zh
Publication of JP2017016426A publication Critical patent/JP2017016426A/ja
Application granted granted Critical
Publication of JP6544084B2 publication Critical patent/JP6544084B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 本発明の課題は、調査対象の母集団における属性比率を考慮した集団形成を行うことを目的とする。【解決手段】 上記課題は、公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、1又は複数のキーワードのうち、2以上の属性に重複する重複キーワードに対して、重複キーワードで2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定し、新たな公開情報について、第1の提供者群に対応する新しい提供者群を形成する群形成方法により達成される。【選択図】 図6

Description

本発明は、群形成方法、群形成装置、及び群形成プログラムに関する。
近年、学生、主婦、有職者等の様々な層の多くのユーザが、日常生活で感じたこと、ものごとに対する考え方、情報交換等でWeb(World Wide Web)を利用している。Webを利用するユーザ数の多さから、商品開発のためにWebを用いて市場の動向等を調査する場合がある。
ウェブページのテキスト文書等からユーザの書いた評判情報を抽出して分析する技術、SNSサイトサーバから得られる投稿者間の交流関係を用いて、できる限り正確なプロフィール情報を推定する技術等が知られている。
特開2007−219880号公報 特開2013−196070号公報 特開2009−116469号公報
Webのユーザが自発的に意見等を公開する例として、ブログ(Blog:Web log)がある。Web上のブログの内容が商品開発等の調査に利用される場合がある。商品開発の調査では、予め定めた属性毎に適切な人数をサンプリングして母集団を作成し、この母集団に属するユーザのブログを解析することで、ユーザの生活者としての実態を把握する。
ユーザは、学生から有職者に変化して行くように、時間の経過によって母集団におけるユーザの属性が変化する。また、ユーザがブログの更新を停止、又は、ブログを中止することもある。
一方、市場における商品の動向を調査する場合、属性の割合を一定に保たなければ過去の調査結果との比較を精度良く行えない。従って、上述したような変化に対応するため、母集団における属性の割合を一定に保つためには、属性が変化したユーザを母集団から除き、同じ属性の新たなユーザを母集団に補充することになる。
しかしながら、上述した調査時にユーザの抽出を効果的に行う従来技術では、時間経過におけるユーザの属性変化に応じて、母集団における属性割合を一定に保つことは困難である。
したがって、1つの側面では、本発明は、調査対象の母集団における属性比率を考慮した集団形成を行うことを目的とする。
一態様によれば、公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定し、新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、処理をコンピュータを用いて実行する群形成方法が提供される。
また、上記課題を解決するための手段として、上記方法を行う装置、コンピュータに上記処理を実行させるためのプログラム、及び、そのプログラムを記憶した記憶媒体とすることもできる。
調査対象の母集団における属性比率を考慮した集団形成を行うことができる。
本実施例に係るシステム構成例を示す図である。 データ収集装置のハードウェア構成を示す図である。 参照分布の例を示す図である。 調査結果の一例を示す図である。 調査結果の他の例を示す図である。 データ収集装置の機能構成例を示す図である。 事前準備されるDB及びテーブルのデータ例を示す図(その1)である。 事前準備されるDB及びテーブルのデータ例を示す図(その2)である。 事前準備されるDB及びテーブルのデータ例を示す図(その3)である。 事前準備されるDB及びテーブルのデータ例を示す図(その4)である。 母集団からランダムに選択したユーザ集合のデータ例を示す図である。 検索キーワードリストのデータ構成例を示す図である。 属性値対キーワードテーブルのデータ構成例を示す図である。 新規ユーザ候補集合のデータ構成例を示す図である。 ユーザ毎キーワードテーブルのデータ構成例を示す図である。 ユーザ毎推定属性値テーブルのデータ構成例を示す図である。 新規ユーザリストのデータ例を示す図である。 新規ユーザ補充処理を説明するためのフローチャート図(その1)である。 新規ユーザ補充処理を説明するためのフローチャート図(その2)である。 新規ユーザ補充処理を説明するためのフローチャート図(その3)である。 新規ユーザ補充処理を説明するためのフローチャート図(その4)である。 ランダムユーザ集合の非調整属性スコア分布例を示す図である。 母集団と不足の職業属性値の非調整属性スコア分布例を示す図である。 ルール獲得処理例を説明するための図である。 属性値対キーワードテーブルの他のデータ構成例を示す図である。
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本実施例に係るシステム構成例を示す図である。図1において、システム1000は、データ収集装置100と、1以上のブログサーバ3と、ブロガー端末9とを有する。
データ収集装置100は、ネットワークを介して1以上のブログサーバ3に接続し、ブログ3aを検索して収集する。データ収集装置100は、ブログ3aの収集において信頼性の高いデータ集合を提供する。
データ収集装置100によって提供されるデータ集合は、例えば、市場におけるユーザの商品に対する嗜好等の商品開発に参考となる情報を抽出することを目的とした集合体である。
各ブログサーバ3は、ブログ用の種々の管理機能を有し、ブロガー(ユーザ)にブログ用の記憶領域を提供するサーバである。
ブロガー端末9は、ブロガーによって利用される端末であり、ブログサーバ3のサービスを利用してブログ3aを作成、更新、削除等を行う。
図2は、データ収集装置のハードウェア構成を示す図である。図2において、データ収集装置100は、コンピュータによって制御される端末であって、CPU(Central Processing Unit)11と、主記憶装置12と、補助記憶装置13と、入力装置14と、表示装置15と、通信I/F(インターフェース)17と、ドライブ装置18とを有し、バスBに接続される。
CPU11は、主記憶装置12に格納されたプログラムに従ってデータ収集装置100を制御する。主記憶装置12には、RAM(Random Access Memory)、ROM(Read Only Memory)等が用いられ、CPU11にて実行されるプログラム、CPU11での処理に必要なデータ、CPU11での処理にて得られたデータ等を記憶又は一時保存する。
補助記憶装置13には、HDD(Hard Disk Drive)等が用いられ、各種処理を実行するためのプログラム等のデータを格納する。補助記憶装置13に格納されているプログラムの一部が主記憶装置12にロードされ、CPU11に実行されることによって、各種処理が実現される。記憶部130は、主記憶装置12及び/又は補助記憶装置13を有する。
入力装置14は、マウス、キーボード等を有し、ユーザがデータ収集装置100による処理に必要な各種情報を入力するために用いられる。表示装置15は、CPU11の制御のもとに必要な各種情報を表示する。通信I/F17は、有線又は無線などのネットワークを通じて通信を行う。通信I/F17による通信は無線又は有線に限定されるものではない。
データ収集装置100によって行われる処理を実現するプログラムは、例えば、CD−ROM(Compact Disc Read-Only Memory)等の記憶媒体19によってデータ収集装置100に提供される。
ドライブ装置18は、ドライブ装置18にセットされた記憶媒体19(例えば、CD−ROM等)とデータ収集装置100とのインターフェースを行う。
また、記憶媒体19に、後述される本実施の形態に係る種々の処理を実現するプログラムを格納し、この記憶媒体19に格納されたプログラムは、ドライブ装置18を介してデータ収集装置100にインストールされる。インストールされたプログラムは、データ収集装置100により実行可能となる。
尚、プログラムを格納する媒体としてCD−ROMに限定するものではなく、コンピュータが読み取り可能な媒体であればよい。コンピュータ読取可能な記憶媒体として、CD−ROMの他に、DVDディスク、USBメモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリであっても良い。
市場調査等にブログを利用するために、まず、ユーザをサンプリングした母集団を適切に作成する。即ち、母集団におけるユーザの属性の割合が、国内の人口分布等のデータで示される属性の割合と同様になるように、母集団を作成する。例えば、性別と職業とを属性とする人口分布を参照し、各属性における割合が同じになるようなサンプル数を決定する。以下、母集団の作成時に参照されるサンプル数の分布を「参照分布」と言う。
図3は、参照分布の例を示す図である。図3において、参照分布1は、性別と職業とを属性としたマトリクスでサンプル数を示したテーブルである。性別の属性値は、「男性」又は「女性」である。職業の属性値は、「中高生」、「大学生」、「有職者」、「主婦」、「シニア」、「その他」等である。例えば、参照分布1では、男女の比率、職業の比率等が略一致するように設定されている。この参照分布1に基づいて、母集団が作成される。
本実施例では、参照分布1に基づいて、同様の属性の割合で母集団を作成し、時間経過に伴い母集団から除外されるユーザが出現した場合、そのユーザと同じ属性値を持つ可能性の高いユーザを見つけて、母集団を補充する。
中高生だったユーザが大学生になる等により、ユーザの属性が変化する。また、ブログ更新を停止するユーザも存在する。ユーザの属性は、ユーザの投稿したブログ記事に対してモデルを適用することで推定できる。このようなモデルは、文書分類技術の応用で作成可能である。
モデルは、ブログ記事中に書かれた語句とその頻度とに基づいて、ユーザを分類するものである。このモデルを用いることで、「部活」という語句が書かれていれば中高生である確率を上昇させる。この手法では、各ユーザについて複数のブログ記事を収集する必要がある。
また、生活者の実態を継続的に観察するためにユーザの入れ替わりで、全く別の傾向がでるようになってしまうと生活者の実態が急に変わったように誤検知してしまう。生活者の実態を精度良く調査するには、補充するユーザは、母集団から除いたユーザと同じような傾向を持った投稿をするユーザであることが望ましい。
ユーザを選択する方法としてランダムサンプリングがある。ランダムサンプリングの一例として、以下の手順で行うことが考えられる。
1.サンプリング変更前における、各属性値のユーザ集合における語句の出現頻度分布Pallを求める。
2.ランダムに選択した新たなユーザについて、投稿を収集する。
3.ユーザの語句の出現分布Puと、推定属性値とを求める。
4.PallとPuの類似度が閾値以上、且つ、推定属性値が不足セルに一致していれば、そのユーザを新規ユーザとして採用する。
5.上記2.から4.を繰り返し、不足ユーザ数分だけ新規ユーザの採用が済めば終了する。
この例では、ランダムに選択したユーザが採用される確率が低く、収集回数が多くなるために、収集回数制限によって十分なユーザ数を獲得できない可能性がある。このようにランダムサンプリングでは補充したい属性値(例えば、中高生)のユーザだけを収集できず、非効率である。
本実施例に係るデータ収集装置100では、収集対象のユーザをランダムに選択するのではなく、補充したいユーザに特徴的なキーワードを含むブログ記事を一度以上投稿したユーザのみを補充の対象とする。
キーワードをランダムに設定した場合、特定の話題のブログ記事ばかりを投稿しているようなユーザが収集されてしまい、結果として生活者の実態を反映するような母集団にならなくなってしまう。
そのため、本実施例では、収集対象ユーザの投稿内容の傾向が時間経過により偏る「バイアス」を回避するようにキーワードを設定する。キーワードは、以下の(1)及び(2)を満たすように設定する。
(1)ユーザ毎に前述した参照分布1の属性を推定する推定モデルにおいて、獲得したい属性値(例えば、中高生)に分類しやすい重要語句を上位から順にキーワードとして追加していく。
上記(1)により、ユーザの推定結果が獲得したい属性値に一致する可能性が高まり、収集回数を抑えられる。
(2)投稿内容傾向のバイアスを、サンプリング数を調整しない属性、即ち、参照分布1で示した性別、職業等以外の属性(以下、「非調整属性」と言う。)の分布により定義し、サンプリング見直し前後でその差が小さくなるようにキーワードを設定する。
調整属性は、性別、職業等の調査対象となる属性であり、非調整属性は調査対象としない属性である。非調整属性としては、例えば、趣味属性等がある。趣味属性は、グルメ、映画等50以上存在する。その属性値が他のデモグラフィックな属性に比べて多く、数の調整が困難である。
生活者の実態を抽出するシステムにおいては趣味属性が有用であるが、対象のシステムでは、他の属性を用いて同様の解決を図ることも可能である。他の属性の例として、防災関連の調査を行う場合に、東京都、大阪府等の居住地を属性としても良い。
経験的に、趣味属性に注目することで投稿内容傾向が類似したユーザを抽出できることが予備実験により明らかになっている。趣味属性をキーワードとして用いることで、ブログサーバ3から調整属性を有する新たなユーザを検索できると考えられる。本実施例では、非調整属性の例として、趣味属性を用いて説明する。
趣味属性の中には、複数の調整属性のユーザに重複して存在する場合がある。複数の調整属性に対応付けられる趣味属性をキーワードとして用いた場合には、ユーザを補充したい調整属性に対して、精度良く新たなユーザを検索できない可能性がある。以下、趣味属性をキーワードと言い、複数の調整属性に対応付けられる趣味属性を重複キーワードと言う場合がある。
発明者等は、このような重複キーワードに関して、2つの調整属性との間においてその出現傾向の差異について調査を行った。発明者等は、各調整属性におけるユーザ毎に、発明者等が経験的に知り得た重複キーワードが出現するブログ記事の総数をカウントし、ブログ記事数毎にユーザ数を分布を調査した。以下に、2つの重複キーワードで行った調査結果を図4及び図5で示す。図4及び図5での説明では、2つの重複キーワードを夫々「XXX」及び「YYY」として表す。
図4は、調査結果の一例を示す図である。図4に示す調査結果1aは、調整属性の「女子中高生」と「主婦」とに共通する重複キーワード「XXX」に関して出現傾向を調査した結果を示している。
調査結果1aでは、ブログ記事数毎に、各調整属性のユーザ数と、比率とを示している。重複キーワード「XXX」が1つのブログ記事に出現した、「女子中高生」の数は「1920」であり、「主婦」の数は「1685」であることを示している。従って、ブログ記事数「1」の場合、「女子中高生」の比率は、「0.533」(=1920÷(1920+1685))である。ブログ記事数「1」では、「女子中高生」と「主婦」とで略同数を示す。
しかしながら、ブログ記事数「6」以上では、「女子中高生」の比率は、凡そ「0.8」である。従って、同一ユーザのブログ記事において、重複キーワード「XXX」が出現するブログ記事数が「6」以上存在する場合、そのユーザは「女子中高生」であると判断できる。
特に、ブログ記事数「6」から「12」の「女子中高生」の比率は、一様に「0.8」を超えており、この範囲において、「女子中高生」のユーザを精度良く特定可能と判断できる。
図5は、調査結果の他の例を示す図である。図5に示す調査結果1bは、調整属性の「男性・既婚・シニア」と「女性・既婚・シニア」とに共通する重複キーワード「YYY」に関して出現傾向を調査した結果を示している。
調査結果1bでは、ブログ記事数毎に、各調整属性のユーザ数と、比率とを示している。重複キーワード「YYY」が1つのブログ記事に出現した、「男性・既婚・シニア」の数は「3396」であり、「主婦」の数は「2331」であることを示している。従って、ブログ記事数「1」の場合、「男性・既婚・シニア」の比率は、「0.593」(=3396÷(3396+2331))である。ブログ記事数「1」では、「男性・既婚・シニア」と「女性・既婚・シニア」とで略同数を示す。
しかしながら、ブログ記事数「11」以上では、「男性・既婚・シニア」の比率は凡そ「0.8」以上を示し、更に、ブログ記事数「17」以上では、その比率は「1.0」である。従って、同一ユーザのブログ記事において、重複キーワード「YYY」が出現するブログ記事数が「11」以上に出現する場合には、そのユーザは「男性・既婚・シニア」であると判断できる。
発明者等は、2以上の異なる調整属性のユーザのブログ3aについて、重複キーワードついて調査を行い、重複キーワードの出現傾向は、調整属性毎に異なることを見出した。本実施例において、調整属性毎のユーザのブログ3aの収集に際し、重複キーワードの使用を可能にしたデータ収集装置100を提供する。
図6は、データ収集装置の機能構成例を示す図である。図6中、実線は入力を示し、破線は出力を示す。以下の図においても同様である。
図6において、データ収集装置100は、主に、キーワード特定部40Aと、新規ユーザ補充部40Bとを有する。キーワード特定部40Aと、新規ユーザ補充部40Bとは、データ収集装置100にインストールされたプログラムが、データ収集装置100のCPU11に実行させる処理により実現される。キーワード特定部40Aと、新規ユーザ補充部40Bとは一つのデータ収集装置100に実装されてもよいし、新規ユーザ補充部40Bは、別のコンピュータ装置に実装されてもよい。
記憶部130の事前準備領域30には、ブログDB31、職業分類テーブル32、スコアテーブル33、職業推定モデル34、キーワード対ユーザテーブル35、属性判定済み記事DB36等が記憶されている。更に、記憶部130は、第1ランダムユーザ集合51、第2ランダムユーザ集合52、許容誤差閾値53、検索キーワードリスト54、属性値対キーワードテーブル54−2、新規ユーザ候補集合55、ユーザ毎キーワードテーブル56、ユーザ毎推定属性値テーブル57、新規ユーザリスト58等を記憶する。
キーワード特定部40Aは、補充するユーザの調整属性を精度良く検索するキーワードを特定する処理部であり、基本データ収集部41と、ユーザ集合作成部42と、スコア分布閾値計算部43と、キーワードリスト作成部44と、頻度閾値計算部44−2とを有する。
基本データ収集部41は、参照分布1に基づいて、属性の割合に応じて、ブログサーバ3からユーザを検索して母集団31を作成する。また、基本データ収集部41は、母集団1に含まれる各ユーザのブログ3aをブログサーバ3から取得して、ブログDB32に格納する。
ユーザ集合作成部42は、基本データ収集部41によって取得した母集団31からランダムに2つのユーザ集合を作成する。各々のユーザ集合に含まれるユーザを識別するユーザIDが、第1ランダムユーザ集合51又は第2ランダムユーザ集合52のいずれかに記録される。
スコア分布閾値計算部43は、ユーザ集合作成部42が作成した2つのユーザ集合に対して、趣味属性毎にスコア分布を計算し、2つのスコア分布の比較によって許容誤差閾値53を求める。スコア分布を計算する際には、スコアテーブル33が参照される。
キーワードリスト作成部44は、各属性に属する確からしさを高める1以上のキーワードを設定して、趣味属性値のスコア分布が許容誤差閾値53以内となるキーワードのリストを作成する。
ある属性に属する確からしさとは、例えば、「中高生らしさ」等を意味する。キーワードを複数にすることによって、ある属性に属する確からしさを高めることができる。ある属性に属する確からしさは、職業推定モデル34を参照して判断する。趣味属性のスコア分布の計算では、キーワード対ユーザテーブル35が参照される。以下、ある属性に属する確からしさを、単に、「属性らしさ」という。
キーワードリスト作成部44によって、ブログ3aのブログ記事内容を検索するためのキーワードを示す検索キーワードリスト54が作成される。検索キーワードリスト54では、属性値毎に複数のキーワードが夫々の属性らしさを示すスコアと共に示されている。
頻度閾値計算部44−2は、検索キーワードリスト54を参照して、属性値毎に各キーワードがブログ記事内で記述される頻度を求め、複数の属性値に重複するキーワード(重複キーワード)を用いた際の有効性を判定する。
属性値毎に、キーワードと、ブログ記事内に記述される頻度とを示した属性値対キーワードテーブル54−2が作成される。頻度閾値計算部44−2による有効性の判定結果に基づいて、属性値対キーワードテーブル54−2では、重複キーワードに対しては、該当する複数の属性値のうち1の属性値のみに頻度が示される。有効性が判定されなかった1以上の他の属性値に対しては、頻度は設定されない。即ち、これら他の属性値のユーザを補充する場合には、頻度が未設定のキーワードは使用しないことを示す。
新規ユーザ補充部40Bは、キーワード特定部40Aによって特定されたキーワードを用いて、新規にユーザを補充する処理部であり、収集部45と、属性推定部46と、サンプリング部47とを有する。
収集部45は、属性値対キーワードテーブル54−2のルールに従って、不足したユーザと同様の属性を有するユーザによるブログ3aのブログ記事をブログサーバ3から検索して、ブログ3aを収集する。収集部45は、収集したブログ3aのユーザを新規ユーザ候補とし、そのユーザIDを示す新規ユーザ候補集合55を記憶部130に格納する。
また、収集部45は、新規ユーザ候補毎に属性値対キーワードテーブル54−2のキーワードが出現したブログ記事数をカウントする。新規ユーザ候補毎に検索に使用したキーワードの出現回数を記録したユーザ毎キーワードテーブル56が記憶部130に格納される。
属性推定部46は、収集したブログ3aのブログ記事に職業推定モデル34を適用して各ユーザの職業を推定する。ユーザ毎に、推定した属性値を対応付けたユーザ毎推定属性値テーブル57が記憶部130に格納される。
収集部45が補充のためにブログ記事を収集する際には、検索キーワードリスト54の属性らしさを示すスコアの高い順にブログ3aを収集することが望ましい。その一方で、高いスコアであっても、キーワードが複数の属性値に属する場合には、目的のユーザのブログ3aを精度良く収集できない可能性がある。
一例として、キーワード「授業」は、中学生、大学生等に対してその属性らしさを表現するのに重要な語句である。調整属性が「中高生」である場合に、キーワード「授業」を用いてブログ3aを収集すると、大学生等のブログ3aがノイズとして混入すると考えられる。
調整属性以外の属性のブログ3aが多く収集されると、補充したい調整属性のユーザ数を得られない場合がある。この場合には、収集を多く試行することになり、非効率な収集が行われる。収集が非効率に行われた場合には、ブログ3aのブログ記事に対する収集回数制限によって、結果、十分なユーザ数を獲得できない場合がある。
また、補充するユーザ数に達するまで、属性らしさのスコアの高い順にキーワードを替えながら収集を行うが、スコアが低くなれば、属性らしさを表現するのに適切でないキーワードとなる可能性があり、結果、非効率な収集が行われてしまう。
上述した非効率な収集を考慮して、複数の属性に属するキーワードの使用を抑止することが簡潔な方法であるが、属性らしさを表す重要な語句の数が削減されてしまうといった不都合さがある。
本実施例では、頻度閾値計算部44−2により、ユーザを補充する目的において、キーワードの有効性を判定する。調整属性において、他の属性と重複するキーワードであっても、頻度閾値を条件とすることで使用可能とし、それにより効率的に精度良く調整属性のユーザ数を得られるようにする。
次に、記憶部130に格納されるテーブル等について説明する。図7から図10は、事前準備されるDB及びテーブルのデータ例を示す図である。図7において、母集団に含まれるユーザに関するデータ構成例を示す。
母集団31は、ユーザID毎に職業を対応付けたテーブルである。ユーザIDは、母集団31内でユーザを一意に特定するための識別子であり、後述されるDB及びテーブルにおいても同様である。職業は、ブログ3aのブログ記事から推定したユーザの職業である。職業の属性値として、図3の参照分布1の職業の属性値が用いられる。
ブログDB32は、ユーザID毎にブログ3aのブログ記事(記事データ)を対応付けたテーブルである。ブログ記事には、ブログサーバ3から取得したブログ3aのページを記憶する、或いは、ブログ3aを記憶した領域へのアドレスを示す。
ブログDB32で管理されるブログ記事は、ブログ3aのページ単位であることが望ましい。ユーザによっては、複数のブログを運営している場合がある。その場合は、ブログ3a毎に、抽出したページが記憶される。
スコアテーブル33は、ユーザID毎に趣味スコアを対応付けたテーブルである。趣味属性値は、「グルメ」、「映画」、・・・「野球」等であり、ユーザID毎に各趣味属性値に対して趣味スコアが示されている。趣味スコアは、1に近づくほど興味があることを示し、0に近づくほど興味がないことを示す。
例えば、ユーザID「00003」のユーザは、「映画」の趣味スコア「1.0」から「映画」に興味を持っていることが明らかであり、ユーザID「00002」のユーザは、「グルメ」の趣味スコア「0.0」から「グルメ」に全く興味がないことが分かる。
図8は、職業推定モデルのデータ構成例を示す図である。図8において、職業推定モデル34は、キーワード毎に職業スコアを対応付けたテーブルである。職業属性値は、参照分布1の属性値に相当し、「中高生」、・・・「その他」であり、キーワード毎に各職業属性値に対して職業スコアが示されている。職業スコアは、1に近づくほど職業属性値の可能性が高いことを示し、0に近づくほど職業値と相関がない、−1に近付くほど職業値の可能性が低く他の職業値である可能性が高いことを示す。
例えば、キーワード「部活」がブログ記事に出現する場合は、その職業スコアから、ブログ3aの作成者(ブロガー)であるユーザが中高生である可能性を「0.5」ポイント、その他の職業である可能性を「0.01」ポイント上昇させることを示している。
図9は、キーワード対ユーザテーブルのデータ構成例を示す図である。図9において、キーワード対ユーザテーブル35は、キーワード毎に、ユーザIDのリストを対応付けたテーブルである。キーワードの項目には、検索時に用いた複数のキーワードが一覧されている。各キーワードに対応付けて、そのキーワードが出現したブログ3aのユーザのIDが示されている。例えば、キーワード「部活」の場合、ユーザID「00002」、「00383」等が対応付けられる。
図10は、属性判定済み記事DBのデータ構成例を示す図である。図10において、属性判定済み記事DB36は、属性が既に判定されているユーザ毎のブログ記事を管理するデータベースである。ユーザID毎に、職業、ブログ記事が対応付けられている。属性判定済み記事DB36は、母集団31とブログDB32の夫々にユーザIDで関連付けされ、母集団31とブログDB32から得られるデータを用いて予め作成される。
従って、図7のデータ例より、ユーザID「00001」に対して、母集団32から得られる職業「中高生」、ブログDB32から得られるブログ記事「ブログaa1_page1、ブログaa1_page2、・・・、ブログaa2_page1、・・・」が対応付けられる。
ユーザID「00002」に対して、母集団32から得られる職業「有職者」、ブログDB32から得られるブログ記事「ブログbb1_page1、ブログbb1_page2、・・・」が対応付けられる。また、ユーザID「00002」に対して、母集団32から得られる職業「中高生」、ブログDB32から得られるブログ記事「ブログcc1_page1、ブログcc1_page2、・・・」が対応付けられる。
図11は、母集団からランダムに選択したユーザ集合のデータ例を示す図である。図11において、ユーザ集合作成部42によって作成された第1ランダムユーザ集合51及び第2ランダムユーザ集合52は、夫々、母集団31からランダムに選択したユーザIDが記録されている。
第1ランダムユーザ集合51及び第2ランダムユーザ集合52と、ユーザ毎の非調整属性のスコアテーブル33とは、ユーザIDで関連付けが可能である。ユーザIDに対応する各趣味属性値の趣味スコア(スコア分布)は、スコアテーブル33から取得できる。
第1ランダムユーザ集合51及び第2ランダムユーザ集合52は、許容誤差閾値53を算出するために、スコア分布閾値計算部43によって使用される。
は、検索キーワードリストのデータ構成例を示す図である。図12において、検索キーワードリスト54は、属性値毎に、1以上のキーワードを対応付けたリストである。
図12の例では、属性値「中高生」に対して、中高生に特徴的なキーワードとして、「部活」、「授業」、「学校」、及び「バイト」が一覧されている。また、属性値「大学生」に対して、大学生に特徴的なキーワードとして、「大学」、「サークル」、「授業」、及び「弁当」が一覧されている。更に、属性値「有職者」に対して、有職者に特徴的なキーワードとして、「職場」、「弁当」、「通勤」、及び「出張」が一覧されている。そして、属性値「主婦」に対して、主婦に特徴的なキーワードとして、「旦那」、「幼稚園」、「弁当」、及び「夕飯」が一覧されている。
また、キーワード「授業」は、属性値「中高生」と「大学生」とで重複している。また、キーワード「弁当」は、属性値「大学生」、「有職者」、及び「主婦」とで重複している。
図13は、属性値対キーワードテーブルのデータ構成例を示す図である。図13において、属性値対キーワードテーブル54−2は、検索キーワードリスト54に対して、ルールの項目が加えられたテーブルである。
ルールは、キーワードが出現する回数で抽出する条件を示している。図13に示す例において、重複のないキーワードには「1以上」が設定されている。重複キーワードに対しては、属性値によってルールが設定されている場合と空欄の場合とが存在する。
重複キーワード「授業」に対して、属性値「中高生」では「7以上」がルールとして示されている。一方、属性値「大学生」では空欄となっている。即ち、「大学生」が調整属性となる場合、「授業」は大学生のブログ3aのブログ記事内容に特徴的な言葉であるが、ユーザを抽出するためのキーワードとしては使用されない。
重複キーワード「弁当」に対して、属性値「主婦」では「3以上」がルールとして示されている。一方、属性値「大学生」及び「有職者」では空欄となっている。即ち、「大学生」又は「有職者」が調整属性となる場合、「弁当」は大学生のブログ3aのブログ記事内容に特徴的な言葉であるが、ユーザを抽出するためのキーワードとしては使用されない。
図14は、新規ユーザ候補集合のデータ構成例を示す図である。図14において、新規ユーザ候補集合55は、収集部によって収集されたブログ3aのユーザのIDを示すリストである。
図15は、ユーザ毎キーワードテーブルのデータ構成例を示す図である。図15において、ユーザ毎キーワードテーブル56は、新規ユーザ候補集合55のユーザID毎に、ブログ記事に出現したキーワードと、出現回数とを対応付けたテーブルであり、ユーザID、キーワード等の項目を有する。
キーワードには、ユーザの最新10ブログ記事を収集した結果が示され、出現したキーワードと、キーワードが出現したブログ記事の数を示す出現回数とが示される。
例えば、ユーザID「00002」に対して、キーワード「部活x3, 友達x2, ゲームx5, ・・・」が示される。キーワード「部活」が3つのブログ記事に出現し、キーワード「友達」が2つのブログ記事に出現し、キーワード「ゲーム」が5つのブログ記事に出現した等が示されている。
図16は、ユーザ毎推定属性値テーブルのデータ構成例を示す図である。図16において、ユーザ毎推定属性値テーブル57は、新規ユーザ候補集合55で示されるユーザID毎に、各職業属性値の推定値と、推定属性とを対応付けたテーブルである。
職業属性値は、図3の参照分布1で示される「中高生」、・・・「その他」である。各職業属性値に対して、属性推定部46が推定した推定値が示される。推定値は、高い値であるほど職業として可能性が高いことを示し、低い値であるほど職業として可能性が低いことを示す。推定属性は、各職業属性値の推定値から最も高い値を示す職業属性値を示す。
図17は、新規ユーザリストのデータ例を示す図である。図17において、新規ユーザリスト58は、不足している職業属性値に対して作成されるリストであり、母集団31において、新規ユーザとして補充するユーザIDのリストを示す。
例えば、職業属性値「中高生」に対して、ユーザID「00002」、「00383」、「00876」、・・・等が新規ユーザとして補充されることを示している。
次に、本実施例に係る新規ユーザ補充処理について説明する。図18から図21は、新規ユーザ補充処理を説明するためのフローチャート図である。図18から図21において、不足属性値が職業属性値「中高生」である場合で説明する。他職業属性値でも同様の処理となる。
図18において、ユーザ集合作成部42は、ユーザ毎の非調整属性のスコアテーブル33から2つのランダムユーザ集合u及びuを作成する。ここでは、ユーザ集合u及びuは、母集団31を参照して、職業が「中高生」を示すユーザIDの中からランダムに抽出されたユーザIDの集合とする。ランダムユーザ集合uのユーザIDは、第1ランダムユーザ集合51に相当し、ランダムユーザ集合uのユーザIDは、第2ランダムユーザ集合52に相当する。
次に、スコア分布閾値計算部43は、不足属性値の非調整属性のスコア分布Dorigを計算する(ステップS12)。スコア分布Dorigは、数1及び数2で算出できる。
Figure 2017016426
〜hは、趣味属性値「グルメ」、「映画」、・・・「野球」等に相当する。
Figure 2017016426
また、スコア分布閾値計算部43は、非調整属性スコア分布DuとDuとを比較して、許容誤差閾値θ=Diff(Du、Du)を求める(ステップS13)。上記数1及び数2を2つのランダムユーザ集合u及びuの各々に適用して、非調整属性スコア分布Du及びDuを計算する。許容誤差閾値θは、非調整属性スコア分布DuとDuとの差によって求められる。許容誤差閾値θは、許容誤差閾値53に相当する。
スコア分布閾値計算部43は、各趣味hについて、各スコアsのユーザ数割合ru,h・sの差の2乗和(数3)により計算する。
Figure 2017016426
図22に、趣味属性値「グルメ」と「映画」の各々に関して、職業属性値「中高生」の場合の、ランダムユーザ集合uとuの非調整属性スコア分布例を示す。図22中、横軸に趣味に対する興味の度合を趣味スコアで示し、縦軸にユーザ数割合を示している。
図22において、趣味属性値「グルメ」(hとする)に関して、ランダムユーザ集合uの非調整属性スコア分布をdu1,h1で示し、ランダムユーザ集合uの非調整属性スコア分布をdu2,h1で示している。
同様に、趣味属性値「グルメ」(hとする)に関して、ランダムユーザ集合uの非調整属性スコア分布をdu1,h2で示し、ランダムユーザ集合uの非調整属性スコア分布をdu2,h2で示している。よって、数3により、趣味属性値毎の差の2乗和の合計を計算して許容誤差閾値θを得る。
図18に戻り、ステップS14からS20がキーワードリスト作成部44での処理に相当する。ステップS14からS20での処理により、許容誤差閾値θを用いて、母集団31の非調整属性である職業属性値の分布と同様になるようにキーワードを決定する。先ず、キーワードリスト作成部44は、変数iをゼロに初期化する(ステップS14)。
キーワードリスト作成部44は、変数iを1インクリメントして(ステップS15)、変数iが語彙数以上となったか否かを判断する(ステップS16)。語彙数は、職業推定モデル34で保持するキーワードの値「部活」、「テスト」等の総数以下であれば良い。変数iが語彙数以上の場合、キーワードリスト作成部44は、図20のステップS121へと進む。
変数iが語彙数未満である場合、キーワードリスト作成部44は、職業推定モデル34から、獲得したい職業属性値の分類に有用なキーワードを上位i個の集合Tiを抽出する(ステップS17)。「獲得したい職業属性値の分類に有用なキーワード」とは、例えば、「中高生らしさ」を高めるキーワードである。職業推定モデル34から職業属性値「中高生」の値が高い順に上位i個が抽出される。
キーワードリスト作成部44は、集合Tiのキーワードのいずれかを含んだブログ記事を投稿したユーザを、ブログDB32に保持しているブログ記事から抽出して、非調整属性のスコア分布Diを求める(ステップS18)。
ステップS18において、キーワードリスト作成部44は、キーワード対ユーザテーブル35を参照して、集合Tiのキーワードのいずれかを含んだブログ記事を投稿したユーザを抽出して、趣味属性のスコア分布Diを求める。
次に、キーワードリスト作成部44は、母集団31の分布Dorigと不足の職業属性値の分布Diとの分布差Diff(Dorig,Di)を求める(ステップS19)。分布差Diff(Dorig,Di)は、分布Dorigと分布Diとに対して数3を適用すれば良い。
そして、キーワードリスト作成部44は、ステップS19で求めた分布差Diff(Dorig,Di)がステップS13で求めたθ未満であるか否かを判断する(ステップS20)。分布差Diff(Dorig,Di)がθ以上である場合、キーワードリスト作成部44は、未だ母集団31の職業属性値の割合に近づいていないと判断して、ステップS15へと戻り、更にi個目のキーワードを追加して、上記同様の処理を繰り返す。一方、分布差Diff(Dorig,Di)がθ未満となった場合、キーワードリスト作成部44による処理は終了し、図20のステップS121へと進む。
図23に、趣味属性値「グルメ」と「映画」の各々に関して、母集団31と不足の職業属性値「中高生」の非調整属性スコア分布例を示す。図23中、横軸に趣味に対する興味の度合を趣味スコアで示し、縦軸にユーザ数割合を示している。
図23において、趣味属性値「グルメ」(hとする)に関して、母集団31の非調整属性スコア分布をdorig,h1で示し、不足の職業属性値「中高生」の非調整属性スコア分布をdi,h1で示している。
同様に、趣味属性値「グルメ」(hとする)に関して、母集団31の非調整属性スコア分布をdorig,h2で示し、不足の職業属性値「中高生」の非調整属性スコア分布をdi,h2で示している。よって、数3を適用することで、趣味属性値毎の差の2乗和の合計を計算して分布差Diff(Dorig,Di)を得る。
このような処理を、職業推定モデル34(図8)の職業属性値「高校生」の推定値が高い順に、キーワードを検索キーワード集合Tiに追加するたびに行う。職業推定モデル34(図8)より、1回目は、検索キーワード集合T1={部活}で行う。2回目は、検索キーワード集合T2={部活、テスト}で行う。3回目は、検索キーワード集合T3={部活、テスト、クラス}で行う。4回目は、検索キーワード集合T4={部活、テスト、クラス、学校}で行う。
4回目の処理で、分布差Diff(Dorig,Di)がθ未満となったときに、キーワードリスト作成部44は、ステップS15〜S20の繰り返し処理を終了する。そして、キーワードリスト作成部44による処理が終了すると、頻度閾値計算部44−2による処理が開始される。
頻度閾値計算部44−2は、検索キーワードリスト54から属性毎に、検索キーワード集合を抽出する(ステップS31)。「中高生」の検索キーワード集合は{部活、授業、学校、バイト、・・・}、「大学生」の検索キーワード集合は{大学、サークル、授業、弁当、・・・}、「有職者」の検索キーワード集合は{職場、弁当、通勤、出張、・・・}、「主婦」の検索キーワード集合は{旦那、幼稚園、弁当、夕飯、・・・}のように検索キーワード集合が抽出される。
そして、頻度閾値計算部44−2は、複数の属性に重複するキーワードの集合を作成する(ステップS32)。以下、複数の属性に重複するキーワードを含む重複キーワード集合5aが記憶部130に記憶される。
次に、頻度閾値計算部44−2は、重複キーワード集合から重複キーワードを1つ選択し、属性判定済み記事DB36から重複キーワードを含むブログ記事を特定して作業テーブル5bを作成する(ステップS33)。作業テーブル5bでは、重複キーワード毎に、属性判定済み記事DB36から得られた、属性値と、1以上のブログ記事とが対応付けられる。
頻度閾値計算部44−2は、作業テーブル5bを参照して、選択した重複キーワードに関して、各属性の発生回数を取得する(ステップS34)。発生回数はブログ記事数に相当する。具体的には、重複キーワードを含むページ数がカウントされる。
次に、頻度閾値計算部44−2は、選択した重複キーワードに関して、各属性のポアソン分布を求め(ステップS35)、求めたポアソン分布から各属性についてのルールを獲得する(ステップS36)。属性と重複キーワードとの組み合わせに対してルールを獲得した場合、頻度閾値計算部44−2は、作業テーブル5において、組み合わせに対応付けて獲得したルールを記録する。組み合わせに対してルールが獲得できなかった場合、ルールは記録されない。ルールの獲得方法については、後に詳述される。
頻度閾値計算部44−2は、作業テーブル5bの全ての重複キーワードに対してルールを獲得したか否かを判断する(ステップS37)。作業テーブル5bに未だルールの獲得できていない重複キーワードが存在する場合(ステップS37のNO)、頻度閾値計算部44−2は、ステップS33へと戻り、上記同様の処理を繰り返す。
一方、作業テーブル5bの全ての重複キーワードに対してルールを獲得した場合(ステップS37のYES)、頻度閾値計算部44−2は、属性値-キーワードテーブル54−2を作成する(ステップS38)。
頻度閾値計算部44−2は、検索キーワードリスト54を複製し、作業テーブル5bから、重複キーワード、属性値、及びルールとを取得する。取得した重複キーワードと属性値との組み合せに対して獲得したルールが設定された属性値対キーワードテーブル54−2を作成する。
頻度閾値計算部44−2は、属性値対キーワードテーブル54−2において、重複キーワードと属性値との組み合せ以外のキーワードと属性値との組み合わせに対して「1以上」を設定する。
属性値-キーワードテーブル54−2によって、属性毎に、その属性であると判断する際のキーワードの出現回数の閾値を示したルールが示される。従って、属性値対キーワードテーブル54−2において、重複キーワードと属性値との組み合せにおいて、ルールが設定された組み合せが存在するため、全ての重複キーワードの利用を抑止することなく、重複キーワードを効果的に利用することが可能となる。
属性値-キーワードテーブル54−2の作成の完了により、頻度閾値計算部44−2による処理は終了し、即ち、キーワード特定部40Aによる処理が終了し、新規ユーザ補充部40Bによる処理が開始される。
ここで、ステップS36での重複キーワード毎に各属性に対するルールを獲得するルール獲得処理について図20で説明する。ルール獲得処理は、頻度閾値計算部44−2によって行われる処理である。
図20において、頻度閾値計算部44−2は、ルールの下限fを1つ増加させる(ステップS3601)。頻度閾値計算部44−2は、初回は下限f=0とし、2回目から下限fを1つ増加させる。また、頻度閾値計算部44−2は、図19のステップS35で求めたポアソン分布において、ルールの区間幅Δを1つ増加させる(ステップS3602)。
次に、頻度閾値計算部44−2は、重複キーワードが存在する全ての属性で、それぞれの現在の区間(fからf+Δ)での面積を計算する(ステップS2603)。そして、頻度閾値計算部44−2は、属性を1つ選択し、選択した属性の面積と他の属性の面積との比を求めて(ステップS3604)、選択した属性の割合が閾値R以上となっているか否かを判断する(ステップS3605)。
選択した属性の割合が閾値R未満の場合(ステップS3605のNO)、頻度閾値計算部44−2は、ステップS3607へと進む。一方、選択した属性の割合が閾値R以上の場合(ステップS3605のYES)、頻度閾値計算部44−2は、選択した属性について、現在の区間でのルール「f以上かつf+Δ未満」を獲得する(ステップS3606)。
頻度閾値計算部44−2は、全ての属性が完了したか否かを判断する(ステップS3607)。全ての属性が完了した場合、頻度閾値計算部44−2は、全ての属性についてルールを獲得したか否かを判断する(ステップS3607)。全ての属性についてルールを獲得していない場合(ステップS3607のNO)、頻度閾値計算部44−2は、ステップS3604へと戻り、次の属性を選択して、上記同様の処理を繰り返す。
一方、全ての属性についてルールを獲得した場合(ステップS3607のYES)、頻度閾値計算部44−2は、区間幅Δが上限Δmaxに達したか否かを判断する(ステップS3608)。区間幅Δが上限Δmaxに達していない場合(ステップS3608のNO)、頻度閾値計算部44−2は、ステップS3602へと進む。
一方、区間幅Δが上限Δmaxに達している場合(ステップS3608のYES)、頻度閾値計算部44−2は、下限fが上限Fに達したか否かを判断する(ステップS3609)。下限fが上限Fに達していない場合(ステップS3609のNO)、頻度閾値計算部44−2は、ステップS3602へと進み、上記同様の処理を繰り返す。
一方、下限fが上限Fに達した場合(ステップS3609のYES)、頻度閾値計算部44−2は、このルール獲得処理を終了する。
図24は、ルール獲得処理例を説明するための図である。図24では、3つの属性「大学生」、「有職者」及び「主婦」の夫々において、ある特定のキーワード(以下、特定キーワードという)がブログ記事に出現する回数をピアソン分布で示している。
大学生分布2aは、属性「大学生」のブログ記事における特定キーワードの出現回数を表したピアソン分布である。有職者分布2bは、属性「有職者」のブログ記事における特定キーワードの出現回数を表したピアソン分布である。主婦分布2cは、属性「主婦」のブログ記事における特定キーワードの出現回数を表したピアソン分布である。
キーワードの出現回数「0」から区間幅Δで、ピアソン分布の面積の範囲が拡大される。拡大される毎に、面積が計算され、計算された面積に基づいて属性同士の比較が行われる。
図19のステップS38に続く処理について図21を参照して説明する。図21において、新規ユーザ補充部40Bによる処理が開始されると、収集部45は、属性値-キーワードテーブル54−2を参照して、管理者が調整属性の中から指定した補充するユーザの属性に対応するキーワードを表示装置15に表示させ、データ収集装置100の管理者に検索に用いるキーワードを選定させる(ステップS121)。
例えば、属性値「中高生」を選択した場合、「中高生」の検索キーワード集合={部活:1回以上、授業:7回以上、学校:1回以上、バイト:1回以上、・・・}が選択可能なように表示装置15に表示される。属性値「中高生」及び「大学生」で重複するキーワード「授業」は選択可能である。
属性値「大学生」を選択した場合、「大学生」の検索キーワード集合={大学:1回以上、サークル:1回以上、・・・}が選択可能なように表示装置15に表示される。表示装置15に表示される「大学生」の検索キーワード集合には、属性値「中高生」及び「大学生」で重複するキーワード「授業」、及び属性値「中高生」及び「有職者」で重複するキーワード「弁当」は含まれない。
属性値「有職者」を選択した場合、「有職者」の検索キーワード集合={職場:1回以上、通勤:1回以上、出張:1回以上・・・}が選択可能なように表示装置15に表示される。表示装置15に表示される「有職者」の検索キーワード集合には、属性値「大学生」、「有職者」、及び「主婦」で重複するキーワード「弁当」は含まれない。
属性値「主婦」を選択した場合、「主婦」の検索キーワード集合={旦那:1回以上、幼稚園:1回以上、弁当:3回以上、夕飯:1回以上・・・}が選択可能なように表示装置15に表示される。属性値「大学生」、「有職者」、及び「主婦」で重複するキーワード「弁当」は選択可能である。
このように重複キーワードがルールにより有効である場合に、表示装置15に選択可能に表示され、ルールが存在しない場合には表示されないように制御されることで、管理者は、重複キーワードが検索キーワード集合に存在するか否かの判断、重複キーワードの使用の有無を判断する必要がない。
管理者は、表示装置15に表示された検索キーワード集合から1以上の所望のキーワードを選択すると、収集部45は、管理者によって選定されたキーワードでクエリーを作成し、ブログサーバ3にアクセスしてブログ3aを検索する。
収集部45は、ブログサーバ3からブログ記事を、管理者によって選定された1以上の所望のキーワードでOR検索し、候補ユーザを決定する(ステップS122)。管理者が選定したキーワードを含むブログ記事が検索される。検索されたブログ記事のユーザを候補ユーザとして決定する。決定したユーザのIDを示す新規ユーザ候補リスト55が記憶部130に作成される。
収集部45は、ブログサーバ3から候補ユーザについて、最新10記事を収集して、ユーザ毎にキーワードをカウントする(ステップS123)。即ち、収集部45は、ユーザID毎に、関連付けられるブログ記事内をキーワードで検索してカウントして、ユーザ毎キーワードテーブル56を記憶部130に作成する。
属性推定部46は、ユーザ毎キーワードテーブル56を用いて、収集したブログ記事に職業推定モデル34を適用してユーザ毎推定属性値テーブル57を記憶部130に作成する(ステップS124)。属性推定部46は、作成したユーザ毎推定属性値テーブル57において、ユーザID毎に最も推定値の高い職業属性値を特定し、ユーザの職業であると判断して、ユーザ毎推定属性値テーブル57の推定属性に設定する。
図16の例では、ユーザID「00002」に対しては、職業属性値「中高生」の推定値「0.53」が最も高い値を示すため、ユーザID「00002」に対応付けて推定属性に「中高生」が設定される。ユーザID「00014」に対しては、推定属性に「その他」が設定される。ユーザID「00383」に対しては、推定属性に「中高生」が設定される。
そして、サンプリング部47は、対象の職業属性値を有すると推定されたユーザの中から、不足分をランダムにサンプリングして母集団31に追加する(ステップS125)。
例えば、職業属性値「中高生」が不足している場合、サンプリング部47は、ユーザ毎推定属性値テーブル57において推定属性に職業属性値「中高生」が設定されたユーザIDを抽出して、新規ユーザリスト58(図16)を記憶部130に作成する。サンプリング部47は、新規ユーザリスト58を用いて母集団31を補充する。
上述では、収集対象のユーザをランダムに選択するのではなく、補充したいユーザに特徴的なキーワードを含むブログ記事を閾値回数以上投稿したユーザのみとすることができる。
次に、ブログ記事数の範囲を示すルールに基づいて、収集対象のユーザを特定可能とする閾値対キーワードテーブル54−2の他のデータ例について説明する。図25は、属性値対キーワードテーブルの他のデータ構成例を示す図である。図25に示す属性値対キーワードテーブル54−2aは、ルールにブログ記事数の上限及び下限が設定されている点で、図13に示す属性値対キーワードテーブル54−2とは異なっている。
図25のデータ例において、属性値「中高生」のキーワード「授業」に対して、「7以上12未満」のルールが設定されている。「中高生」のユーザを補充する場合、キーワード「授業」の出現頻度が「7以上12未満」のブログ記事数となるユーザが検索対象となることを示している。
属性値「大学生」のキーワード「授業」に対して、「0以上2未満」及び「5以上6未満」の2つのルールが設定されている。「大学生」のユーザを補充する場合、キーワード「授業」の出現頻度が「0以上2未満」及び「5以上6未満」のブログ記事数となるユーザが検索対象となることを示している。
また、属性値「大学生」のキーワード「弁当」に対して、「0以上1未満」のルールが設定されている。「大学生」のユーザを補充する場合、キーワード「弁当」の出現頻度が「0以上1未満」のブログ記事数となるユーザが検索対象となることを示している。
属性値「有職者」のキーワード「弁当」に対して、ルールが空欄である。「有職者」のユーザを補充する場合、検索条件に「弁当」をキーワードとして用いないことを示している。
属性値「主婦」のキーワード「弁当」に対して、「3以上8未満」のルールが設定されている。「主婦」のユーザを補充する場合、キーワード「弁当」の出現頻度が「3以上8未満」のブログ記事数となるユーザが検索対象となることを示している。
上述より、「大学生」のユーザに対して、下限のみのルール(図13)では使用することができなかった重複キーワード「授業」及び「弁当」を、図25の属性値対キーワードテーブル54−2aを参照することにより、使用できるようになる。
このように、上限及び下限を設定することで、重複キーワードであっても精度良く調整属性のユーザを母集団31に補充することができる。
よって、本実施の形態によれば、本実施例に係るデータ収集装置100において、調査対象の母集団の属性割合を一定に保ちつつ、不足している職業属性値を有するユーザを補充することができる。
キーワードをランダムに設定する技術では、特定の話題のブログ記事ばかりを投稿しているようなユーザが収集されてしまい、結果として生活者の実態を反映するような母集団にならなくなると言った問題がある。本実施例では、収集対象ユーザの投稿内容傾向がバイアスを回避するようにキーワードを設定するため、調査対象の母集団の属性割合を一定に保つことができる。従って、上述した課題を解決することができる。
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、主々の変形や変更が可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定し、
新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
処理をコンピュータを用いて実行することを特徴とする群形成方法。
(付記2)
前記コンピュータは、
前記重複キーワードの出現傾向に基づいて前記ルールを決定する
ことを特徴とする付記1記載の群形成方法。
(付記3)
前記コンピュータは、
前記重複キーワード毎に、各属性の出現傾向を表すポアソン分布を求め、該ポアソン分布から他の属性と比べて特徴的な出現傾向を示す属性に対して、該特徴的な出現傾向を示す出現頻度の下限値を前記ルールとする
ことを特徴とする付記2記載の群形成方法。
(付記4)
前記コンピュータは、
前記重複キーワード毎に、各属性の出現傾向を表すポアソン分布を求め、該ポアソン分布から他の属性と比べて特徴的な出現傾向を示す属性に対して、該特徴的な出現傾向を示す出現頻度の範囲を前記ルールとする
ことを特徴とする付記3記載の群形成方法。
(付記5)
前記コンピュータは、
前記重複キーワード毎に、各属性の出現傾向を表すポアソン分布を求め、該ポアソン分布から他の属性と比べて特徴的な出現傾向を示す属性に対して、該特徴的な出現傾向を2以上の前記ルールで示す
ことを特徴とする付記3記載の群形成方法。
(付記6)
公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出する抽出部と、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定する設定部と、
新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成する第一形成部と、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する第二形成部と、
を有する特徴とする群形成装置。
(付記7)
公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定し、
新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
処理をコンピュータに実行させることを特徴とする群形成プログラム。
11 CPU
12 主記憶装置
13 補助記憶装置
14 入力装置
15 表示装置
16 出力装置
17 通信I/F
18 ドライブ
19 記憶媒体
30 事前準備領域
31 ブログDB
32 職業分類テーブル
33 スコアテーブル(ユーザ毎非調整属性)
34 職業推定モデル
35 キーワード対ユーザモデル
36 属性判定済み記事DB
41 基本データ収集部
42 ユーザ集合作成部
43 スコア分布閾値計算部
44 キーワードリスト作成部
44−2 頻度閾値計算部
45 収集部
46 属性推定部
47 サンプリング部
51 第1ランダムユーザ集合
52 第2ランダムユーザ集合
53 許容誤差閾値
54 検索キーワードリスト
54−2 属性値対キーワードテーブル
55 新規ユーザ候補テーブル
56 ユーザ毎キーワードテーブル
57 ユーザ毎推定属性値テーブル
58 新規ユーザリスト
100 データ収集装置
130 記憶部

Claims (5)

  1. 公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、
    前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定し、
    新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、
    前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
    特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
    処理をコンピュータを用いて実行することを特徴とする群形成方法。
  2. 前記コンピュータは、
    前記重複キーワードの出現傾向に基づいて前記ルールを決定する
    ことを特徴とする請求項1記載の群形成方法。
  3. 前記コンピュータは、
    前記重複キーワード毎に、各属性の出現傾向を表すポアソン分布を求め、該ポアソン分布から他の属性と比べて特徴的な出現傾向を示す属性に対して、該特徴的な出現傾向を示す出現頻度の下限値を前記ルールとする
    ことを特徴とする請求項2記載の群形成方法。
  4. 公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出する抽出部と、
    前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定する設定部と、
    新たな公開情報について、前記重複キーワードに含まれる各キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成する第一形成部と、
    前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
    特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する第二形成部と、
    を有する特徴とする群形成装置。
  5. 公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、
    前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定設定し、
    新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、
    前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
    特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
    処理をコンピュータに実行させることを特徴とする群形成プログラム。
JP2015132975A 2015-07-01 2015-07-01 群形成方法、群形成装置、及び群形成プログラム Active JP6544084B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015132975A JP6544084B2 (ja) 2015-07-01 2015-07-01 群形成方法、群形成装置、及び群形成プログラム
US15/185,426 US10303709B2 (en) 2015-07-01 2016-06-17 Population formation method, population formation apparatus, and computer-readable recording medium
CN201610490848.6A CN106326329B (zh) 2015-07-01 2016-06-28 群形成方法和群形成设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015132975A JP6544084B2 (ja) 2015-07-01 2015-07-01 群形成方法、群形成装置、及び群形成プログラム

Publications (2)

Publication Number Publication Date
JP2017016426A true JP2017016426A (ja) 2017-01-19
JP6544084B2 JP6544084B2 (ja) 2019-07-17

Family

ID=57684165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015132975A Active JP6544084B2 (ja) 2015-07-01 2015-07-01 群形成方法、群形成装置、及び群形成プログラム

Country Status (3)

Country Link
US (1) US10303709B2 (ja)
JP (1) JP6544084B2 (ja)
CN (1) CN106326329B (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016345A (ja) * 2001-06-29 2003-01-17 Nec Corp ユーザの属性に応じた情報提供方法、情報提供システム及び情報提供プログラム
JP2009145968A (ja) * 2007-12-11 2009-07-02 Yahoo Japan Corp 広告配信装置、広告配信方法、広告配信プログラム及び広告入札方法
WO2011122572A1 (ja) * 2010-03-31 2011-10-06 日本電気株式会社 グルーピング装置、コンピュータ読み取り可能な記録媒体、及びグルーピング方法
US20140200960A1 (en) * 2013-01-16 2014-07-17 Palo Alto Research Center Incorporated System and methods for optimizing recruitment
JP2015007922A (ja) * 2013-06-25 2015-01-15 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060004621A1 (en) * 2004-06-30 2006-01-05 Malek Kamal M Real-time selection of survey candidates
JP2007219880A (ja) 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
US8335714B2 (en) * 2007-05-31 2012-12-18 International Business Machines Corporation Identification of users for advertising using data with missing values
JP5088096B2 (ja) 2007-11-02 2012-12-05 富士通株式会社 情報抽出プログラムおよび情報抽出装置
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
JP5296660B2 (ja) * 2009-12-03 2013-09-25 日本電信電話株式会社 サービス規模成長性分析システムおよび方法ならびにそのためのプログラム
JP5466119B2 (ja) * 2010-09-21 2014-04-09 Kddi株式会社 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法
JP5754854B2 (ja) 2012-03-16 2015-07-29 Kddi株式会社 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法
GB2528595A (en) * 2013-03-12 2016-01-27 Ibm Method for user categorization in social media, computer program, and computer
CN103984741B (zh) * 2014-05-23 2016-09-21 合一信息技术(北京)有限公司 用户属性信息提取方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016345A (ja) * 2001-06-29 2003-01-17 Nec Corp ユーザの属性に応じた情報提供方法、情報提供システム及び情報提供プログラム
JP2009145968A (ja) * 2007-12-11 2009-07-02 Yahoo Japan Corp 広告配信装置、広告配信方法、広告配信プログラム及び広告入札方法
WO2011122572A1 (ja) * 2010-03-31 2011-10-06 日本電気株式会社 グルーピング装置、コンピュータ読み取り可能な記録媒体、及びグルーピング方法
US20140200960A1 (en) * 2013-01-16 2014-07-17 Palo Alto Research Center Incorporated System and methods for optimizing recruitment
JP2015007922A (ja) * 2013-06-25 2015-01-15 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム

Also Published As

Publication number Publication date
CN106326329B (zh) 2019-11-05
JP6544084B2 (ja) 2019-07-17
US20170004138A1 (en) 2017-01-05
CN106326329A (zh) 2017-01-11
US10303709B2 (en) 2019-05-28

Similar Documents

Publication Publication Date Title
US20230205828A1 (en) Related entities
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US20220237247A1 (en) Selecting content objects for recommendation based on content object collections
JP2013168186A (ja) レビュー処理方法およびシステム
JP2011175362A (ja) 情報処理装置、重要度算出方法及びプログラム
US20150026192A1 (en) Systems and methods for topic filter recommendation for online social environments
US20220067113A1 (en) Filtering and Scoring of Web Content
JP6264946B2 (ja) データ収集方法、及びデータ収集装置
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
JP6928044B2 (ja) 提供装置、提供方法及び提供プログラム
KR101346927B1 (ko) 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
KR20170036874A (ko) 사용자 성향을 고려한 소셜 이벤트 추천 방법 및 장치
JP2017045196A (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
Cantador et al. Semantic contextualisation of social tag-based profiles and item recommendations
US9400789B2 (en) Associating resources with entities
RU2605001C2 (ru) Способ обработки поискового запроса пользователя и сервер, используемый в нем
dos Santos et al. Modelling the structure of the sports management research field using the BERTopic approach
JP6544084B2 (ja) 群形成方法、群形成装置、及び群形成プログラム
Ibrahim et al. A Scientometric Approach for Personalizing Research Paper Retrieval.
Xu et al. Collaborative filtering algorithm based on multi-factors
Yu et al. A hybrid recommender system based non-common items in social media
Kumar Mining user interests from web history
CN116186097A (zh) 数据资产的搜索方法、装置、设备及存储介质
Feitosa et al. Hybrid model for information filtering in location based social networks using text mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190603

R150 Certificate of patent or registration of utility model

Ref document number: 6544084

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150