JP2017016426A - 群形成方法、群形成装置、及び群形成プログラム - Google Patents
群形成方法、群形成装置、及び群形成プログラム Download PDFInfo
- Publication number
- JP2017016426A JP2017016426A JP2015132975A JP2015132975A JP2017016426A JP 2017016426 A JP2017016426 A JP 2017016426A JP 2015132975 A JP2015132975 A JP 2015132975A JP 2015132975 A JP2015132975 A JP 2015132975A JP 2017016426 A JP2017016426 A JP 2017016426A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- provider
- keyword
- group
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
データ収集装置100によって行われる処理を実現するプログラムは、例えば、CD−ROM(Compact Disc Read-Only Memory)等の記憶媒体19によってデータ収集装置100に提供される。
1.サンプリング変更前における、各属性値のユーザ集合における語句の出現頻度分布Pallを求める。
2.ランダムに選択した新たなユーザについて、投稿を収集する。
3.ユーザの語句の出現分布Puと、推定属性値とを求める。
4.PallとPuの類似度が閾値以上、且つ、推定属性値が不足セルに一致していれば、そのユーザを新規ユーザとして採用する。
5.上記2.から4.を繰り返し、不足ユーザ数分だけ新規ユーザの採用が済めば終了する。
(1)ユーザ毎に前述した参照分布1の属性を推定する推定モデルにおいて、獲得したい属性値(例えば、中高生)に分類しやすい重要語句を上位から順にキーワードとして追加していく。
(2)投稿内容傾向のバイアスを、サンプリング数を調整しない属性、即ち、参照分布1で示した性別、職業等以外の属性(以下、「非調整属性」と言う。)の分布により定義し、サンプリング見直し前後でその差が小さくなるようにキーワードを設定する。
(付記1)
公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定し、
新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
処理をコンピュータを用いて実行することを特徴とする群形成方法。
(付記2)
前記コンピュータは、
前記重複キーワードの出現傾向に基づいて前記ルールを決定する
ことを特徴とする付記1記載の群形成方法。
(付記3)
前記コンピュータは、
前記重複キーワード毎に、各属性の出現傾向を表すポアソン分布を求め、該ポアソン分布から他の属性と比べて特徴的な出現傾向を示す属性に対して、該特徴的な出現傾向を示す出現頻度の下限値を前記ルールとする
ことを特徴とする付記2記載の群形成方法。
(付記4)
前記コンピュータは、
前記重複キーワード毎に、各属性の出現傾向を表すポアソン分布を求め、該ポアソン分布から他の属性と比べて特徴的な出現傾向を示す属性に対して、該特徴的な出現傾向を示す出現頻度の範囲を前記ルールとする
ことを特徴とする付記3記載の群形成方法。
(付記5)
前記コンピュータは、
前記重複キーワード毎に、各属性の出現傾向を表すポアソン分布を求め、該ポアソン分布から他の属性と比べて特徴的な出現傾向を示す属性に対して、該特徴的な出現傾向を2以上の前記ルールで示す
ことを特徴とする付記3記載の群形成方法。
(付記6)
公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出する抽出部と、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定する設定部と、
新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成する第一形成部と、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する第二形成部と、
を有する特徴とする群形成装置。
(付記7)
公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定し、
新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
処理をコンピュータに実行させることを特徴とする群形成プログラム。
12 主記憶装置
13 補助記憶装置
14 入力装置
15 表示装置
16 出力装置
17 通信I/F
18 ドライブ
19 記憶媒体
30 事前準備領域
31 ブログDB
32 職業分類テーブル
33 スコアテーブル(ユーザ毎非調整属性)
34 職業推定モデル
35 キーワード対ユーザモデル
36 属性判定済み記事DB
41 基本データ収集部
42 ユーザ集合作成部
43 スコア分布閾値計算部
44 キーワードリスト作成部
44−2 頻度閾値計算部
45 収集部
46 属性推定部
47 サンプリング部
51 第1ランダムユーザ集合
52 第2ランダムユーザ集合
53 許容誤差閾値
54 検索キーワードリスト
54−2 属性値対キーワードテーブル
55 新規ユーザ候補テーブル
56 ユーザ毎キーワードテーブル
57 ユーザ毎推定属性値テーブル
58 新規ユーザリスト
100 データ収集装置
130 記憶部
Claims (5)
- 公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定し、
新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
処理をコンピュータを用いて実行することを特徴とする群形成方法。 - 前記コンピュータは、
前記重複キーワードの出現傾向に基づいて前記ルールを決定する
ことを特徴とする請求項1記載の群形成方法。 - 前記コンピュータは、
前記重複キーワード毎に、各属性の出現傾向を表すポアソン分布を求め、該ポアソン分布から他の属性と比べて特徴的な出現傾向を示す属性に対して、該特徴的な出現傾向を示す出現頻度の下限値を前記ルールとする
ことを特徴とする請求項2記載の群形成方法。 - 公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出する抽出部と、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定する設定部と、
新たな公開情報について、前記重複キーワードに含まれる各キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成する第一形成部と、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する第二形成部と、
を有する特徴とする群形成装置。 - 公開情報の提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする、第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、
前記1又は複数のキーワードのうち、2以上の前記属性に重複する重複キーワードに対して、該重複キーワードで該2以上の属性のいずれかを判断するルールを該重複キーワードに対応づけて設定設定し、
新たな公開情報について、前記重複キーワードと前記ルールとに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、
前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
処理をコンピュータに実行させることを特徴とする群形成プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015132975A JP6544084B2 (ja) | 2015-07-01 | 2015-07-01 | 群形成方法、群形成装置、及び群形成プログラム |
US15/185,426 US10303709B2 (en) | 2015-07-01 | 2016-06-17 | Population formation method, population formation apparatus, and computer-readable recording medium |
CN201610490848.6A CN106326329B (zh) | 2015-07-01 | 2016-06-28 | 群形成方法和群形成设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015132975A JP6544084B2 (ja) | 2015-07-01 | 2015-07-01 | 群形成方法、群形成装置、及び群形成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017016426A true JP2017016426A (ja) | 2017-01-19 |
JP6544084B2 JP6544084B2 (ja) | 2019-07-17 |
Family
ID=57684165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015132975A Active JP6544084B2 (ja) | 2015-07-01 | 2015-07-01 | 群形成方法、群形成装置、及び群形成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10303709B2 (ja) |
JP (1) | JP6544084B2 (ja) |
CN (1) | CN106326329B (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016345A (ja) * | 2001-06-29 | 2003-01-17 | Nec Corp | ユーザの属性に応じた情報提供方法、情報提供システム及び情報提供プログラム |
JP2009145968A (ja) * | 2007-12-11 | 2009-07-02 | Yahoo Japan Corp | 広告配信装置、広告配信方法、広告配信プログラム及び広告入札方法 |
WO2011122572A1 (ja) * | 2010-03-31 | 2011-10-06 | 日本電気株式会社 | グルーピング装置、コンピュータ読み取り可能な記録媒体、及びグルーピング方法 |
US20140200960A1 (en) * | 2013-01-16 | 2014-07-17 | Palo Alto Research Center Incorporated | System and methods for optimizing recruitment |
JP2015007922A (ja) * | 2013-06-25 | 2015-01-15 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060004621A1 (en) * | 2004-06-30 | 2006-01-05 | Malek Kamal M | Real-time selection of survey candidates |
JP2007219880A (ja) | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
US8335714B2 (en) * | 2007-05-31 | 2012-12-18 | International Business Machines Corporation | Identification of users for advertising using data with missing values |
JP5088096B2 (ja) | 2007-11-02 | 2012-12-05 | 富士通株式会社 | 情報抽出プログラムおよび情報抽出装置 |
US20100306249A1 (en) * | 2009-05-27 | 2010-12-02 | James Hill | Social network systems and methods |
JP5296660B2 (ja) * | 2009-12-03 | 2013-09-25 | 日本電信電話株式会社 | サービス規模成長性分析システムおよび方法ならびにそのためのプログラム |
JP5466119B2 (ja) * | 2010-09-21 | 2014-04-09 | Kddi株式会社 | 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法 |
JP5754854B2 (ja) | 2012-03-16 | 2015-07-29 | Kddi株式会社 | 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法 |
GB2528595A (en) * | 2013-03-12 | 2016-01-27 | Ibm | Method for user categorization in social media, computer program, and computer |
CN103984741B (zh) * | 2014-05-23 | 2016-09-21 | 合一信息技术(北京)有限公司 | 用户属性信息提取方法及其系统 |
-
2015
- 2015-07-01 JP JP2015132975A patent/JP6544084B2/ja active Active
-
2016
- 2016-06-17 US US15/185,426 patent/US10303709B2/en active Active
- 2016-06-28 CN CN201610490848.6A patent/CN106326329B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016345A (ja) * | 2001-06-29 | 2003-01-17 | Nec Corp | ユーザの属性に応じた情報提供方法、情報提供システム及び情報提供プログラム |
JP2009145968A (ja) * | 2007-12-11 | 2009-07-02 | Yahoo Japan Corp | 広告配信装置、広告配信方法、広告配信プログラム及び広告入札方法 |
WO2011122572A1 (ja) * | 2010-03-31 | 2011-10-06 | 日本電気株式会社 | グルーピング装置、コンピュータ読み取り可能な記録媒体、及びグルーピング方法 |
US20140200960A1 (en) * | 2013-01-16 | 2014-07-17 | Palo Alto Research Center Incorporated | System and methods for optimizing recruitment |
JP2015007922A (ja) * | 2013-06-25 | 2015-01-15 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN106326329B (zh) | 2019-11-05 |
JP6544084B2 (ja) | 2019-07-17 |
US20170004138A1 (en) | 2017-01-05 |
CN106326329A (zh) | 2017-01-11 |
US10303709B2 (en) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230205828A1 (en) | Related entities | |
CN107180093B (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
US20220237247A1 (en) | Selecting content objects for recommendation based on content object collections | |
JP2013168186A (ja) | レビュー処理方法およびシステム | |
JP2011175362A (ja) | 情報処理装置、重要度算出方法及びプログラム | |
US20150026192A1 (en) | Systems and methods for topic filter recommendation for online social environments | |
US20220067113A1 (en) | Filtering and Scoring of Web Content | |
JP6264946B2 (ja) | データ収集方法、及びデータ収集装置 | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
JP6928044B2 (ja) | 提供装置、提供方法及び提供プログラム | |
KR101346927B1 (ko) | 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체 | |
KR20170036874A (ko) | 사용자 성향을 고려한 소셜 이벤트 추천 방법 및 장치 | |
JP2017045196A (ja) | 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム | |
Cantador et al. | Semantic contextualisation of social tag-based profiles and item recommendations | |
US9400789B2 (en) | Associating resources with entities | |
RU2605001C2 (ru) | Способ обработки поискового запроса пользователя и сервер, используемый в нем | |
dos Santos et al. | Modelling the structure of the sports management research field using the BERTopic approach | |
JP6544084B2 (ja) | 群形成方法、群形成装置、及び群形成プログラム | |
Ibrahim et al. | A Scientometric Approach for Personalizing Research Paper Retrieval. | |
Xu et al. | Collaborative filtering algorithm based on multi-factors | |
Yu et al. | A hybrid recommender system based non-common items in social media | |
Kumar | Mining user interests from web history | |
CN116186097A (zh) | 数据资产的搜索方法、装置、设备及存储介质 | |
Feitosa et al. | Hybrid model for information filtering in location based social networks using text mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6544084 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |