CN106326329B - 群形成方法和群形成设备 - Google Patents

群形成方法和群形成设备 Download PDF

Info

Publication number
CN106326329B
CN106326329B CN201610490848.6A CN201610490848A CN106326329B CN 106326329 B CN106326329 B CN 106326329B CN 201610490848 A CN201610490848 A CN 201610490848A CN 106326329 B CN106326329 B CN 106326329B
Authority
CN
China
Prior art keywords
attribute
supplier
value
user
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610490848.6A
Other languages
English (en)
Other versions
CN106326329A (zh
Inventor
铃木浩子
古川忠延
高桥哲朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN106326329A publication Critical patent/CN106326329A/zh
Application granted granted Critical
Publication of CN106326329B publication Critical patent/CN106326329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种群形成方法和群形成设备。从作为元素包括在第一提供者组中的提供者的公开信息提取关键词。基于预定属性值计算每个元素。所述第一属性是所述公开信息的提供者的属性,所述属性值随时间而变化。针对重复关键词设定的规则中的每个规则用于通过使用所述重复关键词中的一个重复关键词来确定所述属性中的一个属性。基于重复关键词和规则针对新的公开信息形成提供者组。由与第一属性不同的属性的属性值的分布来指定与第一提供者组具有相似关系的提供者组。与第一提供者组对应的新提供者组由第一属性的属性值对应于预定属性值的提供者形成。

Description

群形成方法和群形成设备
技术领域
本文中讨论的实施方式涉及群形成方法和群形成设备。
背景技术
近来,包括学生、家庭主妇、从业人员等的各种用户使用万维网(网络)来表达他们在日常生活中的感受、他们思考问题的方式等,或者在用户之间交换信息。对于使用网络的大量用户,可以通过使用网络来进行对市场趋势的调查等以开发产品。
提供了用于从网页的文本文档等提取由用户发布的评论信息的技术、通过使用用户之间的关系尽可能准确地预测从SNS(社交网络服务)站点服务器等获取的配置文件信息的技术。
[专利文献]
日本特开2007-219880号公报
日本特开2013-196070号公报
日本特开2009-116469号公报
发明内容
根据本实施方式的一个方面,提供有一种群形成方法,包括:通过计算机从作为元素包括在第一提供者组中的每个提供者的公开信息中提取一个或更多个关键词,所述元素中的每个元素被计算为与第一属性有关的属性值,与第一属性有关的属性值与预定属性值对应,第一属性是公开信息的提供者的属性,属性值随时间而变化;由计算机在一个或更多个关键词中的多个属性值之中设定与重复关键词对应的规则,所述规则中的每个规则通过使用重复关键词中的一个重复关键词来确定多个属性值中的一个属性值;由计算机基于重复关键词和规则针对包括对应的关键词的新的公开信息形成一个或更多个提供者组;由计算机基于与第一属性不同的属性的属性值的分布从一个或更多个提供者组中指定与第一提供者组具有预定相似关系的提供者组;以及由计算机在所指定的提供者组中包括的提供者之中按照提供者的信息形成与第一提供者组对应的新的提供者组,新的提供者组的与第一属性有关的属性值对应于预定属性值。
上述方法还可以包括:由所述计算机基于所述重复关键词的出现趋势来分别确定所述规则。
在上述形成方法中,所述计算机可以针对所述重复关键词中的每个,分别获取表示关于所述多个属性的出现趋势的泊松分布;以及针对所述属性值中的每个设置各自指示关于特征出现趋势的出现频率的下限的所述规则,每个属性值根据所述泊松分布与其他属性值相比具有特征出现趋势。
在上述群形成方法中,所述计算机针对所述重复关键词中的每个,分别获取表示关于所述多个属性值的出现趋势的泊松分布;以及针对所述属性值中的每个设置各自指示关于特征出现趋势的出现频率的范围的所述规则,每个属性值根据所述泊松分布与其他属性值相比具有特征出现趋势。
在上述群形成方法中,所述出现频率的范围由多于一个的规则指示。
根据本发明实施方式的另一方面,还提供一种群形成设备,包括:提取部,所述提取部从作为元素包括在第一提供者组中的每个提供者的公开信息提取一个或更多个关键词,所述元素中的每个元素被计算为与第一属性有关的属性值与预定属性值对应,所述第一属性是所述公开信息的提供者的属性,所述属性值随时间而变化;设定部,所述设定部设置与所述一个或更多个关键词中的多个属性值之中的重复关键词对应的规则,所述规则中的每个规则通过使用所述重复关键词中的一个关键词来确定所述多个属性值中的一个属性值;第一形成部,所述第一形成部基于所述重复关键词和所述规则,针对包括对应的关键词的新的公开信息,形成一个或更多个提供者组;指定部,所述指定部基于与所述第一属性不同的属性的属性值的分布,从所述一个或更多个提供者组中指定与所述第一提供者组具有预定相似关系的提供者组;以及第二形成部,所述第二形成部在所指定的提供者组中包括的提供者之中,根据对于其与所述第一属性有关的属性值对应于所述预定属性值的所述提供者的信息,形成与所述第一提供者组对应的新的提供者组。
根据本实施方式的另一个方面,可以提供一种计算机可读记录程序和一种警报发送设备。
附图说明
图1是示出了实施方式中的系统配置示例的图。
图2是示出了数据采集设备的硬件配置的图。
图3是示出了基准分布的示例的图。
图4是示出了研究结果的示例的图。
图5是示出了研究结果的另一示例的图。
图6是示出了数据采集设备的功能配置示例的图。
图7是示出了与母集团中的用户有关的数据配置示例的图。
图8是示出了职业估计模型的数据配置示例的图。
图9是示出了关键词-(对)用户表的数据配置示例的图。
图10是示出了属性确定的文章DB的数据配置示例的图。
图11是示出了从母集团中随机选择的用户集的数据示例的图。
图12是示出了检索关键词列表的数据配置示例的图。
图13是示出了属性值-关键词表的数据配置示例的图。
图14是示出新用户候选列表的数据配置示例的图。
图15是示出了每用户关键词表的数据配置示例的图。
图16是示出了每用户属性估计表的数据配置示例的图。
图17是示出了新用户列表的数据示例的图。
图18是用于说明新用户补充处理(部分1)的流程图;
图19是用于说明新用户补充处理(部分2)的流程图;
图20是用于说明新用户补充处理(部分3)的流程图;
图21是用于说明新用户补充处理(部分4)的流程图;
图22A是示出了针对两个随机用户集的关于值“美食”的未经调整的属性分数分布的曲线图,以及图22B是示出了针对两个随机用户集的关于值“电影”的未经调整的属性分数分布的曲线图;
图23A是示出了针对母集团和具有职业属性的值的不足用户的关于值“美食”的未经调整的属性分数分布的曲线图,以及图23B是示出了针对母集团和具有职业属性的值的不足用户的关于值“电影”的未经调整的属性分数分布的曲线图;
图24是用于说明规则获取处理的示例的图;以及
图25是示出了属性值-关键词表的另一数据配置示例的图。
具体实施方式
在下文中,将参照附图描述本发明的实施方式。
网络用户在其中公开该用户的意见等的示例可以是博客(网络日志)。网络上的博客的内容可以用于产品开发等的调查。在产品开发的调查中,针对每个预定属性值对足够数目的用户进行采样,并且创建母集团。通过分析属于该母集团的用户的博客,试图得到这些用户的日常情况的真实情况。
随着用户从学生变成从业人员,在母集团中,用户的属性值随着时间而变化。此外,用户可能停止更新该用户的博客或者终止该用户的博客。
另一方面,在调查产品在市场中的趋势的情况下,如果保持属性值的比率则是优选的。否则,不能精确地进行与先前调查结果的比较。因此,为了对应于上述变化并且保持在母集团中的属性比率恒定,从母集团中排除属性变化了的用户,并且用具有相同属性的新用户来补充母集团。
然而,在通过上述调查有效地提取用户信息的现有技术的情况下,由于用户的属性值随着时间而变化,因此难以保持在母集团中的属性比率恒定。
在下文中将描述实施方式。图1是示出了实施方式中的系统配置示例的图。在图1中,系统1000包括数据采集设备100、一个或更多个博客服务器3和博主终端9。
数据采集设备100连接至一个或更多个博客服务器3,并且搜索和采集博客3a。数据采集设备100通过采集博客3a来提供高度可靠的数据集。
由数据采集设备100提供的数据集可以被采集以提取用于产品开发的参考信息,诸如用户对市场中的产品的偏好。
每个博客服务器3包括针对博客3a的各种管理功能,并且对作为用户的博主提供用于博客3a的存储区域。
博主终端9由博主使用,并且使用博客服务器3的服务来为博主创建、更新和删除博客3a。
图2是示出了数据采集设备的硬件配置的图。在图2中,数据采集设备100是由计算机控制的设备,并且包括经由总线B相互连接的中央处理单元(CPU)11、主存储装置12、辅助存储装置13、输入装置14、显示装置15、通信接口(I/F)17和驱动装置18。
CPU 11根据存储在主存储装置12中的程序来控制数据采集设备100。对于主存储装置12,可以使用随机存取存储器(RAM)和只读存储器(ROM)等。主存储装置12存储或临时存储由CPU 11执行的程序、由CPU 11处理的数据、由CPU 11在进行的处理中获取的数据等。
硬盘驱动器(HDD)等可以被用作辅助存储装置13。辅助存储装置13存储用于执行各种处理的程序和数据。存储在辅助存储装置13中的程序的一部分被加载到主存储装置12。通过由CPU 11执行该程序来实现各种处理。存储部130包括主存储装置12和/或辅助存储装置13。
输入装置14包括鼠标,键盘等,并且被用户用来输入用于数据采集设备100的处理的各种信息项。显示装置15在CPU 11的控制下显示各种信息项。通信I/F 17经由网络执行通信如有线通信、无线通信等。由通信I/F 17执行的通信不限于有线或无线通信。
实现数据采集设备100的处理的程序可以由记录介质19(如光盘只读存储器(CD-ROM)等)提供给数据采集设备100。
驱动装置18在数据采集设备100与设置在驱动装置18中的记录介质19之间接口。记录介质19可以是CD-ROM等。
此外,根据本实施方式实现各种处理的程序被存储在记录介质19中。存储在记录介质19中的程序通过驱动装置18安装至数据采集设备100中。所安装的程序在数据采集设备100中变得可执行。
用于存储程序的介质不限于CD-ROM,并且可以是计算机可读存储介质。除了CD-ROM以外,计算机可读存储介质可以是数字多功能盘(DVD)、便携式记录介质如通用串行总线(USB)存储器或半导体存储器如快闪存储器。
为了使用博客3a来进行市场研究,首先,通过对用户进行采样来足够地创建母集团。即,创建母集团,使得用户在母集团中的属性比率等于由例如国家人口分布等的数据指示的属性比率。可以参考其中属性为性别和职业的国家人口分布,并且确定样本数,使得每个属性的比率等于在国家人口分布中的比率。在下文中,将创建母集团时参考的样本数的分布称为“基准分布”。
图3是示出了基准分布的示例的图。在图3中,由表呈现了基准分布1,该表指示其中属性为性别和职业的矩阵中的样本数。性别的属性值为“男”或“女”。职业的属性值为“初中生和高中生”、“大学生”、“从业人员”、“家庭主妇”、“资深”、“其他”等。在基准分布1中,性别比率、职业比率等大致对应于在国家人口分布中的性别比率、职业比率等。基于基准分布1来创建母集团。
在本实施方式中,基于基准分布1来创建母集团,该母集团具有与在国家人口分布中相同的属性值比率。如果用户看起来随着时间从该母集团中被排除,则搜索可能具有与要被排除的用户相同属性值的另一用户,并且用新用户来补充母集团。
当曾经是高中学生的用户成为大学生时,该用户的属性被改变。此外,用户可能停止更新博客3a。可以通过对由用户发布的博客文章应用模型来估计用户的属性值。这样的模型可以由文档分类技术的应用程序来创建。
该模型基于博客文章中所写的词以及每个词的频率将用户进行分类。通过使用这种模式,在写了词“俱乐部活动”的情况下,初中生和高中生的可能性增加。在该方法中,针对每个用户采集多篇博客文章。
如果为了连续监测人们的实际生活状况而不加考虑地替代用户,则可能出现不同的模式。在这种情况下,可能发生仿佛人们的实际生活状况被突然改变这样的错误检测。为了准确地研究人们的生活状况,用于补充母集团的目标用户优选地与如下用户相同,该用户以与从母集团中被排除的用户相似的行为进行发布。
可以应用随机采样作为选择用户的方法。随机采样可以按照如下过程来执行:
1.在改变采样之前,针对每个属性值获取用户集中的词的出现频率分布Pall
2.采集与随机选择的新用户相关的贡献内容。
3.获取由用户发布的词的出现分布Pu和属性估计值。
4.如果出现频率分布Pall与出现分布Pu之间的相似度大于或等于阈值,并且属性估计值对应于不足的单元,则将发布该词的用户应用为新用户。
5.重复上述项2至项4,并且当以不足用户的数用新用户补充母集团时终止。
在此过程中,随机选择的用户被应用的可能性低。因此,采集数增加,并且由于采集计数被博客服务器3限制,因此未足够地获取新用户。即,在随机采样中可能难以采集目前具有特定属性值(可能是初中生和高中生)的新用户来补充母集团中的用户。随机采样可能对适当补充无效。
在根据本实施方式的数据采集设备100中,不是随机选择用户作为采集目标,而是补充目标仅为发布了一次或更多次包括待补充的用户的特征词的博客文章的用户。
在随机设定关键词的情况下,只采集发布与特定主题有关的博客文章的用户。其结果是,人们的生活状况可能未被反映到母集团。
因此,在本实施方式中确定关键词,以防止偏离,即采集目标用户的发布内容的趋势随着时间而偏离。关键词可以被确定为满足以下项(1)和项(2):
(1)将容易分类成属性值(可能是初中生和高中生)的显著词添加为关键词,该显著词期望从估计模型的序列的顶部获取。在该估计模型中,估计基准分布1中的每个用户的属性。
通过应用项(1),与用户相关的估计结果可能对应于所期望的属性值。
(2)在基准分布1中,发布内容的趋势的偏离由性别、职业等以外的属性值的分布来限定,并且设定关键词,使得在采样审查前后之间的差异较小。在下文中,将具有这样的值的属性称为“未经调整的属性”,因为样本数是未经调整的。
经调整的属性对应于性别、职业等的研究目标。未经调整的属性不是研究目标。爱好属性等可以被认为是未经调整的属性。作为与爱好相关的属性值,存在50个以上的属性值,如美食、电影等。爱好属性的值多于其他人口统计属性值。因此,难以调整属性值的数目。
爱好属性在用于提取人们的实际生活状态的信息的系统中是有用的。相反,在对象系统中,可以使用另一属性来实现类似的解决方案。在与灾难相关的研究的情况下,其他属性可以是具有如东京、大阪等值的生活区。
试验性研究发现,可以通过在经验上着眼于爱好属性值来提取其发布内容的趋势彼此相似的用户的信息。通过使用爱好属性值作为关键词,看起来可以从博客服务器3中搜索具有经调整的属性值的新用户。应用爱好属性值作为未经调整的属性值,并且将描述该实施方式。
可能存在爱好属性的重复值,该重复值出现在多个经调整的属性值中的用户中。在使用与多个经调整的属性值相应的爱好属性的值的情况下,对于补充了用户信息的经调整的属性,不可能精确地搜寻新用户。在下文中,将爱好属性值的值称为关键词,并且将与多个经调整的属性值对应的爱好属性的值称为重复关键词。
发明人研究了与重复关键词相关的两个经调整的属性值之间的出现趋势的差异。发明人对于每个经调整的属性值,针对每个用户,对其中出现由发明人根据经验已知的重复关键词的博客文章的总数进行计数,并且研究了针对每批博客文章的用户数的分布。在下文中,将参照图4和图5描述通过使用两个重复关键词所获取的研究结果。在图4和图5中,这两个重复关键词由“XXX”和“YYY”表示。
图4是示出了研究结果的示例的图。图4中描绘的研究结果1a指示,对于经调整的属性值“初中和高中女生”和“家庭主妇”,一般出现与重复关键词“XXX”相关的出现趋势。
在研究结果1a中,针对每批博客文章指示了每个经调整的属性值的用户数和比率。在出现重复关键词“XXX”的一个博客文章的情况下,初中和高中女生数为“1920”,家庭主妇数为“1685”。因此,在博客文章数指示“1”的情况下,初中和高中女生的比率为“0.533”(=1920÷(1920+1685))。在一个博客文章的情况下,初中和高中女生数看起来与家庭主妇数相同。
然而,在博客文章数大于或等于“6”的情况下,初中和高中女生的比率大约为“0.8”。因此,如果其中出现重复关键词“XXX”的同一用户的博客文章数指示大于或等于“6”,则可以确定用户为初中和高中女生。
初中和高中女生从“6”篇博客文章到“12”篇博客文章的比率中的每个均超过“0.8”。在此范围内,确定以更高的准确度指定该用户为初中和高中女生。
图5是示出了研究结果的另一示例的图。图5中描绘的研究结果1b指示,对于调整后的属性值“男性已婚资深”和“女性已婚资深”,一般出现与重复关键词“YYY”相关的出现趋势。
在研究结果1b中,针对每批博客文章指示了每个经调整的属性值的用户数和比率。在出现重复关键词“YYY”的一个博客文章的情况下,男性已婚资深数为“3396”,女性已婚资深数为“2331”。因此,在博客文章数指示“1”的情况下,男性已婚资深的比率为“0.593”(=3396÷(3396+2331))。在一个博客文章的情况下,男性已婚资深数看起来与女性已婚资深数相同。
然而,在博客文章数指示“11”或更多的情况下,男性已婚资深的比率指示大约为“0.8”。此外,在博客文章数指示“17”或更多的情况下,男性已婚资深的比率指示大约为“1.0”。因此,对于同一用户的博客文章,如果重复关键词“YYY”出现在“11”篇或更多篇博客文章中,则可以确定用户为男性已婚资深。
如上所述,发明人研究了在两个或更多个不同的经调整的属性值的用户中,对于博客3a的重复关键词,并且发现对于每个经调整的属性值而言重复关键词的出现趋势不同。本实施方式提供了数据采集设备100,其能够使用重复关键词来针对每个经调整的属性值采集用户的博客3a。
图6是示出了数据采集设备的功能配置示例的图。在图6中,实线指示输入,虚线指示输出。在随后的附图中,以相同的方式应用实线和虚线。
参照图6,数据采集设备100主要包括关键词指定部40A和新用户补充部40B。关键词指定部40A和新用户补充部40B是在数据采集设备100中通过相应的程序使CPU 11执行的处理来实现的。关键词指定部40A和新用户补充部40B可以被实现在一个数据采集设备100中,或者可以由多个计算机设备分开实现。
存储部130中的预先准备区30存储母集团31、博客DB 32、分数表33、职业估计模型34、关键词-用户表35、属性确定的文章数据库(DB)36等。此外,存储部130存储第一随机用户集51、第二随机用户集52、可容许误差阈值53、检索关键词列表54、属性值-关键词表54-2、新用户候选列表55、每用户关键词表56、每用户属性估计表57、新用户列表58等。
关键词指定部40A指定用于搜索作为补充母集团31的目标的用户的经调整的属性的关键词。关键词指定部40A包括基本数据采集部41、用户集创建部42、分数分布阈值计算部43、关键词列表创建部44和频率阈值计算部44-2。
基本数据采集部41根据基准分布1,基于每个属性值的比率,通过从博客服务器3中搜索用户来创建母集团31。基本数据采集部41从博客服务器3中获取包括在母集团31中的每个用户的博客3a,并且存储所获取的博客3a。
用户集创建部42从获取自基本数据采集部41的母集团31中随机地创建两个用户集。针对属于两个集合的用户中的每个用户,将用户ID记录至第一随机用户集51或第二随机用户集52。
分数分布阈值计算部43针对由用户集创建部42创建的两个用户集计算爱好属性的每个值的分数分布,并且通过将两个分数分布彼此进行比较来获取可容许误差阈值53。在计算分数分布时,参考分数表33。
关键词列表创建部44设定关键词,以提高用户所属的属性的可能性,并且创建如下的关键词列表,在该关键词列表中,爱好属性的值的分数分布落入可容许误差阈值53中。
属于某个属性的可能性可以表达为“初中生和高中生可能性”等。通过设定多个关键词,可以提高属于某个属性的可能性。属于某个属性的可能性通过参考职业估计模型34来确定。在计算爱好属性的值的分数分布时,参考关键词-用户表35。属于某个属性的可能性被简称为“属性可能性”。
关键词列表创建部44创建检索关键词列表54,检索关键词列表54指示用于搜索博客3a的博客文章内容的关键词。检索关键词列表54指示如下关键词,所述关键词的分数指示每个属性值的属性可能性。
频率阈值计算部44-2参考检索关键词列表54,针对每个属性值获取写在博客文章中的每个关键词的频率,并且确定在使用针对多个属性值而出现关键词(重复关键词)的情况下的有效性。
创建属性值-关键词表54-2,以指示对于每个属性值,被写入博客文章中的每个关键词的关键词和频率。基于由频率阈值计算部44-2针对每个重复关键词的有效性的确定结果,属性值-关键词表54-2指示出现重复关键词的多个属性值中的一个属性值。对于未确定有效性的一个或更多个其他属性值,频率未被设定。即,如果搜索这些其他属性值的用户,则抑制对未设定频率的关键词的使用。
新用户补充部40B通过使用由关键词指定部40A指定的关键词,用新用户来补充母集团31,并且新用户补充部40B包括采集部45、属性估计部46和采样部47。
采集部45根据属性值-关键词表54-2的规则,通过搜索由具有与不足的用户(从母集团31中排除的)相同属性的用户发布的博客3a的博客文章来采集博客3a。采集部45将所采集的博客3a的用户指定为候选用户,并且将用于指示用户ID的新用户候选列表55存储在存储部130中。
此外,采集部45针对每个候选用户,对其中出现属性值-关键词表54-2中的关键词的博客文章进行计数。记录用于搜索每个候选用户的每个关键词的频率的每用户关键词表56被存储在存储部130中。
属性估计部46将职业估计模型34应用于所采集的博客3a的博客文章。用于指示每个用户的属性估计的每用户属性估计表57被存储在存储部130中。
在采集部45采集博客文章以补充母集团31的情况下,优选的是,通过使用检索关键词列表54,按照指示属性可能性的分数的降序来采集博客3a。另一方面,即使在分数高的情况下,当关键词属于多个属性值时,可能不能适当地采集目标用户的博客3a。
作为一个示例,关键词“课”被视为表达对初中生、大学生等的属性可能性的显著词。在经调整的属性指示“初中生和高中生”的情况下,如果通过使用关键词“课”采集博客3a,则可以将与大学生等相关的博客3a与和“初中生和高中生”相关的博客3a一起检索。
如果采集了与经调整后的属性值以外的属性值相关的大量的博客3a,则可能不能针对期望数目的经调整目标属性的用户获取用户信息。在这种情况下,采集可以被执行多次。因此,不能有效地执行采集。在采集被无效执行的情况下,由于采集计数限制,结果不能获取足够的用户信息集。
另外,直到采集用于补充的用户数为止,关键词按照属性可能性的分数的降序被改变。然而,当分数变得更低时,关键词可能不适合表达属性可能性。其结果是,采集可能被无效地执行。
在考虑上述无效采集的情况下,简单的方法可以是抑制使用属于多个属性值的关键词。在该方法中,不利的是,减少了表达属性可能性的显著词数。
在本实施方式中,频率阈值计算部44-2确定每个词的有效性以补充母集团。即使关键词在经调整的属性与其他属性之间交叠,通过使用频率阈值作为条件,仍可以通过经调整目标属性所需的用户数有效且精确地获取用户信息。
接着,将描述存储在存储部130中的表等。图7至图10是示出了在本实施方式中准备的数据库和表的数据示例的图。在图7中,将示出与母集团31中的用户相关的数据配置示例。
母集团31被视为如下表,该表指示每个用户ID的职业。基于用于指定母集团31中的用户的用户信息,给出用户ID,并且用户ID也以相同的方式用于后面将描述的其他数据库和表。职业指示从博客3a的博客文章估计的用户的职业。职业的属性值与在图3中示出的基准分布1中的职业的属性值相同。
博客DB 32对应于如下表,该表指示每个用户ID的博客3a的博客文章(文章数据)。对于每篇博客文章,存储从博客服务器3获取的博客3a的页面,或者指示指向博客3a的存储区的地址。
优选的是,在博客DB 32中维护的博客文章按照博客3a的页面单位存储。根据用户来维护多个博客3a。在这种情况下,所提取的页针对每个博客3a来记录。
分数表33指示每个用户ID的爱好分数。爱好属性的值可以是“美食”、“电影”、...、“棒球”等。在分数表33中,对于每个用户的爱好属性的值分别指示爱好分数。爱好分数越接近于1,该爱好越有趣。爱好分数越接近于0,该爱好越无趣。
例如,从“电影”的爱好分数“1.0”明显地看出,用户ID“00003”的用户对电影感兴趣。此外,从“美食”的爱好分数“0.0”明显地看出,用户ID“00002”的用户对美食完全不感兴趣。
图8是示出了职业估计模型34的数据配置示例的图。在图8中,职业估计模型34指示每个关键词的职业分数。职业分数的值对应于基准分布1的属性值,并且为“初中生和高中生”、......、以及“其他”。针对职业属性的值分别指示职业分数。职业分数越接近于1,关键词与职业属性的值越相关。职业分数越接近于0,关键词与职业属性的值越不相关。职业分数越接近于-1,关键词与职业属性的其他值就越相关,因为关键词与职业属性的值之间的相关可能性会越小。
如果在博客文章中出现关键词“俱乐部活动”,则基于职业分数,作为博客3a的博主的用户是初中生和高中生的可能性增加“0.5”分。此外,其他职业的可能性增加“0.01”分。
图9是示出了关键词-用户表的数据配置示例的图。在图9中,关键词-用户表35指示与每个关键词对应的用户ID的列表。在“关键词”这一列中,列出了用于搜索的多个关键词。针对每个关键词,关于出现关键词的博客3a来指示用户ID。用户ID“00002”、“00383”等对应于关键词“俱乐部活动”。
图10是示出了属性确定的文章DB的数据配置示例的图。在图10中,属性确定的文章DB 36维护其属性值已被确定的每个用户的博客文章。对于每个用户ID,使得职业对应于博客文章。由用户ID将属性确定的文章DB 36与母集团31和博客数据库32相关联,并且通过获取和使用来自母集团31和博客DB 32的数据来预先创建属性确定的文章DB 36。
根据图7中的数据示例,通过从母集团31中获取,使得职业“初中生和高中生”对应于用户ID“00001”,以及通过从博客DB 32中获取,使得博客文章“博客aa1_page1、博客aa1_page2、......、博客aa2_page1......”对应于用户ID“00001”。
通过从母集团31中获取,使得职业“从业人员”对应于用户ID“00002”。通过从博客DB 32获取,使得博客文章“博客bb1_page1、博客bb1_page2、......”对应于用户ID“00002”。此外,通过从母集团31中获取,使得职业“初中生和高中生”对应于用户ID“00003”。通过从博客DB 32获取,使得博客文章“博客cc1_page1、博客cc1_page2”对应于用户ID“00003”。
图11是示出了从母集团中随机选择的用户集的数据示例的图。在图11中,在由用户集创建部42创建的第一随机用户集51和第二随机用户集52中的每个随机用户集中,记录了从母集团31中随机选择的用户ID。
由用户ID将第一随机用户集51和第二随机用户集52中的每个随机用户集与和每个用户的未经调整的属性值相关的分数表33相关联。从分数表33获取与针对爱好属性的值的用户ID对应的爱好分数(分数分布)。
分数分布阈值计算部43使用第一随机用户集51和第二随机用户集52来计算可容许误差阈值53。
图12是示出了检索关键词列表的数据配置示例的图。在图12中,检索关键词列表54指示与各个属性值对应的一个或更多个关键词。
在图12中的数据配置示例中,“俱乐部活动”、“课程”、“学校”和“兼职”被列为相对于属性值“初中生和高中生”的特征关键词。此外,“大学”、“大学俱乐部”、“课程”和“盒饭”被列为相对于属性值“大学生”的特征关键词。此外,“工作场所”、“盒饭”、“通勤”和“出差”被列为相对于属性值“从业人员”的特征关键词。此外,“丈夫”、“幼儿园”、“盒饭”和“晚餐”被列为相对于属性值“家庭主妇”的特征关键词。
关键词“课程”使属性值“初中生和高中生”与“大学生”交叠。另外,关键词“盒饭”使属性值“大学生”、“从业人员”与“家庭主妇”交叠。
图13是示出了属性值-关键词表的数据配置示例的图。在图13中,属性值-关键词表54-2被视为如下表,在该表中,规则的项被添加至检索关键词列表54的项。
规则由指示关键词的频率(对应于博客文章数)的提取条件来表示。在如图13所示的数据配置示例中,对于未交叠的词,设定提取条件“≥1”(大于或等于1)。对于重复关键词,存在由属性值来设定规则的情况和用空白的另一情况。
对于重复关键词“课程”,设定提取条件“≥7”(大于或等于7)作为属性值“初中生和高中生”的规则。另一方面,对于属性值“大学生”则设定为空白。即,如果“大学生”为经调整的属性,则“课程”是按照大学生来维护的博客3a的博客文章内容中的特征关键词,但是不使用“课程”作为提取用户的用户信息的关键词。
对于重复关键词“盒饭”,设定提取条件“≥3”(大于或等于3)作为属性值“家庭主妇”的规则。另一方面,对于属性值“大学生”和“从业人员”则设定为空白。即,如果“大学生”或“从业人员”为经调整的属性,则“盒饭”是按照大学生或从业人员来维护的博客3a的博客文章内容中的特征关键词,但是不使用“盒饭”作为提取用户的用户信息的关键词。
图14是示出了新用户候选列表的数据配置示例的图。在图14中,新用户候选列表55指示维护由采集部45采集的博客3a的用户的ID。
图15是示出了每用户关键词表的数据配置示例的图。在图15中,每用户关键词表56指示博客文章中出现的关键词,每个用户ID的频率包括在新用户候选列表55中,并且每用户关键词表56包括“用户ID”、“关键词”等项。
在“关键词”项中指示了根据采集用户最新的十篇博客文章的结果。而且,以其中出现关键词的若干博客文章,指示了在最新的十篇博客文章中出现的关键词中的每个。
对于用户ID“00002”,在“关键词”项中指示“俱乐部活动×3、课程×8、朋友×2、游戏×5、......”。记录如下:关键词“俱乐部活动”出现在3篇博客文章中,关键词“课程”出现在2篇博客文章中,关键词“朋友”出现在2篇博客文章中,关键词“游戏”出现在5篇博客文章中等。
图16是示出了每用户属性估计表的数据配置示例的图。在图16中,每用户属性估计表57指示新用户候选列表55中包括的每个用户ID的估计和所估计的属性。
指示了由属性估计部46计算的估计。这些估计指示关于职业属性的值的各个可能性,其与图3中的基准分布1的“初中生和高中生”、……、“其他”相同。估计越高,职业越合适。估计越低,职业越不合适。所估计的属性指示将与职业属性的值相应的估计中最高的值作为职业属性。
图17是示出了新用户列表的数据示例的图。在图17中,新用户列表58被视为针对其中用户数不足的职业属性的值创建的列表。在新用户列表58中列出了用于补充母集团31的新用户的用户ID。
对于职业属性的值“初中生和高中生”、“大学生”,表示新用户的用户ID“00002”、“00383”和“00876”补充到母集团31。
接着,将描述根据本实施方式的新用户补充处理。图18至图21是用于说明新用户补充处理的流程图。在图18至图21中,作为示例,将描述职业属性的值“初中生和高中生”是不足的属性值的情况。对职业属性的其他值应用相同的方式。
在图18中,用户集创建部42针对每个用户,基于关于未经调整的属性的分数表33创建两个随机用户集u1和u2(步骤S11)。随机用户集u1和u2包括通过参考母集团31从与作为职业的“初中生和高中生”相关联的用户ID中随机提取的用户ID。随机用户集u1中的用户ID形成第一随机用户集51,随机用户集u2中的用户ID形成第二随机用户集52。
接着,分数分布阈值计算部43计算与未经调整的属性的不足属性值相关的分数分布Dorig(步骤S12)。分数分布Dorig可以由表达式1和表达式2来计算。
[表达式1]
Dorig={dorig,h1,dorig,h2,...,dorig,hm}
在表达式1中,h1至hm对应于值“美食”、“电影”、......、“棒球”等。
[表达式2]
dorig,h={rorig,h·s1,rorig,h·s1,…,rorig,h·sn}
(rorig,h·s:针对爱好h具有分数s的用户的比率)
另外,分数分布阈值计算部43比较未经调整的属性分数分布Du1和Du2,并且获取可容许误差阈值θ=Diff(Du1,Du2)(步骤S13)。通过将表达式1和表达式2应用到随机用户集u1和u2中的每个随机用户集,计算未经调整的属性分数分布Du1和Du2。基于未经调整的属性分数分布Du1与Du2之间的差来限定可容许误差阈值θ。可容许误差阈值θ对应于可容许误差阈值53。
分数分布阈值计算部43通过对每个分数s的用户数的比率ru,h*s的差求平方和(表达式3)来计算每个爱好h的分数。
[表达式3]
θ=Σh∈hobbiesΣs∈scores(/ru1,h·s/-/ru2,h·s/)2
在图22A和图22B中,对于爱好属性的每个值“美食”和“电影”,将在职业属性的值“初中生和高中生”的情况下描述随机用户集u1和u2的未经调整的属性分数分布示例。在图22A中,横轴按照爱好分数指示对该爱好的感兴趣程度,纵轴指示用户数比率。
在图22A中,关于爱好属性的值“美食”(以h1表示),du1,h1表示随机用户集u1的未经调整的属性分数分布,du2,h1表示随机用户集u2的未经调整的属性分数分布。
在图22B中,同样,关于爱好属性的值“电影”(以h2表示),du1,h2表示随机用户集u1的未经调整的属性分数分布,du2,h2表示随机用户集u2的未经调整的属性分数分布。因此,通过使用表达式3,针对爱好属性的每个值计算差的平方和(表达式3),并且通过对爱好属性的所有值的平方和的加总来获取可容许误差阈值θ。
返回来参照图18,步骤S14至S20对应于由关键词列表创建部44进行的处理。在从步骤S14至S20的处理中,关键词由容许误差阈值θ确定,以具有与母集团31中的作为未经调整的属性的职业属性的值相同的分布。首先,关键词列表创建部44将变量i初始化为零(步骤S14)。
关键词列表创建部44将变量i增加一(步骤S15),并且确定变量i是否大于或等于词汇数(步骤S16)。词汇数可以指示职业估计模型34中保持的关键词“俱乐部活动”、“考试”等的总数。当变量i大于或等于该词汇数时,由关键词列表创建部44进行的处理被终止,并且新用户补充处理前进至图19中的步骤S31。
当变量i小于词汇数时,关键词列表创建部44从职业估计模型34中提取集合Ti,Ti包括对与职业属性的期望值相关的类别的前i个有用的关键词(步骤S17)。例如,作为“对与职业属性的期望值相关的类别有用的关键词”,可以考虑能够提高“初中生和高中生可能性”的关键词。
关键词列表创建部44从留存在博客DB 32中的博客文章中提取发布了包括集合Ti中的至少一个关键词的博客文章的用户的用户信息,并且获取未经调整的属性的分数分布Di(步骤S18)。
在步骤S18中,关键词列表创建部44通过参考关键词-用户表35来提取发布了包括集合Ti中的至少一个关键词的博客文章的用户的用户信息,并且获取爱好属性的分数分布Di。
接着,关键词列表创建部44获取职业属性的不足的值的分布Dorig与分布Di之间的分布差异Diff(Dorig,Di)(步骤S19)。分布差异Diff(Dorig,Di)可以通过将表达式3应用到分布Dorig和分布Di来计算。
在此之后,关键词列表创建部44确定在步骤S19中获取的分布差异Diff(Dorig,Di)是否小于可容许误差阈值θ(步骤S20)。当分布差异Diff(Dorig,Di)大于或等于可容许误差阈值θ时,关键词列表创建部44确定分布差异Diff(Dorig,Di)还没有达到职业属性在母集团31中的期望值的比率,并且返回至步骤S15。关键词列表创建部44进一步添加第i个关键词,并且以相同的方式重复上述处理。另一方面,当分布差异Diff(Dorig,Di)小于可容许误差阈值θ时,由关键词列表创建部44进行的处理被终止,并且新用户补充处理前进至图19中的步骤S31。
关于爱好属性的每个值“美食”和“电影”,将描述母集团31的未经调整的属性分数分布和职业属性的不足的值“初中生和高中生”的示例。在图23A中,横轴指示按照爱好分数对该爱好的感兴趣程度,纵轴指示用户数比率。
在图23A中,关于爱好属性的值“美食”(以h1表示),dorig,h1表示母集团31的未经调整的属性分数分布,di,h1表示职业属性的不足的值“初中生和高中生”的未经调整的属性分数分布。
在图23B中,同样,关于爱好属性的值“电影”(以h2表示),dorig,h2表示母集团31的未经调整的属性分数分布,di,h2表示职业属性的不足的值“初中生和高中生”的未经调整的属性分数分布。因此,通过使用表达式3,针对爱好属性的每个值计算差的平方和(表达式3),并且通过对爱好属性的所有值的平方和的加总来获取分布差异Diff(Dorig,Di)。
每当将关键词以值“初中生和高中生”的估计的降序从职业估计模型34(图8)添加至检索关键词的集合Ti时执行上述处理。基于职业估计模型34(图8),在第一时间处,上述对分布差异Diff(Dorig,Di)的获取处理通过集合Ti={俱乐部活动}来执行。在第二时间处,获取处理通过集合Ti={俱乐部活动,考试}来执行。在第三时间处,获取处理通过集合Ti={俱乐部活动,考试,班级}来执行。在第四时间处,获取处理通过集合Ti={俱乐部活动,考试,班级,学校}来执行。
在第四时间处,如果分布差异Diff(Dorig,Di)变得小于可容许误差阈值θ,则关键词列表创建部44终止从步骤S15至S20的上述迭代处理。当由关键词列表创建部44进行的处理被终止时,由频率阈值计算部44-2的处理被启动。
频率阈值计算部44-2从检索关键词列表54中提取针对每个属性值设定的检索关键词集(步骤S31)。针对“初中生和高中生”设定的检索关键词为{俱乐部活动,课程,学校,兼职,......},针对“大学生”设定的检索关键词为{大学,大学俱乐部,课程,盒饭,......},针对“从业人员”设定的检索关键词为{工作场所,盒饭,通勤,出差,...},以及针对“家庭主妇”设定的检索关键词为{丈夫,幼儿园,盒饭,晚餐,......}。
在此之后,频率阈值计算部44-2在多个属性值中创建重复关键词的集合(步骤S32)。包括多个属性值中的重复关键词的重复关键词集5a被存储在存储部130中。
接着,频率阈值计算部44-2从重复关键词集中选择一个重复关键词,并且通过从属性确定的文章DB 36中指定包括重复关键词的博客文章来创建工作表5b(步骤S33)。在工作表5b中,对于每个重复关键词,使得从属性确定的文章DB 36中获取的一个或更多篇博客文章和属性值对应于重复关键词。
频率阈值计算部44-2通过参考每个属性值的工作表5b,针对所选择的重复关键词获取每个属性值的出现计数(即,博客文章数)(步骤S34)。出现计数指示博客文章数。即,对包括重复关键词的页面进行计数。
接着,频率阈值计算部44-2获取与所选择的重复关键词相关的每个属性值的泊松分布(步骤S35),并且从泊松分布中获取每个属性值的规则(步骤S36)。当响应于属性和重复关键词的组合而获取规则时,频率阈值计算部44-2通过对应于工作表5中的组合来记录所获取的规则。当没有响应于组合而获取规则时,规则不被记录。后面将描述规则获取方法。
频率阈值计算部44-2确定是否关于工作表5b中列出的每个重复关键词获取了规则(步骤S37)。当在工作表5b中存在未获取规则的重复关键词时(在步骤S37中为否),频率阈值计算部44-2返回至步骤S33,并且以相同的方式重复上述处理。
另一方面,当关于工作表5b中列出的每个重复关键词获取了规则(在步骤S37中为是)时,频率阈值计算部44-2创建属性值-关键词表54-2(步骤S38)。
频率阈值计算部44-2复制检索关键词列表54,并且从工作表5b中获取重复关键词、属性值和规则。创建属性值-关键词表54-2,以限定针对所获取的重复关键词和属性值的组合中的每个而获取的规则。
在属性值-关键词表54-2中,频率阈值计算部44-2针对关键词和属性值的组合而不是重复关键词和属性值的组合设定“≥1”(大于或等于1)。
在属性值-关键词表54-2中,规则由用于确定对于每个属性值而言该属性值是否相似的关键词的出现计数的阈值来指示。通过属性值-关键词表54-2,针对重复关键词与多个属性值中的每个属性值的组合,规则被限定为组合之一。因此,可以有效地使用重复关键词,而不是抑制对所有重复关键词的使用。
当完成对属性值-关键词表54-2的创建时,由频率阈值计算部44-2进行的处理结束。即,当由关键词指定部40A进行的处理结束时,新用户补充部40B进行的处理被启动。
将参照图20来描述针对步骤S36中的每个重复关键词获取与属性值相关的规则的规则获取处理。规则获取处理由频率阈值计算部44-2执行。
在图20中,频率阈值计算部44-2增加规则的下限f(步骤S3601)。频率阈值计算部44-2在初始时间将下限f设定为零(f=0),并且从第二时间将下限f增加1。而且,频率阈值计算部44-2在图19中的步骤S35中获取的泊松分布中将规则的区段宽度Δ增加1。(步骤S3602)。
接着,频率阈值计算部44-2针对与重复关键词对应的所有属性值计算各当前区段(从f到f+Δ)处的面积(步骤S3603)。此后,频率阈值计算部44-2选择属性值中的一个属性值,并且获取关于所选择的属性值的面积与关于其他属性值的其他面积之间的比率(步骤S3604)。频率阈值计算部44-2确定所选择的属性值的比率是否大于或等于阈值R(步骤S3605)。
当所选择的属性值的比率小于阈值R(在步骤S3605中为否)时,频率阈值计算部44-2前进至步骤S3607。另一方面,当所选择的属性值的比率大于或等于阈值R(在步骤S3605中为是)时,频率阈值计算部44-2获取所选择的属性值在当前区段处的规则“≥f且<f+Δ”(大于等于f且小于F+Δ)。
频率阈值计算部44-2确定是否获取了所有属性值的规则(步骤S3607)。当尚未确定所有属性值的规则(在步骤S3607中为否)时,频率阈值计算部44-2返回至步骤S3604,选择下一个属性值,并且以相同的方式重复上述处理。
另一方面,当对所有属性值确定了规则(在步骤S3607中为是)时,频率阈值计算部44-2确定区段宽度Δ是否达到最大宽度Δmax(步骤S3608)。当区段宽度Δ尚未达到最大宽度Δmax(在步骤S3608中为否)时,频率阈值计算部44-2返回至步骤S3602。
另一方面,当区段宽度Δ达到最大宽度Δmax(在步骤S3608中为是)时,频率阈值计算部44-2确定下限f是否达到上限F(步骤S3609)。当下限f尚未达到上限F(在步骤S3609中为否)时,频率阈值计算部44-2返回至步骤S3602,并且重复上述处理。
另一方面,当下限f达到上限F(在步骤S3609中为是)时,频率阈值计算部44-2结束该规则获取处理。
图24是用于说明规则获取处理的示例的图。在图24中,对于三个属性值即大学生、从业人员和家庭主妇中的每个属性值,其中出现某个特定关键词(在下文中简称为“特定关键词”)的博客文章的每个计数的用户数由泊松分布表示。
大学生分布2a通过泊松分布表示用户数,该用户数取决于在具有属性值“大学生”的用户的博客文章中出现特定关键词的博客文章的计数。从业人员分布2b通过泊松分布表示用户数,该用户数取决于在具有属性值“从业人员”的用户的博客文章中出现特定关键词的博客文章的计数。家庭主妇分布2c通过泊松分布表示用户数,该用户数取决于在具有属性值“家庭主妇”的用户的博客文章中出现特定关键词的博客文章的计数。
在来自关键词的出现计数“0”的每个区段宽度Δ中,泊松分布的区域范围被扩大。每当区域范围被扩大时,针对所有属性值计算面积,并且在属性值之间比较该面积。
将参照图21来描述在图19的步骤S38之后的处理。在图21中,当新用户补充部40B启动新用户补充处理时,采集部45显示与作为补充目标的用户的属性值对应的关键词,该关键词由管理员通过参考属性值-关键词表54-2在经调整的属性值中进行指示,并且采集部45允许管理员选择用于检索的一个或更多个关键词(步骤S121)。
当选择属性值“初中生和高中生”时,在显示设备15处可以显示选择画面,以供管理员从检索关键词集“初中生和高中生”={俱乐部活动:≥1,课程:≥7,学校:≥1,兼职:≥1,......}中选择一个属性值。在该选择画面处,允许管理员在属性值“初中生和高中生”和“大学生”中选择重复关键词“课程”。
当选择属性值“大学生”时,在显示设备15处可以显示选择画面,以供管理员从检索关键词集“大学生”={大学:≥1,大学俱乐部:≥1,......}中选择一个属性值。显示在显示设备15处的“大学生”的检索关键词集不包含属性值“初中生和高中生”和“大学生”之中的重复关键词“课程”,以及属性值“初中生和高中生”和“从业人员”之中的重复关键词“盒饭”。
当选择了属性值“从业人员”时,在显示设备15处可以显示选择画面,以供管理员从检索关键词集“从业人员”={工作场所:≥1,通勤:≥1,出差:≥1,......}中选择一个属性值。显示在显示设备15处的“从业人员”的检索关键词集不包含属性值“大学生”、“从业人员”和“家庭主妇”之中的重复关键词“盒饭”。
当选择属性值“家庭主妇”时,在显示设备15处可以显示选择画面,以供管理员从检索关键词集“家庭主妇”={工作的丈夫:≥1,盒饭:≥3,晚餐:≥1,......}中选择一个属性值。在该画面处,允许管理员在属性值“大学生”、“从业人员”和“家庭主妇”中选择重复关键词“盒饭”。
如上所述,当可以基于规则选择重复关键词时,该重复关键词被显示在显示装置15处。当没有指示规则时,不显示重复关键词。通过这种控制,在本实施方式中,管理员没有必要确定重复关键词是否被包括在检索关键词集中,以及确定是否使用重复关键词。
当管理员从显示在显示装置15处的检索关键词集中选择一个或更多个期望的关键词时,采集部45通过使用由管理员选择的关键词来创建查询,并且通过访问博客服务器3来搜索博客3a。
采集部45进行与管理员的一个或更多个期望的关键词的或(OR)检索,以从博客服务器3采集博客文章(步骤S122)。对包括由管理员选择的一个或更多个关键词的博客文章进行检索。检索到的博客文章的用户被确定为候选用户。创建新用户候选列表55以指示检索到的博客文章的作为候选用户的用户的ID,并且新用户候选列表55被存储在存储部130中。
采集部45从博客服务器3采集与候选用户相关的前10篇文章,并且对每个用户计数关键词(步骤S123)。即,采集部45通过使用关键词,搜索并计数与每个用户ID相关联的博客文章,并且在存储部130中创建每用户关键词表56。
属性估计部46通过使用每用户关键词表56将职业估计模型34应用到所采集的博客文章(步骤S124)。属性估计部46针对每个用户ID指定具有最高估计的职业属性的值。属性估计部46通过指定的职业属性的值确定用户的职业,并且在每用户属性估计表57中设定估计的属性。
在如图16所示的示例中,对于用户ID“00002”,针对值“初中生和高中生”的估计“0.53”指示最高值。因此,通过对应于用户ID“00002”设定值“初中生和高中生”。对于用户ID“00014”,值“其他”被设定到所估计的属性。对于用户ID“00383”,设定值“初中生和高中生”。
在此之后,对于用户不足,采样部47对被估计为具有职业属性的目标值的用户的博客文章进行随机采样,并且将来自所采样的博客文章中的不同用户的用户ID添加至母集团31(步骤S125)。
如果存在与职业属性的值“初中生和高中生”相关的用户缺乏,则采样部47提取如下用户ID,针对该ID在每用户属性估计表57中值“初中生和高中生”被设到所估计的属性,并且采样部47将所提取的用户ID存储到存储部130中的新用户列表58。采样部47通过使用新用户列表58来补充母集团31。
在本实施方式中,不是随机选择用户作为采集目标,而是可以指定以高于频率阈值的频率发布包括与期望补充的用户相关的特征关键词的博客文章的用户。
接着,将描述属性值-关键词表54-2的另一数据配置示例。该另一数据配置示例可以用于基于指示博客文章的计数设置的规则来指定采集目标的用户。图25是示出了属性值-关键词表的另一数据配置示例的图。与图13中描绘的属性值-关键词表54-2不同,在如图25所示的属性值-关键词表54-2a中,针对博客文章的计数设定了上限和下限。
在图25中的数据配置示例中,针对属性值“初中生和高中生”的关键词“课程”设定规则“≥7且<12”(大于等于7且小于12)。在用具有属性值“初中生和高中生”的用户来补充群的情况下,目标是其中出现关键词“课程”的博客文章的计数“≥7且<12”(大于等于7且小于12)的用户。
对于属性值“大学生”的关键词“课程”,应用规则“≥0且<2”(大于等于0且小于2)或规则“≥5且<6”(大于等于5且小于6)。在用大学生的用户的ID来补充母集团31的情况下,其中在其博客文章中“≥0且<2”或“≥5且<6”的博客文章包括关键词“课程”的用户为搜索目标。
此外,对于属性值“大学生”的关键词“盒饭”,设定规则“≥0且<1”。在用大学生的用户的ID来补充母集团31的情况下,其中在其博客文章中“≥0且<1”的博客文章包括关键词“盒饭”的用户为搜索目标。
对于属性值“从业人员”的关键词“盒饭”,用空白来指示规则。在用从业人员的用户的ID来补充母集团31的情况下,词“盒饭”不被用作检索条件。
对于属性值“家庭主妇”的关键词“盒饭”,设定规则“≥3且<8”。在用家庭主妇的用户的ID来补充母集团31的情况下,其中在其博客文章中“≥3且<8”的博客文章包括关键词“盒饭”的用户为搜索目标。
通过使用指示如图13所示的下限的规则,不使用重复关键词“课程”和“盒饭”。相反,通过参考属性值-关键词表54-2a,可以适当地使用重复关键词“课程”和“盒饭”。
如上所述,通过设定上限和下限,即使在使用重复关键词的情况下,仍可以用具有属性值的用户的ID来精确地补充母集团31。
根据本发明,在数据采集设备100中,可以维持在作为研究对象的母集团31中的恒定属性比率,并且可以用具有职业属性中的不足的值的用户ID来补充群。
用于随机设定关键词的相关技术采集指定发布只与特定主题相关的博客文章的各个用户的用户信息。其结果是,相关技术中的母集团可能无法精确表示人们的实际生活状况。在本实施方式中,关键词被设定成使得避免发布内容的趋势发生偏离。因此,可以维持在作为研究对象的母集团31中的恒定属性比率。因此,克服了与相关技术有关的上述问题。
可以在考虑作为研究对象的母集团中的属性比率的情况下进行群形成。

Claims (6)

1.一种群形成方法,包括:
通过计算机,针对提供者的第一提供者组,从每个提供者的公开信息提取一个或更多个关键词,对于所述第一提供者组,第一属性被计算为与预定属性值对应,所述第一属性指示多个属性值中之一并且根据时间的经过而变化,所述多个属性值分别表示公布公开信息的提供者的属性;
由所述计算机设置一个或更多个重复关键词中的相应的重复关键词的规则,所述规则中的每个规则用于基于所述一个或更多个重复关键词在与包括所述预定属性值的两个或更多个属性值对应的提供者的公开信息中的出现频率而确定所述两个或更多个属性值中的一个属性值,所述一个或更多个重复关键词包括在所述一个或更多个关键词中;
由所述计算机,相对于新公开信息,基于所述规则和所述一个或更多个重复关键词,针对表示作为与所述第一属性不同的第二属性的属性值的一个或更多个关键词中包括的一个或更多个重复关键词的每个重复关键词的出现趋势的分布,指定与所述第一提供者组具有预定相似关系的提供者组;以及
由所述计算机在所指定的提供者组中包括的提供者之中,根据如下提供者的信息,形成与所述第一提供者组对应的新的提供者组:对于该提供者,与所述第一属性有关的属性值对应于所述预定属性值。
2.根据权利要求1所述的群形成方法,还包括:
由所述计算机基于所述重复关键词的出现趋势来分别确定所述规则。
3.根据权利要求2所述的群形成方法,其中,所述计算机:
针对所述重复关键词中的每个,分别获取表示关于所述多个属性值的出现趋势的泊松分布;以及
针对所述第一属性的属性值中的每个值设置各自指示关于特征出现趋势的出现频率的下限的所述规则,所述值具有根据所述泊松分布与所述第一属性的所述多个属性值中的除该值之外的属性值相比的特征出现趋势。
4.根据权利要求2所述的群形成方法,其中,所述计算机:
针对所述重复关键词中的每个,分别获取表示关于所述多个属性值的出现趋势的泊松分布;以及
针对所述第一属性的属性值中的每个值设置各自指示关于特征出现趋势的出现频率的范围的所述规则,所述值具有根据所述泊松分布与所述第一属性的所述多个属性值中的除该值之外的属性值相比的特征出现趋势。
5.根据权利要求3所述的群形成方法,其中,所述出现频率的范围由规则指示,该规则的数量多于一个。
6.一种群形成设备,包括:
提取部,所述提取部针对提供者的第一提供者组,从每个提供者的公开信息提取一个或更多个关键词,对于所述第一提供者组,第一属性被计算为与预定属性值对应,所述第一属性指示多个属性值中之一并且根据时间的经过而变化,所述多个属性值分别表示公布公开信息的提供者的属性;
设定部,所述设定部设置一个或更多个重复关键词中的相应的重复关键词的规则,所述规则中的每个规则用于基于所述一个或更多个重复关键词在与包括所述预定属性值的两个或更多个属性值对应的提供者的公开信息中的出现频率而确定所述两个或更多个属性值中的一个属性值,所述一个或更多个重复关键词包括在所述一个或更多个关键词中;
指定部,所述指定部相对于新公开信息,基于所述规则和所述一个或更多个重复关键词,针对表示作为与所述第一属性不同的第二属性的属性值的一个或更多个关键词中包括的一个或更多个重复关键词的每个重复关键词的出现趋势的分布,指定与所述第一提供者组具有预定相似关系的提供者组;以及
第二形成部,所述第二形成部在所指定的提供者组中包括的提供者之中,根据如下提供者的信息,形成与所述第一提供者组对应的新的提供者组:对于该提供者,与所述第一属性有关的属性值对应于所述预定属性值。
CN201610490848.6A 2015-07-01 2016-06-28 群形成方法和群形成设备 Active CN106326329B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015132975A JP6544084B2 (ja) 2015-07-01 2015-07-01 群形成方法、群形成装置、及び群形成プログラム
JP2015-132975 2015-07-01

Publications (2)

Publication Number Publication Date
CN106326329A CN106326329A (zh) 2017-01-11
CN106326329B true CN106326329B (zh) 2019-11-05

Family

ID=57684165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610490848.6A Active CN106326329B (zh) 2015-07-01 2016-06-28 群形成方法和群形成设备

Country Status (3)

Country Link
US (1) US10303709B2 (zh)
JP (1) JP6544084B2 (zh)
CN (1) CN106326329B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076799A (zh) * 2004-06-30 2007-11-21 艾菲诺瓦公司 调查候选人的即时选择
JP2011118642A (ja) * 2009-12-03 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> サービス規模成長性分析システムおよび方法ならびにそのためのプログラム
JP2012070036A (ja) * 2010-09-21 2012-04-05 Kddi Corp 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法
CN103984741A (zh) * 2014-05-23 2014-08-13 合一信息技术(北京)有限公司 用户属性信息提取方法及其系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016345A (ja) * 2001-06-29 2003-01-17 Nec Corp ユーザの属性に応じた情報提供方法、情報提供システム及び情報提供プログラム
JP2007219880A (ja) 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
US8335714B2 (en) * 2007-05-31 2012-12-18 International Business Machines Corporation Identification of users for advertising using data with missing values
JP5088096B2 (ja) 2007-11-02 2012-12-05 富士通株式会社 情報抽出プログラムおよび情報抽出装置
JP4808207B2 (ja) * 2007-12-11 2011-11-02 ヤフー株式会社 広告配信装置、広告配信方法、広告配信プログラム及び広告入札方法
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
CN102822825A (zh) * 2010-03-31 2012-12-12 日本电气株式会社 分组装置、计算机可读记录介质和分组方法
JP5754854B2 (ja) 2012-03-16 2015-07-29 Kddi株式会社 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法
US20140200960A1 (en) * 2013-01-16 2014-07-17 Palo Alto Research Center Incorporated System and methods for optimizing recruitment
GB2528595A (en) * 2013-03-12 2016-01-27 Ibm Method for user categorization in social media, computer program, and computer
JP6191277B2 (ja) * 2013-06-25 2017-09-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076799A (zh) * 2004-06-30 2007-11-21 艾菲诺瓦公司 调查候选人的即时选择
JP2011118642A (ja) * 2009-12-03 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> サービス規模成長性分析システムおよび方法ならびにそのためのプログラム
JP2012070036A (ja) * 2010-09-21 2012-04-05 Kddi Corp 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法
CN103984741A (zh) * 2014-05-23 2014-08-13 合一信息技术(北京)有限公司 用户属性信息提取方法及其系统

Also Published As

Publication number Publication date
CN106326329A (zh) 2017-01-11
JP2017016426A (ja) 2017-01-19
US10303709B2 (en) 2019-05-28
JP6544084B2 (ja) 2019-07-17
US20170004138A1 (en) 2017-01-05

Similar Documents

Publication Publication Date Title
US8548996B2 (en) Ranking content items related to an event
JP6622227B2 (ja) ユーザ関係データユーザ関係データの結合に基づく検索
CN103970857B (zh) 推荐内容确定系统和方法
US7974992B2 (en) Segmentation model user interface
US20160055252A1 (en) Methods and systems for personalizing aggregated search results
US20150278355A1 (en) Temporal context aware query entity intent
CN103455487B (zh) 一种搜索词的提取方法及装置
US20140229476A1 (en) System for Information Discovery &amp; Organization
TW201514735A (zh) 於搜尋結果頁內提供已標定應用程式之系統與方法
US9633119B2 (en) Content ranking based on user features in content
CN110532351B (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
US8538965B1 (en) Determining a relevance score of an item in a hierarchy of sub collections of items
JP5746658B2 (ja) 情報処理装置、方法及びプログラム、並びに、情報通信端末、その制御方法及びその制御プログラム
JP6370434B1 (ja) 企業情報提供システムおよびプログラム
JPWO2016135905A1 (ja) 情報処理システム及び情報処理方法
US20180189291A1 (en) Method and apparatus for sorting related searches
US8997008B2 (en) System and method for searching through a graphic user interface
JP2018504686A (ja) 検索データを処理するための方法及び装置
KR101346927B1 (ko) 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
JP2015197722A (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
US20160335359A1 (en) Processing search queries and generating a search result page including search object related information
JP6264946B2 (ja) データ収集方法、及びデータ収集装置
CN106326329B (zh) 群形成方法和群形成设备
JP2006099753A (ja) 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置
US20160335365A1 (en) Processing search queries and generating a search result page including search object information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant