CN103823894A - 一种产品受众特征抽取方法 - Google Patents

一种产品受众特征抽取方法 Download PDF

Info

Publication number
CN103823894A
CN103823894A CN201410087559.2A CN201410087559A CN103823894A CN 103823894 A CN103823894 A CN 103823894A CN 201410087559 A CN201410087559 A CN 201410087559A CN 103823894 A CN103823894 A CN 103823894A
Authority
CN
China
Prior art keywords
product
user
audient
microblogging
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410087559.2A
Other languages
English (en)
Inventor
李晓明
赵鑫
过岩巍
闫宏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201410087559.2A priority Critical patent/CN103823894A/zh
Publication of CN103823894A publication Critical patent/CN103823894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布一种产品受众特征抽取方法,该方法根据用户在网络上对一产品的评价内容、在微博上公开的个人信息和在微博上对该产品的关注信息与发言内容,通过统计计算抽取转化而获得该产品的受众特征,包括下述步骤:形成产品e的在线评论数据、形成产品使用者名称集合Ce、形成产品微博用户集合Ue和微博用户在每个属性上的取值ua和通过受众特征转化计算而获得产品受众特征。该方法尤其适用于从产品购买者的网络评价、产品用户在微博上的关注和发言以及产品用户公开的个人信息中,抽取出该产品受众的群体特征,具有直观自然、精确性高、拓展性强的特点。

Description

一种产品受众特征抽取方法
技术领域
本发明属于信息抽取系统领域,具体涉及一种产品受众特征抽取方法,该方法尤其适用于从产品购买者的网络评价、产品用户在微博上的关注和发言以及产品用户公开的个人信息中,抽取出该产品受众的群体特征。
背景技术
产品受众特征指的是适合该产品的使用者或喜好该产品的消费者群体特征。产品受众特征的抽取可应用到产品规划、生产、升级、营销推广等一系列产品活动中,例如可根据抽取出的产品受众特征有针对性地对消费者进行产品推荐等。
现有技术中,一是采用电子问卷调查技术,让用户填写个人信息及对产品的喜好程度。回收调查问卷后统计得到产品受众特征(US demographic and business summary data.Productguide,2012),但这种方法需要足够多的用户进行问卷调查,费时费力;而且一张问卷涉及到的产品个数有限,只能限制于小量产品集。第二种方法是由电子商城提供注册用户完善个人信息的服务,再通过用户购买记录,设定购买的产品即是用户喜好的产品,从而统计得到产品受众特征(Michael Giering.Retail sales prediction and itemrecommendationsusing customer demographics atstore level.SIGKDD Explor.Newsl.,10(2),December2008)。这种方法也存有不足,一方面由于电子商城的用户中完善个人信息的过少而导致数据过于稀疏而无法得到正确结果;而且仅从购买记录得到的产品受众特征过于片面;此外,电子商城的购买记录和购买者个人信息一般不公开,对他人而言依赖的数据难以获取。
发明内容
为解决上述现有技术存在的问题,本发明以用户在网络上对产品的评价、在微博上公开的个人信息以及与产品相关的关注、发言等行为作为数据来源,通过统计计算抽取转化成产品受众特征。本发明能够结合产品在网络上的在线评论信息和微博媒体信息提取出属性丰富的产品受众特征,并且具有直观自然、精确性高、拓展性强的特点。
本发明提供一种产品受众特征抽取方法,其技术方案是:
一种产品受众特征抽取方法,该方法根据用户在网络上对一产品的评价内容、在微博上公开的个人信息和在微博上对该产品的关注信息与发言内容,通过统计计算抽取转化而获得该产品的受众特征,包括下述步骤:
第一步:所述产品设为e,从网络上收集用户对所述产品e发表的评价信息,形成e的在线评论数据;
第二步:对e的在线评论数据通过评论信息统计,获得包含产品使用者名称和使用者频数的产品评论统计信息,形成产品使用者名称集合,设为Ce
第三步:通过关键词过滤方法从网络上得到包含e的微博、包含e的品牌或公司的微博和上述两类微博的用户个人信息,所述用户个人信息包括多个属性;
第四步:通过微博信息统计,形成产品微博用户集合,设为Ue;品牌或公司微博用户集合,设为
Figure BDA0000475396270000021
和微博用户在每个属性上的取值,设为ua
第五步:根据Ce、Ue
Figure BDA0000475396270000022
通过受众特征转化计算,获得产品受众特征。
上述产品受众特征抽取方法中,第二步所述评论信息统计具体为以下过程:
首先,设定所述e的产品使用者名称为c,设定一个句式集合为D,D由人工生成且满足c代入D中的每一个句式均能形成一句有意义的话;通过正则表达式匹配法,统计e的在线评论数据中满足D的产品使用者名称,由此形成Ce
其次,通过统计上述Ce中每个使用者名称在e的在线评论数据中出现的次数,设为tfc;设定一个阈值,过滤掉tfc小于该阈值的使用者名称;再人工判断每一个使用者名称是否合理,去掉不合理的c,最终形成Ce
具体地,第四步所述微博信息统计为以下过程:
首先,通过情感分析方法判断所述包含e的微博的正负面情绪,只统计正面情绪的微博的发表用户,形成Ue;通过同样方法统计具有正面情绪的包含e的品牌或公司的微博的发表用户,形成
Figure BDA0000475396270000023
其次,通过品牌或公司开设的官方微博账号,该官方微博账号为一个或多个,来统计关注各官方微博账号的用户,加入中;
再次,通过Ue
Figure BDA0000475396270000025
中的微博用户的“个人资料”页面,获取每个微博用户公开的包括多个属性的个人信息,通过统计获得各个用户在每个属性上的取值。
其中,第五步所述受众特征转化计算具体为,首先分别将Ce、Ue中的每一个元素映射到由多个属性构成的特征空间,再分别通过估计方法,得到三种来源的产品受众在各个属性上的属性概率分布;通过将所述三种来源的产品受众在相同属性上的属性概率分布进行线性加权综合或单独使用,从而获得产品受众在各个属性上的特征。
本发明的有益效果:
本发明提供一种产品受众特征抽取方法,该方法尤其适用于从产品购买者的网络评价、产品用户在微博上的关注和发言以及产品用户公开的个人信息中,抽取出该产品受众的群体特征,该方法直观自然、精确性高且拓展性强。本发明具有如下特点和有益效果:
一、通过结合网络在线评论信息和微博媒体信息,得到属性丰富的产品受众特征;
二、采用概率分布表示受众特征的取值,使得抽取出的产品受众特征更为精确合理;
三、使用用户的个人特征空间表示产品受众特征,得到的特征有直观自然的解释;
四、容易拓展到其他网络社会媒体,有利于该方法的推广应用。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细说明,但不以任何方式限制本发明的范围。
本发明提供的产品受众特征抽取方法,是基于用户在对已购买产品评价时可能暴露产品使用者身份和用户在微博上可能通过关注、发言等行为表达对某产品的兴趣的事实。本发明以用户在网络上对产品的评价、在微博上公开的个人信息以及与产品相关的关注、发言等行为作为数据来源,通过统计计算抽取转化成产品受众特征。本发明提供的产品受众特征抽取方法,主要包括评论信息统计、微博信息统计和受众特征转化计算这些步骤,其过程如图1所示。
第一步:评论信息统计
用户在网络上够买产品之后,可以对该产品进行评价,发表的内容可能暴露产品使用者的身份,比如“给妻子买的”、“适合老年人使用”。这些评价构成该产品的在线评论数据。在本发明中,人工定义句式集合D,例如“给c买的”、“适合c使用”,其中c是潜在的使用者名称。给定产品e和它的相关评论数据,通过正则表达式匹配法,统计评论中的相关信息。可统计的信息如下:
1)使用者名称
统计产品e的评论中满足D中句式的使用者名称c,并形成集合Ce
2)使用者频数
统计Ce中每个使用者名称c在e的评论中出现的次数tfc
过滤掉tfc小于一定阈值的c;再人工判断每一个c是否合理,去掉不合理的c,形成产品潜在使用者名称的最终集合Ce
第二步:微博信息统计
微博社交媒体上有如下事实:
f1)微博用户在微博上可能公开自身的个人信息。
f2)若用户喜好某产品,可能发表微博对该产品本身、产品的品牌或公司表达正面情绪。
f3)一家公司或一个品牌可能在微博上有用官方账号,关注该官方账号的用户可被认为喜好该公司或该品牌。
基于上述三个事实,统计微博上相关信息,分为下面几种情形进行:
s1)对产品发表正面情绪的用户
给定一个产品e,采用关键词过滤方法得到包含e的微博,采用情感分析方法判断微博的正负面情绪,只统计正面情绪的微博的发表用户,设为u,形成用户集合Ue
s2)对公司或品牌发表正面情绪的用户
给定一个产品e,定义它的品牌或公司为be,用s1)中相同的方法统计得到用户集合
s3)关注公司或品牌官方账号的用户
一个品牌或公司be在微博上开设官方账号(可能有多个),统计该账号的粉丝(即关注该账号的微博用户)并加入
Figure BDA0000475396270000041
中。
s4)用户个人信息
在用户“个人资料”页面可获取用户公开的个人信息,例如性别、年龄、爱好、工作等等属性,设为a。对于Ue
Figure BDA0000475396270000042
中的用户u,统计该用户在每个属性a上的取值ua。第三步:受众特征转化计算
受众特征转化计算主要是将前两个步骤得到的统计信息转化为产品的受众特征。本发明认为产品受众特征在某属性(例如性别)上不是简单的单值,而应该是所有可能取值的一种概率分布。以性别为例,“喜好某产品的消费者中有80%是男性”的说法比“某产品适合男性”更具数据说服力且更为精确。本发明将前两个模块得到的Ce、Ue
Figure BDA0000475396270000051
三个数据集及相关统计信息按如下方法转化为属性概率分布:
(1)对于Ce中的使用者名称c,依据常识人工将其映射到易于判定的特征空间。以由年龄和性别两个属性构成的特征空间为例,可将“爷爷”映射到<性别:男,年龄:50岁以上>。定义#(a,v)为在Ce中属性a被映射到值v的次数,本发明采用加1平滑来估计从Ce得到的产品e在属性a上的概率分布,代表从在线评论数据获得的产品e的受众在属性a上的特征,设为
Figure BDA0000475396270000052
&alpha; a , v e = # ( a , v ) + 1 &Sigma; V ' &Element; V a # ( a , v ' ) + | V a |    公式1
其中,Va是属性a上的可能取值集合;V′∈Va,为Va中的任一元素。
(2)对于Ue
Figure BDA0000475396270000054
中的微博用户u,考虑其公开的个人信息的特征空间,u在属性a上取值ua。由于Ue足够大,本发明采用下列公式估计从Ue得到的产品e在属性a上的概率分布:
&beta; a , v e = &Sigma; u &Element; U e 1 [ u a = v ] &Sigma; v ' &Element; V a &Sigma; u &Element; U e 1 [ u a = v ' ]    公式2
即代表从与产品本身相关的微博数据获得的产品e的受众在属性a上的特征。
同理,从
Figure BDA0000475396270000057
得到的产品e受众特征为:
&gamma; a , v e = &Sigma; u &Element; U b e 1 [ u a = v ] &Sigma; u ' &Element; V a &Sigma; u &Element; U b e 1 [ u a = v ' ]    公式3
Figure BDA0000475396270000059
即代表从与产品的品牌或公司相关的微博数据获得的产品e的受众在属性a上的特征。其中,1[.]是指示函数,当括号内条件成立时返回1,否则返回0。
对于α、β和γ三处来源的在相同属性a上的受众特征,可线性加权综合,也可相互独立使用,从而获得该产品的受众特征。

Claims (4)

1.一种产品受众特征抽取方法,其特征是,所述方法根据用户在网络上对一产品的评价内容、在微博上公开的个人信息和在微博上对该产品的关注信息与发言内容,通过统计计算抽取转化而获得该产品的受众特征,包括下述步骤:
第一步:所述产品设为e,从网络上收集用户对所述产品e发表的评价信息,形成e的在线评论数据;
第二步:对e的在线评论数据通过评论信息统计,获得包含产品使用者名称和使用者频数的产品评论统计信息,形成产品使用者名称集合,设为Ce
第三步:通过关键词过滤方法从网络上得到包含e的微博、包含e的品牌或公司的微博和上述两类微博的用户个人信息,所述用户个人信息包括多个属性;
第四步:通过微博信息统计,形成产品微博用户集合,设为Ue;品牌或公司微博用户集合,设为
Figure FDA0000475396260000011
和微博用户在每个属性上的取值,设为ua
第五步:根据Ce、Ue
Figure FDA0000475396260000012
通过受众特征转化计算,获得产品受众特征。
2.如权利要求1所述产品受众特征抽取方法,其特征是,第二步所述评论信息统计具体为以下过程:
首先,设定所述e的产品使用者名称为c,设定一个句式集合为D,D由人工生成且满足c代入D中的每一个句式均能形成一句有意义的话;通过正则表达式匹配法,统计e的在线评论数据中满足D的产品使用者名称,由此形成Ce
其次,通过统计上述Ce中每个使用者名称在e的在线评论数据中出现的次数,设为tfc;设定一个阈值,过滤掉tfc小于该阈值的使用者名称;再人工判断每一个使用者名称是否合理,去掉不合理的c,最终形成Ce
3.如权利要求1所述产品受众特征抽取方法,其特征是,第四步所述微博信息统计具体为以下过程:
首先,通过情感分析方法判断所述包含e的微博的正负面情绪,只统计正面情绪的微博的发表用户,形成Ue;通过同样方法统计具有正面情绪的包含e的品牌或公司的微博的发表用户,形成
Figure FDA0000475396260000013
其次,通过品牌或公司开设的官方微博账号,该官方微博账号为一个或多个,来统计关注各官方微博账号的用户,加入
Figure FDA0000475396260000014
中;
再次,通过Ue
Figure FDA0000475396260000021
中的微博用户的“个人资料”页面,获取每个微博用户公开的包括多个属性的个人信息,通过统计获得各个用户在每个属性上的取值。
4.如权利要求1所述产品受众特征抽取方法,其特征是,第五步所述受众特征转化计算具体为,首先分别将Ce、Ue
Figure FDA0000475396260000022
中的每一个元素映射到由多个属性构成的特征空间,再分别通过估计方法,得到三种来源的产品受众在各个属性上的属性概率分布;通过将所述三种来源的产品受众在相同属性上的属性概率分布进行线性加权综合或单独使用,从而获得产品受众在各个属性上的特征。
CN201410087559.2A 2014-03-11 2014-03-11 一种产品受众特征抽取方法 Pending CN103823894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410087559.2A CN103823894A (zh) 2014-03-11 2014-03-11 一种产品受众特征抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410087559.2A CN103823894A (zh) 2014-03-11 2014-03-11 一种产品受众特征抽取方法

Publications (1)

Publication Number Publication Date
CN103823894A true CN103823894A (zh) 2014-05-28

Family

ID=50758958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410087559.2A Pending CN103823894A (zh) 2014-03-11 2014-03-11 一种产品受众特征抽取方法

Country Status (1)

Country Link
CN (1) CN103823894A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095839A (zh) * 2016-06-03 2016-11-09 北京网智天元科技股份有限公司 特定观影群体数据的提取及其处理方法
CN106874392A (zh) * 2017-01-13 2017-06-20 微梦创科网络科技(中国)有限公司 受众用户信息的索引存储及广告信息投放的方法和装置
CN109033118A (zh) * 2018-05-23 2018-12-18 国政通科技股份有限公司 一种基于对象的动态数据判断方法及装置
WO2019242144A1 (zh) * 2018-06-19 2019-12-26 平安科技(深圳)有限公司 电子装置、偏好倾向预测方法和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192288A (zh) * 2006-11-24 2008-06-04 王叶 产品信息发布与反馈评价系统及方法
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向系统
CN102663083A (zh) * 2012-04-01 2012-09-12 南通大学 基于分布式计算的大规模社交网络信息抽取方法
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN103345535A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种微博用户挖掘方法及装置
CN103377262A (zh) * 2012-04-28 2013-10-30 国际商业机器公司 对用户进行分组的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192288A (zh) * 2006-11-24 2008-06-04 王叶 产品信息发布与反馈评价系统及方法
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向系统
CN102663083A (zh) * 2012-04-01 2012-09-12 南通大学 基于分布式计算的大规模社交网络信息抽取方法
CN103377262A (zh) * 2012-04-28 2013-10-30 国际商业机器公司 对用户进行分组的方法和装置
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN103345535A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种微博用户挖掘方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095839A (zh) * 2016-06-03 2016-11-09 北京网智天元科技股份有限公司 特定观影群体数据的提取及其处理方法
CN106874392A (zh) * 2017-01-13 2017-06-20 微梦创科网络科技(中国)有限公司 受众用户信息的索引存储及广告信息投放的方法和装置
CN106874392B (zh) * 2017-01-13 2019-12-31 微梦创科网络科技(中国)有限公司 受众用户信息的索引存储及广告信息投放的方法和装置
CN109033118A (zh) * 2018-05-23 2018-12-18 国政通科技股份有限公司 一种基于对象的动态数据判断方法及装置
CN109033118B (zh) * 2018-05-23 2021-06-29 国政通科技股份有限公司 一种基于对象的动态数据判断方法及装置
WO2019242144A1 (zh) * 2018-06-19 2019-12-26 平安科技(深圳)有限公司 电子装置、偏好倾向预测方法和计算机可读存储介质

Similar Documents

Publication Publication Date Title
Emekci Green consumption behaviours of consumers within the scope of TPB
Dey et al. Acquiring competitive intelligence from social media
Kramer An unobtrusive behavioral model of" gross national happiness"
Zhai et al. Mapping the popularity of urban restaurants using social media data
Baek et al. Normative social influence and online review helpfulness: Polynomial modeling and response surface analysis
KR101423544B1 (ko) 시맨틱 토픽 추출 장치 및 방법
Brzustewicz et al. Sustainable consumption in consumer behavior in the time of covid-19: Topic modeling on twitter data using lda
Rui et al. Designing a social-broadcasting-based business intelligence system
Khan et al. Influence of environmental characteristics of the consumers on their willingness to pay for green products: An empirical investigation
Jo et al. Market strategy for promoting green consumption: Consumer preference and policy implications for laundry detergent
Li et al. Exploring customer concerns on service quality under the COVID-19 crisis: A social media analytics study from the retail industry
JP6182478B2 (ja) 解析装置及び解析方法
Saran et al. Crossing the chasm between green corporate image and green corporate identity: a text mining, social media-based case study on automakers
Lin et al. Cognitive age and fashion consumption
Rochman et al. Users’ engagement toward the brand accounts in Instagram based on the AISAS model
CN103823894A (zh) 一种产品受众特征抽取方法
Mishra et al. How delightful is Indian wellness tourism? A netnographic study
Kim et al. At the speed of Juul: measuring the Twitter conversation related to ENDS and Juul across space and time (2017–2018)
Erdem et al. The relationship with ad clicks and purchase intention: An empiricial study of online consumer behaviour
Li et al. Tourism forecasting with granular sentiment analysis
Isip et al. Social media use and purchase intention: the mediating roles of perceived risk and trust
Yuan et al. The effect of electronic word-of-mouth on sales through fine-gained sentiment analysis
Liang et al. An integrated approach of sensing tobacco-oriented activities in online participatory media
Blanchflower et al. Exploring the impact of social networking sites on brand equity
JP2017045337A (ja) デジタルマーケティングシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140528

WD01 Invention patent application deemed withdrawn after publication