CN105260899A - 一种电商主体可信度评价方法及系统 - Google Patents
一种电商主体可信度评价方法及系统 Download PDFInfo
- Publication number
- CN105260899A CN105260899A CN201510705829.6A CN201510705829A CN105260899A CN 105260899 A CN105260899 A CN 105260899A CN 201510705829 A CN201510705829 A CN 201510705829A CN 105260899 A CN105260899 A CN 105260899A
- Authority
- CN
- China
- Prior art keywords
- descriptor
- electric business
- word
- emotion word
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电商主体可信度评价方法及系统,包括:从电商商品的客户评价中获取主题词和情感词共同出现的主题词-情感词对;从电商商品的广告中获取主题词和情感词共同出现的主题词-情感词对;然后计算电商商品的可信度。本发明建立了有效的电子商务各主体可信度评价体系,有助于为电子商务活动监管提供理论依据和数据支撑;有助于规范电商行业的有序发展;有助于降低广大顾客的电商商品信息收集成本。
Description
【技术领域】
本发明涉及一种电商主体可信度评价方法及系统。
【背景技术】
随着互联网的迅速发展,电子商务已经越来越成为人们的主流购物选择。但由于评价标准缺失,电商主体(电商平台、电商商家、电商商品)的可信度难以评价,使得监管部门难以有效掌握和监管电子商务活动信息,也不利于电子商务行业的健康发展,同时也使得普通顾客在选择电商商品时无所适从。
【发明内容】
为了克服现有技术的不足,本发明提供了一种电商主体可信度评价方法及系统,从而可以为监管部门和用户判断电商主体的可信度提供参考。
一种电商主体可信度评价方法,包括如下步骤:
S1,从电商商品的客户评价中获取主题词和情感词共同出现的主题词-情感词对;
S2,从电商商品的广告中获取主题词和情感词共同出现的主题词-情感词对;
S3,计算客户评价中主题词k的语义倾向度Ori(ok,1):
S4,计算广告中主题词k的语义倾向度Ori(ok,2):
S5,计算电商商品s的可信度βs,k:
其中,βk=|Ori(ok,1)-Ori(ok,2)|;其中,m表示主题词的个数。
在一个实施例中,还包括:
步骤S6,计算电商商家t的可信度Bt:
其中,S表示电商商家t的电商商品的数量。
在一个实施例中,还包括:
步骤S7,计算电商平台的可信度A:
其中,T表示电商平台中电商商家的数量。
一种电商主体可信度评价系统,包括如下单元:
第一处理单元,用于从电商商品的客户评价中获取主题词和情感词共同出现的主题词-情感词对;
第二处理单元,用于从电商商品的广告中获取主题词和情感词共同出现的主题词-情感词对;
第三处理单元,用于计算客户评价中主题词k的语义倾向度Ori(ok,1):
第四处理单元,用于计算广告中主题词k的语义倾向度Ori(ok,2):
第五处理单元,用于计算电商商品s的可信度βs,k:
其中,βk=|Ori(ok,1)-Ori(ok,2)|;其中,m表示主题词的个数。
在一个实施例中,还包括第六处理单元,用于计算电商商家t的可信度Bt:
其中,S表示电商商家t的电商商品的数量。
在一个实施例中,还包括第七处理单元,用于计算电商平台的可信度A:
其中,T表示电商平台中电商商家的数量。
本发明的有益效果是:
建立了有效的电子商务各主体评价体系,有助于为电子商务活动监管提供理论依据和数据支撑;有助于规范电商行业的有序发展;有助于降低广大顾客的电商商品信息收集成本。
【附图说明】
图1是本发明一种实施例的电商主体可信度评价方法的流程示意图。
【具体实施方式】
以下对发明的较佳实施例作进一步详细说明。
如图1所示,一种电商主体可信度评价方法,其特征是,包括如下步骤:
S1,建立电商商品信息数据库
利用网络爬虫手段,对指定的电子商务平台(网站)信息源进行信息采集,主要包括交易信息(交易主体、交易时间等)、商品信息(商品展示内容、商品属性信息等)、客户评价信息(评价对象、评价内容、评价时间等)。
对采集到的信息进行预处理:去除网页中的广告、图片、链接等无价值、无需关注的信息。
对所述商品信息进行提取,获取电商商品的广告并进行存储。
对客户评价信息进行提取,获取电商商品的客户评价文本数据并进行存储。
S2,建立客户评价数据库
S21,建立主题词库
S211,利用自然语言处理方法,对评价文本数据进行中文分词和词性标注(去掉停用词如“的”、“了”等),获得评价文本数据文件(包含有词性的分词结果),对其进行TF-IDF变换(TF全名TermFrequency,意为某个关键词在要处理的数据中出现的频率;IDF全名InverseDocumentFrequency,意为某个关键词在语料库中出现的频率):
其中,ni,j表示第i个词语ti在评价文本数据文件中出现的次数,dj表示第j个语料库,|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数目(即ni,j≠0的文件数目),如果该词语不在语料库中将导致分母为0,因此一般情况下使用1+|{j:ti∈dj}|进行平滑性处理。
S212,获得TFi,j和IDFi之后,计算TFIDF=TFi,j×IDFi
某一特定文件中的高频率词语,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。TF-IDF方法用于评估一个字词在待处理数据集中的重要程度。字词的重要程度随着它在待处理数据中出现的频率成正比增加,而随着它在语料库中出现的频率成反比下降。对于IDF的作用,主要是为了排除常用词的影响。因此,通过每个词的TFIDF的值,可以判断每个词在待处理数据中的重要程度(TFIDF越大,该词在待处理数据中的重要程度越高)若设定一个阈值,则可以选出所有TFIDF值大于阈值的词,从而组成关键词表。
S213,根据采用TF-IDF方法获得的关键词表,人工选定面向电商领域的关键主题词,从而获得主题词库。例如,物流、质量、品质、味道、价格、颜色等等描述电商商品的主题词。
S22,建立情感词库
可以将Hownet词典中的情感词典作为本实施例的情感词库。也可以将Hownet词典中的情感词典作为种子词典,利用相似性算法对该种子词典进行扩充,得到我们的情感词库。
相似性算法如下:
其中,Sem(word1,word2)表示两个词的相似性,S(word1,word2)表示两个词在语义空间上的距离(语义距离),两个词在语义空间上的距离越大,相似性越低,a是一个自定义的参数,一方面防止Sem计算公式出现分母为0的情况,另一方面将语义空间上的距离映射到相似性为[0,1]的范围中。语义距离S(word1,word2)可以采用多种算法计算,在本实施例中采用了SUMO层次树:在SUMO层次树中,将每个词作为树的节点,通过词语之间的层次关系构建成树,定义两个词语的语义距离为连接它们的最短路径上的所有边的权值之和。
S23,建立语义相关集
根据上述的主题词库与情感词库,计算主题词与情感词的共现频率(即在同一个评价文本数据文件中,某个主题词与情感词共同出现的频率,例如:物流-很快,味道-很好);取共现频率高于阀值α(α可以调整)的主题词-情感词对(如物流-很快,味道-很好等)组成语义相关集。具体计算方法类似于TF的计算,即统计主题词与情感词共同出现的次数,除以待处理数据中的所有主题词与情感词搭配的数量,即可得到主题词与情感词的共现频率。
S3,建立商品广告数据库
与建立客户评价数据库相类似,最终从电商商品的广告中获取主题词和情感词共同出现的主题词-情感词对。
S4,计算客户评价中电商平台中电商商家t的某个电商商品s主题词k的语义倾向度Ori(ok,1):
S5,计算广告中上述主题词k的语义倾向度Ori(ok,2):
S6,计算电商商品s的可信度βs,k:
其中,βk=|Ori(ok,1)-Ori(ok,2)|;其中,m表示电商商品s中主题词的个数。
步骤S7,计算电商商家t的可信度Bt:
其中,S表示电商商家t的电商商品的数量。
步骤S8,计算电商平台的可信度A:
其中,T表示电商平台中电商商家的数量。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明由所提交的权利要求书确定的专利保护范围。
Claims (6)
1.一种电商主体可信度评价方法,其特征是,包括如下步骤:
S1,从电商商品的客户评价中获取主题词和情感词共同出现的主题词-情感词对;
S2,从电商商品的广告中获取主题词和情感词共同出现的主题词-情感词对;
S3,计算客户评价中主题词k的语义倾向度Ori(ok,1):
S4,计算广告中主题词k的语义倾向度Ori(ok,2):
S5,计算电商商品s的可信度βs,k:
其中,βk=|Ori(ok,1)-Ori(ok,2)|;其中,m表示主题词的个数。
2.如权利要求1所述的电商主体可信度评价方法,其特征是,还包括:
步骤S6,计算电商商家t的可信度Bt:
其中,S表示电商商家t的电商商品的数量。
3.如权利要求2所述的电商主体可信度评价方法,其特征是,还包括:
步骤S7,计算电商平台的可信度A:
其中,T表示电商平台中电商商家的数量。
4.一种电商主体可信度评价系统,其特征是,包括如下单元:
第一处理单元,用于从电商商品的客户评价中获取主题词和情感词共同出现的主题词-情感词对;
第二处理单元,用于从电商商品的广告中获取主题词和情感词共同出现的主题词-情感词对;
第三处理单元,用于计算客户评价中主题词k的语义倾向度Ori(ok,1):
第四处理单元,用于计算广告中主题词k的语义倾向度Ori(ok,2):
第五处理单元,用于计算电商商品s的可信度βs,k:
其中,βk=|Ori(ok,1)-Ori(ok,2)|;其中,m表示主题词的个数。
5.如权利要求4所述的电商主体可信度评价系统,其特征是,还包括第六处理单元,用于计算电商商家t的可信度Bt:
其中,S表示电商商家t的电商商品的数量。
6.如权利要求5所述的电商主体可信度评价系统,其特征是,还包括第七处理单元,用于计算电商平台的可信度A:
其中,T表示电商平台中电商商家的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510705829.6A CN105260899A (zh) | 2015-10-27 | 2015-10-27 | 一种电商主体可信度评价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510705829.6A CN105260899A (zh) | 2015-10-27 | 2015-10-27 | 一种电商主体可信度评价方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105260899A true CN105260899A (zh) | 2016-01-20 |
Family
ID=55100574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510705829.6A Pending CN105260899A (zh) | 2015-10-27 | 2015-10-27 | 一种电商主体可信度评价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105260899A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291689A (zh) * | 2017-05-31 | 2017-10-24 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据中文网络评论语句主题语义倾向的分析方法 |
CN107292221A (zh) * | 2016-04-01 | 2017-10-24 | 北京搜狗科技发展有限公司 | 一种轨迹处理方法和装置、一种用于轨迹处理的装置 |
CN107315732A (zh) * | 2016-04-27 | 2017-11-03 | 科大讯飞股份有限公司 | 一种中式英语的发现方法及系统 |
WO2018068603A1 (zh) * | 2016-10-10 | 2018-04-19 | 香港纺织及成衣研发中心有限公司 | 基于大数据技术的供应链管理决策支持系统 |
CN109035074A (zh) * | 2018-06-29 | 2018-12-18 | 贵安新区搜床科技有限公司 | 一种物业状态管理方法、终端设备及计算机可读存储介质 |
CN109308628A (zh) * | 2017-07-28 | 2019-02-05 | 王春刚 | 产品的信任评估方法和装置 |
CN110110033A (zh) * | 2018-01-29 | 2019-08-09 | 清华大学 | 信息提取方法、装置、计算机设备和存储介质 |
CN113535296A (zh) * | 2021-06-22 | 2021-10-22 | 杭州隆埠科技有限公司 | 内容组织、显示方法及相应的设备 |
CN114626885A (zh) * | 2022-03-17 | 2022-06-14 | 华院分析技术(上海)有限公司 | 一种基于大数据的零售管理方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593204A (zh) * | 2009-06-05 | 2009-12-02 | 北京大学 | 一种基于新闻评论网页的情感倾向性分析系统 |
CN103279460A (zh) * | 2013-05-24 | 2013-09-04 | 北京尚友通达信息技术有限公司 | 网购评论的分析处理方法 |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
US20140229291A1 (en) * | 2011-03-08 | 2014-08-14 | Facebook, Inc. | Selecting social endorsement information for an advertisement for display to a viewing user |
-
2015
- 2015-10-27 CN CN201510705829.6A patent/CN105260899A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593204A (zh) * | 2009-06-05 | 2009-12-02 | 北京大学 | 一种基于新闻评论网页的情感倾向性分析系统 |
US20140229291A1 (en) * | 2011-03-08 | 2014-08-14 | Facebook, Inc. | Selecting social endorsement information for an advertisement for display to a viewing user |
CN103679462A (zh) * | 2012-08-31 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 一种评论数据处理方法和装置、一种搜索方法和系统 |
CN103279460A (zh) * | 2013-05-24 | 2013-09-04 | 北京尚友通达信息技术有限公司 | 网购评论的分析处理方法 |
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292221A (zh) * | 2016-04-01 | 2017-10-24 | 北京搜狗科技发展有限公司 | 一种轨迹处理方法和装置、一种用于轨迹处理的装置 |
CN107292221B (zh) * | 2016-04-01 | 2022-09-30 | 北京搜狗科技发展有限公司 | 一种轨迹处理方法和装置、一种用于轨迹处理的装置 |
CN107315732B (zh) * | 2016-04-27 | 2021-03-23 | 科大讯飞股份有限公司 | 一种中式英语的发现方法及系统 |
CN107315732A (zh) * | 2016-04-27 | 2017-11-03 | 科大讯飞股份有限公司 | 一种中式英语的发现方法及系统 |
WO2018068603A1 (zh) * | 2016-10-10 | 2018-04-19 | 香港纺织及成衣研发中心有限公司 | 基于大数据技术的供应链管理决策支持系统 |
CN107291689A (zh) * | 2017-05-31 | 2017-10-24 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据中文网络评论语句主题语义倾向的分析方法 |
CN109308628A (zh) * | 2017-07-28 | 2019-02-05 | 王春刚 | 产品的信任评估方法和装置 |
CN110110033A (zh) * | 2018-01-29 | 2019-08-09 | 清华大学 | 信息提取方法、装置、计算机设备和存储介质 |
CN109035074A (zh) * | 2018-06-29 | 2018-12-18 | 贵安新区搜床科技有限公司 | 一种物业状态管理方法、终端设备及计算机可读存储介质 |
CN113535296A (zh) * | 2021-06-22 | 2021-10-22 | 杭州隆埠科技有限公司 | 内容组织、显示方法及相应的设备 |
CN113535296B (zh) * | 2021-06-22 | 2023-08-29 | 杭州隆埠科技有限公司 | 内容组织、显示方法及相应的设备 |
CN114626885A (zh) * | 2022-03-17 | 2022-06-14 | 华院分析技术(上海)有限公司 | 一种基于大数据的零售管理方法和系统 |
CN114626885B (zh) * | 2022-03-17 | 2022-11-15 | 华院分析技术(上海)有限公司 | 一种基于大数据的零售管理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105260899A (zh) | 一种电商主体可信度评价方法及系统 | |
CN105117428B (zh) | 一种基于词语对齐模型的web评论情感分析方法 | |
JP6416150B2 (ja) | 検索方法、検索システム及びコンピュータプログラム | |
CN104156450B (zh) | 一种基于用户网络数据的物品信息推荐方法 | |
CN105468605B (zh) | 一种实体信息图谱生成方法及装置 | |
Nagamma et al. | An improved sentiment analysis of online movie reviews based on clustering for box-office prediction | |
Bellaachia et al. | Ne-rank: A novel graph-based keyphrase extraction in twitter | |
CN104484431B (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN103838789A (zh) | 一种文本相似度计算方法 | |
US20180293294A1 (en) | Similar Term Aggregation Method and Apparatus | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
US20200004792A1 (en) | Automated website data collection method | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
CN103729359A (zh) | 一种推荐搜索词的方法及系统 | |
Devika et al. | A novel approach for book recommendation systems | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN105023178B (zh) | 一种基于本体的电子商务推荐方法 | |
CN110334268B (zh) | 一种区块链项目热词生成方法以及装置 | |
Nithish et al. | An Ontology based Sentiment Analysis for mobile products using tweets | |
Rodrigues et al. | Sentiment analysis of real time Twitter data using big data approach | |
Sangeetha et al. | Aspects based opinion mining from online reviews for product recommendation | |
CN104331396A (zh) | 一种智能识别广告的方法 | |
Verma et al. | Web mining: opinion and feedback analysis for educational institutions | |
Sivaramakrishnan et al. | Validating effective resume based on employer’s interest with recommendation system | |
Das et al. | Opinion based on polarity and clustering for product feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information |
Address after: 518055 Guangdong city of Shenzhen province Nanshan District Xili of Tsinghua Applicant after: Graduate School at Shenzhen, Tsinghua University Address before: 518000 Guangdong city in Shenzhen Province, Nanshan District City Xili Shenzhen Tsinghua Campus of Tsinghua University Applicant before: Graduate School at Shenzhen, Tsinghua University |
|
COR | Change of bibliographic data | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160120 |