CN112801384A - 一种商品质量评估与预测方法、系统、介质、设备 - Google Patents
一种商品质量评估与预测方法、系统、介质、设备 Download PDFInfo
- Publication number
- CN112801384A CN112801384A CN202110149306.3A CN202110149306A CN112801384A CN 112801384 A CN112801384 A CN 112801384A CN 202110149306 A CN202110149306 A CN 202110149306A CN 112801384 A CN112801384 A CN 112801384A
- Authority
- CN
- China
- Prior art keywords
- comment
- commodity
- quality
- comments
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于电子商务技术、数据挖掘和人工智能领域,公开了一种商品质量评估与预测方法、系统、介质、设备,采集特定类型商品或特定商品的相关评论集,并进行初步标记,对采集的评论数据进行预处理;基于分词系统、极性词典、产品特征词典和建立的规则库实现评论内容及外部特征的提取;结合评论特征集与特征项出现的频率、商品流行度、用户偏好和实时需求,实现各评论特征的权重计算;利用开发的评论质量评估系统及评论质量评估模型,实现基于评论的商品质量评估与预测与质量预测,并对商品质量评估与预测结果进行在线展示。本发明可以借助评论数据实现商品质量的实时评估与预测,为商品利益相关者提供商品质量信息。
Description
技术领域
本发明属于电子商务技术、数据挖掘和人工智能领域,尤其涉及一种商品质量评估与预测方法、系统、介质、设备。
背景技术
目前,在线零售商如Amazon.com、Taobao.com和Dell.com等为消费者提供了分享其购物过程及商品消费体验的平台,消费者可以对商品质量、购买过程以及使用体验等以评论形式发布在平台上,也可以对其他人发布的相关评论进行有用性投票甚至回复。而评论管理系统根据评论的发布时间、发布者身份及等级、“有用性”投票、得分等实现评论排序。许多消费者在做出购买决策之前都会浏览评论进而减少不确定性。
不同批次的产品,其质量可能存在较大的差异。同时,部分生产商及销售商在不同的时间段内销售的产品,可能存在质量上的差异。比如,为了获得好的销售数量及更大的利润,有些商家前期销售的产品质量比较好,而后期随着销售量以及基础信誉度的提升,销售产品存在质量较差的问题。因此,通过用户评论挖掘商品质量以及实现质量的预测,具有较强的现实意义。
用户发布评论的时间往往是在购买商品甚至是试用或使用商品之后,然而购买、试用或者使用商品后何时发布评论难以准确地确定。
通过上述分析,现有技术存在的问题及缺陷为:(1)用户发布评论的时间往往是在购买商品甚至是试用或使用商品之后,然而购买、试用或者使用商品后何时发布评论难以准确地确定。(2)用户发表的评论数量很多,通过人工浏览从而把握数量较大评论的观点,工作量很大。(3)不同评论者的经验、立场、权威性、可信性等方面,一般的消费者或者质量监督人员难以准确把握,且数量巨大,人工方式辨别与评估不太可能。
解决以上问题及缺陷的难度为:现有电子平台产品的质量评估,多借助给定标签特征的评价,不能有效融合评论者信息与评论者发表的评论实现基于评论的商品质量评估与预测,同时不能实现基于评论者信息、评论信息及标签信息实现商品的质量预测。
解决以上问题及缺陷的意义为:通过融合评论者信息、评论信息及标签信息等实现商品的质量评估与预测,减少人为因素干扰,可以用于电商平台的商品质量评估与预测、质量预警、商品质量投诉、新产品研发等,具有非常好的现实意义。
发明内容
针对现有技术存在的问题,本发明提供了一种商品质量评估与预测方法、系统、介质、设备。
本发明是这样实现的,一种商品质量评估与预测方法,所述商品质量评估与预测方法,重点包括以下步骤:
步骤一,通过电子商务平台后台数据库提供的接口或网络爬虫采集待相关类型商品或特定商品的评论集,并按照评论排序系统的要求进行处理。
步骤二,基于分词系统、极性词典、产品特征词典以及规则实现评论内容及外部特征的提取。
步骤三,结合评论特征集与特征项出现的频率和用户要求,实现各评论特征的权重计算。
步骤四,结合用户要求,基于评论质量评估模型实现基于评论的商品质量评估与预测与质量预测,并将商品质量评估与预测结果进行展示。
进一步,步骤一中,所述通过电子商务平台后台数据库提供的接口或网络爬虫采集待相关类型商品或特定商品的评论集,并按照评论排序系统的要求进行处理的方法,包括:
(1)采集评论来自单个或者多个数据源的评论,并对评论从发布时间、文本长度、评论来源、发表者的刻面进行标注;
(2)所采集评论在格式上与评论质量评估与管理系统的要求不一致,则需要对评论进行格式或者模式级的转换,形成统一的格式。
进一步,步骤二中,所述基于分词系统、极性词典、产品特征词典以及规则实现评论内容及外部特征的提取的方法,包括:
(1)借助分词工具如Free ICTCLAS并使用开发的分词软件,对步骤一的结果进行分词,在商品特征集的基础上识别出各评论所关注商品的主要特征,采用向量空间模型对各评论进行描述;
(2)借助近义词典识别出来评论中的近义词并进行合并;
(3)基于极性词典和规则集,识别评论者在商品各特征项上的值或极性;
(4)借助建立的评论特征描述模型,实现评论涉及商品特征以及使用体验的描述。
进一步,步骤二中,所述对评论内容的一致性评估进行分析与建模的方法,包括:
在线评论内容的一致性是指评论者发布的关于被评论对象的特征或状态在特定的评论集中具体的一个或者多个特征项上取值(或观点)的一致程度。在线商品评论内容的一致性,往往是指消费者发布的评论关于商品价格、尺码、服务、物流、质量、颜色以及使用质量等方面的一致性。
任意两条评论(一对评论)内容的一致性、具体特征值取值的一致性、单条评论在评论集的一致性计算模型,包括:
(1)一对评论的一致性:
对象r2涉及的信息特征可以表示为:
其中,和分别表示评论r1和r2共同包含的信息项集合中的第s个信息项,分别表示信息项is在评论r1和r2中的取值,表示信息项is在评论r1和r2取值的一致性。Con(r1,r2)取决于文本内容中各信息项is的一致性
根据信息项类型的不同,信息项的可以分为数字类型、字符等类型。若信息项is为数字类型,则一致性计算:
(2)数据特征项值的一致性:
设Rc为对象c关联的评论集合:
(3)单条评论内容的一致性度量:
设评论r能提供关于对象c的信息可用信息项表示为:
进一步,步骤三中,所述结合评论特征集与特征项出现的频率、用户要求等,实现各评论特征权重计算的方法,包括:
假设待评估的评论(集)来自M个数据源(站点),X和Y为其中任意两个。针对用户的某个请求各数据源返回的评论集为T,即T=TX∪TY∪...∪TM,TX为从数据源X返回的评论集,TXa为从数据源X返回的任一个评论a,|a|为TXa中包含的特征项总数量(势)。用特征项来表示评论得到评论TXa的描述形式为:
TXa=<tXa1,tXa2,...,tXai,...,tXa|a|>;
其中,tXai代表评论TXa中第i个特征项,1≤i≤|a|。
设fXai为评论TXa中特征项tXai出现的次数(频率),FXa为评论TXa中特征项的频率向量:
FXa=<fXa1,fXa2,...,fXai,...,fXa|a|>;
采用TF*PDF来计算特征项在多个评论中的权重,并赋予表达同一主题的特征项以更高的权重,即:
由此计算出个特征项的重要性;当用户在遍历评论集时,若有特殊要求,可以通过人工的方式对相关特征项赋予一定的权重。
进一步,步骤四中,所述商品质量评估与预测模型的构建方法,包括:
假定某商品p涉及的评论者集合为U,涉及到M条评论(即针对商品p评论者集U发布了M条评论)。设评论者U中,有K个评论者在时间段[Γs,Γe]发布了涉及到信息项ti的N条评论,uj表示编号j的评论者。其中,Γs表示开始时间点,Γe表示结束时间点。即涉及到的N条评论其发布时间介于[Γs,Γe]。同时,设Pon(uj,ti)表示评论者uj在信息项ti上的满意度得分,1≤j≤K,uj∈U;评论者集U对该商品在信息项ti的满意度定义为Ma(U,ti),则:
通过公式可以计算出评论者(全部或者部分)对该商品在各特征项(如价格、尺码、服务、物流、质量、颜色以及使用体验等)的满意程度。如果需要评估该商品在某些特征(方面)或者整体的质量情况,则应该综合考虑各特征项。设:
(1)评论者U关注的特征项集合为TU,涉及的特征项总数为Z,|TU|=Z;
(2)ti为其关注的编号i的特征项,1≤i≤Z,特征项ti的重要性为wti;
(3)评论者U对该商品在特征项TU上的满意程度为Ma(U,T),在不引起混淆的情况下,直接用T代替TU。则:
其中,|U|和|T|分别表示评论者集U和特征项集T的势,计算出相关评论者(集)在某一个、多个甚至是全部特征集上的综合满意度情况。显然,这里特征项ti的重要性wti的值的设定比较重要。
假定某商品p涉及的评论者集合为U,涉及的评论按照时间排列为:
进一步,步骤四中,评论使用人员可以选择按照评论发布时间、文本长度的方式进行排序,亦可选择所关注商品的价格、颜色、质地;
评论排序系统根据用户的要求,在考虑评论一致性、完整性、时效性的质量维度的情况下,计算各评论得分,完成评论的质量评估。
本发明的另一目的在于提供一种应用所述商品质量评估与预测方法的商品质量评估与预测系统,所述商品质量评估与预测系统包括:
评论集采集模块,用于通过电子商务平台后台数据库提供的接口或网络爬虫采集待相关类型商品或特定商品的评论集,并按照评论排序系统的要求进行处理;
外部特征提取模块,用于基于分词系统、极性词典、产品特征词典以及规则实现评论内容及外部特征的提取;
权重计算模块,用于结合评论特征集与特征项出现的频率和用户要求,实现各评论特征的权重计算;
商品质量评估与预测模型构建模块,用于构建基于滑动时间窗口评论的商品质量评估与预测模型;
商品质量评估与预测与质量预测模块,用于结合用户要求,基于评论质量评估模型实现基于评论的商品质量评估与预测与质量预测;
结果展示模块,用于将商品质量评估与预测结果进行展示。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的商品质量评估与预测方法。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述的商品质量评估与预测方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的商品质量评估与预测方法,提出了基于滑动时间窗口评论的商品质量评估与预测方法,通过对商品相关的评论进行分析,挖掘出评论集所涉及的商品特征,在建立的基于在线评论商品质量评估与预测模型基础上,评估用户(群)对相关商品在某些方面或者整体的质量满意度。基于大量评论训练,在领域专家及自动识别基础上,识别出了商品相关的许多特征项并对质量评估模型进行了优化,并已将该模型用于商品质量的实时监控系统中。
本发明在通过评论评估商品质量情况之前,可以首先对部分低质量评论进行过滤。实验表明,基于其它多种不同商品相关的评论,也可以发掘出这些商品在某个时间段以及较长时间内的质量变化情况,从而为商品利益相关者提供宝贵的信息。
附图说明
图1是本发明实施例提供的商品质量评估与预测方法流程图。
图2是本发明实施例提供的商品质量评估与预测系统结构框图;
图中:1、评论集采集模块;2、外部特征提取模块;3、权重计算模块;4、商品质量评估与预测模型构建模块;5、商品质量评估与预测与质量预测模块;6、结果展示模块。
图3是本发明实施例提供的商品质量评估与预测系统原理图。
图4是本发明实施例提供的基于时间滑动窗口的商品质量评估与预测结果示意图。
图5是本发明实施例提供的基于时间滑动窗口的商品质量总体评价示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种商品质量评估与预测方法、系统、介质、设备,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的商品质量评估与预测方法包括以下步骤:
S101,通过电商平台给定的接口或借助网络爬虫,采集相关类型商品或特定商品的相关评论集。
S102,对采集评论及相关数据进行初步标记,然后基于规则和所开发算法对采集评论数据进行预处理。
S103,基于分词系统、极性词典、产品特征词典和建立的规则库,实现评论数据内容及外部特征的提取。
S104,结合评论特征集与特征项出现的频率、商品流行度、用户偏好和要求,实现各评论特征的权重计算。
S105,实现基于评论的商品质量评估与预测与质量预测,以及可视化展示
S106,应用建立的商品质量评估与预测模型和方法,实现相关电商平台实现商品质量的评估与预测。
如图2所示,本发明实施提供的商品质量评估与预测系统包括:
评论集采集模块1,用于通过电子商务平台后台数据库提供的接口或网络爬虫采集待相关类型商品或特定商品的评论集,并按照评论排序系统的要求进行处理;
外部特征提取模块2,用于基于分词系统、极性词典、产品特征词典以及规则实现评论内容及外部特征的提取;
权重计算模块3,用于结合评论特征集与特征项出现的频率和用户要求,实现各评论特征的权重计算;
商品质量评估与预测模型构建模块4,用于构建基于滑动时间窗口评论的商品质量评估与预测模型;
商品质量评估与预测与质量预测模块5,用于结合用户要求,基于评论质量评估模型实现基于评论的商品质量评估与预测与质量预测;
结果展示模块6,用于将商品质量评估与预测结果进行展示。
本发明实施例提供的商品质量评估与预测系统原理图如图3所示。
下面结合实施例对本发明的技术方案作进一步的描述。
实施例1
(1)通过电子商务平台后台数据库提供的接口或网络爬虫等采集待相关类型商品或者特定商品的评论集,并按照评论排序系统的要求进行处理(在格式、模式级进行转换),具体步骤为:
Step 1:采集评论来自单个或者多个数据源的评论,并对评论从发布时间、文本长度、评论来源、发表者等刻面进行标注;
Step 2:所采集评论在格式上与评论质量评估与管理系统的要求不一致,则需要对评论进行格式或者模式级的转换,形成统一的格式。
(2)基于分词系统、极性词典、产品特征词典、规则等实现评论内容及外部特征的提取。具体步骤为:
Step 1:借助Free ICTCLAS对步骤(1)的结果进行分词,在商品特征集的基础上,识别出各评论所关注商品的主要特征,采用向量空间模型对各评论进行描述;
Step 2:借助近义词典识别出来评论中的近义词并进行合并;
Step 3:基于极性词典和规则集,识别评论者在商品各特征项上的值或极性;
Step 4:借助建立的评论特征描述模型,实现评论涉及商品特征以及使用体验的描述。
(3)结合评论特征集与特征项出现的频率、用户要求等,实现各评论特征的权重计算。权重计算为:
假设待评估的评论(集)来自M个数据源(站点),X和Y为其中任意两个。针对用户的某个请求各数据源返回的评论集为T,即T=TX∪TY∪...∪TM,TX为从数据源X返回的评论集,TXa为从数据源X返回的任一个评论a,|a|为TXa中包含的特征项总数量(势)。本发明用特征项来表示评论得到评论TXa的描述形式为:
TXa=<tXa1,tXa2,...,tXai,...,tXa|a|>;
其中,tXai代表评论TXa中第i个特征项,1≤i≤|a|。设fXai为评论TXa中特征项tXai出现的次数(频率),FXa为评论TXa中特征项的频率向量:
FXa=<fXa1,fXa2,...,fXai,...,fXa|a|>;
在这里,本发明采用TF*PDF来计算特征项在多个评论中的权重,并赋予表达同一主题的特征项以更高的权重,即:
通过上面的方法计算出个特征项的重要性。当然,当用户在遍历评论集时,若有特殊要求,可以通过人工的方式对相关特征项赋予一定的权重。
(4)结合用户要求,基于评论质量评估模型实现评论质量评估;
评论使用人员可以选择按照评论发布时间、文本长度等方式进行排序,也可以选择所关注商品的主要方面,如价格、颜色、质地等方面。
(5)基于评论的商品质量评估与预测与质量预测;
评论排序系统根据用户的要求,在考虑评论一致性、完整性、时效性等质量维度的情况下,计算各评论得分,完成评论的质量评估。
实施例2
(1)相关评论质量维的评估模型
评论质量的高低,与评论内容质量、用户需求、评论服务质量相关。而评论内容质量又与评论内容的一致性、完整性、可信性、时效性等相关。下面仅对评论内容的一致性评估进行分析与建模。
在线评论内容的一致性,是指评论者发布的关于被评论对象的特征或状态在特定的评论集中具体的一个或者多个特征项上取值(或观点)的一致程度。在线商品评论内容的一致性,往往是指消费者发布的评论关于商品价格、尺码、服务、物流、质量、颜色以及使用质量等方面的一致性。下面分别给出任意两条评论(一对评论)内容的一致性、具体特征值取值的一致性、单条评论在评论集的一致性计算模型。
一对评论的一致性:设两条评论r1和r2提供的信息可以用信息项集合和表示。不失一般性,设评论r1涉及的信息特征可以表示为对象r2涉及的信息特征可以表示为令为对象r1和r2涉及的信息项交集,即其中和分别表示评论r1和r2包括的信息项数量,即信息项集合和的势;表示集合的势,用S表示,即函数Val(i)表示信息项i的取值,Con(r1,r2)为评论r1和r2的一致性,则其中和分别表示评论r1和r2共同包含的信息项集合中的第s个信息项,分别表示信息项is在评论r1和r2中的取值,表示信息项is在评论r1和r2取值的一致性。Con(r1,r2)取决于文本内容中各信息项is的一致性根据信息项类型的不同,信息项的可以分为数字类型、字符等类型。若信息项is为数字类型,则一致性计算其中函数和分别返回两个传递参数的较小值和较大值。如信息项is为字符类型,则其中表示两个字符间的距离。
数据特征项值的一致性:设Rc为对象c关联的评论集合,|Rc|为评论集合中评论的总数;表示评论rk的涉及的信息项集合,这里1≤k≤|Rc|,为集合的势;设评论集合Rc覆盖的信息项可以用信息项集合表示,并设其中为的势;设评论集Rc包含信息项的评论有Z条,则评论中关于对象c的信息项的内容一致性定义为其中为评论集中涉及的信息项取值的均值。标准差越大说明各条评论实例在信息项上的体验差别越大,各评论相关评论者在这个信息项上的认识越不一致。
单条评论内容的一致性度量:设评论r能提供关于对象c的信息可用信息项表示为信息项在评论集Rc中的均值为则评论r的一致性定义为该评论内容各信息项取值与评论集合Rc中相应信息项的均值的余弦夹角,用Con(r)表示,
(2)基于滑动时间窗口评论的商品质量评估与预测模型
为了借助评论来评价商品在某个特征方面以及整体的质量,本发明假定某商品p涉及的评论者集合为U,涉及到M条评论(即针对商品p评论者集U发布了M条评论)。设评论者U中,有K个评论者在时间段[Γs,Γe]发布了涉及到信息项ti的N条评论,uj表示编号j的评论者。其中,Γs表示开始时间点,Γe表示结束时间点。即涉及到的N条评论其发布时间介于[Γs,Γe]。同时,设Pon(uj,ti)表示评论者uj在信息项ti上的满意度得分,1≤j≤K,uj∈U;评论者集U对该商品在信息项ti的满意度定义为Ma(U,ti),则:
通过公式可以计算出评论者(全部或者部分)对该商品在各特征项(如价格、尺码、服务、物流、质量、颜色以及使用体验等)的满意程度。如果需要评估该商品在某些特征(方面)或者整体的质量情况,则应该综合考虑各特征项。设:
(1)评论者U关注的特征项集合为T U,涉及的特征项总数为Z,|TU|=Z;
(2)ti为其关注的编号i的特征项,1≤i≤Z,特征项ti的重要性为wti;
(3)评论者U对该商品在特征项TU上的满意程度为Ma(U,T),在不引起混淆的情况下,直接用T代替TU。
则:
其中,|U|和|T|分别表示评论者集U和特征项集T的势。通过公式4.11可以计算出相关评论者(集)在某一个、多个甚至是全部特征集上的综合满意度情况。显然,这里特征项ti的重要性wti的值的设定比较重要。
本发明假定某商品p涉及的评论者集合为U,涉及的评论按照时间排列为函数用于求的发布时间。这里比大,即评论先于评论发布。设滑动窗口宽度为ω,滑动步长为υ,则可以计算出任意连续时间段(如[Γq,Γq+ω]、[Γq+υ,Γq+υ+ω]、[Γq+υ*n,Γq+υ*n+ω]等)内相关商品在某些特征项上的质量,从而观测商品质量的变化。
(3)实验结果
通过对一种在2019年10月中旬上架的商品(编号为P#A04-N)在2019年11月01日到2019年12月15日45天的时间里发布的近3000条评论进行识别与处理,特别对该商品在款式(是否新颖)、做工(是否精细)和尺码(是否合适)三个方面进行了质量评估(时间滑动窗口宽度为1天)得到的结果如图4所示。
图4中,FT_01、FT_02和FT_03分别表示该商品在款式、尺码和做工三个方面的质量情况。通过图4可以发现,用户评论中对商品款式的评价比较,且前后比较稳定;用户对该商品的尺码(质量)的满意度方面,后期评论显示总体略有下降;对该商品的做工方面,满意度在下降。在评论时间滑动窗口宽度为2天以及3天的情况下,得到的商品质量评估与预测结果相对于宽度为1天的情况下,曲线相对平稳(相应的结果省略了)。
在只考虑款式、尺码和做工这三个特征(且三个特征的权重分别设置为0.4、0.3和0.3)情况下,得到该商品在这段时间的质量情况如图5所示。
通过图5可以发现,基于评论发布时间滑动窗口的数据质量评价总体来说有所降低。当然,在考虑不同其它特征并赋予不同权重的情况下,计算得到的商品质量有所不同。在通过评论评估商品质量情况之前,可以首先对部分低质量评论进行过滤。基于其它多种不同商品相关的评论,也可以发掘出这些商品在某个时间段以及较长时间内的质量变化情况,从而为商品利益相关者提供宝贵的信息。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
该质量评估方案应用国内某知名电商平台,并取得了良好的效果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种商品质量评估与预测方法,其特征在于,所述商品质量评估与预测方法包括:
通过电子商务平台后台数据库提供的接口或网络爬虫采集相关类型商品或特定任一商品的评论集,并对采集的相关评论数据进行初步标记,然后基于规则和所开发程序实现评论数据进行预处理;
基于分词系统、极性词典、产品特征词典和规则实现评论内容及外部特征的提取;
结合评论特征集与特征项出现的频率、商品流行度、用户偏好和实时需求,实现各评论特征的权重计算;
利用开发的评论质量评估系统及评论质量评估模型,实现基于评论的商品质量评估与预测与质量预测,并对商品质量评估与预测结果进行在线展示。
2.如权利要求1所述的商品质量评估与预测方法,其特征在于,所述通过电子商务平台后台数据库提供的接口或网络爬虫采集待相关类型商品或特定任一商品的评论集,并按照评论排序系统的要求进行处理的方法,包括:
(1)采集来自单个或者多个数据源的评论,并对评论从发布时间、文本长度、评论来源、发表者特征信息(如等级、专业、年龄、最近发表评论频率等)方面进行标注;
(2)所采集评论在格式上与评论质量评估与管理系统的要求不一致时,则需要对评论进行格式或者模式的转换,形成统一的格式。
3.如权利要求1所述的商品质量评估与预测方法,其特征在于,所述基于分词系统、极性词典、产品特征词典以及规则实现评论内容及外部特征的提取的方法,包括:
(1)借助分词工具,结合所开发的分词和特征识别软件,对步骤一的结果进行分词,在商品特征集的基础上识别出各评论所关注商品的主要特征,采用向量空间模型对各评论进行描述;
(2)借助近义词典识别出来评论中的近义词并进行合并;
(3)基于极性词典和规则集,识别评论者在商品各特征项上的值或极性;
(4)借助建立的评论特征描述模型,实现评论涉及商品特征以及使用体验的描述。
4.如权利要求1所述的商品质量评估与预测方法,其特征在于,所述对评论内容的一致性评估进行分析与建模的方法,包括:在线评论内容的一致性是指评论者发布的关于被评论对象的特征或状态在特定的评论集中具体的一个或者多个特征项上取值或观点的一致程度;在线商品评论内容的一致性,往往是指消费者发布的评论关于商品价格、尺码、服务、物流、质量、颜色以及使用质量方面的一致性;
任意两条评论内容的一致性、具体特征值取值的一致性、单条评论在评论集的一致性计算模型,包括:
(1)一对评论的一致性:
对象r2涉及的信息特征可以表示为:
其中,和分别表示评论r1和r2共同包含的信息项集合中的第s个信息项,分别表示信息项is在评论r1和r2中的取值,表示信息项is在评论r1和r2取值的一致性;Con(r1,r2)取决于文本内容中各信息项is的一致性
根据信息项类型的不同,信息项的可以分为数字类型、字符类型;若信息项is为数字类型,则一致性计算:
(2)数据特征项值的一致性:
设Rc为对象c关联的评论集合:
(3)单条评论内容的一致性度量:
设评论r能提供关于对象c的信息可用信息项表示为:
5.如权利要求1所述的商品质量评估与预测方法,其特征在于,所述结合评论特征集与特征项出现的频率、用户要求等,实现各评论特征权重计算的方法,包括:
假设待评估的评论来自M个数据源,X和Y为其中任意两个;针对用户的某个请求各数据源返回的评论集为T,即T=TX∪TY∪...∪TM,TX为从数据源X返回的评论集,TXa为从数据源X返回的任一个评论a,|a|为TXa中包含的特征项总数量;用特征项来表示评论得到评论TXa的描述形式为:
TXa=<tXa1,tXa2,...,tXai,...,tXa|a|>;
其中,tXai代表评论TXa中第i个特征项,1≤i≤|a|;
设fXai为评论TXa中特征项tXai出现的次数,FXa为评论TXa中特征项的频率向量:
FXa=<fXa1,fXa2,...,fXai,...,fXa|a|>;
采用TF*PDF来计算特征项在多个评论中的权重,并赋予表达同一主题的特征项以更高的权重:
由此计算出个特征项的重要性;当用户在遍历评论集时,若有特殊要求,可以通过人工的方式对相关特征项赋予一定的权重。
6.如权利要求1所述的商品质量评估与预测方法,其特征在于,所述商品质量评估与预测模型的构建方法,包括:某商品p涉及的评论者集合为U,涉及到M条评论,即针对商品p评论者集U发布了M条评论;设评论者U中,有K个评论者在时间段[Γs,Γe]发布了涉及到信息项ti的N条评论,uj表示编号j的评论者;其中,Γs表示开始时间点,Γe表示结束时间点;即涉及到的N条评论其发布时间介于[Γs,Γe];同时,设Pon(uj,ti)表示评论者uj在信息项ti上的满意度得分,1≤j≤K,uj∈U;评论者集U对该商品在信息项ti的满意度定义为Ma(U,ti),则:
通过公式可以计算出评论者对该商品在各特征项的满意程度;如果需要评估该商品在某些特征或者整体的质量情况,则应该综合考虑各特征项;设:
(1)评论者U关注的特征项集合为TU,涉及的特征项总数为Z,|TU|=Z;
(2)ti为其关注的编号i的特征项,1≤i≤Z,特征项ti的重要性为wti;
(3)评论者U对该商品在特征项TU上的满意程度为Ma(U,T),在不引起混淆的情况下,直接用T代替TU;则:
其中,|U|和|T|分别表示评论者集U和特征项集T的势,计算出相关评论者在某一个、多个甚至是全部特征集上的综合满意度情况;显然,这里特征项ti的重要性wti的值的设定比较重要;
假定某商品p涉及的评论者集合为U,涉及的评论按照时间排列为:
7.如权利要求1所述的商品质量评估与预测方法,其特征在于,步骤四中,评论使用人员可以选择按照评论发布时间、文本长度的方式进行排序,亦可选择所关注商品的价格、颜色、质地;
评论排序系统根据用户的要求,在考虑评论一致性、完整性、时效性的质量维度的情况下,计算各评论得分,完成评论的质量评估。
8.一种应用如权利要求1~7任意一项所述的商品质量评估与预测方法的商品质量评估与预测系统,其特征在于,所述商品质量评估与预测系统包括:
评论集采集模块,用于通过电子商务平台后台数据库提供的接口或网络爬虫采集待相关类型商品或特定商品的评论集,并按照评论排序系统的要求进行处理;
外部特征提取模块,用于基于分词系统、极性词典、产品特征词典以及规则实现评论内容及外部特征的提取;
权重计算模块,用于结合评论特征集与特征项出现的频率和用户要求,实现各评论特征的权重计算;
商品质量评估与预测模型构建模块,用于构建基于滑动时间窗口评论的商品质量评估与预测模型;
商品质量评估与预测与质量预测模块,用于结合用户要求,基于评论质量评估模型实现基于评论的商品质量评估与预测与质量预测;
结果展示模块,用于将商品质量评估与预测结果进行展示。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求1~7任意一项所述的商品质量评估与预测方法。
10.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1~7任意一项所述的商品质量评估与预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110149306.3A CN112801384A (zh) | 2021-02-03 | 2021-02-03 | 一种商品质量评估与预测方法、系统、介质、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110149306.3A CN112801384A (zh) | 2021-02-03 | 2021-02-03 | 一种商品质量评估与预测方法、系统、介质、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112801384A true CN112801384A (zh) | 2021-05-14 |
Family
ID=75813906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110149306.3A Pending CN112801384A (zh) | 2021-02-03 | 2021-02-03 | 一种商品质量评估与预测方法、系统、介质、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801384A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116308684A (zh) * | 2023-05-18 | 2023-06-23 | 和元达信息科技有限公司 | 一种网购平台店铺信息推送方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102299916A (zh) * | 2010-06-25 | 2011-12-28 | 微软公司 | 社交组之间的产品会话 |
CN103020851A (zh) * | 2013-01-10 | 2013-04-03 | 山东地纬计算机软件有限公司 | 一种支持商品评论数据多维分析的度量计算方法 |
CN105760502A (zh) * | 2016-02-23 | 2016-07-13 | 常州普适信息科技有限公司 | 一种基于大数据文本挖掘的商品质量情感词典构建系统 |
CN107977798A (zh) * | 2017-12-21 | 2018-05-01 | 中国计量大学 | 一种电子商务产品质量的风险评价方法 |
CN108269125A (zh) * | 2018-01-15 | 2018-07-10 | 口碑(上海)信息技术有限公司 | 评论信息质量评估方法及系统、评论信息处理方法及系统 |
CN108491377A (zh) * | 2018-03-06 | 2018-09-04 | 中国计量大学 | 一种基于多维度信息融合的电商产品综合评分方法 |
CN111639247A (zh) * | 2019-03-01 | 2020-09-08 | 百度在线网络技术(北京)有限公司 | 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质 |
-
2021
- 2021-02-03 CN CN202110149306.3A patent/CN112801384A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102299916A (zh) * | 2010-06-25 | 2011-12-28 | 微软公司 | 社交组之间的产品会话 |
CN103020851A (zh) * | 2013-01-10 | 2013-04-03 | 山东地纬计算机软件有限公司 | 一种支持商品评论数据多维分析的度量计算方法 |
CN105760502A (zh) * | 2016-02-23 | 2016-07-13 | 常州普适信息科技有限公司 | 一种基于大数据文本挖掘的商品质量情感词典构建系统 |
CN107977798A (zh) * | 2017-12-21 | 2018-05-01 | 中国计量大学 | 一种电子商务产品质量的风险评价方法 |
CN108269125A (zh) * | 2018-01-15 | 2018-07-10 | 口碑(上海)信息技术有限公司 | 评论信息质量评估方法及系统、评论信息处理方法及系统 |
CN108491377A (zh) * | 2018-03-06 | 2018-09-04 | 中国计量大学 | 一种基于多维度信息融合的电商产品综合评分方法 |
CN111639247A (zh) * | 2019-03-01 | 2020-09-08 | 百度在线网络技术(北京)有限公司 | 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116308684A (zh) * | 2023-05-18 | 2023-06-23 | 和元达信息科技有限公司 | 一种网购平台店铺信息推送方法及系统 |
CN116308684B (zh) * | 2023-05-18 | 2023-08-11 | 和元达信息科技有限公司 | 一种网购平台店铺信息推送方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Artificial intelligence in business-to-business marketing: a bibliometric analysis of current research status, development and future directions | |
CN110222272B (zh) | 一种潜在客户挖掘与推荐方法 | |
CN108564414A (zh) | 基于线下行为的商品推荐方法和系统 | |
Bartosik-Purgat et al. | Big data analysis as a source of companies’ competitive advantage: A review | |
CN107403345A (zh) | 畅销商品预测方法及系统、存储介质及电子终端 | |
CN109872015A (zh) | 用于行为数据评估的方法及装置 | |
CN110580489B (zh) | 一种数据对象的分类系统、方法以及设备 | |
CN111949887A (zh) | 物品推荐方法、装置及计算机可读存储介质 | |
CN104517157A (zh) | 使用社交媒体在可承诺量系统中预测分析的方法和系统 | |
CN113946754A (zh) | 基于用户画像的权益推荐方法、装置、设备及存储介质 | |
CN115409577A (zh) | 基于用户行为及环境信息的智能货柜复购预测方法及系统 | |
CN113157752A (zh) | 一种基于用户画像和情境的科技资源推荐方法及系统 | |
CN111966888A (zh) | 融合外部数据的基于方面类别的可解释性推荐方法及系统 | |
Yudhistyra et al. | Using big data analytics for decision making: analyzing customer behavior using association rule mining in a gold, silver, and precious metal trading company in Indonesia | |
Fedorko et al. | Artificial intelligence in e-commerce: A literature review | |
CN114266443A (zh) | 数据评估方法和装置、电子设备、存储介质 | |
CN111666413A (zh) | 基于评论者可信赖度回归预测的商品评论推荐方法 | |
Kulshrestha et al. | Study for the prediction of E-commerce business market growth using machine learning algorithm | |
CN112801384A (zh) | 一种商品质量评估与预测方法、系统、介质、设备 | |
Dumitrache | E-Commerce applications ranking | |
CN113850654A (zh) | 物品推荐模型的训练方法、物品筛选方法、装置和设备 | |
Wang et al. | The application of factorization machines in user behavior prediction | |
CN109993566A (zh) | 一种预测产品目标数据的方法和装置 | |
CN109767299B (zh) | 需求信息提供方法及装置、存储介质及电子设备 | |
Chou et al. | The RFM Model Analysis for VIP Customer: A case study of golf clothing brand |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |