CN116109357A

CN116109357A - 一种汽车在线评论综合评分计算方法、系统及介质

Info

Publication number: CN116109357A
Application number: CN202211619907.7A
Authority: CN
Inventors: 黄浩
Original assignee: Kirin Software Co Ltd
Current assignee: Kirin Software Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-05-12

Abstract

本发明公开了一种汽车在线评论综合评分计算方法、系统及介质，本发明方法包括：获取从汽车论坛上抓取的用户信息和针对J项指标的评论信息；根据用户信息和针对J项指标的评论信息，获取任意的用户k针对目标车型i的指标j的情感分数

和信誉权重

并将情感分数

和信誉权重

相乘得到用户k针对目标车型i的指标j的评论信誉评分

再将所有K位用户针对目标车型i的所有J项指标的评论信誉评分进行权重聚合，从而得到目标车型i的综合评分

本发明能够实现汽车论坛上对各种网络评论的可信度建模与评价，使得用户无需花大量时间验证某条评论的可信度。

Description

一种汽车在线评论综合评分计算方法、系统及介质

技术领域

本发明涉及电子商务技术领域，具体涉及一种汽车在线评论综合评分计算方法、系统及介质。

背景技术

电子商务的迅速发展使得消费者习惯于通过已购买者公开的体验和评论考量是否购买某个意向商品。因此，在线产品评论会严重影响消费者的在线选购决策。但是目前的研究主要集中在基于在线评论的情感分析对产品进行排名，包括酒店、电影、电子产品、图书、股票等领域。用户对某个商品的有效评论可以提高意向购买者对商品的认知，从而提高商品信息的透明度。通过对网站Tripadvisor.com中在线酒店评论抽取出数据集，可以对其进行情感分析并设计酒店推荐系统，供用户查询。也可以通过分析在线评论中的情感词，将游客的情感偏好转化为基于情感层次的分布语言形式，进而进行基于在线评论的酒店选择量化。通过情感分析在每次评论中收集语言直觉模糊信息，并转换为语言直觉标准云，从而可以计算出每种产品的整体语言直觉标准云，最后基于直觉标准云可以设计一个集成的决策支持模型用于帮助客户在线选择理想的产品。汽车作为一种价格高昂、消费次数低的必需品，用户往往需要从各种信息渠道了解相关的信息。而阅读汽车网站的在线文本评论帮助做出选购决策是最简便和直接的方式之一。但是，现代信息社会数据的海量与爆炸式增长，使得各个网站包含了大量网络评论，充斥着各种虚假信息。因此，如何对各个网站上用户评论对某商品评论的信誉度评价进行综合，已成为一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种汽车在线评论综合评分计算方法、系统及介质，本发明能够实现汽车论坛上对各种网络评论的可信度建模与评价，使得用户无需花大量时间验证某条评论的可信度。

为了解决上述技术问题，本发明采用的技术方案为：

一种汽车在线评论综合评分计算方法，包括：

S101，获取从汽车论坛上抓取的用户信息和针对J项指标的评论信息；

S102，根据用户信息和针对J项指标的评论信息，获取任意的用户k针对目标车型i的指标j的情感分数

和信誉权重

并将情感分数

和信誉权重

相乘得到用户k针对目标车型i的指标j的评论信誉评分

可选地，步骤S102中获取任意的用户k针对目标车型i的指标j的情感分数

包括：针对任意的用户k、车型i以及J项指标中任意的指标j：提取用户k针对车型i的指标j的评论文本

以及星级评分

将用户k针对车型i的指标j的评论文本

利用Bert模型转换为用户k针对车型i的指标j的情感倾向度

将用户k针对车型i的指标j的星级评分

和情感倾向度

两者综合得到用户k针对车型i的指标j的情感分数

可选地，所述综合得到用户k针对车型i的指标j的情感分数

的函数表达式为：

上式中，

和

分别为用户k针对车型i的指标j的星级评分和情感倾向。

可选地，步骤S102中获取任意的用户k针对目标车型i的指标j的信誉权重

包括：

S201，针对任意的用户k和车型i：根据用户是否为认证车主来确定用户的车主认证权重I₁；根据用户的日行驶率和行驶里程确定用户的汽车使用权重I₂；根据用户的评论互动情况确定用户的互动指数权重I₃；将车主认证权重I₁、汽车使用权重I₂、互动指数权重I₃融合得到用户k针对车型i的可信度权重f_i ^k；

S202，计算用户k针对车型i的指标j的星级评分

和情感倾向度

之间的差异作为用户k针对车型i的指标j的可信度

将用户k针对车型i的可信度权重f_i ^k、用户k针对车型i的指标j的可信度

两者融合得到用户k针对车型i的指标j的信誉权重

可选地，步骤S201中将车主认证权重I1、汽车使用权重I2、互动指数权重I₃融合得到用户k针对车型i的可信度权重f_i ^k的函数表达式为：f_i ^k＝I₁+I₂+I₃。

可选地，步骤S202中计算用户k针对车型i的指标j的星级评分

和情感倾向度

之间的差异的函数表达式为：

上式中，A为星级评分

和情感倾向度

两者取值范围内的常数值，

表示用户k针对车型i的指标j的可信度。

可选地，步骤S102之后还包括：

S301，根据将用户划分的D个区域以及将评论时间跨度划分的T个时间段，分别将任意的用户k针对目标车型i的指标j的情感分数

和信誉权重

分解到各个区域d以及时间段t，得到任意的区域d和时间段t下用户k针对车型i的指标j的情感分数

和信誉权重

S302，针对任意的区域d和时间段t：将该区域d和时间段t下用户k针对车型i的指标j的情感分数

和信誉权重

相乘得到该区域d和时间段t下用户k针对车型i的指标j的评论信誉评分

再将所有K位用户针对目标车型i的所有J项指标的评论信誉评分进行权重聚合，从而得到该区域d和时间段t下目标车型i的综合评分

可选地，步骤S301中得到的信誉权重

为针对区域d和时间段t下用户k针对车型i的指标j的原始信誉权重进行归一化处理后的信誉权重。

此外，本发明还提供一种汽车在线评论综合评分计算系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述汽车在线评论综合评分计算方法。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行所述汽车在线评论综合评分计算方法。

和现有技术相比，本发明主要具有下述优点：本发明方法包括获取从汽车论坛上抓取的用户信息和针对J项指标的评论信息；根据用户信息和针对J项指标的评论信息，获取任意的用户k针对目标车型i的指标j的情感分数

和信誉权重

并将情感分数

和信誉权重

相乘得到用户k针对目标车型i的指标j的评论信誉评分

本发明通过信誉权重来对情感分数进行修正，能够实现汽车论坛上对各种网络评论的可信度建模与评价，使得用户无需花大量时间验证某条评论的可信度。

附图说明

图1为本发明实施例一方法的基本流程示意图。

图2为本发明实施例二方法的基本流程示意图。

具体实施方式

实施例一：

如图1所示，本实施例汽车在线评论综合评分计算方法包括：

和信誉权重

并将情感分数

和信誉权重

相乘得到用户k针对目标车型i的指标j的评论信誉评分

步骤S101中从汽车论坛上抓取的用户信息和针对J项指标的评论信息中共包含K个用户的用户信息，以及K个用户关于1个车型的J项指标的相关评论信息。其中，J项指标可以根据汽车论坛实际情况来进行确定，例如本实施例中包括空间、动力、控制、油耗、舒适性、外观、内饰、性价比共八项指标，即：J＝8。

步骤S102中，任意的用户k针对目标车型i的指标j的情感分数

可以直接是星级评分。但是，考虑到星级评分往往比较简单，不能准确、客观表达个人的情感分数，因此本实施例中采用了文字评价和星级评分两者结合的方式来获取情感分数。具体地，所有的K个用户关于车型i的指标j的评论文本可表示为：

所有的K个用户关于车型i的指标j的星级评分可表示为：

因此用户k针对车型i的指标j的评论文本可表示为

以及星级评分可表示为

评论文本

以及星级评分

从文字评价和星级评分两者结合的角度来表达了用户k针对车型i的指标j的情感分数。本实施例步骤S102中获取任意的用户k针对目标车型i的指标j的情感分数

以及星级评分

将用户k针对车型i的指标j的评论文本

利用Bert模型转换为用户k针对车型i的指标j的情感倾向度

将用户k针对车型i的指标j的星级评分

和情感倾向度

两者综合得到用户k针对车型i的指标j的情感分数

综合得到用户k针对车型i的指标j的情感分数

可以根据需要选择所需的综合方式，作为一种优选的实施方式，本实施例中综合得到用户k针对车型i的指标j的情感分数

的函数表达式为：

上式中，

和

分别为用户k针对车型i的指标j的星级评分和情感倾向。

需要说明的是，Bert模型是一种为不同的自然语言处理((Natural LanguageProcessing，NLP)任务提供支持的通用的新型语言模型，它基于谷歌2017年发布的Transformer架构，通过联合调节所有层中的双向Transformer来训练预训练深度双向表示，本实施例中仅仅涉及Bert模型的应用，不涉及Bert模型的改进，故对其具体实现在此不再详述。将用户k针对车型i的指标j的评论文本

利用Bert模型转换为用户k针对车型i的指标j的情感倾向度

后，情感倾向度

与星级评分

类似，从而实现了文本到得分的量化，且作为一种可选的实施方式，本实施例中情感倾向度

与星级评分

两者的取值范围都为{1，2，3，4，5}，毫无疑问，该量化取值方式可以根据实际需要来进行选择和设置。

本实施例步骤S102中获取任意的用户k针对目标车型i的指标j的信誉权重

包括：

S201，针对任意的用户k和车型i：根据用户是否为认证车主来确定用户的车主认证权重I₁；根据用户的日行驶率和行驶里程确定用户的汽车使用权重I2；根据用户的评论互动情况确定用户的互动指数权重I3；将车主认证权重I1、汽车使用权重I2、互动指数权重I3融合得到用户k针对车型i的可信度权重f_i ^k；

S202，计算用户k针对车型i的指标j的星级评分

和情感倾向度

之间的差异作为用户k针对车型i的指标j的可信度

两者融合得到用户k针对车型i的指标j的信誉权重

关于车主认证权重I₁：是否认证是指在平台发表评论的用户可分为认证车主和未认证车主，认证车主是购买了该车的用户，需要上传个人的认证车型、行驶证、驾驶证等信息至平台，并且经过平台的审核通过后才被标记为认证车主；而未认证车主则包含未购买相关汽车的用户与未提交信息的用户。显然，认证车主的评论更具可靠性，可通过将两者设置为不同的权重来反映用户发表的评论的被认可程度和可靠性，本实施例中，根据用户是否为认证车主来确定用户的车主认证权重I₁时，为认证车主则车主认证权重I₁取值为1，否则车主认证权重I₁取值为0.5，如表1所示：

	已认证	未认证
			<![CDATA[I<sub>1</sub>]]>	1.0	0.5

关于汽车使用权重I₂：根据调研，汽车的许多指标需要用户的行驶里程足够才能测试出其性能。因此，汽车使用率越高，用户对汽车性能的体验更深，其发表的评论的可信度也就越高。而汽车的使用率可以通过日行驶率和行驶里程来计算。据统计，汽车的正常日行驶率大概是15～78km/d。为进一步划分日行驶率的影响程度，可据此将日行驶率划分成不同区间并赋值不同权重，具体如下表2。同时，根据对汽车论坛中发布评论的用户行驶里程统计，发现用户的行驶里程基本集中在0～1000km。汽车的行驶里程越高，处于该里程用户发表的评论就越少。因此，本实施例中根据用户的日行驶率和行驶里程确定用户的汽车使用权重I₂的函数表达式为：

I₂＝μq₁+(1-μ)q₂，

上式中，μ为权重系数，q₁为用户的日行驶率的量化值，q₂为用户的行驶里程的量化值，且用户的日行驶率和行驶里程的量化取值方式具体如表2和表3所示：

表2：日行驶率的量化取值方式。

日行驶率(km/d)	[78，+∞)	[57，78)	[36，57)	[15，36)	[0，15)
						<![CDATA[q<sub>1</sub>]]>	1.0	0.8	0.6	0.4	0.2

表3：行驶里程的量化取值方式。

行驶里程(km)	[8000,+∞)	[5000,8000)	[3000,5000)	[1000,3000)	[0，1000)
						<![CDATA[q<sub>2</sub>]]>	1.0	0.8	0.6	0.4	0.2

关于互动指数权重I₃：在汽车论坛上，用户所发表的评论会被其他用户浏览、点赞、回复。其浏览量、点赞数与回复量越高代表该评论被公众的审核越多，可信度也越高。因此，本实施例将三者之和与已发表时间长度的比率称为互动指数，互动指数越高口碑被认可度就越高，也反映了该评论的可信度越高。本实施例中，在互动指数的基础上进行互动指数权重I₃的量化取值方式如表4所示。

表4：互动指数权重I₃的量化取值方式。

	[25188，+∞)	[5437，25188)	[1755，5437)	[683，1755)	[0，683)
						<![CDATA[I<sub>3</sub>]]>	1.0	0.8	0.6	0.4	0.2

将车主认证权重I₁、汽车使用权重I₂、互动指数权重I₃融合可以根据需要采用所需的融合方式，其本质上是一种量化关系的映射，例如作为一种可选的实现方式，本实施例步骤S201中将车主认证权重I₁、汽车使用权重I₂、互动指数权重I₃融合得到用户k针对车型i的可信度权重f_i ^k的函数表达式为：f_i ^k＝I₁+I₂+I₃。

毫无疑问，虽然情感倾向度

与星级评分

类似，但是由于两者来源不同，客观上也表达了用户对于评论和评分的随意性和一致性，从而可作为用户信誉权重的参考。因此，本实施例中基于星级评分

和情感倾向度

之间的差异来计算用户的信誉权重。作为一一种可选的实施方式，本实施例中步骤S202中计算用户k针对车型i的指标j的星级评分

和情感倾向度

之间的差异的函数表达式为：

上式中，A为星级评分

和情感倾向度

两者取值范围内的常数值，

表示用户k针对车型i的指标j的可信度，且有

其中K_i表示车型i的所有评论用户集合，为用户集合K的子集，在用户集合K允许空的情况下，也可以将K_i进行扩充得到K。当某条评论

的情感强度

和用户的星级评分

的差异越大，认为该用户的信誉度越低，

代表用户k对汽车i的指标j给出评论的信誉度权重，它表示用户的某条评论

和星级评分

可信度。本实施例中星级评分

和情感倾向度

两者取值范围为1～5，A取值为4，即：

所有用户k针对车型i的指标j的可信度

可构成用户的可信度矩阵：

根据前文可见，本实施例中通过评价者的基本信息、对汽车的使用程度、所在地域与情感偏向等因素来对用户某条评论进行信誉权重评分，能够有效提升信誉权重的准确度。

本实施例中，步骤S202中将用户k针对车型i的可信度权重

用户k针对车型i的指标j的可信度

两者融合得到用户k针对车型i的指标j的信誉权重

的函数表达式为：

上式中，λ为权重系数。此外也可以根据需要采用其他融合的方式。

本实施例中，步骤S102中将情感分数

和信誉权重

相乘得到用户k针对目标车型i的指标j的评论信誉评分

可表示为：

将所有K位用户针对目标车型i的所有J项指标的评论信誉评分进行权重聚合，从而得到目标车型i的综合评分

可表示为：

上式中，w_j为指标j的权重系数。

综上所述，本实施例方法通过汽车评论信息的抓取、获取用户情感表示、获取用户可信度矩阵、车主地域与评论时效性处理、计算汽车综合信誉评分。本发明通过对网络平台公开的相关信息与用户基本属性信息，经过用户维度、汽车维度、地域维度、时间维度和情感倾向等多维度的考虑计算出了一个汽车评论信誉度的评分，可通过该结果对网站上的评论形成一个初步印象。并且，用户挑选出信誉度高的汽车进行进一步了解，弥补了基于用户评论的汽车评论信誉度相关技术缺失，通过信誉权重来对情感分数进行修正，能够实现汽车论坛上对各种网络评论的可信度建模与评价，使得用户无需花大量时间验证某条评论的可信度。

此外，本实施例还提供一种汽车在线评论综合评分计算系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述汽车在线评论综合评分计算方法。此外，本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序用于被微处理器编程或配置以执行所述汽车在线评论综合评分计算方法。

实施例二：

本实施例为针对实施例一的进一步改进。现有工作中，许多学者集中于通过分析产品在线评论对产品进行评论，且主要集中在电影、电子产品、酒店和图书等领域。较少有工作对用户评论的真实性与可信度进行建模与分析，尤其是关于汽车领域的在线评论可信度。其次，网站对用户的评估往往集中在是否购买该车，很少考虑到用户对汽车的行使距离越长代表用户对该车的各项性能和情况更加熟悉。最后，为了体现车辆在各个不同地势条件下的表现情况，本发明还根据将用户划分的D个区域以及将评论时间跨度划分的T个时间段，使得用户可以更加清晰知道车主评论是否与该车初始设计所适应的车况适合。

如图2所示，本实施例中在步骤S102之后还包括：

和信誉权重

和信誉权重

和信誉权重

将用户划分的D个区域的方式可以根据需要进行划分，例如作为一种汽车销售领域的常见的区域划分方式，本实施例中划分为东北、华北、华中、华东、华南、西南和西北七个区域，即：D＝7。将评论时间跨度划分的T个时间段同样也可以根据需要进行划分，例如以季度或月为单位是汽车销售领域的一种常规时间统计方式，可将其应用到本实施例方法中。

本实施例中，步骤S301中得到的信誉权重

为针对区域d和时间段t下用户k针对车型i的指标j的原始信誉权重进行归一化处理后的信誉权重，其函数表达式为：

上式中，

为原始(归一化处理前)信誉权重，分母表示区域d和时间段t下用户k针对车型i的指标j的原始信誉权重之和。

本实施例中，步骤S302中将该区域d和时间段t下用户k针对车型i的指标j的情感分数

和信誉权重

可表示为：

将所有K位用户针对目标车型i的所有J项指标的评论信誉评分进行权重聚合，从而得到该区域d和时间段t下目标车型i的综合评分

可表示为：

上式中，w_j为指标j的权重系数。

综上所述，本实施例在实施例一的基础上，进一步将用户划分的D个区域，以及将评论时间跨度划分的T个时间段，从而可获取任意区域任意时间段的目标车型i的综合评分，能够实现更加细粒度的汽车车型网络评论的可信度建模与评价。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。