CN113641798A - 一种针对商家的扰乱性评论的识别方法及系统 - Google Patents

一种针对商家的扰乱性评论的识别方法及系统 Download PDF

Info

Publication number
CN113641798A
CN113641798A CN202111188290.3A CN202111188290A CN113641798A CN 113641798 A CN113641798 A CN 113641798A CN 202111188290 A CN202111188290 A CN 202111188290A CN 113641798 A CN113641798 A CN 113641798A
Authority
CN
China
Prior art keywords
merchant
vector
representing
attribute
merchants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111188290.3A
Other languages
English (en)
Other versions
CN113641798B (zh
Inventor
王思宇
江岭
黄鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xiaoduo Technology Co ltd
Original Assignee
Chengdu Xiaoduo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xiaoduo Technology Co ltd filed Critical Chengdu Xiaoduo Technology Co ltd
Priority to CN202111188290.3A priority Critical patent/CN113641798B/zh
Publication of CN113641798A publication Critical patent/CN113641798A/zh
Application granted granted Critical
Publication of CN113641798B publication Critical patent/CN113641798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种针对商家的扰乱性评论的识别方法及系统,包括:获取商家的类别信息和属性信息;根据类别信息从预设的类别嵌入矩阵中获取商家各个所属类别的表示向量,并计算商家所有类别的表示向量的平均值,得到商家的类别特征向量;根据属性信息从预设的词嵌入矩阵中获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量;将类别特征向量和属性特征向量进行拼接得到商家特征向量;获取用户做出的评论并通过层次注意力模型处理得到评论对应的评论表示向量;将商家特征向量和评论表示向量映射到匹配空间计算得到匹配概率,并根据匹配概率识别出扰乱性评论;识别扰乱性评论的同时降低了人工成本。

Description

一种针对商家的扰乱性评论的识别方法及系统
技术领域
本发明涉及电子商务技术领域,具体而言,涉及一种针对商家的扰乱性评论的识别方法及系统。
背景技术
用户在购买商品后很多时候都会根据自己的使用体验发表评论信息,因此评论信息对商家或是用户都有很高的利用价值。但是网络上涌现了大量的虚假评论,对商家和用户的体验都造成了极大的影响。这些虚假评论主要分为以下三种:(1)不真实评论((Untruthful Opinions):这些评论来自别有用心的群体,他们企图通过评论美化自身产品和服务,或恶意攻击竞争对手;(2)笼统评论(Reviews on Brands Only):这类评论通常不直接评论所购买的产品或服务,而是对服务或商品笼统的描述为:为我喜欢这个品牌或这个地方等。(3)非评论(Non-Reviews):这类评论内容中不包括具体的评论信息,更多的是广告或者闲聊。其中,类型(2)和(3)统称为扰乱性评论(disruptive opinion),类型1称之为欺诈性评论(deceptive opinion)。欺诈性评论对用户和商家的危害极大,因此学术界和工业界目前已经进行了大量的研究。扰乱性评论相对来说,对于商家和用户威胁较少,因为一般人可以非常容易识别到这类信息。但是,如果一个商品页面充斥较多这样的评论会极大的影响用户体验。为了识别扰乱性评论,目前很多方法都是通过特征抽取与机器学习来实现,但是因为在线评论的内容长短不一、用语不规范、大量社会化内容等问题,采用上述方式进行识别的难度和人工标注成本都很高。因此,需要提供一种方案以便于高效识别扰乱性评论的同时降低人工成本。
发明内容
本发明的目的在于提供一种针对商家的扰乱性评论的识别方法及系统,用以实现高效识别扰乱性评论的同时降低人工成本的技术效果。
第一方面,本发明提供了一种针对商家的扰乱性评论的识别方法,包括:
S1.获取商家的类别信息和属性信息;所述类别信息包括商家能够划分为的多种类别;所述属性信息包括商家的名称和地址;
S2.根据所述类别信息从预设的类别嵌入矩阵中获取商家各个所属类别的表示向量,并计算商家所有类别的表示向量的平均值,得到商家的类别特征向量;
S3.根据所述属性信息从预设的词嵌入矩阵中获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量;
S4.将所述类别特征向量和所述属性特征向量进行拼接得到商家特征向量;
S5.获取用户做出的评论并通过层次注意力模型处理得到所述评论对应的评论表示向量;
S6.将所述商家特征向量和所述评论表示向量映射到匹配空间计算得到匹配概率,并根据所述匹配概率识别出扰乱性评论。
进一步地,所述S5包括:
S51.通过预设的词嵌入矩阵获取所述评论中各个句子中的各个词的词表示向量x it ;将所述词表示向量x it 输入第一双向GRU网络,得到所述词表示向量x it 对应的两个输出,并对这两个输出进行拼接得到参数h it
S52.将参数h it 输入第一多层感知器,得到对应的输出结果u it
S53.计算所述输出结果u it 与第一随机初始化向量u w 的第一内积;通过第一softmax函数根据所述第一内积得到每个时间步输出的第一权重a it ,并根据所述第一权重a it 和参数h it 进行加权求和,得到每个句子的句子表示向量s i
S54. 将所述句子表示向量s i 输入第二双向GRU网络得到句子表示向量s i 对应的两个输出,并对这两个输出进行拼接得到参数h i
S55.将参数h i 输入第二多层感知器,得到对应的输出结果u i
S56.计算所述输出结果u i 与第随机初始化向量u s 的第二内积,通过第二softmax函数根据所述第二内积得到每个时间步输出的第二权重a i ,并根据所述第二权重a i 和参数h i 进行加权求和,得到每个评论的评论表示向量。
进一步地,所述第一双向GRU网络和所述第二双向GRU网络均替换为双向LSTM网络。
进一步地,所述S6中匹配概率的计算方式为:
p = sigmoidvMe
式中,p表示匹配概率;v表示评论表示向量;e表示商家特征向量;M是一个映射矩阵且MR 2d×d R表示实数域,d表示向量维度。
进一步地,所述方法还包括:
从原始评论数据集中获取一个训练数据集,按照S1-S6的过程和目标函数L对层次注意力模型中的参数进行优化,其中目标函数L的计算方式为:
Figure 259996DEST_PATH_IMAGE001
式中,p表示匹配概率;r ij 表示评论与商家的匹配关系,当评论与商家匹配时,r ij =1;否则r ij =0。
进一步地,所述类别嵌入矩阵为E c R k×d R表示实数域,d表示向量维度,k表示所有商家涵盖的类别总数;所述S2的实现方式为:
Figure 800698DEST_PATH_IMAGE002
式中,e c 表示类别特征向量;n表示商家能够划分为的类别总数;i表示变量;e ci 表示各个类别的表示向量。
进一步地,所述词嵌入矩阵为E w R m×d R表示实数域,d表示向量维度,m表示数据集中的词典总数;所述S3的实现方式为:
Figure DEST_PATH_IMAGE003
式中,e a 表示类别特征向量;l表示商家的属性值构成的字符序列中的字符总数;i表示变量;e ai 表示各个字符的表示向量。
进一步地,所述商家特征向量为:e=[e c e a ];式中,e表示商家特征向量,且eR 2d
第二方面,本发明提供了一种针对商家的扰乱性评论的识别系统,包括:
获取模块,用于获取商家的类别信息和属性信息;所述类别信息包括商家能够划分为的多种类别;所述属性信息包括商家的名称和地址;
第一运算模块,用于根据所述类别信息从预设的类别嵌入矩阵中获取商家各个所属类别的表示向量,并计算商家所有类别的表示向量的平均值,得到商家的类别特征向量;
第二运算模块,用于根据所述属性信息从预设的词嵌入矩阵中获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量;
拼接模块,用于将所述类别特征向量和所述属性特征向量进行拼接得到商家特征向量;
第三运算模块,用于获取用户做出的评论并通过层次注意力模型得到所述评论对应的评论表示向量;
识别模块,用于将所述商家特征向量和所述评论表示向量映射到匹配空间计算得到匹配概率,并根据所述匹配概率识别出扰乱性评论。
本发明能够实现的有益效果是:本发明提供的针对商家的扰乱性评论的识别方法及系统先根据商家能够划分的多种类别和预设的类别嵌入矩阵进行运算得到商家的类别特征向量,同时根据商家的名称和地址等属性信息和预设的词嵌入矩阵进行运算得到商家的属性特征向量;其次,将上述类别特征向量和属性特征向量进行拼接得到商家特征向量;然后根据用户做出的评论通过层次注意力模型处理得到评论表示向量,最后将商家特征向量和评论表示向量映射到匹配空间计算得到匹配概率,并根据该匹配概率识别出扰乱性评论,在高效识别扰乱性评论的同时降低了人工成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种针对商家的扰乱性评论的识别方法的流程示意图;
图2为本发明实施例提供的一种针对商家的扰乱性评论的识别系统的拓扑结构图。
图标:10-识别系统;100-获取模块;200-第一运算模块;300-第二运算模块;400-拼接模块;500-第三运算模块;600-识别模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1,图1为本发明实施例提供的一种针对商家的扰乱性评论的识别方法的流程示意图。
经申请人研究发现,为了识别扰乱性评论,目前很多方法都是通过特征抽取与机器学习来实现,但是通过这种方式需要人工标注数据并进行训练,同时因为在线评论的内容长短不一、用语不规范、大量社会化内容等问题,采用上述方式进行识别的难度和人工标注成本都很高。因此本发明实施例提供了一种针对商家的扰乱性评论的识别方法以解决上述问题,其具体内容如下所述。
S1.获取商家的类别信息和属性信息;所述类别信息包括商家能够划分为的多种类别;所述属性信息包括商家的名称和地址。
示例性地,商家的类别信息和属性信息可以从购物平台的后台系统中进行读取,也可以通过用户上传的配置数据进行获取。
S2.根据所述类别信息从预设的类别嵌入矩阵中获取商家各个所属类别的表示向量,并计算商家所有类别的表示向量的平均值,得到商家的类别特征向量。
示例性地,所述类别嵌入矩阵为E c R k×d R表示实数域,d表示向量维度,k表示所有商家涵盖的类别总数;类别特征向量的计算方式为:
Figure 975328DEST_PATH_IMAGE002
式中,e c 表示类别特征向量;n表示商家能够划分为的类别总数;i表示变量;e ci 表示各个类别的表示向量。
在上述实现过程中,通过所有商家涵盖的类别总数构建的类别嵌入矩阵,然后再根据商家的类别信息从该类别嵌入矩阵中获得商家各个所属类别的表示向量,最后计算商家所有类别的表示向量的平均值,得到商家的类别特征向量,可以更加准确地表示商家的类别。
S3.根据所述属性信息从预设的词嵌入矩阵中获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量。
示例性地,所述词嵌入矩阵为E w R m×d R表示实数域,d表示向量维度,m表示数据集中的词典总数;所述S3的实现方式为:
Figure 576073DEST_PATH_IMAGE003
式中,e a 表示类别特征向量;l表示商家的属性值构成的字符序列中的字符总数;i表示变量;e ai 表示各个字符的表示向量。
在上述实现过程中,词嵌入矩阵通过数据集中的词典总数进行构建,然后根据商家的名称和地址等从该词嵌入矩阵获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量,可以很好地表示商家的属性特征。
S4.将所述类别特征向量和所述属性特征向量进行拼接得到商家特征向量。
示例性地,商家特征向量为:e=[e c e a ],式中,e表示商家特征向量,且eR 2d
S5.获取用户做出的评论并通过层次注意力模型处理得到所述评论对应的评论表示向量。
在一种实施方式中,上述过程可以按照以下方式进行处理:
S51.通过预设的词嵌入矩阵获取所述评论中各个句子中的各个词的词表示向量x it ;将所述词表示向量x it 输入第一双向GRU网络,得到所述词表示向量x it 对应的两个输出,并对这两个输出进行拼接得到参数h it
在一种实施方式中,评论中各个句子中的各个词可以表示为w it (t∈[0,T],i∈[0,L],T表示句子中词的总数,L表示句子的总数),则各个词w it 的词表示向量x it 经过第一双向GRU网络处理后的两个输出如下:
Figure 570574DEST_PATH_IMAGE004
则拼接后的参数h it =
Figure 914968DEST_PATH_IMAGE005
S52.将参数h it 输入第一多层感知器,得到对应的输出结果u it
在一种实施方式中,输出结果u it 可以表示为:u it =tanhW w h it +b w ),式中W w h it 表示的权重,b w h it 表示的偏置值。
S53.计算所述输出结果u it 与第一随机初始化向量u w 的第一内积;通过第一softmax函数根据所述第一内积得到每个时间步输出的第一权重a it ,并根据所述第一权重a it 和参数h it 进行加权求和,得到每个句子的句子表示向量s i
示例性地,第一权重a it 和句子表示向量s i 的计算方式为:
Figure 678524DEST_PATH_IMAGE006
Figure 715751DEST_PATH_IMAGE007
上式中,u it T 表示u it 的转置。
S54. 将所述句子表示向量s i 输入第二双向GRU网络得到句子表示向量s i 对应的两个输出,并对这两个输出进行拼接得到参数h i
在一种实施方式中,各个句子表示向量s i 输入第二双向GRU网络后得到的两个输出结果如下:
Figure 949546DEST_PATH_IMAGE008
则拼接后的参数h i =
Figure 97631DEST_PATH_IMAGE009
S55.将参数h i 输入第二多层感知器,得到对应的输出结果u i
在一种实施方式中,输出结果u i 可以表示为:u i =tanhW s h i +b s ),式中W s h i 表示的权重,b s h i 表示的偏置值。
S56.计算该输出结果u i 与第随机初始化向量u s 的第二内积;通过第二softmax函数根据所述第二内积得到每个时间步输出的第二权重a i ,并根据所述第二权重a i 和参数h i 进行加权求和,得到每个评论的评论表示向量。
示例性地,第二权重a i 和评论表示向量v的计算方式为:
Figure 715694DEST_PATH_IMAGE010
Figure 658242DEST_PATH_IMAGE011
上式中,u i T 表示u i 的转置,评论表示向量vR d
需要说明的是,第一双向GRU网络和第二双向GRU网络也可以均替换为双向LSTM网络。在实际使用时可以根据实际需求进行选择。
S6.将所述商家特征向量和所述评论表示向量映射到匹配空间计算得到匹配概率,并根据所述匹配概率识别出扰乱性评论。
在一种实施方式中,匹配概率的计算方式为:
p = sigmoidvMe
式中,p表示匹配概率;v表示评论表示向量;e表示商家特征向量;M是一个映射矩阵且MR 2d×d R表示实数域,d表示向量维度。
示例性地,若匹配概率p的值小于0.5则认为该评论为扰乱性评论。需要说明的是匹配概率p的值也可以根据实际情况进行调整。
在一种实施方式中,上述方法还包括:从原始评论数据集中获取一个训练数据集,按照S1-S6的过程和目标函数L对层次注意力模型中的参数进行优化,其中目标函数L的计算方式为:
Figure 361756DEST_PATH_IMAGE001
式中,p表示匹配概率;r ij 表示评论与商家的匹配关系,当评论与商家匹配时,r ij =1;否则r ij =0。通过上述方式可以对层次注意力模型中W w W s E w 等参数进行优化,使结果更加准确。
请参看图2,图2为本发明实施例提供的一种针对商家的扰乱性评论的识别系统的拓扑结构图。
在一种实施方式中,本发明实施例还提供了一种针对商家的扰乱性评论的识别系统10,包括:
获取模块100,用于获取商家的类别信息和属性信息;所述类别信息包括商家能够划分为的多种类别;所述属性信息包括商家的名称和地址;
第一运算模块200,用于根据所述类别信息从预设的类别嵌入矩阵中获取商家所有类别的表示向量,并计算商家所有类别的表示向量的平均值,得到商家的类别特征向量;
第二运算模块300,用于根据所述属性信息从预设的词嵌入矩阵中获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量;
拼接模块400,用于将所述类别特征向量和所述属性特征向量进行拼接得到商家特征向量;
第三运算模块500,用于获取用户做出的评论并通过层次注意力模型处理得到所述评论对应的评论表示向量;
识别模块600,用于将所述商家特征向量和所述评论表示向量映射到匹配空间计算得到匹配概率,并根据所述匹配概率识别出扰乱性评论。
综上所述,本发明实施例提供一种针对商家的扰乱性评论的识别方法及系统,包括:获取商家的类别信息和属性信息;根据类别信息从预设的类别嵌入矩阵中获取商家各个所属类别的表示向量,并计算商家所有类别的表示向量的平均值,得到商家的类别特征向量;根据属性信息从预设的词嵌入矩阵中获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量;将类别特征向量和属性特征向量进行拼接得到商家特征向量;获取用户做出的评论并通过层次注意力模型处理得到评论对应的评论表示向量;将商家特征向量和评论表示向量映射到匹配空间计算得到匹配概率,并根据匹配概率识别出扰乱性评论;识别扰乱性评论的同时降低了人工成本。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种针对商家的扰乱性评论的识别方法,其特征在于,包括:
S1.获取商家的类别信息和属性信息;所述类别信息包括商家能够划分为的多种类别;所述属性信息包括商家的名称和地址;
S2.根据所述类别信息从预设的类别嵌入矩阵中获取商家各个所属类别的表示向量,并计算商家所有类别的表示向量的平均值,得到商家的类别特征向量;
S3.根据所述属性信息从预设的词嵌入矩阵中获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量;
S4.将所述类别特征向量和所述属性特征向量进行拼接得到商家特征向量;
S5.获取用户做出的评论并通过层次注意力模型处理得到所述评论对应的评论表示向量;
S6.将所述商家特征向量和所述评论表示向量映射到匹配空间计算得到匹配概率,并根据所述匹配概率识别出扰乱性评论。
2.根据权利要求1所述的方法,其特征在于,所述S5包括:
S51.通过预设的词嵌入矩阵获取所述评论中各个句子中的各个词的词表示向量x it ;将所述词表示向量x it 输入第一双向GRU网络,得到所述词表示向量x it 对应的两个输出,并对这两个输出进行拼接得到参数h it
S52.将参数h it 输入第一多层感知器,得到对应的输出结果u it
S53.计算所述输出结果u it 与第一随机初始化向量u w 的第一内积;通过第一softmax函数根据所述第一内积得到每个时间步输出的第一权重a it ,并根据所述第一权重a it 和参数h it 进行加权求和,得到每个句子的句子表示向量s i
S54. 将所述句子表示向量s i 输入第二双向GRU网络得到句子表示向量s i 对应的两个输出,并对这两个输出进行拼接得到参数h i
S55.将参数h i 输入第二多层感知器,得到对应的输出结果u i
S56.计算所述输出结果u i 与第随机初始化向量u s 的第二内积;通过第二softmax函数根据所述第二内积得到每个时间步输出的第二权重a i ,并根据所述第二权重a i 和参数h i 进行加权求和,得到每个评论的评论表示向量。
3.根据权利要求2所述的方法,其特征在于,所述第一双向GRU网络和所述第二双向GRU网络均替换为双向LSTM网络。
4.根据权利要求1或2所述的方法,其特征在于,所述S6中匹配概率的计算方式为:
p = sigmoidvMe
式中,p表示匹配概率;v表示评论表示向量;e表示商家特征向量;M是一个映射矩阵且MR 2d×d R表示实数域,d表示向量维度。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
从原始评论数据集中获取一个训练数据集,按照S1-S6的过程和目标函数L对层次注意力模型中的参数进行优化,其中目标函数L的计算方式为:
Figure 385117DEST_PATH_IMAGE001
式中,p表示匹配概率;r ij 表示评论与商家的匹配关系,当评论与商家匹配时,r ij =1;否则r ij =0。
6.根据权利要求1所述的方法,其特征在于,所述类别嵌入矩阵为E c R k×d R表示实数域,d表示向量维度,k表示所有商家涵盖的类别总数;所述S2的实现方式为:
Figure 174082DEST_PATH_IMAGE002
式中,e c 表示类别特征向量;n表示商家能够划分为的类别总数;i表示变量;e ci 表示各个类别的表示向量。
7.根据权利要求6所述的方法,其特征在于,所述词嵌入矩阵为E w R m×d R表示实数域,d表示向量维度,m表示数据集中的词典总数;所述S3的实现方式为:
Figure 869505DEST_PATH_IMAGE003
式中,e a 表示类别特征向量;l表示商家的属性值构成的字符序列中的字符总数;i表示变量;e ai 表示各个字符的表示向量。
8.根据权利要求7所述的方法,其特征在于,所述商家特征向量为:e=[e c e a ];式中,e表示商家特征向量,且eR 2d
9.一种针对商家的扰乱性评论的识别系统,其特征在于,包括:
获取模块,用于获取商家的类别信息和属性信息;所述类别信息包括商家能够划分为的多种类别;所述属性信息包括商家的名称和地址;
第一运算模块,用于根据所述类别信息从预设的类别嵌入矩阵中获取商家各个所属类别的表示向量,并计算商家所有类别的表示向量的平均值,得到商家的类别特征向量;
第二运算模块,用于根据所述属性信息从预设的词嵌入矩阵中获取商家属性值的表示向量,并计算商家属性值的表示向量中所有字符向量的平均值,得到商家的属性特征向量;
拼接模块,用于将所述类别特征向量和所述属性特征向量进行拼接得到商家特征向量;
第三运算模块,用于获取用户做出的评论并通过层次注意力模型处理得到所述评论对应的评论表示向量;
识别模块,用于将所述商家特征向量和所述评论表示向量映射到匹配空间计算得到匹配概率,并根据所述匹配概率识别出扰乱性评论。
CN202111188290.3A 2021-10-12 2021-10-12 一种针对商家的扰乱性评论的识别方法及系统 Active CN113641798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111188290.3A CN113641798B (zh) 2021-10-12 2021-10-12 一种针对商家的扰乱性评论的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111188290.3A CN113641798B (zh) 2021-10-12 2021-10-12 一种针对商家的扰乱性评论的识别方法及系统

Publications (2)

Publication Number Publication Date
CN113641798A true CN113641798A (zh) 2021-11-12
CN113641798B CN113641798B (zh) 2022-02-08

Family

ID=78426415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111188290.3A Active CN113641798B (zh) 2021-10-12 2021-10-12 一种针对商家的扰乱性评论的识别方法及系统

Country Status (1)

Country Link
CN (1) CN113641798B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038725A (zh) * 2017-12-04 2018-05-15 中国计量大学 一种基于机器学习的电商产品客户满意度分析方法
CN109388715A (zh) * 2018-10-25 2019-02-26 北京小度信息科技有限公司 用户数据的分析方法及装置
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN110807091A (zh) * 2019-03-01 2020-02-18 王涵 一种酒店智能问答推荐与决策支持分析方法及系统
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
CN110838021A (zh) * 2019-10-15 2020-02-25 北京三快在线科技有限公司 转化率预估方法、装置、电子设备及存储介质
CN111126035A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种电商评论分析场景下细粒度属性分析方法
CN111767697A (zh) * 2020-07-24 2020-10-13 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备以及存储介质
CN112070543A (zh) * 2020-09-10 2020-12-11 哈尔滨理工大学 一种电商网站中评论质量的检测方法
CN112200638A (zh) * 2020-10-30 2021-01-08 福州大学 一种基于注意力机制与双向gru网络的水军评论检测系统及方法
CN112307755A (zh) * 2020-09-28 2021-02-02 天津大学 基于多特征和深度学习的垃圾评论识别方法
CN112434128A (zh) * 2020-11-17 2021-03-02 东南大学 基于分层匹配注意力机制的问答文本属性类别分类方法
CN112559842A (zh) * 2020-07-07 2021-03-26 武汉纺织大学 基于深度学习注意力机制的电商评论数据分析方法及装置
CN113254592A (zh) * 2021-06-17 2021-08-13 成都晓多科技有限公司 基于门机制的多级注意力模型的评论方面检测方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038725A (zh) * 2017-12-04 2018-05-15 中国计量大学 一种基于机器学习的电商产品客户满意度分析方法
CN109388715A (zh) * 2018-10-25 2019-02-26 北京小度信息科技有限公司 用户数据的分析方法及装置
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
CN110807091A (zh) * 2019-03-01 2020-02-18 王涵 一种酒店智能问答推荐与决策支持分析方法及系统
CN110838021A (zh) * 2019-10-15 2020-02-25 北京三快在线科技有限公司 转化率预估方法、装置、电子设备及存储介质
CN111126035A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种电商评论分析场景下细粒度属性分析方法
CN112559842A (zh) * 2020-07-07 2021-03-26 武汉纺织大学 基于深度学习注意力机制的电商评论数据分析方法及装置
CN111767697A (zh) * 2020-07-24 2020-10-13 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备以及存储介质
CN112070543A (zh) * 2020-09-10 2020-12-11 哈尔滨理工大学 一种电商网站中评论质量的检测方法
CN112307755A (zh) * 2020-09-28 2021-02-02 天津大学 基于多特征和深度学习的垃圾评论识别方法
CN112200638A (zh) * 2020-10-30 2021-01-08 福州大学 一种基于注意力机制与双向gru网络的水军评论检测系统及方法
CN112434128A (zh) * 2020-11-17 2021-03-02 东南大学 基于分层匹配注意力机制的问答文本属性类别分类方法
CN113254592A (zh) * 2021-06-17 2021-08-13 成都晓多科技有限公司 基于门机制的多级注意力模型的评论方面检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MICHAEL CRAWFORD ET AL.: "Survey of review spam detection using machine learning techniques", 《JOURNAL OF BIG DATA》 *
YUAN GAO ET AL.: "Deep Gate Recurrent Neural Network", 《WORKSHOP AND CONFERENCE PROCEEDINGS》 *
刘苗苗 等: "网上虚假评论研究述评与展望", 《未来与发展》 *
张鹏: "基于深度学习混合模型的商品垃圾评论识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN113641798B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
US20200210645A1 (en) Emoji Understanding in Online Experiences
CN113643103B (zh) 基于用户相似度的产品推荐方法、装置、设备及存储介质
CN108520442A (zh) 一种基于融合结构的展示广告点击率预测方法
CN107239993A (zh) 一种基于拓展标签的矩阵分解推荐方法及系统
CN112101437A (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN112559683A (zh) 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN109101553B (zh) 用于购买方非受益方的行业的采购用户评价方法和系统
CN111461164A (zh) 样本数据集的扩容方法及模型的训练方法
CN111008335A (zh) 一种信息处理方法、装置、设备及存储介质
CN112131348B (zh) 基于文本和图像相似度防止项目重复申报的方法
CN115204971B (zh) 产品推荐方法、装置、电子设备及计算机可读存储介质
CN113656690A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN115605896A (zh) 产品推荐和集成语言建模的系统和方法
CN113254592A (zh) 基于门机制的多级注意力模型的评论方面检测方法及系统
CN113641798B (zh) 一种针对商家的扰乱性评论的识别方法及系统
CN111882381B (zh) 一种基于协同记忆网络的旅游推荐方法
CN116342228B (zh) 一种基于有向图神经网络的相关推荐的方法
Raza et al. Comparative analysis of machine learning algorithms for fake review detection
CN112348300A (zh) 用于推送信息的方法和装置
CN114491086A (zh) 服饰个性化搭配推荐方法、系统、电子设备及存储介质
CN115907968A (zh) 一种基于人行征信的风控拒绝推断方法及设备
Purba et al. A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla
CN115511582A (zh) 一种基于人工智能的商品推荐系统及方法
CN109299291A (zh) 一种基于卷积神经网络的问答社区标签推荐方法
CN111222722B (zh) 针对业务对象进行业务预测的方法、神经网络模型和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant