CN114911936A - 一种模型训练、评论识别方法、装置、电子设备及介质 - Google Patents
一种模型训练、评论识别方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN114911936A CN114911936A CN202210547432.9A CN202210547432A CN114911936A CN 114911936 A CN114911936 A CN 114911936A CN 202210547432 A CN202210547432 A CN 202210547432A CN 114911936 A CN114911936 A CN 114911936A
- Authority
- CN
- China
- Prior art keywords
- comment
- sample
- comments
- participle
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000013145 classification model Methods 0.000 claims abstract description 95
- 238000012706 support-vector machine Methods 0.000 claims description 73
- 238000004891 communication Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012552 review Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 126
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 239000003550 marker Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 239000000047 product Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000013065 commercial product Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Auxiliary Devices For Music (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供了一种模型训练、评论识别方法、装置、电子设备及介质。方案如下:获取预设训练集,预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记;针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,第一指标值用于指示分词的在多个样本评论中的重要程度;基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记;利用多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。通过本公开实施例提供的技术方案,提供了用于评论识别的模型,从而提高了评论识别的准确性。
Description
技术领域
本公开涉及大数据处理技术领域,特别是涉及一种模型训练、评论识别方法、装置、电子设备及介质。
背景技术
在互联网领域中,用户可以针对某一目标对象自由发表评论。例如,用户可以针对其购买的商品发表相应的评论。再例如,用户可以针对某一事件的话题发表对应的评论。
目前,在用户发表的评论中,除了包括与目标对象相关的评论以外,还包括大量与目标对象不相关的评论。因此,需要针对用户发表的评论进行有效的识别。
发明内容
本公开实施例的目的在于提供一种模型训练、评论识别方法、装置、电子设备及介质,以提供用于评论识别的模型,从而提高评论识别的准确性。具体技术方案如下:
本公开实施例提供了一种模型训练方法,所述方法包括:
获取预设训练集,所述预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,所述第一标记为:指示所述样本评论与所述样本对象相关的第一标识,或者指示所述样本评论与所述样本对象不相关的第二标识;
针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,所述第一指标值用于指示所述分词的在所述多个样本评论中的重要程度;
基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,所述第二标记为所述第一标识或所述第二标识;
利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
可选的,所述针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值的步骤,包括:
针对每一样本评论,计算该样本评论中包括的每一分词在所述多个样本评论中出现的次数与所述多个样本评论中包括的该分词的数量的商,作为该分词的词频;
基于所述多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重;
计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。
可选的,所述基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记的步骤,包括:
利用自拓展(Bootstrapping)算法,对所述多个样本评论中包括的分词进行多次抽取,并根据抽取到的分词,每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记。
可选的,所述利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型的步骤,包括:
针对每一样本评论,将该样本评论输入预设支持向量机(Support VectorMachine,SVM)分类模型,得到该样本评论对应的第三标记;
根据每一样本评论对应的第二标记和第三标记,计算所述预设SVM分类模型的损失值;
在所述预设SVM分类模型未收敛时,基于所述损失值调整所述预设SVM分类模型的参数,并返回执行所述针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤,直至所述预设SVM分类模型收敛时,将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。
本公开实施例提供了一种评论识别方法,所述方法还包括:
获取目标对象的至少一个待识别评论;
针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,所述目标模型为上述任一项所述的模型训练方法训练得到的用于评论识别的二分类模型。
可选的,所述方法还包括:
针对所述第四标记为所述第二标识的每一待识别评论,确定发表该待识别评论的目标用户;
获取所述目标用户在当前时间前第一时长内发表的评论,作为待分析评论;
基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率;
在所述第二指标值大于预设阈值时,将所述目标用户确定为恶意评论用户。
可选的,当所述目标对象为商品时,所述基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率的步骤,包括:
基于所述待分析评论,计算所述目标用户在所述第一时长内针对不同商品首次发表的评论数量与所述第一时长内发表的评论总数量间的比值,作为第一比值;
基于所述待分析评论,计算所述目标用户在所述第一时长内评论的商品数量与所述目标用户在所述第一时长内购买商品数量间的比值,作为第二比值;
基于所述待分析评论,计算所述目标用户在预设时间范围内发表的评论数量与该目标用户在所述第一时长内发表的评论总数量间的比值,作为第三比值;
基于所述待分析评论,计算该目标用户在当前时间前第二时长内发表的评论数量与所述第二时长的比值,作为第四比值,所述第二时长小于等于所述第一时长;
计算所述第一比值、所述第二比值、所述第三比值和所述第四比值的加权和,作为所述目标用户的第二指标值。
可选的,所述方法还包括:
针对所述恶意评论用户执行预设操作。
本公开实施例提供了一种模型训练装置,所述装置包括:
第一获取模块,用于获取预设训练集,所述预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,所述第一标记为:指示所述样本评论与所述样本对象相关的第一标识,或者指示所述样本评论与所述样本对象不相关的第二标识;
第一计算模块,用于针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,所述第一指标值用于指示所述分词的在所述多个样本评论中的重要程度;
第一确定模块,用于基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,所述第二标记为所述第一标识或所述第二标识;
训练模块,用于利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
可选的,所述第一计算模块,具体用于针对每一样本评论,计算该样本评论中包括的每一分词在所述多个样本评论中出现的次数与所述多个样本评论中包括的该分词的数量的商,作为该分词的词频;基于所述多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重;计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。
可选的,所述第一确定模块,具体用于利用Bootstrapping算法,对所述多个样本评论中包括的分词进行多次抽取,并根据抽取到的分词,每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记。
可选的,所述训练模块,具体用于针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记;根据每一样本评论对应的第二标记和第三标记,计算所述预设SVM分类模型的损失值;在所述预设SVM分类模型未收敛时,基于所述损失值调整所述预设SVM分类模型的参数,并返回执行所述针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤,直至所述预设SVM分类模型收敛时,将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。
本公开实施例还提供了一种评论识别装置,所述装置还包括:
第二获取模块,用于获取目标对象的至少一个待识别评论;
识别模块,用于针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,所述目标模型为上述任一项所述的模型训练方法训练得到的用于评论识别的二分类模型。
可选的,所述装置还包括:
第二确定模块,用于针对所述第四标记为所述第二标识的每一待识别评论,确定发表该待识别评论的目标用户;
第三获取模块,用于获取所述目标用户在当前时间前第一时长内发表的评论,作为待分析评论;
第二计算模块,用于基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率;
第三确定模块,用于在所述第二指标值大于预设阈值时,将所述目标用户确定为恶意评论用户。
可选的,当所述目标对象为商品时,所述第二计算模块,具体用于基于所述待分析评论,计算所述目标用户在所述第一时长内针对不同商品首次发表的评论数量与所述第一时长内发表的评论总数量间的比值,作为第一比值;
基于所述待分析评论,计算所述目标用户在所述第一时长内评论的商品数量与所述目标用户在所述第一时长内购买商品数量间的比值,作为第二比值;
基于所述待分析评论,计算所述目标用户在预设时间范围内发表的评论数量与该目标用户在所述第一时长内发表的评论总数量间的比值,作为第三比值;
基于所述待分析评论,计算该目标用户在当前时间前第二时长内发表的评论数量与所述第二时长的比值,作为第四比值,所述第二时长小于等于所述第一时长;
计算所述第一比值、所述第二比值、所述第三比值和所述第四比值的加权和,作为所述目标用户的第二指标值。
可选的,所述装置还包括:
执行模块,用于针对所述恶意评论用户执行预设操作。
本公开实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的模型训练方法步骤。
本公开实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的评论识别方法步骤。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的模型训练方法步骤。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的评论识别方法步骤。
本公开实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的模型训练方法。
本公开实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的评论识别方法。
本公开实施例有益效果:
本公开实施例提供的技术方案,在获取到预设训练集后,也就是在获取到多个样本评论以及每一样本评论对应的第一标记后,针对每一样本评论,计算该样本评论中包括的每一分词对应的第一指标值,从而基于该样本评论对应的第一标记和每一分词对应的第一指标值,确定每一样本评论的第二标记,进而利用预设训练集中的每一样本评论以及每一样本评论的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。相比于相关技术,通过预设训练集中每一样本评论的第一标记,以及各样本评论中包括的每一分词所对应的第一指标值,重新确定各样本评论对应的第二标记,有效提高了确定出的第二标记的准确性,从而使得基于该第二标记训练得到的目标模型可以准确识别出与目标对象相关和不相关的评论,这有效提高了训练得到的目标模型的准确性,从而提高了后期评论识别的准确性。
当然,实施本公开的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本公开实施例提供的模型训练方法的第一种流程示意图;
图2为本公开实施例提供的模型训练方法的第二种流程示意图;
图3为本公开实施例提供的模型训练方法的第三种流程示意图;
图4为本公开实施例提供的Bootstrapping算法执行过程的一种示意图;
图5为本公开实施例提供的模型训练方法的第四种路程示意图;
图6为本公开实施例提供的评论识别方法的第一种流程示意图;
图7为本公开实施例提供的评论识别方法的第二种流程示意图;
图8为本公开实施例提供的评论识别方法的第三种流程示意图;
图9为本公开实施例提供的评论识别方法的第四种流程示意图;
图10为本公开实施例提供的模型训练装置的一种结构示意图;
图11为本公开实施例提供的评论识别装置的一种结构示意图;
图12为本公开实施例提供的电子设备的第一种结构示意图;
图13为本公开实施例提供的电子设备的第二种结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员基于本公开所获得的所有其他实施例,都属于本公开保护的范围。
相关技术中,在训练用于进行评论识别的模型时,由于该模型训练所用的训练数据集中样本评论所对应的标记均是人工确定的,存在一定误差,这将导致训练得到的模型无法准确识别出与目标对象相关的评论。
为了解决相关技术中的问题,本公开实施例提供了一种模型训练方法,该方法应用于电子设备,该电子设备可以为移动设备或服务器等设备,在此,对该电子设备不作具体限定。如图1所示,图1为本公开实施例提供的模型训练方法的第一种流程示意图。该方法包括以下步骤。
步骤S101,获取预设训练集,预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,第一标记为:指示样本评论与样本对象相关的第一标识,或者指示样本评论与样本对象不相关的第二标识。
步骤S102,针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,第一指标值用于指示分词的在多个样本评论中的重要程度。
步骤S103,基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,第二标记为第一标识或第二标识。
步骤S104,利用多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
在本公开实施例中,虽然上述电子设备可以为多种不同的设备,但是考虑到设备的部署成本,上述电子设备可以为提供服务的服务端,如上述服务器。
通过图1所示的方法,在获取到预设训练集后,也就是在获取到多个样本评论以及每一样本评论对应的第一标记后,针对每一样本评论,计算该样本评论中包括的每一分词对应的第一指标值,从而基于该样本评论对应的第一标记和每一分词对应的第一指标值,确定每一样本评论的第二标记,进而利用预设训练集中的每一样本评论以及每一样本评论的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。相比于相关技术,通过预设训练集中每一样本评论的第一标记,以及各样本评论中包括的每一分词所对应的第一指标值,重新确定各样本评论对应的第二标记,有效提高了确定出的第二标记的准确性,从而使得基于该第二标记训练得到的目标模型可以准确识别出与目标对象相关和不相关的评论,这有效提高了训练得到的目标模型的准确性,从而提高了后期评论识别的准确性。
下面通过具体的实施例中,对本公开实施例进行说明。
针对上述步骤S101,即获取预设训练集,预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,第一标记为:指示样本评论与样本对象相关的第一标识,或者指示样本评论与样本对象不相关的第二标识。
在本步骤中,电子设备可以针对样本对象,获取该样本对象所对应的评论,作为样本评论。针对获取到的每一样本评论,电子设备可以确定该样本评论是否是与样本对象相关的评论。若是,则利用第一标识对该样本评论进行标记,得到该样本评论对应的第一标记;若否,则利用第二标识对该第一样本进行标记,得到该样本评论对应的第一标记。
在本公开实施例中,上述样本对象可以为企业、商品、明星话题或社会话题等。在此,对上述样本对象不作具体限定。为便于理解,下面仅以样本对象为商品为例进行说明,并不起任何限定作用。另外,上述样本对象的数量可以为一个,也可以为多个。在此,对上述样本对象的数量不作具体限定。为便于理解,下面仅以一个样本对象为例进行说明,并不起任何限定作用。
上述样本评论可以为用户针对上述样本对象发表的文本内容。例如,当上述样本对象为某一商品时,样本评论可以用户发表的该商品的评论,如商品的性价比很高,使用过程很便捷等文本内容。针对不同的样本对象,用户所发送的评论也有所不同,在此,对上述样本评论不作具体限定。
在一些实施例中,上述样本评论中与样本对象相关的评论可以表示为:样本评论中包括关于样本对象属性信息的语句。上述样本评论中与样本对象不相关的评论可以表示为:样本评论中不包括关于样本对象属性信息的语句。
为便于理解,以样本对象为商品为例进行说明。该商品的属性信息包括但不限于商品的颜色、尺寸等。针对每一样本评论,当该样本评论中包括与商品属性信息相关的语句时,如样本评论中包括“宝贝的颜色真好看”的语句时,电子设备可以确定该样本评论与样本评论相关。当该样本评论中不包括与商品属性信息相关的语句时,电子设备可以确定该样本评论与样本对象不相关。
在本公开实施例中,根据样本对象的不同,样本对象所对应的属性信息也有所不同。因此,上述样本评论与样本对象是否相关的表示方式也有所不同。在此,对上述样本评论与样本对象是否相关的表示方式不作具体限定。
上述第一标识可以为1,上述第二标识可以为0。除此以外,上述第一标识和第二标识还可以为其他数值,如2、3、4、5等。在此,对上述第一标识和第二标识不作具体限定。其中,上述第一标记为第一标识的样本评论可以为:二分类模型训练集中的正样本,上述第一标记为第二标识的样本评论可以为:二分类模型训练集中的负样本。上述预设训练集中正样本和负样本的数量可以相同,也可以不同。在此,对上述预设训练集中的正负样本数量不作具体限定。
在一些实施例中,在获取上述样本评论时,电子设备可以获取用户针对样本对象所对应的全部评论,作为样本评论。
另在一些实施例中,在获取上述样本评论时,电子设备可以获取用户针对样本对象所对应的全部评论,并对获取到的评论进行预处理,得到样本评论。其中,评论的预处理可以表示为:剔除无意义的评论,或者剔除评论中无意义的词语。例如,剔除全是语气词的评论,如评论内容为“哈哈哈哈”的评论。在此,对评论的预处理过程不作具体说明。
针对上述步骤S102,即针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,第一指标值用于指示分词的在多个样本评论中的重要程度。
在本步骤中,针对预设训练集中的每一样本评论,电子设备可以对该样本评论进行分词处理,得到多个分词,并针对分词处理得到的每一分词,计算该分词在所有样本评论中的重要程度值,作为该分词对应的第一指标值。
根据样本评论的不同,电子设备在对每一样本评论进行分词处理所得到的分词的数量也有所不同。在此,对各样本评论中包括的分词数量不作具体限定。
在一些实施例中,针对每一样本评论,电子设备可以利用词频-逆文档频率(TermFrequency-Inverse Document Frequency,TF-IDF)算法,计算该样本评论中包括的每一分词所对应的第一指标值。
在一些实施例中,根据图1所示的方法,本公开实施例还提供了一种模型训练方法。如图2所示,图2为本公开实施例提供的模型训练方法的第二种流程示意图。在图2所示的方法中,将上述步骤S102细化为以下步骤,即步骤S1021-步骤S1023。
步骤S1021,针对每一样本评论,计算该样本评论中包括的每一分词在多个样本评论中出现的次数与多个样本评论中包括的该分词的数量的商,作为该分词的词频。
在一些实施例中,电子设备可以利用以下公式,计算每一样本评论中包括的分词的词频。
其中,TFi为分词i的词频,ni为分词i在多个样本评论中出现的次数,N多个样本评论中包括的分词i的数量。
步骤S1022,基于多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重。
在一些实施例中,电子设备可以利用以下公式,计算每一分词的权重。
其中,IDFi为分词i的权重,log表示对数操作,K为多个样本评论的数量,ki为包括分词i的样本评论的数量。
上述每一分词的权重用于指示该分词在所有样本评论中的常见程度,并且,每一分词的权重大小与该分词的常见程度成反比。也就是针对每一分词,当该分词在上述多个样本评论中越常见时,例如该分词在多个样本评论中出现的频率较高时,该分词所对应的权重越小。当该分词在上述多个样本评论中越不常见时,例如该分词在多个样本评论中出现的频率较低时,该分词所对应的权重越大。
在本公开实施例中,对上述步骤S1021和步骤S1022的执行顺序不作具体限定。
步骤S1023,计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。
在一些实施例中,电子设备可以利用以下公式,计算每一分词的第一指标值。
TF-IDFi=TFi*IDFi
其中,TF-IDFi为分词i的第一指标值。
通过上述步骤S1021-步骤S1023,针对分词处理得到的每一分词,电子设备利用上述TF-IDF算法,分别计算得到的该分词所对应的TF值(即上述词频)和IDF值(即上述权重),从而将TF值和IDF值的乘积确定为该分词的第一指标值,这使得每一分词对应的第一指标值与该分词在所有样本评论中出现的词频,以及该分词在所有样本评论中所占的权重高度相关,可以准确指示每一分词的在上述多个样本评论中的重要程度,有效保证了每一分词对应第一指标值的准确性。
针对上述步骤S103,即基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,第二标记为第一标识或第二标识。
针对上述预设训练集中的每一样本评论,该样本评论对应的第一标记与该样本评论对应的第二标记可以相同,也可以不同。
在一些实施例中,根据上述图1所示的方法,本公开实施例还提供了一种模型训练方法。如图3所示,图3为本公开实施例提供的模型训练方法的第三种流程示意图。在图3所示的方法中上述步骤S103可以表示为以下步骤,即步骤S1031。
步骤S1031,利用Bootstrapping算法,对多个样本评论中包括的分词进行多次抽取,并根据抽取到的分词,每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记。
上述Bootstrapping算法为:利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本。
为便于理解,结合图4进行说明,图4为本公开实施例提供的Bootstrapping算法执行过程的一种示意图。
通过上述步骤S102,电子设备可以确定每一分词对应的第一指标值,在执行步骤S1031时,电子设备可以根据所有样本评论所包括的每一分词,以及每一分词对应的第一指标值,生成词语特征集合。其中,每一分词对应的第一指标值可以为该分词的特征标签。
电子设备可以从上述词语特征集合中有放回的随机抽取多个词语特征,每一词语特征包括分词和分词的特征标签。电子设备可以在上述预设训练集所包括的多个样本评论中,查找包括该词语特征中的分词的语句,得到特征出现的语句。其中,特征出现的语句可以为完整的样本评论,也可以为样本评论中部分语句,如样本评论中包括分词的语句。在此,对特征出现的语句的不作具体限定。
电子设备可以根据抽取到词语特征,以及抽取到的词语特征所出现的语句中的其他词语特征,重新生成各词语对应的特征标签,完成特征标签替换的过程。
电子设备根据替换完成的特征标签,以及每一特征标签所对应的分词,生成文本抽样模式。
电子设备根据生成的文本抽样模式进行文本模式抽样,也就是根据文本抽样模式在上述多个样本评论中进行评论抽取,并确定抽取到的评论所对应的第二标签,得到文本模式集合。另外,电子设备还可以根据生成的文本抽样模式,生成新的词语特征集合,并返回执行上述从词语特征集合中有放回的随机抽取多个词语特征的步骤,直至确定每一样本评论的第二标签为止。
通过上述步骤S1031,电子设备可以利用Bootstrapping算法,确定每一样本评论所对应的第二标签,有效提高了确定出的第二标签的准确性。
针对上述步骤S104,即利用多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
在一些实施例中,根据上述图1所示的方法,本公开实施例还提供了一种模型训练方法。如图5所示,图5为本公开实施例提供的模型训练方法的第四种路程示意图。在图5所示的方法中,上述步骤S104可以细化为以下步骤,即步骤S1041-步骤S1043。
步骤S1041,针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记。
在本步骤中,针对每一样本评论,电子设备可以将该样本评论输入预设SVM分类模型,预设SVM分类模型将根据样本评论的特征信息,预测该样本评论与上述样本对象是否相关,并输出指示该样本评论与样本对象是否相关的第三标记,电子设备获取预设SVM分类模型输出的该样本评论对应的第三标记。
上述第三标记可以为上述第一标识或第二标识。
在一些实施例中,在将上述样本评论输入预设SVM分类模型时,电子设备可以将样本评论对应的特征向量输入预设SVM分类模型。或者,上述预设SVM分类模型中包括特征提取模块,电子设备可以将上述样本评论输入预设SVM分类模型,由预设SVM分类模型中的特征提取模块提取样本评论的特征信息得到特征向量,从而基于该特征向量进行评论识别。在此,对预设SVM分类模型的结构不作具体限定。
步骤S1042,根据每一样本评论对应的第二标记和第三标记,计算预设SVM分类模型的损失值。
在本步骤中,电子设备可以根据每一样本评论对应的第二标记和第三标记,利用预设损失函数,计算预设SVM分类模型的损失值。
例如,针对每一样本评论,电子设备可以将该样本评论对应的第二标记与第三标记进行比较。电子设备可以统计第二标记和第三标记不同的样本评论的数量作为预设SVM分类模型的损失值。除此以外,电子设备可以还可以利用多种损失函数,如均方差损失函数(Mean Squared Error,MSE)、交叉熵损失函数等,计算预设SVM分类模型的损失值。在此,对上述损失值的计算方式不作具体限定。
步骤S1043,在预设SVM分类模型未收敛时,基于损失值调整预设SVM分类模型的参数,并返回执行针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤,直至预设SVM分类模型收敛时,将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。
在本公开实施例中,电子设备可以基于预设SVM分类模型的损失值或者预设SVM分类模型的训练次数,确定预设SVM分类模型是否收敛。在此,对预设SVM分类模型的收敛判断方法不作具体限定。
当上述预设SVM分类模型未收敛时,电子设备可以基于上述损失值调整预设SVM分类模型的参数,并返回执行上述步骤S1041,即返回执行针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤。
当上述预设SVM分类模型收敛时,电子设备可以确定预设SVM分类模型训练完成。此时,电子设备可以将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。
上述预设SVM分类模型的参数可以为预设SVM分类模型中的权重和偏置量。电子设备可以利用梯度下降法,或反向调节法对预设SVM分类模型的参数进行调整。在此,对上述预设SVM分类模型的参数调整过程不作具体说明。
通过上述步骤S1041-步骤S1043,电子设备可以利用上述多个样本评论和每一样本评论的第二标记,对预设SVM分类模型进行训练,得到用于评论识别的目标模型,有效提高了训练得到的目标模型的准确性,从而提高了后期利用该目标模型进行评论识别的准确性。
在图5所示的实施例中,仅以预设二分类模型为预设SVM分类模型为例进行说明。除此以外,电子设备还可以采用其他二分类模型作为预设二分类模型。在此,对上述预设二分类模型不作具体限定。
基于同一种发明构思,根据上述本公开实施例提供的模型训练方法,本公开实施例还提供了一种评论识别方法。该方法应用于电子设备。上述模型训练的电子设备与评论识别的电子设备可以为同一设备,也可以为不同设备,在此,对这两个电子设备不作具体限定。为便于理解,下面仅以模型训练的电子设备与评论识别的电子设备为同一设备为例进行说明,并不起任何限定作用。如图6所示,图6为本公开实施例提供的评论识别方法的第一种流程示意图。该方法包括以下步骤。
步骤S601,获取目标对象的至少一个待识别评论。
在本公开实施例中,上述目标对象可以为企业、商品、明星话题或社会话题等。在此,对上述目标对象不作具体限定。另外,目标对象的数量可以为一个,也可以为多个。在此,对上述目标对象的数量,不作具体限定。
在一些实施例中,上述待识别评论可以为上述目标对象所对应的全部评论,也可以为针对目标对应的全部评论进行预处理后的评论。预处理的方式可参照上述步骤S101中的预处理方式,在此不作具体说明。
步骤S602,针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,目标模型为上述模型训练方法训练得到的用于评论识别的二分类模型。
在本步骤中,针对每一待识别评论,电子设备可以将该待识别评论输入上述步骤S104所训练得到的目标模型中,得到该样本评论的第四标记。第四标记的确定过程可参照上述第三标记的确定过程,在此不作具体说明。
通过图6所示的方法,电子设备可以利用本公开实施例提供的模型训练方法所训练得到的目标模型,对待识别评论进行识别,从而确定待识别评论与目标对象是否相关,在实现的评论识别的同时,有效提高了评论识别的准确性。
在一些实施例中,根据上述图6所示的方法,本公开实施例还提供了一种评论识别方法。如图7所示,图7为本公开实施例提供的评论识别方法的第二种流程示意图。该方法包括以下步骤。
步骤S701,获取目标对象的至少一个待识别评论。
步骤S702,针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,目标模型为上述模型训练方法训练得到的用于评论识别的二分类模型。
上述步骤S701-步骤S702与上述步骤S601-步骤S602相同。
步骤S703,针对第四标记为第二标识的每一待识别评论,确定发表该待识别评论的目标用户。
在本步骤中,针对每一待识别评论,通过上述步骤S702电子设备可以确定该待识别评论的第四标记不是上述第一标识,就是上述第二标识。此时,针对第四标记为上述第二标识的每一待识别评论,电子设备可以确定发表该待识别评论的用户,作为目标用户。
在本公开实施例中,上述目标用户可以表示为用户的姓名、账号名称、身份标识等。在此,对上述目标用户的表示方式不作具体限定。
上述步骤S703确定出的目标用户的数量可以为一个,也可以为多个。在此,对上述目标用户的数量不作具体限定。为便于理解,下面仅以一个目标用户为例进行说明,并不起任何限定作用。
步骤S704,获取目标用户在当前时间前第一时长内发表的评论,作为待分析评论。
在本步骤中,电子设备可以根据目标用户的账号信息,获取目标用户在当前时间前第一时长内发表的所有评论,作为待分析评论。
上述第一时长可以为一周、一个月、两个月、一年等。在此,上述第一时长不作具体限定。为便于理解,下面以第一时长为一个月为例进行说明,并不起任何限定作用。
步骤S705,基于待分析评论,计算该目标用户的第二指标值,第二指标值用于指示目标用户恶意发表评论的概率。
上述第二指标值与目标用户恶意发表评论的概率成正比。也就是目标用户的第二指标值越小,该目标用户恶意发表评论的概率越小;目标用户的第二指标值越大,该目标用户恶意发表评论的概率越大。关于上述第二指标值的计算过程可参见下文描述,在此不作具体说明。
步骤S706,在第二指标值大于预设阈值时,将目标用户确定为恶意评论用户。
在本步骤中,电子设备在确定上述目标用户的第二指标值后,可以将该第二指标值与预设阈值进行比较。当第二指标值大于预设阈值时,电子设备可以确定目标用户恶意发表评论,此时,电子设备可以将该目标用户确定为恶意评论用户。
在一些实施例中,当上述目标用户的第二指标值小于等于预设阈值时,电子设备可以确定目标用户没有恶意发表评论,此时,电子设备可以将目标用户确定为正常评论用户。
通过上述步骤S703-步骤S706,电子设备可以根据每一目标用户的第二指标值,确定该目标用户是否恶意发表评论,从而确定出恶意评论用户,有效提高了确定出的恶意评论用户的准确性。
在一些实施例中,当上述目标对象为商品时,根据上述图7所示的方法,本公开实施例还提供了一种评论识别方法。如图8所示,图8为本公开实施例提供的评论识别方法的第三种流程示意图。在图8所示的方法中,将上述步骤S705细化为以下步骤,即步骤S7051-步骤S7055。
步骤S7051,基于待分析评论,计算目标用户在第一时长内针对不同商品首次发表的评论数量与第一时长内发表的评论总数量间的比值,作为第一比值。
在本步骤中,电子设备可以根据目标用户的待分析评论,统计该目标用户在第一时长内针对不同商品首次发表的评论数量,也就是目标用户所发表的评论关联的商品数量,并统计该目标用户在第一时长内发表的评论的总数量。电子设备可以计算这两个数量间的比值,得到第一比值。
在一些实施例中,电子设备可以利用以下公式,计算上述第一比值P1。
其中,D1为目标用户在第一时长内针对不同商品首次发表的评论数量,D2为目标用户在第一时长内发表的评论总数量。
上述第一比值用于指示目标用户的首次评论比例,该第一比值与用户恶意发表评论的概率成正比。
步骤S7052,基于待分析评论,计算目标用户在第一时长内评论的商品数量与目标用户在第一时长内购买商品数量间的比值,作为第二比值。
在本步骤中,电子设备可以根据目标用户的待分析评论,统计目标用户在第一时长内所发表的评论关联的商品数量,得到目标用户在第一时长内评论的商品数量。电子设备还可以根据目标用户的账户信息,获取其在第一时长内的购买记录,并确定目标用户在第一时长内购买的商品数量。电子设备计算这两个数量间的比值,作为第二比值。
在一些实施例中,电子设备可以利用以下公式,计算上述第二比值P2。
其中,D3为目标用户在第一时长内评论的商品数量,D2为目标用户在第一时长内购买的商品数量。上述D3与上述D1相同。
上述第二比值用于指示目标用户针对其购买的商品发表的评论的比例。该第二比值与用户恶意发表评论的概率成正比。
步骤S7053,基于待分析评论,计算目标用户在预设时间范围内发表的评论数量与该目标用户在第一时长内发表的评论总数量间的比值,作为第三比值。
在本步骤中,电子设备可以根据目标用户的待分析评论,统计目标用户在预设时间范围内发表的评论数量,并统计目标用户在第一时长内发表的评论总数量。电子设备可以计算这两个数量的比值,作为第三比值。
在一些实施例中,电子设备可以利用以下公式,计算上述第三比值P3。
其中,D5为目标用户在预设时间范围内发表的评论数量。
在本公开实施例中,上述预设时间范围可以为用户的正常工作时间范围。例如,预设时间范围可以为:9:00-11:00,13:00-17:00。在此,对上述预设时间范围不作具体限定。
上述第三比值用于指示用户在工作时间发表评论的比例,该第三比值与用户恶意发表评论的概率成正比。
步骤S7054,基于待分析评论,计算该目标用户在当前时间前第二时长内发表的评论数量与第二时长的比值,作为第四比值,第二时长小于等于第一时长。
在本步骤中,电子设备可以根据目标用户的待分析评论,统计目标用户在当前时间前第二时长内发表的评论数量。电子设备可以计算该评论数量与第二时长的比值,作为第四比值。
在一些实施例中,电子设备可以利用以下公式,计算上述第四比值P4。
其中,D6为目标用户在当前时间前第二时长内发表的评论数量,T为上述第二时长。
在本公开实施例中,上述第二时长可以小于等于第一时长。为便于理解,仅以第二时长小于第一时长为例进行说明。当上述第一时长为一个月时,上述第二时长可以为一周;当上述第一时长为一周时,上述第二时长可以为一天或三天等。
上述第二时长可以根据第一时长进行设定,在此,对上述第二时长不作具体限定。
上述第四比值用于指示用户在第二时长发表评论的频率。该第四比值与用户恶意发表评论的概率成正比。
在本公开实施例中,对上述步骤S7051、步骤S7052、步骤S7053和步骤S7054的执行顺序不作具体限定。
步骤S7055,计算第一比值、第二比值、第三比值和第四比值的加权和,作为目标用户的第二指标值。
在本步骤中,电子设备可以确定上述第一比值、第二比值、第三比值和第四比值所对应的权重,并计算第一比值、第二比值、第三比值和第四比值的加权和,作为目标用户的第二指标值。
在一些实施例中,电子设备可以利用以下公式,确定第一比值、第二比值、第三比值和第四比值所对应的权重。
在一些实施例中,电子设备可以利用以下公司,计算上述目标用户的第二指标值。
其中,P为目标用户的第二指标值。
通过上述步骤S7051-步骤S7055,电子设备可以根据目标用户的待分析评论,计算得到上述第一比值、第二比值、第三比值和第四比值,从而基于第一比值、第二比值、第三比值和第四比值,计算得到目标用户的第二指标值,在保证计算得到的第二指标值的准确性的同时,可以使得该第二指标值与目标用户是否恶意发表评论高度相关,从而提高基于该第二指标值确定目标用户是否为恶意评论用户的准确性。
在上述步骤S7051-步骤S7055所示的实施例中,仅以目标对象为商品,利用上述第一比值、第二比值、第三比值和第四比值计算目标用户的第二指标值为例进行说明。当上述目标对象为其他对象时,例如目标对象为某一明星话题时,上述恶意评论用户可能是大量的网络水军(即在网络中针对特定内容发布特定信息的、被雇佣的网络写手)。此时,考虑到网络水军往往属于同一公司,电子设备还可以获取该话题中每一评论对应的IP地址,确定出该话题所包括的评论中,相同IP地址或相近IP地址发表的所占的比例,作为上述第二指标值计算所需的一个比值。因此,根据上述目标对象、具体应用场景的不同,上述目标用户的第二指标值的计算方式也有所不同,在此,对上述第二指标值的计算方式不作具体限定。
在一些实施例中,根据上述图7所示的方法,本公开实施例还提供了一种评论识别方法。如图9所示,图9为本公开实施例提供的评论识别方法的第四种流程示意图。在图9所示的方法中,在步骤S706之后可以包括步骤S707。
步骤S707,针对恶意评论用户执行预设操作。
在本步骤中,通过上述步骤S706确定,目标用户为恶意评论用户后,电子设备可以该恶意评论用户执行预设操作。其中,预设操作包括但不限于账号监控、账户功能限制等。
例如,电子设备可以针对恶意评论用户进行账户监控,在监测到该恶意评论用户再次发布大量恶意评论时,可以提示该恶意评论用户无法进行评论,或者进行告警等。
在本公开实施例中,根据应用场景的不同,电子设备可以针对恶意评论用户执行不同的预设操作。在此,对上述针对恶意评论用户执行的预设操作不作具体限定。
通过上述步骤S707,电子设备可以针对恶意评论用户执行预设操作,可以实现对恶意评论用户的处理,降低用户恶意评论的概率。
在本公开实施例中,电子设备除了针对恶意评论用户执行预设操作以外,还可以根据上述正常评论用户发表的评论,进行商业赋能。例如,正常评论用户中多数反映商品的颜色单一,此时商家可以根据丰富商品的颜色,提高用户的购买力。
基于同一种发明构思,根据上述本公开实施例提供的模型训练方法,本公开实施例还提供了一种模型训练装置。如图10所示,图10为本公开实施例提供的模型训练装置的一种结构示意图。该装置包括以下模块。
第一获取模块1001,用于获取预设训练集,预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,第一标记为:指示样本评论与样本对象相关的第一标识,或者指示样本评论与样本对象不相关的第二标识;
第一计算模块1002,用于针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,第一指标值用于指示分词的在多个样本评论中的重要程度;
第一确定模块1003,用于基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,第二标记为第一标识或第二标识;
训练模块1004,用于利用多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
在一些实施例中,上述第一计算模块1002,具体可以用于针对每一样本评论,计算该样本评论中包括的每一分词在多个样本评论中出现的次数与多个样本评论中包括的该分词的数量的商,作为该分词的词频;基于多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重;计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。
在一些实施例中,上述第一确定模块1003,具体可以用于利用Bootstrapping算法,对多个样本评论中包括的分词进行多次抽取,并根据抽取到的分词,每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记。
在一些实施例中,上述训练模块1004,具体可以用于针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记;根据每一样本评论对应的第二标记和第三标记,计算预设SVM分类模型的损失值;在预设SVM分类模型未收敛时,基于损失值调整预设SVM分类模型的参数,并返回执行针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤,直至预设SVM分类模型收敛时,将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。
基于同一种发明构思,根据上述本公开实施例提供的评论识别方法,本公开实施例还提供了一种评论识别装置。如图11所示,图11为本公开实施例提供的评论识别装置的一种结构示意图。该装置包括以下模块。
第二获取模块1101,用于获取目标对象的至少一个待识别评论;
识别模块1102,用于针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,目标模型为上述模型训练方法训练得到的用于评论识别的二分类模型。
在一些实施例中,上述评论识别装置还可以包括:
第二确定模块,用于针对第四标记为第二标识的每一待识别评论,确定发表该待识别评论的目标用户;
第三获取模块,用于获取目标用户在当前时间前第一时长内发表的评论,作为待分析评论;
第二计算模块,用于基于待分析评论,计算该目标用户的第二指标值,第二指标值用于指示目标用户恶意发表评论的概率;
第三确定模块,用于在第二指标值大于预设阈值时,将目标用户确定为恶意评论用户。
在一些实施例中,当目标对象为商品时,上述第二计算模块,具体可以用于基于待分析评论,计算目标用户在第一时长内针对不同商品首次发表的评论数量与第一时长内发表的评论总数量间的比值,作为第一比值;
基于待分析评论,计算目标用户在第一时长内评论的商品数量与目标用户在第一时长内购买商品数量间的比值,作为第二比值;
基于待分析评论,计算目标用户在预设时间范围内发表的评论数量与该目标用户在第一时长内发表的评论总数量间的比值,作为第三比值;
基于待分析评论,计算该目标用户在当前时间前第二时长内发表的评论数量与第二时长的比值,作为第四比值,第二时长小于等于第一时长;
计算第一比值、第二比值、第三比值和第四比值的加权和,作为目标用户的第二指标值。
在一些实施例中,上述评论识别装置还可以包括:
执行模块,用于针对恶意评论用户执行预设操作。
通过本公开实施例提供的装置,在获取到预设训练集后,也就是在获取到多个样本评论以及每一样本评论对应的第一标记后,针对每一样本评论,计算该样本评论中包括的每一分词对应的第一指标值,从而基于该样本评论对应的第一标记和每一分词对应的第一指标值,确定每一样本评论的第二标记,进而利用预设训练集中的每一样本评论以及每一样本评论的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。相比于相关技术,通过预设训练集中每一样本评论的第一标记,以及各样本评论中包括的每一分词所对应的第一指标值,重新确定各样本评论对应的第二标记,有效提高了确定出的第二标记的准确性,从而使得基于该第二标记训练得到的目标模型可以准确识别出与目标对象相关和不相关的评论,这有效提高了训练得到的目标模型的准确性,从而提高了后期评论识别的准确性。
基于同一种发明构思,根据上述本公开实施例提供的模型训练方法,本公开实施例还提供了一种电子设备,该电子设备用于模型训练,如图12所示,包括处理器1201、通信接口1202、存储器1203和通信总线1204,其中,处理器1201,通信接口1202,存储器1203通过通信总线1204完成相互间的通信,
存储器1203,用于存放计算机程序;
处理器1201,用于执行存储器1203上所存放的程序时,实现如下步骤:
获取预设训练集,预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,第一标记为:指示样本评论与样本对象相关的第一标识,或者指示样本评论与样本对象不相关的第二标识;
针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,第一指标值用于指示分词的在多个样本评论中的重要程度;
基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,第二标记为第一标识或第二标识;
利用多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
基于同一种发明构思,根据上述本公开实施例提供的评论识别方法,本公开实施例还提供了一种电子设备,该电子设备用于评论识别,如图13所示,包括处理器1301、通信接口1302、存储器1303和通信总线1304,其中,处理器1301,通信接口1302,存储器1303通过通信总线1304完成相互间的通信,
存储器1303,用于存放计算机程序;
处理器1301,用于执行存储器1303上所存放的程序时,实现如下步骤:
获取目标对象的至少一个待识别评论;
针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,目标模型为上述模型训练方法训练得到的用于评论识别的二分类模型。
通过本公开实施例提供的电子设备,在获取到预设训练集后,也就是在获取到多个样本评论以及每一样本评论对应的第一标记后,针对每一样本评论,计算该样本评论中包括的每一分词对应的第一指标值,从而基于该样本评论对应的第一标记和每一分词对应的第一指标值,确定每一样本评论的第二标记,进而利用预设训练集中的每一样本评论以及每一样本评论的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。相比于相关技术,通过预设训练集中每一样本评论的第一标记,以及各样本评论中包括的每一分词所对应的第一指标值,重新确定各样本评论对应的第二标记,有效提高了确定出的第二标记的准确性,从而使得基于该第二标记训练得到的目标模型可以准确识别出与目标对象相关和不相关的评论,这有效提高了训练得到的目标模型的准确性,从而提高了后期评论识别的准确性。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。在一些实施例中,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于同一种发明构思,根据上述本公开实施例提供的模型训练方法,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一模型训练方法的步骤。
基于同一种发明构思,根据上述本公开实施例提供的评论识别方法,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一评论识别方法的步骤。
基于同一种发明构思,根据上述本公开实施例提供的模型训练方法,本公开实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一模型训练方法。
基于同一种发明构思,根据上述本公开实施例提供的评论识别方法,本公开实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一评论识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质及计算机程序产品等实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本公开的较佳实施例,并非用于限定本公开的保护范围。凡在本公开的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本公开的保护范围内。
Claims (18)
1.一种模型训练方法,其特征在于,所述方法包括:
获取预设训练集,所述预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,所述第一标记为:指示所述样本评论与所述样本对象相关的第一标识,或者指示所述样本评论与所述样本对象不相关的第二标识;
针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,所述第一指标值用于指示所述分词的在所述多个样本评论中的重要程度;
基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,所述第二标记为所述第一标识或所述第二标识;
利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
2.根据权利要求1所述的方法,其特征在于,所述针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值的步骤,包括:
针对每一样本评论,计算该样本评论中包括的每一分词在所述多个样本评论中出现的次数与所述多个样本评论中包括的该分词的数量的商,作为该分词的词频;
基于所述多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重;
计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。
3.根据权利要求1所述的方法,其特征在于,所述基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记的步骤,包括:
利用自拓展Bootstrapping算法,对所述多个样本评论中包括的分词进行多次抽取,并根据抽取到的分词,每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记。
4.根据权利要求1所述的方法,其特征在于,所述利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型的步骤,包括:
针对每一样本评论,将该样本评论输入预设支持向量机SVM分类模型,得到该样本评论对应的第三标记;
根据每一样本评论对应的第二标记和第三标记,计算所述预设SVM分类模型的损失值;
在所述预设SVM分类模型未收敛时,基于所述损失值调整所述预设SVM分类模型的参数,并返回执行所述针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤,直至所述预设SVM分类模型收敛时,将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。
5.一种评论识别方法,其特征在于,所述方法还包括:
获取目标对象的至少一个待识别评论;
针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,所述目标模型为权利要求1-4中任一项所述的方法训练得到的用于评论识别的二分类模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
针对所述第四标记为所述第二标识的每一待识别评论,确定发表该待识别评论的目标用户;
获取所述目标用户在当前时间前第一时长内发表的评论,作为待分析评论;
基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率;
在所述第二指标值大于预设阈值时,将所述目标用户确定为恶意评论用户。
7.根据权利要求6所述的方法,其特征在于,当所述目标对象为商品时,所述基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率的步骤,包括:
基于所述待分析评论,计算所述目标用户在所述第一时长内针对不同商品首次发表的评论数量与所述第一时长内发表的评论总数量间的比值,作为第一比值;
基于所述待分析评论,计算所述目标用户在所述第一时长内评论的商品数量与所述目标用户在所述第一时长内购买商品数量间的比值,作为第二比值;
基于所述待分析评论,计算所述目标用户在预设时间范围内发表的评论数量与该目标用户在所述第一时长内发表的评论总数量间的比值,作为第三比值;
基于所述待分析评论,计算该目标用户在当前时间前第二时长内发表的评论数量与所述第二时长的比值,作为第四比值,所述第二时长小于等于所述第一时长;
计算所述第一比值、所述第二比值、所述第三比值和所述第四比值的加权和,作为所述目标用户的第二指标值。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
针对所述恶意评论用户执行预设操作。
9.一种模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取预设训练集,所述预设训练集包括样本对象的多个样本评论,以及每一样本评论对应的第一标记,所述第一标记为:指示所述样本评论与所述样本对象相关的第一标识,或者指示所述样本评论与所述样本对象不相关的第二标识;
第一计算模块,用于针对每一样本评论,计算该样本评论中包括的每一分词所对应的第一指标值,所述第一指标值用于指示所述分词的在所述多个样本评论中的重要程度;
第一确定模块,用于基于每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记,所述第二标记为所述第一标识或所述第二标识;
训练模块,用于利用所述多个样本评论和每一样本评论对应的第二标记,对预设二分类模型进行训练,得到用于评论识别的目标模型。
10.根据权利要求9所述的装置,其特征在于,所述第一计算模块,具体用于针对每一样本评论,计算该样本评论中包括的每一分词在所述多个样本评论中出现的次数与所述多个样本评论中包括的该分词的数量的商,作为该分词的词频;基于所述多个样本评论的数量和包括每一分词的样本评论的数量,计算该分词的权重;计算每一分词对应的词频与权重的乘积,作为该分词的第一指标值。
11.根据权利要求9所述的装置,其特征在于,所述第一确定模块,具体用于利用自拓展Bootstrapping算法,对所述多个样本评论中包括的分词进行多次抽取,并根据抽取到的分词,每一样本评论对应的第一标记,以及每一分词对应的第一指标值,确定每一样本评论对应的第二标记。
12.根据权利要求9所述的装置,其特征在于,所述训练模块,具体用于针对每一样本评论,将该样本评论输入预设支持向量机SVM分类模型,得到该样本评论对应的第三标记;根据每一样本评论对应的第二标记和第三标记,计算所述预设SVM分类模型的损失值;在所述预设SVM分类模型未收敛时,基于所述损失值调整所述预设SVM分类模型的参数,并返回执行所述针对每一样本评论,将该样本评论输入预设SVM分类模型,得到该样本评论对应的第三标记的步骤,直至所述预设SVM分类模型收敛时,将当前时刻的预设SVM分类模型确定为用于评论识别的目标模型。
13.一种评论识别装置,其特征在于,所述装置还包括:
第二获取模块,用于获取目标对象的至少一个待识别评论;
识别模块,用于针对每一待识别评论,将该待识别评论输入预选训练好的目标模型,得到该待识别评论的第四标记,其中,所述目标模型为权利要求1-4中任一项所述的方法训练得到的用于评论识别的二分类模型。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于针对所述第四标记为所述第二标识的每一待识别评论,确定发表该待识别评论的目标用户;
第三获取模块,用于获取所述目标用户在当前时间前第一时长内发表的评论,作为待分析评论;
第二计算模块,用于基于所述待分析评论,计算该目标用户的第二指标值,所述第二指标值用于指示所述目标用户恶意发表评论的概率;
第三确定模块,用于在所述第二指标值大于预设阈值时,将所述目标用户确定为恶意评论用户。
15.根据权利要求14所述的装置,其特征在于,当所述目标对象为商品时,所述第二计算模块,具体用于基于所述待分析评论,计算所述目标用户在所述第一时长内针对不同商品首次发表的评论数量与所述第一时长内发表的评论总数量间的比值,作为第一比值;
基于所述待分析评论,计算所述目标用户在所述第一时长内评论的商品数量与所述目标用户在所述第一时长内购买商品数量间的比值,作为第二比值;
基于所述待分析评论,计算所述目标用户在预设时间范围内发表的评论数量与该目标用户在所述第一时长内发表的评论总数量间的比值,作为第三比值;
基于所述待分析评论,计算该目标用户在当前时间前第二时长内发表的评论数量与所述第二时长的比值,作为第四比值,所述第二时长小于等于所述第一时长;
计算所述第一比值、所述第二比值、所述第三比值和所述第四比值的加权和,作为所述目标用户的第二指标值。
16.根据权利要求14所述的装置,其特征在于,所述装置还包括:
执行模块,用于针对所述恶意评论用户执行预设操作。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4或5-8任一所述的方法步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4或5-8任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547432.9A CN114911936A (zh) | 2022-05-18 | 2022-05-18 | 一种模型训练、评论识别方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210547432.9A CN114911936A (zh) | 2022-05-18 | 2022-05-18 | 一种模型训练、评论识别方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114911936A true CN114911936A (zh) | 2022-08-16 |
Family
ID=82769469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210547432.9A Pending CN114911936A (zh) | 2022-05-18 | 2022-05-18 | 一种模型训练、评论识别方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114911936A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905548A (zh) * | 2023-03-03 | 2023-04-04 | 美云智数科技有限公司 | 水军识别方法、装置、电子设备及存储介质 |
-
2022
- 2022-05-18 CN CN202210547432.9A patent/CN114911936A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905548A (zh) * | 2023-03-03 | 2023-04-04 | 美云智数科技有限公司 | 水军识别方法、装置、电子设备及存储介质 |
CN115905548B (zh) * | 2023-03-03 | 2024-05-10 | 美云智数科技有限公司 | 水军识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599774B1 (en) | Evaluating content items based upon semantic similarity of text | |
CN108664574B (zh) | 信息的输入方法、终端设备及介质 | |
WO2021042521A1 (zh) | 一种合同自动生成方法、计算机设备及计算机非易失性存储介质 | |
US10637826B1 (en) | Policy compliance verification using semantic distance and nearest neighbor search of labeled content | |
CN109582833B (zh) | 异常文本检测方法及装置 | |
CN109508373B (zh) | 企业舆情指数的计算方法、设备及计算机可读存储介质 | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
US10055741B2 (en) | Method and apparatus of matching an object to be displayed | |
CN112163153A (zh) | 行业标签的确定方法、装置、设备及存储介质 | |
CN112560491A (zh) | 一种基于ai技术的信息抽取方法、装置和存储介质 | |
US20170011480A1 (en) | Data analysis system, data analysis method, and data analysis program | |
US20170109697A1 (en) | Document verification | |
CN112966102A (zh) | 分类模型构建及文本语句分类方法、设备及存储介质 | |
WO2019041528A1 (zh) | 新闻情感方向判断方法、电子设备及计算机可读存储介质 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN112667893A (zh) | 基于智能识别和大数据的信息推送方法及区块链金融平台 | |
CN114911936A (zh) | 一种模型训练、评论识别方法、装置、电子设备及介质 | |
US20200097605A1 (en) | Machine learning techniques for automatic validation of events | |
CN117575650A (zh) | 绘制用户体验地图的方法、装置、设备及存储介质 | |
CN112069822B (zh) | 一种词向量表示的获取方法、装置、设备及可读介质 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
WO2024001656A1 (zh) | 日志异常的检测方法、设备及存储介质 | |
CN112487181B (zh) | 关键词确定方法和相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |