CN112463963A

CN112463963A - 识别目标舆情的方法、模型训练方法及装置

Info

Publication number: CN112463963A
Application number: CN202011374058.4A
Authority: CN
Inventors: 张超
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-09

Abstract

本申请公开了一种识别目标舆情的方法、模型训练方法及装置，该方法将可能包含目标舆情信息的长文本转化为对舆情信息表达更精确的短文本，再首先利用训练得到的短文本分类模型对短文本进行分类，获得的分类结果再利用长文本分类模型进行分类，并以长文本分类结果来识别长文本中是否包含目标舆情信息。相对于现有的直接对长文本进行分类识别，提高了识别的准确率，解决了现有的目标舆情识别方法准确率低的技术问题。

Description

识别目标舆情的方法、模型训练方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种识别目标舆情的方法、模型训练方法及装置。

背景技术

随着互联网技术的发展，网络舆情(例如，广告)铺天盖地。然而，由于网络监管的全面覆盖难度较大，因此，在网络上存在大量的不符合实际情况的虚假网络舆情，这些网络舆情会对大众造成误导。因此，需要将这些不符合实际情况的网络舆情作为目标，识别出来。

现有的针对网络舆情的识别都是对舆情网页文本进行多分类建模，其识别的准确率较低。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种识别目标舆情的方法、模型训练方法及装置，旨在解决现有的目标舆情识别方法准确率低的技术问题。

为实现上述目的，本申请提供一种识别目标舆情的方法，所述方法包括：

获取待识别长文本；

基于所述待识别长文本，获得所述待识别长文本中的短文本；

将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果；

将所述短文本分类结果输入训练得到的长文本分类模型，以获得长文本分类结果；

基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情。

可选地，所述基于所述待识别长文本，获得所述待识别长文本中的短文本的步骤，包括：

将所述待识别长文本输入训练得到的短文本召回模型，以从所述待识别长文本中召回所述短文本。

可选地，所述短文本分类模型为多标签短文本分类模型；所述将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果的步骤，包括：

将所述短文本输入训练得到的多标签短文本分类模型，以获得短文本的类别标签以及所述类别标签对应的第一概率值。

可选地，所述将所述短文本分类结果输入训练得到的长文本分类模型，以获得长文本分类结果的步骤，包括：

将所述类别标签以及所述类别标签对应的第一概率值，输入训练得到的长文本分类模型，以获得所述待识别长文本的类别以及所述类别对应的第二概率值。

可选地，所述基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情的步骤，包括：

基于所述第二概率值与概率阈值的大小关系，判断所述待识别长文本是否包括目标舆情。

可选地，所述获取待识别长文本的步骤之前，所述方法还包括：

获取长文本样本集合；

基于所述长文本样本集合，获得短文本样本集合；

将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型。

可选地，所述将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型的步骤之后，所述方法还包括：

将所述短文本样本集合中的短文本样本输入训练得到的短文本分类模型，以获得短文本样本分类结果；

将所述短文本样本分类结果输入第二待训练模型，以获得长文本分类模型。

此外，为实现上述目的，本申请还提出一种文本分类模型训练方法，其特征在于，所述方法包括：

获取长文本样本集合；

基于所述长文本样本集合，获得短文本样本集合；

此外，为实现上述目的，本申请还提出一种识别目标舆情的装置，所述装置包括：

长文本获取模块，用于获取待识别长文本；

短文本获得模块，用于基于所述待识别长文本，获得所述待识别长文本中的短文本；

第一分类模块，用于将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果；

第二分类模块，用于将所述短文本分类结果输入训练得到的长文本分类模型，以获得长文本分类结果；

舆情识别模块，用于基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情。

此外，为实现上述目的，本申请还提出一种文本分类模型训练装置，所述装置包括：

样本获取模块，用于获取长文本样本集合；

样本获得模块，用于基于所述长文本样本集合，获得短文本样本集合；

模型训练模块，用于将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型。

此外，为实现上述目的，本申请还提供一种电子设备，所述设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现上述方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现上述方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请所能实现的有益效果。

本申请实施例提出的一种识别目标舆情的方法，该方法包括：获取待识别长文本；基于所述待识别长文本，获得所述待识别长文本中的短文本；将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果；将所述短文本分类结果输入训练得到的长文本分类模型，以获得长文本分类结果；基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情。由此可见，该方法将可能包含目标舆情信息的长文本转化为对舆情信息表达更精确的短文本，再首先利用训练得到的短文本分类模型对短文本进行分类，获得的分类结果再利用长文本分类模型进行分类，并以长文本分类结果来识别长文本中是否包含目标舆情信息，相对于现有的直接对长文本进行分类识别，提高了识别的准确率，解决了现有的目标舆情识别方法准确率低的技术问题。

附图说明

图1为本申请实施例中识别目标舆情的方法的流程示意图；

图2为本申请实施例中文本分类模型训练方法流程示意图；

图3为本申请实施例中识别目标舆情的装置示意图；

图4为本申请实施例中文本分类模型训练装置示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请实施例的主要解决方案是：一种识别目标舆情的方法，该方法包括：获取待识别长文本；基于所述待识别长文本，获得所述待识别长文本中的短文本；将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果；将所述短文本分类结果输入训练得到的长文本分类模型，以获得长文本分类结果；基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情。。

在本申请的实施例中，目标舆情是指不符合实情的信息，例如虚假广告、欺骗性的广告以及不符合实情的言论等。一般来说，网页上都会有大量的文本内容，而其中就可能包括一些目标舆情。例如，在汽车销售领域，有很多虚假广告声称“XXX汽车：超级0首付，最高享3年0利息”。这些目标舆情如果通过人工去判断是否为虚假广告，即不准确也不高效。但是用现有的多分类建模的方法，由于舆情网页文本一般都属于长文本，而长文本的信息量大，信息维度多，会对分类产生干扰，因此，其识别的准确率较低。

为此，本申请提供一种解决方案，将可能包含目标舆情信息的长文本转化为对舆情信息表达更精确的短文本，再首先利用训练得到的短文本分类模型对短文本进行分类，获得的分类结果再利用长文本分类模型进行分类，并以长文本分类结果来识别长文本中是否包含目标舆情信息，相对于现有的直接对长文本进行分类识别，提高了识别的准确率，解决了现有的目标舆情识别方法准确率低的技术问题。

实施例一

参照图1，本申请提供一种识别目标舆情的方法，所述方法包括：

S20、获取待识别长文本；

S30、基于所述待识别长文本，获得所述待识别长文本中的短文本；

S40、将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果；

S50、将所述短文本分类结果输入训练得到的长文本分类模型，以获得长文本分类结果；

S60、基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情。

需要说明的是，在本实施例中，长文本是指其中存在有多个分词(即具有实际意义的词语)的文本，对于长文本来说，可以是存在有多个语意的，而这每一个或两个语意所表现出来的就是一个短文本。因此，短文本是相对于长文本而言的，两者文字字数的多少没有绝对关系，但一般来说，对于从一个长文本中提取出来的短文本，则该短文本一般字数都比该长文本少。

举例来说，文本“需要一张身份证和驾驶证。就可贷款买车！首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】！专业办理，零首付购车，前期不花一分钱。4S店贷款做不下来贷款在我这99％都能做！可上外地牌照，分期当天提车，手续简单！轻松解决购车难题”是一个长文本。而基于该长文本获得的短文本可以包括：首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】。

因此，关于长文本与短文本的解释可以参照该例子来理解，这里不再过多的举例说明。

下面结合图1，对本实施例方法的具体执行过程进行详细的说明。

首先，执行S20、获取待识别长文本。

在具体实施过程中，待识别长文本可以是网页的文本内容，可能包含目标舆情，也可能不包含，因此，需要执行后续步骤，来对其进行识别。

具体的，获取的方式可以是网页获取。

举例来说，待识别长文本为“需要一张身份证和驾驶证。就可贷款买车！首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】！专业办理，零首付购车，前期不花一分钱。4S店贷款做不下来贷款在我这99％都能做！可上外地牌照，分期当天提车，手续简单！轻松解决购车难题”。

接下来，执行S30、基于所述待识别长文本，获得所述待识别长文本中的短文本。

在具体实施过程中，为了提高后续分类的准确率，首先要从长文本中获得语意更单一和清楚的短文本，该短文本包含了长文本中舆情的核心信息。也就是说，如果有长文本中包含目标舆情，则获取的短文本具有能体现目标舆情的核心信息。

举例来说，如果待识别长文本为“需要一张身份证和驾驶证。就可贷款买车！首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】！专业办理，零首付购车，前期不花一分钱。4S店贷款做不下来贷款在我这99％都能做！可上外地牌照，分期当天提车，手续简单！轻松解决购车难题”的虚假广告。则短文本可以包括：首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】。短文本涵盖了该关于汽车的虚假广告的核心信息。

此外，获取短文本的方式可以是人工获取，但人工获取效率极低，且准确率无法保证。

作为一种实施例，所述基于所述待识别长文本，获得所述待识别长文本中的短文本的步骤，包括：

具体的，短文本召回模型是根据长文本样本和短文本样本训练获得的。利用短文本召回模型可快速准确的从所述待识别长文本中召回所述短文本。

接下来，执行S40、将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果。

在具体实施过程中，短文本分类模型是根据短文本样本训练获得。

为了获得短文本分类模型，作为一种实施例，所述获取待识别长文本的步骤之前，所述方法还包括：

获取长文本样本集合；

基于所述长文本样本集合，获得短文本样本集合；

首先，执行获取长文本样本集合的步骤。

在具体实施过程中，通过网络采集大量的长文本样本，形成长文本样本集合。其中，长文本样本集合中包括包含目标舆情的长文本和不包含目标舆情的长文本。

为了获得短文本样本，接下来，执行基于所述长文本样本集合，获得短文本样本集合的步骤。

在具体实施过程中，也可以通过短文本召回模型来获得短文本样本集合。可以理解的是，短文本样本集合中也包括包含目标舆情的长文本所提取出的短文本样本以及不包含目标舆情的长文本提取出的短文本样本。

接下来，执行将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型的步骤。

在具体实施过程中，将包含目标舆情的长文本所提取出的短文本样本以及不包含目标舆情的长文本提取出的短文本样本输入第一待训练模型，训练至满足结束条件后，则可以获得短文本分类模型。

具体的，由于短文本类别集合一般有多个，所以可以采用多标签分类模型。以前述的短文本“首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】”为例。“首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】”中有多个类别标签，依次对应为：低首付，户籍，车型，征信，逾期。

因此，在一种实施例中，第一待训练模型为多标签分类模型，则训练获得的短文本分类模型为多标签短文本分类模型。

在另一实施例中，第一待训练模型也可以是阅读理解模型。将召回的短文本看做doc，将短文本类别文本看做question，训练模型，预测answer的起止位置。例如，doc是“首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】”，question是低首付，预测的answer是“首付20％起”。

在训练获得短文本分类模型之后，在一个实施例中，所述将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型的步骤之后，所述方法还包括：

在具体实施过程中，获得短文本分类模型之后，为了获得长文本分类模型，需要首先执行将所述短文本样本集合中的短文本样本输入训练得到的短文本分类模型，以获得短文本样本分类结果。

可以理解的是，短文本样本分类结果也可以在获得短文本分类模型(即第一待训练模型训练达到结束条件时的分类结果)时获得。

举例来说，若短文本分类模型为多标签短文本分类模型，则短文本样本分类结果为短文本不同类别标签的概率值[0.0,1.0]，例如，

短文本：首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】，对应的类别标签依次为：低首付，户籍，车型，征信，逾期；

短文本样本分类结果为：{低首付:0.9，户籍:0.9，车型:0.9，征信:0.9，逾期:0.9}。

接下来，执行将所述短文本样本分类结果输入第二待训练模型，以获得长文本分类模型。

在具体实施过程中，长文本分类模型是基于特征的多类别分类模型；由于从长文本中召回的短文本的分类结果与长文本的类别存在对应关系，因此，可以通过短文本样本分类结果输入第二待训练模型，以获得长文本分类模型。

第二待训练模型可以为LR(Logistic Regression，逻辑回归模型)，或XGBoost(Extreme Gradient Boosting，梯度提升模型)或DNN(Deep Neural Networks，深度神经网络)。

至此，本实施例通过前述训练步骤，训练获得了短文本分类模型和长文本分类模型。

因此，在S40中，作为一种实施例，所述短文本分类模型为多标签短文本分类模型；所述将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果的步骤，包括：

其中，短文本的类别标签以及所述类别标签对应的第一概率值包含了主要的舆情信息，因此，短文本的类别标签以及所述类别标签对应的第一概率值作为后续长文本分类模型的输入，以获得长文本的分类结果，识别更准确。

举例来说，短文本为：首付20％起，不限户籍，不限车型，不看征信，【有逾期的的尽管过来】；对应的类别标签依次为：低首付，户籍，车型，征信，逾期；则短文本的类别标签以及所述类别标签对应的第一概率值为：{低首付:0.9，户籍:0.9，车型:0.9，征信:0.9，逾期:0.9}，即标签“低首付”的第一概率值为0.9。

在执行完S40后，接下来，执行S50、将所述短文本分类结果输入训练得到的长文本分类模型，以获得长文本分类结果。

在具体实施过程中，将S40获得的将所述类别标签以及所述类别标签对应的第一概率值，输入训练得到的长文本分类模型，可以获得所述待识别长文本的类别以及所述类别对应的第二概率值。

最后，执行S60、基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情。

在具体实施过程中，长文本分类结果包括待识别长文本的类别以及所述类别对应的第二概率值。

具体的，长文本的类别可以包括有风险和无风险，而第二概率值则是该待识别长文本属于有风险类别或无风险类别的概率值。

作为一种实施例，所述基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情的步骤，包括：

其中，概率阈值可以根据情况进行设置，在具体实施过程中，可以设置当属于有风险类别的第二概率值大于概率阈值时，判断该待识别长文本包括目标舆情。例如，概率阈值＝90％，即当有风险类别的第二概率值>90％时，则该待识别长文本包括目标舆情。

应当理解的是，以上仅为举例说明，对本申请的技术方案并不构成任何限制，本领域的技术人员在实际应用中可以基于需要进行设置，此处不做限制。

通过上述描述不难发现，由于长文本中目标舆情所涉及的方面有限，所以可以根据有限的短文本多类别集合，来辅助准确高效的识别目标舆情。

本实施例提供的识别目标舆情的方法，该方法将可能包含目标舆情信息的长文本转化为对舆情信息表达更精确的短文本，再首先利用训练得到的短文本分类模型对短文本进行分类，获得的分类结果再利用长文本分类模型进行分类，并以长文本分类结果来识别长文本中是否包含目标舆情信息。相对于现有的直接对长文本进行分类识别，提高了识别的准确率，解决了现有的目标舆情识别方法准确率低的技术问题。

实施例二

请参见图2，基于与实施例一同样的发明思路，本申请还提出一种文本分类模型训练方法，所述方法包括：

S101、获取长文本样本集合；

S102、基于所述长文本样本集合，获得短文本样本集合；

S103、将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型。

作为一种可选实施例，所述将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型的步骤之后，所述方法还包括：

S104、将所述短文本样本集合中的短文本样本输入训练得到的短文本分类模型，以获得短文本样本分类结果；

S105、将所述短文本样本分类结果输入第二待训练模型，以获得长文本分类模型。

需要说明的是，由于本实施例中S101-S105的具体实施方式可参照实施例一中关于短文本分类模型和长文本分类模型的训练过程的具体解释及效果描述，本实施例中不再赘述。

实施例三

请参见图3，基于与实施例一同样的发明思路，本申请的实施例还提出一种识别目标舆情的装置，所述装置包括：

长文本获取模块，用于获取待识别长文本；

需要说明的是，本实施中的识别目标舆情的装置与前述实施例一中的识别目标舆情的方法一一对应，因此，其各种实施方式也可以参照前述实施例中实施方式，这里不再赘述。

实施例四

请参见图4，基于与实施例二同样的发明思路，本申请实施例还提出一种文本分类模型训练装置，所述装置包括：

样本获取模块，用于获取长文本样本集合；

需要说明的是，本实施中的文本分类模型训练装置与前述实施例中的文本分类模型训练方法一一对应，因此，其各种实施方式也可以参照前述实施例中实施方式，这里不再赘述。

此外，在一种实施例中，还提供一种电子设备，所述设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现前述实施例一或实施例二中方法的步骤。

此外，在一种实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现前述实施例一或实施例二中方法的步骤。

此外，在一种实施例中，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述实施例一或实施例二中方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台多媒体终端设备(可以是手机，计算机，电视接收机，或者网络设备等)执行本申请各个实施例所述的方法

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种识别目标舆情的方法，其特征在于，所述方法包括：

获取待识别长文本；

2.如权利要求1所述的方法，其特征在于，所述基于所述待识别长文本，获得所述待识别长文本中的短文本的步骤，包括：

将所述待识别长文本输入训练得到的短文本召回模型，以从所述待识别长文本中召回所述短文本；

所述短文本分类模型为多标签短文本分类模型；所述将所述短文本输入训练得到的短文本分类模型，以获得短文本分类结果的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述将所述短文本分类结果输入训练得到的长文本分类模型，以获得长文本分类结果的步骤，包括：

将所述类别标签以及所述类别标签对应的第一概率值，输入训练得到的长文本分类模型，以获得所述待识别长文本的类别以及所述类别对应的第二概率值；

所述基于所述长文本分类结果，识别所述待识别长文本是否包括目标舆情的步骤，包括：

4.如权利要求1所述的方法，其特征在于，所述获取待识别长文本的步骤之前，所述方法还包括：

获取长文本样本集合；

基于所述长文本样本集合，获得短文本样本集合；

5.如权利要求4所述的方法，其特征在于，所述将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型的步骤之后，所述方法还包括：

6.一种文本分类模型训练方法，其特征在于，所述方法包括：

获取长文本样本集合；

基于所述长文本样本集合，获得短文本样本集合；

7.如权利要求6所述的方法，其特征在于，所述将所述短文本样本集合中的短文本样本输入第一待训练模型，以获得短文本分类模型的步骤之后，所述方法还包括：

8.一种识别目标舆情的装置，其特征在于，所述装置包括：

长文本获取模块，用于获取待识别长文本；

9.一种文本分类模型训练装置，其特征在于，所述装置包括：

样本获取模块，用于获取长文本样本集合；

10.一种电子设备，其特征在于，所述设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现如权利要求1-5中任一项所述方法的步骤，或如权利要求6-7中任一项所述方法的步骤。

11.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时如权利要求1-5中任一项所述方法的步骤，或如权利要求6-7中任一项所述方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5中任一项所述方法的步骤，或如权利要求6-7中任一项所述方法的步骤。