CN113886579A

CN113886579A - 行业资讯正负面模型构建方法和系统、识别方法和系统

Info

Publication number: CN113886579A
Application number: CN202111120206.4A
Authority: CN
Inventors: 龚浩; 彭璿韬; 李青龙
Original assignee: Beijing Smart Starlight Information Technology Co ltd
Current assignee: Beijing Smart Starlight Information Technology Co ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-01-04
Anticipated expiration: 2041-09-24
Also published as: CN113886579B

Abstract

本发明公开了一种行业资讯正负面模型构建方法和系统、行业资讯正负面识别方法和系统，其中，行业资讯正负面模型构建方法包括：根据每一条行业资讯数据得到资讯分词数据；根据资讯分词数据得到资讯去停用词数据；根据资讯去停用词数据经过行业分类模型进行筛选得到资讯分类筛选数据；对资讯分类筛选数据进行行业知识库过滤得到资讯句式过滤数据；对资讯句式过滤数据进行模型知识蒸馏得到训练数据集和测试数据集；通过训练数据集进行bert模型训练得到正负面初始模型，通过测试数据集进行模型优化得到行业资讯正负面最终模型。该方法在资讯进入模型层前先通过行业分类模型和行业知识库过滤，保证进入模型的资讯符合行业特征，提高了模型构建的准确性。

Description

行业资讯正负面模型构建方法和系统、识别方法和系统

技术领域

本发明涉及数据处理领域，具体涉及到一种行业资讯正负面模型构建方法和系统、行业资讯正负面识别方法和系统、以及电子设备、存储介质。

背景技术

企业行业级别正负面有别于政务正负面，企业行业正负面更倾向于关注客户的经营信息、企业品牌等有利于企业实力与形象建立的有关资讯。通过对企业客户定向监测的数据进行行业正负面判断，可准确获取企业需要了解的倾向资讯，更快速地获取市场对企业经营情况的判断，精准市场公关，利于企业在市场竞争中找到机遇与规避危害。

行业正负面判断整体业界技术经历三个阶段的衍化，包括传统机器学习模型分类、序列生成模型建模以及迁移学习的建模阶段。

传统机器学习模型代表处理资讯正负面时，即将文章特征向量化，然后根据特征变换和参数拟合来学习数据特点。一般特征向量化是使用SVD来对单词-文档矩阵进行分解。SVD可以看作是从单词-文档矩阵中发现不相关的索引变量(因子)，将原来的数据映射到语义空间内，它是用EM算法学习模型参数。然后特征变换和参数拟合算法一般是使用SMO算法优化。

序列生成模型建模方式是对文章上下文语境建模，最终加入softmax分类层对最终结果预测概率，使用attention对语境中关键因素加权，反向传播确定参数最优值。

随着2018年Bert的发布，预训练模型对自然语言处理领域起到颠覆的作用。其基于transformers的完全自注意力自编码模型，通过对广域的内容先预训练学习，了解语义背景知识，后迁移到泛任务上，更好地借助了广域背景知识。自然语言处理领域基于Bert预训练模型能有效充分基于广域文本背景知识，完成模型对文章堆的预建模，然后根据具体任务特点进行调整，更好地利用了行业背景知识；但是由于其文本背景知识宏观，如果微调任务数据不准和参数分布与原模型参数分布差异过多对结果有本质影响，最终建模的行业正负面模型将难以满足行业中文语义精准要求。

发明内容

有鉴于此，本发明实施例提供了一种行业资讯正负面模型构建方法和系统、行业资讯正负面识别方法和系统、以及电子设备、存储介质，以解决现有技术中行业资讯正负面模型不准确的缺点。

为此，本发明实施例提供了如下技术方案：

根据第一方面，本发明实施例提供了一种行业资讯正负面模型构建方法，包括：获取行业资讯集，所述行业资讯集中包括多条行业资讯数据；分别对每一条行业资讯数据进行分词，得到每一条行业资讯数据对应的资讯分词数据；分别对每一条资讯分词数据进行停用词去除处理，得到每一条资讯分词数据对应的资讯去停用词数据；分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据；分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据；根据资讯句式过滤数据进行模型知识蒸馏，得到行业资讯的训练数据集和测试数据集；根据训练数据集进行bert建模和训练，得到行业资讯正负面初始模型；根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型。

可选地，分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据的步骤中，包括：获取行业分类模型，所述行业分类模型是基于fasttext和NaiveBaye的混合模型组成的pipeline模型；分别将每一条资讯去停用词数据输入至行业分类模型，得到每一条资讯去停用词数据对应的分类概率值；去除分类概率值小于第一预设概率值的资讯去停用词数据，得到资讯分类筛选数据。

可选地，分类概率值的计算公式如下所示：

Classifier(i)＝{C_fi*Fasttext(precision(Ci))+C_ni*NaiveBayes(precision(Ci))}/{Fasttext(precision(Ci))+NaiveBayes(precision(Ci))}

其中，其中，Classifier(i)为第i个分类的分类概率值；C_fi为fasttext模型第i个分类的判断结果；fasttext(precision(Ci))为fasttext模型第i个分类的模型精度；C_ni为NaiveBayes模型第i个分类的判断结果；NaiveBayes(precision(Ci))为NaiveBayes模型第i个分类的模型精度。

可选地，分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据的步骤中，包括：对行业领域历史文章进行词性标注，得到历史文章中每一个词的词性类别；根据历史文章和历史文章中每一个词的词性类别构建句式信息，形成行业知识库；根据行业知识库分别对每一条资讯分类筛选数据进行句式过滤，得到资讯句式过滤数据。

可选地，根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型的步骤之后，还包括：对行业资讯正负面最终模型进行脚本封装，放入flask框架并部署在服务端。

根据第二方面，本发明实施例提供了一种行业资讯正负面识别方法，包括：获取待识别行业资讯；通过如本发明第一方面中任一所述的行业资讯正负面模型构建方法得到的行业资讯正负面最终模型对待识别行业资讯进行正负面识别，得到待识别行业资讯对应的正负面识别结果。

根据第三方面，本发明实施例提供了一种行业资讯正负面模型构建系统，包括：第一获取模块，用于获取行业资讯集，所述行业资讯集中包括多条行业资讯数据；第一处理模块，用于分别对每一条行业资讯数据进行分词，得到每一条行业资讯数据对应的资讯分词数据；第二处理模块，用于分别对每一条资讯分词数据进行停用词去除处理，得到每一条资讯分词数据对应的资讯去停用词数据；第三处理模块，用于分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据；第四处理模块，用于分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据；第五处理模块，用于根据资讯句式过滤数据进行模型知识蒸馏，得到行业资讯的训练数据集和测试数据集；第六处理模块，用于根据训练数据集进行bert建模和训练，得到行业资讯正负面初始模型；第七处理模块，用于根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型。

可选地，所述第三处理模块包括：第一获取单元，用于获取行业分类模型，所述行业分类模型是基于fasttext和NaiveBaye的混合模型组成的pipeline模型；第一处理单元，用于分别将每一条资讯去停用词数据输入至行业分类模型，得到每一条资讯去停用词数据对应的分类概率值；第二处理单元，用于去除分类概率值小于第一预设概率值的资讯去停用词数据，得到资讯分类筛选数据。

可选地，分类概率值的计算公式如下所示：

可选地，所述第四处理模块包括：第三处理单元，用于对行业领域历史文章进行词性标注，得到历史文章中每一个词的词性类别；第四处理单元，用于根据历史文章和历史文章中每一个词的词性类别构建句式信息，形成行业知识库；第五处理单元，用于根据行业知识库分别对每一条资讯分类筛选数据进行句式过滤，得到资讯句式过滤数据。

可选地，还包括：第八处理模块，用于对行业资讯正负面最终模型进行脚本封装，放入flask框架并部署在服务端。

根据第四方面，本发明实施例提供了一种行业资讯正负面识别系统，包括：第二获取模块，用于获取待识别行业资讯；第九处理模块，用于通过如本发明第三方面所述的行业资讯正负面模型构建系统得到的行业资讯正负面最终模型对待识别行业资讯进行正负面识别，得到待识别行业资讯对应的正负面识别结果。

根据第五方面，本发明实施例提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器执行上述第一方面任意一项描述的行业资讯正负面模型构建方法或者执行上述第二方面描述的行业资讯正负面识别方法。

根据第六方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行上述第一方面任意一项描述的行业资讯正负面模型构建方法或者执行上述第二方面描述的行业资讯正负面识别方法。

本发明实施例技术方案，具有如下优点：

本发明实施例提供了一种行业资讯正负面模型构建方法和系统、行业资讯正负面识别方法和系统、以及电子设备、存储介质，其中，行业资讯正负面模型构建方法包括：获取行业资讯集，所述行业资讯集中包括多条行业资讯数据；分别对每一条行业资讯数据进行分词，得到每一条行业资讯数据对应的资讯分词数据；分别对每一条资讯分词数据进行停用词去除处理，得到每一条资讯分词数据对应的资讯去停用词数据；分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据；分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据；根据资讯句式过滤数据进行模型知识蒸馏，得到行业资讯的训练数据集和测试数据集；根据训练数据集进行bert建模和训练，得到行业资讯正负面初始模型；根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型。上述步骤，先对获取到的行业资讯集中的每一条行业资讯数据进行分词，得到资讯分词数据；其次，对资讯分词数据进行去停用词处理，得到资讯去停用词数据；然后，对资讯去停用词数据经过行业分类模型进行数据筛选，筛选出符合行业分类的资讯分类筛选数据；之后，对资讯分类筛选数据进行行业知识库过滤，通过句式过滤筛选出更加精确有效的数据，得到资讯句式过滤数据；资讯句式过滤数据进行模型知识蒸馏，得到资讯行业训练数据集和测试数据集；最后，通过训练数据集进行bert模型训练得到行业资讯正负面初始模型，通过测试数据集进行模型优化得到行业资讯正负面最终模型。该方法借助Bert的背景思想，在模型输入层引入行业知识，资讯进入模型层之前，已经满足业务逻辑，该逻辑包括行业分类模型和行业知识库过滤，这样保证进入行业正负面模型的资讯基本符合行业特征，然后模型可以在此基础上对行业的正负面特征进行建模微调，双重保障模型的健壮性和泛化性，提高了行业资讯正负面模型的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的行业资讯正负面模型构建方法的一个具体示例的流程图；

图2为本发明实施例的行业资讯正负面模型构建方法的另一个具体示例的流程图；

图3为本发明实施例的行业资讯正负面识别方法的一个具体示例的流程图；

图4为本发明实施例的行业资讯正负面模型构建系统的一个具体示例的框图；

图5为本发明实施例的电子设备的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种行业资讯正负面模型构建方法，如图1所示，该方法包括步骤S1-S8。

步骤S1：获取行业资讯集，所述行业资讯集中包括多条行业资讯数据。

本实施例中，可通过爬虫得到行业资讯集，行业资讯集中包括若干条行业资讯数据。具体地，精准地搜索行业相关资讯数据，资讯数据的数据量级越大，对应的涵盖分布可能性越广。具体行业资讯集中的行业资讯数据来源于这一年数据，涵盖较广；当然，在其它实施例中，行业资讯数据也可以是来源于近几年的行业资讯，根据需要合理设置即可。

步骤S2：分别对每一条行业资讯数据进行分词，得到每一条行业资讯数据对应的资讯分词数据。

本实施例中，对每一条行业资讯数据分别进行分词处理，具体分词使用的库是Bert自有词库，使用tokenizer方法分词，分词后得到每一个行业资讯数据的资讯分词数据。当然，在其它实施例中，分词方法还可以是现有技术中的其它分词方法，如jieba分词等，根据需要合理设置即可。

步骤S3：分别对每一条资讯分词数据进行停用词去除处理，得到每一条资讯分词数据对应的资讯去停用词数据。

本实施例中，对每一条资讯分词数据分别进行停用词去除处理，去除每一条资讯分词数据中的停用词，去除停用词后得到每一条资讯分词数据对应的资讯去停用词数据。

本实施例中，可根据停用词表去除资讯分词数据中的停用词，具体的停用词表可以是专注汉语言研究的哈工大所贡献的停用词词表，本实施例中对此仅作示意性描述，不以此为限。当然，在其它实施例中，停用词表还可以是现有技术中的其它词表，如百度停用词表或者四川大学机器智能实验室停用词库等，在实际应用中根据需要合理设置即可。

步骤S4：分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据。

本实施例中，行业分类模型是基于fasttext和NaiveBaye方案，训练混合模型组成pipeline模型。分别将每一条资讯去停用词数据输入至行业分类模型中，得到每一条资讯去停用词数据的行业分类预测结果，根据行业分类预测结果去除与所属行业不相关或者相关度较低的数据，具体的可以是将行业分类预测结果对应的行业概率值小于第一预设概率值的资讯去停用词数据去除，筛选出概率值大于或者等于第一预设概率值的资讯去停用词数据，将这些不小于第一预设概率值的资讯去停用词数据保留并将其作为资讯分类筛选数据。本实施例中，第一预设概率值可以是0.6，本实施例中对此仅作示意性说明，不以此为限；当然，在其它实施例中，第一预设概率值还可以设置为其它数值，根据需要合理设置即可。

本实施例中，行业分类模型输出的行业分类包括12个行业领域，具体12类行业来源于国图法分类标准，从中选择一级大类共11类，包含财经、教育、地产、汽车、医疗、食品、能源、农业、零售、旅游和科技，除这11类以外统一归为其它类。

步骤S5：分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据。

本实施例中，行业知识库是根据长期行业资讯积累的行业资讯的句式信息库，具体的句式信息可以包括动名词组、定状词组，本实施例中对此仅作示意性说明，不以此为限；在其它实施例中，根据实际需要合理设置即可。行业知识库中的句式信息作为特定领域有效句式，做后续词组过滤行业资讯时使用，对关注行业的资讯数据(如金融领域或金融领域下的保险子领域精确数据)根据行业知识库句式筛选出更精确有效的数据。

本实施例中，行业知识库中包括12个行业领域的句式信息。每一个行业对应的句式信息不同。

本实施例中，分别将每一条资讯分类筛选数据与行业知识库的句式进行比较，过滤掉不包含行业知识库句式的资讯分类筛选数据，保留包含行业知识库句式的资讯分类筛选数据，这些保留下来的资讯分类筛选数据便构成资讯句式过滤数据。

步骤S6：根据资讯句式过滤数据进行模型知识蒸馏，得到行业资讯的训练数据集和测试数据集。

本实施例中，模型知识蒸馏是一个泛化概念，此处指使用行业分类模型和对应历史行业正负面模型对数据降噪过程，也即是数据到信息甚至知识的过程，概念上笼统称为模型知识蒸馏。具体步骤是先根据行业分类模型和行业知识库句式筛选出的资讯句式过滤数据，初步打标约真实场景复杂度的1/10，然后训练一版初步效果的行业正负面模型，之后对整体剩余9/10数据做模型知识蒸馏，模型打标后进行精确打标；对这轮过滤结果进行评估，如果精打标类别极度不平衡则转到步骤S1继续扩充行业资讯集，如果精打标类被平衡则将最终打标结果序列化为训练原生语料库，训练原生语料库包括行业资讯的训练数据集和测试数据集。

本实施例中，训练数据集和测试数据集的数据量比例为8:2，本实施例中对此仅作示意性说明，不以此为限；当然，在其它实施例中，数据量的比例还可以设置为其他数值，如数据量比例设置为7：3等，根据需要合理设置即可。

步骤S7：根据训练数据集进行bert建模和训练，得到行业资讯正负面初始模型。

本实施例中，对训练数据集进行bert建模，分别调试正负面极性类别、迭代算法和迭代轮数，根据训练环境资源控制batch_size训练。

本实施例中，采用了bert的演变版本albert，中文预训练模型共12层，本次行业正负面finetune了最后softmax层，其中albert共享所有层参数，因此相比使用bert方式，参数缩减为原先的1/12。受albert的SOP(sentence order pre)启发，在模型训练中加入句子顺序特征训练，选用中文行业场景数据，在模型输入层加入了人工场景特征，在输入初始index加入行业标识特征，模型输入更为有效，增加模型拟合效果。模型的损失函数选用了facal loss，应对目前场景数据中的中性数据较多，极性类别较为失衡的这种真实数据分布特点。模型预测时，对batch数据采用批处理方式，预测时统一输入模型中，按照文章和句子粒度对比方式区分多batch数据，随着batch_size线性提高批处理性能。

对训练结果综合F1验证，选取F1分值较高一组参数调优并模型持久化，将持久化模型作为行业资讯正负面初始模型。

步骤S8：根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型。

本实施例中，对行业资讯正负面初始模型采用测试数据集进行测试，用测试集上的误差作为最终模型在应对现实场景中的泛化误差。将训练好的模型在测试集上计算模型误差，当训练好的模型在测试集上的误差小于预设误差值时，则将训练好的模型作为行业资讯正负面最终模型；当训练好的模型在测试集上的误差大于或者等于预设误差值时，则说明模型的误差较大，需返回步骤S7对bert模型重新选取参数组和tricks技巧，重新训练模型并测试验证，直至模型误差小于预设误差值为止。具体地，预设误差值可以是0.1，本实施例中对此仅作示意性描述，不以此为限，根据实际需要和行业经验合理设置即可。

上述步骤，先对获取到的行业资讯集中的每一条行业资讯数据进行分词，得到资讯分词数据；其次，对资讯分词数据进行去停用词处理，得到资讯去停用词数据；然后，对资讯去停用词数据经过行业分类模型进行数据筛选，筛选出符合行业分类的资讯分类筛选数据；之后，对资讯分类筛选数据进行行业知识库过滤，通过句式过滤筛选出更加精确有效的数据，得到资讯句式过滤数据；资讯句式过滤数据进行模型知识蒸馏，得到资讯行业训练数据集和测试数据集；最后，通过训练数据集进行bert模型训练得到行业资讯正负面初始模型，通过测试数据集进行模型优化得到行业资讯正负面最终模型。该方法借助Bert的背景思想，在模型输入层引入行业知识，资讯进入模型层之前，已经满足业务逻辑，该逻辑包括行业分类模型和行业知识库过滤，这样保证进入行业正负面模型的资讯基本符合行业特征，然后模型可以在此基础上对行业的正负面特征进行建模微调，双重保障模型的健壮性和泛化性，提高了行业资讯正负面模型的准确性。

作为示例性的实施例，步骤S4分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据的步骤中，包括步骤S41-S43。

S41：获取行业分类模型，所述行业分类模型是基于fasttext和NaiveBaye的混合模型组成的pipeline模型。

本实施例中，行业分类模型是基于fasttext和NaiveBaye方案，训练混合模型组成pipeline模型。当然，在其它实施例中，还可以是现有技术中的其它分类模型，根据需要合理确定即可。

S42：分别将每一条资讯去停用词数据输入至行业分类模型，得到每一条资讯去停用词数据对应的分类概率值。

本实施例中，将每一条资讯去停用词数据分别输入到行业分类模型中，得到每一条资讯去停用词数据的分类概率值。

本实施例中，行业分类模型输出的分类概率值的计算公式如下所示：Classifier(i)＝{C_fi*Fasttext(precision(Ci))+C_ni*NaiveBayes(precision(Ci))}/{Fasttext(precision(Ci))+NaiveBayes(precision(Ci))}

其中，Classifier(i)为第i个分类的分类概率值；C_fi为fasttext模型第i个分类的判断结果；fasttext(precision(Ci))为fasttext模型第i个分类的模型精度；C_ni为NaiveBayes模型第i个分类的判断结果；NaiveBayes(precision(Ci))为NaiveBayes模型第i个分类的模型精度。

例如，fasttext模型判断结果为0.9的财经，其模型财经精度为0.95；NaiveBayes模型判断结果为0.88的财经，其模型财经精度为0.92；则最终综合判断为财经的概率为：

0.9*0.95/(0.95+0.92)+0.88*0.92/(0.95+0.92)，计算得出的财经分类概率值为0.8902。

S43：去除分类概率值小于第一预设概率值的资讯去停用词数据，得到资讯分类筛选数据。

本实施例中，第一预设概率值可以是0.6，本实施例中对此仅作示意性说明，不以此为限；当然，在其它实施例中，第一预设概率值还可以设置为其它数值，根据需要合理设置即可。

本实施例中，将一条资讯去停用词数据对应的分类概率值与第一预设概率值进行比较；当分类概率值小于第一预设概率值时，将该条资讯去停用词数据去除；当分类概率值不小于第一预设概率值时，将该条资讯去停用词数据保留。将每一条资讯去停用词数据对应的分布概率值分别与一预设概率值进行比较后，保留分布概率值大于或者等于第一预设概率值的资讯去停用词数据，将这些保留下来的数据作为资讯分类筛选数据。

上述步骤，先基于fasttext和NaiveBaye的混合模型组成行业分类模型，通过行业分类模型对资讯去停用词数据进行行业分类的筛选，去除行业分类概率值较小的数据，得到行业相关性高的资讯分类筛选数据，这样保证进入行业正负面模型的资讯数据更加符合行业特征，使得得到的行业正负面模型更加准确，从而提高行业正负面模型的识别精度。

作为示例性的实施例，步骤S5分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据的步骤中，包括步骤S51-S53。

步骤S51：对行业领域历史文章进行词性标注，得到历史文章中每一个词的词性类别。

本实施例中，先训练词性标注模型，通过词性标注模型对领域文章进行词性标注。具体地，使用SVM训练多类别词性类别模型，对行业领域历史文章中的每个词预测其词性类别。当然，在其它实施例中，还可以通过现有技术中的其它方法得到词性类别。

步骤S52：根据历史文章和历史文章中每一个词的词性类别构建句式信息，形成行业知识库。

本实施例中，根据词在历史文章中的位置以及词的词性类别构建句式信息，具体的句式信息包括动名词组、定状词组等。将这些句式信息保留，形成行业知识库。行业知识库中的这些句式信息是行业资讯中的共性特征。

步骤S53：根据行业知识库分别对每一条资讯分类筛选数据进行句式过滤，得到资讯句式过滤数据。

本实施例中，将每一条资讯分类筛选数据分别与行业知识库中的句式信息进行比较；当资讯分类筛选数据中包含上述句式信息时，保留该条资讯分类筛选数据；当资讯分类筛选数据中不包含上述句式信息时，去除过滤掉该条资讯分类筛选数据；这些保留下来的资讯分类筛选数据构成资讯句式过滤数据。

资讯分类筛选数据经过行业知识库过滤后得到的资讯句式过滤数据具有产品关注的相关特征，产品关注特征也即是服务客户关注的99.99％共性需求，这些特征包含行业资讯相关性、客户定制准确性和实时性要求特征。

上述步骤，通过词性标注模型对行业领域历史文章进行词性标注，词性标注后根据每一个词的词性类别构建句式信息，得到行业知识库；之后，对资讯分类筛选数据进行行业知识库的句式过滤，筛选出更加精确有效的数据，这些保留下来的数据便是资讯句式过滤数据。行业知识库是经过长期经验积累下来的相关资讯句式信息，经过句式信息过滤后得到的资讯句式过滤数据更加精确，这样保证进入行业正负面模型的资讯更加符合行业特征，使得得到的行业正负面模型更加准确，从而提高行业正负面模型的识别精度。

作为示例性的实施例，步骤S8根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型的步骤之后，还包括步骤S9。

步骤S9：对行业资讯正负面最终模型进行脚本封装，放入flask框架并部署在服务端。

本实施例中，对行业资讯正负面最终模型进行脚本封装，将模型放入flask框架并服务端部署，对外采用POST方式。

上述步骤，将行业资讯正负面最终模型脚本封装，便于后续模型的调用，对于客户端使用者来说，其不需要了解模型具体参数即可获取模型输出结果，移植性较高；此外，模型封装后，其安全性更高。

下面以一个详细示例进行详细说明，行业资讯正负面建模的流程图如图2所示。

首先，以金融行业数据为例，公司根据长期经验积累相关资讯句式信息(如动名词组、定状词组)，构建行业知识库并结合行业分类语料训练的分类模型做进一步过滤，资讯数据经过行业知识库过滤后具有产品线关注的相关特征，这些特征包含行业资讯相关性、客户定制准确性和实时性要求特征，对该数据集进行数据预处理。具体流程如下：第一步，精准地搜索行业相关资讯，数据量级越大，对应的涵盖分布可能性越广，本应用场景数据来源于这一年数据，涵盖领域较广；第二步，对需要建模的资讯数据进行分词并去除停用词，其中用到的停用词表来源于专注汉语言研究的哈工大所贡献的停用词词表，分词使用的库是Bert自有词库，使用tokenizer方法分词；第三步，这里结合了输入端语言建模方式，对分词结果采用行业分类模型和行业知识库方式分别建模过滤非相关数据，首先对不符合行业分类模型的数据预测后筛除，然后对属于关注行业的资讯(如金融领域或金融下保险子领域精确数据)根据专家知识库句式筛选更精确有效数据(如银监会监管动作)，然后对相关数据进行模型知识蒸馏，第一遍筛选数据，平衡类别样本后进行人工精打标，对这轮过滤结果进行评估，如果精打标类别极度不平衡则转第一步继续扩充，否则最终打标结果序列化为训练原生语料库；第四步，对第三步处理好的语料进行Bert建模，分别调试正负面极性类别、迭代算法和迭代轮数，根据训练环境资源控制batch_size训练；第五步，对训练结果综合F1验证，选取分值较高一组参数调优并模型持久化；第六步，对持久化模型采用测试数据集验证，确定最优算法模型，至此模型已训练完成，验证是生产环境步骤，如果模型在生产中效果大打折扣，需要回溯到第四步，重新选取参数组和tricks技巧，重新训练模型并测试验证。

本发明实施例还提供了一种行业资讯正负面识别方法，该方法包括步骤S10-S11。

步骤S10：获取待识别行业资讯。

本实施例中，待识别行业资讯是客户关注的行业资讯，具体可通过网络爬虫得到，也可以由客户提供，本实施例中对此仅作示意性描述，不以此为限。

步骤S11：通过如本实施例中所描述的行业资讯正负面模型构建方法得到的行业资讯正负面最终模型对待识别行业资讯进行正负面识别，得到待识别行业资讯对应的正负面识别结果。

本实施例中，将待识别行业资讯输入到行业资讯正负面最终模型中进行识别，模型输出待识别行业资讯对应的正负面识别结果。具体地，正负面识别结果包括正面资讯和负面资讯。

本实施例中，也可将行业资讯正负面最终模型进行封装，封装后部署在服务器上。这种情况下，客户端将待识别行业资讯按照指定json格式存储，通过http协议像服务器端传入json数据格式，数据中包括的参数有秘钥、待识别行业资讯对应的标题和内容字段。客户端发送post方式请求，服务器端接到请求并验证，服务器端根据该秘钥确认是否是有效客户，并决定是否计算。当是有效客户时，验证通过，验证通过过后进行预处理数据(具体包括标题和内容的分词、去停用词)并抽取可识别特征；之后，将抽取到的可识别特征输入模型进行预测，得到模型预测结果，也就是待识别行业资讯对应的正负面识别结果，并将正负面识别结果返回给客户端。当密钥验证不通过时，向客户端反馈错误原因级代码。最后，服务端根据客户端的任务请求的返回情况，选择关闭链接或继续服务；具体的，当客户端的任务请求只需要进行一次模型预测识别，则关闭链接；当客户端的任务请求是进行多次模型预测识别，则服务器继续服务，以便进行下一次的模型预测。

上述步骤，通过本实施例中所描述的行业资讯正负面模型对待识别行业资讯进行正负面识别，提高了正负面识别结果的准确性。

下面以一个详细示例进行详细说明，行业资讯正负面模型封装流程的流程图如图3所示。

第一步，对训练并持久化的行业资讯正负面最终模型进行脚本封装，将模型预测模块放入flask框架并服务端部署，对外采用POST方式；

第二步，客户端将数据按照指定json格式请求，服务端接到请求并验证，验证通过就预处理数据(分词、去停用词并抽取可识别特征)并模型预测结果，然后原路返回；否则反馈错误原因级代码；

第三步，服务端根据返回情况，选择关闭链接或继续服务。

在本实施例中还提供了一种行业资讯正负面模型构建系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例还提供一种行业资讯正负面模型构建系统，如图4所示，包括：

第一获取模块1，用于获取行业资讯集，所述行业资讯集中包括多条行业资讯数据；

第一处理模块2，用于分别对每一条行业资讯数据进行分词，得到每一条行业资讯数据对应的资讯分词数据；

第二处理模块3，用于分别对每一条资讯分词数据进行停用词去除处理，得到每一条资讯分词数据对应的资讯去停用词数据；

第三处理模块4，用于分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据；

第四处理模块5，用于分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据；

第五处理模块6，用于根据资讯句式过滤数据进行模型知识蒸馏，得到行业资讯的训练数据集和测试数据集；

第六处理模块7，用于根据训练数据集进行bert建模和训练，得到行业资讯正负面初始模型；

第七处理模块8，用于根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型。

作为示例性的实施例，所述第三处理模块包括：第一获取单元，用于获取行业分类模型，所述行业分类模型是基于fasttext和NaiveBaye的混合模型组成的pipeline模型；第一处理单元，用于分别将每一条资讯去停用词数据输入至行业分类模型，得到每一条资讯去停用词数据对应的分类概率值；第二处理单元，用于去除分类概率值小于第一预设概率值的资讯去停用词数据，得到资讯分类筛选数据。

作为示例性的实施例，分类概率值的计算公式如下所示：Classifier(i)＝{C_fi*Fasttext(precision(Ci))+C_ni*NaiveBayes(precision(Ci))}/{Fasttext(precision(Ci))+NaiveBayes(precision(Ci))}

作为示例性的实施例，所述第四处理模块包括：第三处理单元，用于对行业领域历史文章进行词性标注，得到历史文章中每一个词的词性类别；第四处理单元，用于根据历史文章和历史文章中每一个词的词性类别构建句式信息，形成行业知识库；第五处理单元，用于根据行业知识库分别对每一条资讯分类筛选数据进行句式过滤，得到资讯句式过滤数据。

作为示例性的实施例，还包括：第八处理模块，用于对行业资讯正负面最终模型进行脚本封装，放入flask框架并部署在服务端。

本实施例中的行业资讯正负面模型构建系统是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

在本实施例中还提供了一种行业资讯正负面识别系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例还提供一种行业资讯正负面识别系统，包括：

第二获取模块，用于获取待识别行业资讯；

第九处理模块，用于通过如本发明实施例中所述的行业资讯正负面模型构建系统得到的行业资讯正负面最终模型对待识别行业资讯进行正负面识别，得到待识别行业资讯对应的正负面识别结果。

本实施例中的行业资讯正负面识别系统是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供了一种电子设备，如图5所示，该电子设备包括一个或多个处理器71以及存储器72，图5中以一个处理器71为例。

该控制器还可以包括：输入装置73和输出装置74。

处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器71可以为中央处理器(Central Processing Unit，CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器72作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的行业资讯正负面模型构建方法或者行业资讯正负面识别方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的行业资讯正负面模型构建方法或者行业资讯正负面识别方法。

存储器72可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器72可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器72可选包括相对于处理器71远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置73可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。

一个或者多个模块存储在存储器72中，当被一个或者多个处理器71执行时，执行如图1-2所示的行业资讯正负面模型构建方法或者执行如图3所示的行业资讯正负面识别方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件来完成，被执行的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述行业资讯正负面模型构建方法或者行业资讯正负面识别方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种行业资讯正负面模型构建方法，其特征在于，包括：

获取行业资讯集，所述行业资讯集中包括多条行业资讯数据；

分别对每一条行业资讯数据进行分词，得到每一条行业资讯数据对应的资讯分词数据；

分别对每一条资讯分词数据进行停用词去除处理，得到每一条资讯分词数据对应的资讯去停用词数据；

分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据；

分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据；

根据资讯句式过滤数据进行模型知识蒸馏，得到行业资讯的训练数据集和测试数据集；

根据训练数据集进行bert建模和训练，得到行业资讯正负面初始模型；

根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型。

2.根据权利要求1所述的行业资讯正负面模型构建方法，其特征在于，分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据的步骤中，包括：

获取行业分类模型，所述行业分类模型是基于fasttext和NaiveBaye的混合模型组成的pipeline模型；

分别将每一条资讯去停用词数据输入至行业分类模型，得到每一条资讯去停用词数据对应的分类概率值；

去除分类概率值小于第一预设概率值的资讯去停用词数据，得到资讯分类筛选数据。

3.根据权利要求2所述的行业资讯正负面模型构建方法，其特征在于，分类概率值的计算公式如下所示：

Classifier(i)＝{C_fi*Fasttext(precision(C_i))+C_ni*NaiveBayes(precision(C_i))}/{Fasttext(precision(C_i))+NaiveBayes(precision(C_i))}

其中，其中，Classifier(i)为第i个分类的分类概率值；C_fi为fasttext模型第i个分类的判断结果；fasttext(precision(C_i))为fasttext模型第i个分类的模型精度；C_ni为NaiveBayes模型第i个分类的判断结果；NaiveBayes(precision(C_i))为NaiveBayes模型第i个分类的模型精度。

4.根据权利要求1所述的行业资讯正负面模型构建方法，其特征在于，分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据的步骤中，包括：

对行业领域历史文章进行词性标注，得到历史文章中每一个词的词性类别；

根据历史文章和历史文章中每一个词的词性类别构建句式信息，形成行业知识库；

根据行业知识库分别对每一条资讯分类筛选数据进行句式过滤，得到资讯句式过滤数据。

5.根据权利要求1-4中任一所述的行业资讯正负面模型构建方法，其特征在于，根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型的步骤之后，还包括：

对行业资讯正负面最终模型进行脚本封装，放入flask框架并部署在服务端。

6.一种行业资讯正负面识别方法，其特征在于，包括：

获取待识别行业资讯；

通过如权利要求1-5中任一所述的行业资讯正负面模型构建方法得到的行业资讯正负面最终模型对待识别行业资讯进行正负面识别，得到待识别行业资讯对应的正负面识别结果。

7.一种行业资讯正负面模型构建系统，其特征在于，包括：

第一获取模块，用于获取行业资讯集，所述行业资讯集中包括多条行业资讯数据；

第一处理模块，用于分别对每一条行业资讯数据进行分词，得到每一条行业资讯数据对应的资讯分词数据；

第二处理模块，用于分别对每一条资讯分词数据进行停用词去除处理，得到每一条资讯分词数据对应的资讯去停用词数据；

第三处理模块，用于分别对每一条资讯去停用词数据进行行业分类模型的数据预测和筛选，得到资讯分类筛选数据；

第四处理模块，用于分别对每一条资讯分类筛选数据进行行业知识库的句式过滤，得到资讯句式过滤数据；

第五处理模块，用于根据资讯句式过滤数据进行模型知识蒸馏，得到行业资讯的训练数据集和测试数据集；

第六处理模块，用于根据训练数据集进行bert建模和训练，得到行业资讯正负面初始模型；

第七处理模块，用于根据测试数据集对行业资讯正负面初始模型进行优化得到行业资讯正负面最终模型。

8.一种行业资讯正负面识别系统，其特征在于，包括：

第二获取模块，用于获取待识别行业资讯；

第九处理模块，用于通过如权利要求7所述的行业资讯正负面模型构建系统得到的行业资讯正负面最终模型对待识别行业资讯进行正负面识别，得到待识别行业资讯对应的正负面识别结果。

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-5任意一项所述的行业资讯正负面模型构建方法或者执行权利要求6所述的行业资讯正负面识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-5任意一项所述的行业资讯正负面模型构建方法或者执行权利要求6所述的行业资讯正负面识别方法。