CN110765245A

CN110765245A - 基于大数据的情感正负判断方法、装置、设备及存储介质

Info

Publication number: CN110765245A
Application number: CN201910884782.2A
Authority: CN
Inventors: 杨冬艳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-07
Anticipated expiration: 2039-09-19
Also published as: CN110765245B

Abstract

本发明涉及大数据技术领域，公开了一种基于大数据的情感正负判断方法，包括以下步骤：采用正则表达式对网络信息安全文本序列进行预处理，得到预处理文本序列，以及通过切分算法进行切分得到切分结果，若切分结果与预置词库中的关键字词的匹配结果满足预置匹配值，则将切分结果存储于第一数据集；通过皮尔森相关系数算法计算切分结果之间的相关关系；通过词频和反向词频算法以及transformer算法对关键字集合进行提取，得到第三数据集，通过bert模型输出情感正负结果。本发明还公开了一种基于大数据的情感正负判断装置、设备及计算机可读存储介质。本发明提供的基于大数据的情感正负判断方法解决了阅读场景中答案识别效率低的技术问题。

Description

基于大数据的情感正负判断方法、装置、设备及存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于大数据的情感正负判断方法、装置、设备及计算机可读存储介质。

背景技术

人类以渐进的方式进行阅读和理解，例如，当人类阅读一段文字时，随着阅读量的增加，人类的理解也会相应地增加，我们不需要读到最后一句话再去理解第一句话，这一渐进的方式极大地提高了人类阅读和理解的效率。这一渐进式的阅读方式同样可以运用到机器学习系统中，以提高机器学习系统处理和提取信息的效率，如对话、问答QA场景。目前的问答QA模型需要阅读整个文本，即处理完所有的数据才能输出问题答案，例如，循环神经网络RNNs或其他自我关注模型都是这种模式。然而，在文本较长时，对当前阅读到的语句或段落是否为正确答案的识别效率并不高。因此，如何提高问答场景下模型对答案的识别效率，是目前本领域技术人员亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种基于大数据的情感正负判断方法、装置、设备及计算机可读存储介质，旨在解决阅读场景中答案识别效率低的技术问题。

为实现上述目的，本发明提供一种基于大数据的情感正负判断方法，所述基于大数据的情感正负判断方法包括以下步骤：

采用正则表达式对网络信息安全文本序列进行预处理，得到预处理文本序列，其中，所述预处理至少包括：无效词过滤、编码转换、半角全角标点处理和字符转换，所述无效词至少包括：停用词、标点符号、英文字母、数学运算符和非汉字字符；

从预置算法集合中选择第一算法对所述预处理文本序列进行切分，得到切分结果，其中，所述预置算法集合包括：通过前向最大算法、后向最大算法和双向最大算法，所述切分结果包括不同组合、不同顺序和不同数目的数据；

通过关键字匹配算法将所述切分结果与预置词库中的关键字词进行匹配，得到匹配结果，判断所述匹配结果是否大于或等于预置匹配值；

若所述匹配结果大于或等于所述预置匹配值，则将所述切分结果作为第一数据集，若所述匹配结果小于所述预置匹配值，则从预置算法集合中选择第二算法对所述预处理文本序列进行切分，得到切分结果，所述第一数据集包括一个或多个所述切分结果；

通过皮尔森相关系数算法计算所述第一数据集中的各个切分结果之间的相关关系，并得到所述切分结果之间具有相关关系的第二数据集；

通过词频和反向词频TF-IDF算法对所述第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集；

采用bert模型对所述第三数据集进行情感正负判断，输出情感正负判断结果。

可选地，在所述通过词频和反向词频TF-IDF算法对第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集的步骤之前，还包括以下步骤：

通过TF-IDF算法对第二数据集进行关键字提取训练，并得到初始关键字；

将所述提取到的初始关键字与人工预先提取到的关键字进行比较，判断所述提取到的初始关键字的正确率是否大于或等于第一预设阈值；

若所述提取到的初始关键字的正确率大于或等于所述第一预设阈值，则得到第二关键字集合，若所述提取到的初始关键字的正确率小于所述第一预设阈值，则通过TF-IDF算法对预置训练样本进行关键字提取训练，并得到初始关键字；

采用所述第二关键字集合对transformer算法进行数据提取训练，得到初始第三数据集；

将所述初始第三数据集与人工预先提取到的第三数据集进行比较，判断所述初始第三数据集的正确率是否大于或等于第二预设阈值；

若所述初始第三数据集的正确率大于或等于所述第二预设阈值，则得到初始第三数据集，若所述初始第三数据集的正确率小于所述第二预设阈值，则通过反向传播算法调节所述transformer算法中向量矩阵的权重，直至所述初始第三数据集的正确率大于或等于所述第二预设阈值，，所述向量矩阵包括Query向量，Key向量和Value向量，所述Query向量为当前词的向量以及周边词的词向量，所述Key向量是与所述当前词存在相关关系的词向量，所述Value向量用于反映当前词所呈现的真实内容。

可选地，在所述采用bert模型对所述第三数据集进行情感正负判断，输出情感正负判断结果的步骤之前，还包括以下步骤：

通过所述第三数据集按照预置训练次数对初始bert模型进行情感正负判断训练，得到初始情感正负判断结果，其中，所述预置训练次数至少为一千次；

根据预置情感正负判断结果判断所述初始情感正负判断结果是否大于或等于第一预置正确率；

若所述初始情感正负判断结果大于或等于第一预置正确率，则得到情感正负判断结果，若所述初始情感正负判断结果小于第一预置正确率，则调节所述初始bert模型中各层transformer算法所占的权重，直至所述初始情感正负判断结果大于或等于第一预置正确率。

可选地，在所述通过词频和反向词频TF-IDF算法对第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集的步骤之后，还包括以下步骤：

通过方差贡献率的方法对第三数据集中的预置情感相关数据设置权重，所述方差贡献率的计算公式为：

其中，s²为方差贡献率，M为预置情感相关数据出现频率的平均值，X为出现的预置情感相关数据，n为预置情感相关数据出现的总次数，x₁为预置情感相关数据X出现的次数为1次，x₂为预置情感相关数据X出现的次数为2次，x₃为预置情感相关数据X出现的次数为3次，所述预置情感相关数据包括：否定词和程度副词；

根据所述情感相关数据的权重调整所述第三数据集所占权重，并通过softmax算法归一化处理后输出概率最大的第三数据集。

可选地，在所述通过方差贡献率的方法对第三数据集中的预置情感相关数据设置权重的步骤之前，还包括以下步骤：

根据以下公式计算不同情感相关数据之间的综合权重比值:

p＝w_a*n/w_b*m

其中，p为情感相关数据a与情感相关数据b的综合权重比值，w_a为情感相关数据a所占的权重，w_b为情感相关数据b所占的权重，n为情感相关数据a出现的次数，m为情感相关数据b出现的次数；

根据所述综合权重比值确定所述第三数据集所要设置的情感分类标签，所述情感分类标签包括：正向情感标签、负向情感标签。

可选地，所述通过皮尔森相关系数算法计算所述第一数据集中的各个切分结果之间的相关关系，得到所述切分结果之间具有相关关系的第二数据集包括以下步骤：

通过协方差算法计算第一数据集中的各个切分结果之间的相关关系之间的协方差值D，以及通过标准差算法计算所述第一数据集中的各个切分结果之间的相关关系之间的标准差值S；

通过公式P＝D/S计算皮尔森相关系数值；

根据所述皮尔森相关系数值确定所述第一数据集中的各个切分结果之间的相关关系，得到所述切分结果之间具有相关关系的第二数据集。

可选地，所述通过关键字匹配算法将所述切分结果与预置词库中的关键字词进行匹配，得到匹配结果，判断所述匹配结果是否大于或等于预置匹配值包括以下步骤：

通过分词算法Word2vec对切分结果进行分词处理，得到词向量；

通过哈希算法分别计算所述词向量的第一哈希值与预置词库中的关键字词的第二哈希值，将第一哈希值与第二哈希值进行比较，得到匹配结果；

判断所述匹配结果是否大于或等于预置匹配值。

进一步地，为实现上述目的，本发明还提供第一种基于大数据的情感正负判断装置，所述基于大数据的情感正负判断装置包括：

过滤转换模块，用于采用正则表达式对网络信息安全文本序列进行预处理，得到预处理文本序列，其中，所述预处理至少包括：无效词过滤、编码转换、半角全角标点处理和字符转换，所述无效词至少包括：停用词、标点符号、英文字母、数学运算符和非汉字字符；

切分模块，用于从预置算法集合中选择第一算法对所述预处理文本序列进行切分，得到切分结果，其中，所述预置算法集合包括：通过前向最大算法、后向最大算法和双向最大算法，所述切分结果包括不同组合、不同顺序和不同数目的数据；

匹配模块，用于通过关键字匹配算法将所述切分结果与预置词库中的关键字词进行匹配，得到匹配结果，判断所述匹配结果是否大于或等于预置匹配值；

存储模块，用于若所述匹配结果是否大于或等于所述预置匹配值，则将所述切分结果作为第一数据集，若所述匹配结果小于所述预置匹配值，则从预置算法集合中选择第二算法对所述预处理文本序列进行切分，得到切分结果，所述第一数据集包括一个或多个所述切分结果；

第一计算模块，用于通过皮尔森相关系数算法计算所述第一数据集中的各个切分结果之间的相关关系，并得到所述切分结果之间具有相关关系的第二数据集；

提取模块，用于通过词频和反向词频TF-IDF算法对第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集；

第一输出模块，用于采用bert模型对所述第三数据集进行情感正负判断，输出情感正负判断结果。

可选地，所述基于大数据的情感正负判断装置还包括以下模块：

第一训练模块，用于通过TF-IDF算法对第二数据集进行关键字提取训练，并得到初始关键字；用于将所述提取到的初始关键字与人工预先提取到的关键字进行比较，判断所述提取到的初始关键字的正确率是否大于或等于第一预设阈值；用于若所述提取到的初始关键字的正确率大于或等于所述第一预设阈值，则得到第二关键字集合；用于若所述提取到的初始关键字的正确率小于所述第一预设阈值，则通过TF-IDF算法对预置训练样本进行关键字提取训练，并得到初始关键字；

第二训练模块，用于采用所述第二关键字集合对transformer算法进行数据提取训练，得到初始第三数据集；用于将所述初始第三数据集与人工预先提取到的第三数据集进行比较，判断所述初始第三数据集的正确率是否大于或等于第二预设阈值；用于若所述初始第三数据集的正确率大于或等于所述第二预设阈值，则得到初始第三数据集；用于若所述初始第三数据集的正确率小于所述第二预设阈值，则通过反向传播算法调节所述transformer算法中向量矩阵的权重，直至所述初始第三数据集的正确率大于或等于所述第二预设阈值，，所述向量矩阵包括Query向量，Key向量和Value向量，所述Query向量为当前词的向量以及周边词的词向量，所述Key向量是与所述当前词存在相关关系的词向量，所述Value向量用于反映当前词所呈现的真实内容。

第三训练模块，用于通过所述第三数据集按照预置训练次数对初始bert模型进行情感正负判断训练，得到初始情感正负判断结果，其中，所述预置训练次数至少为一千次；用于根据预置情感正负判断结果判断所述初始情感正负判断结果是否大于或等于第一预置正确率；用于若所述初始情感正负判断结果大于或等于所述第一预置正确率，则得到情感正负判断结果；用于若所述初始情感正负判断结果小于所述第一预置正确率，则调节所述bert模型中各层transformer算法所占的权重，直至所述初始情感正负判断结果大于或等于所述第一预置正确率。

第一设置模块，用于通过方差贡献率的方法对第三数据集中的预置情感相关数据设置权重，所述方差贡献率的计算公式为：

调整模块，用于根据所述情感相关数据的权重，调整所述第三数据集所占权重，并通过softmax算法归一化处理后输出概率最大的第三数据集；

第二输出模块，用于根据所述情感相关数据的权重调整所述第三数据集所占权重，并通过softmax算法归一化处理后输出概率最大的第三数据集。

第二计算模块，用于根据以下公式计算不同情感相关数据之间的综合权重比值，

p＝w_a*n/w_b*m

第二设置模块，用于根据所述综合权重比值确定所述第三数据集所要设置的情感分类标签，所述情感分类标签包括：正向情感标签、负向情感标签。

可选地，所述第一计算模块还包括以下单元：

第一计算单元，用于通过协方差算法计算第一数据集中的各个切分结果之间的相关关系之间的协方差值D，以及通过标准差算法计算所述第一数据集中的各个切分结果之间的相关关系之间的标准差值S；

第二计算单元，用于通过公式P＝D/S计算皮尔森相关系数值；

确定单元，用于根据所述皮尔森相关系数值确定所述第一数据集中的各个切分结果之间的相关关系，得到所述切分结果之间具有相关关系的第二数据集。

可选地，所述匹配模块包括以下单元：

分词单元，用于通过分词算法Word2vec对切分结果进行分词处理，得到词向量；

第三计算单元，用于通过哈希算法分别计算所述词向量的第一哈希值与预置词库中的关键字词的第二哈希值，将第一哈希值与第二哈希值进行比较，得到匹配结果；

判断单元，用于判断所述匹配结果是否大于或等于预置匹配值。

进一步地，为实现上述目的，本发明还提供一种基于大数据的情感正负判断方法设备，所述基于大数据的情感正负判断方法设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于大数据的情感正负判断方法程序，所述基于大数据的情感正负判断方法程序被所述处理器执行时实现如上述任一项所述的基于大数据的情感正负判断方法方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于大数据的情感正负判断方法程序，所述基于大数据的情感正负判断方法程序被处理器执行时实现如上述任一项所述的基于大数据的情感正负判断方法方法的步骤。

本发明中先对网络信息安全的数据进行预处理，过滤与网络信息安全的数据无关的标点符号等数据，并对处理后的数据进行分词，在数据提取的过程中考虑到了特定事件中用户情感与事件本身之间的关系，可以避免提取单一的数据集，由于bert模型可以兼顾到不同组合的数据、不同排列顺序的第三数据集、由不同数目的数据所带来的不同的含义的数据，并最终输出情感正负判断结果，因此，可使得输出的情感分类的结果更为准确。

附图说明

图1为本发明实施例方案涉及的基于大数据的情感正负判断设备运行环境的结构示意图；

图2为本发明基于大数据的情感正负判断方法第一实施例的流程示意图；

图3为本发明基于大数据的情感正负判断方法第二实施例的流程示意图；

图4为本发明基于大数据的情感正负判断方法第三实施例的流程示意图；

图5为本发明基于大数据的情感正负判断方法第四实施例的流程示意图；

图6为本发明基于大数据的情感正负判断方法第五实施例的流程示意图；

图7为图2中步骤S50的细化流程示意图；

图8为图2中步骤S30的细化流程示意图；

图9为本发明基于大数据的情感正负判断装置实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于大数据的情感正负判断设备。

参照图1，图1为本发明实施例方案涉及的基于大数据的情感正负判断设备运行环境的结构示意图。

如图1所示，该基于大数据的情感正负判断设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的基于大数据的情感正负判断设备的硬件结构并不构成对基于大数据的情感正负判断设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大数据的情感正负判断程序。其中，操作系统是管理和控制基于大数据的情感正负判断设备和软件资源的程序，支持基于大数据的情感正负判断程序以及其它软件和/或程序的运行。

在图1所示的基于大数据的情感正负判断设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的基于大数据的情感正负判断程序，并执行以下基于大数据的情感正负判断方法的各实施例的操作。

基于上述基于大数据的情感正负判断设备硬件结构，提出本发明基于大数据的情感正负判断方法的各个实施例。

参照图2，图2为本发明基于大数据的情感正负判断方法第一实施例的流程示意图。本实施例中，所述基于大数据的情感正负判断方法包括以下步骤:

步骤S10，采用正则表达式对网络信息安全文本序列进行预处理，得到预处理文本序列，其中，所述预处理至少包括：无效词过滤、编码转换、半角全角标点处理和字符转换，所述无效词至少包括：停用词、标点符号、英文字母、数学运算符和非汉字字符；

本实施例中，采用正则表达式对网络信息安全文本序列进行数据预处理的目的是，将不规则的数据转换成机器可以识别的数据，比如，对于不规则的url、query数据可以通过正则表达式的方法，对其进行初步的数据预处理，使得同一种模式下的数据保持一致，即都转化成规则的数据。使用python的正则表达式的方法可以过滤掉网络信息安全文本中的停用词、标点符号、英文字母、数学运算符和其它非汉字字符，实现编码转换、半角全角标点处理和字符转换。

步骤S20，从预置算法集合中选择第一算法对所述预处理文本序列进行切分，得到切分结果，其中，所述预置算法集合包括：通过前向最大算法、后向最大算法和双向最大算法，所述切分结果包括不同组合、不同顺序和不同数目的数据；

本实施例中，前向最大算法、双向最大算法和后向最大算法，均是对文本序列进行分词的算法，在本实施例中可以采用一种或多种算法对文本进行切分，要注意的是，具体采用哪种算法均取决于整个方案中最终情感正负判断结果是否异常，如果第一次切分的时候用的是前向最大算法，而最终输出的情感正负判断结果与预置情感正负判断结果不一致，则再返回步骤S20，采用双向最大算法或是后向最大算法，直至一致。之所以采用预置算法集合中的算法对预处理文本序列进行切分，是为了得到不同组合、不同顺序和不同数目的数据。

步骤S30，通过关键字匹配算法将所述切分结果与预置词库中的关键字词进行匹配，得到匹配结果，判断所述匹配结果是否大于或等于预置匹配值；

本实施例中，预置匹配值指的是，在将关键字词存储于预置词库之后，为每个关键字词设置不同的预置匹配值。

即p(x₁ x₂....x_n)>p(x₁ x₂x₃)>p(x₁ x₂)>p(x₁)，其中x指的是汉字，n指的是第n个位置,p指的是单个汉字或多个汉字的预设阈值，在切分的时候优先切分出预置匹配值最大的单个汉字或多个汉字。

关键字匹配算法指的是，根据切分出的关键字去与词库中的关键字进行一一对比，判断切分出的关键字与词库中的关键字是否存在匹配关系，如果存在匹配关系则说明完成了当前的切分工作，再去切分下一个字。关键字匹配算法包括KMP算法，在此之前包括，先建立词库，在词库建立完成之后，将所有的关键字添加到词库中，以备与切分出的结果进行对比。

步骤S40，若所述匹配结果大于或等于所述预置匹配值，则将所述切分结果作为第一数据集，所述第一数据集包括一个或多个所述切分结果，所述匹配结果小于所述预置匹配值，则从预置算法集合中选择第二算法对所述预处理文本序列进行切分，得到切分结果，所述第一数据集包括一个或多个所述切分结果；

本实施例中，对预处理文本序列{x₁ x₂x₃}进行切分后，先得到x₁，通过关键字匹配算法将所述x₁与预置词库{x₁,x₁ x₂,x₁ x₂x₃,....,x₁ x₂....x_n}中的关键字词进行匹配，若与预置词库中的x₁的匹配结果满足预设阈值，则切分并得到x₁，然后再切分x₂，直至将{x₁x₂x₃}中的汉字切分出来，并将切分出的汉字存储于第一数据集，得到{x₁,x₂,x₃}。

若不满足所述预设阈值，则以当前预处理文本序列中前n+1个汉字为预置切分单位进行切分，得到切分结果，并返回步骤S30，所述n指的是第n次判断出所述匹配结果不满足所述预设阈值；

本实施例中，规定p(y)＝p(x₁,x₂,x₃)>p(x₁ x₂)>p(x₁),在对当前预处理文本序列{x₁x₂x₃ y}进行切分后，会得到x₁，由于p(x₁ x₂)>p(x₁)，所以不满足预设阈值，因此要以当前预处理文本序列中前n+1个汉字为预置切分单位进行切分，即以前两个汉字为切分单位，切分出x₁x₂，然后返回步骤S30，通过关键字匹配算法得到p(x₁x₂x₃)由于p(x₁x₂x₃)>p(x₁x₂)，所以以此类推，切分出{x₁x₂x₃,y}。

步骤S50，通过皮尔森相关系数算法计算所述第一数据集中的各个切分结果之间的相关关系，得到所述切分结果之间具有相关关系的第二数据集；

本实施例中，皮尔森相关系数算法计算结果的值域为[-1,1]，其中，1为X和Y完全正相关，-1为完全负相关，0为无关。绝对值越大表明相关性越强，在本实施例中，通过皮尔森相关系数算法计算第一数据集中的各个切分结果之间的相关关系。由于不同的切分结果之间的相关关系数值存在均是正值的情况，为了进行区别，可以预先对不同切分结果之间的相关关系划分成不同的等级，例如[0.8，1.0]极强相关；(0.6，0.8)强相关；[0.4，0.6]中等程度相关；(0.2，0.4)弱相关；[0.0，0.2]极弱相关。

步骤S60，通过词频和反向词频TF-IDF算法对所述第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集；

本实施例中,TF-IDF算法指的是从数据集中提取关键数据的算法。transformer算法是一种可以对海量特征数据进行并行计算的算法，并可结合上下文关系从数据集中提取特定数据。对文本中出现的情感词汇先通过TF-IDF算法对特征进行提取，TF-IDF的值与该词在文章中出现的频率成正比，与该词在整个语料库中出现的频率成反比，因此根据TF-IDF算法的这一特性可以从文章中提取出关键词，得到关键字集合。优点是简单快速，缺点是单纯考虑词频，即只能考虑到不同数目的关键数据，却忽略了词与词的位置信息。

为了兼顾词与词的位置信息，因此在本实施例中通过transformer算法对关键字集合进行进一步提取。具体实现方式为：通过transforme算法将关键字集合中的每个数据，均转化为3个词向量矩阵，分别为Query向量(Q)，Key向量(K)和Value向量(V)，其中每个向量都有一个权重，分别为w_Q,w_v,w_k，Q向量为当前词的向量，以及当前词周边的词的词向量，而K向量指的与当前词存在相关关系的词的向量，由于在步骤S50中，已经通过皮尔森相关系数算法，计算并得到了第一数据集中的各个切分结果之间的相关关系，并得到了切分结果之间具有相关关系的第二数据集，即第二数据集的切分结果(切分结果是通过切分文本序列而得到的词)，而V向量指的是当前文本所呈现的真实内容，即人对当前文本所呈现的情感倾向的理解，在通过transformer算法对关键字集合进行进一步提取之前，需要训练transformer算法，去调整w_Q,w_v,w_k权重，直至提取出符合当前文本所呈现的真实内容的词。在本实施例中可以兼顾不同算法的优点，从而使提取的数据更加准确。

步骤S70，采用bert模型对所述第三数据集进行情感正负判断，输出情感正负判断结果。

本实施例中，bert模型由多层transformer算法构成，通过步骤S60可知，transformer算法已经可以输出第三数据集，其中网络信息安全特征数包括情感词汇，例如“满意”，即步骤S60已经实现了对情感的分类，但是为了使得到的情感判断结果的准确度更高，在本实施例中，采用多层transformer算法，即bert模型，每一层transformer算法提取数据的过程与步骤S60一致。

参照图3，图3为本发明基于大数据的情感正负判断方法第二实施例的流程示意图。本实施例中，在图2的步骤S60之前，所述基于大数据的情感正负判断方法包括以下步骤:

步骤S80，通过TF-IDF算法对第二数据集进行关键字提取训练，并得到初始关键字；

本实施例中，TF-IDF算法是特征权重算法中的一种，该算法可以从当前文章中，提取出现频率较高的字，但是有些词出现的频率也很高，例如“的”、“是”，但是如果仅将类似于“的”、“是”这样的关键字提取出来，则输出的结果可能存在不准确的情感，因此在正式通过TF-IDF算法对第二数据集进行关键字提取之前，需要通过TF-IDF算法对第二数据集进行关键字提取训练，只有TF-IDF算法可以在规定要求下提取出当前场景所需的数据时，才可以通过TF-IDF算法对数据进行提取。

步骤S90，将所述提取到的初始关键字与人工预先提取到的关键字进行比较，判断所述提取到的初始关键字的正确率是否大于或等于第一预设阈值；

本实施例中，人工预先提取到的关键字是用于检验提取的关键字是否符合当前场景需求。

步骤S100，若所述提取到的初始关键字的正确率大于或等于所述第一预设阈值，则得到第二关键字集合，若所述提取到的初始关键字的正确率小于所述第一预设阈值，则返回步骤S80；

本实施例中，第一预设阈值指的是预先设置的准确率，若当前正确率小于预先设置的正确率，则说明通过TF-IDF算法提取到的数据不够准确，因此，需要继续训练。

步骤S110，采用所述第二关键字集合对transformer算法进行数据提取训练，得到初始第三数据集；

本实施例中，由于刚开始是时候transformer算法并不具备准确提取数据的能力，因此需要先采用数据进行训练。

步骤S120，将所述初始第三数据集与人工预先提取到的第三数据集进行比较，判断所述初始第三数据集的正确率是否大于或等于第二预设阈值；

本实施例中，预先设置第二预设阈值目的是为了检验transformer算法输出的数据是否满足预置准确率。

步骤S130，若所述初始第三数据集的正确率大于或等于所述第二预设阈值，则得到初始第三数据集；

步骤S140，若所述初始第三数据集的正确率小于所述第二预设阈值，则通过反向传播算法调节所述transformer算法中向量矩阵的权重，直至所述初始第三数据集的正确率大于或等于所述第二预设阈值，所述向量矩阵包括Query向量，Key向量和Value向量，所述Query向量为当前词的向量以及周边词的词向量，所述Key向量是与所述当前词存在相关关系的词向量，所述Value向量用于反映当前词所呈现的真实内容。

本实施例中，词频、TF-IDF的算法指的是从数据集中提取关键数据的算法，transformer算法是一种可以对海量数据进行并行计算的算法，可用于从数据集中提取特定数据。若提取到的结果不符合第二预设阈值，则需要通过反向传播算法，调整各个向量矩阵的权重，直至输出结果满足第二预设阈值。

参照图4，图4为本发明基于大数据的情感正负判断方法第三实施例的流程示意图。本实施例中，在图2的步骤S70之前，所述基于大数据的情感正负判断方法包括以下步骤:

步骤S150，通过所述第三数据集按照预置训练次数对初始bert模型进行情感正负判断训练，得到初始情感正负判断结果，其中，所述预置训练次数至少为一千次；

本实施例中，bert模型是由多层的transformer算法构成的，为了得到预期的模型，因此在预先设置了对初始bert模型进行情感正负判断训练的次数，在本实施例中，训练次数至少为一千次。

步骤S160，根据预置情感正负判断结果判断所述初始情感正负判断结果是否大于或等于第一预置正确率；

本实施例中，第一预置正确率指的是bert模型输出结果的正确率，例如为99％，为了判断bert模型输出的情感正负判断结果是否满足第一预置正确率，因此需要预先通过人工来判断用户对该网络信息安全的情感倾向，即人工情感正负判断结果，若bert模型与人工分类结果一致，则说明情感正负判断结果正常，例如，预置情感正负判断结果为“对网络信息安全感到不满意”，而bert模型输出的结果为“对网络信息安全感到满意”，则说明不满足第一预置正确率。

步骤S170，若所述初始情感正负判断结果大于或等于所述第一预置正确率，则得到bert模型；

步骤S180，若所述初始情感正负判断结果小于所述第一预置正确率，则调节所述bert模型中各层transformer算法所占的权重，直至所述初始情感正负判断结果大于或等于所述第一预置正确率。

实施例中，如果将第三数据集输入bert模型后，输出的分类结果满足第一预置正确率，则说明得到了可以输出满足第一预置正确率的情感分了模型；如果将第三数据集输入bert模型后后，输出的分类结果是正异常的，因此要调节各层transformer算法所占的权重。通过输出的结果动态调整各层transformer算法所占的权重，直至直至bert模型输出满足第一预置正确率情感正负判断结果。

参照图5，图5为本发明基于大数据的情感正负判断方法第四实施例的流程示意图。本实施例中，在图2的步骤S60之后，所述基于大数据的情感正负判断方法包括以下步骤:

步骤S190，通过方差贡献率的方法对第三数据集中的预置情感相关数据设置权重：

实施例中，通过方差贡献率的方法对所述否定词和程度副词设置权重，对否定词和程度副词进行设置权重的目的的为了得到更准确的第三数据集。

步骤S200，根据所述情感相关数据的权重，调整所述第三数据集所占权重，并通过softmax算法归一化处理后输出概率最大的第三数据集。

实施例中，对于同一个情感词汇，若加上否定词或程度副词后会改变原有的情感，例如，“满意”与“不满意”是截然不同的态度，所以决定情感相关数据最终输出的是否定词或程度副词，若数据集中出现否定词或程度副词，则要以带有否定词或程度副词的第三数据集为准。

参照图6，图6为本发明基于大数据的情感正负判断方法第五实施例的流程示意图。本实施例中，在图5的步骤S180之前，所述基于大数据的情感正负判断方法包括以下步骤:

步骤S210，根据以下公式计算不同情感相关数据之间的综合权重比值：

p＝w_a*n/w_b*m，

本实施例中，对于同一个情感词汇，若加上否定词或程度副词后会改变原有的情感，因此需要知道在当前场景下需要输出哪种情感，是输出“非常满意”还是输出“很满意”，由步骤S200已经计算并得到了各个情感相关数据所占的权重，为了可以更准确的区分出存在细微差异的不同情感数据，因此需要通过公式计算不同情感相关数据之间的综合权重比值。

步骤S220，根据所述综合权重确定所述第三数据集所要设置的情感分类标签，所述情感分类标签包括：正向情感标签、负向情感标签。

本实施例中，预设比值指的是，若P值大于或等于1，或小于1。

因此仅需判断P值是否大于或等于1，或小于1，若大于或等于1，则输出a情感相关数据，若小于1则输出b情感相关数据。不同预设比值对应不同的情感分类标签，若预设比值大于或等于1，则为第三数据集设置“正”号标签，若预设比值小于1则为第三数据集设置“负”号标签，在本实施例中需要判断综合权重比值是否大于或等于1，若大于或等于1则为当前第三数据集设置“正”号标签，若综合权重比值小于1则为当前第三数据集设置“负”号标签。

参照图7，图7为图2中步骤S50的细化流程示意图。本实施例中，上述步骤S50包括以下步骤:

步骤S501，通过协方差算法计算第一数据集中的各个切分结果之间的相关关系之间的协方差值D，以及通过标准差算法计算所述第一数据集中的各个切分结果之间的相关关系之间的标准差值S；

本实施例中，计算协方差值和标准差值S的目的是计算皮尔森相关系数值。

步骤S502，通过公式P＝D/S计算皮尔森相关系数值；

本实施例中，通过公式P＝D/S计算皮尔森相关系数值。

步骤S503，根据所述皮尔森相关系数值确定所述第一数据集中的各个切分结果之间的相关关系，得到所述切分结果之间具有相关关系的第二数据集。

本实施例中，根据所述皮尔森相关系数值确定所述第一数据集中的各个切分结果之间的相关关系的过程为：判断皮尔森相关系数值的大小，当皮尔森相关系数值在[-1,0)时，切分结果之间为负相关关系，当皮尔森相关系数值在(0,1]时，切分结果之间为正相关关系，当皮尔森相关系数值为0时，切分结果之间不存在相关关系。

参照图8，图8为图2中步骤S30的细化流程示意图。本实施例中，上述步骤S30具体包括以下步骤：

步骤S301，通过分词算法Word2vec对切分结果进行分词处理，得到词向量；

实施例中，将切分结果转化成词向量的形式是为了方便算法对其进行计算。

步骤S302，通过哈希算法分别计算所述词向量的第一哈希值与预置词库中的关键字词的第二哈希值，将第一哈希值与第二哈希值进行比较，得到匹配结果；

实施例中，通过哈希算法分别计算所述词向量的第一哈希值与预置词库中的关键字词的第二哈希值，将第一哈希值与第二哈希值进行比较，得到匹配结果，通过使用哈希算法对不同的向量进行计算后会得到相同与不同的哈希值。

步骤S303，判断所述匹配结果是否大于或等于预置匹配值。

实施例中，判断所述匹配结果是否大于或等于预置匹配值，将不同向量之间的哈希值进行比较即可得到匹配结果，通过判断所述匹配结果是否大于或等于预置匹配值，即可得到满足预置匹配值的词向量。

参照图9，图9为本发明基于大数据的情感正负判断装置第一实施例的功能模块示意图。本实施例中，所述基于大数据的情感正负判断装置包括：

过滤转换模块10，用于采用正则表达式对网络信息安全文本序列进行预处理，得到预处理文本序列，其中，所述预处理至少包括：无效词过滤、编码转换、半角全角标点处理和字符转换，所述无效词至少包括：停用词、标点符号、英文字母、数学运算符和非汉字字符；

切分模块20，用于从预置算法集合中选择第一算法对所述预处理文本序列进行切分，得到切分结果，其中，所述预置算法集合包括：通过前向最大算法、后向最大算法和双向最大算法，所述切分结果包括不同组合、不同顺序和不同数目的数据；

匹配模块30，用于通过关键字匹配算法将所述切分结果与预置词库中的关键字词进行匹配，得到匹配结果，判断所述匹配结果是否大于或等于预置匹配值；

存储模块40，用于若满足所述预设阈值，则将所述切分结果作为第一数据集，若否，则从预置算法集合中选择第二算法对所述预处理文本序列进行切分，得到切分结果，所述第一数据集包括一个或多个所述切分结果；

计算模块50，用于通过皮尔森相关系数算法计算所述第一数据集中的各个切分结果之间的相关关系，并得到所述切分结果之间具有相关关系的第二数据集；

提取模块60，用于通过词频和反向词频TF-IDF算法对所述所述第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集；

输出模块70，用于采用bert模型对所述第三数据集进行情感正负判断，输出情感正负判断结果。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有基于大数据的情感正负判断程序，所述基于大数据的情感正负判断程序被处理器执行时实现如上述任一项实施例中所述的基于大数据的情感正负判断方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种基于大数据的情感正负判断方法，其特征在于，所述基于大数据的情感正负判断方法包括以下步骤：

采用正则表达式对网络信息安全文本序列进行预处理，得到预处理文本序列，其中，所述预处理至少包括：无效词过滤、编码转换、半角全角标点处理和字符转换；

若是，则将所述切分结果作为第一数据集，若否，则从预置算法集合中选择第二算法对所述预处理文本序列进行切分，得到切分结果，所述第一数据集包括一个或多个所述切分结果；

2.如权利要求1所述的基于大数据的情感正负判断方法，其特征在于，在所述通过词频和反向词频TF-IDF算法对所述第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集的步骤之前，还包括以下步骤：

通过TF-IDF算法对预置训练样本进行关键字提取训练，并得到初始关键字；

若是，则得到第二关键字集合，若否，通过TF-IDF算法对预置训练样本进行关键字提取训练，并得到初始关键字；

若所述初始第三数据集的正确率大于或等于所述第二预设阈值，则得到初始第三数据集，若所述初始第三数据集的正确率小于所述第二预设阈值，则通过反向传播算法调节所述transformer算法中向量矩阵的权重，直至所述初始第三数据集的正确率大于或等于所述第二预设阈值，所述向量矩阵包括Query向量，Key向量和Value向量，所述Query向量为当前词的向量以及周边词的词向量，所述Key向量是与所述当前词存在相关关系的词向量，所述Value向量用于反映当前词所呈现的真实内容。

3.如权利要求1所述的基于大数据的情感正负判断方法，其特征在于，在采用bert模型对所述第三数据集进行情感正负判断，输出情感正负判断结果的步骤之前，还包括以下步骤：

若是，则得到bert模型，若否，则调节所述初始bert模型中各层transformer算法所占的权重，直至所述初始情感正负判断结果大于或等于所述第一预置正确率。

4.如权利要求1所述的基于大数据的情感正负判断方法，其特征在于，在所述通过词频和反向词频TF-IDF算法对第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集的步骤之后，还包括以下步骤：

根据所述情感相关数据的权重，调整所述第三数据集所占权重，并通过softmax算法归一化处理后输出概率最大的第三数据集。

5.如权利要求4所述的基于大数据的情感正负判断方法，其特征在于，在所述通过方差贡献率的方法对第三数据集中的预置情感相关数据设置权重的步骤之前，还包括以下步骤：

根据以下公式计算不同情感相关数据之间的综合权重比值；

p＝w_a*n/w_b*m，

6.如权利要求1述的基于大数据的情感正负判断方法，其特征在于，所述通过皮尔森相关系数算法计算所述第一数据集中的各个切分结果之间的相关关系，并得到所述切分结果之间具有相关关系的第二数据集包括以下步骤：

通过公式P＝D/S计算皮尔森相关系数；

7.如权利要求1所述的基于大数据的情感正负判断方法，其特征在于，所述通过关键字匹配算法将所述切分结果与预置词库中的关键字词进行匹配，得到匹配结果，判断所述匹配结果是否大于或等于预置匹配值包括以下步骤：

判断所述匹配结果是否大于或等于预置匹配值。

8.一种基于大数据的情感正负判断装置，其特征在于，所述基于大数据的情感正负判断装置包括：

存储模块，用于若满足所述预设阈值，则将所述切分结果作为第一数据集，若否，则从预置算法集合中选择第二算法对所述预处理文本序列进行切分，得到切分结果，所述第一数据集包括一个或多个所述切分结果；

计算模块，用于通过皮尔森相关系数算法计算所述第一数据集中的各个切分结果之间的相关关系，并得到所述切分结果之间具有相关关系的第二数据集；

提取模块，用于通过词频和反向词频TF-IDF算法对所述所述第二数据集中的关键字进行初步提取，得到第一关键字集合,以及通过transformer算法对所述第一关键字集合进行进一步提取，得到第三数据集；

输出模块，用于采用bert模型对所述第三数据集进行情感正负判断，输出情感正负判断结果。

9.一种基于大数据的情感正负判断设备，其特征在于，所述基于大数据的情感正负判断设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于大数据的情感正负判断程序，所述基于大数据的情感正负判断程序被所述处理器执行时实现如权利要求1-7中任一项所述的基于大数据的情感正负判断方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于大数据的情感正负判断程序，所述基于大数据的情感正负判断程序被处理器执行时实现如权利要求1-7中任一项所述的基于大数据的情感正负判断方法的步骤。