CN117453863B

CN117453863B - 一种舆情文本归类方法及系统

Info

Publication number: CN117453863B
Application number: CN202311775492.7A
Authority: CN
Inventors: 陈光杰; 谢俊年; 陈荣亮
Original assignee: Zhuhai Bowei Network Information Co ltd
Current assignee: Zhuhai Bowei Network Information Co ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-03-29
Anticipated expiration: 2043-12-22
Also published as: CN117453863A

Abstract

本发明公开了一种舆情文本归类方法及系统，包括：根据预构建的敏感词表对获取的舆情文本进行敏感词检索，获得所述舆情文本对应的若干个敏感词，根据所述敏感词确定舆情文本对应的敏感段落，并通过预设的全局向量及单词转换向量对每一个敏感段落进行向量化处理，生成每一个敏感段落对应的文本向量矩阵，通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取，并对其进行加强处理及特征融合，获得所述每一个敏感词所在敏感段落对应的语义特征，根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征，通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果，提高舆情文本分类的准确度。

Description

一种舆情文本归类方法及系统

技术领域

本发明涉及信息分析技术领域，具体的，涉及一种舆情文本归类方法及系统。

背景技术

随着互联网交流平台的兴起，信息获取及传播的渠道由传统的纸质传媒或电视报道转变为网络传播，同时随着科技的发展，用户可通过手机或电脑访问类型繁多的APP，随时随地获取不同来源的信息，同时针对所述信息发布个人的信息和看法，这使得舆情信息传播范围变得更广，传播速度变得更快，舆情的影响也越来越大，随着舆情信息的易复制、易转载属性以及互联网水军的存在导致互联网上存在海量的重复相似的信息，这些相似的舆情信息不但增加了舆情信息的获取成本、存储成本、分析成本，同时影响了舆情信息的分析效果、索引效率，严重影响了舆情信息的价值发挥。

为了获得有用的舆情信息，面对庞大的网络新闻等舆情文本，用户通常利用模型对所述舆情文本进行分类，根据分类后获得文本提取舆情信息，但是传统的模型大多采用单一的基分类器提取相同的特征进行分类，无法适应更新换代快的网络环境，如现有网络环境中，人们会使用自嘲的贬义词来体现对某个品牌的喜爱，若使用传统的特征提取方法，则会导致舆情分类的错误，由此，传统的单一模型分类方法已无法适用新兴的网络环境，其分类结果准确度低，不能满足用户的要求。

发明内容

为了解决上述技术问题，本发明公开了一种舆情文本归类方法及系统，用于提高舆情文本分类的准确度及效率。

为了实现上述目的，本发明公开了一种舆情文本归类方法，包括：

根据预构建的敏感词表对获取的舆情文本进行敏感词检索，获得所述舆情文本对应的若干个敏感词；

根据所述若干个敏感词确定所述舆情文本对应的若干个敏感段落，并通过预设的全局向量及单词转换向量对所述若干个敏感段落中的每一个敏感段落进行向量化处理并加以训练，生成所述每一个敏感段落对应的文本向量矩阵；

通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取，并对所述关键特征信息进行加强处理及特征融合，获得所述每一个敏感词所在敏感段落对应的语义特征；

根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征，通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果。

本发明公开的一种舆情文本归类方法，为了解决现有技术中提取单一特征造成的文本分类准确度低的技术问题，结合舆情文本的情感表达及语义特征对所述舆情文本进行分类，依次提高舆情文本分类的精准度，首先为了获取舆情文本的情感表达，利用预构建的可表示情绪信息的敏感词表对获取的舆情文本进行敏感词的检索，可通过所述敏感词初始确定当前文本的基本舆情朝向，接着考虑到文本的语义关系通常体现在文本的上下文之间，因此为了降低数据处理量，提高归类的效率，利用所述敏感词对所述舆情文本进行段落划分，只获取所述敏感词所在的段落，保证文本归类的精准度，接着对每一个敏感段落进行向量化并加以训练，生成对应的文本向量矩阵，再利用预设的最近邻算法分别对每一个文本向量矩阵进行最近邻搜索，生成所述敏感词与所述段落文本中存在的词之间的第二文本向量矩阵，根据所述第二文本向量矩阵，根据预设的自注意力机制提取所述敏感词与其所在的敏感段落的语义特征，结合所述语义特征与所述敏感词，通过预设的激活函数进行归类，可提高舆情文本分类的准确度及效率。

作为优选例子，在所述根据预构建的敏感词表对获取的舆情文本进行敏感词检索，获得所述舆情文本对应的若干个敏感词，包括：

根据预设的前缀词典对所述舆情文本进行词图扫描，生成所述舆情文本对应的有向图；

对所述有向图进行动态规划，查找所述有向图对应的若干个最大概率路径，根据所述最大概率路径对所述舆情文本进行分词，获得所述舆情文本对应的若干个舆情词；

将所述若干个舆情词中的每一个舆情词与所述敏感词表中的每一个敏感词进行匹配，获得所述每一个舆情词对应的匹配结果；

根据所述匹配结果确定所述舆情文本对应的若干个敏感词。

本发明利用前缀词典对所述舆情文本进行有向图的生成，以使生成所述舆情文本中所有可能的成词结果，降低失误，接着再对所述有向图进行最大概率路径规划，从所述所有的成词结果进行筛选，提高分词的精准度，将最终获取的舆情词与预设的敏感词表中的敏感词进行匹配，根据所述匹配结果确定敏感词，以使后续根据所述敏感词提取代表所述舆情文本的舆情信息的段落，降低数据处理量。

作为优选例子，在所述根据所述若干个敏感词确定所述舆情文本对应的若干个敏感段落，包括：

对所述若干个敏感词中的每一个敏感词及所述舆情文本进行词性标注；

根据所述词性标注的结果对所述舆情文本并进行依存句法分析，获得所述每一个敏感词对应的文本依存树；其中，所述文本依存树的树根为所述敏感词；

根据所述文本依存树遍历所述舆情文本，获得每一个敏感词对应的敏感段落。

本发明通过所述词性标注及所述文本依存树的生成，对所述敏感词所在的敏感段落进行搜索，依次保证所述敏感词所在的段落对应的上下文关系的完整性，以使通过提高所述上下文关系的完整性提高后续提取的语义特征的精准度，间接提高文本归类的精准度。

作为优选例子，在所述对所述若干个敏感段落中的每一个敏感段落进行向量化并加以训练，生成每一个敏感段落对应的第一文本向量矩阵，包括：

根据预设的全局向量构建所述每一个敏感段落分别对应的共线矩阵，并对所述共线矩阵加以训练，生成包含所述敏感段落的全局信息的全局文本向量矩阵；

根据预设的单词转换向量及所述舆情文本对应的局部上下文窗口，对所述每一个敏感段落分别进行单词转换向量化并加以训练，生成所述每一个敏感段落分别对应的单词文本向量矩阵；

合并所述全局文本向量矩阵及所述单词文本向量矩阵，获得所述每一个敏感段落分别对应的文本向量矩阵。

本发明通过生成所述包含全局信息及局部信息的第一文本向量矩阵，以使提高所述向量矩阵内包含的文本特征信息，便于后续在进行特征提取时，提高特征提取的全面性及精准度，进而提高文本分类的精准度。

作为优选例子，在所述通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取，包括：

根据预设在所述自注意力机制中的双向门控循环单元对所述全局文本向量矩阵进行特征提取，获得所述全局文本向量矩阵对应的全局特征及上下文关系特征；

根据预设在所述自注意力机制中的卷积神经网络对所述单词文本向量矩阵进行特征提取，获得所述单词文本向量矩阵对应的局部特征。

本发明通过分别提取所述全局文本向量对应的全局特征及所述单词文本向量矩阵对应的局部特征，提高所述敏感段落特征提取的精准度，为后续提高文本归类提供精确的分类依据。

作为优选例子，在所述对所述关键特征信息进行加强处理及特征融合，获得所述每一个敏感词所在敏感段落对应的语义特征，包括：

对所述全局特征、上下文关系特征及所述局部特征进行升维处理及特征融合，获得所述敏感段落对应的初始语义特征；

根据预设的平均函数对所述初始语义特征进行平均处理，获得所述敏感段落对应的语义特征。

本发明通过对所述特征进行升维操作及特征融合，以使更好的表述所述矩阵对应的特征信息，随后通过平均函数对所述特征进行计算使得所获特征具有普遍性，进而提高特征提取的效率及精准度。

作为优选例子，在所述通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果，包括：

将所述若干个敏感词及敏感词所在敏感段落对应的语义特征输入至所述分类模型，通过预设在所述分类模型的全连接层分别为所述若干个敏感词中的每一个敏感词分配一个决策树；

根据所述敏感词所在敏感段落对应的语义特征，通过所述决策树生成每一个语义特征对应的注意力得分；

将所述若干个敏感词中每一个敏感词所在敏感段落的语义特征对应的注意力得分进行相加，获得所述舆情文本对应的注意力得分值；

将所述注意力得分值与预设的注意力得分阈值进行比较，根据所述比较的结果，对所述舆情文本进行归类。

本发明利用预设在所述分类模型中的不同决策树对所述语义特征进行注意力得分的生成，获得若干个不同的注意力得分值，接着根据所述注意力得分值的相加做分类处理，获得所述舆情文本对应的归类结果，提高舆情文本归类的准确性。

另一方面，本发明还公开了一种舆情文本归类系统，所述系统包括敏感词检索模块、矩阵划分模块、特征提取模块及文本归类模块；

所述敏感词检索模块用于根据预构建的敏感词表对获取的舆情文本进行敏感词检索，获得所述舆情文本对应的若干个敏感词；

所述矩阵划分模块用于根据所述若干个敏感词确定所述舆情文本对应的若干个敏感段落，并通过预设的全局向量及单词转换向量对所述若干个敏感段落中的每一个敏感段落进行向量化处理并加以训练，生成所述每一个敏感段落对应的文本向量矩阵；

所述特征提取模块用于通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取，并对所述关键特征信息进行加强处理及特征融合，获得所述每一个敏感词所在敏感段落对应的语义特征；

所述文本归类模块用于根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征，通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果。

本发明公开的一种舆情文本归类系统，为了解决现有技术中提取单一特征造成的文本分类准确度低的技术问题，结合舆情文本的情感表达及语义特征对所述舆情文本进行分类，依次提高舆情文本分类的精准度，首先为了获取舆情文本的情感表达，利用预构建的可表示情绪信息的敏感词表对获取的舆情文本进行敏感词的检索，可通过所述敏感词初始确定当前文本的基本舆情朝向，接着考虑到文本的语义关系通常体现在文本的上下文之间，因此为了降低数据处理量，提高归类的效率，利用所述敏感词对所述舆情文本进行段落划分，只获取所述敏感词所在的段落，保证文本归类的精准度，接着对每一个敏感段落进行向量化并加以训练，生成对应的文本向量矩阵，再利用预设的最近邻算法分别对每一个文本向量矩阵进行最近邻搜索，生成所述敏感词与所述段落文本中存在的词之间的第二文本向量矩阵，根据所述第二文本向量矩阵，根据预设的自注意力机制提取所述敏感词与其所在的敏感段落的语义特征，结合所述语义特征与所述敏感词，通过预设的激活函数进行归类，可提高舆情文本分类的准确度及效率。

作为优选例子，所述敏感词检索模块包括图规划单元及词匹配单元；

所述图规划单元用于根据预设的前缀词典对所述舆情文本进行词图扫描，生成所述舆情文本对应的有向图；对所述有向图进行动态规划，查找所述有向图对应的若干个最大概率路径，根据所述最大概率路径对所述舆情文本进行分词，获得所述舆情文本对应的若干个舆情词；

所述词匹配单元用于将所述若干个舆情词中的每一个舆情词与所述敏感词表中的每一个敏感词进行匹配，获得所述每一个舆情词对应的匹配结果；根据所述匹配结果确定所述舆情文本对应的若干个敏感词。

作为优选例子，所述矩阵划分模块包括词性标注单元及段落划分单元；

所述词性标注单元用于对所述若干个敏感词中的每一个敏感词及所述舆情文本进行词性标注；

所述段落划分单元用于根据所述词性标注的结果对所述舆情文本并进行依存句法分析，获得所述每一个敏感词对应的文本依存树；其中，所述文本依存树的树根为所述敏感词；根据所述文本依存树遍历所述舆情文本，获得每一个敏感词对应的敏感段落。

附图说明

图1：为本发明实施例提供的一种舆情文本归类方法的流程示意图；

图2：为本发明实施例提供的一种舆情文本归类系统的结构示意图；

图3：为本发明又一实施例提供的一种舆情文本归类方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一，本发明实施例公开了一种舆情文本归类方法，所述归类方法的具体实施流程可参照图1，主要包括步骤101至步骤104，所述步骤为：

步骤101：根据预构建的敏感词表对获取的舆情文本进行敏感词检索，获得所述舆情文本对应的若干个敏感词。

在本实施例中，该步骤主要包括：根据预设的前缀词典对所述舆情文本进行词图扫描，生成所述舆情文本对应的有向图；对所述有向图进行动态规划，查找所述有向图对应的若干个最大概率路径，根据所述最大概率路径对所述舆情文本进行分词，获得所述舆情文本对应的若干个舆情词；将所述若干个舆情词中的每一个舆情词与所述敏感词表中的每一个敏感词进行匹配，获得所述每一个舆情词对应的匹配结果；根据所述匹配结果确定所述舆情文本对应的若干个敏感词。

本实施例中，该步骤利用前缀词典对所述舆情文本进行有向图的生成，以使生成所述舆情文本中所有可能的成词结果，降低失误，接着再对所述有向图进行最大概率路径规划，从所述所有的成词结果进行筛选，提高分词的精准度，将最终获取的舆情词与预设的敏感词表中的敏感词进行匹配，根据所述匹配结果确定敏感词，以使后续根据所述敏感词提取代表所述舆情文本的舆情信息的段落，降低数据处理量。

步骤102：根据所述若干个敏感词确定所述舆情文本对应的若干个敏感段落，并通过预设的全局向量及单词转换向量对所述若干个敏感段落中的每一个敏感段落进行向量化处理并加以训练，生成所述每一个敏感段落对应的文本向量矩阵。

在本实施例中，该步骤主要包括：对所述若干个敏感词中的每一个敏感词及所述舆情文本进行词性标注；根据所述词性标注的结果对所述舆情文本并进行依存句法分析，获得所述每一个敏感词对应的文本依存树；其中，所述文本依存树的树根为所述敏感词；根据所述文本依存树遍历所述舆情文本，获得每一个敏感词对应的敏感段落。

进一步的，根据预设的全局向量构建所述每一个敏感段落分别对应的共线矩阵，并对所述共线矩阵加以训练，生成包含所述敏感段落的全局信息的全局文本向量矩阵；根据预设的单词转换向量及所述舆情文本对应的局部上下文窗口，对所述每一个敏感段落分别进行单词转换向量化并加以训练，生成所述每一个敏感段落分别对应的单词文本向量矩阵；合并所述全局文本向量矩阵及所述单词文本向量矩阵，获得所述每一个敏感段落分别对应的文本向量矩阵。

本实施例中，该步骤通过所述词性标注及所述文本依存树的生成，对所述敏感词所在的敏感段落进行搜索，依次保证所述敏感词所在的段落对应的上下文关系的完整性，以使通过提高所述上下文关系的完整性提高后续提取的语义特征的精准度，间接提高文本归类的精准度，同时通过生成所述包含全局信息及局部信息的第一文本向量矩阵，以使提高所述向量矩阵内包含的文本特征信息，便于后续在进行特征提取时，提高特征提取的全面性及精准度，进一步提高文本分类的精准度。

步骤103：通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取，并对所述关键特征信息进行加强处理及特征融合，获得所述每一个敏感词所在敏感段落对应的语义特征。

在本实施例中，该步骤主要包括：根据预设在所述自注意力机制中的双向门控循环单元对所述全局文本向量矩阵进行特征提取，获得所述全局文本向量矩阵对应的全局特征及上下文关系特征；根据预设在所述自注意力机制中的卷积神经网络对所述单词文本向量矩阵进行特征提取，获得所述单词文本向量矩阵对应的局部特征。

进一步的，对所述全局特征、上下文关系特征及所述局部特征进行升维处理及特征融合，获得所述敏感段落对应的初始语义特征；根据预设的平均函数对所述初始语义特征进行平均处理，获得所述敏感段落对应的语义特征。

在本实施例中，该步骤通过分别提取所述全局文本向量对应的全局特征及所述单词文本向量矩阵对应的局部特征，提高所述敏感段落特征提取的精准度，为后续提高文本归类提供精确的分类依据，接着通过对所述特征进行升维操作及特征融合，以使更好的表述所述矩阵对应的特征信息，随后通过平均函数对所述特征进行计算使得所获特征具有普遍性，进而提高特征提取的效率及精准度。

步骤104：根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征，通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果。

在本实施例中，该步骤主要包括：将所述若干个敏感词及敏感词所在敏感段落对应的语义特征输入至所述分类模型，通过预设在所述分类模型的全连接层分别为所述若干个敏感词中的每一个敏感词分配一个决策树；根据所述敏感词所在敏感段落对应的语义特征，通过所述决策树生成每一个语义特征对应的注意力得分；将所述若干个敏感词中每一个敏感词所在敏感段落的语义特征对应的注意力得分进行相加，获得所述舆情文本对应的注意力得分值；将所述注意力得分值与预设的注意力得分阈值进行比较，根据所述比较的结果，对所述舆情文本进行归类。

本实施例中，该步骤利用预设在所述分类模型中的不同决策树对所述语义特征进行注意力得分的生成，获得若干个不同的注意力得分值，接着根据所述注意力得分值的相加做分类处理，获得所述舆情文本对应的归类结果，提高舆情文本归类的准确性。

在本实施例中，还可以实现：敏感词的提取针对港澳的粤语语句结构，粤语口语及网络用语进行针对性的优化，用以强化带有港澳互联网文化色彩的文本归类精准度；同时，针对用于多模态内容提取时通过ASR引擎产生的粤语错别字进行若干程度的兼容。

另一方面，本实施例还公开了一种舆情文本归类系统，所述系统的具体结构组成可参照图2，主要包括敏感词检索模块201、矩阵划分模块202、特征提取模块203及文本归类模块204。

所述敏感词检索模块201用于根据预构建的敏感词表对获取的舆情文本进行敏感词检索，获得所述舆情文本对应的若干个敏感词。

所述矩阵划分模块202用于根据所述若干个敏感词确定所述舆情文本对应的若干个敏感段落，并通过预设的全局向量及单词转换向量对所述若干个敏感段落中的每一个敏感段落进行向量化处理并加以训练，生成所述每一个敏感段落对应的文本向量矩阵。

所述特征提取模块203用于通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取，并对所述关键特征信息进行加强处理及特征融合，获得所述每一个敏感词所在敏感段落对应的语义特征。

所述文本归类模块204用于根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征，通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果。

在本实施例中，所述敏感词检索模块201包括图规划单元及词匹配单元。

所述图规划单元用于根据预设的前缀词典对所述舆情文本进行词图扫描，生成所述舆情文本对应的有向图；对所述有向图进行动态规划，查找所述有向图对应的若干个最大概率路径，根据所述最大概率路径对所述舆情文本进行分词，获得所述舆情文本对应的若干个舆情词。

在本实施例中，所述矩阵划分模块202包括词性标注单元及段落划分单元。

所述词性标注单元用于对所述若干个敏感词中的每一个敏感词及所述舆情文本进行词性标注。

进一步的，在本实施例中，所述矩阵划分模块202还包括全局转化单元、局部转化单元及合并单元。

所述全局转化单元用于根据预设的全局向量构建所述每一个敏感段落分别对应的共线矩阵，并对所述共线矩阵加以训练，生成包含所述敏感段落的全局信息的全局文本向量矩阵。

所述局部转化单元用于根据预设的单词转换向量及所述舆情文本对应的局部上下文窗口，对所述每一个敏感段落分别进行单词转换向量化并加以训练，生成所述每一个敏感段落分别对应的单词文本向量矩阵。

所述合并单元用于合并所述全局文本向量矩阵及所述单词文本向量矩阵，获得所述每一个敏感段落分别对应的文本向量矩阵。

在本实施例中，所述特征提取模块203包括提取单元及融合单元。

所述提取单元用于根据预设在所述自注意力机制中的双向门控循环单元对所述全局文本向量矩阵进行特征提取，获得所述全局文本向量矩阵对应的全局特征及上下文关系特征；根据预设在所述自注意力机制中的卷积神经网络对所述单词文本向量矩阵进行特征提取，获得所述单词文本向量矩阵对应的局部特征。

所述融合单元用于对所述全局特征、上下文关系特征及所述局部特征进行升维处理及特征融合，获得所述敏感段落对应的初始语义特征；根据预设的平均函数对所述初始语义特征进行平均处理，获得所述敏感段落对应的语义特征。

在本实施例中，所述文本归类模块204包括注意力得分分配单元及文本分类单元。

所述注意力得分分配单元用于将所述若干个敏感词及敏感词所在敏感段落对应的语义特征输入至所述分类模型，通过预设在所述分类模型的全连接层分别为所述若干个敏感词中的每一个敏感词分配一个决策树；根据所述敏感词所在敏感段落对应的语义特征，通过所述决策树生成每一个语义特征对应的注意力得分。

所述文本分类单元用于将所述若干个敏感词中每一个敏感词所在敏感段落的语义特征对应的注意力得分进行相加，获得所述舆情文本对应的注意力得分值；将所述注意力得分值与预设的注意力得分阈值进行比较，根据所述比较的结果，对所述舆情文本进行归类。

实施例二，本实施例公开了另一种舆情文本归类方法，所述方法的具体实施流程可参照图3，主要包括步骤301至步骤304，所述步骤为：

步骤301：对获取的舆情文本进行词图扫描，根据词图扫描的结果对所述舆情文本进行分词，获得若干个舆情词，将所述若干个舆情词分别与预构建的敏感词表进行匹配，确定所述舆情文本对应的若干个敏感词。

在本实施例中，该步骤为：首先根据预设的前缀词典对所述舆情文本进行词图扫描，生成所述舆情文本对应的有向图，进一步的，在对所述舆情文本进行词图扫描前，可对舆情文本进行校验，判断舆情文本是否存在缺失值和异常值，进行舆情文本数据补充或剔除，接着对校验后的舆情文本进行分词，舆情文本分词时，基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况，根据所述成词情况生成有向无环图。

根据所述有向无环图，采用动态规划查找最大概率路径 ,找出基于词频的最大切分组合，若当所述有向无环图存在当前未记录的单词时，可采用基于汉字成词能力的隐马尔可夫模型，在对有向无环图进行分词时，可进行过滤词的停用，以此实现文本数据中噪声过滤，可通过停用词库来实现所述过滤词的停用。

进一步的，本实施例在进行敏感词的匹配时，通过遍历敏感词表，在每个敏感词的后面加上一个结束符‘$’，并统计各种字长的敏感词数量，根据敏感词的数量统计结果，把敏感词表按照敏感词字长划分为2个规模相当的敏感词子库，划分得到敏感词子库1：“ab$aab$”；敏感词子库2：“bcca$”，接着以串行方式使用归纳复制（排序）后缀索引构造算法，构造得到1级后缀索引：{6，2，3，4，0，5，1}；2级后缀索引：{4，3，0，2，1}，通过数组的形式保存每个敏感词子库的后缀索引元数据，所述元数据的格式为：{最小字长，最大字长，{字符桶的偏移量}}。1级后缀索引元数据为：{2，3，{$：0，a：2，b：5}}；2级后缀索引元数据为：{4，4，{$：0，a：1，b：2，c：3}}。

进一步的，在获取到所述舆情文本对应的舆情词后，循环遍历每一个舆情词，从若干个舆情词的首个舆情词如‘c’起，逐一遍历每个舆情词，在将所述遍历的舆情词添加至所述舆情文本的公共前缀数组中的每一个公共前缀的后面，得到当前的公共前缀数组：{c}，根据预设的后缀索引检索算法，通过预设的检索方式，对公共前缀数组中当前的公共前缀‘c’在1级后缀索引元数据中无匹配的字符桶，因而无需使用LF-Mapping后缀索引检索算法检索1级后缀索引；在2级后缀索引元数据中有匹配的字符桶，因而从字符桶的偏移量‘3’开始使用LF-Mapping后缀索引检索算法检索2级后缀索引，若当前的公共前缀‘c’在2级后缀索引中可以检索到，但是在匹配的字符桶里不存在下一字符为结束符的项目，因而无需在检索结果中记录找到该敏感词，并且无需将其从公共前缀数组中删除。

步骤302：对所述敏感词及所述舆情文本进行词性标注，根据词性标注的结果确定每一个敏感词对应的敏感段落，并对所述敏感段落进行向量化处理，获得每一个敏感段落对应的文本向量矩阵。

在本实施例中，该步骤主要为：通过对所述舆情文本及所述敏感词进行词性标注，根据词性标注的结果，以每一个敏感词作为文本依存句法分析的起点，获得所述舆情文本中若干个以敏感词作为树根的文本依存树，具体的，词性（Part-of-speech）是词汇基本的语法属性，通常也称为词类，词性标注就是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程。具体可以通过基于统计模型的词性标注方法实现词性标注。

进一步的，根据舆情文本的词性标注结果，以每一个敏感词为中心进行依存句法分析，通过依存句法分析指出舆情文本中各词汇与所述敏感词之间在句法上的搭配关系，从而得到所述舆情文本中每一个敏感词对应的文本依存树，其中，所述文本依存树的树根即为敏感词。

本实施例中，可以根据已有的领域字典，利用领域字典对舆情文本进行领域内的依存句法分析，示例性的，舆情文本对应的候选领域包括音乐领域和故事领域，则加载音乐领域的领域字典对目标文本进行音乐领域的依存句法分析，以及加载故事领域的领域字典对目标文本进行音乐领域的依存句法分析，其中，候选领域对应的领域字典可以包括对目标文本进行词性标注的规则，以及进行依存句法分析的规则，通过为不同领域建立不同的词性标注规则和依存句法分析规则，可以提高词性标注和依存句法分析的准确性。

在获得所述敏感段落后，由于文本是一种非结构化的数据，计算机无法直接对其进行处理，因此，首先对敏感段落进行向量化，并对其进行训练，得到每一个敏感段落对应的文本向量矩阵，以便后续计算机的处理。其中对所述敏感段落进行向量化操作包括利用全局向量和单词转换向量进行向量化，其中全局向量和单词转换向量分别为采用单词表示的两种词向量，通过此两种词向量对敏感段落进行向量化，分别得到全局向量和局部向量，对向量化后获得向量加以训练，获取其对应的矩阵，以便于后续计算机进行操作。

具体的，所述全局向量通过对所述目标文件进行构建共现矩阵，并对共现矩阵加以训练，获得包含所述目标文件的全局信息的所述全局文本向量矩阵，所述单词转换向量，基于所述目标文件的局部上下文窗口，对单词转换向量加以训练，获得对应的所述单词文本向量矩阵，合并所述全局文本向量矩阵及所述单词文本向量矩阵，获得所述每一个敏感段落分别对应的文本向量矩阵。

步骤303：通过预设的双向门控循环单元及卷积神经网络分别对所述文本向量矩阵进行特征提取，获得每一个文本向量矩阵对应的语义特征。

在本实施例中，该步骤主要为：根据双向门控循环单元对全局文本向量矩阵进行特征提取，获得所述全局文本向量矩阵对应的全局特征及上下文关系特征，具体的，假设每个敏感段落S固定长度为n，则每个敏感段落可以表示为，长度超出n的部分信息加以舍弃，不足部分则采用〈pad〉进行零填充。令/>表示词/>通过GloVe训练得到的d维词向量，则整个敏感段落信息通过词嵌入可以表示为全局文本向量矩阵，将所述全局向量矩阵A作为所述双向门控循环单元的输入参数。

通过双向门控循环单元的前向和后向GRU编码得到的隐藏层表示分别包含了上文信息和下文信息，则词向量经过双向门控循环单元提取到的包含上下文信息的全局特征如下：

；

因此，整个全局文本向量矩阵A经过双向GRU提取到包含上下文语义信息的全局特征矩阵H如下：

；

接着，根据预设在所述自注意力机制中的卷积神经网络对所述单词文本向量矩阵进行特征提取，获得所述单词文本向量矩阵对应的局部特征，具体的，与卷积神经网络采用卷积核窗口提取特征类似，采用Word2vec基于局部上下文窗口针对词向量加以训练，获得对应的单词文本向量矩阵B，并将其输入所述卷积神经网络，令表示词/>通过Word2vec训练得到的k维词向量，则整个敏感段落的文本信息通过词嵌入可以表示为单词文本向量矩阵。

具体的，通过卷积神经网络的嵌入层训练得到单词文本向量矩阵。使用卷积核在第二文本向量矩阵B自上向下滑动提取局部特征。对于窗口大小为r的卷积核通过第j次卷积操作提取到的局部特征/>的表达式为：

；

其中，表示非线性激活函数ReLU；w表示卷积核中的参数；b表示偏置项；表示在第二文本向量矩阵B中的第j行至第j+r-1行，卷积核一次读取的共计r行的词向量，卷积核在单词文本向量矩阵B中自上向下滑动共可进行n-r+1次卷积操作，所提取获得的局部特征矩阵C表示为：

；

在获取所述局部特征及所述全局特征后，对所述全局特征、上下文关系特征及所述局部特征进行升维处理及特征融合，获得所述敏感段落对应的初始语义特征；根据预设的平均函数对所述初始语义特征进行平均处理，获得所述敏感段落对应的语义特征。

步骤304：将所述若干个敏感词及每一个敏感词对应的语义特征输入至预设的分类模型中，通过所述分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果。

在本实施例中，该步骤为：通过预设在所述分类模型的全连接层分别为所述若干个敏感词中的每一个敏感词分配一个决策树，对于每个决策树，采用自注意力机制调整语义特征中的每一个特征在该决策树中的权重，根据所述权重，调整每一个语义特征对应的注意力得分。

其中，假设第i个语义特征在第j棵决策树中的权重为，则该特征的注意力得分为：

；

为了实现自适应调整每个特征的重要性，引入了一个注意力机制，通过学习每个特征在每个决策树中的注意力得分，来调整每个特征在预测中的重要性。

对于第j棵决策树，设注意力得分向量为，则第i个特征在该决策树中的注意力权重/>为：

；

其中，m为该决策树中特征的总数。

注意力得分的计算方式为：

；

其中，为权重矩阵，/>为第j棵决策树中所有特征的嵌入向量的加权平均值，/>为偏置项，/>为激活函数（如sigmoid函数）。

在所述分类模型中生成若干个不同的决策树后，将所述提取的语义特征分别输入到对应的决策树中进行注意力得分的计算，得到若干个计算结果，然后将所述若干个计算结果进行相加，最终确定所述舆情文本对应的舆情值，将所述舆情值与预设的舆情阈值进行比较，即可对当前舆情文本进行归类，如，当所述舆情值小于预设的舆情阈值，则代表当前舆情文本为负面舆情文本，若舆情值等于预设的舆情阈值，则代表当前舆情文本为中性舆情文本，若舆情值大于预设的舆情阈值，则代表当前舆情文本为正面舆情文本。

本实施例公开的一种舆情文本归类方法，为了解决现有技术中提取单一特征造成的文本分类准确度低的技术问题，结合舆情文本的情感表达及语义特征对所述舆情文本进行分类，依次提高舆情文本分类的精准度，首先为了获取舆情文本的情感表达，利用预构建的可表示情绪信息的敏感词表对获取的舆情文本进行敏感词的检索，可通过所述敏感词初始确定当前文本的基本舆情朝向，接着考虑到文本的语义关系通常体现在文本的上下文之间，因此为了降低数据处理量，提高归类的效率，利用所述敏感词对所述舆情文本进行段落划分，只获取所述敏感词所在的段落，保证文本归类的精准度，接着对每一个敏感段落进行向量化并加以训练，生成对应的文本向量矩阵，再利用预设的最近邻算法分别对每一个文本向量矩阵进行最近邻搜索，生成所述敏感词与所述段落文本中存在的词之间的第二文本向量矩阵，根据所述第二文本向量矩阵，根据预设的自注意力机制提取所述敏感词与其所在的敏感段落的语义特征，结合所述语义特征与所述敏感词，通过预设的激活函数进行归类，可提高舆情文本分类的准确度及效率。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种舆情文本归类方法，其特征在于，包括：

通过预设的自注意力机制分别对每一个文本向量矩阵进行关键特征信息提取，并对所述关键特征信息进行加强处理及特征融合，获得每一个敏感词所在敏感段落对应的语义特征；

根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征，通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果；

所述根据预构建的敏感词表对获取的舆情文本进行敏感词检索，获得所述舆情文本对应的若干个敏感词，包括：根据预设的前缀词典对所述舆情文本进行词图扫描，生成所述舆情文本对应的有向图；对所述有向图进行动态规划，查找所述有向图对应的若干个最大概率路径，根据所述最大概率路径对所述舆情文本进行分词，获得所述舆情文本对应的若干个舆情词；将所述若干个舆情词中的每一个舆情词与所述敏感词表中的每一个敏感词进行匹配，获得所述每一个舆情词对应的匹配结果；根据所述匹配结果确定所述舆情文本对应的若干个敏感词；

所述对所述若干个敏感段落中的每一个敏感段落进行向量化并加以训练，生成每一个敏感段落对应的文本向量矩阵，包括：

合并所述全局文本向量矩阵及所述单词文本向量矩阵，获得所述每一个敏感段落分别对应的文本向量矩阵；

所述通过预设的自注意力机制分别对所述每一个文本向量矩阵进行关键特征信息提取，包括：

根据预设在所述自注意力机制中的卷积神经网络对所述单词文本向量矩阵进行特征提取，获得所述单词文本向量矩阵对应的局部特征；

所述对所述关键特征信息进行加强处理及特征融合，获得所述每一个敏感词所在敏感段落对应的语义特征，包括：

2.如权利要求1所述的一种舆情文本归类方法，其特征在于，所述根据所述若干个敏感词确定所述舆情文本对应的若干个敏感段落，包括：

3.如权利要求1所述的一种舆情文本归类方法，其特征在于，所述通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果，包括：

4.一种舆情文本归类系统，其特征在于，所述系统包括敏感词检索模块、矩阵划分模块、特征提取模块及文本归类模块；

所述特征提取模块用于通过预设的自注意力机制分别对每一个文本向量矩阵进行关键特征信息提取，并对所述关键特征信息进行加强处理及特征融合，获得每一个敏感词所在敏感段落对应的语义特征；

所述文本归类模块用于根据所述若干个敏感词及敏感词所在敏感段落对应的语义特征，通过预设的分类模型对所述舆情文本进行归类，获得所述舆情文本的归类结果；

所述敏感词检索模块包括图规划单元及词匹配单元；所述图规划单元用于根据预设的前缀词典对所述舆情文本进行词图扫描，生成所述舆情文本对应的有向图；对所述有向图进行动态规划，查找所述有向图对应的若干个最大概率路径，根据所述最大概率路径对所述舆情文本进行分词，获得所述舆情文本对应的若干个舆情词；所述词匹配单元用于将所述若干个舆情词中的每一个舆情词与所述敏感词表中的每一个敏感词进行匹配，获得所述每一个舆情词对应的匹配结果；根据所述匹配结果确定所述舆情文本对应的若干个敏感词；

5.如权利要求4所述的一种舆情文本归类系统，其特征在于，所述矩阵划分模块包括词性标注单元及段落划分单元；