CN113609296B

CN113609296B - 用于舆情数据识别的数据处理方法和装置

Info

Publication number: CN113609296B
Application number: CN202110964694.0A
Authority: CN
Inventors: 吴云朝; 杜向阳
Original assignee: Nanjing Aegis Information Technology Co ltd
Current assignee: Nanjing Aegis Information Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2022-09-06
Anticipated expiration: 2041-08-23
Also published as: CN113609296A

Abstract

本申请公开了一种用于舆情数据识别的数据处理方法和装置。该方法包括：通过对待处理舆情数据进行分割，获得多个过程舆情数据，对切分获得的多个过程舆情数据进行相关性评分，根据评分筛选获得输入舆情分类模型的输入舆情数据，通过舆情分类模型对输入舆情分类模型进行舆情识别，获得舆情分类结果数据，通过上述方法，解决现有技术中对长文本舆情数据舆情识别效果较差的技术问题，提高长文本舆情数据识别的识别效果。

Description

用于舆情数据识别的数据处理方法和装置

技术领域

本申请涉及计算机领域，具体而言，涉及一种用于舆情数据识别的数据处理方法与装置。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

随着信息技术的不断发展，互联网成为信息传播的主要途径，互联网使社会舆情呈现源头多元化、传播扁平化、观点评价多样化、热点形成迅速化的特点，由于法院还是法律执行的完成节点，较易在涉法舆情中成为舆情热点部门，社交媒体中往往存在很多针对法院的言论，这些言论中有些过于偏激，如果法院不及时处理往往会给法院的工作造成不利影响。

通过训练舆情分类模型对舆情数据进行处理以便实现对舆情的实时监控，现有技术中缺乏应用在法院行业的舆情处理方法，且现有技术中其他领域的中的舆情处理方法对由于模型处理字数的限制，难以处理长文本的舆情数据，识别效果较差。

因此，现有技术中存在长文本舆情数据的舆情识别效果较差的技术问题。

发明内容

本申请的主要目的在于提供一种用于舆情数据识别的数据处理方法，通过对待处理舆情数据进行切分筛选，获得满足舆情分类模型输入条件输入舆情数据，通过舆情分类模型对输入舆情数据进行识别处理，获得舆情分类结果数据，通过对舆情文本进行切割，可以解决现有技术中对长文本舆情数据舆情识别效果较差的技术问题，提高长文本舆情数据识别的识别效果。

为了实现上述目的，本申请提出了一种用于舆情数据识别的数据处理方法。

根据本申请的第二方面，提出了一种用于舆情数据识别的数据处理装置。

根据本申请的第三方面，提出了一种计算机可读存储介质。

根据本申请的第四方面，提出一种电子设备。

有鉴于此，根据本申请的第一方面，提出了一种用于舆情数据识别的数据处理方法，包括：获取待处理舆情数据；

基于预设文本切分规则，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据；

基于预设筛选规则，对所述多个过程舆情数据进行筛选处理，获得目标舆情数据；

基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据。

进一步地，基于预设文本切分规则，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据，包括：

基于预设分词词典生成规则，对所述预设法院关键词数据库进行分词词典生成操作，获得分词词典，其中所述预设法院关键词数据库包括法院机构词和法院行业词；

基于所述分词词典，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据。

进一步地，基于预设筛选规则，对所述多个过程舆情数据进行筛选处理，获得目标舆情数据，包括：

基于预设相关性评分规则，对所述多个过程舆情数据进行相关性评分处理，获得多个相关性评分数据，其中，所述相关性评分数据为所述过程舆情数据与预设法院关键词的相关性评分；

基于所述多个相关性评分数据，对所述多个过程舆情数据进行筛选，获得所述输入舆情数据，其中，所述输入舆情数据为最高相关性评分数据对应的过程舆情数据。

进一步地，基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据，包括：

基于预设法院关键词数据库，对所述输入舆情数据进行识别，获得输入法院关键词；

基于预设拆分规则，对所述输入法院关键词进行拆分处理，获得输入法院关键词特征数据；对所述输入舆情数据进行拆分处理，获得输入舆情特征数据；

对所述输入法院关键词特征数据与所述输入舆情特征数据进行舆情分类处理，获得所述分类结果数据。

进一步地，基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据之后，还包括：

对所述分类结果数据进行筛选，若所述分类结果数据满足第一预设条件且分类标签为负向舆情标签时，获得第一分类结果数据，输出负面舆情提示信息，其中，所述负面舆情提示信息包括所述第一分类结果数据与所述第一分类结果数据对应的待处理舆情数据；

若所述分类结果数据满足所述第一预设条件且分类标签为正向舆情标签时，获得第二分类结果数据，输出更新数据提示信息，其中，所述更新数据提示信息包括所述第二分类结果数据与所述第二分类结果数据对应的待处理舆情数据；

若所述分类结果数据不满足所述第一预设条件时，获得第三分类结果数据，输出审核提示信息，其中，所述审核提示信息包括所述第三分类结果数据与所述第三分类结果数据对应的待处理舆情数据。

根据本申请的第二方面，提出了一种用于舆情数据识别的数据处理装置，包括：

数据获取模块，用于获取待处理舆情数据；

分割模块，基于预设文本切分规则，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据；

筛选模块，基于预设筛选规则，对所述多个过程舆情数据进行筛选处理，获得目标舆情数据；

识别模块，基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据。

进一步地，分割模块，包括：

分词词典模块，基于预设分词词典生成规则，对所述预设法院关键词数据库进行分词词典生成操作，获得分词词典，其中所述预设法院关键词数据库包括法院机构词和法院行业词；

分割模块，基于所述分词词典，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据。

进一步地，筛选模块，包括：

相关性评分模块，基于预设相关性评分规则，对所述多个过程舆情数据进行相关性评分处理，获得多个相关性评分数据，其中，所述相关性评分数据为所述过程舆情数据与预设法院关键词的相关性评分；

过程筛选模块，基于所述多个相关性评分数据，对所述多个过程舆情数据进行筛选，获得所述输入舆情数据，其中，所述输入舆情数据为最高相关性评分数据对应的过程舆情数据。

根据本申请的第三方面，提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行上述的用于舆情数据识别的数据处理方法。

根据本申请的第四方面，提出了一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行上述的用于舆情数据识别的数据处理方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请中，通过对待处理舆情数据进行分割，获得多个过程舆情数据，对切分获得的多个过程舆情数据进行相关性评分，根据评分筛选获得输入舆情分类模型的输入舆情数据，通过舆情分类模型对输入舆情分类模型进行舆情识别，获得舆情分类结果数据，通过上述方法，解决现有技术中对长文本舆情数据舆情识别效果较差的技术问题，提高长文本舆情数据识别的识别效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请提供的一种用于舆情数据识别的数据处理方法的流程示意图；

图2为本申请提供的一种用于舆情数据识别的数据处理装置的结构示意图；

图3为本申请提供的另一种用于舆情数据识别的数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，“连接”可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

图1为本申请提供的一种用于舆情数据识别的数据处理方法的流程示意图，如图1所示，该方法包括以下步骤：

S101：获取待处理舆情数据；

S102：基于预设文本切分规则，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据；

本申请中通过滑动窗口对待处理舆情数据进行切分，根据预设舆情分类模型的模型效果设置滑动窗口的移动长度，设置滑动窗口的移动长度为N，N是一个超参数，如，根据设置的滑动窗口将长舆情文本切分为多个长度在512以内的文本，其中由于BERT的最大长度限制是512，设置滑动窗口实现长舆情文本切割获得长度在512以内的文本，获得对多个过程舆情数据。

其中，法院行业词是预先通过对舆情数据抽取获得，识别舆情数据中的多个舆情文本，对多个舆情文本执行句法依存树构建操作，获得多个文本句法依存树；

基于关键词抽取规则，对多个第一文本句法依存树执行抽取操作，获得候选词集，包括：

抽取含有定中关系的名词性短语：

依次遍历句子中的所有节点，以该节点为叶子节点，查找它的父节点，如果该节点和它的父节点具有定中(ATT)关系，则把当前节点和它的父节点加入候选短语词集；继续查找该父节点的父节点，如果该父节点和它的父节点也有定中关系，则把该父节点的父节点加入候选短语词集，一直向上遍历父节点，直至找到没有定中关系的节点，最后，将候选短语词集拼接得到名词性短语。

抽取含有前置宾语的名词性短语：

依次遍历句子中的所有节点，以该节点为叶子节点，查找它的父节点，如果该节点是它父节点的前置宾语(FOB)，并且该父节点和它的父节点具有定中关系，则把当前节点、它的父节点和父节点的父节点加入候选短语词集；最后将候选短语词集拼接得到名词性短语。

抽取以谓词为核心的关键词：

a. 如果当前单词的子节点单词中，存在和当前单词有主谓关系（SBV）和动宾关系（VOB），则把具有主谓关系和动宾关系的节点词语分别加入候选词集。

b. 如果当前单词的子节点单词中，存在和当前单词有状中关系（ADV）和动宾关系（VOB），则把具有状中关系的节点词语加入候选词集。

c. 如果当前单词的子节点单词中，存在和当前单词有主谓关系（SBV）和动补关系（CMP），则取动补关系的节点，然后，如果含有动补关系的子节点中具有介宾关系（POB），则把当前单词的子节点中含有主谓关系的词语加入候选词集，当前单词子节点中含有动补关系的子节点中的介宾关系的词语加入候选词集。

d. 如果当前词是定中关系，并且在它子节点中存在动补关系，则把具有动补关系词扩展：如果具有动补关系词的子节点中存在定中关系，则把这些词拼接，得到候选词的前半部分。如果具有动补关系词是动词：如果动补关系孩子节点中存在动补关系词，则把这些词拼接，得到候选词后半部分。如果动补关系子节点中存在主谓关系词，则把这些词和候选词前半部分拼接。如果动补关系孩子节点中存在状中关系词，则把候选词前半部分和这些词拼接。最后，将当前词前半部分、当前词和当前词后半部分拼接，得到最终候选词集。

对所述候选词集执行筛选处理，获得所述法院行业词数据集。

对得到的候选词进行去重，剔除无效的词，如带有数字的无关词等，获得法院行业词数据集。

将预设法院关键词数据库输入第三方文本处理库，如jieba（第三方的文本处理python库），获得分词词典，根据分词词典，对待处理舆情数据进行分词处理。

通过将预设法院关键词库生成分词词典对待处理舆情数据进行分割，避免对待处理舆情数据中的法院关键词数据进行过分切分，提高舆情切分的准确性，弥补丢弃的舆情数据，从而提高舆情识别的效果。如“北京市西城区人民法院”为法院机构主体，避免过分切分为 “北京市”、“西城区”、“人民”、“法院”。

S103：基于预设筛选规则，对所述多个过程舆情数据进行筛选处理，获得目标舆情数据；

对经滑动窗口切分得到的多个过程舆情数据行业词、机构词进行相关性打分，通过以下公式

进行相关性评分，其中，N为文档集合总共包含的文档个数，R为相关文档的个数，对于某个词语或单词di 来说，包含这个词语的文档数量为ni，ri是其中相关文档的个数，

k1,k2 ,b都是可调节的参数，dl,avgdl分别为文本d 的长度和文本集D中所有文本的平均长度，qfi为qi在搜索词中出现的频率。qi为第i个搜索词即第i个行业、机构词。

S104：基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据。

其中预设舆情分类模型为基于Roberta-wwm的法院舆情分类模型，将输入舆情数据中匹配到的法院机构词按照字进行拆分，获得法院机构词特征数据，将输入舆情数据按照字进行拆分，获得输入舆情特征数据，将输入舆情数据中匹配到的法院行业词按照字进行拆分，获得法院行业词特征数据，经预设分类模型处理后获得分类结果数据。

基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据之后，还包括：对所述分类结果数据进行筛选，输出舆情提示信息，包括：

图2为本申请提供的一种用于舆情数据识别的数据处理装置的结构示意图，如图2所述，该装置包括：

数据获取模块21，用于获取待处理舆情数据；

分割模块22，基于预设文本切分规则，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据；

筛选模块23，基于预设筛选规则，对所述多个过程舆情数据进行筛选处理，获得目标舆情数据；

识别模块24，基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据。

图3为本申请提供的一种用于舆情数据识别的数据处理装置的结构示意图，如图3所述，该装置包括：

相关性评分模块31，基于预设相关性评分规则，对所述多个过程舆情数据进行相关性评分处理，获得多个相关性评分数据，其中，所述相关性评分数据为所述过程舆情数据与预设法院关键词的相关性评分；

过程筛选模块32，基于所述多个相关性评分数据，对所述多个过程舆情数据进行筛选，获得所述输入舆情数据，其中，所述输入舆情数据为最高相关性评分数据对应的过程舆情数据。

关于上述实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

综上所述，在本申请中，通过对待处理舆情数据进行分割，获得多个过程舆情数据，对切分获得的多个过程舆情数据进行相关性评分，根据评分筛选获得输入舆情分类模型的输入舆情数据，通过舆情分类模型对输入舆情分类模型进行舆情识别，获得舆情分类结果数据，通过上述方法，解决现有技术中对长文本舆情数据舆情识别效果较差的技术问题，提高长文本舆情数据识别的识别效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本申请的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于舆情数据识别的数据处理方法，其特征在于，包括：

获取待处理舆情数据；

基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据；

基于预设文本切分规则，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据，包括：

基于预设分词词典生成规则，对预设法院关键词数据库进行分词词典生成操作，获得分词词典，其中所述预设法院关键词数据库包括法院机构词和法院行业词；

基于所述分词词典，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据；

其中，法院行业词是预先通过对舆情数据抽取获得，识别舆情数据中的多个舆情文本，对多个舆情文本执行句法依存树构建操作，获得多个文本句法依存树；基于关键词抽取规则，对多个第一文本句法依存树执行抽取操作，获得候选词集；

抽取含有定中关系的名词性短语：

依次遍历句子中的所有节点，以该节点为叶子节点，查找所述叶子节点的父节点，如果所述叶子节点和它的父节点具有定中关系，则把当前节点和它的父节点加入候选短语词集；继续查找该父节点的父节点，如果该父节点和它的父节点也有定中关系，则把该父节点的父节点加入候选短语词集，一直向上遍历父节点，直至找到没有定中关系的节点，最后，将候选短语词集拼接得到名词性短语；

抽取含有前置宾语的名词性短语：

依次遍历句子中的所有节点，以该节点为叶子节点，查找它的父节点，如果该节点是它父节点的前置宾语，并且该父节点和它的父节点具有定中关系，则把当前节点、它的父节点和父节点的父节点加入候选短语词集；最后将候选短语词集拼接得到名词性短语；

抽取以谓词为核心的关键词：

如果当前单词的子节点单词中，存在和当前单词有主谓关系和动宾关系，则把具有主谓关系和动宾关系的节点词语分别加入候选词集；

如果当前单词的子节点单词中，存在和当前单词有状中关系和动宾关系，则把具有状中关系的节点词语加入候选词集；

如果当前单词的子节点单词中，存在和当前单词有主谓关系和动补关系，则取动补关系的节点；如果含有动补关系的子节点中具有介宾关系，则把当前单词的子节点中含有主谓关系的词语加入候选词集，当前单词子节点中含有动补关系的子节点中的介宾关系的词语加入候选词集；

如果当前词是定中关系，并且在它子节点中存在动补关系，则把具有动补关系词扩展：如果具有动补关系词的子节点中存在定中关系，则把这些词拼接，得到候选词的前半部分；如果具有动补关系词是动词：如果动补关系孩子节点中存在动补关系词，则把这些词拼接，得到候选词后半部分；如果动补关系子节点中存在主谓关系词，则把这些词和候选词前半部分拼接；如果动补关系孩子节点中存在状中关系词，则把候选词前半部分和这些词拼接；最后，将当前词前半部分、当前词和当前词后半部分拼接，得到最终候选词集。

2.根据权利要求1所述的数据处理方法，其特征在于，基于预设筛选规则，对所述多个过程舆情数据进行筛选处理，获得目标舆情数据，包括：

基于所述多个相关性评分数据，对所述多个过程舆情数据进行筛选，获得输入舆情数据，其中，所述输入舆情数据为最高相关性评分数据对应的过程舆情数据。

3.根据权利要求1所述的数据处理方法，其特征在于，基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据，包括：

基于预设法院关键词数据库，对输入舆情数据进行识别，获得输入法院关键词；

4.根据权利要求1所述的数据处理方法，其特征在于，基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据之后，还包括：

5.一种用于舆情数据识别的数据处理装置，其特征在于，包括：

数据获取模块，用于获取待处理舆情数据；

识别模块，基于预设舆情分类模型，对所述目标舆情数据进行识别，获得分类结果数据；

分割模块，包括：

分词词典模块，基于预设分词词典生成规则，对预设法院关键词数据库进行分词词典生成操作，获得分词词典，其中所述预设法院关键词数据库包括法院机构词和法院行业词；

分割模块，基于所述分词词典，对所述待处理舆情数据进行分割操作，获得多个过程舆情数据；

抽取含有定中关系的名词性短语：

抽取含有前置宾语的名词性短语：

抽取以谓词为核心的关键词：

6.根据权利要求5所述的数据处理装置，其特征在于，筛选模块，包括：

过程筛选模块，基于所述多个相关性评分数据，对所述多个过程舆情数据进行筛选，获得输入舆情数据，其中，所述输入舆情数据为最高相关性评分数据对应的过程舆情数据。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-4任意一项所述的用于舆情数据识别的数据处理方法。

8.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-4任意一项所述的用于舆情数据识别的数据处理方法。