CN113609297A

CN113609297A - 用于法院行业的舆情监控方法和装置

Info

Publication number: CN113609297A
Application number: CN202110964716.3A
Authority: CN
Inventors: 吴云朝; 杜向阳
Original assignee: Nanjing Aegis Information Technology Co ltd
Current assignee: Nanjing Aegis Information Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-05

Abstract

本申请公开了一种用于法院行业的舆情监控方法和装置。该方法包括：在本申请中，通过对获取的需求数据进行识别，爬取需求数据对应的待处理舆情数据，对待处理舆情数据进行预处理，对待处理舆情数据进行切分，获得多个过程舆情数据，对多个过程舆情数据进行相关性评分，将最高相关性评分数据对应的过程舆情数据作为舆情分类模型输入的输入舆情数据，通过舆情分类模型对输入舆情数据进行舆情分类处理，获得分类结果数据，对分类结果数据进行筛选，输出舆情提示信息，解决了现有技术中难以实时监控并准确识别互联网信息中针对法院行业的负面舆情的技术问题，提高法院行业舆情监控的处理效率及舆情数据识别的准确率。

Description

用于法院行业的舆情监控方法和装置

技术领域

本申请涉及计算机领域，具体而言，涉及一种用于法院行业的舆情监控方法和装置。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。随着信息技术的不断发展，互联网对涉法舆情的传播起到的重要作用，社交媒体中往往存在很多针对法院的言论，这些言论中有些过于偏激，如果法院不及时处理往往会给人民法院的全面工作造成不利影响，现有技术中并没有针对法院行业的舆情监控方法。因此，如何实时监控并准确识别互联网信息中针对法院行业的负面舆情是亟需解决的技术问题。

申请内容

本申请的主要目的在于提供一种用于法院行业的舆情监控方法和装置，以便解决现有技术中难以实时监控并准确识别互联网信息中针对法院行业的负面舆情的技术问题，提高法院行业舆情监控的处理效率及舆情数据识别的准确率。

为了实现上述目的，本申请提出了一种用于法院行业的舆情监控方法。

根据本申请的第二方面，提出了一种用于法院行业的舆情监控装置。

根据本申请的第三方面，提出了一种计算机可读存储介质。

根据本申请的第四方面，提出一种电子设备。

有鉴于此，根据本申请的第一方面，提出了一种用于法院行业的舆情监控方法，包括：

获取需求数据，其中，所述需求数据为法院舆情监控需求的相关数据；

基于所述需求数据，爬取与所述需求数据对应的待处理舆情数据；

基于预设舆情分类规则，对所述待处理舆情数据进行舆情分类处理，获得分类结果数据；

对所述分类结果数据进行筛选，输出舆情提示信息。

进一步地，基于预设舆情分类规则，对所述待处理舆情数据进行舆情分类处理，获得分类结果数据，包括：

对所述待处理舆情数据进行预处理操作，获得输入舆情数据；

基于预设舆情分类模型，对所述输入舆情数据进行舆情分类处理，获得分类结果数据。

进一步地，对所述待处理舆情数据进行预处理操作，获得输入舆情数据，包括：

基于预设文本切分规则，对所述待处理舆情数据进行舆情文本切分处理，获得多个过程舆情数据；

基于预设相关性评分规则，对所述多个过程舆情数据进行相关性评分处理，获得多个相关性评分数据，其中，所述相关性评分数据为所述过程舆情数据与预设法院关键词的相关性评分；

基于所述多个相关性评分数据，对所述多个过程舆情数据进行筛选，获得所述输入舆情数据，其中，所述输入舆情数据为最高相关性评分数据对应的过程舆情数据。

进一步地，基于预设舆情分类模型，对所述输入舆情数据进行舆情分类处理，获得分类结果数据，包括：

基于预设法院关键词数据库，对所述输入舆情数据进行识别，获得输入法院关键词；

基于预设拆分规则，对所述输入法院关键词进行拆分处理，获得输入法院关键词特征数据；对所述输入舆情数据进行拆分处理，获得输入舆情特征数据；

对所述输入法院关键词特征数据与所述输入舆情特征数据进行舆情分类处理，获得所述分类结果数据。

进一步地，对所述分类结果数据进行筛选，输出舆情提示信息，包括：

对所述分类结果数据进行筛选，若所述分类结果数据满足第一预设条件且分类标签为负向舆情标签时，获得第一分类结果数据，输出负面舆情提示信息，其中，所述负面舆情提示信息包括所述第一分类结果数据与所述第一分类结果数据对应的待处理舆情数据；

若所述分类结果数据满足所述第一预设条件且分类标签为正向舆情标签时，获得第二分类结果数据，输出更新数据提示信息，其中，所述更新数据提示信息包括所述第二分类结果数据与所述第二分类结果数据对应的待处理舆情数据；

若所述分类结果数据不满足所述第一预设条件时，获得第三分类结果数据，输出审核提示信息，其中，所述审核提示信息包括所述第三分类结果数据与所述第三分类结果数据对应的待处理舆情数据。

进一步地，对所述分类结果数据进行筛选，输出舆情提示信息之后，还包括：

若所述分类结果数据满足第一预设条件，获得第一结果数据；

若所述第一结果数据满足预设数据集更新条件时，获得更新训练数据，其中，所述更新训练数据为达到预设数据集更新的多个第一结果数据；

基于所述更新训练数据，对预先建立的舆情分类模型进行模型训练，获得更新舆情分类模型。

根据本申请的第二方面，提出了一种用于法院行业的舆情监控装置，包括：

数据获取模块，用于获取需求数据，其中，所述需求数据为法院舆情监控需求的相关数据；

数据处理模块，基于预设舆情分类规则，对所述待处理舆情数据进行舆情分类处理，获得分类结果数据；

结果输出模块，用于对所述分类结果数据进行筛选，输出舆情提示信息。

进一步地，数据处理模块，包括：

预处理模块，用于对所述待处理舆情数据进行预处理操作，获得输入舆情数据；

舆情分类模块，基于预设舆情分类模型，对所述输入舆情数据进行舆情分类处理，获得分类结果数据。

进一步地，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行上述的用于法院行业的舆情监控方法。

进一步地，一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行上述的用于法院行业的舆情监控方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请中，通过对获取的需求数据进行识别，爬取需求数据对应的待处理舆情数据，对待处理舆情数据进行预处理，对待处理舆情数据进行切分，获得多个过程舆情数据，对多个过程舆情数据进行相关性评分，将最高相关性评分数据对应的过程舆情数据作为舆情分类模型输入的输入舆情数据，通过舆情分类模型对输入舆情数据进行舆情分类处理，获得分类结果数据，对分类结果数据进行筛选，输出舆情提示信息，通过对法院舆情监控需求的相关数据进行处理，实现对网络舆情的监控分类识别，解决了现有技术中难以实时监控并准确识别互联网信息中针对法院行业的负面舆情的技术问题，提高法院行业舆情监控的处理效率及舆情数据识别的准确率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请提供的一种用于法院行业的舆情监控方法的流程示意图；

图2为本申请提供的一种用于法院行业的舆情监控方法的流程示意图；

图3为本申请提供的一种用于法院行业的舆情监控方法的流程示意图；

图4、5、6为本申请中基于Roberta-wwm的法院舆情分类模型结构示意图；

图7为本申请提供的一种用于法院行业的舆情监控装置的结构示意图；

图8为本申请提供的另一种用于法院行业的舆情监控装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，“连接”可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

图1为本申请提供的一种用于法院行业的舆情监控方法的流程示意图，如图1所示，该方法包括以下步骤：

S101：获取需求数据，其中，所述需求数据为法院舆情监控需求的相关数据；

其中，需求数据包括需要需要舆情监控需求的法院机构，如：广东高院、深圳中院等。

S102：基于所述需求数据，爬取与所述需求数据对应的待处理舆情数据；

根据需求数据，如所述需求数据为广东高院的舆情监控需求，爬取互联网社交媒体中待处理的舆情数据，如：爬取互联网社交媒体中广东高院对应的待处理舆情数据。

S103：基于预设舆情分类规则，对所述待处理舆情数据进行舆情分类处理，获得分类结果数据；

图2为本申请提供的一种用于法院行业的舆情监控方法的流程示意图，如图2所示，该方法包括以下步骤：

S201：基于预设文本切分规则，对所述待处理舆情数据进行舆情文本切分处理，获得多个过程舆情数据；

本申请中采用滑动窗口的方式对待处理的舆情数据进行切分，根据预设舆情分类模型的模型效果设置滑动窗口的移动长度，设置滑动窗口的移动长度为N，N是一个超参数，根据设置的滑动窗口将长舆情文本切分为多个长度在512以内的文本，其中由于BERT的最大长度限制是512，设置滑动窗口实现长舆情文本切割获得长度在512以内的文本，获得对多个过程舆情数据。

S202：基于预设相关性评分规则，对所述多个过程舆情数据进行相关性评分处理，获得多个相关性评分数据，其中，所述相关性评分数据为所述过程舆情数据与预设法院关键词的相关性评分；

对经滑动窗口切分得到的多个过程舆情数据进行相关性评分，通过以下公式

进行相关性评分，其中，N为文档集合总共包含的文档个数，R为相关文档的个数，对于某个词语或单词di来说，包含这个词语的文档数量为ni，ri是其中相关文档的个数，

k1,k2 ,b都是可调节的参数，dl,avgdl分别为文本d的长度和文本集D中所有文本的平均长度，qfi为qi在搜索词中出现的频率。qi为第i个搜索词即第i个行业、机构词。

其中，预设法院关键词包括法院机构词和法院行业词，其中，法院机构词如，广东高院、深圳中院，法院行业词是基于预设行业词抽取规则，对舆情数据执行行业关键词抽取操作，获得的法院行业词，如开庭、判决等。

S203：基于所述多个相关性评分数据，对所述多个过程舆情数据进行筛选，获得所述输入舆情数据，其中，所述输入舆情数据为最高相关性评分数据对应的过程舆情数据。

计算经滑动窗口切分得到的多个过程舆情数据的相关性评分，取得分最高的过程舆情数据作为舆情分类模型的输入舆情数据。

其中，舆情分类模型是以Roberta-wwm构建的预训练模型，其中，Roberta和wwm是相对于预训练模型BERT的改进模型，舆情分类模型是经训练数据集训练获得；

图3为本申请提供的一种用于法院行业的舆情监控方法的流程示意图，如图3所示，该方法包括以下步骤：

S301：基于预设法院关键词数据库，对所述输入舆情数据进行识别，获得输入法院关键词；

识别输入舆情数据中的法院关键词，包括法院机构词和法院行业词。

S302：基于预设拆分规则，对所述输入法院关键词进行拆分处理，获得输入法院关键词特征数据；对所述输入舆情数据进行拆分处理，获得输入舆情特征数据；

图4、5、6为本申请中基于Roberta-wwm的法院舆情分类模型结构示意图，

将输入舆情数据中匹配到的法院机构词按照字拆分为

，将输入舆情数据按照字拆分为

，将输入舆情数据中匹配到的法院行业词按照字拆分为

，

···

。其中的[CLS]为BERT设计的一个辅助做分类任务的特殊标记符号，[SEP]是BERT设计的一个分隔符，用来连接两端文本。

表示字的输入嵌入。

S303：对所述输入法院关键词特征数据与所述输入舆情特征数据进行舆情分类处理，获得所述分类结果数据。

表示模型经过学习后第i个字的上下文语境嵌入，T _[CLS]表示模型经过学习后[CLS]标记符的语境向量，根据BERT的模型设计，该向量的维度为768维，输入线性层，该线性层的神经元的数量是1。线性层的输出在经过sigmoid激活函数后得到标签的概率值，若大于预先设定的阈值则为负面，反之为非负面，本申请中设置阈值为0.5，若得到标签的概率值大于0.5则为负面标签，反之为非负面标签。

S104：对所述分类结果数据进行筛选，输出舆情提示信息。

举例说明，如第一预设条件为分类结果数据大于或等于0.7，则所述分类结果数据为负向舆情标签，且标签置信度较高，输出负面舆情提示信息。

如，第一预设条件为分类结果数据小于0.3，则所述分类结果数据为正向舆情标签，且标签置信度较高，将第二分类结果数据与第二分类结果数据对应的待处理舆情数据作为更新数据，输出更新数据提示信息。

如，第一预设条件为分类结果数据大于或等于0.3及小于0.7，则所述分类结果数据中的舆情标签置信度较低，获得第三分类结果数据，输出审核提示信息，将第三分类结果数据对应的待处理舆情数据输出至人工审核，经人工审核给出舆情正负向分类标签。

在本申请中，对所述分类结果数据进行筛选，输出舆情提示信息之后，还包括以下步骤：

若分类结果数据满足预设的舆情正负向标签置信度条件，将满足第一预设条件的待处理舆情数据与分类结果进行处理，获得第一结果数据。

当第一结果数据达到数据集更新条件时，将第一结果数据作为更新训练数据，根据更新训练数据训练舆情分类模型，获得更新舆情数据，根据更新舆情数据对新的法院舆情数据进行处理，通过在线学习和定期继续预训练的方法，使得模型不会随着互联网热词、新名词的出现而降低模型预测的效果。

图7为本申请提供的一种用于法院行业的舆情监控装置，如图7所述，该装置包括：

数据获取模块71，用于获取需求数据，其中，所述需求数据为法院舆情监控需求的相关数据；

数据处理模块72，基于预设舆情分类规则，对所述待处理舆情数据进行舆情分类处理，获得分类结果数据；

结果输出模块73，用于对所述分类结果数据进行筛选，输出舆情提示信息。

图8为本申请提供的另一种用于法院行业的舆情监控装置，如图8所述，该装置包括：

预处理模块81，用于对所述待处理舆情数据进行预处理操作，获得输入舆情数据；

舆情分类模块82，基于预设舆情分类模型，对所述输入舆情数据进行舆情分类处理，获得分类结果数据。

关于上述实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

综上所述，在本申请中，通过对获取的需求数据进行识别，爬取需求数据对应的待处理舆情数据，对待处理舆情数据进行预处理，对待处理舆情数据进行切分，获得多个过程舆情数据，对多个过程舆情数据进行相关性评分，将最高相关性评分数据对应的过程舆情数据作为舆情分类模型输入的输入舆情数据，通过舆情分类模型对输入舆情数据进行舆情分类处理，获得分类结果数据，对分类结果数据进行筛选，输出舆情提示信息，通过对法院舆情监控需求的相关数据进行处理，实现对网络舆情的监控分类识别，解决了现有技术中难以实时监控并准确识别互联网信息中针对法院行业的负面舆情的技术问题，提高法院行业舆情监控的处理效率及舆情数据识别的准确率。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本申请的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于法院行业的舆情监控方法，其特征在于，包括：

对所述分类结果数据进行筛选，输出舆情提示信息。

2.根据权利要求1所述的舆情监控方法，其特征在于，基于预设舆情分类规则，对所述待处理舆情数据进行舆情分类处理，获得分类结果数据，包括：

3.根据权利要求2所述的舆情监控方法，其特征在于，对所述待处理舆情数据进行预处理操作，获得输入舆情数据，包括：

4.根据权利要求2所述的舆情监控方法，其特征在于，基于预设舆情分类模型，对所述输入舆情数据进行舆情分类处理，获得分类结果数据，包括：

5.根据权利要求1所述的舆情监控方法，其特征在于，对所述分类结果数据进行筛选，输出舆情提示信息，包括：

6.根据权利要求1所述的舆情监控方法，其特征在于，对所述分类结果数据进行筛选，输出舆情提示信息之后，还包括：

7.一种用于法院行业的舆情监控装置，其特征在于，包括：

8.根据权利要求7所述的舆情监控装置，其特征在于，数据处理模块，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-6任意一项所述的用于法院行业的舆情监控方法。

10.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-6任意一项所述的用于法院行业的舆情监控方法。