CN113779251A

CN113779251A - 线索信息获取方法、装置、介质及电子设备

Info

Publication number: CN113779251A
Application number: CN202111053131.2A
Authority: CN
Inventors: 叶思涛
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-10
Anticipated expiration: 2041-09-08
Also published as: CN113779251B

Abstract

本公开涉及人工智能和执法辅助领域，揭示了一种公益诉讼案件的线索信息获取方法、装置、介质及电子设备。该方法包括：根据预设线索过滤规则对多个线索文本进行过滤，得到潜在线索文本；将潜在线索文本转换为文本特征向量；将文本特征向量输入至线索违法类型预测模型，得到潜在线索文本对应的线索违法类型；提取潜在线索文本的多维特征向量；从线索预警级别库的标准特征向量中确定出与多维特征向量相匹配的目标标准特征向量，将与目标标准特征向量对应的线索预警级别，作为最终预警级别；将潜在线索文本、线索违法类型以及最终预警级别作为线索信息对应输出。此方法在提高了线索获取效率的同时，也保证了获取的线索信息的准确性。

Description

线索信息获取方法、装置、介质及电子设备

技术领域

本公开涉及人工智能和执法辅助技术领域，特别涉及一种公益诉讼案件的线索信息获取方法、装置、介质及电子设备。

背景技术

公益诉讼案件办理与传统检察业务不同，不仅仅需要“解决问题”，更需要“发现问题”、“分析问题”。所谓“发现问题”即为“线索识别”，“分析问题”即为“线索评级”。目前的公益诉讼案件线索严重依赖于人工方式进行获取、筛查以及审核，导致案件线索获取效率低、成本高。

发明内容

在人工智能和执法辅助技术领域，为了解决上述技术问题，本公开的目的在于提供一种公益诉讼案件的线索信息获取方法、装置、介质及电子设备。

根据本公开的一方面，提供了一种公益诉讼案件的线索信息获取方法，所述方法包括：

当采集到多个线索文本，根据预设线索过滤规则对所述多个线索文本进行过滤，得到潜在线索文本；

将所述潜在线索文本转换为文本特征向量；

将所述文本特征向量输入至线索违法类型预测模型，通过所述线索违法类型预测模型中的特征提取网络提取到所述文本特征向量对应的结果向量，通过所述线索违法类型预测模型中的sigmoid层将所述结果向量转换为与各线索违法类型对应的预测概率向量，并通过所述线索违法类型预测模型中的映射模块基于各线索违法类型对应的预测概率向量，输出所述潜在线索文本对应的线索违法类型；

提取所述潜在线索文本的多维特征向量，所述多维特征向量包括与多个维度的特征分别对应的特征值；

从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，并将所述线索预警级别库中与所述目标标准特征向量对应的线索预警级别，作为所述多维特征向量对应的最终预警级别；

将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息对应输出。

根据本公开的另一方面，提供了一种公益诉讼案件的线索信息获取装置，所述装置包括：

过滤模块，被配置为当采集到多个线索文本，根据预设线索过滤规则对所述多个线索文本进行过滤，得到潜在线索文本；

转换模块，被配置为将所述潜在线索文本转换为文本特征向量；

输入模块，被配置为将所述文本特征向量输入至线索违法类型预测模型，通过所述线索违法类型预测模型中的特征提取网络提取到所述文本特征向量对应的结果向量，通过所述线索违法类型预测模型中的sigmoid层将所述结果向量转换为与各线索违法类型对应的预测概率向量，并通过所述线索违法类型预测模型中的映射模块基于各线索违法类型对应的预测概率向量，输出所述潜在线索文本对应的线索违法类型；

提取模块，被配置为提取所述潜在线索文本的多维特征向量，所述多维特征向量包括与多个维度的特征分别对应的特征值；

确定模块，被配置为从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，并将所述线索预警级别库中与所述目标标准特征向量对应的线索预警级别，作为所述多维特征向量对应的最终预警级别；

输出模块，被配置为将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息对应输出。

根据本公开的另一方面，提供了一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行如前所述的方法。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

对于本公开所提供的公益诉讼案件的线索信息获取方法、装置、介质及电子设备，该方法包括如下步骤：当采集到多个线索文本，根据预设线索过滤规则对所述多个线索文本进行过滤，得到潜在线索文本；将所述潜在线索文本转换为文本特征向量；将所述文本特征向量输入至线索违法类型预测模型，通过所述线索违法类型预测模型中的特征提取网络提取到所述文本特征向量对应的结果向量，通过所述线索违法类型预测模型中的sigmoid层将所述结果向量转换为与各线索违法类型对应的预测概率向量，并通过所述线索违法类型预测模型中的映射模块基于各线索违法类型对应的预测概率向量，输出所述潜在线索文本对应的线索违法类型；提取所述潜在线索文本的多维特征向量，所述多维特征向量包括与多个维度的特征分别对应的特征值；从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，并将所述线索预警级别库中与所述目标标准特征向量对应的线索预警级别，作为所述多维特征向量对应的最终预警级别；将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息对应输出。

此方法下，通过先自动采集线索文本，然后通过对线索文本进行过滤，得到潜在线索文本，在此基础上，一方面，在将潜在线索文本转换为文本特征向量之后，利用线索违法类型预测模型实现了对线索违法类型的预测；另一方面，通过提取潜在线索文本的多维特征向量，并利用多维特征向量确定出了最终预警级别。因此，整个线索获取和审核的流程能够自动完成，大大提高了线索获取效率，降低了人工工作量和人力成本，而且，由于线索违法类型预测模型中的sigmoid层可以将结果向量转换为与各线索违法类型对应的预测概率向量，线索违法类型是基于各线索违法类型对应的预测概率向量输出的，因此可以提高线索违法类型的预测准确性，从而保证了获取的线索信息的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种公益诉讼案件的线索信息获取方法的系统架构示意图；

图2是根据一示例性实施例示出的一种公益诉讼案件的线索信息获取方法的流程图；

图3是根据一示例性实施例示出的基于预测概率向量输出线索违法类型的流程图；

图4是根据一示例性实施例示出的一种生成并输出公益诉讼案件的线索信息的流程图；

图5是根据一示例性实施例示出的一种公益诉讼案件的线索信息获取装置的框图；

图6是根据一示例性实施例示出的一种实现上述公益诉讼案件的线索信息获取方法的电子设备示例框图；

图7是根据一示例性实施例示出的一种实现上述公益诉讼案件的线索信息获取方法的程序产品。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

目前，公益诉讼案件的线索举报通道不畅通，因此存在公益诉讼案件线索获取难度大、获取效率低下的问题。

为此，本公开首先提供了一种公益诉讼案件的线索信息获取方法。通过该方法可以自动、准确、高效地实现对公益诉讼案件的线索信息的获取，而且可以实现对各种类型的线索信息的获取。

本公开的实施终端可以是任何具有运算、处理以及通信功能的设备，该设备可以与外部设备相连，用于接收或者发送数据，具体可以是便携移动设备，例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant) 等，也可以是固定式设备，例如，计算机设备、现场终端、台式电脑、服务器、工作站等，还可以是多个设备的集合，比如云计算的物理基础设施或者服务器集群。

可选地，本公开的实施终端可以为服务器或者云计算的物理基础设施。

图1是根据一示例性实施例示出的一种公益诉讼案件的线索信息获取方法的系统架构示意图。如图1所示，该系统架构包括个人计算机110、服务器 120和数据库130，个人计算机110和服务器120之间、服务器120和数据库 130之间均通过通信链路相连，可以用于发送或接收数据。服务器120为本实施例中的实施终端，其上部署有线索信息生成系统，该线索信息生成系统包括预先训练好的线索违法类型预测模型，数据库130中存储有线索预警级别库和采集到的线索文本，个人计算机110上设置有与线索信息生成系统对应的客户端，个人计算机110的用户可以是检察人员。当本公开提供的一种公益诉讼案件的线索信息获取方法应用于图1所示的系统架构中时，该方法可以由线索信息生成系统执行，执行过程可以是这样的：首先，服务器120通过通信链路从数据库130中获取采集到的线索文本，这里的线索文本可以是服务器120采集到的，也可以是由其他终端或设备采集到的；然后，服务器120可以对采集到的线索文本进行过滤，得到潜在线索文本，并将潜在线索文本转换为文本特征向量；接着，服务器120将文本特征向量输入至预先训练好的线索违法类型预测模型中，得到线索违法类型预测模型输出的线索违法类型；然后，服务器120从潜在线索文本提取到多维特征向量；接着，服务器120通过查询数据库130，确定出线索预警级别库中与多维特征向量匹配的标准特征向量，然后根据该标准特征向量，确定出最终预警级别；最后，服务器120将潜在线索文本、线索违法类型以及最终预警级别返回给个人计算机110上的客户端，从而实现对线索信息的输出。

值得一提的是，图1仅为本公开的一个实施例。虽然在本实施例中采集到的线索文本是实施终端从数据库中获取到的，但在其他实施例中，实施终端可以直接进行线索文本的采集，从而直接获取线索文本；虽然在本实施例中线索预警级别库和采集到的线索文本都存储在同一数据库中，但在其他实施例中，线索预警级别库和采集到的线索文本可以存储在任意相同或者不同的终端设备上，甚至还可以均存储在实施终端的本地；虽然在本实施例中，线索信息的输出是通过实施终端向个人计算机返回实现的，但在其他实施例中，可以采用各种方式输出线索信息，比如可以以邮件、短信等方式输出，还可以直接打印在实施终端的屏幕上。本公开对此不作任何限定，本公开的保护范围也不应因此而受到任何限制。

图2是根据一示例性实施例示出的一种公益诉讼案件的线索信息获取方法的流程图。本实施例提供的公益诉讼案件的线索信息获取方法可以由服务器执行，如图2所示，包括以下步骤：

步骤210，当采集到多个线索文本，根据预设线索过滤规则对所述多个线索文本进行过滤，得到潜在线索文本。

线索文本通常是一段文字，其可以是采用英文、中文等各种语言。线索文本可以从多个渠道获取，比如可以通过从专门的公益诉讼相关线索信息举报平台或者政府网站的线索信息提交系统获取，还可以从各种社交平台上获取，比如，可以从微博、BBS、讨论社区、贴吧等平台获取，具体来说，线索文本可以是通过爬虫爬取实现采集的。

根据预设线索过滤规则对多个线索文本进行过滤可以是每隔预定时间段执行的，每个预定时间段内进行线索文本的采集，在预定时间段结束时对多个线索文本进行过滤。

预设线索过滤规则可以是由专家根据经验设置的规则，还可以是系统自动提取出的规则。比如，可以根据线索文本的字数来设置线索过滤规则，这种情况下，设置的线索过滤规则可以是：线索文本的字数达到预定字数，其中，预定字数可以根据专家经验设置，比如可以设置为100。通过基于预设线索过滤规则对线索文本进行过滤，可以过滤掉无效数据。

在一个实施例中，采集到的线索文本是用户提交的，在根据预设线索过滤规则对所述多个线索文本进行过滤，得到潜在线索文本之后，所述方法还包括：

向提交了被过滤掉的线索文本的用户发送标准线索文本，以便所述用户在接收到所述标准线索文本之后，根据所述标准线索文本重新提交线索文本。

标准线索文本是事先设定好的规范的线索文本，用户提交的线索文本可能因为格式不规范、内容不完整等原因导致被过滤掉，本申请实施例通过向这些用户提供标准线索文本，使得这些用户能够根据标准线索文本调整线索文本的描述方式，从而可以提交不被过滤掉的线索文本，避免了线索文本出现遗漏的现象。

在一个实施例中，所述方法还包括：若所述用户连续提交的预定数目个线索文本均被过滤掉，将所述用户提交的所有线索文本推送至审核客户端，以便由所述审核客户端对所述用户提交的所有线索文本进行线索识别。

审核客户端的用户是线索审核人员，其可以通过操作审核客户端对线索文本进行人工识别。本申请实施例中，通过在用户提交了连续多个被过滤掉的线索文本之后，说明该用户可能的确掌握了一定的线索，此时通过由审核客户端进行线索审核，可以避免线索被遗漏。

在一个实施例中，所述方法还包括：每隔预定时间段，将在该预定时间段内被过滤掉的线索文本推送至审核客户端；获取所述审核客户端返回的与各线索文本对应的过滤正确性标签；根据所述过滤正确性标签对所述预设线索过滤规则进行调整。

过滤正确性标签用于指示预设线索过滤规则是否正确对线索文本进行了过滤。比如，过滤正确性标签可以为“正确”和“错误”，分别代表线索文本被正确过滤掉和被错误过滤掉。线索审核人员使用审核客户端判断这些已经被过滤掉的线索文本是否被正确过滤，从而标注上对应的过滤正确性标签。

在一个实施例中，所述过滤正确性标签包括正确标签和错误标签，所述根据所述过滤正确性标签对所述预设线索过滤规则进行调整，包括：

迭代执行规则调整步骤，直至被过滤掉的线索文本中再次被过滤掉的线索文本的占比与所有过滤正确性标签中所述正确标签的比例最接近，所述规则调整步骤，包括：

调整所述预设线索过滤规则，并根据调整得到的线索过滤规则再次对被过滤掉的线索文本进行过滤，得到再次被过滤掉的线索文本。

具体来说，假设预设线索过滤规则包括线索文本的字数达到100，而被过滤掉的线索文本即为字数小于100的线索文本，这些线索文本中可能存在被错误过滤的线索文本，假如被过滤掉的线索文本的数量为50，其中，有10个线索文本被错误过滤，因此，所有过滤正确性标签中所述正确标签的比例为 40/50＝80％，而这10个线索文本中，有5个线索文本的字数在95-100之间，因此，通过将预设线索过滤规则调整为线索文本的字数达到95，这样就可以将10个线索文本中这5个线索文本之外的线索文本过滤掉；若不调整规则，即重复使用相同的线索过滤规则进行过滤，那么被过滤掉的线索文本中再次被过滤掉的线索文本的占比等于100％，因此，通过调整预设线索过滤规则，可以使被预设线索过滤规则错误过滤掉的线索文本减少。

本申请实施例中，通过根据线索过滤规则的过滤结果不断对线索过滤规则进行调整，能够不断提升线索过滤规则的准确性，从而提高了获取线索信息的准确性。

在一个实施例中，所述当采集到多个线索文本，根据预设线索过滤规则对所述多个线索文本进行过滤，得到潜在线索文本，包括：

当采集到多个线索文本，对所述多个线索文本分别进行预处理，得到预处理后的线索文本；

根据预设线索过滤规则对所述预处理后的线索文本进行过滤，得到潜在线索文本。

在一个实施例中，所述当采集到多个线索文本，对所述多个线索文本分别进行预处理，得到预处理后的线索文本，包括：

当采集到多个线索文本，对所述多个线索文本分别进行分词，得到所述多个线索文本分别对应的分词结果；

将各所述分词结果中的停用词去除，得到预处理后的线索文本。

停用词可以包括“啊”、“阿”、“哎”等语气词，还可以包括“与”等连词，还可以包括介词等。

当然，还可以采用其他方式对线索文本进行预处理，预处理主要用于实现数据清洗。

步骤220，将所述潜在线索文本转换为文本特征向量。

文本特征向量是根据潜在线索文本的文本信息进行Embedding向量化，而获得的文本特征向量，其能够实现对潜在线索文本的表征。具体而言，可以通过词典、one-hot等方式对潜在线索文本进行向量化。

步骤230，将所述文本特征向量输入至线索违法类型预测模型，通过所述线索违法类型预测模型中的特征提取网络提取到所述文本特征向量对应的结果向量，通过所述线索违法类型预测模型中的sigmoid层将所述结果向量转换为与各线索违法类型对应的预测概率向量，并通过所述线索违法类型预测模型中的映射模块基于各线索违法类型对应的预测概率向量，输出所述潜在线索文本对应的线索违法类型。

换而言之，线索违法类型预测模型是预先训练好的能够用于预测线索违法类型的模型，其可以包括依次相连的特征提取网络、sigmoid层以及映射模块。这里的sigmoid层是基于sigmoid函数建立的输出单元。

线索违法类型可以包括大气污染、水污染、固体废物污染、噪音污染、食品安全、药品安全、其他线索等等。

在一个实施例中，所述特征提取网络为TextCNN网络。

在本公开的其他实施例中，特征提取网络还可以是Bert等其他提取网络。

预测概率向量可以包括两个元素，分别是属于相应的线索违法类型的概率和不属于相应的线索违法类型的概率。比如，对于大气污染这一线索违法类型，若一个潜在线索文本对应的预测概率向量为(0.2,0.8)，那么，预测概率向量表示该潜在线索文本属于大气污染这一线索违法类型的概率为0.2，不属于大气污染这一线索违法类型的概率为0.8。

预测概率向量中包括潜在线索文本属于线索违法类型的概率，可以通过将预测概率向量中各线索违法类型的概率与相应的预测概率阈值进行比较，来确定潜在线索文本是否属于相应的线索违法类型。

各线索违法类型对应的预测概率阈值可以相同，也可以不同。

比如，若一个潜在线索文本与大气污染和水污染分别对应的预测概率向量为(0.2,0.8)和(0.7,0.3)，其中，预测概率向量中后一个元素为潜在线索文本属于线索违法类型的概率，那么，如果大气污染和水污染对应的预测概率阈值均为0.5，那么，由于0.8>0.5，而0.3<0.5，而0.8属于大气污染对应的预测概率向量，进而可以确定潜在线索文本对应的线索违法类型为大气污染。

图3是根据一示例性实施例示出的基于预测概率向量输出线索违法类型的流程图。如图3所示，包括以下步骤：

步骤310，根据所述预测概率向量中潜在线索文本属于相应线索违法类型的概率是否达到所述线索违法类型对应的预测概率阈值，确定所述潜在线索文本是否属于所述线索违法类型。

可以确定潜在线索文本属于各线索违法类型的概率，而且为各线索违法类型均设有对应的预测概率阈值，因此，可以针对每一线索违法类型，通过确定潜在线索文本属于该线索违法类型的概率是否达到该线索违法类型对应的预测概率阈值来确定潜在线索文本是否属于该线索违法类型。

步骤320，若所述潜在线索文本属于多个线索违法类型，根据所述多个线索违法类型确定所述潜在线索文本对应的线索违法类型，并将所述潜在线索文本对应的线索违法类型输出。

具体来说，有些线索文本可能与多个线索违法类型同时相关，比如，一些化工厂的排放污染物可能同时导致大气污染和水污染，因此有必要针对性地考虑。

在一个实施例中，所述根据所述多个线索违法类型确定所述潜在线索文本对应的线索违法类型，包括：

从所述多个线索违法类型中随机选取一个线索违法类型，作为所述潜在线索文本对应的线索违法类型。

根据所述预测概率向量中所述潜在线索文本属于相应线索违法类型的概率为各预测概率向量中所述潜在线索文本属于相应线索违法类型的概率中的最大值，将所述预测概率向量对应的线索违法类型作为所述潜在线索文本对应的线索违法类型。

由于潜在线索文本属于相应线索违法类型的概率越大，说明潜在线索文本越可能属于该线索违法类型。本实施例通过将潜在线索文本属于相应线索违法类型的概率中的最大值对应的线索违法类型作为潜在线索文本对应的线索违法类型，提高了识别线索违法类型的准确性。

将所述多个线索违法类型共同作为所述潜在线索文本对应的线索违法类型。

由于潜在线索文本属于多个线索违法类型，说明该潜在线索文本与多个线索违法类型都存在关联，本实施例通过将潜在线索文本所属的多个线索违法类型均作为最终识别出的线索违法类型，提高了识别线索违法类型的全面性。

步骤240，提取所述潜在线索文本的多维特征向量。

所述多维特征向量包括与多个维度的特征分别对应的特征值。

多维特征向量是通过多维度的特征的角度提取得到的特征向量，其与前面所说的文本特征向量是不同的。

具体来说，多个维度的特征可以是预先根据专家经验设置的，多维度的特征可以包括污染区域、污染行为、污染物质、污染程度、污染后果、污染物排放标准、污染持续时间、污染发生次数等。根据各个维度的特征可以提取出相应维度的特征值。

步骤250，从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，并将所述线索预警级别库中与所述目标标准特征向量对应的线索预警级别，作为所述多维特征向量对应的最终预警级别。

线索预警级别可以分为严重、一般、轻微等。

具体来说，预设的线索预警级别库中包括与线索预警级别分别对应的标准特征向量，可以通过计算各标准特征向量与多维特征向量的余弦相似度，然后将对应的余弦相似度最大的标准特征向量作为与多维特征向量匹配的目标标准特征向量，进而能够获取到与该目标标准特征向量对应的线索预警级别。

在一个实施例中，所述线索预警级别库中包括与每一线索预警级别对应的多个标准特征向量，所述从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，包括：

针对每一线索预警级别对应的各标准特征向量，获取所述多维特征向量与各所述标准特征向量的欧式距离；

确定针对每一线索预警级别对应的各标准特征向量获取到的各欧式距离的平均值；

将对应的所述平均值最小的各标准特征向量作为目标标准特征向量。

在实施例中，通过基于多维特征向量与线索预警级别对应的各标准特征向量的欧式距离的平均值，来确定目标标准特征向量，进而可以确定最终预警级别，因此最终预警级别反映了多维特征向量和与最终预警级别对应的整体标准特征向量的接近程度，从而提高了确定出的最终预警级别的准确性。

在一个实施例中，所述线索预警级别库中包括与每一线索预警级别对应的多个标准特征向量，所述从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，包括：对所述多维特征向量和所述线索预警级别库中的所有标准特征向量进行聚类处理，得到多个类；确定所述多维特征向量所属的类，作为目标类；将所述目标类中的标准特征向量按照线索预警级别分为多个组，每一组的标准特征向量与同一线索预警级别相对应；确定各组中标准特征向量的数量；确定所述数量最大的组，作为目标组，并将所述目标组中的标准特征向量作为目标标准特征向量。

具体来说，可以利用各种算法进行聚类，比如可以利用K-means算法进行聚类。

本实施例中，通过基于聚类来确定目标标准特征向量，进而可以确定最终预警级别，提高了确定出的最终预警级别的准确性。

在一个实施例中，在将所述线索预警级别库中与所述目标标准特征向量对应的线索预警级别，作为所述多维特征向量对应的最终预警级别之后，所述方法还包括：

将所述潜在线索文本和所述最终预警级别推送至审核客户端，以获得所述审核客户端返回的审核结果；

当接收到所述审核结果，根据所述审核结果为通过，将所述多维特征向量和对应的所述最终预警级别添加至所述线索预警级别库中。

审核客户端的用户可以是专家或者专业的审核人员。

在本实施例中，通过在最终预警级别通过审核之后，将多维特征向量和最终预警级别添加至线索预警级别库中，这样可以不断丰富线索预警级别库，这样的线索预警级别库中的数据可以不断增加，从而可以不断提高识别线索预警级别的准确性。

步骤260，将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息对应输出。

具体来说，可以通过短信、页面、邮件、弹窗等各种方式将线索信息输出，使得检察官等相关人员能够及时准确地获取到线索信息。

在一个实施例中，所述线索信息为多个，所述将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息对应输出，包括：

将各所述线索信息按照各线索信息中最终预警级别从高到低的顺序展示输出。

具体来说，在一个展示页面上，将最终预警级别最高的线索信息排在最前面，最终预警级别为中等的线索信息排在中间，将最终预警级别最低的线索信息排在最后面，对于相同的最终预警级别的线索信息，可以随机进行排序。

在本实施例中，在对多个线索信息进行展示和输出时，通过按照最终预警级别的高低顺序进行排序，使得最终预警级别较高的线索信息排在前面，线索处理人员可以优先处理最终预警级别较高的线索信息，降低了违法事件可能产生的危害。

在一个实施例中，所述将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息对应输出，包括：

将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息推送至与所述线索违法类型对应的终端。

具体来说，一个线索处理人员通常不能有能力处理多种类型的违法信息。可以为每一线索违法类型对应的线索处理人员设置相应的终端，通过将线索信息推送至与线索违法类型对应的终端，可以使得一个线索信息能够及时被更加匹配的线索处理人员处理，从而提高了线索处理效率。

图4是根据一示例性实施例示出的一种生成并输出公益诉讼案件的线索信息的流程图。如图4所示，整个方案是基于线索识别模型和线索评级模型进行的，具体可以包括以下步骤：首先，模型输入是线索识别模型的入参，在获得入参之后，先进行数据预处理；接着，进行强规则筛选，得到潜在线索和非线索；然后，将潜在线索转换为文本表征Embedding，并将文本表征 Embedding输入至包含TextCNN和sigmoid的模型中，得到线索多标签分类结果；然后，将预处理后的数据输入至线索评级模型，通过进行词粒度语义相似匹配，得到多维度线索预警结果；最后，对多维度线索预警结果和非线索进行接口封装，通过封装得到的接口进行出参，即获得模型输出。易于理解，还可以通过接口将线索多标签分类结果和潜在线索输出。

综上所述，根据图2实施例提供的公益诉讼案件的线索信息获取方法，通过先自动采集线索文本，然后通过对线索文本进行过滤，得到潜在线索文本，在此基础上，一方面，在将潜在线索文本转换为文本特征向量之后，利用线索违法类型预测模型实现了对线索违法类型的预测；另一方面，通过提取潜在线索文本的多维特征向量，并利用多维特征向量确定出了最终预警级别。因此，整个线索获取和审核的流程能够自动完成，大大提高了线索获取效率，降低了人工工作量和人力成本，而且，由于线索违法类型预测模型中的sigmoid层可以将结果向量转换为与各线索违法类型对应的预测概率向量，线索违法类型是基于各线索违法类型对应的预测概率向量输出的，因此可以提高线索违法类型的预测准确性，从而保证了获取的线索信息的准确性。

本公开还提供了一种公益诉讼案件的线索信息获取装置，以下是本公开的装置实施例。

图5是根据一示例性实施例示出的一种公益诉讼案件的线索信息获取装置的框图。如图5所示，装置500包括：

过滤模块510，被配置为当采集到多个线索文本，根据预设线索过滤规则对所述多个线索文本进行过滤，得到潜在线索文本；

转换模块520，被配置为将所述潜在线索文本转换为文本特征向量；

输入模块530，被配置为将所述文本特征向量输入至线索违法类型预测模型，通过所述线索违法类型预测模型中的特征提取网络提取到所述文本特征向量对应的结果向量，通过所述线索违法类型预测模型中的sigmoid层将所述结果向量转换为与各线索违法类型对应的预测概率向量，并通过所述线索违法类型预测模型中的映射模块基于各线索违法类型对应的预测概率向量，输出所述潜在线索文本对应的线索违法类型；

提取模块540，被配置为提取所述潜在线索文本的多维特征向量，所述多维特征向量包括与多个维度的特征分别对应的特征值；

确定模块550，被配置为从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，并将所述线索预警级别库中与所述目标标准特征向量对应的线索预警级别，作为所述多维特征向量对应的最终预警级别；

输出模块560，被配置为将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息对应输出。

根据本公开的第三方面，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600 的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)621和/或高速缓存存储单元622，还可以进一步包括只读存储单元(ROM)623。

存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624，这样的程序模块625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行，比如与显示单元640通信。并且，电子设备 600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器 660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

根据本公开的第四方面，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、 C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN) 或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种公益诉讼案件的线索信息获取方法，其特征在于，所述方法包括：

将所述潜在线索文本转换为文本特征向量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

每隔预定时间段，将在该预定时间段内被过滤掉的线索文本推送至审核客户端；

获取所述审核客户端返回的与各线索文本对应的过滤正确性标签；

根据所述过滤正确性标签对所述预设线索过滤规则进行调整。

3.根据权利要求1所述的方法，其特征在于，所述预测概率向量中包括潜在线索文本属于相应线索违法类型的概率，所述基于各线索违法类型对应的预测概率向量，输出所述潜在线索文本对应的线索违法类型，包括：

根据所述预测概率向量中潜在线索文本属于相应线索违法类型的概率是否达到所述线索违法类型对应的预测概率阈值，确定所述潜在线索文本是否属于所述线索违法类型；

若所述潜在线索文本属于多个线索违法类型，根据所述多个线索违法类型确定所述潜在线索文本对应的线索违法类型，并将所述潜在线索文本对应的线索违法类型输出。

4.根据权利要求1所述的方法，其特征在于，所述线索预警级别库中包括与每一线索预警级别对应的多个标准特征向量，所述从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述线索预警级别库中包括与每一线索预警级别对应的多个标准特征向量，所述从预设的线索预警级别库的标准特征向量中确定出与所述多维特征向量相匹配的目标标准特征向量，包括：

对所述多维特征向量和所述线索预警级别库中的所有标准特征向量进行聚类处理，得到多个类；

确定所述多维特征向量所属的类，作为目标类；

将所述目标类中的标准特征向量按照线索预警级别分为多个组，每一组的标准特征向量与同一线索预警级别相对应；

确定各组中标准特征向量的数量；

确定所述数量最大的组，作为目标组，并将所述目标组中的标准特征向量作为目标标准特征向量。

6.根据权利要求1所述的方法，其特征在于，在将所述线索预警级别库中与所述目标标准特征向量对应的线索预警级别，作为所述多维特征向量对应的最终预警级别之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述线索信息为多个，所述将所述潜在线索文本、所述线索违法类型以及所述最终预警级别作为线索信息对应输出，包括：

8.一种公益诉讼案件的线索信息获取装置，其特征在于，所述装置包括：

9.一种计算机可读程序介质，其特征在于，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行根据权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至7任一项所述的方法。