CN109508458A

CN109508458A - 法律实体的识别方法及装置

Info

Publication number: CN109508458A
Application number: CN201811285701.9A
Authority: CN
Inventors: 陈华杰
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-03-22
Anticipated expiration: 2038-10-31
Also published as: CN109508458B

Abstract

本发明公开了一种法律实体的识别方法及装置，从用户输入的查询信息中提取有效字词，利用有效字词从构建的实体库中召回查询信息可能涉及到的所有法律实体，而不是仅召回与有效字词完全一致的法律实体，使其能够应对用户输入多样性，以提高法律实体识别可靠性，然后，利用最长公共子序列算法，从查询信息中抽取与召回的法律实体最像字符串作为对应的候选法律实体，将与候选法律实体的相似度满足要求的法律实体作为目标法律实体。可见，本实施例不局限于识别与查询信息中的字符串完全一致的法律实体，且无需总结各种实体规则，解决了利用人工总结实体规则，无法保证覆盖率，进而影响实体识别准确性的问题。

Description

法律实体的识别方法及装置

技术领域

本发明涉及数据处理技术领域，更具体地涉及一种法律实体的识别方法及装置。

背景技术

命名实体识别(Named Entity Recognition，NER)，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，它是许多自然语言应用中的基础问题，例如智能问答、知识图谱、情感分析。

以智能问答系统为例，对于用户输入信息，通常采用基于词典或规则的方式，识别用户输入信息包含的实体，作为数据库查询字段进行查询。但是，这种处理方式所识别的实体通常是机构名、人名和地点，并不包含法律法规、律所名称等法律实体。

另外，由于基于词典的实体识别方法仅能识别与实体名称一致的实体，无法准确识别具有多种称呼形式的法律实体，且目前存在的法律法规、律所有上万种，通过文本与编写的规则进行匹配的方式，无法准确识别每一种法律法规、律所，所以说，现有的这两种实体识别方法无法实现法律实体的准确识别。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的法律实体的识别方法及装置。

为了解决上述问题，本发明实施例提供了一种法律实体的识别方法，所述方法包括：

获取用户输入的查询信息；

对所述查询信息进行预处理，得到所述查询信息包含的有效字词；

从已构建的实体库中，获取与所述有效字词关联的多个法律实体；

利用最长公共子序列算法，从所述查询信息中抽取与所述多个法律实体分别对应的候选法律实体；

计算所述多个法律实体与对应的所述候选法律实体的相似度，并利用得到的相似度，确定所述多个法律实体中的目标法律实体。

可选的，所述实体库包括法律实体库，所述法律实体库的构建过程包括：

获取现有法律法规的简称；

对获取的各法律法规的简称进行存储，生成法律实体库。

可选的，所述获取现有法律法规的简称，包括：

从法律服务平台获取现有法律法规的名称；

按照第一预设规则抽取得到相应法律法规的简称；和/或，获取针对所述现有法律法规的名称编写的简称。

可选的，所述实体库还包括企业实体库，所述企业实体库的构建过程包括：

获取现有法律文书；

利用对所述现有法律文书的解析结果，构建企业名称库；

按照第二预设规则，对所述企业名称库中的各企业名称进行名称抽取，得到企业简称；

按照得到的企业简称进行召回检索；

对检索到企业名称的企业简称进行存储，生成企业实体库。

可选的，所述第二预设规则包括将企业名称中的字号与行业名进行结合、或者将企业名称中的地名与字号进行结合，或者保留企业名称中的字号。

可选的，所述对所述查询信息进行预处理，得到所述查询信息包含的有效字词，包括：

对所述查询信息进行分词处理，得到多个字词；

剔除所述多个字词中不符合查询实体要求的字词，得到所述查询信息的有效字词。

可选的，所述从已构建的实体库中，获取与所述有效字词关联的多个法律实体，包括：

利用分布式检索方式，从已构建的实体库中召回与各有效字词重合的法律实体。

可选的，所述利用最长公共子序列算法，从所述多个法律实体中抽取候选法律实体，包括：

针对每一个法律实体，利用最长公共子序列算法，识别所述法律实体在所述查询信息的起始位置和终止位置；

提取所述查询信息中，从所述起始位置到所述终止位置所包含的字符串，并将提取出的字符串作为候选法律实体。

本发明实施例还提供了一种法律实体的识别装置，所述装置包括：

信息获取模块，用于获取用户输入的查询信息；

预处理模块，用于对所述查询信息进行预处理，得到所述查询信息包含的有效字词；

第一筛选模块，用于从已构建的实体库中，获取与所述有效字词关联的多个法律实体；

第二筛选模块，用于利用最长公共子序列算法，从所述查询信息中抽取所述多个法律实体分别对应的候选法律实体；

第三筛选模块，用于计算所述多个法律实体与对应的所述候选法律实体的相似度，并利用得到的相似度，确定所述多个法律实体中的目标法律实体。

本发明实施例还提供了一种存储介质，其上存储有程序，所述程序由处理器执行，实现如上所述的法律实体的识别方法的各步骤。

借由上述技术方案，本发明提供的

综上所述，本实施例提供了一种法律实体的识别方法及装置，在得到用户的查询信息后，将先对其进行预处理提出其中的有效字词，避免了对无效字词进行实体库查询，而影响识别效率和准确性，之后，利用有效字词从构建的实体库中召回查询信息可能涉及到的所有法律实体，而不是仅召回与有效字词完全一致的法律实体，使其能够应对用户输入多样性，以提高法律实体识别可靠性，然后，利用最长公共子序列算法，从查询信息中抽取与召回的法律实体最像字符串作为对应的候选法律实体，将与候选法律实体的相似度满足要求的法律实体作为目标法律实体。可见，本实施例不局限于识别与查询信息中的字符串完全一致的法律实体，且无需总结各种实体规则，解决了利用人工总结实体规则，无法保证覆盖率，进而影响实体识别准确性的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的法律实体的识别系统的结构示意图；

图2示出了本发明实施例提供的一种查询界面示意图；

图3示出了本发明实施例提供的一种法律实体的识别方法的流程示意图；

图4示出了本发明实施例提供的另一种法律实体的识别方法的流程示意图；

图5示出了本发明实施例提供的又一种法律实体的识别方法的流程示意图；

图6示出了本发明实施例提供的又一种法律实体的识别方法的流程示意图；

图7示出了本发明实施例提供的一种法律实体的识别装置的结构示意图；

图8示出了本发明实施例提供的另一种法律实体的识别装置的结构示意图；

图9示出了本发明实施例提供的另一种法律实体的识别装置的结构示意图；

图10示出了本发明实施例提供的又一种法律实体的识别装置的结构示意图；

图11示出了本发明实施例提供的一种法律实体的识别设备的硬件结构示意图。

具体实施方式

本发明的发明人发现，目前常用的无监督的实体识别方法有基于词典或规则的方法，该基于词典的方法是将实体识别作为一个字符串匹配的问题，因此，其主要研究如何更少的时间和计算资源，查找词典中的问题是否在用户输入的查询信息中出现，也就是说，其只能识别与词典中完成一致的实体，具有很大局限性，无法应对用户多样化的输入。

而基于规则的实体识别方法，是将文本与手工编写的规则进行匹配，来识别出用户输入的查询信息。如法律实体一般以“法”作为结果，律所实体一般以“律所”作为结果，可以利用这些特殊编写规则，但面对上万种的法律法规、律所等，人工无法穷尽每一种可能，影响了法律实体的识别准确性。

对于，发明人尝试采用有监督的方式来进行实体识别，如统计学习的方法、深度学习方法。具体的，统计学习的方法通常是利用生成式模型隐马尔科夫模型(Hidden MarkovModel，HMM)、判别式模型条件随机抽模型(Conditional Random Field algorithm，CRF)等模型，识别查询信息中的法律实体，深度学习的方法则是利用卷积神经网络、循环神经网络等算法，识别查询信息中的法律实体。无论哪种实现方法，都需要花费很长的时间标注语料，过程比较复杂。

为了进一步改善上述问题，本发明的发明人提出预先构建各种实体库，在对用户输入的查询信息进行法律实体识别时，先利用分布式检索方式，从实体库中召回该查询信息可能涉及到的法律实体，再进一步用最长公共子序列的方法进行实体抽取，最后用模糊匹配算法进行实体对齐，来快速且准确地识别出用户输入的查询信息中的目标法律实体，解决上述其他实体识别方式存在的技术问题。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，为实现本发明实施例提供的法律实体的识别方法的系统结构示意图，该系统可以包括客户端11、应用服务器12及数据库服务器13，其中：

客户端11可以是安装在如手机、电脑等电子设备上的应用程序，用户可以启动客户端进入数据查询界面，如图2所示的智能问答界面，但并不局限于此，此时，用户可以在查询框中输入查询信息，本发明主要查询法律方面的数据为例进行说明，用户输入的查询信息可以是“帮我查询A法的内容”、“帮我查询北京XX律师事务所”等等，本实施例对用户输入的查询信息的内容不做限定。

仍以图2所示的智能问答界面为例，用户输入查询信息后，可以点击“搜索”按钮，客户端可以识别该输入框中的查询信息，并将其发送至与该客户端匹配的应用服务器，由应用服务器据此从数据库中搜索与该查询信息相匹配的目标数据，具体搜索过程可以参照下文实施例的描述。

应用服务器12可以是与客户端相匹配的服务器，支持客户端的服务功能，以智能问答系统为例，客户端可以是浏览器或智能问答专用应用程序，应用服务器可以提供智能问答服务，保证智能问答系统正常运行的服务器。

本实施例中，该应用服务器12可以是一个服务器，也可以是多个服务器组成的服务器集，本实施例对该应用服务器12的结构不作限定，通常可以根据客户端能够提供的服务功能确定，本发明在此不做详述。

数据库服务器13可以是一种设置在云端的数据存储设备，本实施例中，其可以用来存储针对法律方面数据查询，构建的实体库，如法律实体库、律所等企业实体库等，本实施例对该数据库服务器13的结构，及其存储数据的方式不作限定。

需要说明，对于实现法律实体的识别方法的系统组成部分，并不局限于上文列举的几个组成部分，在实际应用中，可以根据实际应用系统的扩展功能需要，适应性调整系统组成，本发明在此不再一一详述。

参照图1所示的系统结构，本发明实施例提出了一种法律实体的识别方法，该方法可以应用于服务器，如图3所示的该方法的流程示意图，本实施例提出的方法可以包括但并不局限于以下步骤：

步骤S11，获取用户输入的查询信息；

在实际应用中，当用户需要查询某方面的数据时，通常会在客户端的查询输入框中输入查询信息，并由客户端识别该查询信息的内容，之后，可以将其发送至相应的应用服务器，以使服务器据此查询用户所需的目标数据，本实施例对查询数据所使用的客户端及应用服务器类型不做限定。

步骤S12，对该查询信息进行预处理，得到该查询信息包含的有效字词；

本实施例实际应用中，通常是从查询信息包含的词的粒度上，来查询所需的数据，为了避免基于无用字词进行数据库查询，影响查询效率和准确性，在对该查询信息进行分词处理，得到多个字词后，可以先剔除该多个字词中不符合查询实体要求的字词，得到查询信息的有效字词，即剔除所得各字词中的无用词，如“帮助”、“我”、“的”、“查询”等，这样，就不需要对查询信息中的每一个字词都进行后续数据库查询，将剩余的字词作为有效字词。

可见，本实施例中的有效字词是指对后续查询有用的字词，通常是能够表征该查询信息含义的关键字词，本实施例对如何实现查询信息的预处理，以得到有效字词的实现过程不作限定。

步骤S13，从已构建的实体库中，获取与该有效字词关联的多个法律实体；

为了准确识别用户输入的查询信息中的法律实体，满足用户的法律查询需求，本实施例可以预先构建实体库，即由多个法律实体构成的数据库，如上述图1和图2所示的系统中，可以在数据库服务器中构建实体库，存储其包含的多个法律实体。

可选的，实体类型可以包括法律法规、律所(即法律律师事务所)等企业，本实施例可以针对每一种实体类型构建一个实体库，因此，本实施例预先构建的实体库可以包括法律实体库、企业实体库等中的一个或多个组合，也就是说，可以针对至少一种实体类型，预先构建对应的实体库，本发明对不同实体类型对应的实体库的构建方法不作限定，可以参照下文实施例描述的法律实体库、企业实体库的构建方法。

需要说明，企业这一个实体类型，并不局限于律所，还可以是其他涉及到法律的企业，企业实体库并不局限律所实体库，本发明仅以律所实体库作为一种企业实体库为例进行说明。

本实施例中，对于从用户输入的查询信息中获得的有效字词，通常可能是多个，本实施例可以采用分布式检索的方式，从构建的至少一个实体库中，查找与有效字词关联的法律实体，即可以同时将多个有效字词，分别与实体库中的各法律实体进行比对，从实体库中召回与该有效字词有重合的法律实体。

如用户输入的查询信息可以是“帮我查询婚姻法的解释”，可以得到的有效字词可能有“婚姻法”、“解释”，按照这种分布式检索方式，将“婚姻法”与实体库中的各法律实体进行比对，同时将“解释”与实体库中的各法律实体进行比对，以得到与“婚姻法”有重合的法律实体，以及与“解释”有重合的法律实体。

需要说明，关于步骤S13中，如何获取与有效字词关联的法律实体的方式，并不局限于上文描述的分布式检索方式。

步骤S14，利用最长公共子序列算法，从查询信息中抽取与这多个法律实体分别对应的候选法律实体；

如上文描述，直接利用用户输入的查询信息中的有效字词，从实体库中查询到的法律实体的数量往往很多，其中可以包括实际所需的法律实体，也可能包括干扰法律实体，如用“婚姻法”这一有效字词进行查询时，可能找到与其中的“法”字相匹配的法律实体，如“诉讼法”，显然，该法律实体并不是需要的，按照此时获取的多个法律实体进行数据查询，往往会得到大量对用户无用的信息。

因此，为了提高查询效率及准确性，本实施例将对从实体库中召回的多个法律实体中进行实体抽取，即抽取与用户输入的查询信息最相似的一些法律实体作为候选法律实体，本实施例可以采用最长公共子序列算法的方式来实现实体抽取方法。

具体的，本实施例可以在词的粒度上使用最长公共子序列的方法进行实体抽取，以定位与用户输入的查询信息对应的序列，如用户查询信息为“帮我查询婚姻法的解释”，若通过上述方式从实体库中召回的法律实体是“婚姻法解释”，利用最长公共子序列算法，可以识别出该法律实体在该查询信息中的起始位置和终止位置，之后，提取查询信息中，从起始位置到终止位置所包含的字符串，并将提取出的字符串作为候选法律实体。

仍以上述示例进行说明，按照最长公共序列的方法，对于“婚姻法解释”这一法律实体，从查询信息中抽取出的候选法律实体可以是“婚姻法的解释”；对于召回的其他法律实体，可以按照这种方式得到对应的候选法律实体，本实施例在此不再一一列举。

可见，本实施例从预先构建的实体库中召回可能的多个法律实体后，遍历每一个法律实体，利用最长公共子序列的方法，检测该法律实体与查询信息中的那部分最像，并将最像的这部分截取出来作为候选法律实体。如上文描述的截取过程，本实施例得到的候选法律实体通常包含召回的对应法律实体。

可选的，本实施例可以将抽取的各候选法律实体暂时存储在数据库服务器中，以便后续从中直接获取各候选法律实体。

步骤S15，计算该候选法律实体与对应的法律实体的相似度，并利用得到的相似度，确定多个法律实体中的目标法律实体。

本实施例可以利用相似度算法，来计算候选法律实体与召回的相应法律实体的相似度，即获取候选法律实体与从实体库召回的相应法律实体的匹配程度，若计算得到的相似度数值大于预设阈值，说明该法律实体与候选法律实体匹配，可以将该法律实体作为目标法律实体，用于后续查询反馈至用户界面的数据；反之，若该相似度数值小于该预设阈值，说明该法律实体与候选法律实体不匹配，该法律实体不会继续用于后续数据查询，可以直接剔除该法律实体。

可见，本实施例可以采用基于模糊匹配的实体对齐方式，利用上述得到的候选法律实体，对召回的法律实体进行精细筛选，以提高后续查询满足用户要求的数据的可靠性及效率。

其中，实体对齐也可以称为实体匹配，可以指异构数据源知识库中的各个实体，找出属于现实世界中的同一实体，本实施例中，则是从预先构建的实体库中，找出与用户输入的查询信息中的同一法律实体。本发明对实现实体对齐的具体方法不作限定。

可选的，上述步骤S15进行相似度计算所采用的相似度算法可以是fuzzywuzzy算法(错误、不一致数据处理算法)实现，即采用模糊匹配处理手段来获取目标法律实体，但并不局限于这种实现方式。

在实际应用中，按照上述方法从用户输入的查询信息中，识别出目标法律实体后，可以据此判断用户的查询意图，确定数据库查询字段，以便进一步从数据库中获取满足用户查询要求的信息，并反馈至客户端输出，本发明对利用识别出的目标法律实体进行后续数据库查询的过程不作详述。

综上所述，本实施例得到用户的查询信息后，将先对其进行预处理提出其中的有效字词，避免了对无效字词进行实体库查询，而影响识别效率和准确性，之后，从构建的实体库中获取与各有效字词关联的多个法律实体，并利用最长公共子序列算法，从查询信息中抽取与这多个法律实体最像字符串，作为对应的候选法律实体，通过计算该候选法律实体与从实体库召回的对应法律实体的相似度，来确定出召回的多个法律实体中，相似度达到一定阈值的法律实体为目标法律实体。可见，本实施例解决了传统查询工具或接口不适用于法律实体识别的应用，即便使用传统实体识别方式，也仅识别与实体库中的实体名称一致的法律实体，无法应对用户多样性输入，导致法律实体识别的准确性低的技术问题，或使用规则模板识别方式因总结各种实体规律，无法保证覆盖率，进而也会导致法律实体识别准确性低的问题。

为了清楚说明本发明上述实体库构建过程，本发明在此仅以法律实体库和律所实体库(一种企业实体库)的构建过程为例进行说明，关于其他类型的实体库构建过程类似，本实施例在此不再一一详述。

参照图4，本发明示出了上述实施例描述的法律实体的识别中的法律实体库的构建过程，如图4所示，该构建过程可以包括但并不局限于以下步骤：

步骤S21，从法律服务平台获取现有法律法规的名称；

如上文对实体库的分析，其可以用来存储基于各个法律实体的标准名称(本发明将其记为名称，也可以称为全称)，梳理得到的别名即简称，本发明对获取法律法规的简称的实现方法不作限定。

其中，对于现有的法律法规的标准名称，可以采用检索爬取、文本解析等方式来获得，也可以直接从法律法规官网等法律服务平台上获取目前已制定的各法律法规的标准名称等等，本发明对如何获取现有法律法规的标准名称的方法不作限定。

步骤S22，按照第一预设规则抽取得到相应法律法规的简称；

由于法律法规的名称都是按照一定的规则生成的，如“XXX民事诉讼法”、“XXX婚姻法”，本实施例可以将法律法规前缀部分即相同部分的内容删除，保留区别各法律法规的字，得到的法律法规简称可以是“民事诉讼法”“婚姻法”。对于这种方式，有规律可循，本实施例可以按照抽取规则，编写相应的抽取程序，执行该抽取程序，对多个法律法规进行批量处理，以减少人工编写的工作量，且由于法律法规的数量是有限的，这种方式并不会花费太多人力。

可见，本实施例采用规则抽取的方式，从法律法规的名称中抽取对应的简称，但并不局限于这种实现方式。

可选的，步骤S22也可以获取针对现有法律法规的名称编写的简称，即由人工编写法律法规的简称。如上述“XXX民事诉讼法”可以简称为“民诉法”，由于这种方式变化比较大，无法通过规则覆盖，因此，本实施例采用人工编写的方式，来确定法律法规的简称，能够得到更准确且简洁的法律法规简称。

在本实施例实际应用中，可以采用步骤S22描述的规则抽取方式得到法律法规简称，也可以采用人工编写方式实现，或者是将这两种方式结合，来获取现有的法律法规的简称，本实施例对如何获取现有法律法规的简称的实现方式不做限定。且对于可以按照如下表一所示方式来记录得到的法律法规简称，但并不局限与此。

表一

实体标准名称	实体简称	等级	国家或地方	实体类型
					XXX民事诉讼法	民诉法	法律	国家	法律法规
XXX民事诉讼法	民事诉讼法	法律	国家	法律法规
					XXX刑事诉讼法	刑诉法	法律	国家	法律法规
XXX行政诉讼法	行诉法	法律	国家	法律法规

由上表一可知，在抽取法律法规简称的过程中，使用不同的抽取方式，得到的法律法规简称可以不同。

步骤S23，对获取的各法律法规的简称进行存储，生成法律实体库。

本实施例按照如上述列举的方式，获得现有法律法规的简称之后，可以单独对这些法律法规简称进行存储，得到法律实体库，也可以按照如上表一种的属性，对得到的法律法规简称(即法律实体简称)进行分类，此时，得到的法律实体库可以包括多个法律法规简称组等，本实施例对法律实体库中各法律法规实体简称的存储方式不作限定。

基于该法律实体库，得到用户输入的查询信息的有效字词后，可以将每一个有效字词与该法律实体库中的各法律法规简称进行比对，若两者具有重合部分，可以召回该法律实体，用以后续处理。

在本发明另一可选实施例中，由于用户需要查询的法律知识，并非都是法律条文，也可能使其他法律知识，如某案件的相关信息、某律师事务所的相关信息等等，显然，在这种情况下，基于上述构建的法律实体库，来识别用户输入的查询信息中法律实体，很可能无法准确识别所需的目标法律实体，也会降低后续展示给用户的反馈信息的准确性。对此，本发明提出了构建企业实体库，本实施例在此仅以构建律师实体库为例，来说明企业实体库的构建过程，如图5所示，为用于上述实施例描述的法律实体的识别中的企业实体库的构建流程示意图，该企业实体库的构建过程可以包括但并不局限于以下步骤：

步骤S31，获取现有法律文书；

在实际应用中，由于如裁判文书等法律文书的起始段记录有当事人、代理人的信息，能够从中提取所需的法律实体名称，因此，本实施例可以获取现有法律文书，具体获取途径不做限定，如各法院数据库等。

步骤S32，利用对现有法律文书的解析结果，构建企业名称库；

由于完成的裁判文书等法律文书的文字通常是标准化的表达，不会出现简称的情况，本实施例可以从其起始段记录的当事人、代理人的信息中，通过简单的规则匹配抽取出标准律所实体名称，即律所的全称，构成企业名称库。

具体的，本实施例可以采用爬虫检索、文本解析等方式，从法律文书中获取企业名称，如律所名称，具体实现过程本实施例不作详述。

步骤S33，按照第二预设规则，对企业名称库中的各企业名称进行名称抽取，得到企业简称；

本实施获取企业名称后，为了丰富企业的简称，本实施例还可以利用特定规则、检索等方式，对抽取的企业实体名称进行补充。以律所这种企业为例，在实际应用中，一般的律所名称由地名+字号+行业名组成，如“北京B律师事务所”中，“北京”是地名，“B”是字号(其类似于商号)，“律师事务所”是行业名。

基于上文对律所名称的组成分析，本实施例在抽取律所实体简称时，可以删除律所名称中的地名，即由字号与行业号结合，得到律所简称，如“B律师事务所”；当然，本实施例也可以删除行业名，由企业名称中的地名与字号进行结合的方式，得到律所简称，如“北京B”；或者，对于一些著名的企业，本实施例也可以保留企业名称中的字号，作为企业简称，如“B”等。

可见，步骤S33中的第二预设规则可以是：企业名称中的字号与行业名结合，或企业名称中的地名与字号结合，或者仅提取企业名称中的字号等。本实施例在此仅以这几种实现方式为例进行说明，仍以律所这种企业为例，按照上述方式得到的企业简称可以如下表二所示的方式：

表二

企业标准名称	企业简称	实体类型
			北京B律师事务所	北京B	律所
北京B律师事务所	B律师事务所	律所
			安徽C律师事务所	C律师事务所	律所

由此可见，对于同一律所名称，按照不同方式得到的律所简称可以不同，也就是说，一个律所名称可以对应至少一个律所简称。

步骤S34，按照得到的企业简称进行召回检索；

步骤S35，对检索到企业名称的企业简称进行存储，生成企业实体库。

本实施例为了提高实体识别的准确性，按照上述方式得到企业简称后，还可以使用检索工具查询校验，看看能否召回对应的企业名称，并将无法召回企业名称的企业简称删除，对于能够召回企业名称的企业简称进行存储，以生成企业实体库。

当企业是律所，按照上述处理方式，由能够召回律所名称的律所简称，可以构成律所实体库，对于其他类型的企业，也可以按照上述方式来构建对应的企业实体库，本发明不再一一详述。

综上，本实施例在现有法律实体，及从海量的法律文书中抽取出企业实体基础上，利用检索爬取或人工编写等方式丰富构造简称，丰富了实体库，以使在法律实体识别过程中，能够从该实体库中尽量多且准确获取查询信息涉及到的法律实体，进而结合最长公共子序列和模糊匹配算法，识别出所需的目标法律实体。这解决了有监督的实体识别方式，需要花费大量人力标注语料，导致成本高的问题，也解决了无监督方式中，简单根据法律词典进行匹配，无法应对用户多样性输入，如漏输一些词的，或花费人工总结各种实体规律，无法保证覆盖率的技术问题。

基于上述各实施例的描述，参照图6所示的流程示意图，本实施例将以“帮我查询婚姻法的解释”这一查询信息为例，来说明法律实例识别的实现步骤，如图6所示，本实施例对其进行预处理，得到多个有效字词后，可以采用分布式检索的方式，从预先构建的实体库中召回该查询信息可能涉及到的法律实体，如“婚姻法”、“解释”、“司法”、“婚姻法解释”等等，图6仅示出了部分法律实体组合，但并不局限于图6示出的法律实体，之后，本实施例将采用最长公共子序列的方法，从用户输入的查询信息中抽取出候选法律实体，如图6中查询信息中具有下划线的部分文字，即“婚姻法的解释”，最后，对该候选法律实体与召回的法律实体进行模糊匹配，如计算“婚姻法的解释”与“婚姻法解释”之间的相似度，得到两者相似度达到90％，显然，该相似度数值大于预设阈值，认为该查询信息的目标法律实体可以是“婚姻法解释”，这样，当用户输入“帮我查询婚姻法的解释”后，服务器可以按照上述识别方式，得知该查询信息的匹配实体即目标法律实体为“婚姻法解释”，服务器即可据此进行信息搜索，并将查询的涉及婚姻法解释的信息内容反馈至客户端展示。

需要说明，对于本发明提出的法律实体的识别方法的应用，并不局限于上文图6所示的应用场景。

参照图7，为本发明实施例提供的一种法律实体的识别装置的结构示意图，该装置可以应用于应用服务器，如图7所示，该装置可以包括：

信息获取模块21，用于获取用户输入的查询信息；

预处理模块22，用于对查询信息进行预处理，得到查询信息包含的有效字词；

可选的，如图8所示，该预处理模块22可以包括：

分词单元221，用于对所述查询信息进行分词处理，得到多个字词；

剔除单元222，用于剔除所述多个字词中不符合查询实体要求的字词，得到所述查询信息的有效字词。

第一筛选模块23，用于从已构建的实体库中，获取与所述有效字词关联的多个法律实体；

在本实施例实际应用中，该第一筛选模块23从已构建的实体库中，获取与所述有效字词关联的多个法律实体的实现具体可以为：利用分布式检索方式，从已构建的实体库中召回与各有效字词重合的法律实体，具体实现方法可以参照上述方法实施例相应部分的描述。

第二筛选模块24，用于利用最长公共子序列算法，从所述查询信息中抽取所述多个法律实体分别对应的候选法律实体；

可选的，如图8所示，该第二筛选模块24可以包括：

识别单元241，用于针对每一个法律实体，利用最长公共子序列算法，识别所述法律实体在所述查询信息的起始位置和终止位置；

提取单元242，用于提取所述查询信息中，从所述起始位置到所述终止位置所包含的字符串，并将提取出的字符串作为候选法律实体。

第三筛选模块25，用于计算所述多个法律实体与对应的所述候选法律实体的相似度，并利用得到的相似度，确定所述多个法律实体中的目标法律实体。

在本实施例中，该第三筛选模块25实现该目标法律实体的筛选过程，具体可以为利用模糊匹配算法等相似度算法，对各候选法律实体与对应召回的法律实体进行相似度计算，并将相似度大于预设阈值的法律实体作为目标法律实体，具体实现过程可以参照上述方法实施例的描述。

综上，本实施例在对用户输入的查询信息进行实体识别时，将先对其进行预处理提取有效字词，避免了对其中的无效字词进的无用查询，而影响识别效率和准确性，之后，从构建的实体库中获取与各有效字词关联的多个法律实体，即获取该查询信息可能涉及到的所有法律实体，再利用最长公共子序列算法，从查询信息中抽取与这多个法律实体最像字符串，作为对应的候选法律实体，通过计算该候选法律实体与从实体库召回的对应法律实体的相似度，来确定出召回的多个法律实体中，相似度达到一定阈值的法律实体为目标法律实体。

可见，本实施例解决了传统查询工具或接口不适用于法律实体识别的应用，即便使用传统实体识别方式，也仅识别与实体库中的实体名称一致的法律实体，无法应对用户多样性输入，导致法律实体识别的准确性低的技术问题，或使用规则模板识别方式因总结各种实体规律，无法保证覆盖率，进而也会导致法律实体识别准确性低的问题。

在本发明另一可选实施例中，本发明构建的实体库可以包括法律实体库和/或企业实体库等，可以针对每一种实体类型，构建对应的实体库。

其中，为了构建法律实体库，本实施例提供的装置还可以包括：

简称获取模块26，用于获取现有法律法规的简称；

法律实体库生成模块27，用于对获取的各法律法规的简称进行存储，生成法律实体库。

可选的，如图9所示，该简称获取模块可以包括：

法律法规名称获取单元261，用于从法律服务平台获取现有法律法规的名称；

简称获取单元262，用于按照第一预设规则抽取得到相应法律法规的简称；和/或，获取针对所述现有法律法规的名称编写的简称。

可选的，为了构建企业实体库，如图10所示，本实施例提供的装置还可以包括：

法律文书获取模块28，用于获取现有法律文书；

企业名称库构建模块29，用于利用对所述现有法律文书的解析结果，构建企业名称库；

企业简称抽取模块210，用于按照第二预设规则，对所述企业名称库中的各企业名称进行名称抽取，得到企业简称；

其中，第二预设规则可以包括将企业名称中的字号与行业名进行结合、或者将企业名称中的地名与字号进行结合，或者保留企业名称中的字号。

召回检索模块211，用于按照得到的企业简称进行召回检索；

企业实体库生成模块212，用于对检索到企业名称的企业简称进行存储，生成企业实体库。

综上，本实施例在现有的法律实体和从海量的法律文书中抽取出的企业(如律所)实体基础上，用检索爬取等方法丰富构造实体简称，丰富实体库，保证能够从用户输入的查询信息中准确识别出所需的法律实体。

所述法律实体的识别装置包括处理器和存储器，上述信息获取模块、预处理模块、第一筛选模块、第二筛选模块、第三筛选模块、简称获取模块、法律实体库生成模块、法律文书获取模块、企业名称库构建模块、企业简称抽取模块、召回检索模块和企业实体库生成模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对用户输入的查询信息进行预处理提取有效字词，并从构建的实体库中获取与各有效字词关联的多个法律实体，再利用最长公共子序列算法，从查询信息中抽取与这多个法律实体最像字符串作为对应的候选法律实体，通过计算该候选法律实体与从实体库召回的对应法律实体的相似度，来准确确定出目标法律实体，以解决传统实体识别方式，也仅识别与实体库中的实体名称一致的法律实体，无法应对用户多样性输入，导致法律实体识别的准确性低的技术问题，或使用规则模板识别方式因总结各种实体规律，无法保证覆盖率，进而也会导致法律实体识别准确性低的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述法律实体的识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述法律实体的识别方法。

本发明实施例提供了一种法律实体的识别设备，如图11所示，为该法律实体的识别设备的硬件结构示意图，该设备可以包括处理器31、存储器32及存储在存储器32上并可在处理器31上运行的程序，处理器31执行程序时实现以下步骤：

获取用户输入的查询信息；

可选的，处理器31执行程序还可以实现以下步骤：

所述实体库包括法律实体库，获取现有法律法规的简称；

对获取的各法律法规的简称进行存储，生成法律实体库。

可选的，处理器31执行程序还可以实现以下步骤：

从法律服务平台获取现有法律法规的名称；

可选的，处理器31执行程序还可以实现以下步骤：

所述实体库还包括企业实体库，所获取现有法律文书；

利用对所述现有法律文书的解析结果，构建企业名称库；

按照得到的企业简称进行召回检索；

对检索到企业名称的企业简称进行存储，生成企业实体库。

其中，所述第二预设规则包括将企业名称中的字号与行业名进行结合、或者将企业名称中的地名与字号进行结合，或者保留企业名称中的字号。

可选的，处理器31执行程序还可以实现以下步骤：

对所述查询信息进行分词处理，得到多个字词；

可选的，处理器31执行程序还可以实现以下步骤：

本文中的设备可以是服务器等。且，对于该设备的组成部分并不局限于上文列举的处理器和存储器，其还可以包括通信接口33、通信总线34等等，可以根据实际需求确定，本发明在此不再一一列举。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取用户输入的查询信息；

可选的，计算机程序产品执行时还可以实现以下步骤：

所述实体库包括法律实体库，获取现有法律法规的简称；

对获取的各法律法规的简称进行存储，生成法律实体库。

可选的，计算机程序产品执行时还可以实现以下步骤：

从法律服务平台获取现有法律法规的名称；

可选的，计算机程序产品执行时还可以实现以下步骤：

所述实体库还包括企业实体库，所获取现有法律文书；

利用对所述现有法律文书的解析结果，构建企业名称库；

按照得到的企业简称进行召回检索；

对检索到企业名称的企业简称进行存储，生成企业实体库。

可选的，计算机程序产品执行时还可以实现以下步骤：

对所述查询信息进行分词处理，得到多个字词；

可选的，计算机程序产品执行时还可以实现以下步骤：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种法律实体的识别方法，其特征在于，所述方法包括：

获取用户输入的查询信息；

2.根据权利要求1所述的方法，其特征在于，所述实体库包括法律实体库，所述法律实体库的构建过程包括：

获取现有法律法规的简称；

对获取的各法律法规的简称进行存储，生成法律实体库。

3.根据权利要求2所述的方法，其特征在于，所述获取现有法律法规的简称，包括：

从法律服务平台获取现有法律法规的名称；

4.根据权利要求1所述的方法，其特征在于，所述实体库还包括企业实体库，所述企业实体库的构建过程包括：

获取现有法律文书；

利用对所述现有法律文书的解析结果，构建企业名称库；

按照得到的企业简称进行召回检索；

对检索到企业名称的企业简称进行存储，生成企业实体库。

5.根据权利要求4所述的方法，其特征在于，所述第二预设规则包括将企业名称中的字号与行业名进行结合、或者将企业名称中的地名与字号进行结合，或者保留企业名称中的字号。

6.根据权利要求1～5任意一项所述的方法，其特征在于，所述对所述查询信息进行预处理，得到所述查询信息包含的有效字词，包括：

对所述查询信息进行分词处理，得到多个字词；

7.根据权利要求1～5任意一项所述的方法，其特征在于，所述从已构建的实体库中，获取与所述有效字词关联的多个法律实体，包括：

8.根据权利要求1～5任意一项所述的方法，其特征在于，所述利用最长公共子序列算法，从所述多个法律实体中抽取候选法律实体，包括：

9.一种法律实体的识别装置，其特征在于，所述装置包括：

信息获取模块，用于获取用户输入的查询信息；

10.一种存储介质，其上存储有程序，其特征在于，所述程序由处理器执行，实现如权利要求1～8任意一项所述的法律实体的识别方法的各步骤。