CN110928994A

CN110928994A - 相似案例检索方法、相似案例检索装置和电子设备

Info

Publication number: CN110928994A
Application number: CN201911192036.3A
Authority: CN
Inventors: 李东海; 黄晓宏; 高军; 刘亚会
Original assignee: Beijing Huayu Meta Information Service Co Ltd
Current assignee: Beijing Huayu Meta Information Service Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-03-27
Anticipated expiration: 2039-11-28
Also published as: CN110928994B

Abstract

本申请公开了一种相似案例检索方法、相似案例检索装置和电子设备。该相似案例检索方法包括：接收待检索案例，其包括与案例相关的文本描述和多媒体文件的至少其中之一；对所述文本描述进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成文书解析结果；对所述多媒体文件进行语义化处理，以生成语义解析结果；以及，基于所述待检索案例的文书解析结果和语义解析结果与案件库中案例的文书解析结果和语义解析结果进行匹配，以获得检索结果。这样，基于多模型、多颗粒度、多模态语义并结合争议焦点解析进行相似案例检索，增加了搜索结果和提高了匹配精度。

Description

相似案例检索方法、相似案例检索装置和电子设备

技术领域

本申请涉及检索技术领域，尤其是涉及一种相似案例检索方法、相似案例检索装置和电子设备。

背景技术

相似案例检索是利用数据处理技术，对公开的裁判文书做挖掘分析、为办案法官、当事人、律师推送直接相关的指导性或参考性的相似案例。精准高效的相似案例检索将极大提高办案质量与效率。

现有一些针对于相似案例检索的技术方案，但这些技术方案或多或少存在一些技术问题，例如，搜索结果少、匹配精度低等，无法满足当下对于相似案例检索的需求。

因此，期望提供改进的相似案例检索方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种相似案例检索方法、相似案例检索装置和电子设备，其基于多模型、多颗粒度、多模态语义并结合争议焦点解析进行相似案例检索，以增加搜索结果和提高匹配精度。

根据本申请的一方面，提供了一种相似案例检索方法，包括：

接收待检索案例，其中，所述待检索案例包括与案例相关的文本描述和多媒体文件的至少其中之一；

对所述文本描述进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果；

对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果；以及

基于所述待检索案例的文书解析结果和语义解析结果与案件库中案例的文书解析结果和语义解析结果进行匹配，以获得检索结果。

在上述相似案例检索方法中，对所述文本描述进行争议焦点解析、要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果，包括：对所述文本描述进行内容解析以进行段落识别；以及，对识别的段落进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果。

在上述相似案例检索方法中，对识别的段落进行多模型语义处理，包括：基于多种预训练语言模型对各所述段落进行上下文语义解析，以生成各所述段落的多源语义表示。

在上述相似案例检索方法中，所述预训练语言模型包括ELMO、GPT、BERT、MASS、UNILM、ERNIE1.0、ERNIE(THU)、MTDNN、ERNIE2.0、SpanBERT、RoBERTa、XLNet、XLM预训练语言模型。

在上述相似案例检索方法中，对识别的段落进行多颗粒度语义处理包括：基于特定语言模型对识别的段落进行多颗粒度语义处理，以将各所述段落拆分成基于词向量的隐主题列表。

在上述相似案例检索方法中，对识别的段落进行多颗粒度语义处理包括：基于多层图卷积网络对识别的段落进行多颗粒度语义处理，以生成各所述段落的不同层次的向量表示。

在上述相似案例检索方法中，所述多媒体文件包括图片、语音和视频。

在上述相似案例检索方法中，对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果包括：对所述图片进行语义化处理，以生成所述图片的语义表示；对所述语音进行语义化处理，以生成所述语音的语义表示；以及，对所述视频进行语义化处理，以生成所述视频的语义表示。

在上述相似案例检索方法中，所述案件库的构建过程包括：对所述案件库中各案例的文本描述进行内容解析以进行段落识别；对识别的段落进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述案例的文书解析结果；以及，对所述案例中的多媒体文件进行语义化处理，以生成所述案例的语义解析结果。

根据本申请的另一方面，提供了一种相似案例检索装置，包括：

检索查询单元，用于接收待检索案例，其中，所述待检索案例包括与案例相关的文本描述和多媒体文件的至少其中之一；

文书解析单元，用于对所述文本描述进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果；

语义解析单元，用于对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果；以及

检索结果生成单元，用于基于所述待检索案例的文书解析结果和语义解析结果与案件库中案例的文书解析结果和语义解析结果进行匹配，以获得检索结果。

在上述相似案例检索装置中，所述文书解析单元用于：对所述文本描述进行内容解析以进行段落识别；以及，对识别的段落进行争议焦点解析、要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果。

在上述相似案例检索装置中，所述文书解析单元用于：基于多种预训练语言模型对各所述段落进行上下文语义解析，以生成各所述段落的多源语义表示。

在上述相似案例检索装置中，所述文书解析单元用于：基于特定语言模型对识别的段落进行多颗粒度语义处理，以将各所述段落拆分成基于词向量的隐主题列表。

在上述相似案例检索装置中，所述文书解析单元用于：基于多层图卷积网络对识别的段落进行多颗粒度语义处理，以生成各所述段落的不同层次的向量表示。

在上述相似案例检索装置中，所述语义解析单元用于：对所述图片进行语义化处理，以生成所述图片的语义表示；对所述语音进行语义化处理，以生成所述语音的语义表示；以及，对所述视频进行语义化处理，以生成所述视频的语义表示。

在上述相似案例检索装置中，进一步包括案件库构建单元，用于：对所述案件库中各案例的文本描述进行内容解析以进行段落识别；对识别的段落进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述案例的文书解析结果；以及，对所述案例中的多媒体文件进行语义化处理，以生成所述案例的语义解析结果。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的相似案例检索方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的相似案例检索方法。

本申请提供的提供的相似案例检索方法、相似案例检索装置和电子设备，能够基于多模型、多颗粒度、多模态语义并结合争议焦点解析进行相似案例检索，以增加搜索结果和提高匹配精度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的相似案例检索方法的流程图。

图2图示了根据本申请实施例中预训练语言模型的工作范式的流程图。

图3图示了根据本申请实施例中多颗粒度语义处理的一种方法的流程图。

图4图示了根据本申请实施例中多颗粒度语义处理的另一种方法的流程图。

图5图示了根据本申请实施例的相似案例检索方法的应用示例的示意性流程图。

图6图示了根据本申请实施例的相似案例检索装置的框图。

图7图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，现有一些针对于相似案例检索的技术方案，但这些技术方案或多或少存在一些技术问题，例如，搜索结果少、匹配精度低等，无法满足当下对于相似案例检索的需求。

具体来说，现有技术中，通常使用关键词或者关键词组合的匹配来检索相似裁判文书(或者说，相似案例)，同时结合诸如案由、法院名称、审判程序、裁判日期等预设条件对检索结果进行过滤。关键词检索如果采用精确匹配，则匹配案件数量较少；如果采用包括同义词、近义词等关键词的模糊匹配，则可能导致匹配案件过多，搜索精度下降。并且，关键词检索忽略了法律专业领域知识，没有体现司法逻辑。

在中国专利CN106502996A中提出了一种基于词频-单词反比频率(TF-IDF)的语义匹配裁判文书检索方法，通过调整词在文档和整个文本集中的权重来提高检索结果的相关度。这种技术方案的优点是非常简单高效，但是，缺点也非常明显：它对法律文书这类长文本术语的支持不友好，并且，重要司法逻辑没有被反应出来，因此，检索结果精度不高。

在中国专利CN106933787A中提出了一种计算裁判文书相似度的方法。具体来说，其首先提取每篇文书的判决关键词，然后构造判断关键词向量，最后通过计算向量的相似度得到裁判文书的相似度。该方法仅考虑了裁判文书的判断结果部分，忽略了裁判文书中证据、事实、争议焦点、因果关系、适用法条等关键的司法逻辑部分，因此案件相似度计算和检索很难达到司法实务要求。

在中国专利CN105930473A中提出了一种基于随机森林技术的相似文件检索方法。具体来说，其通过构建案件的特征树，采用随机森林技术训练，得到特征权重树，然后根据查询条件生成两两案件的相似度矩阵。该方法高度依赖于精准的案件特征提取(在该专利中并未具体涉及)，并且，在实际案件审判过程中，案件特征往往是交织的，用树的形式很难表达。

在中国专利CN108038091A中提出了一种基于图的裁判文书案件相似计算、检索的方法与系统。该方法识别裁判文书中的说理部分，然后解析说理部分的案件要素，生成案件事理图谱。在匹配时根据输入的图谱解析结果和案件库中案例图谱解析结果相匹配，并输出相关度最高的案例。但是，该方法并没有说明是否所有输入都能解析出知识图谱结果，而事实上也是不可能的，也就是说，该方法有一定的适用局限性。

纵观上述现有技术，可发现上述方法都是基于单一信息源来进行相似案例检索，导致其在实际应用中都具有检索结果较少，匹配精度较低的问题。

针对上述问题，本申请的基本构思是整合多种相似案例检索思路，并结合多颗粒度、多模型、多模态语义处理技术和基于法律专业领域知识所筛选的特定判别维度来进行构建相似案例检索方法，从而能够有效地克服现有方法中单一方法导致的搜索结果较少、匹配精度较低的问题。

基于此，本申请提出的相似案例检索方法，相似案例检索装置和电子设备首先接收待检索案例，其中，所述待检索案例包括与案例相关的文本描述和多媒体文件的至少其中之一；然后，对所述文本描述进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果；接着，对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果；最后，基于所述待检索案例的文书解析结果和语义解析结果与案件库中案例的文书解析结果和语义解析结果进行匹配，以获得检索结果。

这样，通过基于多模型、多颗粒度、多模态语义并结合争议焦点解析进行相似案例检索，可以增加搜索结果和提高匹配精度。

值得一提的是，本申请的上述基本构思还可以应用于其他标准化的相似文件的检索方案中，例如，相似招投标书，相似合同书等。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的相似案例检索方法的流程图。如图1所示，根据本申请实施例的相似案例检索方法，包括：S110，接收待检索案例，其中，所述待检索案例包括与案例相关的文本描述和多媒体文件的至少其中之一；S120，对所述文本描述进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果；S130，对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果；以及，S140，基于所述待检索案例的文书解析结果和语义解析结果与案件库中案例的文书解析结果和语义解析结果进行匹配，以获得检索结果。

在步骤S110中，接收待检索案例，其中，所述待检索案例包括与案例相关的文本描述和多媒体文件的至少其中之一。这里，待检索案例可以是在办案件、用于检索教学的范例案件等。与案例相关的文本描述表示用于表述案件内容的文本内容，包括但不限于起诉书、起诉状、答辩状、审查报告、庭审笔录、判决结果等。与案例相关的多媒体文件包括但不限于作为证据的图片、语音、视频等。

在步骤S120中，对所述文本描述进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果。具体来说，在本申请实施例中，该文本解析过程，首先包括对所述文本描述进行内容解析以进行段落识别，然后，对识别的段落进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果。

更具体地说，在法律专利知识领域，争议焦点是当事人之间产生纠纷之后需要解决的主要问题，其包括引起争议的事实、证据、法律规定、责任等方面的主要问题。应可以理解，争议解决在表现形式上是问题的形式，既然是问题，就可以用“是否”、“如何”等语言进行描述，例如，“合同是否生效”、“是否构成侵权”、“如何确定责任”等，这也是司法实践中的法律文书中常见的表达方式，因此，可以作为机器自动识别法律文书中争议焦点的重要参考。并且，争议焦点是“主要问题”，其主要性体现在影响案件的处理结果，与案件处理结果无关的争议问题不在争议焦点之列。

应可以理解，抓住案件中争议焦点是当事人争议的焦点所在，是案件审判中不可回避的问题，也是法律文书中“执案件之牛耳”的重要抓手。因此，在本申请实施例中，基于法律专业领域知识将争议焦点的解析作为判别相似案例的重要维度，或者说，将争议焦点作为判断两个案例相似的主要参考点。

在具体实施中，争议焦点的获取可以是人工提炼的，也可以是通过机器自动识别。在一种可能实现的方式中，可基于已有的案例和争议焦点的样例，通过机器学习训练出提取争议焦点的模型，以对新的案件应用该模型自动识别并提取出争议焦点。

相应地，在本申请实施例中，对识别的段落进行法律要素解析。在一种可能的实现方式中，可基于所述段落中的说理部分(如果存在的话)，解析出说理部分的要素，生成案件事理图谱。或者，同样可行的是，可基于所述段落中的判决部分，解析出判断部分的要求，生成案件的判决图谱。当然，在其他方式中，还可以对所述段落中其他部分进行解析，以提取出案件的要素，对此，并不为本申请所局限。在具体实施中，法律要素的解析可基于人工提取或基于机器自动识别的方式提取(例如，通过训练完成的自然语言处理模型)。

相应地，在本申请实施例中，对识别的段落进行关键词提取。在一种可能的实现方式中，可所述段落进行分词，生成基于TF-IDF的关键词向量。

相应地，在本申请实施例中，对识别的段落进行多模型语义处理的过程，包括：基于多种预训练语言模型对各所述段落进行上下文语义解析，以生成各所述段落的多源语义表示。具体来说，回顾基于深度学习的NLP(Natual Language Processing，自然语言处理)技术的重大进展，从时间轴来看，主要包括：NNLM(2003)、Word Embeddings(2013)、SeqToSeq(2014)、Attention(2015)、Memory-based Networks(2015)、Transformer(2017)、BERT(2018)、XLNet(2019)。细微来看，2019年NLP进展趋势主要包括：预训练语言模型、低资源NLP任务(迁移学习/半监督学习/多任务学习/主动学习)、模型可解释性、更多任务和数据集，其中，预训练语言模型已经形成了一种新的NLP范式：使用大规模文本语料库进行预训练，对特定任务的小数据集微调，降低单个NLP任务的难度，如图2所示。

预训练思想的本质是模型参数不再是随机初始化，而是通过一些任务(如语言模型)进行预训练，预训练属于迁移学习的范畴。相应地，预训练语言模型主要是指无监督预训练语言任务(有时也成为自学习或者自监督)，迁移的范式主要为特征集成和模型精调。

从技术发展来看，语言模型表示序列文本的联合概率分布，为降低对长文本的概率估算难度，刚开始通常使用一个简化的n-gram模型。为缓解n元语言模型概率估计时遇到的数据系数问题，提出了神经网络语言模型NNLM，其中，该模型的第一层参数可用作词向量表示。因此，词向量可看作是NNLM的一个副产品。而Word2vec通过一些优化技巧专注于词向量的产生，后来的Glove词向量是通过共现语料库矩阵进行高效分解产生的，Glove也可看作是更换了目标函数和权重函数的全局Word2vec。但是，Word2vec、Glove等模型所产生的词向量为静态词向量，上述语言模型未考虑一词多义，也无法理解复杂语境。而本申请所涉及的预训练语言模型，其可产生上下文相关的特征表示(或者说，动态词向量)。也就是说，在本申请实施例中，Word2Vec等能够产生词向量的语言模型并没有被纳入到预训练语言模型的范畴中，虽然WordVec可看作语言模型但其更关注于词向量的产生，而本申请所涉及的预训练语言模型表示能够产生上下文相关的特征表示的语言模型。

随着ELMO/GPT/BERT等预训练语言模型在NLP任务取得SOTA结果，之后又开发了一系列新的预训练语言模型，其包括但不限于MASS、UNILM、ERNIE1.0、ERNIE(THU)、MTDNN、ERNIE2.0、SpanBERT、RoBERTa、XLNet、XLM等。当然，本领域普通技术人员应可以理解，本申请实施例的所述预训练语言模型还可以是之后基于上述技术思路发展出的新预训练语言模型，对此，并不为本申请所局限。

在本申请实施例中，通过多种预训练语言模型对各所述段落进行上下文语义解析，以生成各所述段落的多源语义表示。也就是说，通过不同的预训练语言模型代表句子或者段落语义的不同表示，它们构成了所述待检索案例的文本描述的多源语义信息。为了便于理解和说明，在本申请实施例中，一个语言片段对应的语义信息可用如下公式表示：

其中，R_i表示一种预训练语言模型的一句话的语义表示，i表示从1到n的正整数,n代表n种模型，W_i是权重，其中，权重可以通过训练获得，也可以以人工经验指定。

相应地，在本申请实施例中，对识别的段落进行多颗粒度语义处理。设置该语言处理的目的为：用户输入的文本长度变化比较大，短的可能只有几个或者数十个单词，长的可能有几百个甚至上千个词，在这种情况下，需要将输入的文本描述分成具有多重颗粒度的几段文本。

图3图示了根据本申请实施例中多颗粒度语义处理的一种方法的流程图。如图3所示，该多颗粒度语义处理方法的核心在于将文档拆分成基于词向量的隐主题列表，其中，各主题之间的权重是不同的。更具体地说，如图3所示，该方法首先包括对长文档和概述进行预处理，以生成重新定义的长文档和概述，然后基于重新定义的长文档生成隐主题列表，接着，建立隐主题列表和重新定义的概述之间的映射关系，以进行匹配。

图4图示了根据本申请实施例中多颗粒度语义处理的另一种方法的流程图。如图4所示，该多颗粒度语义处理方法的核心为基于多层图卷积网络对识别的段落进行多颗粒度语义处理，以生成各所述段落的不同层次的向量表示。

也就是说，在本申请实施例中，对识别的段落进行多颗粒度语义处理，包括：基于特定语言模型对识别的段落进行多颗粒度语义处理，以将各所述段落拆分成基于词向量的隐主题列表，或者，基于多层图卷积网络对识别的段落进行多颗粒度语义处理，以生成各所述段落的不同层次的向量表示。当然，本领域普通技术人员应可以理解，还可以采用其他多颗粒度语言处理模型对输入的文本描述进行处理，对此，并不为本申请所局限。

在步骤S130中，对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果。如上所述，在本申请实施例中，所述多媒体文件包括与案件相关的图片、语音、视频等。相应地，在本申请实施例中，对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果，包括：对所述图片进行语义化处理，以生成所述图片的语义表示；对所述语音进行语义化处理，以生成所述语音的语义表示；以及，对所述视频进行语义化处理，以生成所述视频的语义表示。也就是说，在本申请实施例中，除了对待检索的案例进行文本解析之外，还对所述待检索案例中所包含的其他模态的信息进行语义化处理，以生成所述待检索案件的多模态信息。

本领域普通技术人员应知晓，每一种信息的来源或者形式，都可以称为一种模态，例如，人有触觉、听觉、视觉、嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外探测器、加速度计等，以上每一种都可以称为一种模态。在本申请实施例中，除了对所述待检索案例中的文本描述进行解析之外，还对所述待检索案例中所包含的图片、语音和视频进行语义化解析。

具体来说，对图片进行语义化处理需要用到图像识别技术。在一种可能的实现方式中，可基于卷积神经网络模型对所述待检索案例中的图片进行识别，并生成所述图片的语义表示。对视频进行语义化处理的过程，也称为视觉语义化，其可以让机器从看清到看懂视频，并提炼出结构化语义知识。视觉语义化技术首先识别人、物体和场景，同时捕捉它们之间的行为和关系，通过时序化、数字化、结构化的方式形成语义知识，最终结合领域和场景进行智慧推理，落地行业应用。未来，视觉语义化技术还可进一步延展，它结合新型的传感器和AI芯片，可以在感知层面和计算层面得到大幅提升，结合智能终端可以带给用户更佳地使用体验。对语音进行语义化处理的过程需要用到语音识别技术，语音技术的升级可以让机器更好地听懂世界。在一种可能的实现方式中，可基于循环神经网络模型对所述待检索案例中的语音进行处理，以生成所述语音的语义表示。值得一提的是，在本申请递交的时候，基于远场的语音语义一体化技术已取得突破，可为业界提供更顶尖的远场语音技术，语音语义一体化技术将在远场交互中的高频Query识别准确率提升10个点，并且能保持普通Query识别率不降。

在步骤S140中，基于所述待检索案例的文书解析结果和语义解析结果与案件库中案例的文书解析结果和语义解析结果进行匹配，以获得检索结果。这里，返回的检索结果可以是与待检索案例相似度最高的前预设数量的案例。

值得一提的是，在本申请实施例中，所述案件库基于步骤S110至步骤S130所揭露的技术思想进行构建。具体来说，在本申请实施例中，所述案件库的构建，包括：首先，对所述案件库中各案例的文本描述进行内容解析以进行段落识别；然后，对识别的段落进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述案例的文书解析结果；进而，对所述案例中的多媒体文件进行语义化处理，以生成所述案例的语义解析结果。

综上，基于本申请实施例的相似案例检索方法被阐明，其整合多种相似案例检索思路，并结合多颗粒度、多模型、多模态语义处理技术和基于法律专业领域知识所筛选的特定判别维度来进行构建相似案例检索方法，从而能够有效地克服现有方法中单一方法导致的搜索结果较少、匹配精度较低的问题。

图5图示了根据本申请实施例的所述相似案例检索方法的应用示例的示意性流程图。如图5所示，所述相似案例检索过程包括：首先对采集的裁判文书进行文书段落识别、文书相关视频解析、文书相关音频解析和文书相关图片解析，其中，文书段落解析包括争议焦点解析、文书要素解析、文书关键词提取、文书多模型语义生成和文书多颗粒度语义生成，以生成所述裁判文书的文本解析结果和语义解析结果并存储至文书库。进而，在接收到用户输入的待检索案例后，基于多模型语义多颗粒度多模态语义匹配，以返回与待检索案例相似度最高的前预设数量的案例作为检索结果。

以上，虽然以相似案例检索方法为示例，本领域普通技术人员应可以理解，本申请的上述基本构思还可以应用于其他相似文件的检索方案中，例如，相似招投标书，相似合同书等，对此，并不为本申请所局限。

示例性装置

图6图示了根据本申请实施例的检索装置的框图。

如图6所示，根据本申请实施例的检索装置600，包括：检索查询单元610，用于接收待检索案例，其中，所述待检索案例包括与案例相关的文本描述和多媒体文件的至少其中之一；文书解析单元620，用于对所述文本描述进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果；语义解析单元630，用于对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果；以及，检索结果生成单元640，用于基于所述待检索案例的文书解析结果和语义解析结果与案件库中案例的文书解析结果和语义解析结果进行匹配，以获得检索结果。

在一个示例中，在上述检索装置600中，所述文书解析单元620，进一步用于：对所述文本描述进行内容解析以进行段落识别；以及，对识别的段落进行争议焦点解析、要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果。

在一个示例中，在上述检索装置600中，所述文书解析单元620，进一步用于：基于多种预训练语言模型对各所述段落进行上下文语义解析，以生成各所述段落的多源语义表示。

在一个示例中，在上述检索装置600中，所述文书解析单元620，进一步用于：基于特定语言模型对识别的段落进行多颗粒度语义处理，以将各所述段落拆分成基于词向量的隐主题列表。

在一个示例中，在上述检索装置600中，所述文书解析单元620，进一步用于：基于多层图卷积网络对识别的段落进行多颗粒度语义处理，以生成各所述段落的不同层次的向量表示。

在一个示例中，在上述检索装置600中，所述多媒体文件包括与待检索案例相关的图片、语音和视频。

在一个示例中，在上述检索装置600中，所述语义解析单元630，进一步用于：对所述图片进行语义化处理，以生成所述图片的语义表示；对所述语音进行语义化处理，以生成所述语音的语义表示；以及，对所述视频进行语义化处理，以生成所述视频的语义表示。

在一个示例中，在上述检索装置600中，所述检索装置600，还包括案件库构建单元650，用于：对所述案件库中各案例的文本描述进行内容解析以进行段落识别；对识别的段落进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述案例的文书解析结果；以及，对所述案例中的多媒体文件进行语义化处理，以生成所述案例的语义解析结果。

这里，本领域技术人员可以理解，上述检索装置600中的各个单元和模块的具体功能和操作已经在上面参考图1至图5的相似案例检索方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的检索装置600可以实现在各种终端设备中，例如大屏智能设备，或者独立于大屏智能设备的计算机等。在一个示例中，根据本申请实施例的检索装置600可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该检索装置600可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该检索装置600同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该检索装置600与该终端设备也可以是分立的设备，并且该检索装置600可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的相似案例检索方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如文本解析结果、语义解析结果等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括检索结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的相似案例检索方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的相似案例检索方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种相似案例检索方法，其特征在于，包括：

2.根据权利要求1所述的相似案例检索方法，其中，对所述文本描述进行争议焦点解析、要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果包括：

对所述文本描述进行内容解析以进行段落识别；以及

对识别的段落进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述待检索案例的文书解析结果。

3.根据权利要求2所述的相似案例检索方法，其中，对识别的段落进行多模型语义处理，包括：

基于多种预训练语言模型对各所述段落进行上下文语义解析，以生成各所述段落的多源语义表示。

4.根据权利要求3所述的相似案例检索方法，其中，所述预训练语言模型包括ELMO、GPT、BERT、MASS、UNILM、ERNIE1.0、ERNIE(THU)、MTDNN、ERNIE2.0、SpanBERT、RoBERTa、XLNet、XLM预训练语言模型。

5.根据权利要求1所述的相似案例检索方法，其中，对识别的段落进行多颗粒度语义处理，包括：

基于特定语言模型对识别的段落进行多颗粒度语义处理，以将各所述段落拆分成基于词向量的隐主题列表。

6.根据权利要求1所述的相似案例检索方法，其中，对识别的段落进行多颗粒度语义处理，包括：

基于多层图卷积网络对识别的段落进行多颗粒度语义处理，以生成各所述段落的不同层次的向量表示。

7.根据权利要求1所述的相似案例检索方法，其中，所述多媒体文件包括图片、语音和视频。

8.根据权利要求7所述的相似案例检索方法，其中，对所述多媒体文件进行语义化处理，以生成所述待检索案例的语义解析结果，包括：

对所述图片进行语义化处理，以生成所述图片的语义表示；

对所述语音进行语义化处理，以生成所述语音的语义表示；以及

对所述视频进行语义化处理，以生成所述视频的语义表示。

9.根据权利要求1所述的相似案例检索方法，其中，所述案件库的构建过程包括：

对所述案件库中各案例的文本描述进行内容解析以进行段落识别；

对识别的段落进行争议焦点解析、法律要素解析、关键词提取、多模型语义处理和多颗粒度语义处理，以生成所述案例的文书解析结果；以及

对所述案例中的多媒体文件进行语义化处理，以生成所述案例的语义解析结果。

10.一种相似案例检索装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

处理器；以及存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在所述处理器运行时使得所述处理器执行如权利要求1-9任一所述的相似案例检索方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如权利要求1-9任一所述的相似案例检索方法。