CN110674252A

CN110674252A - 一种面向司法领域的高精度语义搜索系统

Info

Publication number: CN110674252A
Application number: CN201910790424.5A
Authority: CN
Inventors: 丁锴; 王开红; 张云云
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2020-01-10

Abstract

一种面向司法领域的高精度语义搜索系统，包括数据层、词分析层、句分析层、句特征层和应用层，所述数据层包括数据采集和结构化，用于收集司法数据和结构化数据；所述词分析层包括细粒度切词和新词发现，用于实现文本正确切分为词语；用于基于已切分词进行词性分析，按司法场景去除干扰词，并进一步提取句子的关键词，建立关键词汇表；所述句特征层，用于提取句子特征；所述应用层，用于基于所述句子特征定义相关性，实现文本搜索。

Description

一种面向司法领域的高精度语义搜索系统

技术领域

本发明属于自然语言处理领域，涉及一种面向司法领域的高精度语义搜索系统。

背景技术

截至2019年2月，中国裁判文书网已公开裁判文书超过5600万篇。这些裁判文书为众多法律从业人员及广大群众提供了重要的参考资料。同时，海量信息为服务于智慧司法领域的人工智能的研发、服务机构数据库的建设提供了重要的数据来源，在过去的几年里，面向法检、律师、企业、大众等不同群体的检索、管理软件、办案系统、辅助工具、法律咨询、智能分析报告等产品接连推出。其中，搜索引擎作为管理和检索数据的重要手段，是智慧司法领域的关键技术。

针对文本的基础搜索系统是实现搜索功能的最小系统，包括数据存储，文本特征提取和文本匹配功能。数据存储是为了保存文本数据库，它限定着搜索对象的范围，数据库越大，可能的搜索结果越准确，但同时搜索难度越高。文本特征提取包括去噪声，分词，文本特征提取和向量化功能，此环节是影响搜索精确度的关键环节。文本匹配常采用数据库遍历，计算与搜索目标距离最小的文本对象。为提高用户体验，一般要求实时返回搜索结果，并且结果越准确越好。文本匹配环节的关键是向量距离定义，它直接决定搜索效率，也部分影响着搜索精度。

最简单的搜索引擎可以使用普通数据库甚至文档存储文本数据，然后使用字符或者关键词，利用倒排索引的方式进行索引构建和文本匹配。这种结构的优点是速度快，扩展性好，目前大多数搜索引擎都使用这种架构，例如最经典的基础搜索系统Lucene及其衍生的全文搜索系统ElasticSearch等。但这种结构搜索精度不高，提高精度的手段有限。另外一种方法是使用文本特征向量的方法，将文本转换成定长向量，然后通过向量距离进行相似搜索。此方法的优点是精度较高，因为文本特征提取通常使用深度学习模型。缺点是模型学习需要的前期数据准备工作较多，并且由于特征维度较高，数据密集，引起匹配计算量大，通常查询数据被限制在百万级。一旦超过此数量级，检索时间较长，用户体验差。

发明内容

为了克服现有技术中存在的不足，本发明在于提供了一种搜索精度大幅度提高、系统轻量化、降低人力成本的面向司法领域的高精度语义搜索系统。

本发明采用的技术方案是：

一种面向司法领域的高精度语义搜索系统，包括数据层、词分析层、句分析层、句特征层和应用层，其特征在于：

所述数据层包括数据采集和结构化，用于收集司法数据和结构化数据；

所述词分析层包括细粒度切词和新词发现，用于实现文本正确切分为词语；

所述句分析层，用于基于已切分词进行词性分析，按司法场景去除干扰词，并进一步提取句子的关键词，建立关键词汇表；

所述句特征层，用于实现提取句子特征；

所述应用层，用于基于所述句子特征定义相关性，实现文本搜索。

进一步，所述司法数据包括裁判文书、调解协议书、法律问答数据、法律法规，并通过杰卡德距离定义文本相似度，设定相应阈值，文本相似度高于此阈值的样本被剔除；所述结构化数据是根据司法文本提取的结构化数据，包括案情信息、当事人信息，时间地点信息等。

进一步，所述词分析层进行细粒度切词和新词发现的步骤包括：

采用细粒度切分策略，将长词切分开；

用新词发现算法重建词汇表，实现细粒度切分词的再合并获得新词；

将新词添加到切词工具的自定义词典中，然后对文本进行重新分词，为提取关键词做准备。

进一步，所述新词发现采用基于互信息和相邻熵结合的算法，分别设定互信息和相邻最小熵阈值，同时满足两个阈值条件的词语被判定为新词。

进一步，所述句分析层建立关键词汇表的方法包括：

对所述词分析层的结果进行词性分析，识别出名词、动词、形容词、副词的句子成分，并且区分名词中的人名和组织名，基于所述词性分析结果，订立噪声词黑名单；

连接同类别的多条文本，提取关键词，构建关键词汇表，作为判断提取关键词是否为真的标准。

进一步，所述句特征层是基于语义的句子特征提取，包括采用关键词语义均值提取wv句子向量和采用优化BERT模型提取sv句子向量。

进一步，所述wv句子向量采用关键词word2vec的均值方法计算；所述优化BERT模型的优化方法包括：1)截取编码器部分，并在编码器末端增加均值全连接层，使其生成固定长度的向量；2)对预训练模型进行了精调训练。

进一步，所述句特征层还包括长文判断单元，若判断为长文，则提取长文语义向量，通过提取关键句并对关键句向量加权合成，包括wv长文向量和sv长文向量。

进一步，所述长文判断，可以根据断句符、文本长度、文书类型等预先设定长文判断标准。

进一步，所述长文语义向量通过提取关键句并对关键句向量加权合成的方法包括：

将长文分割成句子，并计算每个句子的句子向量；

将每个句子作为节点，利用句子向量距离计算节点间距离，形成距离矩阵；

使用特征分解的方法计算特征值，特征值越高，句子越关键；

以特征值为权值，并取特征值之和大于预设阈值的若干句子为关键句，对关键句向量进行加权合并，得到长文语义向量。

进一步，所述应用层的文本搜索采用层级搜索的方法，包括：

第一层进行基于关键词的粗检索；

第二层进行基于语义向量和关键词结合的精搜索，其中精搜索融合表达式为：

式中wv，sv分别表示wv句子向量和sv句级向量，下标q表示用户输入，下标s表示数据库中的某一样本，sim为使用余弦距离计算的向量相似度，越小表示越相似。

本发明使用两者结合的搜索架构，利用粗搜索+精搜索的方法，结合两者的优点，构建搜索更为精准且速度无明显降低的搜索引擎。粗搜索与精搜索结构的搜索引擎已有相关成果，例如搜狗搜索引擎等。相比现有搜索系统，本发明有以下特点：

1.大部分模块使用无监督和自监督智能算法，无需大量人工标注工作，前期数据准备难度较低，保证整体系统所需的人力成本较低。

2.本系统是一个轻量化的搜索系统，在基础搜索系统上，仅增加了新词发现，句子特征向量及一些有益于搜索精度的技巧，即保证能达到与有监督深度学习搜索系统接近的高精度，又保证系统的轻量化。

3.系统各模块有机衔接，帮助搜索精度在传统引擎基础上大幅提高。

附图说明

图1是本发明的系统架构示意图。

图2是本发明的文本数据库预处理及向量计算流程示意图。

图3是本发明的搜索引擎总流程示意图。

具体实施方式

下面结合具体实施例来对本发明进行进一步说明，但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到，本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。

专业术语解释

Bert算法：Bert算法是一种预训练语言表示的方法，在大量文本语料上训练了一个通用的“语言理解”模型，然后用这个模型去执行各类下游子任务。

jieba分词：jieba是一个基于Python的中文分词工具，可用于中文句子/词性分割、词性标注、未登录词识别，支持用户词典等功能。

word2vec：谷歌2013年提出的词嵌入模型，是目前最常用的文本表示模型之一，可以将单词转换成向量形式。

参照图1-3，本实施例提供了一种面向司法领域的高精度语义搜索系统，包括数据层、词分析层、句分析层、句特征层和应用层，所述数据层包括数据采集和结构化，用于收集司法数据和结构化数据；所述词分析层包括细粒度切词和新词发现，用于实现文本正确切分为词语；所述句分析层，用于基于已切分词进行词性分析，按司法场景去除干扰词，并进一步提取句子的关键词，建立关键词汇表；所述句特征层，用于提取句子特征；所述应用层，用于基于所述句子特征定义相关性，实现文本搜索。

本实施例所述一种面向司法领域的高精度语义搜索系统主要包括两处理部分：文本数据库预处理及向量计算、和搜索引擎。

具体步骤如下：1.文本数据库归集和结构化。首先，收集尽可能多的数据，数据库越大，其包含的词汇越丰富，数据也更为多样，就为特征词汇整理和搜索打好了基础。但同时，数据量大意味着冗余数据较多，引起搜索效率降低，需剔除这些的样本。采用杰卡德距离定义文本相似度，并设定阈值，文本相似度高于此阈值的样本被剔除，本实施例中阈值为0.95。其次，文本数据通常是非结构化的，需使用正则化的方法，提取司法文本中的地点，时间，当事人，案情信息等，为后续分析提供方便。

2.细粒度切词和新词发现：首先，制定切词策略；由于文本搜索系统常常使用关键词作为搜索对象，关键词对搜索结果的影响较大，因此要保证在切词步骤中，关键词能正确切分。词语切分算法较为成熟，例如条件随机场算法等无监督算法，还有基于RNN等的有监督算法。成熟的分词工具包括Jieba，Hanlp，pkuseg等，这些分词工具的分词准确率在95％以上。通常这些工具带有自定义词表，此词汇表来源于日常文本，例如新闻，百科等，准确率也基于相同语料统计得出。这些自定义词表若直接用于司法等专业领域，词汇的切分错误率较高，因此，要采用细粒度切分策略，将长词切分开，后续再依据规则合并。其次，采用新词发现算法重建词汇表，实现细粒度切分词的再合并。新词发现采用基于互信息和相邻熵结合的算法，所谓的互信息指某词的各字符或者词直接联合概率和单独概率的比值，表达式为：

其中，PMI表示互信息，P(.)表示概率，x，y分别表示组成新词的两个字符或词，例如x为‘债权’，y为‘人’，xy为‘债权人’。互信息可以很好的表示两个词合成新词的概率，其值越大，表示两个词越应该合成一个词，而不是两个独立词。与此同时，还需考虑相邻熵。相邻熵表示相邻词的多样性，例如左侧相邻熵表达式为：

其中，xy为待认定新词，A表示和xy左侧相邻的词的集合，a为A中的一个词，P表示概率。相邻熵越大表示xy作为合成词的概率越大。最后，分别设定互信息和相邻最小熵阈值，同时满足两个阈值条件的词语被判定为新词。

获得新词后，要将新词添加到切词工具的自定义词典中，然后对文本进行重新分词，为提取关键词做准备。

3.基于批量信息的自动关键词汇表构建：对文本进行搜索时，为避免文本长短不一和长文本非特征词误匹配问题，需定义文本关键词表。常用关键词汇表是人工整理的，这种方式无法用于海量数据，为此提出一种自动关键词汇表构建方法。

首先，在新词发现和正确切词的基础上，使用条件随机场等通用算法进行词性分析，识别出名词，动词，形容词，副词等句子成分，并且区分名词中的人名和组织名。基于词性分析结果，订立黑名单，例如，人名、组织名等在类案推荐和法律知识问答应用中是噪声词。词性分析可以剔除大部分非关键词汇。其次，使用基于批量信息的关键词提取算法构建关键词汇表。由于司法文本长短不一，特别是调解案情描述，法律问题咨询等，传统算法如tf-idf和textrank算法对于短句无法提取关键词。如果先将同类别的多条文本连接起来，再用传统方法提取关键词，则关键词正确提取概率大幅提高。这里，同类别指大类别相同，例如婚姻类，在数据采集时，此类别信息已被预先保留。最后，使用已构建的关键词汇表，作为判断提取关键词是否为真的标准。例如使用传统算法提取若干个疑似关键词，如果在关键词汇表中存在某疑似关键词，那么此疑似关键词被确认为关键词，反之，认定为非关键词。

4.文本语义向量：最小搜索系统仅提取关键词，并利用词频等特征计算文本的向量，这种方法未考虑词的语义及位置关系，存在很多错误。例如，‘欠钱’‘欠债’不考虑语义的情况下会被误认是不同的词，‘什么是’和‘是什么’不考虑位置关系也被误认是不同的词。为降低同义异形词和语序变化引起的句子特征向量误差，使用基于语义的句子特征提取方法。语义特征提取分两种情况，句子语义向量和长文语义向量。长文指类似裁判文书等，包括多个段落的样本。

1)句子语义向量：本发明采用关键词语义均值和深度学习算法相结合的方式计算句子向量。具体是利用关键词word2vec的均值方法计算wv句子向量，使用BERT模型计算sv句子向量。

这里word2vec是词汇转向量的常用算法，它能够结合上下文信息，计算两个词之间的语义相关性。例如：‘欠钱’和‘欠债’，其上下文大概率出现‘不还钱’，‘借钱’等，从而认定这两个词非常相似，其向量间距离也应当很小。Word2vec通常需要一个较大的数据集进行预训练，我们使用最高法院发布的裁判文书数据集进行模型训练。得到模型后，将提取的关键词转换成向量，并计算向量均值，记为wv句子向量。

接着，采用BERT模型生成句子语义向量，此模型包括编码器和解码器两个部分，分别对应训练语料的条件句和标注结果句，常用于序列标注，上下文推理和阅读理解等问题。

为了用于生成句子向量，对模型做了两个调整：1.截取了编码器部分，并在编码器末端增加均值全连接层，使其生成固定长度的向量。2.对预训练模型进行了精调训练(finetune)，BERT的预训练时使用百科语料库训练库，对法律类语料支持不好。BERT是与word2vec相似的自监督预训练算法，不同之处在于BERT使用双向自注意模型，双向模型充分利用语序的顺序和逆序两种特征，改善了形如‘什么是’和‘是什么’的位置变换引起的向量误差。记为sv句子向量。

2)长文语义向量：由于实际场景下文本库中样本长短差异大，使用句子向量不能精确度量样本的相关度。针对此问题，这里使用向量加权合成的方法，首先，分割句子，并计算每个句子的句子向量。其次，将每个句子做为节点，利用句子向量距离计算节点间距离，形成距离矩阵。假定长文被切分为n个句子，就可以计算n*n的距离方阵。然后，使用特征分解的方法计算特征值，特征值越高，句子越关键；最后，以特征值为权值，并取特征值之和大于0.85的若干句子为关键句，对关键句向量进行加权合并，得到长文向量。长文向量同样区分wv向量和sv向量，以wv句子向量计算的长文向量记为wv长文向量，否则记为sv长文向量。

5.层级搜索：整合上游的分析层，特征层算法，数据库中的样本已转换成定长向量。用户输入一段文本，希望搜索类似文本，或者搜索问题答案，要经过以下步骤：首先，将用户输入文本处理成句子向量，句子向量计算要进行分词，关键词提取和语义特征提取，重复了前文所述的过程。然后，在整个数据库中找出匹配项(针对问答，要找出相关问题)，即向量匹配。对百万级以上数据量，遍历整个数据库进行向量匹配的计算量很大，搜索效率低，用户体验差，针对此问题，采用层级搜索的方法。第一层进行基于关键词的粗搜索，利用词袋模型和倒排索引，找出与搜索语句最相关的若干项。这一过程在数据库内完成，常用数据库Elasticsearch和Postgresql等都内嵌了倒排索引的搜索引擎。仅需将文本数据导入数据库并配置好分词工具和关键词表即可。第二层进行基于语义向量和关键词结合的精搜索，实际是对粗搜索的重新排序。精搜索融合表达式为：

式中wv，sv分别表示wv句子向量和sv句子向量，下标q表示用户输入，下标s表示数据库中的某一样本，sim为使用余弦距离计算的向量相似度，越小表示越相似。当用户输入和某样本的相似度小于0.1时，可近似为完全一致。

本发明的一种具体应用，基于语义匹配的问答系统，它通过搜索问题库中与用户问题相似的问题，返回对应答案。

步骤1.文本数据库准备：爬取和整理4万余条法律咨询以及相关法律法规。去除高度相似的条目，共得到3万余条问答对。问答对形式如下：

问题1 答案1

问题2 答案2

。。。。。。

步骤2.新词提取：首先，使用分词工具将3万条问答对中的句子切分成尽可能细粒度的词，如下句和分词结果：

‘什么是债务参加和债务并存，并存的债务承担有哪些特征’

‘什么是债务参加和债务并存，并存的债务承担有哪些特征’......

然后，将互信息阈值设为50，信息熵阈值设为2.0，对问答数据库进行计算。

得到新发现词如下：

不同意不存在不符合与案外人专向分期额度世雅公司丘某丙公司业主代表业主们

业主委员会东永堂东浩公司东贸公司两份两次两被告严某严静债务并存债务参加

中为公司中冶公司中原公司中原物业中富公司中廉公司

其中，仅‘与案外人’不是正确的分词，可看出此算法效果较好。将新词加入分词工具，作为专业词汇，可使分词工具按新词表正确分词。新的分词结果如下：

步骤3，建立关键词表：针对民间借贷法律咨询，我们使用词性分析+textrank的方法提取关键词。首先，对句子分词，并识别人名，组织名等特定名词。常用的词性分析模型能正确找出94％左右的人名地名组织名，例如hanlp分词工具自带的CRFSegmenter模块。接着，使用基于批量文本的关键词提取方法，提取关键词；最后，进行重复词过滤及人工复检。人工复检指针对数词和漏识别的人名组织名等。针对司法等垂直领域，其关键词数量通常只有几千个，人工复检工作量不大。如果是开放搜索引擎，例如百度等，人名等实体名也为关键词，关键词汇数量达百万级，此情况不适合进行人工筛选。

最终的关键词表如下，表第一列显示问题所属法律的类型，第二列为关键词：

步骤4，文本语义向量计算分为句子向量计算和关键句提取两个部分。

1)句子向量计算：由词级向量和句级向量组合而成，其中词级向量由关键词的词向量组合而成。例如，某句子提取了若干关键词w1，w2等，对应的词向量为wdv1，wdv2，以均值方式合并成句子向量，表达式为：

式中n为关键词数量，wv为词级句子向量。

句级向量采用BERT算法计算，但我们对算法结构做了两个调整：1.仅截取编码器部分，通过在编码器末端增加均值全连接层，使其生成固定长度为768维的句子向量。2.对BERT的预训练模型进行精调训练，使用了裁判文书语料，保证精调后的模型对法律类文本精度更高。精调训练是迁移学习的常用方法，指的是用预训练模型参数作为初始化条件，替代随机产生的初始模型参数，从而在新训练语料上快速收敛速度的方法。精调训练通常在语料较大，从零训练模型耗时较长且收敛性不好的情况下使用。

2)关键句提取：本步骤仅针对长文，首先，通过句号等断句符以及句子长度等判断样本是否是长文；也可根据文书类型判断是否长文，例如裁判文书即是长文，调解文书和法律咨询问题通常为短文本。其次，将分好的句子进行向量计算，每个句子转换成固定长度向量。接着，提取关键句，并计算关键句权值，按重要程度排序，得到最关键的几个句子，对关键句向量进行加权合并，得到长文语义向量。下表为针对裁判文书的关键句提取示例，将一篇长文压缩为5句关键句。仅从关键句仍可看出当事人，事故主责，乘客受伤，第三者责任险，索赔金额等信息，基本可以覆盖文书的主要内容。

步骤5，采用层级搜索方法，找出与用户问题最相关的问答对。首先进行粗搜索，仅利用关键词匹配的方法在数据库中找到500条相关条目。例如，用户问题为‘合同一方将合同的权利、义务转让给第三人的应符合哪些规定’，提取关键词‘合同’‘权利’‘义务’‘第三人’‘转让’‘规定’，那么包含这个关键词的一个或者多个的问题样本都可能是粗搜索结果。实际得到的相关问题如下表左列。

用户问题的意图是搜索‘合同转让’，粗搜索结果中既有合同转让又有债权等的转让，与用户问题的一致性较差。精搜索使用句向量wv和句向量sv组合的方式计算相关性，对粗搜索结果的重新排序，结果如表中右列。从对比结果看，粗搜索结果中，仅第一项与原问题一致，精搜索结果的前四项与原问题一致，搜索精度大大提高。

步骤6：答案推荐：经过以上5个步骤，可以找到与搜索问题相关的问题列表。由于语言习惯的随机性，同一个问题有很多种表达方式，例如：’高利贷是什么’，’什么是高利贷’，’高利贷的标准’，’高利贷的定义’...数据库中的问题无法穷尽列举相关问题，所以，无法简单地用最相似的匹配问题的答案作为用户问题的答案，而是需加入若干规则。我们用精搜索中的SIM值表示用户提问与数据库问题列表的相关性，按实际情况定义四种规则：第一，如果sv向量距离小于阈值0.1，此时用户问题与问题列表中某问题高度一致，直接推出答案列表对应元素。第二，sv向量距离和wv向量距离不一致，sv向量距离较大，wv向量距离较小。此时推出相似问题列表，需用户进行选择。第三，sv向量和wv向量距离一致，且SIM小于阈值(设定为0.02)。此时，用户问题与问题列表某元素比较一致，同样直接推出答案列表对应元素。第四，sv向量和wv向量距离一致，但综合距离大于某阈值。此时，用户问题与问题列表所有元素差异明显，推出相似问题列表，需用户进行选择。

Claims

1.一种面向司法领域的高精度语义搜索系统，包括数据层、词分析层、句分析层、句特征层和应用层，其特征在于：

所述句特征层，用于提取句子特征；

2.根据权利要求1所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述司法数据包括裁判文书、调解协议书、法律问答数据、法律法规，并通过杰卡德距离定义文本相似度，设定相应阈值，文本相似度高于此阈值的样本被剔除；所述结构化数据是根据司法文本提取的结构化数据，包括案情信息、当事人信息，时间地点信息。

3.根据权利要求1所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述词分析层进行细粒度切词和新词发现的步骤包括：

采用细粒度切分策略，将长词切分开；

4.根据权利要求3所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述新词发现采用基于互信息和相邻熵结合的算法，分别设定互信息和相邻最小熵阈值，同时满足两个阈值条件的词语被判定为新词。

5.根据权利要求1至4任意一项所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述句分析层建立关键词汇表的方法包括：

6.根据权利要求1所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述句特征层是基于语义的句子特征提取，包括采用关键词语义均值提取wv句子向量和采用优化BERT模型提取sv句子向量。

7.根据权利要求6所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述wv句子向量采用关键词word2vec的均值方法计算；所述优化BERT模型的优化方法包括：1)截取编码器部分，并在编码器末端增加均值全连接层，使其生成固定长度的向量；2)对预训练模型进行了精调训练。

8.根据权利要求6所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述句特征层还包括长文判断单元，若判断为长文，则提取长文语义向量，通过提取关键句并对关键句向量加权合成，包括wv长文向量和sv长文向量；所述长文判断，可以根据断句符、文本长度、文书类型预先设定长文判断标准。

9.根据权利要求8所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述长文语义向量通过提取关键句并对关键句向量加权合成的方法包括：

将长文分割成句子，并计算每个句子的句子向量；

10.根据权利要求1所述的一种面向司法领域的高精度语义搜索系统，其特征在于：所述应用层的文本搜索采用层级搜索的方法，包括：

第一层进行基于关键词的粗检索，利用词袋模型和倒排索引，找出与搜索语句最相关的若干项；

式中wv，sv分别表示wv句子向量和sv句子向量，下标q表示用户输入，下标s表示数据库中的某一样本，sim为使用余弦距离计算的向量相似度，越小表示越相似。