CN113515621B - 数据检索方法、装置、设备及计算机可读存储介质 - Google Patents

数据检索方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113515621B
CN113515621B CN202110362344.7A CN202110362344A CN113515621B CN 113515621 B CN113515621 B CN 113515621B CN 202110362344 A CN202110362344 A CN 202110362344A CN 113515621 B CN113515621 B CN 113515621B
Authority
CN
China
Prior art keywords
vector
search
information
keyword
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110362344.7A
Other languages
English (en)
Other versions
CN113515621A (zh
Inventor
周献杭
杨敏
申妍燕
贺倩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deli Technology Co ltd, Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Deli Technology Co ltd
Priority to CN202110362344.7A priority Critical patent/CN113515621B/zh
Publication of CN113515621A publication Critical patent/CN113515621A/zh
Application granted granted Critical
Publication of CN113515621B publication Critical patent/CN113515621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据检索方法、装置、设备及计算机可读存储介质,该数据检索方法应用于数据检索系统,数据检索系统设有信息输入层、案由分配层以及输出层,包括:通过信息输入层获取检索数据,并将检索数据转换成低维向量;基于案由分配层对低维向量进行筛选,得到检索数据的匹配信息;使用输出层将匹配信息进行聚合排序,得到检索数据的分类结果。通过上述方式,本申请能够及时对获取检索数据进行匹配排序处理,从而快速提升匹配效果。

Description

数据检索方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及法律检索领域,特别是涉及一种数据检索方法、装置、设备及计算机可读存储介质。
背景技术
近年来,随着通用搜索引擎技术的快速发展,如何快速准确地从大量信息中得到符合用户要求的信息已经成为迫切的需求,各行各业的专用搜索引擎研究应运而生。由于法律领域文献包含较多司法专家长期实践、总结、汇总的专业术语和复杂的结构表达,因此如果能够利用检索语句分析出相关的案由信号,得到文书案由和关键词的关联信息,对后续的检索效果提升有积极作用。
信息检索的发展紧随跟用户需求的发展与变化,随着更深入全面的交互产生,用户对搜索引擎提出了理精细的用户需求。最近的研究将法律判决归为文本分类问题,着重于通过事实描述从固定标签集中选择有利于结果判断的标签,来对判决结果进行预测。
目前,在有监督的深度检索模型中,往往利用抽象的数据表示方式捕捉单词的语义信息,并通过神经网络来捕获检索语句与文档集之间的特征。让模型对特征进行自动学习并通过参数调整和优化损失函数得到收敛的模型,再将匹配信息通过输出层得到检索结果。此类模型的训练依赖于大量的标注数据,通过对标注信息的学习来提高模型的指标,但针对特定的法律检索领域,获取大量的标注信息需要进行查找,费时费力。
发明内容
本申请实施例的第一方面提供了数据检索方法,该数据检索方法应用于数据检索系统,数据检索系统设有信息输入层、案由分配层以及输出层,包括:通过信息输入层获取检索数据,并将检索数据转换成低维向量;基于案由分配层对低维向量进行筛选,得到检索数据的匹配信息;使用输出层将匹配信息进行聚合排序,得到检索数据的分类结果。
本申请实施例的第二方面提供了一种检索装置,应用于数据检索系统,数据检索系统设有信息输入层、案由分配层以及输出层,包括:获取模块,用于通过信息输入层获取检索数据,并将检索数据转换成低维向量;筛选模块,连接获取模块,用于基于案由分配层对低维向量进行筛选,得到检索数据的匹配信息;聚合排序模块,连接筛选模块,用于使用输出层将匹配信息进行聚合排序,得到检索数据的分类结果。
本申请实施例的第三方面提供了一种检索设备,包括:处理器和存储器,存储器中存储有计算机程序,处理器用于执行计算机程序以实现本申请实施例第一方面提供的方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序能够被处理器执行时实现本申请实施例第一方面提供的方法。
本申请的有益效果是:区别于现有技术的情况,本申请针对目前法律领域的检索技术,通过数据检索系统设置信息输入层、案由分配层以及输出层,是基于深度学习的无监督法律案由检索模型,通过信息输入层、案由分配层以及输出层之间信息处理之间的相互配合,无监督检索模型有效地解决了前期在法律领域缺乏标注数据导致匹配效果不佳的问题,使得本申请能够及时对获取检索数据进行匹配排序处理,从而快速提升匹配效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请数据检索方法第一实施例的框架示意图;
图2是本申请数据检索方法第二实施例的流程示意图;
图3是图2中步骤S11一具体实施例的流程示意图;
图4是图2中步骤S11另一具体实施例的流程示意图;
图5是图2中步骤S12一具体实施例的流程示意图;
图6是图2中步骤S12另一具体实施例的流程示意图;
图7是图6中步骤S55一具体实施例的流程示意图;
图8是图6中步骤S55另一具体实施例的流程示意图;
图9是图8中步骤S73中案由树的结构示意图;
图10是图2中步骤S13一具体实施例的流程示意图;
图11是本申请的检索装置一实施例的示意框图;
图12是本申请的检索设备一实施例的示意框图
图13是本申请的计算机可读存储介质一实施例的示意框图;
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
在法律信息检索领域中,通常用户会给定一个法律相关的问题描述,模型通过匹配算法快速检索得到最相关的法律案由信息。法律领域案由是对案情和法律争议内容的高度概括,利用返回的案由信息,检索模型可以快速地缩小检索范围,提升检索准确率,降低响应时间;检索系统可以针对性地设置筛选条件,返回案件适用的法律条文和规范,提升检索服务的全面性和友好性。
本申请提出了一种无监督法律案由分类器,通过传统信息检索方法,利用检索语句和法律文书在词组级别上的匹配信号来减少分词错误带来的误差;利用注意力机制得到检索语句和案情描述的匹配信号,从而得到关于案由的匹配信息。利用本申请得到的案由数据可以缩小法律文献检索时的匹配范围,提高文献检索的准确率和速度;帮助法律从业人员进行案件分析和司法统计;也可帮助非法律从业人员针对案情进行检索,得到适用法律条文及规范,具有广泛的应用场景。
由于此申请所提供的数据检索方法使用场景常在多样性,其数据检索方法对涉及的法律检索技术的应用场景广泛,因此,在本申请中可以以一个典型的场景无监督深度检索的应用为例,为了说明本申请的技术方案,下面可以通过具体实施例来进行说明。本申请第一实施例提供一种数据检索方法,该数据检索方法应用于数据检索系统,数据检索系统设有信息输入层、案由分配层以及输出层,请参阅图1,图1是本申请数据检索方法第一实施例的框架示意图;本申请提出了一种基于深度学习的无监督法律案由分类器,可作为法律领域的信息检索工具,提高文书模型的检索能力。检索模型共包含三个层级,相应的结构如图1所示,信息输入层处理用户的输入数据并转换成可被模型理解和使用的低维向量表示;案由匹配层从两个方向分别利用词语层级和词组层级的匹配信号来筛选匹配的案由信息;输出层将匹配层的输出案由信息进行聚合排序并转换成自然语言输出,从而准确地案由分类结果。
本申请主要由三个部分组成,分别为信息输入层、案由匹配层和输出层。
第一部分,输入层。首先对用户输入的检索信息和数据库法律文书中本院认为的案情信息进行分词预处理并通过词向量将中文表达射到连续低维的向量空间,得到检索信息和文档内容的向量表达。
第二部分,匹配层,主要利用两种方式进行案由匹配。
一方面将输入层得到的检索向量和文档向量以向量内积的方式得到两者的相关性交互矩阵。然后将检索向量和文档向量中的每个词语在相关性矩阵中使用注意力机制得到词语的注意力信号。将原始向量,注意力向量采用向量拼接的方式得到修正后的向量表示。然后将修正后的检索向量和文档向量重新进行内积得到修正后的相关性交互矩阵。通过对矩阵进行平均池化操作得到词组层级的案由匹配信号。然后使用最大池化操作得到每个检索词语的向量表达。最后利用检索词的逆文档频率的加权求和得到最终排名得分。
另一方面,将输入层得到的检索向量和文档向量输入传统的BM25模型,得到检索关键词在不同文档中重要性量化指标。BM25算法是一种基于概率检索模型提出的算法,可以用来评价搜索语句和文档之间的相关性。当某个词在一个文档中出现的次数较多,则该词和文档更相关。但是词频和相关性之间的关系是非线性的,当出现的次数达到一个阈值后,其影响不再线性增长。因此通过将包含关键词的各文档进行逆文档频率的加权求和并乘以文档长度处罚因子计算BM25得分,按得分排序得到匹配的案由数据。最后通过案由树利用案由的层级信息得到修正后的排列顺序。
第三部分,输出层。对于匹配层得到的两类案由数据,设置不同的权重分别聚合两者案由排序信息,从而得到最终的案由输出。
因此,本申请针对法律领域的案由检索,结合传统的BM25检索方法,利用检索语句和法律文书在词组级别上的匹配信号来减少分词错误带来的误差;利用注意力机制过滤检索语句和案情描述的噪声数据并得到匹配信号,通过信号聚合得到输出的匹配信息,有针对性地提出了基于深度学习的无监督法律案由检索模型,得到案由数据对法律文书的检索提供有效的支持,提高文献检索的准确率和速度。
本申请第二实施例还提供一种数据检索方法,该数据检索方法应用于数据检索系统,数据检索系统设有信息输入层、案由分配层以及输出层,请参阅图2,图2是本申请数据检索方法第一实施例的流程示意图,该方法包括以下具体步骤:
S11:通过信息输入层获取检索数据,并将检索数据转换成低维向量;
一般来讲,检索系统设置有信息输入层,比如检索系统上的搜索框,用于获取检索数据。在获取检索数据之前,通常这其中会使用到数据传输协议,比如Https协议,经过数据传输协议的转换,可以通过信息输入层获取检索数据,检索数据主要有两方面的数据,一方面可以是用户以自然语言输入的检索语句,另一方面还可以是从数据库中获取的法律文档,具体将在下文进行详细描述。
在获取检索数据之后,因为检索数据通常是高纬度数据,而高维度数据的维度代表着数据的属性,为了更好地对检索数据的处理,通常可以将检索数据转换成低维向量,以提升对检索数据的处理速度。
对于获取检索数据的方式,可以是通过检索系统上的搜索框输入的文字,也可以是通过语音识别,还可以是通过拍照所识别的文字,具体可以根据实际需求进行选择,此处不做限定。
S12:基于案由分配层对低维向量进行筛选,得到检索数据的匹配信息;
由于信息输入层连接着案由分配层,检索数据经过转换,得到低维向量,也即检索数据可以被拆分成多个词以及词组,并且将这些词以及词组输入到案由分配层。
为了得到较为精准的检索结果,由于得到的词以及词组有多个,基于案由分配层,可以对低维向量进行筛选,将不必要的词以及词组进行删除,得到较为关键的词以及词组。
在筛选的过程中,具体地,比如通常搜索的一句自然语言“婚姻中的抚养纠纷”,通过案由分配层的筛选,可以将“婚姻”、“抚养纠纷”进行提取和处理,也就把“中的”这种不必要的词进行删除,从而得到检索数据的匹配信息。
S13:使用输出层将匹配信息进行聚合排序,得到检索数据的分类结果。
案由分配层连接输出层,案由分配层可以将检索数据的匹配信息传输给输出层,使用输出层对匹配信息进行聚合排序,可以快速地找到权重靠前的分类结果,从而可以得到检索数据的分类结果。
因此,本申请针对目前法律领域的检索技术,通过数据检索系统设置信息输入层、案由分配层以及输出层,是基于深度学习的无监督法律案由检索模型,通过信息输入层、案由分配层以及输出层之间信息处理之间的相互配合,无监督检索模型有效地解决了前期在法律领域缺乏标注数据导致匹配效果不佳的问题,使得本申请能够及时对获取检索数据进行匹配排序处理,从而快速提升匹配效果。
更进一步地,通过信息输入层获取检索数据,并将检索数据转换成低维向量,请参阅图3,图3是图2中步骤S11一具体实施例的流程示意图,具体包括以下步骤:
S21:通过信息输入层获取用户输入的检索语句;
因为在检索系统中,设置有信息输入层,所以可以通过信息输入层获取用户输入的检索信息,比如检索语句,比如以自然语言形式。另外,通过信息输入层,也可以获取数据库法律文书中本院认为的案情信息作为获取的检索语句。
其中,对于获取检索语句的方式,可以是通过检索系统上的搜索框输入的自然语言,也可以是通过语音识别得到的检索语句,还可以是通过拍照所识别的文字词组形成的检索语句,具体可以根据实际需求进行选择,此处不做限定。
S22:利用检索语句模型对检索语句进行分词处理,以减少检索数据中的噪声信息;
由于以自然语言输入的检索语句,通常是面向人所得到的面向对象语言,因此对于用户来讲可读性强,但这种可读性强的检索语句并不能被检索模型直接识别,因此,需要利用检索语句模型对检索语句进行分词处理,将检索语句进行切分,也即分词处理。
在大多数应用中,词是一个比较合适的语义粒度。实际应用中,不仅会使用词粒度的语义分割方式,还会使用短语粒度和字粒度去补充词粒度建模的不足。相对于词粒度来说,字粒度的词汇表一般比较小,这使得字粒度的单个字语义表示的精确性相比词粒度更低,但同时会使得字粒度能更好地建模训练语料中出现次数少的词(Rare Words)或词表中没有的词(Out-Of-Vocabulary Words)。
具体地,通过检索语句模型对检索语句可以利用HanLP分词工具进行分词处理,以减少检索数据中的噪声信息,比如以减少停用词和通用词带来的噪声信息。
S23:从分词处理后的检索语句提取第一检索关键词;
通过检索语句模型对用户输入的检索语句进行分词处理,可以得到停用词、通用词、重复词、第一检索关键词等词,比如得到第一检索关键词x={x1,…,xi,…xm},其中x1,…,xi,…xm分别不同的关键词。
为了进一步地对第一检索关键词进行处理,可以从分词处理后的检索语句中提取第一检索关键词,为后续处理提供可靠的检索依据。
S24:将第一检索关键词转换成第一低维向量。
通常在检索系统中,设置有转换第一检索关键词的工具,比如通用领域词向量专业领域词向量,采用通用领域词向量/>对提取的第一检索关键词进行统一转换,或者采用专业领域词向量对提取的第一检索关键词进行专业领域转换。
当然,本领域技术人员也可以采用其他的工具对第一检索关键词进行转换,具体不做限定,使第一检索关键词的各检索关键词转换成第一低维向量qerm×k,从而得到第一低维向量表达qerm×k=[x1,…,xi,…xm]。
其中|V|表示词向量词表的大小,维度为k。m表示检索语句向量中第一检索关键词的个数,xi表示检索语句中第i个第一关键词的向量表示,其维度为k。
更进一步地,通过信息输入层获取检索数据,并将检索数据转换成低维向量,请参阅图4,图4是图2中步骤S11另一具体实施例的流程示意图,具体包括以下步骤:
S31:通过信息输入层获取数据库中的法律文书的检索信息;
由于法律领域文献包含较多司法专家长期实践、总结、汇总的专业术语和复杂的结构表达,从而形成法律文书中描述案情客观事实以及裁判观点的认为信息。
案件事实,事情的真实情况,即客观真理,包括事物、事件、事态,即客观存在的一切物体与现象。而认为信息通常是指基于法律文书中描述案情客观事实而推导出的信息。
因此,通过信息输入层获取的检索信息,也可以是数据库中的法律文书提取其中描述案情客观事实以及裁判观点的本院认为信息。
S32:利用检索语句模型对检索数据进行分词处理,得到第二检索关键词;
此步骤与图3中的步骤S22相类似,此处不再赘述。
S33:词嵌入第二检索关键词,得到第二低维向量。
通过分词处理,可以得到第二低维向量,比如案由及文档关键词信息y={cause,y1,…yj,…yn}。
然后,通过对第二检索关键词采用词嵌入,可以得到第二低维向量表达docn×k,其中得到第二低维向量表达为docn×k=[y1,…yj,…yn]。其中,n表示文档向量中关键词的个数,yi表示文档中第j个关键词的向量表示,其维度为k。
更进一步地,基于案由分配层对低维向量进行筛选,得到检索数据的匹配信息,请参阅图5,图5是图2中步骤S12一具体实施例的流程示意图,具体包括以下步骤:
S41:将第一低维向量的第一元素以及第二低维向量的第二元素进行余弦相似度计算,得到词组相关性交互矩阵;
从上文可以看出,因为第一低维向量qerm×k和的元素以及第二低维向量docn×k中的元素均有多个,所以比如可以提取第一低维向量germ×k中的第一元素以及提取第二低维向量docn×k中的第二元素。
通过将第一低维向量qerm×k的第一元素以及第二低维向量docn×k的第二元素进行元素两两余弦相似度计算,可以得到词组相关性交互矩阵Mm×n,其中第i行第j列的元素记做Mi×j,如式(1)所示,表示检索关键词向量xi和文档关键词向量yj的相似性,值越接近1表示两者越相关,接近0表示不相关。
Mi×j=cos(xi,yj) (1)
S42:将词组相关性交互矩阵结合预设关键词向量进行处理,得到匹配信息。
检索系统中设置有预设关键词向量,用于对得到的词组相关性交互矩阵Mm×n进行进一步的处理,以使得到修正后的第一低维向量qerm×k以及修正后的第二低维向量docn×k
并且基于修正后的第一低维向量qerm×k以及修正后的第二低维向量docn×k,结合预设关键词向量,为了弥补词语匹配的缺陷,对词组相关性交互矩阵Mm×n进行处理,得到检索数据的匹配信息。
更进一步地,将词组相关性交互矩阵结合预设关键词向量进行处理,得到匹配信息,请参阅图6,图6是图2中步骤S12另一具体实施例的流程示意图,具体包括以下步骤:
S51:通过词组相关性交互矩阵,计算第一低维向量得到第一注意力表达向量,以及计算第二低维向量得到第二注意力表达向量;
得到词组的交互矩阵Mm×n后,计算第一低维向量比如检索语句关键词向量xi,得到第一注意力表达向量,记作xi att,如式(2)所示;并且计算第二低维向量比如文档关键词向量yj的注意力表达向量,得到第二注意力表达向量,记作yi att,如式(3)所示。
S52:对第一注意力表达向量与第一预设关键词向量进行哈达马积运算,得到第一哈达马积向量,以及对第二注意力表达向量与第二预设关键词向量进行哈达马积运算,得到第二哈达马积向量;
在数学中,哈达马积(Hadamard乘积,也称为逐元素乘积或Schur乘积)是一种二进制运算,它用两个具有相同维数的矩阵产生另一个具有相同维数的矩阵作为操作数,其中每个元素i,j是原始两个矩阵的元素i,j的乘积。
检索系统中设置有第一预设关键词向量,用于对第一注意力表达向量xi att进行哈达马积运算,并且第二预设关键词向量,用于对第二注意力表达向量yj att进行哈达马积运算,其中第一预设关键词向量与第二预设关键词向量可以不同,比如分别为原始关键词向量xi,yj
具体地,通过对第一注意力表达向量xi att与第一预设关键词向量xi进行哈达马积运算,得到第一哈达马积向量,如式(4)所示,以及通过对第二注意力表达向量yi att与第二预设关键词向量yj进行哈达马积运算,得到第二哈达马积向量/>,如式(5)所示。
S53:将第一预设关键词向量、第一注意力表达向量、第一哈达马积向量进行向量拼接,得到第一关键词向量,以及将第二预设关键词向量、第二注意力表达向量、第二哈达马积向量进行向量拼接,得到第二关键词向量;
然后,将第一预设关键词向量xi、第一注意力表达向量xi att、第一哈达马积向量进行向量拼接,得到第一关键词向量/>,如式(6)所示,以及将第二预设关键词向量yj、第二注意力表达向量yj att、第二哈达马积向量/>进行向量拼接,得到第二关键词向量/>如式(7)所示。
其中分别表示检索语句中第i个关键词和文档中第j个关键词修正后的向量表示,其维度为k,如式(8)以及式(9)所示。
其中,第一关键词向量为修正后的第一低纬向量qerm×k,第二关键词向量为修正后的第二低纬向量docn×k
S54:将第一关键词向量以及第二关键词向量相互计算余弦相似度,得到修改后的词组相关性交互矩阵;
从上文可以看出,因为修正后的第一低维向量qerm×k和的元素以及修正后的第二低维向量docn×k中的元素同样有多个,所以比如可以提取修正后的第一低维向量qerm×k中的元素以及提取修正后的第二低维向量docn×k中的元素。
通过将修正后的第一低维向量的元素以及修正后的第二低维向量/>的元素进行元素两两余弦相似度计算,可以得到修正后的词组相关性交互矩阵/>其中第i行第j列的元素记做/>如式(10)所示:
S55:利用窗口对修改后的词组相关性交互矩阵进行平均池化操作,得到匹配信息。
由于法律领域包含较多司法专家长期实践、总结、汇总的专业术语和复杂的结构表达,这些词语搭配在分词时已被分割开,分析孤立的词语难以捕获原先的词组传递的含义。
因此为了弥补词语匹配的缺陷,利用窗口对修正后的词级相关性交互矩阵进行平均池化操作,如此,可以得到匹配信息。
更进一步地,利用窗口对修改后的词组相关性交互矩阵进行平均池化操作,得到匹配信息,请参阅图7,图7是图6中步骤S55一具体实施例的流程示意图,具体包括以下步骤:
S61:利用窗口内的元素均值代替预设词语表达;
检索系统中,设置有预设词语表达以及窗口,对于修正后的词组相关性交互矩阵进行平均池化操作。
为了弥补词语匹配的缺陷,对修正后的词组相关性交互矩阵进行平均池化操作,利用窗口内的元素均值代替预设词语表达。具体地,比如滑动窗口为2×2,则可以利用窗口内四个元素的均值代替原先单一词语的表达。
平均池化输出词组层级交互矩阵如式(11)所示,其中第i行第j列的元素记做/>
S62:对修改后的相关性交互矩阵进行行方向的池化操作,得到修改后的相关性交互矩阵的各行关键词向量;
对修改后的相关性交互矩阵进行行方向的池化操作,具体地,对词组层级交互矩阵/>进行行方向的最大池化操作,得到修改后的相关性交互矩阵/>的各行的关键词向量,记作vecphrase=[vec1,…,veci,…,vecm-1]。
S63:输出各行关键词向量,得到词组层级匹配的案由向量信息。
输出各行关键词向量vecphrase=[vec1,…,veci,…,vecm-1],得到词组层级匹配的案由向量信息,作为词组级别的输出。其中veci表示第i行池化操作的输出,如式(12)所示:
更进一步地,基于案由分配层对低维向量进行筛选,得到检索数据的匹配信息,请参阅图8,图8是图2中步骤S55另一具体实施例的流程示意图,具体包括以下步骤:
S71:利用预设公式,对第一低维向量以及第二低维向量与数据库中的法律文档进行计算,得到与法律文档的相关性得分;
BM25算法由三个核心的概念组成,词语在文档中相关度、词语在查询关键字中的相关度以及词语的权重。利用预设公式,对第一低维向量qerm×k以及第二低维向量docn×k与数据库中的法律文档进行计算,得到与法律文档的相关性得分。
具体地,当第一低维向量qerm×k代表检索语句向量,而第二低维向量docn×k代表法律文档向量时,对输入层得到的检索语句和文档的向量表示利用以下公式计算检索语句和各文档的BM25得分,如式(13)所示:
其中N表示数据库中文档的总数;表示包含关键词向量xi的文档数;|doc|表示文档的长度;f(xi,|doc|)表示关键词向量xi在文档中出现的频率;avg|doc|表示数据库中文档的平均长度;k1,b为指定的调节参数,b用来调节文档长度和与平均长度比值的影响程度,默认为0.75,k1用来确定词频饱和的特征点,可以限制单一的词向量能够对给定文档的得分的影响程度。
S72:根据相关性得分,提取法律文档的案由信息,得到案由数据;
BM25算法将对检索语句与数据库中所有文档计算相关性得分,为了提取合适的案由信息,预设法律文档的案由信息的个数为k个,记录前k个法律文档的案由信息为topk。
提取topk个法律文档的案由信息做为输出的案由数据,记作causeword,如式(14)所示:
causeword=[c1,…,ci,…ck] (14)
S73:将案由数据输入预设案由树中,与预设数量个案由信息进行拼接,以得到词语层级匹配的案由向量得分信息。
检索系统中设置有预设案由树,用于对输入预设案由树中的案由数据与预设数量个案由信息进行拼接,从而得到词语层级匹配的案由向量得分信息。
具体地,将按词语层级匹配得到的案由causeword输入到预先利用案由信息建立的案由树中,案由树结构如9所示,图9是图8中步骤S73中案由树的结构示意图。遍历树的结点信息,获取各叶子案由结点的父节点,输出具有最多父节点的案由结点并与原先的案由信息进行拼接作为最终案由匹配的输出,如式(15)所示:
causeword=[cparent,c1,…,ci,…ck] (15)
更近一步地,使用输出层将匹配信息进行聚合排序,得到检索数据的分类结果,请参阅图10,图10是图6中步骤S55另一具体实施例的流程示意图,具体包括以下步骤:
S81:将案由向量信息中的向量利用词语的逆文档频率进行加权求和,得到法律文档的词组案由得分信息;
具体地,匹配层得到按照词组层级匹配的案由向量信息vecphrase和利用BM25算法得到的词语层级匹配的案由向量得分信息causeword。将vecphrase中的向量利用词语的逆文档频率进行加权求和得到最终各文档的排名得分causeword,如式(16)以及式(17)所示:
causephrase=[score1,…,scorei,…,scorek] (16)
然后,将词组案由得分信息以及案由向量得分信息按照预设权重进行划分与拼接,得到分类结果。
具体地,可如步骤S82以及步骤S83所示:
S82:从词组案由得分信息以及案由向量得分信息中,提取预设数量个案由信息的对应个数案由;
具体地,将词组层级匹配得到的案由信息causephrase和词语层级匹配得到的案由信息causeword,按照α,β,α+β=1的权重划分从两个案由信息中共取topk个相关案由,也即提取预设数量个案由信息的对应个数案由。
S83:按对应个数对词组案由得分信息以及案由向量得分信息进行拼接,得到分类结果。
具体地,对提取的预设数量个的词组层级匹配得到的案由信息causephrase和对应预设数量个的词语层级匹配得到的案由信息causeword进行拼接,得到分类结果,然后作为案由匹配最终的输出。
因此,本申请检索方法的三个关键点在于:
1.本申请在传统词语检索的基础上建立了词组层级的匹配网络利用注意力机制减少外部噪声信息对匹配的干扰,对检索语句和文档信息的相关信息进行准确的匹配。
2.本申请在词组层级的匹配网络上利用平均池化提取词组特征、利用最大池化提取匹配特征,能够对检索语句和文档中法律领域的特定表达进行匹配,从而提升匹配效果。
3.本申请为无监督模型,从而解决了标注数据获取困难无法进行模型训练的问题。
本申请利用检索语句和法律文书在词组级别上的匹配信号来减少分词错误带来的误差;利用注意力机制减少检索语句和文档集之间的噪声信息;构造案由树来将案由划分成树状层次结构,利用更小的匹配区间来减轻数据不平衡造成的错误匹配信号。
本申请为基于深度学习的无监督法律案由检索模型。可作为法律文献检索工具提升文献检索的速度和准确率,也可以利用检索结果帮助法律从业人员进行案件分析和司法统计。
本申请相对于目前检索结果较好的有监督深度学习模型提出了一种基于深度学的无监督法律案由检索模型,具有以下优点:
1.本申请为无监督检索模型有效地解决了前期在法律领域缺乏标注数据导致匹配效果不佳的问题。
2.本申请结合传统检索模型并利用双池化网络,通过平均池化提取词组特征、最大池化提取匹配特征。通过词组匹配有效提高了传统模型仅利用词语匹配的检索效果。
为了验证本申请检索方法的有效性,该检索方法利用《中国裁判文书网》公开的法律案例文书作为检索对象集合,法律领域从业人员及学生从婚姻家事、债权债务、知识产权、基础设施、劳动纠纷、房地产和投资并购七个真实场景提出共计816个问题进行案由检索。该检索方法在平均精度均值MAP指标达到了0.788,第一个召回结果准确率达到了0.646和前三个召回结果准确率0.685,在类似无监督检索模型中处理领先。经过法律领域专业人士的人工审核,该检索方法的无监督法律案由检索模型对检索问题的案由能够较为准确的识别。
另外,本申请第二方面还提供一种检索装置1,该检索装置1应用于数据检索系统,数据检索系统设有信息输入层、案由分配层以及输出层,请参阅图11,图11是本申请的检索装置一实施例的示意框图,具体包括以下模块:
获取模块11,用于通过信息输入层获取检索数据,并将检索数据转换成低维向量;
筛选模块12,连接获取模块11,用于基于案由分配层对低维向量进行筛选,得到检索数据的匹配信息;
聚合排序模块13,连接筛选模块12,用于使用输出层将匹配信息进行聚合排序,得到检索数据的分类结果。
因此,本申请针对目前法律领域的检索技术,通过数据检索系统设置信息输入层、案由分配层以及输出层,是基于深度学习的无监督法律案由检索模型,通过信息输入层、案由分配层以及输出层之间信息处理之间的相互配合,无监督检索模型有效地解决了前期在法律领域缺乏标注数据导致匹配效果不佳的问题,使得本申请能够及时对获取检索数据进行匹配排序处理,从而快速提升匹配效果。
进一步地,请参见图12,图12是本申请检索设备一具体实施例的示意图。本申请实施例提供一种检索设备2,包括:处理器21和存储器22,存储器22中存储有计算机程序221,处理器21用于执行计算机程序221以本申请实施例第一方面的方法,在此不再赘述。
请参阅图13,图13是本申请的计算机可读存储介质一实施例的示意框图。如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质30中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储装置中,包括若干指令(计算机程序31)用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种介质以及具有上述存储介质的电脑、手机、笔记本电脑、平板电脑、相机等电子设备。
关于计算机可读存储介质中的计算机程序的执行过程的阐述可以参照上述本申请检索设备2的方法实施例中阐述,在此不再赘述。
以上所述仅为本申请的部分实施例,并非因此限制本申请的保护范围,凡是利用本申请说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种数据检索方法,其特征在于,应用于数据检索系统,所述数据检索系统设有信息输入层、案由分配层以及输出层,包括:
通过所述信息输入层获取用户输入的检索语句;
利用检索语句模型对所述检索语句进行分词处理,以减少所述检索语句中的噪声信息;
从分词处理后的所述检索语句提取第一检索关键词;
将所述第一检索关键词转换成第一低维向量;以及
通过所述信息输入层获取数据库中的法律文书的检索信息;
利用所述检索语句模型对所述检索信息进行分词处理,得到第二检索关键词;
词嵌入所述第二检索关键词,得到第二低维向量;
将所述第一低维向量的第一元素以及所述第二低维向量的第二元素进行余弦相似度计算,得到词组相关性交互矩阵;
通过所述词组相关性交互矩阵,计算所述第一低维向量得到第一注意力表达向量,以及计算所述第二低维向量得到第二注意力表达向量;
对所述第一注意力表达向量与第一预设关键词向量进行哈达马积运算,得到第一哈达马积向量,以及对所述第二注意力表达向量与第二预设关键词向量进行哈达马积运算,得到第二哈达马积向量;
将所述第一预设关键词向量、所述第一注意力表达向量、所述第一哈达马积向量进行向量拼接,得到第一关键词向量,以及将所述第二预设关键词向量、所述第二注意力表达向量、所述第二哈达马积向量进行向量拼接,得到第二关键词向量,其中,所述第一关键词向量为修正后的第一低纬向量,所述第二关键词向量为修正后的第二低纬向量;
将所述第一关键词向量以及所述第二关键词向量相互计算余弦相似度,得到修改后的词组相关性交互矩阵;
利用窗口对所述修改后的词组相关性交互矩阵进行平均池化操作,得到匹配信息;
使用所述输出层将所述匹配信息进行聚合排序,得到所述检索语句的分类结果。
2.根据权利要求1所述的方法,其特征在于,
所述利用窗口对所述修改后的词组相关性交互矩阵进行平均池化操作,得到所述匹配信息,包括:
利用窗口内的元素均值代替预设词语表达;
对所述修改后的词组相关性交互矩阵进行行方向的池化操作,得到所述修改后的词组相关性交互矩阵的各行关键词向量;
输出所述各行关键词向量,得到词组层级匹配的案由向量信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用预设公式,对所述第一低维向量以及所述第二低维向量与所述数据库中的法律文档进行计算,得到与所述法律文档的相关性得分;
根据所述相关性得分,提取所述法律文档的案由信息,得到案由数据;
将所述案由数据输入预设案由树中,与预设数量个案由信息进行拼接,以得到词语层级匹配的案由向量得分信息。
4.根据权利要求2或3所述的方法,其特征在于,
所述使用所述输出层将所述匹配信息进行聚合排序,得到所述检索语句的分类结果,包括:
将案由向量信息中的向量利用词语的逆文档频率进行加权求和,得到法律文档的词组案由得分信息;
将所述词组案由得分信息以及案由向量得分信息按照预设权重进行划分与拼接,得到所述分类结果。
5.根据权利要求4所述的方法,其特征在于,
所述将所述词组案由得分信息以及案由向量得分信息按照预设权重进行划分与拼接,得到所述分类结果,包括:
从所述词组案由得分信息以及案由向量得分信息中,提取预设数量个案由信息的对应个数案由;
按对应个数对所述词组案由得分信息以及所述案由向量得分信息进行拼接,得到所述分类结果。
6.一种检索装置,其特征在于,应用于数据检索系统,所述数据检索系统设有信息输入层、案由分配层以及输出层,包括:
获取模块,通过所述信息输入层获取用户输入的检索语句;利用检索语句模型对所述检索语句进行分词处理,以减少所述检索语句中的噪声信息;从分词处理后的所述检索语句提取第一检索关键词;将所述第一检索关键词转换成第一低维向量;以及通过所述信息输入层获取数据库中的法律文书的检索信息;利用所述检索语句模型对所述检索信息进行分词处理,得到第二检索关键词;词嵌入所述第二检索关键词,得到第二低维向量;将所述第一低维向量的第一元素以及所述第二低维向量的第二元素进行余弦相似度计算,得到词组相关性交互矩阵;
筛选模块,连接所述获取模块,用于通过所述词组相关性交互矩阵,计算所述第一低维向量得到第一注意力表达向量,以及计算所述第二低维向量得到第二注意力表达向量;对所述第一注意力表达向量与第一预设关键词向量进行哈达马积运算,得到第一哈达马积向量,以及对所述第二注意力表达向量与第二预设关键词向量进行哈达马积运算,得到第二哈达马积向量;将所述第一预设关键词向量、所述第一注意力表达向量、所述第一哈达马积向量进行向量拼接,得到第一关键词向量,以及将所述第二预设关键词向量、所述第二注意力表达向量、所述第二哈达马积向量进行向量拼接,得到第二关键词向量,其中,所述第一关键词向量为修正后的第一低纬向量,所述第二关键词向量为修正后的第二低纬向量;将所述第一关键词向量以及所述第二关键词向量相互计算余弦相似度,得到修改后的词组相关性交互矩阵利用窗口对所述修改后的词组相关性交互矩阵进行平均池化操作,得到匹配信息;
聚合排序模块,连接所述筛选模块,用于使用所述输出层将所述匹配信息进行聚合排序,得到所述检索语句的分类结果。
7.一种检索设备,其特征在于,包括:处理器和存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现权利要求1~5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202110362344.7A 2021-04-02 2021-04-02 数据检索方法、装置、设备及计算机可读存储介质 Active CN113515621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110362344.7A CN113515621B (zh) 2021-04-02 2021-04-02 数据检索方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110362344.7A CN113515621B (zh) 2021-04-02 2021-04-02 数据检索方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113515621A CN113515621A (zh) 2021-10-19
CN113515621B true CN113515621B (zh) 2024-03-29

Family

ID=78062145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110362344.7A Active CN113515621B (zh) 2021-04-02 2021-04-02 数据检索方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113515621B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107566A1 (zh) * 2015-12-25 2017-06-29 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
CN110334178A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN110362798A (zh) * 2019-06-17 2019-10-22 平安科技(深圳)有限公司 裁决信息检索分析方法、装置、计算机设备和存储介质
CN110879834A (zh) * 2019-11-27 2020-03-13 福州大学 一种基于循环卷积网络的观点检索系统及其观点检索方法
WO2020108608A1 (zh) * 2018-11-29 2020-06-04 腾讯科技(深圳)有限公司 搜索结果处理方法、装置、终端、电子设备及存储介质
WO2021051521A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 获取应答信息的方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017107566A1 (zh) * 2015-12-25 2017-06-29 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
WO2020108608A1 (zh) * 2018-11-29 2020-06-04 腾讯科技(深圳)有限公司 搜索结果处理方法、装置、终端、电子设备及存储介质
CN110334178A (zh) * 2019-03-28 2019-10-15 平安科技(深圳)有限公司 数据检索方法、装置、设备及可读存储介质
CN110362798A (zh) * 2019-06-17 2019-10-22 平安科技(深圳)有限公司 裁决信息检索分析方法、装置、计算机设备和存储介质
WO2021051521A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 获取应答信息的方法、装置、计算机设备及存储介质
CN110879834A (zh) * 2019-11-27 2020-03-13 福州大学 一种基于循环卷积网络的观点检索系统及其观点检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"一种快速的随机分块文本检索算法".《武汉理工大学学报》.2010,全文. *

Also Published As

Publication number Publication date
CN113515621A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN106649561B (zh) 面向税务咨询业务的智能问答系统
WO2021159632A1 (zh) 智能问答方法、装置、计算机设备及计算机存储介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
JP6308708B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
US20160170993A1 (en) System and method for ranking news feeds
JP2018200621A (ja) 特許要件適否予測装置および特許要件適否予測プログラム
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN113111836A (zh) 基于跨模态哈希学习的视频解析方法
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN111723287A (zh) 一种基于大规模机器学习的内容和服务推荐方法及其系统
CN113987161A (zh) 一种文本排序方法及装置
CN116385946B (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN113515621B (zh) 数据检索方法、装置、设备及计算机可读存储介质
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Sowmyayani et al. STHARNet: Spatio-temporal human action recognition network in content based video retrieval
JP7121819B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN111209375B (zh) 一种通用的条款与文档匹配方法
CN113157892A (zh) 用户意图处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant