CN112818093B - 基于语义匹配的证据文档检索方法、系统及存储介质 - Google Patents
基于语义匹配的证据文档检索方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112818093B CN112818093B CN202110061517.1A CN202110061517A CN112818093B CN 112818093 B CN112818093 B CN 112818093B CN 202110061517 A CN202110061517 A CN 202110061517A CN 112818093 B CN112818093 B CN 112818093B
- Authority
- CN
- China
- Prior art keywords
- text
- paragraph
- evidence document
- retrieved
- user query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能,提供一种基于语义匹配的证据文档检索方法、系统及存储介质,其中的方法包括:对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;自所述相关文本段落组内确定召回文本段落,并对所述召回文本段落进行召回;基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段。本发明提供的技术方案既能够解决现有的证据文档检索方法检索精度低且用户体验效果差的问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于语义匹配的证据文档检索方法、系统及存储介质。
背景技术
在案件审理过程中,考虑法院场景里,法官在庭审前的阅卷流程及后续开庭审理过程中可能会产生一些关于所审理案件的详细案件信息的查询需求(例如根据当事人的诉请和抗辩查询当事人提交的证据材料的具体内容),业内部分供应商曾推出过旨在解决此类查询需求的检索产品。
然而,此类检索产品往往是基于字符串的完全匹配或部分模糊匹配技术在待检索文档中匹配用户输入的查询关键字并返回所有命中的文本片段,该方案存在如下缺陷或不足:
1、仅仅考虑了查询的字面匹配而未考虑语义匹配,返回结果里只存在于查询字面匹配的文本片段,可能会忽略部分与查询语义相似的文本片段,从而造成最终结果的缺失。
2、仅仅考虑了检索任务中的召回环节(召回环节是检索的第一阶段,指的是根据用户输入问题和文段之间的一部分相关性,从海量文本中快速找到一小部分潜在相关文段的过程),而未考虑筛选、排序环节(现有的检索都是基于关键字的检索,只是根据问题和候选文段是否有关键字完全匹配这一个特征进行召回,且不对召回结果做排序,完全按照出现的先后顺序显示给用户,这样很可能造成真正满足要求的文段排序靠后,显示效果对用户不友好),可能导致返回的文本片段数量过大且未能体现各个返回文本片段与查询的相似程度,用户体验不佳。
基于以上技术问题,亟需一种检索精度高、用户体验效果好的证据内容检索方法。
发明内容
本发明提供一种基于语义匹配的证据文档检索方法、系统、电子装置以及计算机存储介质,其主要目的在于解决现有的证据文档检索方法检索精度低且用户体验效果差的问题。
为实现上述目的,本发明提供一种基于语义匹配的证据文档检索方法,该方法包括如下步骤:
对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;
确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对所述召回文本段落进行召回;
基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段。
优选地,对所述待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落的过程包括:
以预设尺寸的窗口每次滑动预设固定步长的方式对所述待检索证据文档进行截取,以将所述待检索证据文档划分为至少一个文本段落;或者,
根据所述待检索证据文档内的子标题对所述待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落。
优选地,若所述待检索证据文档为图片式pdf文档,则在对所述待检索证据文档进行段落划分之前,需要先对所述待检索证据文档进行文字识别,以将所述待检索证据文档转换为word格式文档。
优选地,确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组的过程包括:
对所述用户查询问题进行预处理,以确定与所述用户查询问题对应的所有的查询要素类型;
基于所述查询要素类型对所述待检索证据文档进行查询,以确定所述待检索证据文档中所有的包含至少一个与所述查询要素类型匹配的特征要素的文本段落,记为所述相关文本段落组。
优选地,自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落的过程包括:
确定所述相关文本段落组内各相关文本段落的代表特征序列;
分别计算各代表特征序列与所述用户查询问题之间的序列相似比率、编辑距离以及句向量相似度;其中,
所述序列相似比率的计算公式为:
其中,a为所述用户查询问题与所述代表特征序列中相同字符的个数,b为用户查询问题中的字符个数,c为所述代表特征序列中的字符个数;
所述编辑距离的计算公式为:
其中,设将所述用户查询问题转换为所述代表特征序列所需要的总操作次数为a,b为用户查询问题中的字符个数,c为所述代表特征序列中的字符个数,max()为取最大值函数;
所述句向量相似度的计算公式为:f(x)=∑a∈A∑b∈B sin(e,f)
其中,分别对所述用户查询问题、所述代表特征序列进行分词及去停用词生成查询关键词序列A、代表关键词序列B,sim为词向量余弦相似度函数,Σ为求和符号,e为查询关键词,f为代表关键词;
计算所述用户查询问题与各代表特征序列的所述序列相似比率、所述编辑距离以及所述句向量相似度的总和,并且取与总和数值前N的代表特征序列对应的相关文本段落记为所述召回文本段落。
优选地,所述阅读理解模型为预设的Albert模型;并且,所述Albert模型包括输入嵌入层、文本注意力层、模型编码层以及模型输出层;其中,
所述输入嵌入层用于对所述用户查询问题和所述召回文本段落分别做词粒度级别的嵌入;
所述文本注意力层用于对所述用户查询问题和所述召回文本段落做双向的注意力计算,以提升所述阅读理解模型的模拟精度;
所述模型编码层用于确定所述召回文本段落中所有的匹配答案字段的起始点和终止点位置的联合分布;
所述模型输出层用于基于各匹配答案字段的起始位置和终止位置联合分布,返回相似度数值前M的匹配答案字段,作为所述最终答案字段。
优选地,在自所述召回文本段落内提取到与所述用户查询问题对应的M个所述最终答案字段后,还包括:
根据各最终答案字段的相似度数值为各最终答案字段进行排序。
另一方面,本发明还提供一种基于语义匹配的证据文档检索系统,一种基于语义匹配的证据文档检索系统,其特征在于,所述系统包括:
段落划分单元,用于对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;
相关段落确定单元,用于确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
段落召回单元,用于自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对所述召回文本段落进行召回;
答案提取单元,用于基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段。
另一方面,本发明还提供一种电子装置,所述电子装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于语义匹配的证据文档检索程序,所述基于语义匹配的证据文档检索程序被所述处理器执行时实现如下步骤:
对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;
确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对所述召回文本段落进行召回;
基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有基于语义匹配的证据文档检索程序,所述基于语义匹配的证据文档检索程序被处理器执行时,实现前述的基于语义匹配的证据文档检索方法中的步骤。
本发明提出的基于语义匹配的证据文档检索方法、电子装置及计算机可读存储介质,通过自行设计一套案件卷宗解析方法,比起传统的人工核对与整理案件要素的方式,通过模型读取解析后生成案件要素,能够极大的减轻在审理案件过程中的人工工作,提高法官的审理案件质效,实现案件要素式审理。
附图说明
图1为根据本发明实施例的基于语义匹配的证据文档检索方法的较佳实施例流程图;
图2为根据本发明实施例的电子装置的较佳实施例结构示意图;
图3为根据本发明实施例的基于语义匹配的证据文档检索程序的内部逻辑示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
以下将结合附图对本申请的具体实施例进行详细描述。
实施例1
为了说明本发明提供的基于语义匹配的证据文档检索方法,图1示出了根据本发明提供的基于语义匹配的证据文档检索方法的流程。
如图1所示,本发明提供的基于语义匹配的证据文档检索方法,包括:
S110:对待检索证据文档进行段落划分,以将该待检索证据文档划分为至少一个文本段落。
具体地,可以采用以下两种方式对待检索证据文档进行段落划分,以将该待检索证据文档划分为至少一个文本段落。
1、Slide-Window:即以预设尺寸的窗口每次滑动预设固定步长的方式对该待检索证据文档进行截取,以将该待检索证据文档划分为至少一个文本段落。需要说明的是,滑动窗口法截取文本片段,以一定大小的窗口每次滑动固定步长来截取文本片段形成文本段落,允许有重叠部分;这种方法的优点是:允许部分文本重叠可以避免每次进行文本分割时因为分割不当造成语义连贯的段落被分割成两部分;缺点是:只是简单的利用固定大小窗口把文本分割成文段,没有考虑语义信息。
2、基于子标题进行段落划分:即根据该待检索证据文档内的子标题对该待检索证据文档进行段落划分,以将该待检索证据文档划分为至少一个文本段落。需要说明的是,需要根据证据文档中合同特性,抽取条款名称作为子标题,将所有颗粒度的子标题全部抽取出来,再按子标题层级划分段落,构建子标题-段落映射树。该方法的优点是,标题一般是一个子段落最概括的表述,通过标题和问题之间的相关性进行段落匹配一定程度上利用了语义信息,在一些情况下能更准确地定位相关文段;缺点是:现实中,有的标题涵盖的文段太长,过长的字符会降低模型的准确率。在实际使用过程中,可根据实际需求选取相应的段落划分方法。
此外,还需要说明的是,通常情况下,待检索证据文档一般为pdf或word格式存储的带有非结构化数据文档,在实际检索过程中,若待检索证据文档为图片式pdf,则需要在对该待检索证据文档进行段落划分之前,先对该待检索证据文档进行文字识别(使用现有的OCR技术进行文字识别),以将该待检索证据文档转换为word格式文档,如果是正常pdf(可进行文字提取的类型)则不需要用OCR技术进行识别。至于OCR技术已为现有技术,使用时直接调用外部接口即可,在此不再赘述。
S120:确定段落划分后的该待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组。
具体地,确定段落划分后的该待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组的过程包括:对该用户查询问题进行预处理,以确定与该用户查询问题对应的所有的查询要素类型;基于该查询要素类型对该待检索证据文档进行查询,以确定该待检索证据文档中所有的包含至少一个与该查询要素类型匹配的特征要素的文本段落,记为该相关文本段落组。
需要说明的是,对用户查询问题进行预处理是确定用户的查询意图以及查询要素(查询要素就是后续要抽取的元素,姓名、日期等)。具体的预处理过程主要包括:分词、去停用词、利用外部词典(如近义词表)对查询词进行扩展;其中,分词是将用户查询问题(一个语句)切分为多个词,从而形成切分词;去停用词是去除切分词中的一些没有实际意义的词(如,的、等);最后利用外部词典(如近义词表)对切分词进行扩展,形成查询词。此外,还需要基于用户查询问题的问句句式、以及形成的查询词,确定用户的查询意图,从而进一步确定用户期望的与查询词对应的答案类型(如:日期、数字、比率),基于查询词和与之对应的答案类型即可确定用户的查询要素类型。
待查询要素类型确定后,即可进行相关文本段落组的确定。具体地,相关文本段落组确定采用基于要素预抽取的相关段落确定方式,这方式主要是先对待检索证据文档中的一些固定部分进行提前要素抽取,例如金融借款案由中借款合同中的甲乙方名称、证件信息等相关信息本身需要进行抽取,而且这部分信息一般出现的位置也比较固定,所以技术上针对这类要素的提取会事先利用预设规则进行抽取;后期用户查询问题输入后,可以快速检索到欲抽取的要素数据,包含至少一个查询要素的相关段落即会被返回,该方式可以在一定程度上提升抽取准确率并加快检索速度。
具体包括如下步骤:根据先验知识预先梳理若干要素及其抽取模板(要素抽取的正则表达式,本申请可根据需求设定25类);在各文本段落的内容上进行要素预抽取,从而提取各文本段落内的要素;将查询要素类型与各文本段落的要素进行匹配;若有一个要素能够匹配上,则将对应的文本段落记为相关文本段落,并保存至相关文本段落组。
另外,需要强调的是,为进一步保证上述相关文本段落组中数据的私密和安全性,相关文本段落组可以存储在区块链的节点中。
S130:自该相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对该召回文本段落进行召回。
具体地,自该相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落的过程包括:
确定该相关文本段落组内各相关文本段落的代表特征序列;具体地确定过程为:基于预设的专家规则,得到若干个可以代表各相关文本段落的基本特征,如:用户查询问题与该相关文本段落共有的关键词词频等;然后利用基于法律垂直领域的语料(具体可以采用公司内部采购的裁判文书作为语料)通过词向量模型word2vec或Glove预训练的词向量,构建相应序列的句向量作为补充特征,将该基本特征和该补充特征进行整合即可得到各相关文本段落的代表特征序列。
确定该相关文本段落组内各相关文本段落的代表特征序列;具体确定过程为:
分别计算各代表特征序列与该用户查询问题之间的序列相似比率、编辑距离以及句向量相似度;其中,
该序列相似比率的计算公式为:
其中,a为该用户查询问题与该代表特征序列中相同字符的个数,b为用户查询问题中的字符个数,c为该代表特征序列中的字符个数;
该编辑距离的计算公式为:
其中,设将该用户查询问题转换为该代表特征序列所需要的总操作次数为a,b为用户查询问题中的字符个数,c为该代表特征序列中的字符个数,max()为取最大值函数;
该句向量相似度的计算公式为:f(x)=∑a∈A∑b∈B sin(e,f)
其中,分别对该用户查询问题、该代表特征序列进行分词及去停用词生成查询关键词序列A、代表关键词序列B,sim为词向量余弦相似度函数,Σ为求和符号,e为查询关键词,f为代表关键词;
计算该用户查询问题与各代表特征序列的该序列相似比率、该编辑距离以及该句向量相似度的总和,并且取与总和数值前N的代表特征序列对应的相关文本段落记为该召回文本段落。
经过上述计算过程后,即可取相似度得分最高的N(预设N=5)个相应的相关文本段落,记为召回文本段落;然后即可对该召回文本段落进行召回,用于后续的答案生成中。需要说明的是,经实际测试,最后召回的Top5召回文本段落的准确度在测试集上的测试结果能达到90%以上。
S140:基于预设的阅读理解模型对该召回文本段落进行处理,以提取该召回文本段落内的与该用户查询问题对应的最终答案字段。
需要说明的是,把用户查询问题和段落召回阶段选出来的N段文本分别输入至预设的阅读理解模块,通过由输入嵌入层、嵌入编码层、文本注意力层、模型编码层和输出层组成的深度学习模型(即阅读理解模型)之后,即可得到一个表征起始点位置与终止点位置的向量,与该向量对应的字段即为最终的答案字段。
具体地,该阅读理解模型为预设的Albert模型;并且,该Albert模型包括输入嵌入层、文本注意力层、模型编码层以及模型输出层;其中,
该输入嵌入层用于对该用户查询问题和该召回文本段落分别做词粒度级别的嵌入;
该文本注意力层用于对该用户查询问题和该召回文本段落做双向的注意力计算,以提升该阅读理解模型的模拟精度;
该模型编码层用于确定该召回文本段落中所有的匹配答案字段的起始点和终止点位置的联合分布;
该模型输出层用于基于各匹配答案字段的起始位置和终止位置联合分布,返回相似度数值前M的匹配答案字段,作为该最终答案字段。
此外,需要进一步说明的是,该Albert模型是在Bert模型基础上进行优化得来的。为便于对Albert模型进行理解,需要先对Bert模型做简单介绍,
Bert模型包括如下结构层:
输入文本层(输入嵌入层):将输入文本的字符映射成数字,映射方式直接用字符在字典中的index做替换;
向量表述层(嵌入编码层),主要由三层embedding组成:Token Emedding,SegmentEmbedding和Position Embedding;
在Bert模型中的向量表述层中,词语的embedding维度E与hidden size H是相同的,即E≡H。从建模的角度来看,字嵌入意味着学习上下文无关的表示,而隐藏层嵌入意味着学习上下文相关的表示。实验证明,Bert类模型方法的语言表示能力来自于上下文相关的信号。所以应该H>>E。从实验的角度来看,NLP中的词表通常比较大,如果E≡H,那随着模型宽度H的增加,词嵌入矩阵V×E将会变得非常大,然而词嵌入矩阵通常是稀疏地更新的。综上两点原因,Albert模型提出了一种因式分解式的方法来降低参数量。首先将one-hot向量映射到一个低维的嵌入空间中(大小为E),再将这个低维嵌入空间映射到高维的隐藏空间中(大小为H)。这样一来,嵌入的参数量就从O(V×H)减少到了O(V×E+E×H),当H>>E时,这种策略效果明显。
文本注意力层:主要由多层transformer叠加而成;
模型编码层:主要由全连接层组成,作用是把文本注意力层空间拉到隐层空间;
数据输出层:该层需要根据具体任务来定义,在证据内容检索的任务中利用Bert模型做片段抽取式阅读理解任务。输出层通过接受上下文经过模型编码层之后的表示,使用Pointer-Network依次生成答案开始和结束为止的分布。训练时将其视为多分类任务,只有答案开始为止为1,其余位置为0,然后计算位置分布的交叉熵损失函数,答案结束位置同理,然后将两个交叉熵损失函数相加作为最终损失函数,以最终损失函数来判断各匹配答案字段的返回相似度,最终损失函数越大,相应的返回相似度越小。需要说明的是,关于数据输出层的结构,Albert模型与Bert模型基本相同。
需要说明的是,在Bert模型中的NSP任务正样本是在同一个文档中选取的两段连续的文本,负样本是从不同文档中选取的两段文本。NSP合并了主题预测和连贯性预测任务,但是NSP设计的过于简单。而在Albert模型中设计了一个SOP任务取代NSP任务,它的证样本是在同一个文档中选取的两段连续的文本,而负样本将正样本的顺序反过来,这样的设计可以更好的学习到句子间的连贯性。
此外,由于Bert模型的参数很多,导致训练需要很多的GPU,训练时间过长,而为了达到实时回答客户问题的效果,对实时响应时间要求较高,且不能牺牲太多的模型效果。综合以上两个因素最终选定Albert模型,Albert通过分解Embedding参数和跨层共享两种方式减少参数,并且通过设计SOP任务来更好的学习句子之间的连贯性,从而提升模型效果。
需要说明的是,Albert模型是在Bert模型的基础上优化得出的。具体地,输入嵌入层,对客户检索问题和文本段落分别做词粒度级别的嵌入。文本注意力层对问题和文本做双向的注意力计算:根据问题去文本中找相关内容,同时根据文本去问题中找相关内容。模型编码层以矩阵的形式找到起始点和终止点位置的联合分布。模型输出层会根据起始位置和终止位置的不同,返回可能性最大的N个答案,N自定义,在我们的模型中设置N=10,从而得到多个泛化答案。
此外,为了解决专业领域有标注数据匮乏而准确率要求高的问题,采用了从通用模型到垂直领域专用模型迁移的方式进行改进,即在利用海量数据预训练好的模型基础上,再利用垂直领域数据进行fine-tune,这样可以减少训练时间和避免因训练集数据量不够导致模型得不到充分训练的问题。具体地,在本发明的实施例中,采用了一个4层的Albert_tiny版本和一个24层的Albert_large版本,经测试,在机器阅读理解这个较难的任务上,Albert_large的准确率可以比Albert_tiny提升10%以上。
随后,组织法律领域的专家,标注3千多份阅读理解垂直数据集,具体标注过程如下,训练集的样本可用一个三元组表述:{Q,A,C},其中Q表示问题,A表述问题的答案,C表示一段文本,这段文本包含问题的答案。
然后利用这个垂直数据集对Albert模型做精调和迭代式改进,精调是指在利用网络海量通用数据训练的模型的参数作为Albert模型的初始化参数,再用标注的法律领域的样本集去做训练,这样既可以充分应用模型通过海量数据学习到的语言通用知识,又可以弥补垂直领域标注样本集太小而造成模型得不到充分训练的问题。迭代即指每次修改部分模型超参数进行训练的模型都是在上一次训练完成的模型的基础上进行训练。
经第一轮精调后,模型的准确率直接提升超过65%。然而这仍然不是一个可推广的模型,后续可以针对错误答案进行数据负样本增强,并辅助构造一些人工特征,提升模型准确率;具体地,由于训练数据量不足,可以借助一些深度学习手段利用已有的训练数据构造一些训练样本,譬如TF-IDF,基于词典替换同义词,利用Masked Language Model使用mask预测来生成一些人工特征,提升模型准确率。
需要说明的是,经过上述一系的模型优化过程,即可在Bert模型的基础上形成所需的Albert模型,后期通过Albert模型作为阅读理解模型能够显著提高最终答案字段的提取精度。
此外,为提高用户体验效果,可以在自该召回文本段落内提取到与该用户查询问题对应的M个该最终答案字段后,根据各最终答案字段的相似度数值为各最终答案字段进行排序,从而提高最终答案的展示效果。
通过上述技术方案的表述可知,本发明提供的基于语义匹配的证据文档检索方法,通过自行设计一套证据文档检索方法,能够显著提高自证据文档检索所需的答案字段的工作效率以及检索精度,此外,通过一次性提取相似度数值前M的匹配答案字段,能够便于后期根据相似度数值的大小为最终答案字段进行排序,提高用户的体验效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例2
与上述方法相对应,本申请还提供一种基于语义匹配的证据文档检索系统,该系统包括:
段落划分单元,用于对待检索证据文档进行段落划分,以将该待检索证据文档划分为至少一个文本段落;
相关段落确定单元,用于确定段落划分后的该待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
段落召回单元,用于自该相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对该召回文本段落进行召回;
答案提取单元,用于基于预设的阅读理解模型对该召回文本段落进行处理,以提取该召回文本段落内的与该用户查询问题对应的最终答案字段。
实施例3
本发明还提供一种电子装置70。参照图2所示,该图为本发明提供的电子装置70的较佳实施例结构示意图。
在本实施例中,电子装置70可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置70包括:处理器71以及存储器72。
存储器72包括至少一种类型的可读存储介质。至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,可读存储介质可以是该电子装置70的内部存储单元,例如该电子装置70的硬盘。在另一些实施例中,可读存储介质也可以是电子装置1的外部存储器,例如电子装置70上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,存储器72的可读存储介质通常用于存储安装于电子装置70的基于语义匹配的证据文档检索程序73。存储器72还可以用于暂时地存储已经输出或者将要输出的数据。
处理器72在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器72中存储的程序代码或处理数据,例如基于语义匹配的证据文档检索程序73等。
在一些实施例中,电子装置70为智能手机、平板电脑、便携计算机等的终端设备。在其他实施例中,电子装置70可以为服务器。
图2仅示出了具有组件71-73的电子装置70,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置70还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置70还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置70中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置70还可以包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置70的显示器的面积可以与触摸传感器的面积相同,也可以不同。可选地,将显示器与触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置70还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图2所示的装置实施例中,作为一种计算机存储介质的存储器72中可以包括操作系统、以及基于语义匹配的证据文档检索程序73;处理器71执行存储器72中存储的基于语义匹配的证据文档检索程序73时实现如下步骤:
对待检索证据文档进行段落划分,以将该待检索证据文档划分为至少一个文本段落;
确定段落划分后的该待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
自该相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对该召回文本段落进行召回;
基于预设的阅读理解模型对该召回文本段落进行处理,以提取该召回文本段落内的与该用户查询问题对应的最终答案字段。
在该实施例中,图3为根据本发明实施例的基于语义匹配的证据文档检索程序的内部逻辑示意图,如图3所示,基于语义匹配的证据文档检索程序73还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器72中,并由处理器71执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图3所示,为图2中基于语义匹配的证据文档检索程序73较佳实施例的程序模块图。基于语义匹配的证据文档检索程序73可以被分割为:段落划分模块74、相关段落确定模块75、段落召回模块76以及答案提取模块77。模块74-77所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如,其中:
段落划分模块74,用于对待检索证据文档进行段落划分,以将该待检索证据文档划分为至少一个文本段落;
相关段落确定模块75,用于确定段落划分后的该待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
段落召回模块76,用于自该相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对该召回文本段落进行召回;
答案提取模块77,用于基于预设的阅读理解模型对该召回文本段落进行处理,以提取该召回文本段落内的与该用户查询问题对应的最终答案字段。
实施例4
本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有基于语义匹配的证据文档检索程序73,基于语义匹配的证据文档检索程序73被处理器执行时实现如下操作:
对待检索证据文档进行段落划分,以将该待检索证据文档划分为至少一个文本段落;
确定段落划分后的该待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
自该相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对该召回文本段落进行召回;
基于预设的阅读理解模型对该召回文本段落进行处理,以提取该召回文本段落内的与该用户查询问题对应的最终答案字段。
本发明提供的计算机可读存储介质的具体实施方式与上述基于语义匹配的证据文档检索方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要进一步说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于语义匹配的证据文档检索方法,应用于电子装置,其特征在于,所述方法包括:
对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;
确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对所述召回文本段落进行召回;
基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段;其中,
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落的过程包括:
确定所述相关文本段落组内各相关文本段落的代表特征序列;
分别计算各代表特征序列与所述用户查询问题之间的序列相似比率、编辑距离以及句向量相似度;
计算所述用户查询问题与各代表特征序列的所述序列相似比率、所述编辑距离以及所述句向量相似度的总和,并且取与总和数值前N的代表特征序列对应的相关文本段落记为所述召回文本段落。
2.根据权利要求1所述的基于语义匹配的证据文档检索方法,其特征在于,对所述待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落的过程包括的过程包括:
以预设尺寸的窗口每次滑动预设固定步长的方式对所述待检索证据文档进行截取,以将所述待检索证据文档划分为至少一个文本段落;或者,
根据所述待检索证据文档内的子标题对所述待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落。
3.根据权利要求2所述的基于语义匹配的证据文档检索方法,其特征在于,若所述待检索证据文档为图片式pdf文档,则在对所述待检索证据文档进行段落划分之前,需要先对所述待检索证据文档进行文字识别,以将所述待检索证据文档转换为word格式文档。
4.根据权利要求3所述的基于语义匹配的证据文档检索方法,其特征在于,确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组的过程包括:
对所述用户查询问题进行预处理,以确定与所述用户查询问题对应的所有的查询要素类型;
基于所述查询要素类型对所述待检索证据文档进行查询,以确定所述待检索证据文档中所有的包含至少一个与所述查询要素类型匹配的特征要素的文本段落,记为所述相关文本段落组。
5.根据权利要求4所述的基于语义匹配的证据文档检索方法,其特征在于,
所述序列相似比率的计算公式为:
其中,a为所述用户查询问题与所述代表特征序列中相同字符的个数,b为用户查询问题中的字符个数,c为所述代表特征序列中的字符个数;
所述编辑距离的计算公式为:
其中,设将所述用户查询问题转换为所述代表特征序列所需要的总操作次数为a,b为用户查询问题中的字符个数,c为所述代表特征序列中的字符个数,max()为取最大值函数;
所述句向量相似度的计算公式为:f(x)=∑a∈A∑b∈Bsin(e,f)
其中,分别对所述用户查询问题、所述代表特征序列进行分词及去停用词生成查询关键词序列A、代表关键词序列B,sin 为词向量余弦相似度函数,Σ为求和符号,e为查询关键词,f为代表关键词。
6.根据权利要求5所述的基于语义匹配的证据文档检索方法,其特征在于,所述阅读理解模型为预设的Albert模型;并且,所述Albert模型包括输入嵌入层、文本注意力层、模型编码层以及模型输出层;其中,
所述输入嵌入层用于对所述用户查询问题和所述召回文本段落分别做词粒度级别的嵌入;
所述文本注意力层用于对所述用户查询问题和所述召回文本段落做双向的注意力计算,以提升所述阅读理解模型的模拟精度;
所述模型编码层用于确定所述召回文本段落中所有的匹配答案字段的起始点和终止点位置的联合分布;
所述模型输出层用于基于各匹配答案字段的起始位置和终止位置联合分布,返回相似度数值前M的匹配答案字段。
7.根据权利要求6所述的基于语义匹配的证据文档检索方法,其特征在于,在自所述召回文本段落内提取到与所述用户查询问题对应的M个所述最终答案字段后,还包括:
根据各最终答案字段的相似度数值为各最终答案字段进行排序。
8.一种基于语义匹配的证据文档检索系统,其特征在于,所述系统包括:
段落划分单元,用于对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;
相关段落确定单元,用于确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
段落召回单元,用于自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对所述召回文本段落进行召回;
答案提取单元,用于基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段;其中,
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落的过程包括:
确定所述相关文本段落组内各相关文本段落的代表特征序列;
分别计算各代表特征序列与所述用户查询问题之间的序列相似比率、编辑距离以及句向量相似度;
计算所述用户查询问题与各代表特征序列的所述序列相似比率、所述编辑距离以及所述句向量相似度的总和,并且取与总和数值前N的代表特征序列对应的相关文本段落记为所述召回文本段落。
9.一种电子装置,其特征在于,所述电子装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于语义匹配的证据文档检索程序,所述基于语义匹配的证据文档检索程序被所述处理器执行时实现如下步骤:
对待检索证据文档进行段落划分,以将所述待检索证据文档划分为至少一个文本段落;
确定段落划分后的所述待检索证据文档中的与用户查询问题相关的所有文本段落,记为相关文本段落组;
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落,并对所述召回文本段落进行召回;
基于预设的阅读理解模型对所述召回文本段落进行处理,以提取所述召回文本段落内的与所述用户查询问题对应的最终答案字段;其中,
自所述相关文本段落组内确定与所述用户查询问题具有预设相关度的文本段落作为召回文本段落的过程包括:
确定所述相关文本段落组内各相关文本段落的代表特征序列;
分别计算各代表特征序列与所述用户查询问题之间的序列相似比率、编辑距离以及句向量相似度;
计算所述用户查询问题与各代表特征序列的所述序列相似比率、所述编辑距离以及所述句向量相似度的总和,并且取与总和数值前N的代表特征序列对应的相关文本段落记为所述召回文本段落。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有基于语义匹配的证据文档检索程序,所述基于语义匹配的证据文档检索程序被处理器执行时,实现如权利要求1至7中任一项所述的基于语义匹配的证据文档检索方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110061517.1A CN112818093B (zh) | 2021-01-18 | 2021-01-18 | 基于语义匹配的证据文档检索方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110061517.1A CN112818093B (zh) | 2021-01-18 | 2021-01-18 | 基于语义匹配的证据文档检索方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818093A CN112818093A (zh) | 2021-05-18 |
CN112818093B true CN112818093B (zh) | 2023-04-18 |
Family
ID=75869634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110061517.1A Active CN112818093B (zh) | 2021-01-18 | 2021-01-18 | 基于语义匹配的证据文档检索方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818093B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553410B (zh) * | 2021-06-30 | 2023-09-22 | 北京百度网讯科技有限公司 | 长文档处理方法、处理装置、电子设备和存储介质 |
CN113435213B (zh) * | 2021-07-09 | 2024-04-30 | 支付宝(杭州)信息技术有限公司 | 针对用户问题和知识库返回答案的方法和装置 |
CN114492362B (zh) * | 2022-04-12 | 2022-08-16 | 北京澜舟科技有限公司 | 一种研报问答生成方法、系统及计算机可读存储介质 |
CN115017871B (zh) * | 2022-06-10 | 2023-04-07 | 上海美嘉林软件科技股份有限公司 | 一种文件档案内容的替换显示方法和显示系统 |
CN115828893B (zh) * | 2022-11-28 | 2023-11-17 | 北京海致星图科技有限公司 | 非结构化文档问答的方法、装置、存储介质和设备 |
CN116069914B (zh) * | 2023-02-13 | 2024-04-12 | 北京百度网讯科技有限公司 | 训练数据的生成方法、模型训练方法以及装置 |
CN116401345A (zh) * | 2023-03-09 | 2023-07-07 | 北京海致星图科技有限公司 | 智能问答方法、装置、存储介质和设备 |
CN116089599B (zh) * | 2023-04-07 | 2023-07-25 | 北京澜舟科技有限公司 | 信息查询方法、系统以及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9098570B2 (en) * | 2011-03-31 | 2015-08-04 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for paragraph-based document searching |
US20140006012A1 (en) * | 2012-07-02 | 2014-01-02 | Microsoft Corporation | Learning-Based Processing of Natural Language Questions |
US9460211B2 (en) * | 2013-07-08 | 2016-10-04 | Information Extraction Systems, Inc. | Apparatus, system and method for a semantic editor and search engine |
US9940367B1 (en) * | 2014-08-13 | 2018-04-10 | Google Llc | Scoring candidate answer passages |
US11250038B2 (en) * | 2018-01-21 | 2022-02-15 | Microsoft Technology Licensing, Llc. | Question and answer pair generation using machine learning |
CN109255012B (zh) * | 2018-07-23 | 2021-04-30 | 深思考人工智能机器人科技(北京)有限公司 | 机器阅读理解以及减少候选数据集规模的方法、装置 |
CN110188362B (zh) * | 2019-06-10 | 2021-04-20 | 北京百度网讯科技有限公司 | 文本处理方法及装置 |
CN111046152B (zh) * | 2019-10-12 | 2023-09-29 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN111680264B (zh) * | 2020-04-20 | 2023-12-22 | 重庆兆光科技股份有限公司 | 一种多文档阅读理解方法 |
CN111625624A (zh) * | 2020-05-27 | 2020-09-04 | 湖北师范大学 | 基于bm25+albert模型的伪相关反馈信息检索方法、系统及存储介质 |
-
2021
- 2021-01-18 CN CN202110061517.1A patent/CN112818093B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112818093A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
Jung | Semantic vector learning for natural language understanding | |
WO2021068339A1 (zh) | 文本分类方法、装置及计算机可读存储介质 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN116097250A (zh) | 用于多模式文档理解的布局感知多模式预训练 | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN114330343B (zh) | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN111158641A (zh) | 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN111191011B (zh) | 一种文本标签的搜索匹配方法、装置、设备及存储介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN115344668A (zh) | 一种多领域与多学科科技政策资源检索方法及装置 | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 | |
Chou et al. | On the Construction of Web NER Model Training Tool based on Distant Supervision | |
CN114580398A (zh) | 文本信息提取模型生成方法、文本信息提取方法和装置 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |