CN110347812B - 一种面向司法文本的搜索排序方法及系统 - Google Patents
一种面向司法文本的搜索排序方法及系统 Download PDFInfo
- Publication number
- CN110347812B CN110347812B CN201910554551.5A CN201910554551A CN110347812B CN 110347812 B CN110347812 B CN 110347812B CN 201910554551 A CN201910554551 A CN 201910554551A CN 110347812 B CN110347812 B CN 110347812B
- Authority
- CN
- China
- Prior art keywords
- text
- doc
- query
- word
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种面向司法文本的搜索排序方法及系统,其中该方法包括(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,利用分词后的数据预训练司法文本词向量;(2)构建相似度矩阵:采用预训练的词向量构建Query和Doc的相似度匹配矩阵M;(3)截取相关性文本片段:根据Query和Doc的匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到Query和Doc的匹配score,根据匹配score大小进行排序。
Description
技术领域
本发明属于自然语言处理领域,涉及一种面向司法文本的搜索排序方法及系统。
背景技术
搜索排序算法的核心是如何计算搜索输入(Query)和目标文档(Doc)之间的关系并依此对Doc进行排序。专利CN201710263575.6是通过预设排序规则将检索到的文档进行排序,预设规则需要花费大量的时间来分析规则模板的可行性,并且用户的输入和意图具有高度不确定性很难穷尽所有的排序规则,排序结果具有一定的不可预测性。专利CN201710348412.8提取关键词并制作同义词词典扩大检索结果,再用预设排序规则进行排序。专利CN201710298924.8是提取Query和Doc的主题,并计算主题之间的相似度作为排序标准。目前常用的搜索排序方法可分为基于Query和Doc之间相似性和相关性的两种方法。专利 CN201811117761.X通过自注意机制计算句子和段落之间的向量表示,然后计算向量之间的相似性作为排序标准,专利CN201580019941.2采用深度学习网络计算具有上下文特征的Query和Doc的语义向量,通过语义向量的相似性来进行排序。涉及文本相关性排序的专利不多,论文2983323.2983769(DOI)提出 DRMM算法,将Query和完整Doc之间单词的匹配直方图作为神经网络输入计算全局匹配结果来进行排序,但是短Query和长Doc之间不可避免的会出现不匹配单词远远多于匹配单词,造成直方图分布严重不均衡从而影响排序结果,并且基于全局匹配结果忽略了局部匹配结果的重要性。论文3132847.3132914 (DOI)介绍了一种deeprank相关性排序方法,利用Query中单词出现在doc 中的片段作为相关上下文,然后根据相关上下文计算局部相关性作为文档排序标准,用Query和Doc中出现的相同词来提取相关性上下文容易出现错选和漏选,仅仅用局部信息判断匹配结果忽略了全局信息的重要性。
基于相似性的排序方法一般用于同质(两个句子之间或者两个文章之间)的两个文本,判断两段文本之间语义是否相似。而基于相关性的匹配方法是不同质(例如:问题和文档之间)的文本全局或局部的匹配关系。司法文本数据像裁判文书,动辄几千字,多则几百万字,但是在进行检索时的Query往往是几十个字甚至是几个字,因此Query和Doc长度严重不对应时采用相似性方法来进行检索排序时呈现给用户的结果可能并不是很好。
发明内容
为了克服现有技术中存在的不足,本发明在于提供了一种匹配结果更可靠、排序结果更加精确、加快算法运行速度的面向司法文本的搜索排序方法及系统。
本发明采用的技术方案是:
一种面向司法文本的搜索排序方法,其步骤如下:
(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,再将分词后的数据预训练司法文本词向量;
(2)构建相似度矩阵:采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M;
(3)截取相关性文本片段:在Query和Doc的匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;
(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;
(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到最终的Query和Doc的匹配score,然后根据匹配score大小进行排序。
进一步,步骤(1)中的分词处理包括:构建司法领域分词词典,并采用jieba 分词对司法文本数据Doc进行分词处理。进一步,步骤(1)中的词向量的训练方法为word2vec训练方法。
进一步,步骤(2)中相似度匹配矩阵M构建方法如公式(1);
其中,q为Query中单词个数,d为Doc中单词个数,Qi为Query中第i个单词的词向量,Dj为Doc中第j个单词的词向量,mij∈[-1,1]是Qi和Dj的余弦相似度值越大相似度越高。
进一步,步骤(3)中局部相关性文本片段的提取方式如下:
1)设定模板T,所述模板T的宽度为Query的单词个数,长度由Query的长度和具体应用场景决定,计算模板内Query和Doc的综合匹配向量:模板T在步骤(2)中匹配矩阵M中移动,按照公式(2)计算匹配向量S,
其中,w为模板长度,k为下标,sk为Query和Doc中从单词Dk到单词Dk+w的文本片段的综合匹配得分;d为Doc的单词个数,max()为取最大值函数,M·k是匹配矩阵M中所有的行第k列,max(M·k)为求第k列的最大值即取最强特征避免其他干扰项,S为Query和Doc的匹配向量;
2)根据匹配向量S截取局部相关性文本片段:在匹配向量S中选取n个长度为w的文本片段;首先计算向量S的均值S0=mean(S),计算S>S0时S所有的峰值及峰值对应的下标,取峰值对应的文本片段拼接在一起获得最终相关性文本Ds,取峰值对应文本片段的匹配矩阵拼接在一起获得矩阵Ms。
进一步,如果峰值个数小于n则取全部峰值,如果峰值个数大于n,则由大到小取n个峰值。
进一步,步骤(4)中的特征向量F的构建过程如下:
I、计算Ms中单词统计信息:匹配矩阵Ms中的值mij∈[-1,1],代表Query中第i个单词和Doc中第j个单词的语义相似度,mij越大相似度越高,将[-1,1]划分若干区间,统计矩阵Ms中的值落入各区间的个数,获得特征Fm;
II、根据Ms计算词共现个数:采用宽度为q(Query中单词个数)长度为l的模板,l≥3,统计模板中同时存在2个和3个相似度值高于m0的个数,m0>0.5为相似度阈值;模板内词共现特征计算如公式(3)所示,
f2为两个词在模板内共现特征,f3为3个词在模板内共现特征,i,j,k为下标, m0为相似度阈值,max()为取最大值函数,min()为取最小值函数,1{·}为大括号内值为真(同时满足括号内不等式成立)时取值为1,否则取值为0,Ms为步骤(3) 中获得的相关性文本Ds的匹配矩阵,Ms·i表示矩阵中所有行第i列的值;
Ms中词共现特征如公式(4)计算,
F2是Doc中两个词的共现特征,F3是Doc中三个词的共现特征,∑·是求和函数,F是最终获得的特征向量。
进一步,mij的区间划分采用不等分的形式进行划分,有利于将不同的特征层次化,区间的划分可按照实际业务场景确定有很多不同的划分形式。
进一步,步骤(5)中的神经网络模型由公式(5)表示,
z(x)为通用的前馈神经网络模型,W为网络参数,b是网络偏置,x是网络输入即为F,σ(·)是激活函数,网络层和输出层连接一个softmax层。
一种面向司法文本的搜索排序系统,包括:
第一获取模块,用于获取司法文本数据Doc,并对所述司法文本数据进行分词处理,预训练词向量;
第二获取模块,用于获取用户输入的法律咨询问题Query;
相关性计算模块,用于计算司法文本数据Doc和所述法律咨询问题Query 的匹配得分,构建所述司法文本数据Doc和所述法律咨询问题Query的匹配矩阵,依据所述匹配矩阵截取相关性文本,计算所述相关性文本中词和词共现的统计信息构建特征向量,输入神经网络模型计算匹配得分;
排序模块,用于根据所述匹配得分从大到小进行排序,并向所述用户展示。
本发明的有益效果:
1、本发明采用基于相关性的方法对目标文档进行排序,更适用于司法文本短Query和长Doc的应用场景。
2、本发明采用司法文本数据预训练的词向量计算Query和Doc之间的匹配矩阵,并依据匹配矩阵截取相关性文本片段,充分考虑了词和文档上下文特征,匹配结果更可靠。
3、本发明计算相关性文本片段中词和词共现的统计信息构建特征向量,将 Query和Doc之间的局部相关性和全局相关性相结合,排序结果更加精确。
4、本发明采用统计信息构建特征向量,将不定长的文本数据快速处理为定长输入,再输入网络模型中计算,降低算法复杂度加快算法运行速度。
附图说明
图1是本发明的一种面向司法文本的搜索排序方法的流程示意图。
图2是本发明构建的司法领域分词词典示意图。
图3是本发明的匹配向量S的计算过程。
图4是本发明的匹配向量S及其均值的曲线图。
图5是本发明的特征Fm的直方图。
图6是本发明的一种面向司法文本的搜索排序系统的结构框图。
具体实施方式
下面结合具体实施例来对本发明进行进一步说明,但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到,本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。
专业术语解释
jieba分词:jieba是一个基于Python的中文分词工具,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。
word2vec:谷歌2013年提出的词嵌入模型,是目前最常用的文本表示模型之一,可以将单词转换成向量形式。
实施例一
参照图1,本实施例提供了一种面向司法文本的搜索排序方法,其步骤如下:
步骤1:数据预处理
(1)数据获取
收集裁判文书数据、调解案例数据、法律条文数据等司法文本数据,并进行去重等预处理。
(2)分词处理
根据收集到的司法文本数据,构建司法领域分词词典,并采用jieba分词对司法文本数据进行分词处理。
(3)用司法文本数据训练词向量
现有词向量多是用百科、新闻等数据训练得到,而司法文本中的上下文与新闻百科等具有较大差异,并且可以较容易的获取大量的司法领域无监督训练样本,因此用司法文本数据重新训练词向量模型更具有可用性。
将分词后的司法文本数据按照word2vec训练方法,预训练司法领域 word2vec词向量。
步骤2:构建相似度矩阵
自然语言文本存在各种各样的歧义性或多义性,如果只关注Query中的词是否存在目标文档中,则严重丢失了词语词义信息,像邻里纠纷中“漏水”和“渗水”单词不同但是词义相同,因此本发明采用预训练的词向量构建Query和Doc的匹配矩阵M,构建方法如公式(1)。
其中,q为Query中单词个数,d为Doc中单词个数,Qi为Query中第i个单词的word2vec词向量,Dj为Doc中第j个单词的word2vec词向量,mij∈[-1,1]是 Qi和Dj的余弦相似度值越大相似度越高,可以充分利用词向量的语义特性。
步骤3:截取相关性文本片段
由于Query和Doc文本长度相差很大,Doc中不可避免会出现很多无关的句子或者单词,采用全局匹配的方式会导致最终匹配得分受到影响,因此本发明首先根据Query和Doc的匹配矩阵提取局部相关性文本片段,再对局部相关性文本片段进行全局特征提取,将局部特征和全局特征相结合计算Query和Doc 的匹配得分作为排序依据。局部相关性文本片段的具体提取方式如下:
(1)设定模板T,计算模板内Query和Doc的综合匹配向量。该模板的宽度为输入Query的单词个数,长度w由输入Query的长度和具体应用场景决定,例如w取2倍Query单词个数得到一个q×2q(q为query中单词的个数)的模板。模板T在步骤2中匹配矩阵M中移动,按照公式(2)计算匹配向量S。
其中,w为模板长度,k为下标,sk为Query和Doc中从单词Dk到单词Dk+w的文本片段的综合匹配得分。d为Doc的单词个数,max()为取最大值函数,M·k是匹配矩阵M中所有的行第k列,max(M·k)为求第k列的最大值即取最强特征避免其他干扰项,S为Query和Doc的匹配向量。
(2)根据匹配向量S截取局部相关性文本片段。在匹配向量S中选取n个长度为w(模板长度)的文本片段,n的取值由实际业务场景决定。首先计算向量 S的均值S0=mean(S),计算S>S0时S所有的峰值及峰值对应的下标,如果峰值个数小于n则取全部峰值,如果峰值个数大于n,则由大到小取n个峰值。取峰值对应的文本片段拼接在一起获得最终相关性文本Ds,取峰值对应文本片段的匹配矩阵拼接在一起获得矩阵Ms。
步骤4:构建特征向量
步骤3获得的相关性文本Ds,极大的压缩了目标文档,在保留Doc主要信息的情况下解决了Query和Doc长度极度不匹配问题。Query和Ds中相似度高的单词越多则匹配程度越高,Query中多个单词连续出现在Ds中也说明匹配程度越高。根据以下步骤计算Query和相关性关文本Ds的全局相关性,构建特征向量:
(1)计算Ms中单词统计信息。匹配矩阵Ms中的值mij∈[-1,1],代表Query 中第i个单词和Doc中第j个单词的语义相似度,mij越大相似度越高,将[-1,1] 划分若干区间,例如分为八个区间{[-1,-0.5),[-0.5,-0),[0,0.3),[0.3,0.6),[0.6,0.8), [0.8,0.9),[0.9,1.0),[1,1]},这里没有采用等分的形式,有利于将不同的特征层次化,并且将[1,1]单独提取出来获得精确匹配信息,区间的划分可按照实际业务场景确定有很多不同的划分形式,统计矩阵Ms中的值落入各区间的个数,获得特征Fm。
(2)根据Ms计算词共现个数。采用宽度为q(Query中单词个数)长度为l 的模板,l≥3根据业务需求确定,统计模板中同时存在2个和3个相似度值高于 m0的个数,m0>0.5为相似度阈值根据业务需求选取。模板内词共现特征计算如公式(3)所示。
f2为两个词在模板内共现特征,f3为3个词在模板内共现特征,i,j,k为下标, m0为相似度阈值,max()为取最大值函数,min()为取最小值函数,1{·}为大括号内值为真(同时满足括号内不等式成立)时取值为1,否则取值为0,Ms为步骤(3) 中获得的相关性文本Ds的匹配矩阵,Ms·i表示矩阵中所有行第i列的值。Ms中词共现特征如公式(4)计算。
F2是Doc中两个词的共现特征,F3是Doc中三个词的共现特征,∑·是求和函数,F是最终获得的特征向量。
步骤5:计算匹配值并排序
局部匹配保持文本的语序特征,最终获得的特征向量是对局部特征计算统计信息为无序特征,因此不适合常用的CNN和RNN等深度学习算法模型,本发明直接将特征输入到神经网络模型中,模型可由公式(5)表示。
z(x)为通用的前馈神经网络模型,W为网络参数,b是网络偏置,x是网络输入即为步骤4中的特征F,σ(·)是激活函数,可以为通用的sigmod或者tanh 等激活函数,网络层和输出层连接一个softmax层,得到最终的Query和Doc 的匹配score。
具体应用如下:
本应用收集了一百多部法律文书,两千多条调解案例,一千万民事裁判文书作为实施例中Doc数据,收集了一万多问题作为Query数据。
步骤1:数据预处理
(1)数据获取
收集裁判文书数据、调解案例数据、法律条文数据等司法文本数据作为Doc 数据,收集法律咨询问题作为Query数据,对收集到的数据进行去重、去除质量差的文本等预处理。
(2)分词处理
根据收集到的司法文本数据,构建司法领域分词词典,并采用jieba分词对司法文本数据进行分词处理并保存,构建的分词词典如图2所示。
(3)用司法文本数据训练词向量
用司法文本数据训练词向量模型。将分词后的司法文本数据按照word2vec 训练方法,预训练司法领域word2vec词向量,模型训练过程中取词向量长度为300维。
步骤2:构建相似度矩阵
自然语言文本存在的各种各样的歧义性或多义性,如果只关注Query中的词是否存在目标文档中,则严重丢失了词语词义特征,像邻里纠纷中“漏水”和“渗水”单词不同但是词义相同,因此本发明采用步骤1中预训练的wordvec词向量根据公式(1)构建Query和Doc的匹配矩阵M,例如有
Query:”丈夫私自担保妻子是否承担连带责任”共17个字7个词
Doc:”李某与王某系多年的好朋友关系,王某在漯河市建材城从事装饰材料经营,生意一直都比较好,2007年初,为扩大经营规模,就找到在李某,要求其出面担保,向漯河市某信用社贷款10万元,李某碍于情面,未与妻子商量便予以答应,并在连带保证担保合同上签字认可....”共1000多个字
则query和doc按照公式(1)计算的相似度矩阵如表1所示。Query分为7个词,即q=7,Doc分为394个词,即d=394。由表1可得到”担保“与”连带责任“的相似度为0.527,”担保“与”私自”相似度为0.216,则说明”担保“与”连带责任“更相关。
表1 Query和Doc的相似度矩阵
步骤3:截取相关性文本片段
步骤2中Query和Doc文本长度相差超过50倍,Doc中不可避免会出现无关的句子或者单词,如“年初扩大经营规模”等,采用全局匹配的方式会导致最终匹配得分受到影响,因此本发明首先根据Query和Doc的匹配矩阵提取局部相关性文本片段,再对局部相关性文本片段进行全局特征提取,将局部特征和全局特征相结合计算Query和Doc的匹配得分作为排序依据。局部相关性文本片段提取方式如下:
(1)设定模板W,计算模板内Query和Doc的综合匹配得分。该模板的宽度为输入Query的单词个数,步骤2中的例子q=7,本发明中取值w=2*7=14,则W为7*14的模板。模板W在匹配矩阵M中移动如图3所示,按照公式(2)计算匹配向量S,步骤2中例子的匹配向量折线图如图4所示,虚线为S的均值。
(2)根据匹配向量S截取局部相关性文本片段。在匹配向量S中选取n个长度为w(模板长度)的文本片段,本应用中n=10。首先计算向量S的均值 S0=mean(S),步骤2中的例子S0=7.04。计算S>S0时S所有的峰值及峰值对应的下标,如果峰值个数小于10则取全部峰值,如果峰值个数大于10,则取10个峰值。上例中计算获得9个峰值,取峰值对应的文本片段拼接在一起获得最终相关性文本Ds,例如:“向漯河市某信用社贷款10万元,李兵碍于情面,未予妻子商量便予以答应,并在连带保证担保合同上签字认可”,“ 个人名义所负债务主张权利的,应当按夫妻共同债务处理,故作为妻子应对此承担连带责任” 。取峰值对应文本片段的匹配矩阵拼接在一起获得矩阵Ms。
步骤4:构建特征向量
步骤3获得的相关性文本Ds,极大的压缩了目标文档,在保留Doc主要信息的情况下解决了Query和Doc长度极度不匹配问题。Query和Ds中相似度高的单词越多则匹配程序越高,Query中多个单词连续出现在Ds也说明匹配程度越高。根据以下步骤计算Query和性关文本Ds的全局相关性,构建特征向量:
(1)计算Ms中单词统计信息。匹配矩阵Ms中的值mij∈[-1,1],代表Query 中第i个单词和Doc中第j个单词的语义相似度,mij越大相似度越高,本发明将将区间[-1,1]按照[-0.5,0,0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.5,0.6,0.7,0.8,0.9,1.0]划分为 16个区间为:{[-1,-0.5),[-0.5,0),[0,0.1),[0.1,0.15),[0.15,0.2),[0.2,0.25),[0.25,0.3),[0.3,0.35),[0.35,0.4),[0.4,0.5),[0.5,0.6),[0.6,0.7),[0.7,0.8),[0.8,0.9),[0.9,1.0) [1,1]},这里没有采用等分的形式,有利于将不同的特征层次化,并且将[1,1]单独提取出来获得精确匹配信息,区间的划分可按照实际业务场景确定有很多不同的划分形式,统计矩阵Ms的值落入各区间的个数,获得统计特征Fm,直方图如图5所示。
(2)根据Ms计算词共现个数。采用宽度为q(Query中单词个数)长度为l 的模板,l≥3本发明中取l=7,统计模板中同时存在2个和3个相似度值高于m0的个数,m0>0.5为相似度阈值根据业务需求选取,本应用选取m0=0.7。模板内词共现特征按照公式(3)计算,并按照公式(4)计算最终的特征向量。
步骤5:计算匹配值并排序
局部匹配保持文本的语序特征,最终获得的特征向量是在局部特征中计算的统计信息为无序特征,因此不适合常用的CNN和RNN等深度学习算法模型,本发明直接将特征输入到公式(5)所示的神经网络模型中,σ(·)选取tanh为激活函数,网络层和输出层连接一个softmax层,得到最终的匹配得分score,根据匹配得分score从大到小进行排序。
实施例二
参照图6,为了实现实施例一所述的一种面向司法文本的搜索排序方法,本发明实施例还提供了一种用于实施上述面向司法文本的搜索排序方法的搜索排序系统,包括:
第一获取模块,用于获取司法文本数据Doc,并对所述司法文本数据进行分词处理,预训练词向量;
第二获取模块,用于获取用户输入的法律咨询问题Query;
相关性计算模块,用于计算司法文本数据Doc和所述法律咨询问题Query 的匹配得分,构建所述司法文本数据Doc和所述法律咨询问题Query的匹配矩阵,依据所述匹配矩阵截取相关性文本,计算所述相关性文本中词和词共现的统计信息构建特征向量,输入神经网络模型计算匹配得分;
排序模块,用于根据所述匹配得分从大到小进行排序,并向所述用户展示。
本实施例中的第一获取模块获取司法文本数据Doc,并对所述司法文本数据进行分词处理,预训练词向量并传输给相关性计算模块,第二获取模块获取获取用户输入的法律咨询问题Query传输给相关性计算模块,相关性计算模块计算司法文本数据Doc和所述法律咨询问题Query的匹配得分,构建所述司法文本数据Doc和所述法律咨询问题Query的匹配矩阵,依据所述匹配矩阵截取相关性文本,计算所述相关性文本中词和词共现的统计信息构建特征向量,输入神经网络模型计算匹配得分并将匹配得分保存并传输给排序模块,排序模块根据所述匹配得分从大到小进行排序,并向所述用户展示。
本发明采用基于相关性的方法对目标文档进行排序,更适用于司法文本短 Query和长Doc的应用场景。本发明采用司法文本数据预训练的词向量计算 Query和Doc之间的匹配矩阵,并依据匹配矩阵截取相关性文本片段,充分考虑了词和文档上下文特征,匹配结果更可靠。本发明计算相关性文本片段中词和词共现的统计信息构建特征向量,将Query和Doc之间的局部相关性和全局相关性相结合,排序结果更加精确。本发明采用统计信息构建特征向量,将不定长的文本数据快速处理为定长输入,再输入网络模型中计算,降低算法复杂度加快算法运行速度。
Claims (9)
1.一种面向司法文本的搜索排序方法,其步骤如下:
(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,再根据分词后的数据预训练司法文本词向量;
(2)构建相似度匹配矩阵:采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M;
(3)截取相关性文本片段:在Query和Doc的相似度匹配矩阵M中提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;
其中局部相关性文本片段的提取方式如下:
1)设定模板T,所述模板T的宽度为Query的单词个数,长度由Query的长度和具体应用场景决定,计算模板内Query和Doc的匹配向量:模板T在步骤(2)中相似度匹配矩阵M中移动,按照公式(2)计算匹配向量S,
其中,w为模板长度,k为下标,sk为Query和Doc中从单词Dk到单词Dk+w的文本片段的综合匹配得分;d为Doc的单词个数,max()为取最大值函数,M·k是相似度匹配矩阵M中所有的行第k列,max(M·k)为求第k列的最大值即取最强特征避免其他干扰项,S为Query和Doc的匹配向量;
2)根据匹配向量S截取局部相关性文本片段:在匹配向量S中选取n个长度为w的文本片段;首先计算向量S的均值S0=mean(S),计算S>S0时S所有的峰值及峰值对应的下标,取峰值对应的文本片段拼接在一起获得最终相关性文本Ds,取峰值对应文本片段的匹配矩阵拼接在一起获得矩阵Ms;
(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;
(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到最终的Query和Doc的匹配score,然后根据匹配score大小进行排序。
2.根据权利要求1所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(1)中的分词处理包括:构建司法领域分词词典,并采用jieba分词对司法文本数据Doc进行分词处理。
3.根据权利要求1所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(1)中的词向量的训练方法为word2vec训练方法。
5.根据权利要求1所述的一种面向司法文本的搜索排序方法,其特征在于:如果峰值个数小于n则取全部峰值,如果峰值个数大于n,则由大到小取n个峰值。
6.根据权利要求1所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(4)中的特征向量F的构建过程如下:
I、计算矩阵Ms中单词统计信息:矩阵Ms中的值mij∈[-1,1],代表Query中第i个单词和Doc中第j个单词的语义相似度,mij越大相似度越高,将[-1,1]划分若干区间,统计矩阵Ms中的值落入各区间的个数,获得特征Fm;
II、根据矩阵Ms计算词共现个数:采用宽度为q长度为l的模板,l≥3,统计模板中同时存在2个和3个相似度值高于m0的个数,m0>0.5为相似度阈值;模板内词共现特征计算如公式(3)所示,
f2为两个词在模板内共现特征,f3为3个词在模板内共现特征,i,j,k为下标,m0为相似度阈值,max()为取最大值函数,min()为取最小值函数,1{·}为大括号内值为真时取值为1,否则取值为0,Ms为步骤(3)中获得的矩阵,Ms·i表示矩阵中所有行第i列的值;
Ms中词共现特征如公式(4)计算,
F2是Doc中两个词的共现特征,F3是Doc中三个词的共现特征,∑·是求和函数,F是最终获得的特征向量。
7.根据权利要求6所述的一种面向司法文本的搜索排序方法,其特征在于:mij的区间划分采用不等分的形式进行划分。
9.实现权利要求1所述的一种面向司法文本的搜索排序方法的系统,其特征在于,包括:
第一获取模块,用于获取司法文本数据Doc,并对所述司法文本数据进行分词处理,预训练词向量;
第二获取模块,用于获取用户输入的法律咨询问题Query;
相关性计算模块,用于计算司法文本数据Doc和所述法律咨询问题Query的匹配得分,采用预训练的词向量构建所述司法文本数据Doc和所述法律咨询问题Query的相似度匹配矩阵,依据所述相似度匹配矩阵截取相关性文本,计算所述相关性文本中词和词共现的统计信息构建特征向量,输入神经网络模型计算匹配得分;
排序模块,用于根据所述匹配得分从大到小进行排序,并向所述用户展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554551.5A CN110347812B (zh) | 2019-06-25 | 2019-06-25 | 一种面向司法文本的搜索排序方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910554551.5A CN110347812B (zh) | 2019-06-25 | 2019-06-25 | 一种面向司法文本的搜索排序方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347812A CN110347812A (zh) | 2019-10-18 |
CN110347812B true CN110347812B (zh) | 2021-09-10 |
Family
ID=68182984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910554551.5A Active CN110347812B (zh) | 2019-06-25 | 2019-06-25 | 一种面向司法文本的搜索排序方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347812B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859090A (zh) * | 2020-03-18 | 2020-10-30 | 齐浩亮 | 基于面向源检索的局部匹配卷积神经网络模型获得抄袭源文档的方法 |
CN113139106B (zh) * | 2021-05-07 | 2022-03-15 | 杭州世平信息科技有限公司 | 一种保密检查的事件审核方法和装置 |
CN116758104B (zh) * | 2023-08-21 | 2023-11-14 | 山东科技大学 | 一种基于改进GCNet的多实例人像抠图方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015159417A1 (ja) * | 2014-04-18 | 2015-10-22 | 株式会社日立製作所 | 撮影映像による文書検索システム |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
CN108804443A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 一种基于多特征融合的司法类案搜索方法 |
CN108846077A (zh) * | 2018-06-08 | 2018-11-20 | 泰康保险集团股份有限公司 | 问答文本的语义匹配方法、装置、介质及电子设备 |
-
2019
- 2019-06-25 CN CN201910554551.5A patent/CN110347812B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015159417A1 (ja) * | 2014-04-18 | 2015-10-22 | 株式会社日立製作所 | 撮影映像による文書検索システム |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
CN108804443A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 一种基于多特征融合的司法类案搜索方法 |
CN108846077A (zh) * | 2018-06-08 | 2018-11-20 | 泰康保险集团股份有限公司 | 问答文本的语义匹配方法、装置、介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
"DeepRank: A New Deep Architecture for Relevance Ranking in Information Retrieval";Liang Pang等;《CIKM’17:Proceedings of the 2017 ACM on Conference on Information and Knowledge Management》;20171110;第257-266页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110347812A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN108491462B (zh) | 一种基于word2vec的语义查询扩展方法及装置 | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及系统 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
Wen et al. | Research on keyword extraction based on word2vec weighted textrank | |
CN110347812B (zh) | 一种面向司法文本的搜索排序方法及系统 | |
CN106951438A (zh) | 一种面向开放域的事件抽取系统及方法 | |
CN106295796A (zh) | 基于深度学习的实体链接方法 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
CN106294639A (zh) | 基于语义的跨语言专利新创性预判分析方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN108920599B (zh) | 一种基于知识本体库的问答系统答案精准定位和抽取方法 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN115309872B (zh) | 一种基于Kmeans召回的多模型熵加权检索方法及系统 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN112148886A (zh) | 一种内容知识图谱的构建方法及系统 | |
CN106570120A (zh) | 一种改进的关键词优化实现搜索引擎优化技术 | |
CN111625621A (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN116362221A (zh) | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 | |
CN116450883A (zh) | 基于视频内容细粒度信息的视频时刻检索方法 | |
CN108595413B (zh) | 一种基于语义依存树的答案抽取方法 | |
CN113779987A (zh) | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Patentee after: Yinjiang Technology Co.,Ltd. Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Patentee before: ENJOYOR Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |