CN110134761A - 判决文书信息检索方法、装置、计算机设备和存储介质 - Google Patents
判决文书信息检索方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110134761A CN110134761A CN201910303290.XA CN201910303290A CN110134761A CN 110134761 A CN110134761 A CN 110134761A CN 201910303290 A CN201910303290 A CN 201910303290A CN 110134761 A CN110134761 A CN 110134761A
- Authority
- CN
- China
- Prior art keywords
- document
- word
- semantic
- information
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000007906 compression Methods 0.000 claims abstract description 10
- 230000006835 compression Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 22
- 238000005194 fractionation Methods 0.000 claims description 10
- 239000002245 particle Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 9
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000027418 Wounds and injury Diseases 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000002896 database filtering Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 231100000518 lethal Toxicity 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 208000037974 severe injury Diseases 0.000 description 1
- 230000009528 severe injury Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及大数据技术领域,应用于数据检索行业,提供一种判决文书信息检索方法、装置、计算机设备和存储介质,整个方案采用哈希值的方式对待检索信息和判决文书数据库中数据进行压缩,根据哈希值进行第一阶段定位,查找到待选目标判决文书集合,在第二阶段采用相似度匹配方式,在目标判决文书集合中查找到目标判决文书,由于采用哈希值压缩方式显著减少数据处理量,并且采用哈希值压缩与相似度匹配方式确保检索的高效与准确。
Description
技术领域
本申请涉及检索技术领域,特别是涉及一种判决文书信息检索方法、装置、计算机设备和存储介质。
背景技术
随着科学技术的房展,目前大量的数据涌入到人们生活中,如何在海量的数据中检索到所需数据已经成为难题。
以判决文书为例,随着时间推移,日积月累的判决文书是一个海量的数据,如何在这个海量的数据检索到当前所需信息困扰着用户。常规的检索方式包括信息索引检索和语义信息检索两种,其中,信息索引检索基于倒排索引、关键词匹配等方式,得到的结果不准确;而语义信息检索较为准确,但是其数据处理量,检索速度较慢。
发明内容
基于此,有必要针对上述技术问题,提供一种准确且高效的判决文书信息检索方法、装置、计算机设备和存储介质。
一种判决文书信息检索方法,所述方法包括:
获取待检索信息,对待检索信息进行基于语义的词语拆分;
提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,所述因子指标为影响判决文书中判决结果的指标;
将所述焦点词语和所述因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值;
根据所述哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,所述判决文书数据库中存储有用于表征哈希值与判决文书之间对应关系的数据;
将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。
在其中一个实施例中,所述对语义拆分结果进行因子指标抽取,得到因子向量包括:
抽取所述语义拆分结果中关联的因子指标;
根据所述语义拆分结果,对抽取的所述因子指标进行定性判断,得到因子向量。
在其中一个实施例中,所述提取语义拆分结果中焦点词语包括:
获取焦点词语集合;
根据所述焦点词语结合,提取语义拆分结果中焦点词语。
在其中一个实施例中,所述获取焦点词语集合包括:
获取历史判决文书样本;
随机选择单个历史判决文书样本,提取选择的单个历史判决文书样本中词频大于预设词频阈值的词语,得到待选词语集合;
获取所述待选词语集合中各个词语在其他历史判决文书样本中的词频,记录为逆词频;
分别计算所述待选词语集合中各个词语词频与对应逆词频的乘积,选择所述乘积大于预设阈值对应的词语,生成焦点词语集合。
在其中一个实施例中,所述提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量之前,还包括:
对语义拆分出的词语进行去除语气词与企业名称清洗。
在其中一个实施例中,所述将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书包括:
将待检索信息与待选目标判决文书集合输入至预设相似度匹配模型;
获取待检索信息与所述待选目标判决文书集合中各个子集的相似度;
选择相似度最高的子集作为目标判决文书。
一种判决文书信息检索装置,所述装置包括:
词语拆分模块,用于获取待检索信息,对待检索信息进行基于语义的词语拆分;
因子抽取模块,用于提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,所述因子指标为影响判决文书中判决结果的指标,因子指标为影响判决文书中判决结果的指标;
编码压缩模块,用于将所述焦点词语和所述因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值;
查找模块,用于根据所述哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,所述判决文书数据库中存储有用于表征哈希值与判决文书之间对应关系的数据;
相似度匹配模块,用于将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。
在其中一个实施例中,所述因子抽取模块用于抽取所述语义拆分结果中关联的因子指标;根据所述语义拆分结果,对抽取的所述因子指标进行定性判断,得到因子向量。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的方法的步骤。
上述判决文书信息检索方法、装置、计算机设备和存储介质,获取待检索信息,对待检索信息进行基于语义的词语拆分,提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,将焦点词语和因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值,根据所述哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。整个过程中,采用哈希值的方式对待检索信息和判决文书数据库中数据进行压缩,根据哈希值进行第一阶段定位,查找到待选目标判决文书集合,在第二阶段采用相似度匹配方式,在目标判决文书集合中查找到目标判决文书,由于采用哈希值压缩方式显著减少数据处理量,并且采用哈希值压缩与相似度匹配方式确保检索的高效与准确。
附图说明
图1为一个实施例中判决文书信息检索方法的流程示意图;
图2为另一个实施例中判决文书信息检索方法的流程示意图;
图3为一个实施例中判决文书信息检索装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,一种判决文书信息检索方法,方法包括:
S100:获取待检索信息,对待检索信息进行基于语义的词语拆分。
基于语义的词语拆分是指基于词语的含义,将待检索信息拆分为独立的词语。待检索信息可以为某份判决文书中的一部分,例如某一段、某一句话以及判断结果等;待检索信息还可以为判决文件中关键部分内容,例如判决文书的判决结果、判决文书中涉事双方名称等。如待检索信息为“持铁棍、斧子等工具对于某甲实施殴打,被害人尤某在帮助于某甲抵挡时被砍”,进行基于语义的词语拆分结果为:持、铁棍、斧头、工具、于某甲、实施、殴打、被害人、尤某、帮助、于某甲、抵挡时、被砍。
S200:提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,因子指标为影响判决文书中判决结果的指标。
焦点词语一般是用于表征整个判决文书主要内容的关键性词语,针对这类词语可以基于历史经验数据构建焦点词语集合,根据预设焦点词语集合与得到词语拆分结果进行匹配得到焦点词语,例如焦点词语可以为殴打、砍伤、重伤、轻伤、刀、致死等。因子指标用于左右(决定)整个判决文书判决结果,例如是否牟利、是否侵犯、是否故意伤害等,因子指标的选定同样可以基于历史经验数据分析得到,一般来说,由于判决文书的格式采用同一格式和描述方式,会选择判决文书的正文和结论部分作为数据分析,从中挑选出因子指标,对因子指标进行定性判断,得到因子向量,例如是否牟利-是、是否致死-否等。进一步的,可以分析历史判决文书样本,构建因子指标体系,因子指标体系采用树状架构,可以划分为多个大类因子指标、在每个大类因子指标下划设多个小类因子指标。
S300:将焦点词语和因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值。
预设语义哈希向量模型是预先构建的模型,其可以根据历史数据对语义哈希模型训练得到,其具体可以使根据历史数据对深度神经网络模型进行训练得到预设语义哈希向量模型。本步骤S300可以理解一个数据压缩的过程,针对输入到预设语义哈希向量模型中大量数据,再读取编码层中的编码,输入的大量数据压缩为哈希值。例如假定步骤S200得到10000个焦点词语和50个因子向量,10050个特征输入至预设语义哈希向量模型中,通过步骤S300编码压缩为哈希值可以压缩为16维或32维数据,压缩后数据量极度减小,有利于后期处理。
S400:根据哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,判决文书数据库中存储有用于表征哈希值与判决文书之间对应关系的数据。
待搜索判决文书数据库是预先构建的数据库,在数据库内存储有大量的判决文书,另外还存储有判决文书对应的哈希值。由于哈希值是根据输入的特征生成的,而输入的特征又能准确表征整个待检索信息,因此基于哈希值可以在待搜索判决文书数据中查找到与待搜索判决文书相似的判决文书。另外,由于数据已被压缩,其能够查找到的相似判决文书较多,可以搜索到的相似判决文书可能较多,可以将其汇聚为待选目标判决文书集合。根据步骤S300得到待检索信息在数据库海量数据中查找相似判决文书,得到待选目标判决文书集合。继续以上述为例,在步骤S300中将10050个向量压缩为16维的哈希值,根据该16维哈希值,在判决文书数据库中进行查找可以查找到1000个相似判决文书,需要指出的是该相似判决文书可以是完整的判决文书,也可以是判决文书中的一部分。在某个实施例中,待检索信息为“钟凤建与陈德祥、张海源机动车交通事故责任纠纷一审民事判决书”步骤S400将其拆分为1000个向量输入至预设语义哈希向量模型中,得到32维的哈希值其具体为【0 00 1 1……0 1 1 1】,根据该32维的哈希值在待搜索判决文书数据库中查找到相似的待选目标判决文书集合包括:【0 0 0 1 1……0 1 1 1】姜雪琴与太平财产保险有限公司宜昌中心支公司、石雷机动车交通事故责任纠纷一审民事判决书;【0 0 0 1 1……0 1 0 1】章瀚与厦门金原融资担保有限公司一般借款合同纠纷申请再审民事裁定书;可以根据哈希值,可以极大程度压缩原始数据另,在海量数据中快速查找到比较相似的待选信息。
S500:将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。
将带检索信息与待选目标判决集合中各个子集进行相似度匹配,选取匹配的度最高或者匹配度大于预设阈值对应的文本作为目标判决文书。由于待选目标判决文书集合与原始数据库中数据已经大大减少,在满足检索的准确性同时,将带检索信息与待选目标判决文书集合进行相似度匹配可以极大减少数据处理量,高效且准确检索到目标判决文书。
上述判决文书信息检索方法,获取待检索信息,对待检索信息进行基于语义的词语拆分,提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,将焦点词语和因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值,根据哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。整个过程中,采用哈希值的方式对待检索信息和判决文书数据库中数据进行压缩,根据哈希值进行第一阶段定位,查找到待选目标判决文书集合,在第二阶段采用相似度匹配方式,在目标判决文书集合中查找到目标判决文书,由于采用哈希值压缩方式显著减少数据处理量,并且采用哈希值压缩与相似度匹配方式确保检索的高效与准确。
在其中一个实施例中,对语义拆分结果进行因子指标抽取,得到因子向量包括:抽取语义拆分结果中关联的因子指标;根据语义拆分结果,对抽取的因子指标进行定性判断,得到因子向量。
因子指标用于影响最终判决结果,例如是否构成犯罪、是否承担连带责任、是否非法侵占、是否牟利等。这些指标的提取可以基于对历史判决书文本分析预先设定,由于判决文书有其固定的格式,在其判决结果部分会陈述本次判决结果的事实依据有哪些,基于这些常规的事实依据可以提取出因子指标,再对这些因子指标进行定性判断,判断是否存在该因子指标对应的情况,得到因子向量。可以理解,在因子向量中包括因子指标和定性判定结果两个部分,例如因子指标包括是否构成犯罪、是否承担连带责任、是否非法侵占、是否牟利,对这些因子指标进行定性判定,得到因子向量为未构成范围、承担连带责任、非法侵占、牟利。
在其中一个实施例中,提取语义拆分结果中焦点词语包括:获取焦点词语集合;根据焦点词语结合,提取语义拆分结果中焦点词语。
焦点词语集合可以是预先构建的,例如基于历史数据分析得知在判决文书中哪些词语属于焦点词语,焦点词语一般是在判决文书中多次出现的词语,可以基于词频来确定。例如殴打、枪、刀、砍伤等。进一步的,焦点词语集合可以采用如下方式生成:获取历史判决文书样本;随机选择单个历史判决文书样本,提取选择的单个历史判决文书样本中词频大于预设词频阈值的词语,得到待选词语集合;获取待选词语集合中各个词语在其他历史判决文书样本中的词频,记录为逆词频;分别计算待选词语集合中各个词语词频与对应逆词频的乘积,选择乘积大于预设阈值对应的词语,生成焦点词语集合。
在实际应用中,从历史判决文书样本中提取高频词语,获取任意单个判决文书中的高频词语的词频以及该词语在其他判决文书中的逆词频,计算该词语的词频*逆词频的乘积,选择乘积大于预设值的词语作为焦点词语集合中的子集。在上述“其他”可以是除当前选定的判决文书以外的所有判决文书,也可以是随机选择另外一个判决文书作为逆词频的统计样本。例如从历史判决文书中抽取判决文书样本一和判决文书样本二,统计在判决样本一种各个词语的词频,得到高频词语A、B、C计算词语A、B、C在判决文书样本二中的词频作为逆词频,计算词频与逆词频的乘积,选择乘积较大的词语作为焦点词语,重复上述操作,最终生成焦点词语集合。在上述实施中,焦点词语集合考虑词频和逆词频,逆词频考虑部分词语可能在单个判决文书词频较高,但是在其他判决文书中词频交底情况,例如某些语气词,排除这部分词语的干扰,准确构建焦点词语集合。
如图2所示,在其中一个实施例中,步骤S200之前,还包括:
S120:对语义拆分出的词语进行去除语气词与企业名称清洗。
企业名称可以通过基于数据库的命名实体来识别。在数据库中存储有比较常见的企业名称和基于语法的常规语气词,当进行数据清洗时,将拆分出的词语在数据库中进行查找过滤,当某个词语可以再数据库中查找到时,将该词语过滤掉。例如待检索信息如下“被告人朱某在南京市江宁区横溪街道UNK社区美尚家具厂门前,因驾车问题与于某甲发生争执,后朱某纠集他人至美尚家具厂车间内”基于实体识别出差分的词语中“尚美家具厂”为企业名称,对该词语进行过滤。在本实施例中,针对拆分出的词语进行清洗,减少不必要或无价值的词语进行下一步处理,显著减少下一步数据处理量,提高整个方案的处理效率。
如图2所示,在其中一个实施例中,步骤S500包括:
S520:将待检索信息与待选目标判决文书集合输入至预设相似度匹配模型。
S540:获取待检索信息与待选目标判决文书集合中各个子集的相似度。
S560:选择相似度最高的子集作为目标判决文书。
相似度匹配模型是预先构建的模型,其可以准确识别输入数据之间的相似度。在本实施例中,采用相似度匹配模型方式,快速且准确确定目标判决文书,给用户带来便利。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行
如图3所示,一种判决文书信息检索装置,装置包括:
词语拆分模块100,用于获取待检索信息,对待检索信息进行基于语义的词语拆分;
因子抽取模块200,用于提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,因子指标为影响判决文书中判决结果的指标;
编码压缩模块300,用于将焦点词语和因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值;
查找模块400,用于根据哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,判决文书数据库中存储有用于表征哈希值与判决文书之间对应关系的数据;
相似度匹配模块500,用于将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。
上述判决文书信息检索装置,词语拆分模块100获取待检索信息,对待检索信息进行基于语义的词语拆分,因子抽取模块200提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,编码压缩模块300将焦点词语和因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值,查找模块400哈希值根据哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,相似度匹配模块500将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。整个过程中,采用哈希值的方式对待检索信息和判决文书数据库中数据进行压缩,根据哈希值进行第一阶段定位,查找到待选目标判决文书集合,在第二阶段采用相似度匹配方式,在目标判决文书集合中查找到目标判决文书,由于采用哈希值压缩方式显著减少数据处理量,并且采用哈希值压缩与相似度匹配方式确保检索的高效与准确。
在其中一个实施例中,因子抽取模块200还用于因子指标获取模块,用于获取抽取语义拆分结果中关联的因子指标;根据语义拆分结果,对抽取的因子指标进行定性判断,得到因子向量。
在其中一个实施例中,因子抽取模块还用于获取焦点词语集合;根据焦点词语结合,提取语义拆分结果中焦点词语。
在其中一个实施例中,因子抽取模块还用于获取历史判决文书样本;随机选择单个历史判决文书样本,提取选择的单个历史判决文书样本中词频大于预设词频阈值的词语,得到待选词语集合;获取待选词语集合中各个词语在其他历史判决文书样本中的词频,记录为逆词频;分别计算待选词语集合中各个词语词频与对应逆词频的乘积,选择乘积大于预设阈值对应的词语,生成焦点词语集合。
在其中一个实施例中,上述判决文书信息检索装置还包括清洗模块,用于对语义拆分出的词语进行去除语气词与企业名称清洗。
在其中一个实施例中,相似度匹配模块500还用于将待检索信息与待选目标判决文书集合输入至预设相似度匹配模型;获取待检索信息与待选目标判决文书集合中各个子集的相似度;选择相似度最高的子集作为目标判决文书。
关于判决文书信息检索装置的具体限定可以参见上文中对于判决文书信息检索方法的限定,在此不再赘述。上述判决文书信息检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种判决文书信息检索方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待检索信息,对待检索信息进行基于语义的词语拆分;
提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,因子指标为影响判决文书中判决结果的指标;
将焦点词语和因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值;
根据哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,判决文书数据库中存储有用于表征哈希值与判决文书之间对应关系的数据;
将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
抽取语义拆分结果中关联的因子指标;根据语义拆分结果,对抽取的因子指标进行定性判断,得到因子向量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取焦点词语集合;根据焦点词语结合,提取语义拆分结果中焦点词语。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取历史判决文书样本;随机选择单个历史判决文书样本,提取选择的单个历史判决文书样本中词频大于预设词频阈值的词语,得到待选词语集合;获取待选词语集合中各个词语在其他历史判决文书样本中的词频,记录为逆词频;分别计算待选词语集合中各个词语词频与对应逆词频的乘积,选择乘积大于预设阈值对应的词语,生成焦点词语集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对语义拆分出的词语进行去除语气词与企业名称清洗。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将待检索信息与待选目标判决文书集合输入至预设相似度匹配模型;获取待检索信息与待选目标判决文书集合中各个子集的相似度;选择相似度最高的子集作为目标判决文书。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待检索信息,对待检索信息进行基于语义的词语拆分;
提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,因子指标为影响判决文书中判决结果的指标;
将焦点词语和因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值;
根据哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,判决文书数据库中存储有用于表征哈希值与判决文书之间对应关系的数据;
将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
抽取语义拆分结果中关联的因子指标;根据语义拆分结果,对抽取的因子指标进行定性判断,得到因子向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取焦点词语集合;根据焦点词语结合,提取语义拆分结果中焦点词语。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取历史判决文书样本;随机选择单个历史判决文书样本,提取选择的单个历史判决文书样本中词频大于预设词频阈值的词语,得到待选词语集合;获取待选词语集合中各个词语在其他历史判决文书样本中的词频,记录为逆词频;分别计算待选词语集合中各个词语词频与对应逆词频的乘积,选择乘积大于预设阈值对应的词语,生成焦点词语集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对语义拆分出的词语进行去除语气词与企业名称清洗。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将待检索信息与待选目标判决文书集合输入至预设相似度匹配模型;获取待检索信息与待选目标判决文书集合中各个子集的相似度;选择相似度最高的子集作为目标判决文书。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种判决文书信息检索方法,所述方法包括:
获取待检索信息,对待检索信息进行基于语义的词语拆分;
提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,所述因子指标为影响判决文书中判决结果的指标;
将所述焦点词语和所述因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值;
根据所述哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,所述判决文书数据库中存储有用于表征哈希值与判决文书之间对应关系的数据;
将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。
2.根据权利要求1所述的方法,其特征在于,所述对语义拆分结果进行因子指标抽取,得到因子向量包括:
抽取所述语义拆分结果中关联的因子指标;
根据所述语义拆分结果,对抽取的所述因子指标进行定性判断,得到因子向量。
3.根据权利要求1所述的方法,其特征在于,所述提取语义拆分结果中焦点词语包括:
获取焦点词语集合;
根据所述焦点词语结合,提取语义拆分结果中焦点词语。
4.根据权利要求3所述的方法,其特征在于,所述获取焦点词语集合包括:
获取历史判决文书样本;
随机选择单个历史判决文书样本,提取选择的单个历史判决文书样本中词频大于预设词频阈值的词语,得到待选词语集合;
获取所述待选词语集合中各个词语在其他历史判决文书样本中的词频,记录为逆词频;
分别计算所述待选词语集合中各个词语词频与对应逆词频的乘积,选择所述乘积大于预设阈值对应的词语,生成焦点词语集合。
5.根据权利要求1所述的方法,其特征在于,所述提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量之前,还包括:
对语义拆分出的词语进行去除语气词与企业名称清洗。
6.根据权利要求1所述的方法,其特征在于,所述将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书包括:
将待检索信息与待选目标判决文书集合输入至预设相似度匹配模型;
获取待检索信息与所述待选目标判决文书集合中各个子集的相似度;
选择相似度最高的子集作为目标判决文书。
7.一种判决文书信息检索装置,其特征在于,所述装置包括:
词语拆分模块,用于获取待检索信息,对待检索信息进行基于语义的词语拆分;
因子抽取模块,用于提取语义拆分结果中焦点词语,并对语义拆分结果进行因子指标抽取,得到因子向量,所述因子指标为影响判决文书中判决结果的指标;
编码压缩模块,用于将所述焦点词语和所述因子向量作为特征输入至预设语义哈希向量模型,读取预设语义哈希向量模型中编码层的编码,将编码压缩为哈希值;
查找模块,用于根据所述哈希值,在判决文书数据库中查找相似判决文书,生成待选目标判决文书集合,所述判决文书数据库中存储有用于表征哈希值与判决文书之间对应关系的数据;
相似度匹配模块,用于将待检索信息与待选目标判决文书集合中各判决文书进行相似度匹配,得到目标判决文书。
8.根据权利要求7所述的装置,其特征在于,所述因子抽取模块还用于抽取所述语义拆分结果中关联的因子指标;根据所述语义拆分结果,对抽取的所述因子指标进行定性判断,得到因子向量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910303290.XA CN110134761A (zh) | 2019-04-16 | 2019-04-16 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
PCT/CN2019/122888 WO2020211393A1 (zh) | 2019-04-16 | 2019-12-04 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910303290.XA CN110134761A (zh) | 2019-04-16 | 2019-04-16 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110134761A true CN110134761A (zh) | 2019-08-16 |
Family
ID=67570221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910303290.XA Pending CN110134761A (zh) | 2019-04-16 | 2019-04-16 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110134761A (zh) |
WO (1) | WO2020211393A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539022A (zh) * | 2020-04-27 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种特征匹配方法、目标对象的识别方法及相关硬件 |
CN111581332A (zh) * | 2020-04-29 | 2020-08-25 | 山东大学 | 基于三元组深度哈希学习的相似司法案例匹配方法及系统 |
CN111709252A (zh) * | 2020-06-17 | 2020-09-25 | 北京百度网讯科技有限公司 | 基于预训练的语义模型的模型改进方法及装置 |
CN111737420A (zh) * | 2020-08-07 | 2020-10-02 | 四川大学 | 一种基于争议焦点的类案检索方法及系统及装置及介质 |
WO2020211393A1 (zh) * | 2019-04-16 | 2020-10-22 | 深圳壹账通智能科技有限公司 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
CN113838457A (zh) * | 2020-06-24 | 2021-12-24 | 中兴通讯股份有限公司 | 语音交互的方法、电子设备及存储介质 |
CN115134660A (zh) * | 2022-06-27 | 2022-09-30 | 中国平安人寿保险股份有限公司 | 视频剪辑方法、装置、计算机设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123618A (zh) * | 2011-11-21 | 2013-05-29 | 北京新媒传信科技有限公司 | 文本相似度获取方法和装置 |
CN103425639A (zh) * | 2013-09-06 | 2013-12-04 | 广州一呼百应网络技术有限公司 | 一种基于信息指纹的相似信息识别方法 |
CN103778163A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种基于指纹的网页快速去重算法 |
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN104239373A (zh) * | 2013-06-24 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 为文档添加标签的方法及装置 |
JP2016042263A (ja) * | 2014-08-15 | 2016-03-31 | 富士通株式会社 | 文書管理装置、文書管理プログラム及び文書管理方法 |
CN105786799A (zh) * | 2016-03-21 | 2016-07-20 | 成都寻道科技有限公司 | 网络文章原创性判定方法 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN106933787A (zh) * | 2017-03-20 | 2017-07-07 | 上海智臻智能网络科技股份有限公司 | 判决文书相似度的计算方法、查找装置及计算机设备 |
CN107784110A (zh) * | 2017-11-03 | 2018-03-09 | 北京锐安科技有限公司 | 一种索引建立方法及装置 |
CN108255957A (zh) * | 2017-12-21 | 2018-07-06 | 杭州传送门网络科技有限公司 | 一种基于创投领域精准数据化推荐匹配方法 |
CN108573045A (zh) * | 2018-04-18 | 2018-09-25 | 同方知网数字出版技术股份有限公司 | 一种基于多阶指纹的比对矩阵相似度检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609419B (zh) * | 2011-01-21 | 2015-02-18 | 北京世纪读秀技术有限公司 | 相似数据排重方法 |
CN103714118B (zh) * | 2013-11-22 | 2017-02-08 | 浙江大学 | 图书交叉阅读方法 |
CN105574063B (zh) * | 2015-08-24 | 2019-02-22 | 西安电子科技大学 | 基于视觉显著性的图像检索方法 |
CN110134761A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
-
2019
- 2019-04-16 CN CN201910303290.XA patent/CN110134761A/zh active Pending
- 2019-12-04 WO PCT/CN2019/122888 patent/WO2020211393A1/zh active Application Filing
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123618A (zh) * | 2011-11-21 | 2013-05-29 | 北京新媒传信科技有限公司 | 文本相似度获取方法和装置 |
CN103778163A (zh) * | 2012-10-26 | 2014-05-07 | 广州市邦富软件有限公司 | 一种基于指纹的网页快速去重算法 |
CN104239373A (zh) * | 2013-06-24 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 为文档添加标签的方法及装置 |
CN103425639A (zh) * | 2013-09-06 | 2013-12-04 | 广州一呼百应网络技术有限公司 | 一种基于信息指纹的相似信息识别方法 |
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
JP2016042263A (ja) * | 2014-08-15 | 2016-03-31 | 富士通株式会社 | 文書管理装置、文書管理プログラム及び文書管理方法 |
CN105786799A (zh) * | 2016-03-21 | 2016-07-20 | 成都寻道科技有限公司 | 网络文章原创性判定方法 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN106933787A (zh) * | 2017-03-20 | 2017-07-07 | 上海智臻智能网络科技股份有限公司 | 判决文书相似度的计算方法、查找装置及计算机设备 |
CN107784110A (zh) * | 2017-11-03 | 2018-03-09 | 北京锐安科技有限公司 | 一种索引建立方法及装置 |
CN108255957A (zh) * | 2017-12-21 | 2018-07-06 | 杭州传送门网络科技有限公司 | 一种基于创投领域精准数据化推荐匹配方法 |
CN108573045A (zh) * | 2018-04-18 | 2018-09-25 | 同方知网数字出版技术股份有限公司 | 一种基于多阶指纹的比对矩阵相似度检索方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211393A1 (zh) * | 2019-04-16 | 2020-10-22 | 深圳壹账通智能科技有限公司 | 判决文书信息检索方法、装置、计算机设备和存储介质 |
CN111539022A (zh) * | 2020-04-27 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种特征匹配方法、目标对象的识别方法及相关硬件 |
CN111539022B (zh) * | 2020-04-27 | 2022-04-22 | 支付宝(杭州)信息技术有限公司 | 一种特征匹配方法、目标对象的识别方法及相关硬件 |
CN111581332A (zh) * | 2020-04-29 | 2020-08-25 | 山东大学 | 基于三元组深度哈希学习的相似司法案例匹配方法及系统 |
CN111709252A (zh) * | 2020-06-17 | 2020-09-25 | 北京百度网讯科技有限公司 | 基于预训练的语义模型的模型改进方法及装置 |
CN111709252B (zh) * | 2020-06-17 | 2023-03-28 | 北京百度网讯科技有限公司 | 基于预训练的语义模型的模型改进方法及装置 |
US11775766B2 (en) | 2020-06-17 | 2023-10-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for improving model based on pre-trained semantic model |
CN113838457A (zh) * | 2020-06-24 | 2021-12-24 | 中兴通讯股份有限公司 | 语音交互的方法、电子设备及存储介质 |
CN111737420A (zh) * | 2020-08-07 | 2020-10-02 | 四川大学 | 一种基于争议焦点的类案检索方法及系统及装置及介质 |
CN115134660A (zh) * | 2022-06-27 | 2022-09-30 | 中国平安人寿保险股份有限公司 | 视频剪辑方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020211393A1 (zh) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134761A (zh) | 判决文书信息检索方法、装置、计算机设备和存储介质 | |
US11714787B2 (en) | Construction method, device, computing device, and storage medium for constructing patent knowledge database | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
Beebe | Digital forensic research: The good, the bad and the unaddressed | |
CN112328762A (zh) | 基于文本生成模型的问答语料生成方法和装置 | |
US20090282025A1 (en) | Method for generating a representation of image content using image search and retrieval criteria | |
CN112732883A (zh) | 基于知识图谱的模糊匹配方法、装置和计算机设备 | |
CN109543007A (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
CN105159938B (zh) | 检索方法和装置 | |
US20040083224A1 (en) | Document automatic classification system, unnecessary word determination method and document automatic classification method | |
US20120053927A1 (en) | Identifying topically-related phrases in a browsing sequence | |
CN111177405A (zh) | 数据搜索匹配方法、装置、计算机设备和存储介质 | |
EP2304649A1 (en) | Frame based video matching | |
CN103593371A (zh) | 推荐搜索关键词的方法和装置 | |
CN109726664B (zh) | 一种智能表盘推荐方法、系统、设备及存储介质 | |
CN103559185B (zh) | 试验数据文档解析入库方法 | |
CN111368061B (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
CN109766474A (zh) | 审讯信息审核方法、装置、计算机设备和存储介质 | |
CN115794743A (zh) | 一种针对专利和期刊文献的综合检索方法及系统 | |
CN117271716A (zh) | 一种基于生成式语言模型的法律法规问答系统及构建方法 | |
CN110532456B (zh) | 案件查询方法、装置、计算机设备和存储介质 | |
CN114998004A (zh) | 一种基于企业金融贷款风控的方法及系统 | |
US20150254280A1 (en) | Hybrid Indexing with Grouplets | |
Billard et al. | Making sense of unstructured flash-memory dumps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |