CN107247743A - 一种司法类案检索方法及系统 - Google Patents
一种司法类案检索方法及系统 Download PDFInfo
- Publication number
- CN107247743A CN107247743A CN201710348412.8A CN201710348412A CN107247743A CN 107247743 A CN107247743 A CN 107247743A CN 201710348412 A CN201710348412 A CN 201710348412A CN 107247743 A CN107247743 A CN 107247743A
- Authority
- CN
- China
- Prior art keywords
- judicial
- document
- user
- interest
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 18
- 210000003813 thumb Anatomy 0.000 claims description 14
- 230000006399 behavior Effects 0.000 description 28
- 230000033228 biological regulation Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种司法类案检索方法及系统,该方法包括:接收用户输入的查询信息,并根据查询信息提取关键词;根据所述关键词,通过预先配置的语义词典,确定与所述关键词相同或相近的语义;对所述语义进行数据处理,确定所述语义所对应的查询特征信息;根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书;根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行输出呈现。本发明有效的提高了司法类案件检索时的个性化、智能化和专业化,增强了用户的体验性,提高了检索时的准确性。
Description
技术领域
本发明涉及数据检索技术领域,具体来说,涉及一种司法类案件检索方法及系统。
背景技术
随着社会信息的公开化和透明化,案件的审判结果也越来越受到社会的关注。由于不同用户的偏好不同,关心的文书案件差异也相对较大,现有的司法类案件检索应用,缺少与用户的互动,不能针对不同的用户搜索习惯作出相应的搜索调整,已经不能满足当前用户个性化和智能化的检索需求。总的来说,主要有如下几个方面:
1、用户无法准确的表达自己的需求。正常情况下用户很难用一个词或者一组词来准确的表达自己的需要,而现有的搜索引擎中使用的关键词匹配方式的搜索只是将关键词跟索引的词语进行机械的匹配。
2、缺少用户个性化服务。现有的搜索引擎没有对用户的搜索习惯、浏览偏好进行总结,用户经常搜索的内容不能按照用户兴趣对搜索结果进行排序,所有用户进行相同搜索时得到的结果都是相同的,不能针对用户兴趣将用户感兴趣的内容优先显示。
3.一篇文书仅仅使用内容信息来描述是不全面的,因为对于一篇文书,对于用户A是十分感兴趣的内容,但是对于用户B来说不一定,从而导致推荐结果的准确率和专业性大大的降低。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种司法类案检索方法及系统,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
根据本发明一方面,提供了一种司法类案检索方法。
该司法类案件检索方法,包括:
接收用户输入的查询信息,并根据查询信息提取关键词;
根据所述关键词,通过预先配置的语义词典,确定与所述关键词相同或相近的语义;
对所述语义进行数据处理,确定所述语义所对应的查询特征信息;
根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书;
根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行呈现。
其中,所述查询信息为文字信息。
其中,在对所述语义进行数据处理,确定所述语义所对应的查询特征信息时,可对语义的内容进行分析,确定所述语义中包含的法律法规、法律事实、法律争议要点;并将将确定出的所述法律法规、所述法律事实和/或所述法律争议要点作为所述查询特征信息。
其中,在根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书时:可预先配置司法文书数据库,并对所述司法文书数据库中的司法文书进行数据处理,确定每个司法文书所述对应的特征信息,其中,所述特征信息包括法律法规、法律事实和/或法律争议要点;并将所述查询特征信息与所述特征信息进行对比,并在对比结果为查询特征信息与所述特征信息相符的情况下,确定所述特征信息所对应的司法文书为所述查询特征信息所对应的欲查询司法文书。
其中,在根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行呈现时,可计算所述查询特征信息的特征向量以及所述查询特征信息所对应的司法文书的特征向量;并根据上述特征向量,基于向量空间模型确定所述查询信息的特征向量与所述司法文书的特征向量的相似度;再根据预先配置的权重,确定所述相似度所对应的权重总和,并根据权重总和的大小进行司法文书排序并呈现。
此外,上述司法类案件检索方法还包括:在对司法文书进行呈现后,根据用户浏览文书页面时的行为,确定用户对每个司法文书的兴趣度;将所述兴趣度与对应的司法文书的所对应的查询特征信息和/或用户的ID进行绑定,建立绑定关系;在再次接收用户输入的查询信息并确定对应的查询特征信息后,通过所述绑定关系判断所述查询特征信息是否具备对应的兴趣度;在判断结果为具备对应的兴趣度的情况下,在排序的基础上,再根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现。
其中,所述行为包括用户在文书页面停留时间、鼠标点击次数、用户对文书页面进行收藏、点赞。
其中,在根据所述行为,确定用户对每个司法文书的兴趣度时,可在所述文书页面停留时间大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在所述鼠标点击次数大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在用户对文书页面进行了收藏的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在用户对文书页面进行了点赞的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度。
此外,在根据所述行为,确定用户对每个司法文书的兴趣度时,还可根据所述文书页面停留时间和对该文书内容长度大小,确定停留时间和文书内容长度大小的比值;在所述比值大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣。
其中,在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时,可根据司法文书文档的更新时间,确定司法文书的新鲜度,并根据用户对对应的司法文书的兴趣度和该司法文书的新鲜度,通过预先配置的权重,计算兴趣度和新鲜度的权重总和,并将该权重总和作为排序评分;根据排序评分的高低进行排序,排序评分高的司法文书优先于排序评分低的司法文书。
此外,在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时,还可确定用户查询和司法文书的相似度,并在排序评分的基础上,根据所述相似度进行排序,相似度高者优先于相似度低者。
根据本发明另一方面,提供了一种司法类案检索系统。
该司法类案件检索系统包括:
接收模块,用于接收用户输入的查询信息,并根据查询信息提取关键词;
扩展模块,用于根据所述关键词,通过预先配置的语义词典,确定与所述关键词相同或相近的语义
处理模块,用于对所述语义进行数据处理,确定所述语义所对应的查询特征信息;
匹配模块,用于根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书;
呈现模块,用于根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行呈现。
其中,所述查询信息为文字信息。
其中,所述处理模块包括特征分析子模块和特征确定子模块,其中,所述特征分析子模块,用于对所述语义的内容进行分析,确定所述语义中包含的法律法规、法律事实、法律争议要点;所述特征确定子模块,用于将确定出的所述法律法规、所述法律事实和/或所述法律争议要点作为所述查询特征信息。
其中,所述匹配模块包括配置子模块和对比子模块,其中,所述配置子模块,用于预先配置司法文书数据库,并对所述司法文书数据库中的司法文书进行数据处理,确定每个司法文书所述对应的特征信息,其中,所述特征信息包括法律法规、法律事实和/或法律争议要点;所述对比子模块,用于将所述查询特征信息与所述特征信息进行对比,并在对比结果为查询特征信息与所述特征信息相符的情况下,确定所述特征信息所对应的司法文书为所述查询特征信息所对应的欲查询司法文书。
其中,所述呈现模块包括计算子模块、确定子模块、排序子模块,其中,所述计算子模块,用于计算所述查询特征信息的特征向量以及所述查询特征信息所对应的司法文书的特征向量;所述确定子模块,用于根据上述特征向量,基于向量空间模型确定所述查询信息的特征向量与所述司法文书的特征向量的相似度;所述排序子模块,用于根据预先配置的权重,确定所述相似度所对应的权重总和,并根据权重总和的大小进行司法文书排序并呈现。
此外,上述司法类案件检索系统还包括:行为确定模块,用于在对司法文书进行呈现后,根据用户浏览文书页面时的行为,确定用户对每个司法文书的兴趣度;关系绑定模块,用于将所述兴趣度与对应的司法文书的所对应的查询特征信息和/或用户的ID进行绑定,建立绑定关系;兴趣判断模块,用于在再次接收用户输入的查询信息并确定对应的查询特征信息后,通过所述绑定关系判断所述查询特征信息是否具备对应的兴趣度;二次排序模块,用于在判断结果为具备对应的兴趣度的情况下,在排序的基础上,再根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现。
其中,所述行为包括用户在文书页面停留时间、鼠标点击次数、用户对文书页面进行收藏、点赞。
其中,所述行为确定模块在根据所述行为,确定用户对每个司法文书的兴趣度时包括以下几种:在所述文书页面停留时间大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在所述鼠标点击次数大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在用户对文书页面进行了收藏的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在用户对文书页面进行了点赞的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度。
其中,所述行为确定模块在根据所述行为,确定用户对每个司法文书的兴趣度时,还可根据所述文书页面停留时间和对该文书内容长度大小,确定停留时间和文书内容长度大小的比值;在所述比值大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣。
其中,所述二次排序模块在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时,还可根据司法文书文档的更新时间,确定司法文书的新鲜度,并根据用户对对应的司法文书的兴趣度和该司法文书的新鲜度,通过预先配置的权重,计算兴趣度和新鲜度的权重总和,并将该权重总和作为排序评分;根据排序评分的高低进行排序,排序评分高的司法文书优先于排序评分低的司法文书。
其中,所述二次排序模块在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时,还可确定用户查询和司法文书的相似度,并在排序评分的基础上,根据所述相似度进行排序,相似度高者优先于相似度低者。
本发明有效的提高了司法类案件检索时的个性化、智能化和专业化,增强了用户的体验性,提高了检索时的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的司法类案检索方法的流程示意图;
图2是根据本发明实施例的司法类案检索系统的结构框图;
图3是根据本发明实施例的兴趣文书判断模型流程示意图;
图4是根据本发明实施例的兴趣特征知识库构建流程示意图;
图5是根据本发明实施例的司法类案件检索方式的整体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种司法类案件检索方法。
如图1所示,根据本发明实施例的司法类案件检索方法包括:
步骤S101,接收用户输入的查询信息,并根据查询信息提取关键词;
步骤S103,根据所述关键词,通过预先配置的语义词典,确定与所述关键词相同或相近的语义;
步骤S105,对所述语义进行数据处理,确定所述语义所对应的查询特征信息;
步骤S107,根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书;
步骤S109,根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行呈现。
其中,所述查询信息为文字信息。
其中,在对所述语义进行数据处理,确定所述语义所对应的查询特征信息时,可对语义的内容进行分析,确定所述语义中包含的法律法规、法律事实、法律争议要点;并将将确定出的所述法律法规、所述法律事实和/或所述法律争议要点作为所述查询特征信息。
其中,在根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书时:可预先配置司法文书数据库,并对所述司法文书数据库中的司法文书进行数据处理,确定每个司法文书所述对应的特征信息,其中,所述特征信息包括法律法规、法律事实和/或法律争议要点;并将所述查询特征信息与所述特征信息进行对比,并在对比结果为查询特征信息与所述特征信息相符的情况下,确定所述特征信息所对应的司法文书为所述查询特征信息所对应的欲查询司法文书。
其中,在根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行呈现时,可计算所述查询特征信息的特征向量以及所述查询特征信息所对应的司法文书的特征向量;并根据上述特征向量,基于向量空间模型确定所述查询信息的特征向量与所述司法文书的特征向量的相似度;再根据预先配置的权重,确定所述相似度所对应的权重总和,并根据权重总和的大小进行司法文书排序并呈现。
此外,上述司法类案件检索方法还包括:在对司法文书进行呈现后,根据用户浏览文书页面时的行为,确定用户对每个司法文书的兴趣度;将所述兴趣度与对应的司法文书的所对应的查询特征信息和/或用户的ID进行绑定,建立绑定关系;在再次接收用户输入的查询信息并确定对应的查询特征信息后,通过所述绑定关系判断所述查询特征信息是否具备对应的兴趣度;在判断结果为具备对应的兴趣度的情况下,在排序的基础上,再根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现。
其中,所述行为包括用户在文书页面停留时间、鼠标点击次数、用户对文书页面进行收藏、点赞。
其中,在根据所述行为,确定用户对每个司法文书的兴趣度时,可在所述文书页面停留时间大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在所述鼠标点击次数大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在用户对文书页面进行了收藏的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在用户对文书页面进行了点赞的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度。
此外,在根据所述行为,确定用户对每个司法文书的兴趣度时,还可根据所述文书页面停留时间和对该文书内容长度大小,确定停留时间和文书内容长度大小的比值;在所述比值大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣。
其中,在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时,可根据司法文书文档的更新时间,确定司法文书的新鲜度,并根据用户对对应的司法文书的兴趣度和该司法文书的新鲜度,通过预先配置的权重,计算兴趣度和新鲜度的权重总和,并将该权重总和作为排序评分;根据排序评分的高低进行排序,排序评分高的司法文书优先于排序评分低的司法文书。
此外,在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时,还可确定用户查询和司法文书的相似度,并在排序评分的基础上,根据所述相似度进行排序,相似度高者优先于相似度低者。
根据本发明的实施例,还提供了一种司法类案件检索系统。
如图2所示,根据本发明实施例的司法类案件检索系统包括:
接收模块201,用于接收用户输入的查询信息,并根据查询信息提取关键词;
扩展模块203,用于根据所述关键词,通过预先配置的语义词典,确定与所述关键词相同或相近的语义
处理模块205,用于对所述语义进行数据处理,确定所述语义所对应的查询特征信息;
匹配模块207,用于根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书;
呈现模块209,用于根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行呈现。
其中,所述查询信息为文字信息。
其中,所述处理模块205包括特征分析子模块(未示出)和特征确定子模块(未示出),其中,所述特征分析子模块,用于对所述语义的内容进行分析,确定所述语义中包含的法律法规、法律事实、法律争议要点;所述特征确定子模块,用于将确定出的所述法律法规、所述法律事实和/或所述法律争议要点作为所述查询特征信息。
其中,所述匹配模块207包括配置子模块(未示出)和对比子模块(未示出),其中,所述配置子模块,用于预先配置司法文书数据库,并对所述司法文书数据库中的司法文书进行数据处理,确定每个司法文书所述对应的特征信息,其中,所述特征信息包括法律法规、法律事实和/或法律争议要点;所述对比子模块,用于将所述查询特征信息与所述特征信息进行对比,并在对比结果为查询特征信息与所述特征信息相符的情况下,确定所述特征信息所对应的司法文书为所述查询特征信息所对应的欲查询司法文书。
其中,所述呈现模块209包括计算子模块(未示出)、确定子模块(未示出)、排序子模块(未示出),其中,所述计算子模块,用于计算所述查询特征信息的特征向量以及所述查询特征信息所对应的司法文书的特征向量;所述确定子模块,用于根据上述特征向量,基于向量空间模型确定所述查询信息的特征向量与所述司法文书的特征向量的相似度;所述排序子模块,用于根据预先配置的权重,确定所述相似度所对应的权重总和,并根据权重总和的大小进行司法文书排序并呈现。
此外,上述司法类案件检索系统还包括:行为确定模块(未示出),用于在对司法文书进行呈现后,根据用户浏览文书页面时的行为,确定用户对每个司法文书的兴趣度;关系绑定模块(未示出),用于将所述兴趣度与对应的司法文书的所对应的查询特征信息和/或用户的ID进行绑定,建立绑定关系;兴趣判断模块(未示出),用于在再次接收用户输入的查询信息并确定对应的查询特征信息后,通过所述绑定关系判断所述查询特征信息是否具备对应的兴趣度;二次排序模块(未示出),用于在判断结果为具备对应的兴趣度的情况下,在排序的基础上,再根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现。
其中,所述行为包括用户在文书页面停留时间、鼠标点击次数、用户对文书页面进行收藏、点赞。
其中,所述行为确定模块(未示出)在根据所述行为,确定用户对每个司法文书的兴趣度时包括以下几种:在所述文书页面停留时间大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在所述鼠标点击次数大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在用户对文书页面进行了收藏的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;在用户对文书页面进行了点赞的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度。
其中,所述行为确定模块(未示出)在根据所述行为,确定用户对每个司法文书的兴趣度时,还可根据所述文书页面停留时间和对该文书内容长度大小,确定停留时间和文书内容长度大小的比值;在所述比值大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣。
其中,所述二次排序模块(未示出)在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时,还可根据司法文书文档的更新时间,确定司法文书的新鲜度,并根据用户对对应的司法文书的兴趣度和该司法文书的新鲜度,通过预先配置的权重,计算兴趣度和新鲜度的权重总和,并将该权重总和作为排序评分;根据排序评分的高低进行排序,排序评分高的司法文书优先于排序评分低的司法文书。
其中,所述二次排序模块(未示出)在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时,还可确定用户查询和司法文书的相似度,并在排序评分的基础上,根据所述相似度进行排序,相似度高者优先于相似度低者。
为了方便理解本发明的上述技术方案,以下从基础构建方向对本发明的上述技术方案进行详细说明。
如图3-5所示,以下从查询语义扩展、用户兴趣特征提取、反馈学习排序模块、司法多特在融合检索模块四个方面对本发明的上述技术方案进行说明。
1、查询语义扩展
基于语义词典对关键词进行扩展,在检索过程中引入语义推理,提高用户查询和司法文书在语义上的一致性。
2、用户兴趣特征提取
主要通过用户浏览文书页面时的行为进行跟踪和计算,得到一个用户对该文书感兴趣的一个度量。
用户兴趣偏好总体上分为两类,一类为隐式反馈兴趣,如在某个文书页面停留的时间、鼠标的点击次数,鼠标点击次数高、停留时间长意味着用户感兴趣;另一类为显式反馈兴趣,主要为用户的主动标记行为,如收藏、点赞;
文书停留时间长也许可能是用户离开等行为造成,但是如果用户有阅读查看行为的话,必然会有鼠标点击行为;另外,文书内容的长短大小对停留时间、点击次数也会产生重要影响,因而,可以使用停留时间和文书内容长度大小的比值来判断。
3、反馈学习排序模型
假设用户输入查询为q,目标文书为d,则反馈学习排序模型建立的评分函数可表示为:
ScoreIR(d)=α×f新鲜度(d)+β×p兴趣度(d)
其中,α,β为离线训练的权重参数,
f新鲜度(d)表示文书的新鲜度,表示随着文档的更新时间增长而递减,因此,应为一衰减函数,随着时间衰减的越来越慢,其定义为:
f(d)=a-λt
其中,t表示文书d的更新时间,λ为调节参数。p兴经度(d)表示用户对文书的兴趣度,主要取决于用户兴趣特征,隐式兴趣分为两个部分,一部分为近期访问兴趣特征,另一部分为历史访问兴趣特征,显式兴趣分为点赞和收藏,其计算公式如下:
p(d)=w1×f近期访问(d)+w2×f历史访问(d)+w3×f点赞(d)+w4×f收藏(d)
f点赞(d)=log(1+num点赞数)
f收藏(d)=log(1+num收藏数)
其中,sgn为阶跃函数,CR为文书点击次数,ld为文书内容的长度,ti表示第i用户的访问时间,ε为时间-文书长度阈值系数,TC为历史总访问量,为历史平均访问时间,w1,w2,w3,w4为离线训练的权重参数。
4、司法多特征融合检索模型
司法检索模型主要从数学角度,来描述用户查询、司法文书以及它们相互对应关系的模型,其模型数学表达式如下:
model=<D,Q,F,Sim(q,d)>
其中,D表示司法文书信息空间集合,Q表示用户查询空间集合,F是一个框架,用来对全体信息、检索条件和它们之间的对应关系做出规范,Sim(q,d)表示查询和文书的相似度判断模型,采用多特征融合的空间向量模型,特征包括主题词、语言模型、基于tf/idf的分块加权的关键词等。通过将多特征融合,可以扬长避短,共同全面描述一个文书,计算查询和文书之间的相似度。
针对一篇文书仅使用内容信息来描述不全面的问题,引入兴趣度因子来描述用户的感兴趣程度,因而最终的检索模型对于每个具体的查询q和文书d会返回的得分值由文书内容相似度和用户兴趣度两个部分组成,计算公式如下:
score(q,d)=θ×Sim(q,d)+(1-θ)×ScoreIR(d)
其中,Sim(q,d)表示用户查询和文书的关联度,该值有司法检索模型得到,使用相似度值表示,该值的大小表示文书和查询的相似程度;ScoreIR(d)表示用户对该文书的兴趣度。
综上所述,借助于本发明的上述技术方案,本发明基于用户行为操作采集用户个性化兴趣信息,对用户兴趣的显示反馈信息和隐式反馈信息进行兴趣建模,从以相对准确但稀少的显示反馈如点赞、收藏、评论为基础,综合考虑隐式反馈如用户访问文书页面的停留时间、鼠标点击次数等浏览行为,抽取用户兴趣特征,然后通过反馈学习排序算法,最后对检索结果进行综合排序,大幅提高类案检索的个性化、智能化和专业性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种司法类案检索方法,其特征在于,包括:
接收用户输入的查询信息,并根据查询信息提取关键词;
根据所述关键词,通过预先配置的语义词典,确定与所述关键词相同或相近的语义;
对所述语义进行数据处理,确定所述语义所对应的查询特征信息;
根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书;
根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行呈现。
2.根据权利要求1所述的司法类案件检索方法,其特征在于,还包括:
在对司法文书进行呈现后,根据用户浏览文书页面时的行为,确定用户对每个司法文书的兴趣度;
将所述兴趣度与对应的司法文书的所对应的查询特征信息和/或用户的ID进行绑定,建立绑定关系;
在再次接收用户输入的查询信息并确定对应的查询特征信息后,通过所述绑定关系判断所述查询特征信息是否具备对应的兴趣度;
在判断结果为具备对应的兴趣度的情况下,在排序的基础上,再根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现。
3.根据权利要求2所述的司法类案件检索方法,其特征在于,所述行为包括用户在文书页面停留时间、鼠标点击次数、用户对文书页面进行收藏、点赞。
4.根据权利要求3所述的司法类案件检索方法,其特征在于,根据所述行为,确定用户对每个司法文书的兴趣度包括:
在所述文书页面停留时间大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;
在所述鼠标点击次数大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;
在用户对文书页面进行了收藏的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;
在用户对文书页面进行了点赞的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度。
5.根据权利要求4所述的司法类案件检索方法,其特征在于,根据所述行为,确定用户对每个司法文书的兴趣度还包括:
根据所述文书页面停留时间和对该文书内容长度大小,确定停留时间和文书内容长度大小的比值;
在所述比值大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣。
6.根据权利要求5所述的司法类案件检索方法,其特征在于,根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现包括:
根据司法文书文档的更新时间,确定司法文书的新鲜度,并根据用户对对应的司法文书的兴趣度和该司法文书的新鲜度,通过预先配置的权重,计算兴趣度和新鲜度的权重总和,并将该权重总和作为排序评分;
根据排序评分的高低进行排序,排序评分高的司法文书优先于排序评分低的司法文书。
7.根据权利要求6所述的司法类案件检索方法,其特征在于,根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现包括:
确定用户查询和司法文书的相似度,并在排序评分的基础上,根据所述相似度进行排序,相似度高者优先于相似度低者。
8.一种司法类案件检索系统,其特征在于,包括:
接收模块,用于接收用户输入的查询信息,并根据查询信息提取关键词;
扩展模块,用于根据所述关键词,通过预先配置的语义词典,确定与所述关键词相同或相近的语义;
处理模块,用于对所述语义进行数据处理,确定所述语义所对应的查询特征信息;
匹配模块,用于根据所述查询特征信息,在预先配置的司法文书数据库中,查找与所述查询特征信息相匹配的司法文书;
呈现模块,用于根据预先设置的排序规则,对查找出的所述司法文书进行排序,并将排序后的司法文书进行呈现。
9.根据权利要求8所述的司法类案件检索系统,其特征在于,还包括:
行为确定模块,用于在对司法文书进行呈现后,根据用户浏览文书页面时的行为,确定用户对每个司法文书的兴趣度;
关系绑定模块,用于将所述兴趣度与对应的司法文书的所对应的查询特征信息和/或用户的ID进行绑定,建立绑定关系;
兴趣判断模块,用于在再次接收用户输入的查询信息并确定对应的查询特征信息后,通过所述绑定关系判断所述查询特征信息是否具备对应的兴趣度;
二次排序模块,用于在判断结果为具备对应的兴趣度的情况下,在排序的基础上,再根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现。
10.根据权利要求9所述的司法类案件检索系统,其特征在于,所述行为包括用户在文书页面停留时间、鼠标点击次数、用户对文书页面进行收藏、点赞。
11.根据权利要求10所述的司法类案件检索系统,其特征在于,所述行为确定模块在根据所述行为,确定用户对每个司法文书的兴趣度时包括以下几种:
在所述文书页面停留时间大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;
在所述鼠标点击次数大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;
在用户对文书页面进行了收藏的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度;
在用户对文书页面进行了点赞的情况下,确定用户对对应的司法文书感兴趣,并计算兴趣度。
12.根据权利要求11所述的司法类案件检索系统,其特征在于,所述行为确定模块在根据所述行为,确定用户对每个司法文书的兴趣度时还包括:
根据所述文书页面停留时间和对该文书内容长度大小,确定停留时间和文书内容长度大小的比值;
在所述比值大于或等于预先设定阈值的情况下,确定用户对对应的司法文书感兴趣。
13.根据权利要求12所述的司法类案件检索系统,其特征在于,所述二次排序模块在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时包括:
根据司法文书文档的更新时间,确定司法文书的新鲜度,并根据用户对对应的司法文书的兴趣度和该司法文书的新鲜度,通过预先配置的权重,计算兴趣度和新鲜度的权重总和,并将该权重总和作为排序评分;
根据排序评分的高低进行排序,排序评分高的司法文书优先于排序评分低的司法文书。
14.根据权利要求13所述的司法类案件检索系统,其特征在于,所述二次排序模块在根据预定兴趣度排序规则,对司法文书进行排序,并将排序后的司法文书进行呈现时还包括:
确定用户查询和司法文书的相似度,并在排序评分的基础上,根据所述相似度进行排序,相似度高者优先于相似度低者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710348412.8A CN107247743A (zh) | 2017-05-17 | 2017-05-17 | 一种司法类案检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710348412.8A CN107247743A (zh) | 2017-05-17 | 2017-05-17 | 一种司法类案检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107247743A true CN107247743A (zh) | 2017-10-13 |
Family
ID=60016681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710348412.8A Pending CN107247743A (zh) | 2017-05-17 | 2017-05-17 | 一种司法类案检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107247743A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870988A (zh) * | 2017-10-17 | 2018-04-03 | 厦门市美亚柏科信息股份有限公司 | 一种信息核查方法、终端设备及存储介质 |
CN108334590A (zh) * | 2018-01-30 | 2018-07-27 | 吴雨潞 | 一种信息检索系统 |
CN109359178A (zh) * | 2018-09-14 | 2019-02-19 | 华南师范大学 | 一种检索方法、装置、存储介质及设备 |
CN109508372A (zh) * | 2018-06-27 | 2019-03-22 | 华北电力大学 | 一种基于司法领域知识抽取的高效司法文档分类方法 |
WO2019086996A1 (en) * | 2017-10-30 | 2019-05-09 | International Business Machines Corporation | Ranking of documents based on their semantic richness |
CN109902098A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 相似案例查找和排序方法、服务器及计算机可读存储介质 |
CN110647504A (zh) * | 2018-06-25 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 司法文书的检索方法及装置 |
CN111382769A (zh) * | 2018-12-29 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及系统 |
CN111625626A (zh) * | 2020-07-30 | 2020-09-04 | 杭州识度科技有限公司 | 一种基于多维度语义联合建模的多用户案例检索系统 |
CN113051289A (zh) * | 2021-03-11 | 2021-06-29 | 北京律联东方文化传播有限公司 | 法条检索方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN102902753A (zh) * | 2012-09-20 | 2013-01-30 | 北京奇虎科技有限公司 | 用于补全搜索词及建立个体兴趣模型的方法及装置 |
US20150032737A1 (en) * | 2013-07-29 | 2015-01-29 | International Business Machines Corporation | Ranking and recommendation of online content |
CN105718545A (zh) * | 2016-01-18 | 2016-06-29 | 合一网络技术(北京)有限公司 | 多媒体资源的推荐方法和装置 |
CN106021407A (zh) * | 2016-05-12 | 2016-10-12 | 中国联合网络通信集团有限公司 | 信息显示方法和信息显示系统 |
CN106326277A (zh) * | 2015-06-30 | 2017-01-11 | 上海证大喜马拉雅网络科技有限公司 | 一种基于用户行为的音频个性化推荐方法和系统 |
CN106502996A (zh) * | 2016-12-13 | 2017-03-15 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的裁判文书检索方法和服务器 |
-
2017
- 2017-05-17 CN CN201710348412.8A patent/CN107247743A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN102902753A (zh) * | 2012-09-20 | 2013-01-30 | 北京奇虎科技有限公司 | 用于补全搜索词及建立个体兴趣模型的方法及装置 |
US20150032737A1 (en) * | 2013-07-29 | 2015-01-29 | International Business Machines Corporation | Ranking and recommendation of online content |
CN106326277A (zh) * | 2015-06-30 | 2017-01-11 | 上海证大喜马拉雅网络科技有限公司 | 一种基于用户行为的音频个性化推荐方法和系统 |
CN105718545A (zh) * | 2016-01-18 | 2016-06-29 | 合一网络技术(北京)有限公司 | 多媒体资源的推荐方法和装置 |
CN106021407A (zh) * | 2016-05-12 | 2016-10-12 | 中国联合网络通信集团有限公司 | 信息显示方法和信息显示系统 |
CN106502996A (zh) * | 2016-12-13 | 2017-03-15 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的裁判文书检索方法和服务器 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870988A (zh) * | 2017-10-17 | 2018-04-03 | 厦门市美亚柏科信息股份有限公司 | 一种信息核查方法、终端设备及存储介质 |
GB2580577A (en) * | 2017-10-30 | 2020-07-22 | Ibm | Ranking of documents based in their semantic richness |
WO2019086996A1 (en) * | 2017-10-30 | 2019-05-09 | International Business Machines Corporation | Ranking of documents based on their semantic richness |
US11163811B2 (en) | 2017-10-30 | 2021-11-02 | International Business Machines Corporation | Ranking of documents based on their semantic richness |
CN108334590A (zh) * | 2018-01-30 | 2018-07-27 | 吴雨潞 | 一种信息检索系统 |
CN110647504B (zh) * | 2018-06-25 | 2023-03-21 | 阿里巴巴集团控股有限公司 | 司法文书的检索方法及装置 |
CN110647504A (zh) * | 2018-06-25 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 司法文书的检索方法及装置 |
CN109508372A (zh) * | 2018-06-27 | 2019-03-22 | 华北电力大学 | 一种基于司法领域知识抽取的高效司法文档分类方法 |
CN109508372B (zh) * | 2018-06-27 | 2023-05-09 | 华北电力大学 | 一种基于司法领域知识抽取的高效司法文档分类方法 |
CN109359178A (zh) * | 2018-09-14 | 2019-02-19 | 华南师范大学 | 一种检索方法、装置、存储介质及设备 |
CN111382769A (zh) * | 2018-12-29 | 2020-07-07 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及系统 |
CN111382769B (zh) * | 2018-12-29 | 2023-09-22 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置及系统 |
CN109902098A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 相似案例查找和排序方法、服务器及计算机可读存储介质 |
CN111625626A (zh) * | 2020-07-30 | 2020-09-04 | 杭州识度科技有限公司 | 一种基于多维度语义联合建模的多用户案例检索系统 |
CN113051289A (zh) * | 2021-03-11 | 2021-06-29 | 北京律联东方文化传播有限公司 | 法条检索方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247743A (zh) | 一种司法类案检索方法及系统 | |
Balog et al. | Formal models for expert finding in enterprise corpora | |
CN101622618B (zh) | 具有基于概念的搜索和分级的信息检索系统、方法和软件 | |
US9535911B2 (en) | Processing a content item with regard to an event | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
US20050060290A1 (en) | Automatic query routing and rank configuration for search queries in an information retrieval system | |
CN105653562B (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN110334178A (zh) | 数据检索方法、装置、设备及可读存储介质 | |
US20110179026A1 (en) | Related Concept Selection Using Semantic and Contextual Relationships | |
RU2007114029A (ru) | Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети | |
CN102902806A (zh) | 一种利用搜索引擎进行查询扩展的方法及系统 | |
CN111104488B (zh) | 检索和相似度分析一体化的方法、装置和存储介质 | |
CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
CN110968800A (zh) | 一种信息推荐方法、装置、电子设备及可读存储介质 | |
CN102789452A (zh) | 类似内容提取方法 | |
CN106815265A (zh) | 裁判文书的搜索方法及装置 | |
Morris | A weighted O* Net keyword search (WWS) | |
CN109189955A (zh) | 一种自动检索关键词的确定方法和装置 | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
US10296528B2 (en) | Systems, methods and software for evaluating user queries | |
TWI595371B (zh) | 法學資料搜尋系統、搜尋處理方法及電腦可讀取紀錄媒體 | |
JP2010282403A (ja) | 文書検索方法 | |
WO2015047075A1 (en) | A system and method for ranking recommendations | |
KR20150051969A (ko) | 기술 가치를 평가하는 방법 | |
Pisal et al. | AskUs: An opinion search engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171013 |
|
WD01 | Invention patent application deemed withdrawn after publication |