CN110727787A - 案件文本匹配方法、装置、电子设备和存储介质 - Google Patents
案件文本匹配方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN110727787A CN110727787A CN201910963965.3A CN201910963965A CN110727787A CN 110727787 A CN110727787 A CN 110727787A CN 201910963965 A CN201910963965 A CN 201910963965A CN 110727787 A CN110727787 A CN 110727787A
- Authority
- CN
- China
- Prior art keywords
- case
- text
- matched
- historical
- case text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例涉及一种案件文本匹配方法、装置、电子设备和存储介质。该方法应用于电子设备,所述方法包括:对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书;将待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。上述方法无需手动输入关键词进行匹配,也就避免了由于关键词选择错误造成的案件匹配准确度较低的问题,同时,也无需人为对比以获得准确度更高的历史案例文本。
Description
技术领域
本申请涉及文本匹配领域,具体而言,涉及一种案件文本匹配方法、装置、电子设备和存储介质。
背景技术
在案件审判中,借鉴以往相似的案件的审判经验对当前案件进行判定是很常见的做法,称为“类似案例类似处理”。
目前,各种案件数据库为案件审判提供了数字化支撑,法律相关人员一般可以通过传统的数据库检索方式来获取相对应的案件,例如,在搜索栏中输入案件的关键词,搜索引擎根据输入的案件的关键词在案件数据库中查找相似的案例,并向用户返回通过关键词查找到的相似度较高的历史案例。
但由于输入的案件关键词具有很大的主观性,不同的用户对于同一个案件归纳的关键词可能存在不同,因此,即使根据关键词获取到多篇历史案例文本之后,还需要人为进行对比,才能最终获得相似度最高的历史案例文本。此种检索方式不仅无法保证准确度,还会花费大量的时间。
发明内容
为了解决上述问题,本申请的目的在于提供了一种案件文本匹配方法、装置、电子设备和存储介质。
第一方面,本申请实施例提供一种案件文本匹配方法,应用于电子设备,所述电子设备包括数据库,数据库中存储有历史案件文本及各个历史案件文本的结构化数据,所述方法包括:
对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,所述结构化数据包括案件信息、案件争议焦点及案件关键词,所述待匹配案件文本包括案件的起诉书或诉讼书;
将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。
在可选的实施方式中,所述将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,包括:
将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,从而获得任意一个历史案件文本的案件信息与所述待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与所述待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与所述待匹配案件文本的案件关键词的第三相似度;
针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与所述待匹配案件文本之间的所述第一相似度、第二相似度及所述第三相似度进行加权求和,以获得该任意一个历史案件文本与所述待匹配案件文本的相似度。
在可选的实施方式中,所述对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,包括:
结合分词算法或语义分析算法对所述待匹配案件文本进行处理,以获得所述待匹配案件文本的案件信息、案件争议焦点及案件关键词,其中,所述案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,所述案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷。
在可选的实施方式中,所述方法还包括获得历史案件文本的结构化数据的步骤,包括:
通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得所述各个历史案件文本的案件信息、案件争议焦点及案件关键词并将所述各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。
第二方面,本申请实施例提供一种案件文本匹配装置,应用于电子设备,所述电子设备包括数据库,数据库中存储有历史案件文本及各个历史案件文本的结构化数据,所述装置包括:
待匹配案件文本处理模块,用于对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,所述结构化数据包括案件信息、案件争议焦点及案件关键词,所述待匹配案件文本包括案件的起诉书或诉讼书;
相似度比对模块,用于将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。
在可选的实施方式中,所述相似度比对模块包括:
分别比对子模块,用于将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,从而获得任意一个历史案件文本的案件信息与所述待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与所述待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与所述待匹配案件文本的第三相似度;
相似度计算子模块,用于针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与所述待匹配案件文本之间的第一相似度、第二相似度及所述第三相似度进行加权求和,以获得该任意一个历史案件文本与所述待匹配案件文本的相似度。
在可选的实施方式中,所述待匹配案件文本处理模块具体用于:
结合分词算法或语义分析算法对所述待匹配案件文本进行处理,以获得所述待匹配案件文本的案件信息、案件争议焦点及案件关键词,其中,所述案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,所述案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷。
在可选的实施方式中,所述装置还包括历史案件文本处理模块,具体用于:
通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得所述各个历史案件文本的案件信息、案件争议焦点及案件关键词并将所述各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。
第三方面,本申请实施例提供一种电子设备,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行前述实施方式中任意一项所述的案件文本匹配方法。
第四方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式任意一项所述的案件文本匹配方法。
本申请实施例的有益效果:
本申请实施例涉及一种案件文本匹配方法、装置、电子设备和存储介质。该方法应用于电子设备,电子设备包括存储有历史案件文本及各个历史案件文本的结构化数据的数据库,所述方法包括:对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书;将待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。上述方法无需手动输入关键词进行匹配,也就避免了由于关键词选择错误造成的案件匹配准确度较低的问题,同时,也无需人为对比以获得准确度更高的历史案例文本。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请是实施例提供的电子设备的结构示意图;
图2为本申请实施例提供的案件匹配方法的流程图;
图3为图2中步骤S230的子步骤流程图;
图4为本申请实施例提供的案件文本匹配装置的功能模块图;
图5为本申请实施例提供的图4中的相似度比对模块的子模块的功能模块图。
图标:100-电子设备;110-案件文本匹配装置;120-存储器;130-处理器;111-待匹配案件文本处理模块;112-相似度比对模块;113-历史案件文本处理模块;1121-分别比对子模块;1122-相似度计算子模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
请参照图1,图1是本申请是实施例提供的电子设备100的结构示意图,该电子设备100包括有处理器130、存储器120以及案件文本匹配装置110,所述存储器120与处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述案件文本匹配装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述电子设备100的操作系统(Operating System,OS)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块,例如案件文本匹配装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参考图2,图2为本申请实施例提供的案件匹配方法的流程图。在本实施例中,该方法应用于电子设备100,电子设备100中包括有一数据库,数据库中存储有多个历史案件文本以及各个历史案件文本的结构化数据。该方法包括以下步骤:
步骤S220,对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据。
其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书。
在本步骤中,在进行待匹配案件文本与历史案件文本的相似度比较之前,首先要对待匹配案件文本进行预处理,以获得待匹配案件文本的结构化数据,通过将待匹配案件文本的结构化数据与数据库中存储的历史案件文本的结构化数据进行比较获得待匹配案件文本与历史案件文本的相似度。
具体地,在步骤S220中,在对待匹配案件文本预处理时,需要结合分词算法或语义分析算法对待匹配案件文本进行处理,以获得所述待匹配案件文本的案件信息、案件争议焦点及案件关键词。其中,案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷,案件关键词是指整个待匹配案件文本的关键词。
在本步骤中,待匹配案件文本是指某一案件的起诉书或诉讼书,案件的起诉书或诉讼书具有一定地撰写规范,使用分词算法或语义分析算法从起诉书或诉讼书的固定段落能够获取到案件类型、案件发生的时间或地点、案件经过或结果以及案件争议焦点等数据。
在步骤S220之后,案件文本匹配方法还包括:
步骤S230,将待匹配案件文本的结构化数据与数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与待匹配案件文本的相似度对历史案件文本进行排序。
在本步骤中,获取到待匹配案件文本的结构化数据之后,将其与数据库中存储的历史案件文本的结构化数据进行比较,从而获得待匹配案件文本与各个历史案件文本的相似度,并按照相似度进行排序。通常,按照相似度由高到低的顺序进行排序。
具体地,请参照图3,图3为图2中步骤S230的子步骤流程图,包括:
子步骤S2301,将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,获得任意一个历史案件文本的案件信息与待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与待匹配案件文本的案件关键词的第三相似度。
子步骤S2302,针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与待匹配案件文本之间的第一相似度、第二相似度及第三相似度进行加权求和,以获得该任意一个历史案件文本与待匹配案件文本的相似度。
在上述步骤中,在获得待匹配案件文本的结构化数据之后,分别将待匹配案件文本的案件信息、案件争议焦点及案件关键词与数据库中任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行对比,分别获得第一相似度、第二相似度以及第三相似度,其中,第一相似度用于表示待匹配案件文本的案件信息与任意一个历史案件文本的案件信息之间的相似度,第二相似度用于表示待匹配案件文本的案件争议焦点与任意一个历史案件文本的案件争议焦点之间的相似度,第三相似度用于表示待匹配案件文本的案件关键词与任意一个历史案件文本的案件关键词的第三相似度。
对于每一个预存在数据库中的历史案件文本,通过分词算法或语义分析算法都能获取到该历史案件文本的第一相似度、第二相似度及第三相似度,根据案件信息、案件争议焦点、案件关键词的权重计算待匹配案件文本与各个历史案件文本的总的相似度。
例如,若案件信息的权重为40%,案件争议焦点的权重为40%,案件关键词的权重为20%,某一历史案件文本与待匹配案件文本的第一相似度为60%、第二相似度为80%、第三相似度为70%,则该历史案件文本与待匹配案件文本的总的相似度为40%*60%+40%*80%+20%*70%=70%,则该历史案件文本与待匹配案件文本的相似度为70%。
通过上述方法计算数据库中各个历史案件文本与待匹配案件文本的相似度,并按照相似度对历史案件文本进行排序。
可选地,在本实施例中,案件信息、案件争议焦点、案件关键词的权重通常是通过不断地训练得出。
请继续参照图2,可选地,在本实施例中,在步骤S220之前,案件文本匹配方法还包括:
步骤S210,获得历史案件文本的结构化数据。
具体地,在本步骤中,通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得各个历史案件文本的案件信息、案件争议焦点及案件关键词并将各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。
请参照图4,图4为本申请实施例提供的案件文本匹配装置110的功能模块图,在本实施例中,案件文本匹配装置110应用于电子设备100中,电子设备100包括有一数据库,数据库中存储有历史案件文本及各个历史案件文本的结构化数据,案件文本匹配装置110装置包括:
待匹配案件文本处理模块111,用于对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据。其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书。
具体地,待匹配案件文本处理模块111具体用于:结合分词算法或语义分析算法对待匹配案件文本进行处理,以获得待匹配案件文本的案件信息、案件争议焦点及案件关键词。其中,案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷。
相似度比对模块112,用于将待匹配案件文本的结构化数据与数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与待匹配案件文本的相似度对历史案件文本进行排序。
继续参照图4,案件文本匹配装置110还包括历史案件文本处理模块113,该模块具体用于:通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得各个历史案件文本的案件信息、案件争议焦点及案件关键词并将各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。
请参照图5,图5为本申请实施例提供的图4中的相似度比对模块112的子模块的功能模块图。相似度比对模块112包括:
分别比对子模块1121,用于将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,从而获得任意一个历史案件文本的案件信息与所述待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与所述待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与所述待匹配案件文本的第三相似度。
相似度计算子模块1122,用于针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与所述待匹配案件文本之间的第一相似度、第二相似度及所述第三相似度进行加权求和,以获得该任意一个历史案件文本与所述待匹配案件文本的相似度。
本申请实施例所提供的案件文本匹配装置110可以为电子设备100上的特定硬件或者安装于电子设备100上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
可选地,本申请实施例还提供一种电子设备100,包括处理器130及存储有计算机指令的非易失性存储器120,计算机指令被处理器130执行时,电子设备100执行上述的案件文本匹配方法,具体实现可参见方法实施例,在此不再赘述。
可选地,本申请实施例还提供一种存储介质,存储介质中存储有计算机程序,计算机程序被执行时实现上述的案件文本匹配方法,具体实现可参见方法实施例,在此不再赘述。
综上所述,本申请实施例涉及一种案件文本匹配方法、装置、电子设备和存储介质。该方法应用于电子设备,电子设备包括存储有历史案件文本及各个历史案件文本的结构化数据的数据库,所述方法包括:对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,结构化数据包括案件信息、案件争议焦点及案件关键词,待匹配案件文本包括案件的起诉书或诉讼书;将待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。上述方法无需手动输入关键词进行匹配,也就避免了由于关键词选择错误造成的案件匹配准确度较低的问题,同时,也无需人为对比以获得准确度更高的历史案例文本。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种案件文本匹配方法,其特征在于,应用于电子设备,所述电子设备包括数据库,数据库中存储有历史案件文本及各个历史案件文本的结构化数据,所述方法包括:
对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,所述结构化数据包括案件信息、案件争议焦点及案件关键词,所述待匹配案件文本包括案件的起诉书或诉讼书;
将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。
2.根据权利要求1所述的方法,其特征在于,所述将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,包括:
将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,从而获得任意一个历史案件文本的案件信息与所述待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与所述待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与所述待匹配案件文本的案件关键词的第三相似度;
针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与所述待匹配案件文本之间的所述第一相似度、第二相似度及所述第三相似度进行加权求和,以获得该任意一个历史案件文本与所述待匹配案件文本的相似度。
3.根据权利要求1所述的方法,其特征在于,所述对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,包括:
结合分词算法或语义分析算法对所述待匹配案件文本进行处理,以获得所述待匹配案件文本的案件信息、案件争议焦点及案件关键词,其中,所述案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,所述案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,所述方法还包括获得历史案件文本的结构化数据的步骤,包括:
通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得所述各个历史案件文本的案件信息、案件争议焦点及案件关键词并将所述各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。
5.一种案件文本匹配装置,其特征在于,应用于电子设备,所述电子设备包括数据库,数据库中存储有历史案件文本及各个历史案件文本的结构化数据,所述装置包括:
待匹配案件文本处理模块,用于对待匹配案件文本进行预处理,获得待匹配案件文本的结构化数据,其中,所述结构化数据包括案件信息、案件争议焦点及案件关键词,所述待匹配案件文本包括案件的起诉书或诉讼书;
相似度比对模块,用于将所述待匹配案件文本的结构化数据与所述数据库中历史案件文本的结构化数据进行相似度比对,并按照历史案件文本与所述待匹配案件文本的相似度对历史案件文本进行排序。
6.根据权利要求5所述的装置,其特征在于,所述相似度比对模块包括:
分别比对子模块,用于将待匹配案件文本的案件信息、案件争议焦点及案件关键词分别与任意一个历史案件文本的案件信息、案件争议焦点及案件关键词进行相似度比对,从而获得任意一个历史案件文本的案件信息与所述待匹配案件文本的案件信息的第一相似度、任意一个历史案件文本的案件争议焦点与所述待匹配案件文本的案件争议焦点的第二相似度、任意一个历史案件文本的案件关键词与所述待匹配案件文本的第三相似度;
相似度计算子模块,用于针对任意一个历史案件文本,根据该历史案件文本的案件信息、案件争议焦点及案件关键词的权重对该历史案件文本与所述待匹配案件文本之间的第一相似度、第二相似度及所述第三相似度进行加权求和,以获得该任意一个历史案件文本与所述待匹配案件文本的相似度。
7.根据权利要求5所述的装置,其特征在于,所述待匹配案件文本处理模块具体用于:
结合分词算法或语义分析算法对所述待匹配案件文本进行处理,以获得所述待匹配案件文本的案件信息、案件争议焦点及案件关键词,其中,所述案件信息包括案件类型、案件发生的时间或地点、案件的经过或结果,所述案件争议焦点包括离婚纠纷、财产纠纷或侵权纠纷。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括历史案件文本处理模块,具体用于:
通过分词算法或语义分析算法对各个历史案件文本进行处理,以获得所述各个历史案件文本的案件信息、案件争议焦点及案件关键词,并将所述各个历史案件文本的案件信息、案件争议焦点及案件关键词存储至数据库中。
9.一种电子设备,其特征在于,包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述电子设备执行权利要求1-4中任意一项所述的案件文本匹配方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-4任意一项所述的案件文本匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910963965.3A CN110727787A (zh) | 2019-10-11 | 2019-10-11 | 案件文本匹配方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910963965.3A CN110727787A (zh) | 2019-10-11 | 2019-10-11 | 案件文本匹配方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110727787A true CN110727787A (zh) | 2020-01-24 |
Family
ID=69221064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910963965.3A Pending CN110727787A (zh) | 2019-10-11 | 2019-10-11 | 案件文本匹配方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727787A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666495A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 案件推荐方法、装置、设备以及存储介质 |
CN111680125A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市华云中盛科技股份有限公司 | 诉讼案件分析方法、装置、计算机设备及存储介质 |
CN112016936A (zh) * | 2020-08-13 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 一种欺诈案例的串并方法、装置及设备 |
CN113779222A (zh) * | 2021-09-14 | 2021-12-10 | 北京捷风数据技术有限公司 | 一种基于合同信息匹配中标信息的方法、系统及存储介质 |
CN114077651A (zh) * | 2020-08-20 | 2022-02-22 | 南京行者易智能交通科技有限公司 | 一种大数据案例匹配模型的设计方法及装置 |
CN114398474A (zh) * | 2021-12-23 | 2022-04-26 | 科大讯飞股份有限公司 | 类案推荐方法及相关装置 |
CN115525734A (zh) * | 2022-09-19 | 2022-12-27 | 雅安市生态环境局 | 一种用于法制审查的文本生成方法、系统、介质及设备 |
CN118095249A (zh) * | 2024-04-03 | 2024-05-28 | 北京天融信网络安全技术有限公司 | 标准法规自动匹配测试用例的方法、处理器及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991092A (zh) * | 2016-01-20 | 2017-07-28 | 阿里巴巴集团控股有限公司 | 基于大数据挖掘相似裁判文书的方法和设备 |
CN110069598A (zh) * | 2019-03-12 | 2019-07-30 | 北京睿企信息科技有限公司 | 一种智能调解方法及系统 |
US20190251084A1 (en) * | 2016-10-27 | 2019-08-15 | Huawei Technologies Co., Ltd. | Search method and apparatus |
-
2019
- 2019-10-11 CN CN201910963965.3A patent/CN110727787A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106991092A (zh) * | 2016-01-20 | 2017-07-28 | 阿里巴巴集团控股有限公司 | 基于大数据挖掘相似裁判文书的方法和设备 |
US20190251084A1 (en) * | 2016-10-27 | 2019-08-15 | Huawei Technologies Co., Ltd. | Search method and apparatus |
CN110069598A (zh) * | 2019-03-12 | 2019-07-30 | 北京睿企信息科技有限公司 | 一种智能调解方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666495A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 案件推荐方法、装置、设备以及存储介质 |
CN111680125A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市华云中盛科技股份有限公司 | 诉讼案件分析方法、装置、计算机设备及存储介质 |
CN111666495B (zh) * | 2020-06-05 | 2023-08-11 | 北京百度网讯科技有限公司 | 案件推荐方法、装置、设备以及存储介质 |
CN112016936A (zh) * | 2020-08-13 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 一种欺诈案例的串并方法、装置及设备 |
CN114077651A (zh) * | 2020-08-20 | 2022-02-22 | 南京行者易智能交通科技有限公司 | 一种大数据案例匹配模型的设计方法及装置 |
CN113779222A (zh) * | 2021-09-14 | 2021-12-10 | 北京捷风数据技术有限公司 | 一种基于合同信息匹配中标信息的方法、系统及存储介质 |
CN114398474A (zh) * | 2021-12-23 | 2022-04-26 | 科大讯飞股份有限公司 | 类案推荐方法及相关装置 |
CN115525734A (zh) * | 2022-09-19 | 2022-12-27 | 雅安市生态环境局 | 一种用于法制审查的文本生成方法、系统、介质及设备 |
CN118095249A (zh) * | 2024-04-03 | 2024-05-28 | 北京天融信网络安全技术有限公司 | 标准法规自动匹配测试用例的方法、处理器及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110727787A (zh) | 案件文本匹配方法、装置、电子设备和存储介质 | |
JP5575902B2 (ja) | クエリのセマンティックパターンに基づく情報検索 | |
US9934293B2 (en) | Generating search results | |
WO2018040068A1 (zh) | 基于知识图谱的语意分析系统及方法 | |
US20130282704A1 (en) | Search system with query refinement | |
US10733220B2 (en) | Document relevance determination for a corpus | |
US20160140634A1 (en) | System, method and non-transitory computer readable medium for e-commerce reputation analysis | |
CN110825977A (zh) | 一种数据推荐方法及相关设备 | |
CN108959550B (zh) | 用户关注点挖掘方法、装置、设备及计算机可读介质 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
KR20220101326A (ko) | 오픈마켓 상품판매 증대 및 효율적인 운영을 위한 시스템 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN110765100B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN110675205B (zh) | 基于应用的竞品分析方法、装置及存储介质 | |
CN111814040A (zh) | 维修案例搜索方法、装置、终端设备及存储介质 | |
CN109101630B (zh) | 一种应用程序搜索结果的生成方法、装置及设备 | |
CN114139547B (zh) | 知识融合方法、装置、设备、系统及介质 | |
CN113781180B (zh) | 一种物品推荐方法、装置、电子设备及存储介质 | |
CN115203758A (zh) | 一种数据安全存储方法、系统及云平台 | |
CN115114532A (zh) | 一种基于用户行为的数据搜索方法、装置及设备 | |
CN113392184A (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
CN112488557A (zh) | 一种基于评分标准客观分的自动计算方法、装置、终端 | |
CN112698883A (zh) | 一种配置数据处理方法、装置、终端和存储介质 | |
US9087119B2 (en) | Method for searching in a plurality of data sets and search engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210913 Address after: 100000 room 650, 6th floor, building 11, Huashan Garden Cultural Media Industrial Park, 1376 folk culture street, Gaobeidian village, Gaobeidian Township, Chaoyang District, Beijing Applicant after: Beijing Zhizhi Heshu Technology Co.,Ltd. Address before: No.310, building 4, courtyard 8, Dongbei Wangxi Road, Haidian District, Beijing Applicant before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200124 |
|
WD01 | Invention patent application deemed withdrawn after publication |