CN111797221A - 类似案件推荐方法及装置 - Google Patents

类似案件推荐方法及装置 Download PDF

Info

Publication number
CN111797221A
CN111797221A CN202010549298.7A CN202010549298A CN111797221A CN 111797221 A CN111797221 A CN 111797221A CN 202010549298 A CN202010549298 A CN 202010549298A CN 111797221 A CN111797221 A CN 111797221A
Authority
CN
China
Prior art keywords
case
feature vector
information
vector
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010549298.7A
Other languages
English (en)
Other versions
CN111797221B (zh
Inventor
张君福
张艺璇
陈一朴
季昕
王靖琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Peking University Software Engineering Co ltd
Original Assignee
Beijing Peking University Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Peking University Software Engineering Co ltd filed Critical Beijing Peking University Software Engineering Co ltd
Priority to CN202010549298.7A priority Critical patent/CN111797221B/zh
Publication of CN111797221A publication Critical patent/CN111797221A/zh
Application granted granted Critical
Publication of CN111797221B publication Critical patent/CN111797221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种类似案件推荐方法及装置,包括提取目标案例的案例特征并对案例特征进行预处理;预处理后的案例特征转换为非结构化信息和结构化信息,并分别对非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合第一特征向量和第二特征向量获取案例的最终特征向量;将目标案件输入案由预测模型中,获取目标案件的案由,根据案由获取相同案由的同案由案件集合;采用最终特征向量获取同案由案件集合中的最相似案件并输出。本发明将词语通过神经网络向量化再计算相似度的方法比传统的文本相似度算法效果更好。

Description

类似案件推荐方法及装置
技术领域
本发明属于自然语言处理领域技术领域,具体涉及一种类似案件推荐方法及装置。
背景技术
进入新时代,大数据、云计算、人工智能蓬勃兴起,互联网的高速发展推动经济社会向全面信息化迈进,司法工作自然也不例外。国家建立了法律法规数据库,北京等地建立了较为完善的行政执法记录数据库,为法治社会的信息化提供了数据基础。
类案推荐是法制信息化和智能化的重要组成部分。随着我国法律的不断完善,案由越来越多,与此同时行政执法人员面临的工作任务繁重,执法情况复杂多变。如何利用好现有的资源,利用大数据的方法提高行政执法人员执法的效率和准确度称为了大数据时代法治建设的新议题。随着大数据技术的发展,法治信息化程度不断加深,对于执法记录、裁判文书等判决相关的资料的储存也越来越完善。在之前执法记录中找到类似的案件推荐给执法人员,辅助行政执法人员作出处罚决定能大大提高行政处罚的准确性和高效性。现有的类案推荐工具多是基于裁判文书网上的裁判文书进行推荐。
相关技术中,现有的方式是使用K-means聚类的方法对法院的案例文书进行聚类分析,得到同类案件,取最相似的案例进行推荐。或者利用裁判文书的标签计算相似度进行推荐。现有技术中对于行政执法记录数据库中对裁判文书的执法记录利用不够充分。
近年来深度学习被广泛应用在自然语言处理中,将词语通过神经网络向量化再计算相似度的方法比传统的信息相似度算法效果更好。目前还没有利用神经网络进行类案推荐的专利。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种类似案件推荐方法及装置,以解决现有技术中文本相似度算法效果不够好的问题。
为实现以上目的,本发明采用如下技术方案:一种类似案件推荐方法,包括:
提取目标案例的案例特征并对所述案例特征进行预处理;
将预处理后的案例特征转换为非结构化信息和结构化信息,并分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合所述第一特征向量和第二特征向量获取案例的最终特征向量;
将目标案件输入案由预测模型中,获取目标案件的案由,根据所述案由获取相同案由的同案由案件集合;
采用所述最终特征向量获取同案由案件集合中的最相似案件,输出所述最相似案件。
进一步的,所述非结构化信息包括:违法事实、当事人类型、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称;
所述结构化信息包括:案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址。
进一步的,所述所述案例特征进行预处理,包括:
对所述案例特征进行数据清洗。
进一步的,所述分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,包括:
对所述非结构化信息进行分词处理;
分词处理后的非结构化信息通过Bert模型构建第一特征向量;其中,第一特征向量为句向量;
将所述结构化信息数值化,得到数值化信息,将所述数值化信息归一化,最后归一化后的数值化信息通过神经网络构建结构化特征的第二特征向量。
进一步的,所述采用所述最终特征向量获取同案由案件集合中的最相似案件,包括:
设同案由案件集合为M,目标案件特征向量为St,St通过神经网络计算输出Ct
对于同案由案件集合M的第i个案件Mi,特征向量Si通过神经网络计算守护Ci
分别对Ci与Ct计算皮尔逊相关系数ri t
皮尔逊相关系数的计算公式为
Figure BDA0002541924300000031
其中,cov(Ci,Ct)是向量Ci,Ct的i协方差,σCiσCt是向量Ci,Ct的标准差;
根据协方差和标准差的公式,皮尔逊相关系数可表示为:
Figure BDA0002541924300000032
得到同案由的案件集合M与目标案件t的皮尔逊相关系数向量R;
采用皮尔逊相关系数计算同案由案件集合中的所有案件与所述最终特征向量的相似度。
进一步的,所述采用所述最终特征向量获取同案由案件集合中的最相似案件,还包括:
预先输入推荐个数N;
输出以皮尔逊相关系数向量降序排序的最相似的N个同案由案件进行推荐。
进一步的,采用中文分词工具对所述非结构化信息进行分词处理。
进一步的,所述当事人类型,包括:
公民、法人或其他组织。
进一步的,所述神经网络采用标注好的数据进行训练,以构建数值特征的特征向量。
本申请实施例提供一种类似案件推荐装置,包括:
预处理模块,用于提取目标案例的案例特征并对所述案例特征进行预处理;
构建模块,用于将预处理后的案例特征转换为非结构化信息和结构化信息,并分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合所述第一特征向量和第二特征向量获取案例的最终特征向量;
获取模块,用于将目标案件输入案由预测模型中,获取目标案件的案由,根据所述案由获取相同案由的同案由案件集合;
输出模块,用于采用所述最终特征向量获取同案由案件集合中的最相似案件,输出所述最相似案件。
本发明采用以上技术方案,能够达到的有益效果包括:
本发明提供一种类似案件推荐方法,包括提取目标案例的案例特征并对案例特征进行预处理;将预处理后的案例特征转换为非结构化信息和结构化信息,并分别对非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合第一特征向量和第二特征向量获取案例的最终特征向量;将目标案件输入案由预测模型中,获取目标案件的案由,根据案由获取相同案由的同案由案件集合;采用最终特征向量获取同案由案件集合中的最相似案件,输出最相似案件。本发明将词语通过神经网络向量化再计算相似度的方法比传统的文本相似度算法效果更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明类似案件推荐方法的步骤示意图;
图2为本发明类似案件推荐方法的流程示意图;
图3为本发明最终特征向量计算流程示意图;
图4为本发明类似案件推荐装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的类似案件推荐方法。
如图1所示,本申请实施例中提供的类似案件推荐方法包括:
S101,提取目标案例的案例特征并对所述案例特征进行预处理;
首先,目标案例为执法案例,提取案例中的案例特征,案例特征包括包括违法事实、当事人类型,1公民、2法人或其他组织、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称、案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址。
其中,对案例特征的数据进行清洗,过滤掉案例特征不完整的案例条目,比如缺少案情描述,缺少情节严重程度判定的案例。
S102,将预处理后的案例特征转换为非结构化信息和结构化信息,并分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合所述第一特征向量和第二特征向量获取案例的最终特征向量;
将案例特征转换为非结构化信息和结构化信息,其中,非结构化信息为非结构化的文本信息,比如案情描述;结构化信息为案由名称、行政执法部门名称。
S103,将目标案件输入案由预测模型中,获取目标案件的案由,根据所述案由获取相同案由的同案由案件集合;
其中,案由预测模型采用现有的,本申请在此不做赘述,通过案由预测模型预测出案由,根据案由在行政执法记录数据库中寻找相同案由的所有案件,为同案由案件集合。
S104,采用所述最终特征向量获取同案由案件集合中的最相似案件,输出所述最相似案件。
采用最终特征向量使用bert模型输出计算皮尔逊相关系数,找到最相似的案件作为推荐结果。
一些实施例中,所述非结构化信息包括:违法事实、当事人类型、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称;
所述结构化信息包括:案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址。
优选的,所述所述案例特征进行预处理,包括:
对所述案例特征进行数据清洗。
其中,数据清洗是过滤掉特征不完整的案例条目。不完整的案例条目为缺少案情描述,缺少情节严重程度判定的案例。
一些实施例中,所述分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,包括:
对所述非结构化信息进行分词处理;
分词处理后的非结构化信息通过Bert模型构建第一特征向量;其中,第一特征向量为句向量;
将所述结构化信息数值化,得到数值化信息,将所述数值化信息归一化,最后归一化后的数值化信息通过神经网络构建结构化特征的第二特征向量。
如图2所示,对目标案例中的文本特征分词处理以去除停用词,将分词后的非结构化文本使用Bert模型构建词向量,词向量取平均得到m维句向量,也就是第一特征向量S1,对目标案例中的数值化信息通过神经网络构建结构化特征的向量也就是第二特征向量S2,将非结构化文本句向量S1和结构化信息S2的向量级联,构成案例的最终特征向量S。
优选的,所述采用所述最终特征向量获取同案由案件集合中的最相似案件,包括:
设同案由案件集合为M,目标案件特征向量为St,St通过神经网络计算输出Ct
对于同案由案件集合M的第i个案件Mi,特征向量Si通过神经网络计算守护Ci
分别对Ci与Ct计算皮尔逊相关系数ri t
皮尔逊相关系数的计算公式为
Figure BDA0002541924300000071
其中,cov(Ci,Ct)是向量Ci,Ct的i协方差,σCiσCt是向量Ci,Ct的标准差;
根据协方差和标准差的公式,皮尔逊相关系数可表示为:
Figure BDA0002541924300000072
得到同案由的案件集合M与目标案件t的皮尔逊相关系数向量R;
采用皮尔逊相关系数计算同案由案件集合中的所有案件与所述最终特征向量的相似度。
优选的,所述采用所述最终特征向量获取同案由案件集合中的最相似案件,还包括:
预先输入推荐个数N;
输出以皮尔逊相关系数向量降序排序的最相似的N个同案由案件进行推荐。
优选的,采用中文分词工具对所述非结构化信息进行分词处理。
优选的,所述当事人类型,包括:公民、法人或其他组织。
优选的,所述神经网络采用标注好的数据进行训练,以构建数值特征的特征向量。
如图3所示,本申请类似案件推荐方法的一个具体实施例为,
本发明基于行政执法记录数据库实现。首先需要获取行政执法记录数据库,行政执法记录数据库是历史记录的,为现有的。
提取目标案例的特征,包括案例特征包括违法事实、当事人类型,1公民2法人或其他组织、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称、案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址。
对案例特征数据清洗,过滤掉特征不完整的案例条目,比如缺少案情描述,缺少情节严重程度判定的案例。
将文本特征也就是非结构化信息,即行政处罚日期、案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址中的内容进行分词。
分词后的文本特征去除停用词,将案由名称、行政执法部门名称,也就是结构化信息数值化;将数值化后的案由名称、行政执法部门名称以及情节严重程度判定的值归一化。
使用处理好的文本特征微调Bert模型,使用标注好的数据训练构建数值特征的特征向量的神经网络。
获取案由预测模型,输入目标案例和推荐案例数量;使用案由预测模型预测案由,根据案由从数据库中查找同案由的案件集合M;从目标案例中提取上述特征;
对目标案例中的文本特征分词;将分词后的非结构化文本使用Bert模型构建句向量S1,对目标案例中的数值化信息通过神经网络构建结构化特征的向量S2,将非结构化文本句向量S1和结构化信息S2的向量级联,构成案例的最终特征向量S。
在进行计算时,设目标案件为的特征向量为St,神经网络计算得到输出Ct
对于集合中M的第i个案件Mi,将特征向量Si通过神经网络,输出Ci
分别计算Mi在神经网络中的输出Ci与目标案件在神经网络中的输出Ct计算皮尔逊相关系数ri t
根据协方差和标准差的公式,对皮尔逊相关系数进行表示,如式2。
得到同案由的案件集合M与目标案件t的皮尔逊相关系数向量R。
用户输入推荐案例的个数N;
对皮尔逊相关系数向量R降序排序,取前N位的相应案件返回给用户。
本申请实施例提供一种类似案件推荐装置,如图4所示,包括:
预处理模块,用于提取目标案例的案例特征并对所述案例特征进行预处理;
构建模块,用于将预处理后的案例特征转换为非结构化信息和结构化信息,并分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合所述第一特征向量和第二特征向量获取案例的最终特征向量;
获取模块,用于将目标案件输入案由预测模型中,获取目标案件的案由,根据所述案由获取相同案由的同案由案件集合;
输出模块,用于采用所述最终特征向量获取同案由案件集合中的最相似案件,输出所述最相似案件。
本申请提供的类似案件推荐装置的工作原理是,预处理模块提取目标案例的案例特征并对所述案例特征进行预处理;构建模块将预处理后的案例特征转换为非结构化信息和结构化信息,并分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合所述第一特征向量和第二特征向量获取案例的最终特征向量;获取模块将目标案件输入案由预测模型中,获取目标案件的案由,根据所述案由获取相同案由的同案由案件集合;输出模块采用所述最终特征向量获取同案由案件集合中的最相似案件,输出所述最相似案件。
本申请实施例提供一种计算机设备,包括处理器,以及与处理器连接的存储器;
存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的类似案件推荐方法;
处理器用于调用并执行存储器中的计算机程序。
综上所述,本发明提供一种类似案件推荐方法及装置,本申请将词语通过神经网络向量化再计算相似度的方法比传统的文本相似度算法效果更好。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种类似案件推荐方法,其特征在于,包括:
提取目标案例的案例特征并对所述案例特征进行预处理;
将预处理后的案例特征转换为非结构化信息和结构化信息,并分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合所述第一特征向量和第二特征向量获取案例的最终特征向量;
将目标案件输入案由预测模型中,获取目标案件的案由,根据所述案由获取相同案由的同案由案件集合;
采用所述最终特征向量获取同案由案件集合中的最相似案件,输出所述最相似案件。
2.根据权利要求1所述的方法,其特征在于,
所述非结构化信息包括:违法事实、当事人类型、行政处罚日期、是否有减轻、从轻或从重情节、案由名称、行政执法部门名称;
所述结构化信息包括:案件名称、案情描述、公民姓名、公民地址、公民单位、法人或其他组织的名称、法人或其他组织的地址、案发地址。
3.根据权利要求1所述的方法,其特征在于,所述所述案例特征进行预处理,包括:
对所述案例特征进行数据清洗。
4.根据权利要求1所述的方法,其特征在于,所述分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,包括:
对所述非结构化信息进行分词处理;
分词处理后的非结构化信息通过Bert模型构建第一特征向量;其中,第一特征向量为句向量;
将所述结构化信息数值化,得到数值化信息,将所述数值化信息归一化,最后归一化后的数值化信息通过神经网络构建结构化特征的第二特征向量。
5.根据权利要求1所述的方法,其特征在于,所述采用所述最终特征向量获取同案由案件集合中的最相似案件,包括:
设同案由案件集合为M,目标案件特征向量为St,St通过神经网络计算输出Ct
对于同案由案件集合M的第i个案件Mi,特征向量Si通过神经网络计算守护Ci
分别对Ci与Ct计算皮尔逊相关系数
Figure FDA0002541924290000021
皮尔逊相关系数的计算公式为
Figure FDA0002541924290000022
其中,cov(Ci,Ct)是向量Ci,Ct的i协方差,σCiσCt是向量Ci,Ct的标准差;
根据协方差和标准差的公式,皮尔逊相关系数可表示为:
Figure FDA0002541924290000023
得到同案由的案件集合M与目标案件t的皮尔逊相关系数向量R;
采用皮尔逊相关系数计算同案由案件集合中的所有案件与所述最终特征向量的相似度。
6.根据权利要求5所述的方法,其特征在于,所述采用所述最终特征向量获取同案由案件集合中的最相似案件,还包括:
预先输入推荐个数N;
输出以皮尔逊相关系数向量降序排序的最相似的N个同案由案件进行推荐。
7.根据权利要求4所述的方法,其特征在于,
采用中文分词工具对所述非结构化信息进行分词处理。
8.根据权利要求2所述的方法,其特征在于,所述当事人类型,包括:
公民、法人或其他组织。
9.根据权利要求4或5所述的方法,其特征在于,
所述神经网络采用标注好的数据进行训练,以构建数值特征的特征向量。
10.一种类似案件推荐装置,其特征在于,包括:
预处理模块,用于提取目标案例的案例特征并对所述案例特征进行预处理;
构建模块,用于将预处理后的案例特征转换为非结构化信息和结构化信息,并分别对所述非结构化信息和结构化信息进行处理,利用处理后的非结构化信息构建第一特征向量,利用处理后的结构化信息构建第二特征向量,联合所述第一特征向量和第二特征向量获取案例的最终特征向量;
获取模块,用于将目标案件输入案由预测模型中,获取目标案件的案由,根据所述案由获取相同案由的同案由案件集合;
输出模块,用于采用所述最终特征向量获取同案由案件集合中的最相似案件,输出所述最相似案件。
CN202010549298.7A 2020-06-16 2020-06-16 类似案件推荐方法及装置 Active CN111797221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010549298.7A CN111797221B (zh) 2020-06-16 2020-06-16 类似案件推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010549298.7A CN111797221B (zh) 2020-06-16 2020-06-16 类似案件推荐方法及装置

Publications (2)

Publication Number Publication Date
CN111797221A true CN111797221A (zh) 2020-10-20
CN111797221B CN111797221B (zh) 2023-12-08

Family

ID=72804108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010549298.7A Active CN111797221B (zh) 2020-06-16 2020-06-16 类似案件推荐方法及装置

Country Status (1)

Country Link
CN (1) CN111797221B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140089000A1 (en) * 2011-06-30 2014-03-27 Panasonic Corporation Similar case searching apparatus, relevance database generating apparatus, similar case searching method, and relevance database generating method
CN107818138A (zh) * 2017-09-28 2018-03-20 银江股份有限公司 一种案件法律条例推荐方法及系统
CN110276068A (zh) * 2019-05-08 2019-09-24 清华大学 法律案情分析方法及装置
CN110377730A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质
CN110442684A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于文本内容的类案推荐方法
CN110502634A (zh) * 2019-08-13 2019-11-26 宫辉 一种案由的判定和抓取方法及其系统
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN111159387A (zh) * 2019-12-12 2020-05-15 北京睿企信息科技有限公司 基于多维度报警信息文本相似度分析的推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140089000A1 (en) * 2011-06-30 2014-03-27 Panasonic Corporation Similar case searching apparatus, relevance database generating apparatus, similar case searching method, and relevance database generating method
CN107818138A (zh) * 2017-09-28 2018-03-20 银江股份有限公司 一种案件法律条例推荐方法及系统
CN110276068A (zh) * 2019-05-08 2019-09-24 清华大学 法律案情分析方法及装置
CN110377730A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN110502634A (zh) * 2019-08-13 2019-11-26 宫辉 一种案由的判定和抓取方法及其系统
CN110442684A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于文本内容的类案推荐方法
CN111159387A (zh) * 2019-12-12 2020-05-15 北京睿企信息科技有限公司 基于多维度报警信息文本相似度分析的推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ONUR CAN SERT ET AL.: "Analysis and prediction in sparse and high dimensional text data The case of Dow Jones stock market", 《PHYSICA A》, pages 1 - 22 *
王飞: "司法案例研究平台的设计与实现", 《中国优秀硕士学位论文全文数据库 社会科学I辑》, pages 120 - 99 *

Also Published As

Publication number Publication date
CN111797221B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN101187927B (zh) 一种刑事案件的串并案智能分析方法
CN111241300A (zh) 舆情预警以及风险传播分析方法、系统、设备及存储介质
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN111339249B (zh) 一种联合多角度特征的深度智能文本匹配方法和装置
CN112989761B (zh) 文本分类方法及装置
CN111008262A (zh) 一种基于知识图谱的律师评估方法和推荐方法
CN105550168A (zh) 一种确定对象的概念词的方法和装置
CN113688635A (zh) 一种基于语义相似度的类案推荐方法
CN111914166B (zh) 应用于社区矫正人员的矫正策略个性化推荐系统
CN111581956A (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN112347254A (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
CN110414753A (zh) 一种知识产权价值评估系统及其方法
Prasomphan Toward Fine-grained Image Retrieval with Adaptive Deep Learning for Cultural Heritage Image.
CN111666748A (zh) 一种自动化分类器的构造方法以及从软件开发文本类制品中识别决策的方法
CN111797221B (zh) 类似案件推荐方法及装置
WO2020118584A1 (en) Automatically generating training data sets for object recognition
CN112132368A (zh) 信息处理方法以及装置、计算设备、存储介质
CN111209375B (zh) 一种通用的条款与文档匹配方法
CN114491041A (zh) 基于网络表示学习和层次标签嵌入的专利分类方法及系统
CN113742495A (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
CN115687632B (zh) 一种刑事量刑情节分解分析的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant