CN111708875B - 一种基于处罚特征的行政执法类案推荐方法 - Google Patents

一种基于处罚特征的行政执法类案推荐方法 Download PDF

Info

Publication number
CN111708875B
CN111708875B CN202010491272.1A CN202010491272A CN111708875B CN 111708875 B CN111708875 B CN 111708875B CN 202010491272 A CN202010491272 A CN 202010491272A CN 111708875 B CN111708875 B CN 111708875B
Authority
CN
China
Prior art keywords
case
administrative
penalty
punishment
cases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010491272.1A
Other languages
English (en)
Other versions
CN111708875A (zh
Inventor
温立强
刘亚亭
赵文
刘帅标
徐钰伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Peking University Software Engineering Co ltd
Original Assignee
Beijing Peking University Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Peking University Software Engineering Co ltd filed Critical Beijing Peking University Software Engineering Co ltd
Priority to CN202010491272.1A priority Critical patent/CN111708875B/zh
Publication of CN111708875A publication Critical patent/CN111708875A/zh
Application granted granted Critical
Publication of CN111708875B publication Critical patent/CN111708875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于处罚特征的行政执法类案推荐方法,该方法,包括:采集未结案案件的文本信息;根据未结案案件的文本信息,获取未结案案件与已结案的行政处罚案件的相似度;根据未结案案件与已结案的行政处罚案件的相似度确定与未结案案件相似的案件。本申请提供的技术方案,类案推荐结果的精确度高,效率高,更符合使用者期望。

Description

一种基于处罚特征的行政执法类案推荐方法
技术领域
本申请属于数据处理技术领域,具体涉及一种基于处罚特征的行政执法类案推荐方法。
背景技术
因应大数据时代的发展,司法领域结合大数据及人工智能的应用已经掀起了中国司法的技术革命,加上信息公开化,人民对法律的需求也渐渐普及。
国内现有法律类案推荐主要能分成几种方法:基于手工和基于人工智能技术的类案类判推荐。基于手工的方法耗费大量人力,需要由经验丰富的法律人员进行标注;基于人工智能技术的方法则是存在标注数据不够多,造成精确度不够高,推送范围过于狭隘。
发明内容
为至少在一定程度上克服相关技术中存在类案类判推荐精确度不够高的问题,本申请提供一种基于处罚特征的行政执法类案推荐方法。
根据本申请实施例的第一方面,提供一种基于处罚特征的行政执法类案推荐方法,所述方法,包括:
采集未结案案件的文本信息;
根据所述未结案案件的文本信息,获取所述未结案案件与已结案的行政处罚案件的相似度;
根据所述未结案案件与已结案的行政处罚案件的相似度确定与所述未结案案件相似的案件。
优选的,所述根据所述未结案案件的文本信息,获取所述未结案案件与已结案的行政处罚案件的相似度,包括:
采集已结案的行政处罚案件;
分别对所述未结案案件的文本信息和已结案的行政处罚案件的文本信息进行预处理,获取所述未结案案件的文本向量矩阵和已结案的行政处罚案件的文本向量矩阵;
根据所述未结案案件的文本信息和所述已结案的行政处罚案件的文本向量矩阵,获取所述未结案案件与已结案的行政处罚案件的相似度。
进一步的,所述分别对所述未结案案件的文本信息和已结案的行政处罚案件的文本信息进行预处理,获取所述未结案案件的文本向量矩阵和已结案的行政处罚案件的文本向量矩阵,包括:
去除未结案案件的文本信息和已结案的行政处罚案件的文本信息中的无意义的停用词,并对去除无意义的停用词后的未结案案件的文本信息和已结案的行政处罚案件的文本信息进行分词,获取未结案案件的文本信息中的特征词和已结案的行政处罚案件的文本信息中的特征词;
利用BERT预训练模型获取未结案案件的文本信息中的特征词和已结案的行政处罚案件的文本信息中特征词的词向量,并分别将所述未结案案件的文本信息中特征词和已结案的行政处罚案件的文本信息中特征词的词向量拼接成所述未结案案件的文本向量矩阵和已结案的行政处罚案件的文本向量矩阵。
进一步的,所述根据所述未结案案件的文本信息和所述已结案的行政处罚案件的文本向量矩阵,获取所述未结案案件与已结案的行政处罚案件的相似度,包括:
计算所述未结案的行政处罚案件的文本向量矩阵中的词向量与已结案的行政处罚案件的文本向量矩阵中的词向量的余弦距离;
利用所述余弦距离获取所述未结案案件与已结案的行政处罚案件的相似度。
进一步的,所述计算所述未结案的行政处罚案件的文本向量矩阵中的词向量与已结案的行政处罚案件的文本向量矩阵中的词向量的余弦距离,包括:
按下式确定未结案的行政处罚案件的文本向量矩阵中的第i个词向量与已结案的行政处罚案件的文本向量矩阵中的第j个词向量的余弦距离cosθij
上式中,i∈[1,n],n为未结案的行政处罚案件的文本向量矩阵中词向量的总数量;j∈[1,m],m为已结案的行政处罚案件的文本向量矩阵中词向量的总数量;wi为未结案的行政处罚案件的文本向量矩阵中的第i个词向量,wj为已结案的行政处罚案件的文本向量矩阵中的第j个词向量。
进一步的,所述利用所述余弦距离获取所述未结案案件与已结案的行政处罚案件的相似度,包括:
按下式确定所述未结案案件与已结案的行政处罚案件的相似度目标函数F:
按下式确定所述未结案案件与已结案的行政处罚案件的相似度目标函数的约束条件:
上式中,Tij为未结案案件的文本向量矩阵中第i个词向量对应的特征词转移至已结案的行政处罚案件的文本向量矩阵中第j个词向量对应的特征词占的权重集合;di为未结案案件的文本向量矩阵中第i个词向量对应的特征词在未结案案件的文本信息中的权重;d′j为已结案的行政处罚案件的文本向量矩阵中第j个词向量对应的特征词在已结案的行政处罚案件的文本信息中的权重。
优选的,所述根据所述未结案案件与已结案的行政处罚案件的相似度确定与所述未结案案件相似的案件,包括:
从所有已结案的行政处罚案件中提取所述未结案案件与已结案的行政处罚案件的相似度满足文本相似度阈值的已结案的行政处罚案件为待用的已结案的行政处罚案件;
对所有待用的已结案的行政处罚案件的处罚结果进行归一化,获取所有待用的已结案的行政处罚案件的处罚结果的归一化值;
利用所有待用的已结案的行政处罚案件的处罚结果的归一化值确定与所述未结案案件相似的案件。
进一步的,所述对所有待用的已结案的行政处罚案件的处罚结果进行归一化,获取所有待用的已结案的行政处罚案件的处罚结果的归一化值,包括:
若所述待用的已结案的行政处罚案件的处罚结果类型为二元变量,则用1表示该待用的已结案的行政处罚案件的处罚结果的归一化值;
若对所述待用的已结案的行政处罚案件的处罚结果类型为数值变量,则利用Z-Score方法获取该待用的已结案的行政处罚案件的处罚结果的归一化值。
进一步的,所述利用所有待用的已结案的行政处罚案件的处罚结果的归一化值确定与所述未结案案件相似的案件,包括:
若所述未结案案件的处罚结果为二元变量,则计算待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度,并对所述处罚类型相似度从高到低排序,提取处罚类型相似度满足处罚类型相似度阈值的待用的已结案的行政处罚案件;
若所述未结案案件的处罚结果为数值变量,则计算待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差,并对所述处罚结果分数差从低到高排序,提取处罚结果分数差满足分数差阈值的待用的已结案的行政处罚案件;
若所述未结案案件的处罚结果为数值变量和二元变量,则分别计算待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差和待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度,并对所述处罚结果分数差从低到高排序,对处罚类型相似度从高到低排序,提取处罚结果分数差满足分数差阈值的待用的已结案的行政处罚案件和/或处罚类型相似度满足处罚类型相似度阈值的待用的已结案的行政处罚案件。
进一步的,按下式计算第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度sim1
上式中,k∈[1,K],K为待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的总数量;A为未结案案件的处罚结果;Bk为第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果;P(A∩Bk)为未结案案件的处罚结果和第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果的处罚类型的交集数量;P(A∪Bk)为未结案案件的处罚结果和第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果的处罚类型的联集数量;
按下式计算第x个待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差sim2
sim2=Z-Zx
上式中,Z为未结案案件的处罚结果的归一化值,Zx为第x个待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件的处罚结果的归一化值。
根据本申请实施例的第二方面,提供一种可读存储介质,其上存储有可执行程序,所述可执行程序被处理器执行时实现上述一种基于处罚特征的行政执法类案推荐方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:通过根据未结案案件的文本信息,获取未结案案件与已结案的行政处罚案件的相似度,并根据未结案案件与已结案的行政处罚案件的相似度确定与未结案案件相似的案件,一方面避免了手工类案推荐效率低的弊端,还节省了大量人力;另一方面,使类案推荐结果的精确度高,更符合使用者期望。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种基于处罚特征的行政执法类案推荐方法的流程图;
图2是根据一示例性实施例示出的另一种基于处罚特征的行政执法类案推荐方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种基于处罚特征的行政执法类案推荐方法的流程图,如图1所示,该方法用于终端中,包括以下步骤:
步骤101:采集未结案案件的文本信息;
步骤102:根据未结案案件的文本信息,获取未结案案件与已结案的行政处罚案件的相似度;
步骤103:根据未结案案件与已结案的行政处罚案件的相似度确定与未结案案件相似的案件。
本发明实施例提供的一种基于处罚特征的行政执法类案推荐方法,通过根据未结案案件的文本信息,获取未结案案件与已结案的行政处罚案件的相似度,并根据未结案案件与已结案的行政处罚案件的相似度确定与未结案案件相似的案件,一方面避免了手工类案推荐效率低的弊端,还节省了大量人力;另一方面,使类案推荐结果的精确度高,更符合使用者期望。
如图2所示,该方法可以但不限于用于终端中,包括以下步骤:
201:采集未结案案件的文本信息。
一些可选实施例中,步骤201之后还包括:对未结案案件的文本信息进行预处理,获取未结案案件的文本向量矩阵。
一些可选实施例中,对未结案案件的文本信息进行预处理,获取未结案案件的文本向量矩阵,可以通过但不限于以下过程实现:
301:去除未结案案件的文本信息中的无意义的停用词,并对去除无意义的停用词后的未结案案件的文本信息进行分词,获取未结案案件的文本信息中的特征词;
需要说明的是,本发明实施例涉及的“去除未结案案件的文本信息中的无意义的停用词”和“进行分词”方式,是本领域技术人员所熟知的,因此,其具体实现方式不做过多描述。
一些实施例中,可以但不限于使用jieba分词工具进行分词。
302:利用BERT预训练模型获取未结案案件的文本信息中的特征词的词向量,并将未结案案件的文本信息中特征词的词向量拼接成未结案案件的文本向量矩阵。
一些可选的实施例中,利用BERT预训练模型提取未结案案件的文本信息中的特征词,并利用word2vec方法将未结案案件的文本信息中的特征词编码成词向量,将未结案案件文本下所有词向量拼接成一个文本向量矩阵。
需要说明的是,本发明实施例涉及的“BERT预训练模型”方式,是本领域技术人员所熟知的,因此,其具体实现方式不做过多描述。
202:根据未结案案件的文本信息,获取未结案案件与已结案的行政处罚案件的相似度。
一些可选实施例中,步骤202可以通过但不限于以下过程实现:
2021:采集已结案的行政处罚案件;
容易理解的是,已结案的行政处罚案件放入数据库中以便于保存,数据库应当定时更新和增加已结案的行政处罚案件。
2022:对已结案的行政处罚案件的文本信息进行预处理,获取已结案的行政处罚案件的文本向量矩阵;
一些可选实施例中,步骤2022可以通过但不限于以下过程实现:
2022a:去除已结案的行政处罚案件的文本信息中的无意义的停用词,并对去除无意义的停用词后的已结案的行政处罚案件的文本信息进行分词,获取已结案的行政处罚案件的文本信息中的特征词;
需要说明的是,本发明实施例涉及的“除已结案的行政处罚案件的文本信息中的无意义的停用词”和“进行分词”方式,是本领域技术人员所熟知的,因此,其具体实现方式不做过多描述。
一些实施例中,可以但不限于使用jieba分词工具进行分词。
2022b:利用BERT预训练模型获取已结案的行政处罚案件的文本信息中特征词的词向量,并将已结案的行政处罚案件的文本信息中特征词的词向量拼接成已结案的行政处罚案件的文本向量矩阵。
一些可选的实施例中,利用BERT(Bidirectional Encoder Representationsfrom Transformers)预训练模型提取已结案的行政处罚案件的文本信息中的特征词,并利用word2vec方法将已结案的行政处罚案件的文本信息中的特征词编码成词向量,将已结案的行政处罚案件文本下所有词向量拼接成一个文本向量矩阵。
需要说明的是,本发明实施例涉及的“BERT预训练模型”方式,是本领域技术人员所熟知的,因此,其具体实现方式不做过多描述。
2023:根据未结案案件的文本信息和已结案的行政处罚案件的文本向量矩阵,获取未结案案件与已结案的行政处罚案件的相似度。
一些可选实施例中,步骤2023可以但不限于通过WMD(Word Moving Distance)方法实现,如下所示:
2023a:计算未结案的行政处罚案件的文本向量矩阵中的词向量与已结案的行政处罚案件的文本向量矩阵中的词向量的余弦距离;
一些可选的实施例中,可以但不限于按下式确定未结案的行政处罚案件的文本向量矩阵中的第i个词向量与已结案的行政处罚案件的文本向量矩阵中的第j个词向量的余弦距离cosθij
上式中,i∈[1,n],n为未结案的行政处罚案件的文本向量矩阵中词向量的总数量;j∈[1,m],m为已结案的行政处罚案件的文本向量矩阵中词向量的总数量;wi为未结案的行政处罚案件的文本向量矩阵中的第i个词向量,wj为已结案的行政处罚案件的文本向量矩阵中的第j个词向量;||wi||为词向量wi的向量长度,||wj||为词向量wj的向量长度。
2023b:利用余弦距离获取未结案案件与已结案的行政处罚案件的相似度。
一些可选的实施例中,可以但不限于按下式确定未结案案件与已结案的行政处罚案件的相似度目标函数F:
按下式确定未结案案件与已结案的行政处罚案件的相似度目标函数的约束条件:
上式中,Tij为未结案案件的文本向量矩阵中第i个词向量对应的特征词转移至已结案的行政处罚案件的文本向量矩阵中第j个词向量对应的特征词占的权重集合;di为未结案案件的文本向量矩阵中第i个词向量对应的特征词在未结案案件的文本信息中的权重;d′j为已结案的行政处罚案件的文本向量矩阵中第j个词向量对应的特征词在已结案的行政处罚案件的文本信息中的权重。
一些可选的实施例中,按下式确定未结案案件的文本向量矩阵中第i个词向量对应的特征词在未结案案件的文本信息中的权重di
按下式确定已结案的行政处罚案件的文本向量矩阵中第j个词向量对应的特征词在已结案的行政处罚案件的文本信息中的权重d′j
上式中,i∈[1,n],n为未结案的行政处罚案件的文本向量矩阵中词向量的总数量;j∈[1,m],m为已结案的行政处罚案件的文本向量矩阵中词向量的总数量;ci为未结案案件的文本向量矩阵中第i个词向量对应的特征词的词频,cj为已结案的行政处罚案件的文本向量矩阵中第j个词向量对应的特征词的词频。
203:根据未结案案件与已结案的行政处罚案件的相似度确定与未结案案件相似的案件。
一些可选实施例中,步骤203可以通过但不限于以下过程实现:
2031:从所有已结案的行政处罚案件中提取未结案案件与已结案的行政处罚案件的相似度满足文本相似度阈值的已结案的行政处罚案件为待用的已结案的行政处罚案件;
例如,未结案案件与已结案的行政处罚案件的相似度满足文本相似度阈值,则该已结案的行政处罚案件为待用的已结案的行政处罚案件。
需要说明的是,本发明实施例“对文本相似度阈值”不做限定,可以由本领域技术人员根据工程需要进行设定;一些可选的实施例中,文本相似度阈值可以是一个具体的值,也可以是一个具体的范围。
2032:对所有待用的已结案的行政处罚案件的处罚结果进行归一化,获取所有待用的已结案的行政处罚案件的处罚结果的归一化值;
根据《行政处罚法》,处罚结果分成七种处罚类型:警告、罚款、没收违法所得、责令停产停业、暂扣或者吊销许可证、暂扣或者吊销执照、行政拘留、法律及行政法规规定的其他行政处罚等;一些可选实施例中,步骤2032可以通过但不限于以下过程实现:
2032a:若待用的已结案的行政处罚案件的处罚结果类型为二元变量,则用1表示该待用的已结案的行政处罚案件的处罚结果的归一化值;
例如,对于二元变量,如警告、没收违法所得、责令停产停业、暂扣或吊销许可证、暂扣或吊销执照及其他为二元变量的处罚类型,使用0/1表示没有/有执行此行政处罚。
2032b:若对待用的已结案的行政处罚案件的处罚结果类型为数值变量,则利用Z-Score方法获取该待用的已结案的行政处罚案件的处罚结果的归一化值。
需要说明的是,获取未结案案件的处罚结果的归一化值也可以但不限通过步骤2032a和2032b中的方法实现。
例如,对于数值变量,如罚款、行政拘留及其他为数值变量的处罚类型,使用Z-Score归一化:
按下式确定第x个待用的已结案的行政处罚案件的处罚结果的归一化值Zx:
上式中,x∈[1,X],X为处罚结果类型为数值变量的待用的已结案的行政处罚案件的总数量;yx为第x个处罚结果类型为数值变量的待用的已结案的行政处罚案件的处罚结果的值(例如,处罚结果为拘留15天,则处罚结果的值为15天),μ为与第x个处罚结果类型为数值变量的待用的已结案的行政处罚案件的处罚结果相同类型的所有处罚结果的值的平均数,σ为与第x个处罚结果类型为数值变量的待用的已结案的行政处罚案件的处罚结果相同类型的所有处罚结果的值的标准差;
具体的,对μ和σ进一步举例说明:
例如,假设第x个处罚结果类型为数值变量的待用的已结案的行政处罚案件的处罚结果为拘留14天,则所有处罚结果为“拘留”的已结案的行政处罚案件包括:拘留10天、拘留11天、拘留12天和拘留13天,则
μ=14+10+11+12+13=12,
2033:利用所有待用的已结案的行政处罚案件的处罚结果的归一化值确定与未结案案件相似的案件。
一些可选实施例中,步骤2033可以通过但不限于以下过程实现:
2033a:若未结案案件的处罚结果为二元变量,则计算待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度,并对处罚类型相似度从高到低排序,提取处罚类型相似度满足处罚类型相似度阈值的待用的已结案的行政处罚案件;
一些可选的实施例中,可以但不限于按下式计算第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度sim1
上式中,k∈[1,K],K为待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的总数量;A为未结案案件的处罚结果;Bk为第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果;P(A∩Bk)为未结案案件的处罚结果和第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果的处罚类型的交集数量;P(A∪Bk)为未结案案件的处罚结果和第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果的处罚类型的联集数量;
2033b:若未结案案件的处罚结果为数值变量,则计算待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差,并对处罚结果分数差从低到高排序,提取处罚结果分数差满足分数差阈值的待用的已结案的行政处罚案件;
一些可选的实施例中,可以但不限于按下式计算第x个待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差sim2
sim2=Z-Zx
上式中,Z为未结案案件的处罚结果的归一化值,Zx为第x个待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件的处罚结果的归一化值。
2033c:若未结案案件的处罚结果为数值变量和二元变量,则分别计算待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差和待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度,并对处罚结果分数差从低到高排序,对处罚类型相似度从高到低排序,提取处罚结果分数差满足分数差阈值的待用的已结案的行政处罚案件和/或处罚类型相似度满足处罚类型相似度阈值的待用的已结案的行政处罚案件。
需要说明的是,本发明实施例“分数差阈值”和“处罚类型相似度阈值”不做限定,可以由本领域技术人员根据工程需要进行设定;一些可选的实施例中,文本相似度阈值可以是一个具体的值,也可以是一个具体的范围。
一些可选的实施例中,采集未结案案件和已结案的行政处罚案件之后,应当分别提取未结案案件的文本信息和已结案的行政处罚案件的文本信息中的结构化和非结构化的信息;
结构化信息是指有既定格式(数值范围和属性固定)的数据,非结构化信息是没有固定属性、格式的数据,这里只涉及到文本数据;
容易理解的是,在计算未结案案件与已结案的行政处罚案件的相似度的过程中,所涉及的是未结案案件与已结案的行政处罚案件的文本信息中的非结构化数据(即文本数据);对所有待用的已结案的行政处罚案件的处罚结果和进行归一化的过程中,所涉及的是所有待用的已结案的行政处罚案件的文本信息中的结构化数据。
需要说明的是,本发明实施例涉及的“提取未已结案的行政处罚案件的文本信息中的结构化和非结构化的信息”方式,是本领域技术人员所熟知的,因此,其具体实现方式不做过多描述。
一些可选的实施例中,在数据库中使用SQL命令,提取出已经先行划分好的结构化和非结构化信息:数值信息(如处罚结果)和文本信息(如违法事实)。
本申请的实施例提供的令一种基于处罚特征的行政执法类案推荐方法,通过根据未结案案件的文本信息,获取未结案案件与已结案的行政处罚案件的相似度,并根据未结案案件与已结案的行政处罚案件的相似度确定与未结案案件相似的案件,一方面避免了手工类案推荐效率低的弊端,还节省了大量人力;另一方面,使类案推荐结果的精确度高,更符合使用者期望。
本申请的实施例提供的令一种基于处罚特征的行政执法类案推荐方法,借由计算行政案件中结构化数据之间和非结构化数据之间的相似度,达成精确度高、符合使用者期望的类案推荐结果,对于文本内容使用到了以具有语义特征的深度学习预训练模型词向量,计算案件之间的词向量距离,进行相似案件推荐,且加上了其他可用的结构化信息,在除了利用到文本语义进行相似度衡量外,多利用了数值类型的数据,大幅增加推荐的效果,达到相似判决推荐。
本发明实施例还提供一种可读存储介质,其上存储有可执行程序,可执行程序被处理器执行时实现上述一种基于处罚特征的行政执法类案推荐方法的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种基于处罚特征的行政执法类案推荐方法,其特征在于,所述方法,包括:
采集未结案案件的文本信息;
根据所述未结案案件的文本信息,获取所述未结案案件与已结案的行政处罚案件的相似度;
根据所述未结案案件与已结案的行政处罚案件的相似度确定与所述未结案案件相似的案件;
其中,所述根据所述未结案案件与已结案的行政处罚案件的相似度确定与所述未结案案件相似的案件,包括:
从所有已结案的行政处罚案件中提取所述未结案案件与已结案的行政处罚案件的相似度满足文本相似度阈值的已结案的行政处罚案件为待用的已结案的行政处罚案件;
对所有待用的已结案的行政处罚案件的处罚结果进行归一化,获取所有待用的已结案的行政处罚案件的处罚结果的归一化值;
利用所有待用的已结案的行政处罚案件的处罚结果的归一化值确定与所述未结案案件相似的案件;其中,所述处罚结果包括:警告、罚款、没收违法所得、责令停产停业、暂扣或者吊销许可证、暂扣或者吊销执照、行政拘留、法律及行政法规规定的其他行政处罚中至少之一;
其中,所述对所有待用的已结案的行政处罚案件的处罚结果进行归一化,获取所有待用的已结案的行政处罚案件的处罚结果的归一化值,包括:
若所述待用的已结案的行政处罚案件的处罚结果类型为二元变量,则用1表示该待用的已结案的行政处罚案件的处罚结果的归一化值;
若对所述待用的已结案的行政处罚案件的处罚结果类型为数值变量,则利用Z-Score方法获取该待用的已结案的行政处罚案件的处罚结果的归一化值;
其中,所述利用所有待用的已结案的行政处罚案件的处罚结果的归一化值确定与所述未结案案件相似的案件,包括:
若所述未结案案件的处罚结果为二元变量,则计算待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度,并对所述处罚类型相似度从高到低排序,提取处罚类型相似度满足处罚类型相似度阈值的待用的已结案的行政处罚案件;
若所述未结案案件的处罚结果为数值变量,则计算待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差,并对所述处罚结果分数差从低到高排序,提取处罚结果分数差满足分数差阈值的待用的已结案的行政处罚案件;
若所述未结案案件的处罚结果为数值变量和二元变量,则分别计算待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差和待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度,并对所述处罚结果分数差从低到高排序,对处罚类型相似度从高到低排序,提取处罚结果分数差满足分数差阈值的待用的已结案的行政处罚案件和/或处罚类型相似度满足处罚类型相似度阈值的待用的已结案的行政处罚案件。
2.根据权利要求1所述的方法,其特征在于,所述根据所述未结案案件的文本信息,获取所述未结案案件与已结案的行政处罚案件的相似度,包括:
采集已结案的行政处罚案件;
分别对所述未结案案件的文本信息和已结案的行政处罚案件的文本信息进行预处理,获取所述未结案案件的文本向量矩阵和已结案的行政处罚案件的文本向量矩阵;
根据所述未结案案件的文本信息和所述已结案的行政处罚案件的文本向量矩阵,获取所述未结案案件与已结案的行政处罚案件的相似度。
3.根据权利要求2所述的方法,其特征在于,所述分别对所述未结案案件的文本信息和已结案的行政处罚案件的文本信息进行预处理,获取所述未结案案件的文本向量矩阵和已结案的行政处罚案件的文本向量矩阵,包括:
去除未结案案件的文本信息和已结案的行政处罚案件的文本信息中的无意义的停用词,并对去除无意义的停用词后的未结案案件的文本信息和已结案的行政处罚案件的文本信息进行分词,获取未结案案件的文本信息中的特征词和已结案的行政处罚案件的文本信息中的特征词;
利用BERT预训练模型获取未结案案件的文本信息中的特征词和已结案的行政处罚案件的文本信息中特征词的词向量,并分别将所述未结案案件的文本信息中特征词和已结案的行政处罚案件的文本信息中特征词的词向量拼接成所述未结案案件的文本向量矩阵和已结案的行政处罚案件的文本向量矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据所述未结案案件的文本信息和所述已结案的行政处罚案件的文本向量矩阵,获取所述未结案案件与已结案的行政处罚案件的相似度,包括:
计算所述未结案的行政处罚案件的文本向量矩阵中的词向量与已结案的行政处罚案件的文本向量矩阵中的词向量的余弦距离;
利用所述余弦距离获取所述未结案案件与已结案的行政处罚案件的相似度。
5.根据权利要求4所述的方法,其特征在于,所述计算所述未结案的行政处罚案件的文本向量矩阵中的词向量与已结案的行政处罚案件的文本向量矩阵中的词向量的余弦距离,包括:
按下式确定未结案的行政处罚案件的文本向量矩阵中的第i个词向量与已结案的行政处罚案件的文本向量矩阵中的第j个词向量的余弦距离cosθij
上式中,i∈[1,n],n为未结案的行政处罚案件的文本向量矩阵中词向量的总数量;j∈[1,m],m为已结案的行政处罚案件的文本向量矩阵中词向量的总数量;wi为未结案的行政处罚案件的文本向量矩阵中的第i个词向量,wj为已结案的行政处罚案件的文本向量矩阵中的第j个词向量。
6.根据权利要求5所述的方法,其特征在于,所述利用所述余弦距离获取所述未结案案件与已结案的行政处罚案件的相似度,包括:
按下式确定所述未结案案件与已结案的行政处罚案件的相似度目标函数F:
按下式确定所述未结案案件与已结案的行政处罚案件的相似度目标函数的约束条件:
上式中,Tij为未结案案件的文本向量矩阵中第i个词向量对应的特征词转移至已结案的行政处罚案件的文本向量矩阵中第j个词向量对应的特征词占的权重集合;di为未结案案件的文本向量矩阵中第i个词向量对应的特征词在未结案案件的文本信息中的权重;dj′为已结案的行政处罚案件的文本向量矩阵中第j个词向量对应的特征词在已结案的行政处罚案件的文本信息中的权重。
7.根据权利要求1所述的方法,其特征在于,按下式计算第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件与该未结案案件的处罚类型相似度sim1
上式中,k∈[1,K],K为待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的总数量;A为未结案案件的处罚结果;Bk为第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果;P(A∩Bk)为未结案案件的处罚结果和第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果的处罚类型的交集数量;P(A∪Bk)为未结案案件的处罚结果和第k个待用的已结案的行政处罚案件的处罚结果为二元变量的待用的已结案的行政处罚案件的处罚结果的处罚类型的联集数量;
按下式计算第x个待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件与该未结案案件的处罚结果分数差sim2
sim2=Z-Zx
上式中,Z为未结案案件的处罚结果的归一化值,Zx为第x个待用的已结案的行政处罚案件的处罚结果为数值变量的待用的已结案的行政处罚案件的处罚结果的归一化值。
CN202010491272.1A 2020-06-02 2020-06-02 一种基于处罚特征的行政执法类案推荐方法 Active CN111708875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010491272.1A CN111708875B (zh) 2020-06-02 2020-06-02 一种基于处罚特征的行政执法类案推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010491272.1A CN111708875B (zh) 2020-06-02 2020-06-02 一种基于处罚特征的行政执法类案推荐方法

Publications (2)

Publication Number Publication Date
CN111708875A CN111708875A (zh) 2020-09-25
CN111708875B true CN111708875B (zh) 2023-11-03

Family

ID=72539130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010491272.1A Active CN111708875B (zh) 2020-06-02 2020-06-02 一种基于处罚特征的行政执法类案推荐方法

Country Status (1)

Country Link
CN (1) CN111708875B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918706B (zh) * 2021-10-15 2024-05-28 山东大学 一种行政处罚决定书的信息抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN111144068A (zh) * 2019-11-26 2020-05-12 方正璞华软件(武汉)股份有限公司 一种相似仲裁案件推荐方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN111144068A (zh) * 2019-11-26 2020-05-12 方正璞华软件(武汉)股份有限公司 一种相似仲裁案件推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭弘毅 ; 刘功申 ; 苏波 ; 孟魁 ; .融合社区结构和兴趣聚类的协同过滤推荐算法.计算机研究与发展.2016,(08),全文. *

Also Published As

Publication number Publication date
CN111708875A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN107169049B (zh) 应用的标签信息生成方法及装置
CN101877064B (zh) 图像分类方法及图像分类装置
CN109992668A (zh) 一种基于自注意力的企业舆情分析方法和装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112966682B (zh) 一种基于语义分析的档案分类方法及系统
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN110287337A (zh) 基于深度学习和知识图谱获取医学同义词的系统及方法
CN107844558A (zh) 一种分类信息的确定方法以及相关装置
WO2022042297A1 (zh) 文本聚类方法、装置、电子设备及存储介质
CN111382224A (zh) 一种基于多源数据融合的城市区域功能智能识别方法
CN109344227A (zh) 工单处理方法、系统和电子设备
CN111708875B (zh) 一种基于处罚特征的行政执法类案推荐方法
CN114706559A (zh) 一种基于需求识别的软件规模度量方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN110765266A (zh) 一种裁判文书相似争议焦点合并方法及系统
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
CN113722494A (zh) 一种基于自然语言理解的设备故障定位方法
CN112990978A (zh) 限价指令簿的趋势预测方法及预测系统
CN112685374B (zh) 日志分类方法、装置及电子设备
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN109849926B (zh) 一种辨别出租车是否交予他人驾驶的方法及系统
CN116415593A (zh) 一种研究前沿识别方法、系统、电子设备及存储介质
CN115965085A (zh) 一种基于知识图谱技术的船舶静态属性推理方法及系统
CN116150313A (zh) 数据扩充处理方法及装置
CN114996476A (zh) 高速列车产品结构树知识融合方法、装置和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant