CN116662643A - 法条推荐方法、法条推荐系统、电子设备、存储介质 - Google Patents
法条推荐方法、法条推荐系统、电子设备、存储介质 Download PDFInfo
- Publication number
- CN116662643A CN116662643A CN202310461966.4A CN202310461966A CN116662643A CN 116662643 A CN116662643 A CN 116662643A CN 202310461966 A CN202310461966 A CN 202310461966A CN 116662643 A CN116662643 A CN 116662643A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- event
- legal
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 46
- 238000013145 classification model Methods 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007726 management method Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 229920001971 elastomer Polymers 0.000 description 3
- 239000000806 elastomer Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013439 planning Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 229910015234 MoCo Inorganic materials 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Library & Information Science (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了法条推荐方法、法条推荐系统、电子设备、存储介质。确定目标事件的类别,并提取所述目标事件的文本的目标关键词;从与所述目标事件的类别相匹配的法律条文集合中检索出与所述目标关键词相匹配的初始法条文本;其中,每个法律条文集合的类别与事件文本集合的类别相匹配,所述事件文本集合根据对事件文本进行分类得到;根据历史推荐结果从初始法条文本中筛选出所述目标事件的目标法条文本。本发明通过法条检索匹配和历史事件检索匹配两方面选取与目标事件所匹配的法律法条,不仅能确保目标事件所获取的法律法条的准确性高,同时选取与目标事件所匹配的法律法条也足够方便快捷。
Description
技术领域
本发明涉及人工智能的技术领域,具体涉及一种法条推荐方法、法条推荐系统、电子设备、存储介质。
背景技术
随着科学技术的快速发展,且近年来大数据、人工智能等技术也逐渐成熟并应用于各行各业的实际生产中。人工智能战略《新一代人工智能发展规划》中提到,倡导将人工智能技术应用到司法领域中,深度挖掘人工智能哎法律协同工具等方面的应用,围绕行政管理、司法管理、城市管理、环境保护等治理的热点难点问题,促进人工智能的技术应用,推动治理现代化。本申请旨在将现代的数字化、智能化手段应用到传统的组织架构、办事流程之中,能够更好的辅助地方政府快速处理目标事件,利用智能法条推荐方法提供法律依据,结合历史推荐结果,对每一个目标事件提供出最合适的法律法条,并提高办事效率。
发明内容
本发明要解决的技术问题是为了克服现有技术中无法智能化为目标事件提供相匹配的法律法条的缺陷,提供一种法条推荐方法、法条推荐系统、电子设备、存储介质。
本发明是通过下述技术方案来解决上述技术问题:
第一方面,提供一种法条推荐方法,包括:
确定目标事件的类别,并提取所述目标事件的文本的目标关键词;
从与所述目标事件的类别相匹配的法律条文集合中检索出与所述目标关键词相匹配的初始法条文本;其中,每个法律条文集合的类别与事件文本集合的类别相匹配,所述事件文本集合根据对事件文本进行分类得到;
根据历史推荐结果从初始法条文本中筛选出所述目标事件的目标法条文本。
可选地,提取所述目标事件的文本的目标关键词,包括:
提取所述目标事件的文本中的候选关键词;
确定与所述候选关键词相匹配的领域关键词;
根据标准词汇映射表,分别确定与所述候选关键词和所述领域关键词对应的标准词,并将所述标准词确定为所述目标事件的文本的目标关键词;其中,所述标准词汇映射表表征候选关键词、领域关键词与标准词的对应关系。
可选地,提取所述目标事件的文本中的候选关键词,包括:
使用Textrank算法提取所述目标事件的文本中的初始词汇;
根据预先构建的候选词表从所述初始词汇中确定候选词汇;
计算所述候选词汇在所述目标事件的文本中的出现频率以及逆文档频率,并根据所述出现频率和所述逆文档频率从所述候选词汇中筛选出候选关键词。
可选地,所述确定目标事件的类别,包括:
将所述目标事件的文本输入分类模型,根据所述分类模型确定所述目标事件的类别;
其中,所述分类模型采用事件文本集合对FastText子模型和softmax层训练得到;所述事件文本集合通过文本匹配模型对事件文本进行分类得到;所述文本匹配模型采用训练样本对ESimCSE子模型和动量编码器训练得到,所述训练样本包括标注有类别的事件文本。
可选地,从与所述目标事件的类别相匹配的法律条文集合中检索出与所述目标关键词相匹配的初始法条文本,包括:
计算所述目标关键词与所述法律条文集合中的法条文本的内容相关性分数;
计算所述目标关键词与所述法律条文集合中的法条文本的名称相关性分数;
根据所述内容相关性分数和所述名称相关性分数的加权结果,确定与所述目标关键词相匹配的初始法条文本。
可选地,所述根据历史推荐结果从初始法条文本中筛选出所述目标事件的目标法条文本,包括:
计算所述目标事件的向量与所述历史事件的向量的余弦相似度,其中,所述目标事件的向量采用ESimCSE子模型编码得到;
选取最高余弦相似度,判断所述最高余弦相似度是否高于余弦相似度阈值,若是,则采用与所述历史事件相匹配的法条文本为目标法条文本;若否,则采用所述初始法条文本为目标法条文本。
第二部分,提供一种法律推荐系统,包括:
提取模块,用于确定目标事件的类别,并提取所述目标事件的文本的目标关键词;
检索模块,用于从与所述目标事件的类别相匹配的法律条文集合中检索出与所述目标关键词相匹配的初始法条文本;其中,每个法律条文集合的类别与事件文本集合的类别相匹配,所述事件文本集合根据对事件文本进行分类得到;
筛选模块,用于根据历史推荐结果从初始法条文本中筛选出所述目标事件的目标法条文本。
可选地,所述提取模块,包括:
提取单元,用于提取所述目标事件的文本中的候选关键词;
第一确定单元,用于确定与所述候选关键词相匹配的领域关键词;
第二确定单元,用于根据标准词汇映射表,分别确定与所述候选关键词和所述领域关键词对应的标准词,并将所述标准词确定为所述目标事件的文本的目标关键词;其中,所述标准词汇映射表表征候选关键词、领域关键词与标准词的对应关系。
可选地,所述提取单元,包括:
提取子单元,用于使用Textrank算法提取所述目标事件的文本中的初始词汇;
确定子单元,用于根据预先构建的候选词表从所述初始词汇中确定候选词汇;
计算子单元,用于计算所述候选词汇在所述目标事件的文本中的出现频率以及逆文档频率,并根据所述出现频率和所述逆文档频率从所述候选词汇中筛选出候选关键词。
可选地,所述提取模块,包括:
类别确定单元,用于将所述目标事件的文本输入分类模型,根据所述分类模型确定所述目标事件的类别;
其中,所述分类模型采用事件文本集合对FastText子模型和softmax层训练得到;所述事件文本集合通过文本匹配模型对事件文本进行分类得到;所述文本匹配模型采用训练样本对ESimCSE子模型和动量编码器训练得到,所述训练样本包括标注有类别的事件文本。
可选地,所述检索模块,包括:
第一计算单元,用于计算所述目标关键词与所述法律条文集合中的法条文本的内容相关性分数;
第二计算单元,用于计算所述目标关键词与所述法律条文集合中的法条文本的名称相关性分数;
法条确定单元,用于根据所述内容相关性分数和所述名称相关性分数的加权结果,确定与所述目标关键词相匹配的初始法条文本。
可选地,所述筛选模块,包括:
第三计算单元,用于计算所述目标事件的向量与所述历史事件的向量的余弦相似度,其中,所述目标事件的向量采用ESimCSE子模型编码得到;
判断单元,用于选取最高余弦相似度,判断所述最高余弦相似度是否高于余弦相似度阈值,若是,则采用与所述历史事件相匹配的法条文本为目标法条文本;若否,则采用所述初始法条文本为目标法条文本。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的法条推荐方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的法条推荐方法。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:本发明通过法条检索匹配和历史事件检索匹配两方面选取与目标事件所匹配的法律法条,不仅能确保目标事件所获取的法律法条的准确性高,同时选取与目标事件所匹配的法律法条也足够方便快捷。
附图说明
图1为本发明一示例性实施例提供的一种法条推荐方法的流程图;
图2为本发明一示例性实施例提供的另一种法条推荐方法的流程图;
图3为本发明一示例性实施例提供的另一种法条推荐方法的流程图;
图4为本发明一示例性实施例提供的另一种法条推荐方法的流程图;
图5为本发明一示例性实施例提供的一种法条推荐系统的模块示意图;
图6为本发明一示例性实施例提供的一种电子设备的结构图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
本实施例提供出一种法条推荐方法,如图1所示,该法条推荐方法包括下列步骤:
步骤101、确定目标事件的类别,并提取目标事件的文本的目标关键词;
目标事件包括举报事件、投诉事件和请求帮助事件等,可用于政府基层、法治部门数字化转型、公安系统、城市管理部门、法院或市政热线等政府机关部门。
需要说明的是,本发明实施例中对确定目标事件的类别、提取目标事件的文本的目标关键词的执行顺序不作特别限定,可以先确定目标事件的类别,再提取目标事件的文本的目标关键词;也可以先提取目标事件的文本的目标关键词,再确定目标事件的类别;还可以两者同步执行。
在一个实施例中,普通事件的分类类别通过以下方式确定:通过ESimCSE模型对普通事件的文本进行向量化。然后对特征向量化后的普通事件进行聚类分析,通过分析选取所需合适数量的聚类簇,如十大聚类簇,并观察聚类簇中的数据,总结出普通事件的类别特征,以确定普通事件的分类类别。
如图2所示,对于普通事件经聚类分析后不合理的聚类数据可以进行人工矫正,对于聚类簇内数量少的不做处理,其原因是聚类簇内数量少代表该目标事件出现频率较低,聚类簇内数量的多少代表了该类型的目标事件出现频率的高低。其中,针对聚类簇选取的数量不做具体限定,也可以对聚类簇的数量选取为八个或则九个,优选的推荐选取十大聚类簇,更好的保证对普通事件的类别总结的准确性和全面性。
用已选取好的十大聚类簇去训练文本分类模型,对所优选的十大聚类簇的每一类依次设置不同的预设类别置信度阈值;将分类算法预测的类别置信度与所设置的不同预设类别置信度阈值进行对比,确定目标事件所属类别。其中,文本分类模型用于对目标事件的文本进行分类,基于所选取的十大聚类簇,获取目标事件所属类别。所采用的文本分类模型可选取包含有三层神经网络的FaxtText文本分类模型,对文本分类模型可根据需求自行选择,不做具体限定,针对FaxtText文本分类模型的神经网络的层数选择不做具体限定,优选的推荐选取三层神经网络,使得推理速度迅速,推理速度的进展速度更快。目标事件的文本的句向量特征根据FaxtText文本分类模型将目标事件的句子的词向量与多个n-gram特征向量相加后取均值作为句向量特征,再通过softmax层进行分类预测,并引入n-gram特征使得FaxtText文本分类模型学习到次序的信息从而区别于无序的词袋模型。举例来说,在FaxtText文本分类模型中,将句向量的特征维度设置在256维,则最大的n-gram特征则为6。对于句向量的特征维度的设置可根据目标事件的文本进行设置,不做具体限定,举例来说,使用ESimCSE模型将目标事件的文本编码为768维的特征向量,若目标事件的文本整体长度较短,可以在EsimCSE模型后添加全连接层,降低特征维数,不仅可以加快搜索速度同时也能够有效降低特征向量所占据的存储空间。
本实施例通过确定普通事件的分类类别获取聚类簇,基于所优选出的聚类簇训练得到文本分类模型,目标事件通过使用文本分类模型不仅可以快速确定目标事件所属类别,也可以提高所确定的目标事件的所属类别的准确性。
步骤102、从与目标事件的类别相匹配的法律条文集合中检索出与目标关键词相匹配的初始法条文本;其中,每个法律条文集合的类别与事件文本集合的类别相匹配,事件文本集合根据对事件文本进行分类得到。
所采用的检索方法可以不限于使用Elasticsearch检索,Elasticsearch检索使用所提取到目标事件的文本的目标关键词在法律法条中进行目标关键词匹配搜索,Elasticsearch检索框架利用倒排索引的方法进行搜索,然后运用BM25算法对关键词进行计算,初步获取目标关键词;为避免所获取的目标关键词在搜索中存在领域关键词匹配错误的问题,还需增加对法律名的筛选,即将目标事件的文本中的目标关键词与搜索结果中法条对应的法律名进行向量化匹配,再使用加权求和的方法综合两个阶段的匹配分数,对法条进行排序,从而选取出与目标关键词相匹配的初始法条文本。其中,BM25算法的一般公式为Qi表示每一个词语,Di表示目标事件的文本,Wi表示Qi的权重,R(Qi,Dj)表示Qi与Di的相关性得分关系。
本实施例采用Elasticsearch检索对目标关键词进行检索,不仅加快了搜索速度,同时也保证了所检索的准确度。
步骤103、根据历史推荐结果从初始法条文本中筛选出目标事件的目标法条文本。
历史推荐结果可以但不限于包括基于本发明实施例的法条推荐方法确定的且采纳率较高的推荐结果、法律专家针对目标事件的历史推荐结果。历史推荐结果还可以通过利用历史经验来对推荐结果进行优化,对于历史推荐结果的效果主要依赖于历史数据的数量和质量;若历史推荐结果较少,可能会存在有无法匹配到与目标事件相似的历史事件,从而无法获取历史推荐结果,优化效果很小。所以历史推荐结果主要依赖于对于历史事件的积累和记载,使得历史推荐结果所涉及的领域逐渐变广,数据逐渐完善,历史推荐结果的准确率也逐渐上升。
举例来说,目标事件为“来信反映,1995年该村进行旧村改造,他们是前期分房的动迁户,当时动迁办将他们分房剩余面积作为奖励费,实施上剩余面积在后期可以分房。2006年该村曾经制定“白遗桥村旧宅改造中动迁分房的补充意见”,但该意见至今没有完全执行。要求将他们的“剩余面积”分房。”。其中,历史推荐结果包括历史事件的法律和法条,根据所记载的历史推荐结果与目标事件进行匹配,可得到匹配的法律为“上海市旧住房综合改造管理方法”,所匹配的法条为“上海市旧住房综合改造管理办法第二十条:房屋面积要求旧住房综合改造除与住户有约定的外,不得减少原住户房屋居住面积。加层部分的房屋参照本市执行。”。
本实施例,通过运用历史推荐结果对目标事件的法条推荐结果进行推荐和优化,从而保证了目标事件所得到的法条的准确性。
本实施例通过法条检索匹配和历史事件检索匹配两方面选取与目标事件所匹配的法律法条,不仅能确保目标事件所获取的法律法条的准确性高,同时选取与目标事件所匹配的法律法条也足够方便快捷。
在一个实施例中,通过采用ESimCSE模型将目标事件的文本进行向量化;对于构建目标事件向量化的文本不具体限制于采用ESimCSE模型,可自行根据需求选择模型。优选的推荐采用ESimCSE模型,其原因是:
ESimCSE模型参考MoCo系列论文的思想,构建了一个固定长度的队列,存储前面批次已经编码好的句子特征,将队列设置为最长长度,其优点可以满足“先进先出”的规则,且ESimCSE模型在构造正例方面也有所改进,在不改变句子语义信息的情况下,改变样本句子的长度,从而能够解决“长度偏置”问题。
目标事件于法律法条通过十分类初步建立联系,当目标事件被分类到十分类中时,对于法律法条的搜索空间也会被现在目标事件所属类别的法律法条中,相当于推荐算法中的粗召回层。举例来说:处理一项目标事件时,判断该目标事件的分类置信度是否高于的预设类别置信度阈值;若高于,则将目标事件分类于置信度最高的类别中,且对于法律法条的搜索空间也限制在该置信度最高的类别之下;若低于,则视为目标事件搜索失败,继续进行全局搜索,也可称为“粗召回层失效”。
其中,根据目标事件文本总结的十个类别,以整部法律为单位对法律名进行十分类;且对于法律名进行十分类时,需要进行预处理;法律名称中会包含一些对分类问题无关紧要的词语需要提取出关键词,即在分词结果中去掉领域无关词汇。举例来说:如“中华人民共和国”、“上海市”等地域名称、“若干规定”、“实施细则”、“条例”等,对于《上海市城镇职工养老保险办法》,要去掉“上海市”和“办法”,提取关键词“城镇职工”和“养老保险”。
举例来说,十大聚类簇的分类类别包括如下所示:
(1)安全隐患:噪音、扬尘、垃圾污染、安全隐患等;
(2)道路交通:停车困难、交通事故、路线规划不合理等;
(3)纪检监察:渎职、徇私枉法、工作作风等;
(4)教育:入学问题、私设辅导机构、学校违规、学生管理等;
(5)劳动争议:工龄、社保、补助、劳动纠纷等;
(6)社会保障:因病、年迈、残疾需救助、社会福利等;
(7)市场监管:税收、企业、合同、高利贷、非法集资、诈骗、霸王条款、无证或违规经营等;
(8)市政:环境绿化(暴露垃圾)、城乡规划、违章搭建、车辆乱停放、广告等;
(9)物业邻里:物业、街道、居委、邻里等;
(10)征地拆迁:安置问题、补偿金、强迁等。
在一个实施例中,提取目标事件的文本中的候选关键词;确定与候选关键词相匹配的领域关键词;根据标准词汇映射表,分别确定与候选关键词和领域关键词对应的标准词,并将标准词确定为目标事件的文本的目标关键词;其中,标准词汇映射表表征候选关键词、领域关键词与标准词的对应关系。
候选关键词是指目标事件的文本初步所选取出的所有目标关键词,通过对目标事件的文本进行分词处理,并去除例如“的”、“了”等无意义词得到;标准词汇映射表是利用传统的统计语言模型所构建的;标准词为目标事件的文本最终确定下的具有准确辨别化的词语。其中,标准词汇映射表包括:候选关键词、领域关键词和标准词的对应关系;举例来说,《上海市城镇职工养老保险办法》内,候选关键词包括:上海市、城镇职工、养老保险和办法;标准词包括:养老保险;标准词的对应关系包括:养老保险对应劳动争议。领域关键词是指在所属领域内特征鲜明的词语,如:拆迁、医疗纠纷、健身卡等。
标准词汇映射表也包含有新词,其中,新词表示目标事件的文本中的词汇未在标准词汇里记录的词汇称之为新词;新词主要采用Smoothnlp算法所获取;其具体获取流程为:第一步:将事件的文本语料按字符进行分割,提取其2-gram、3-gram(一般不超过6-gram)等组合作为候选关键词;第二步:为每个候选词计算一个分数,该分数表示两个字符成为一组词语的可能性;其可能性的度量方式综合考虑了词语的左右邻字的丰富程度和内部凝聚程度;其度量具体方式如下:(1)词语的左右邻字足够丰富;即与当前词语在左右两侧共现的不同字符足够多,如词语“公司”常见的左右邻字包含:贵、总、有限、制度、搬迁、招聘等,包含有很多左右邻字;而词语“人工智”常见的左右邻字仅包含:能、障;因此前者“公司”是一个词语的概率更大。左右邻字丰富程度使用信息熵进行度量,信息熵越大,信息量越丰富,越可能是一组词语。(2)词语的内部凝聚程度高,某些字符出现频繁,能够与很多不同的字符组合出邻字丰富程度很高的组合,如“的”字可以组成我的、公司的、你的等,单纯看左右邻字丰富程度要远高于“人工智能”,排除在发现新词时排除这些组合词汇,需要综合考虑候选关键词出现的概率以及其中单个字符出现的概率,使用相互信息进行度量。第三步,按照分数从高到低进行排序,提取新词加入到分词表中。
如图3所示,首先利用传统的统计语言模型构建标准词汇映射表,其中,标准词汇映射表包括候选关键词表、领域关键词表与标准词的对应关系表;利用标准词汇映射表对目标事件的文本进行预处理,使用Textrank算法提取候选关键词,为避免在提取过程中领域关键词被Textrank算法过滤掉,所以直接从目标事件的文本中提取出领域关键词,并将所提取出的领域关键词增加至候选关键词中,使用标准词汇映射表对候选关键词做从口语化词汇到法律行业专业词汇的映射,完成目标事件的文本的目标关键词提取。其中,提取目标事件的文本的目标关键词的算法不做具体限定,可自行选择算法进行目标关键词提取。Textrank算法是一种基于图的用于目标关键词抽取的排序算法,是根据PageRank算法改进获取,Textrank算法将文本看作一个词的网络,在该网络中的表示词与词之间的语义关系为共现信息,从而能够提取出目标事件的文本的句子中的目标关键词,并为所提取出的目标关键词赋予权重,选取权重高于目标关键词阈值的目标关键词作为初步所提取的目标关键词,若所赋予的权重均小于目标关键词阈值,则选取权重最高的词语作为目标关键词。
为了便于对候选关键词、领域关键词与目标关键词的对应关系等信息进行长久化管理,包括但不限于人工的增删改查等操作,该些信息主要依托于5.7版本的MySQL数据库来提供数据存储服务。
本实施例通过构建标准词汇映射表,使得更加方便快捷的搜索词语,提高匹配法律法条的准确性。目标事件中通常会出现较多的口语化词汇,法律法条则是偏向于专业化,所以需要搭建跨域词语映射表,在同义的口语、专业词汇之间建立联系,方便目标事件的文本的目标关键词匹配;举例来说:口语化词汇“违章搭建采光板”与专业词汇“违法搭建建筑物”。
在一个实施例中,使用Textrank算法提取目标事件的文本中的初始词汇;根据预先构建的候选词表从初始词汇中确定候选词汇;计算候选词汇在目标事件的文本中的出现频率以及逆文档频率,并根据出现频率和逆文档频率从候选词汇中筛选出候选关键词。
使用Textrank算法提取目标事件的文本的目标关键词,为防止领域关键词被Textrank算法过滤,直接从目标事件的文本中提取出领域关键词,将其加入到所提取的目标关键词中,再使用标准词的对应关系对目标关键词从口语化词汇到法律法条的专业词汇的映射,实现目标事件的文本的目标关键词的无监督提取。
其中,目标事件的文本中的领域关键词是通过使用TF-TDF算法进行提取,提取领域关键词的目的是为了防止Textrank算法将领域关键词过滤,为避免候选关键词中缺少领域关键词,需要再单独对领域关键词进行提取。提取领域关键词时,词语在目标事件的文本中出现的频率越高,则表示该词语在目标事件中越重要,排除若该词语在多个事件文本中出现频率都很高,则表示该词语可能是常用的领域特征不鲜明或实际意义不大的词语,该类词语对于目标事件的重要性较低。
具体的TF-TDF算法:
第一步计算词频TF,即某个词在文档中出现的频率;
第二步,计算逆文档频率TDF,
第三步,计算TF-TDF值=TF*IDF;
第四步,按照TF-IDF值从高到低排列,加入到领域关键词表中。举例来说,包含的词汇有拆迁、医疗纠纷、健身卡等。
本实施例在算法模型的基础上构建有信息系统,从而有利于更便捷的进行数据管理,将分词表存储在信息系统中,且若发现算法构建的分词表中出现错误词汇时,可及时进行更正。
举例来说:“来信反映,今年3月购买坐落在89广场的舒适河南岸的私教课,由于来信时人无时间锻炼,所以申请退课,但就退款问题与门店发生纠纷,请求相关部门协调处理。”,若不使用所构建的标准词汇映射表直接进行分词,则会分出“教课”,搜索结果则会偏向于学校、老师相关法条,而“私教课”则更会偏向于市场监督类法条,其结论会存在偏颇,导致法条错误。
本实施例,通过构建标准词汇映射表进行目标事件文本的目标关键词的提取,不仅提高了所提取的目标关键词的准确性,且加强了对于法律发条匹配的准确性,避免出现误差。
在一个实施例中,将目标事件的文本输入分类模型,根据分类模型确定目标事件的类别;其中,分类模型采用事件文本集合对FastText子模型和softmax层训练得到;事件文本集合通过文本匹配模型对事件文本进行分类得到;文本匹配模型采用训练样本对ESimCSE子模型和动量编码器训练得到,训练样本包括标注有类别的事件文本。
所采用的文本分类模型可选取包含有三层神经网络的FaxtText文本分类模型,对文本分类模型可根据需求自行选择,不做具体限定,针对FaxtText文本分类模型的神经网络的层数选择不做具体限定,优选的推荐选取三层神经网络,使得推理速度迅速,推理速度的进展速度更快。目标事件的文本的句向量特征根据FaxtText文本分类模型将目标事件的句子的词向量与多个n-gram特征向量相加后取均值作为句向量特征,再通过softmax层进行分类预测,并引入n-gram特征使得FaxtText文本分类模型学习到次序的信息从而区别于无序的词袋模型。举例来说,在FaxtText文本分类模型中,将句向量的特征维度设置在256维,则最大的n-gram特征则为6。对于句向量的特征维度的设置可根据目标事件的文本进行设置,不做具体限定,举例来说,使用ESimCSE模型将目标事件的文本编码为768维的特征向量,若目标事件的文本整体长度较短,可以在EsimCSE模型后添加全连接层,降低特征维数,不仅可以加快搜索速度同时也能够有效降低特征向量所占据的存储空间。
文本匹配模型采用训练样本对ESimCSE子模型和动量编码器训练得到。其中,ESimCSE模型在训练阶段会计算损失函数,将重新利用队列中存储的前几个批次的文本句向量作为负样本,且因为ESimCSE模型在训练过程中不断对所获取的参数进行更新,不同时间的ESimCSE模型可以看作不同的ESimCSE模型,从而造成了很大偏差,所以文本匹配模型采用训练样本进行训练时,ESimCSE模型需要新增一个编码器分支,优选地采用动量编码器。动量编码器的参数利用编码器的参数进行动量式的更新,每次都会在原有参数的基础上进行更新,只朝着更新方向前进一小步。通过参数更新的方式,相邻时间的动量编码器模型参数的差别会很小,基于动量编码器对负样本进行编码,从而获取到一致性较高的负样本句向量。ESimCSE模型是采用无监督训练,通过生成更多的负例,从而学习到更丰富的信息并有效提高文本语言撰写的质量。
本实施例分类模型通过FastText子模型和softmax层来确定目标事件的类别,不仅可以加快搜索速度,有效降低特征向量所占据的存储空间,同时也可以保证所搜索到的类别的准确性较高。
在一个实施例中,从与目标事件的类别相匹配的法律条文集合中检索出与目标关键词相匹配的初始法条文本,包括:计算目标关键词与法律条文集合中的法条文本的内容相关性分数;计算目标关键词与法律条文集合中的法条文本的名称相关性分数;根据内容相关性分数和名称相关性分数的加权结果,确定与目标关键词相匹配的初始法条文本。
法律法条数据以word文档的形式进行存储并进行分析,由于法律法条会存在有从不同途径的获取的问题,导致在法律文件结构上存在差异,所以需要通过正则表达式匹配的方法将法律文档按照章、附则、法条进行结构化处理,将法律文档结构化为字典结构,即将整部法律做为一个字典,其中,包括法律名称、法律的生效日期、法律的说明以及每个法条的序号和内容等。此外,文档分析也对所包含的附属文件、不规则换行等个别现象进行处理并建立有一套完备的法律文档结构化处理技术。结构化好的法律法条信息存储在Elasticsearch框架中。
根据目标事件的预分类类别,在进行Elasticsearch检索时可以限定搜索范围,若目标事件属于所预分类类别,则Elasticsearch检索范围在所预分类类别对应的法律库中;若目标事件不属于所预分类类别,则Elasticsearch检索需要进行全库搜索。
首先需要将目标事件所提取到的目标关键词与法律法条集合中的法条文本的名称做向量匹配,然后采用Elasticsearch检索的方式将内容相关性分数与名称相关性分数分别做归一化处理,并对内容相关性分数和名称相关性分数进行加权求和,最后所得到的法条匹配分数=权重比例a*Elasticsearch检索内容相关性分数+权重比例b*名称相关性分数;举例来说,权重比例a选取值为0.65,权重比例b选取值为0.35。
Elasticsearch检索所使用的是BM25算法,BM25算法是对TF-IDF算法的改进。举例来说:若目标事件所提取的目标关键词为q1、q2、…q3,则需要提取到的所有的目标关键词均与法律库中的法条进行匹配,并对其相关性分数进行求和。相关性分数的计算与TF-IDF算法相似,不同之处在于采用BM25算法需要考虑到若词语的频率过高时,即便该词语的频率继续增加也没有办法提升目标关键词与目标事件的相关性,所以需要对该词语的频率增加参数控制词频的饱和度。其中,内容相关性分数表征目标事件的关键词与法条的相关性,名称相关性分数表征目标事件的关键词与法律法条对应的法律名的相关性;内容相关性分数是采用BM25算法获得,BM25算法的一般公式为Q为query目标事件文本,qi为query目标事件文本的第i个关键词,d为法条文本;名称相关性分数是通过目标事件的关键词的向量与法律法条对应的法律名的向量的余弦相似度得到。
采用Elasticsearch检索对目标事件的推荐结果,举例来说:
(1)目标事件:来信人反映,保德路1120弄13号301室违章搭建采光板,影响其生活。来信人认为,城管部门处理不当,存在不作为。来信人建议,相关部门尽快处理。
(2)法律:上海市住宅物业管理规定。
(3)法条:上海市住宅物业管理规定第八十四条违反本规定第五十六条第二款第二项规定,违法搭建建筑物、构筑物的,由城管执法或者规划行政管理部门根据职责分工,依照《上海市拆除违法建筑若干规定》的相关规定予以拆除,可处一万元以上十万元一下的罚款。
本实施例,通过采用Elasticsearch检索的计算方法更加精准的获取到目标事件的目标关键词,不仅能有效的保证搜索速度,而且也可以快捷的提取出高质量的、意义鲜明的目标关键词。
目标事件通过采用EsimCSE算法进行训练匹配,在特征向量维度计算目标事件与历史事件的相似性,获取相似性最高或相似度大于预设相似度阈值的历史推荐结果。
在一个实施例中,计算目标事件的向量与历史事件的向量的余弦相似度,其中,目标事件的向量采用ESimCSE子模型编码得到;选取最高余弦相似度,判断最高余弦相似度是否高于余弦相似度阈值,若是,则采用与历史事件相匹配的法条文本为目标法条文本;若否,则采用初始法条文本为目标法条文本。
历史事件集合是指积累有历史事件的集合,每进行一次法条推荐,都会按照事件、法律、法条的顺序进行存储,此处存储是一个多对多的关系,一个事件可最多对应3个推荐法条,一个法条可用于解释多个投诉事件。且需要专业人员对所存储的历史事件进行人工检验和矫正;将校验或矫正正确的历史事件进行向量化编码,构建历史事件集合,其中,所采用的向量化是归一化的768维特征向量,并存储在Elasticsearch框架中。所矫正好的历史事件断增加,每隔一段时间则需将新添加的历史事件进行向量化存储,其中,对于向量化存储的相隔时间不做具体限定,可根据需求,自行选择。
采用Elasticsearch检索对历史事件进行检索;目标事件通过EsimCSE模型进行向量化编码,将编码后的目标事件进行归一化处理,使得目标事件和历史相似事件的范数均为1,获取全部的历史事件的特征向量并将其组成矩阵,计算目标事件的特征向量与历史事件的特征向量之间的余弦相似度,因为目标事件的特征向量和历史事件的特征向量均进行了归一化处理,所以只需进行乘积即可得到余弦相似度。选取最高余弦相似度,判断最高余弦相似度是否高于余弦相似度阈值,若是,则采用与历史目标事件相匹配的法条文本为目标法条文本;若否,则采用初始法条文本为目标法条文本。
整合Elasticsearch检索所推荐的结果与历史推荐结果,优先考虑历史推荐结果,选取相似度最高的法律法条作为目标事件的法条结果。
本实施例,通过运用历史推荐结果不仅对目标事件的法条推荐结果进行了优化,同时还为智能法条推荐方法提供了可操作性和可解释性。
本实施例所采用的Elasticsearch框架版本为7.6.2,法律法条文本的特征向量直接存储在Elasticsearch框架之中。
本实施例通过法条检索匹配和历史事件检索匹配两方面选取与目标事件所匹配的法律法条,不仅能确保目标事件所获取的法律法条的准确性高,同时选取与目标事件所匹配的法律法条也足够方便快捷。
本实施例提供出另一种法条推荐方法的流程图,如图4所示:
目标事件分类类别或目标事件目标关键词提取两方面通过Elasticsearch检索,历史事件检索对Elasticsearch检索的法律法条进行优化,获取最优法律法条;并将所获取的法律法条反馈给历史事件检索,对历史事件检索进行人工矫正。
本实施例提供出一种法条推荐系统的模块示意图,如图5所示,包括:
提取模块501,用于确定目标事件的类别,并提取目标事件的文本的目标关键词;
检索模块502,用于从与目标事件的类别相匹配的法律条文集合中检索出与目标关键词相匹配的初始法条文本;其中,每个法律条文集合的类别与事件文本集合的类别相匹配,事件文本集合根据对事件文本进行分类得到;
筛选模块503,用于根据历史推荐结果从初始法条文本中筛选出目标事件的目标法条文本。
可选地,提取模块501,包括:
提取单元504,用于提取目标事件的文本中的候选关键词;
第一确定单元505,用于确定与候选关键词相匹配的领域关键词;
第二确定单元506,用于根据标准词汇映射表,分别确定与候选关键词和领域关键词对应的标准词,并将标准词确定为目标事件的文本的目标关键词;其中,标准词汇映射表表征候选关键词、领域关键词与标准词的对应关系。
可选地,提取单元504,包括:
提取子单元507,用于使用Textrank算法提取目标事件的文本中的初始词汇;
确定子单元508,用于根据预先构建的候选词表从初始词汇中确定候选词汇;
计算子单元509,用于计算候选词汇在目标事件的文本中的出现频率以及逆文档频率,并根据出现频率和逆文档频率从候选词汇中筛选出候选关键词。
可选地,提取模块501,包括:
类别确定单元510,用于将目标事件的文本输入分类模型,根据分类模型确定目标事件的类别;
其中,分类模型采用事件文本集合对FastText子模型和softmax层训练得到;事件文本集合通过文本匹配模型对事件文本进行分类得到;文本匹配模型采用训练样本对ESimCSE子模型和动量编码器训练得到,训练样本包括标注有类别的事件文本。
可选地,检索模块502,包括:
第一计算单元511,用于计算目标关键词与法律条文集合中的法条文本的内容相关性分数;
第二计算单元512,用于计算目标关键词与法律条文集合中的法条文本的名称相关性分数;
法条确定单元513,用于根据内容相关性分数和名称相关性分数的加权结果,确定与目标关键词相匹配的初始法条文本。
可选地,筛选模块503,包括:
第三计算单元514,用于计算所述目标事件的向量与所述历史事件的向量的余弦相似度,其中,所述目标事件的向量采用ESimCSE子模型编码得到;
判断单元515,用于选取最高余弦相似度,判断最高余弦相似度是否高于余弦相似度阈值,若是,则采用与历史事件相匹配的法条文本为目标法条文本;若否,则采用初始法条文本为目标法条文本。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
如图6所示,本实施例显示出一种电子设备的结构示意图,显示出了适于用来实现本发明实施方式的示例性电子设备600的框图。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备600的组件可以包括但不限于:上述至少一个处理器601、上述至少一个存储器602、连接不同系统组件(包括存储器602和处理器601)的总线603。
总线603包括数据总线、地址总线和控制总线。
存储器602可以包括易失性存储器,例如随机存取存储器(RAM621和/或高速缓存存储器622,还可以进一步包括只读存储器(ROM)623。
存储器602还可以包括具有一组(至少一个)程序模块624的程序工具625(或实用工具),这样的程序模块624包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器601通过运行存储在存储器602中的计算机程序,从而执行各种功能应用以及数据处理,例如上述任一实施例所提供的方法。
电子设备600也可以与一个或多个外部设备604(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且,模型生成的电子设备600还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器606通过总线603与模型生成的电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所提供的方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明实施例还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现上述任一实施例的方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (14)
1.一种法条推荐方法,其特征在于,包括:
确定目标事件的类别,并提取所述目标事件的文本的目标关键词;
从与所述目标事件的类别相匹配的法律条文集合中检索出与所述目标关键词相匹配的初始法条文本;其中,每个法律条文集合的类别与事件文本集合的类别相匹配,所述事件文本集合根据对事件文本进行分类得到;
根据历史推荐结果从初始法条文本中筛选出所述目标事件的目标法条文本。
2.根据权利要求1所述的法条推荐方法,其特征在于,提取所述目标事件的文本的目标关键词,包括:
提取所述目标事件的文本中的候选关键词;
确定与所述候选关键词相匹配的领域关键词;
根据标准词汇映射表,分别确定与所述候选关键词和所述领域关键词对应的标准词,并将所述标准词确定为所述目标事件的文本的目标关键词;其中,所述标准词汇映射表表征候选关键词、领域关键词与标准词的对应关系。
3.根据权利要求2所述的法条推荐方法,其特征在于,提取所述目标事件的文本中的候选关键词,包括:
使用Textrank算法提取所述目标事件的文本中的初始词汇;
根据预先构建的候选词表从所述初始词汇中确定候选词汇;
计算所述候选词汇在所述目标事件的文本中的出现频率以及逆文档频率,并根据所述出现频率和所述逆文档频率从所述候选词汇中筛选出候选关键词。
4.根据权利要求1所述的法条推荐方法,其特征在于,所述确定目标事件的类别,包括:
将所述目标事件的文本输入分类模型,根据所述分类模型确定所述目标事件的类别;
其中,所述分类模型采用事件文本集合对FastText子模型和softmax层训练得到;所述事件文本集合通过文本匹配模型对事件文本进行分类得到;所述文本匹配模型采用训练样本对ESimCSE子模型和动量编码器训练得到,所述训练样本包括标注有类别的事件文本。
5.根据权利要求1所述的法条推荐方法,其特征在于,从与所述目标事件的类别相匹配的法律条文集合中检索出与所述目标关键词相匹配的初始法条文本,包括:
计算所述目标关键词与所述法律条文集合中的法条文本的内容相关性分数;
计算所述目标关键词与所述法律条文集合中的法条文本的名称相关性分数;
根据所述内容相关性分数和所述名称相关性分数的加权结果,确定与所述目标关键词相匹配的初始法条文本。
6.根据权利要求1所述的法条推荐方法,其特征在于,所述根据历史推荐结果从初始法条文本中筛选出所述目标事件的目标法条文本,包括:
计算所述目标事件的向量与历史事件的向量的余弦相似度,其中,所述目标事件的向量采用ESimCSE子模型编码得到;
选取最高余弦相似度,判断所述最高余弦相似度是否高于余弦相似度阈值,若是,则采用与所述历史事件相匹配的法条文本为目标法条文本;若否,则采用所述初始法条文本为目标法条文本。
7.一种法条推荐系统,其特征在于,包括:
提取模块,用于确定目标事件的类别,并提取所述目标事件的文本的目标关键词;
检索模块,用于从与所述目标事件的类别相匹配的法律条文集合中检索出与所述目标关键词相匹配的初始法条文本;其中,每个法律条文集合的类别与事件文本集合的类别相匹配,所述事件文本集合根据对事件文本进行分类得到;
筛选模块,用于根据历史推荐结果从初始法条文本中筛选出所述目标事件的目标法条文本。
8.根据权利要求7所述的法条推荐系统,其特征在于,所述提取模块,包括:
提取单元,用于提取所述目标事件的文本中的候选关键词;
第一确定单元,用于确定与所述候选关键词相匹配的领域关键词;
第二确定单元,用于根据标准词汇映射表,分别确定与所述候选关键词和所述领域关键词对应的标准词,并将所述标准词确定为所述目标事件的文本的目标关键词;其中,所述标准词汇映射表表征候选关键词、领域关键词与标准词的对应关系。
9.根据权利要求8所述的法条推荐系统,其特征在于,所述提取单元,包括:
提取子单元,用于使用Textrank算法提取所述目标事件的文本中的初始词汇;
确定子单元,用于根据预先构建的候选词表从所述初始词汇中确定候选词汇;
计算子单元,用于计算所述候选词汇在所述目标事件的文本中的出现频率以及逆文档频率,并根据所述出现频率和所述逆文档频率从所述候选词汇中筛选出候选关键词。
10.根据权利要求7所述的法条推荐系统,其特征在于,所述提取模块,包括:
类别确定单元,用于将所述目标事件的文本输入分类模型,根据所述分类模型确定所述目标事件的类别;
其中,所述分类模型采用事件文本集合对FastText子模型和softmax层训练得到;所述事件文本集合通过文本匹配模型对事件文本进行分类得到;所述文本匹配模型采用训练样本对ESimCSE子模型和动量编码器训练得到,所述训练样本包括标注有类别的事件文本。
11.根据权利要求7所述的法条推荐系统,其特征在于,所述检索模块,包括:
第一计算单元,用于计算所述目标关键词与所述法律条文集合中的法条文本的内容相关性分数;
第二计算单元,用于计算所述目标关键词与所述法律条文集合中的法条文本的名称相关性分数;
法条确定单元,用于根据所述内容相关性分数和所述名称相关性分数的加权结果,确定与所述目标关键词相匹配的初始法条文本。
12.根据权利要求7所述的法条推荐系统,其特征在于,所述筛选模块,包括:
第三计算单元,用于计算所述目标事件的向量与历史事件的向量的余弦相似度,其中,所述目标事件的向量采用ESimCSE子模型编码得到;
判断单元,用于选取最高余弦相似度,判断所述最高余弦相似度是否高于余弦相似度阈值,若是,则采用与所述历史事件相匹配的法条文本为目标法条文本;若否,则采用所述初始法条文本为目标法条文本。
13.一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的法条推荐方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的法条推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461966.4A CN116662643A (zh) | 2023-04-26 | 2023-04-26 | 法条推荐方法、法条推荐系统、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461966.4A CN116662643A (zh) | 2023-04-26 | 2023-04-26 | 法条推荐方法、法条推荐系统、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116662643A true CN116662643A (zh) | 2023-08-29 |
Family
ID=87714347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310461966.4A Pending CN116662643A (zh) | 2023-04-26 | 2023-04-26 | 法条推荐方法、法条推荐系统、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662643A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117332045A (zh) * | 2023-10-17 | 2024-01-02 | 广东海洋大学 | 一种法律搜索方法和法律搜索系统 |
-
2023
- 2023-04-26 CN CN202310461966.4A patent/CN116662643A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117332045A (zh) * | 2023-10-17 | 2024-01-02 | 广东海洋大学 | 一种法律搜索方法和法律搜索系统 |
CN117332045B (zh) * | 2023-10-17 | 2024-03-12 | 广东海洋大学 | 一种法律搜索方法和法律搜索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN101542475B (zh) | 用于对具有象形表意内容的数据进行搜索和匹配的系统和方法 | |
CN110377738A (zh) | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 | |
CN111899090B (zh) | 企业关联风险预警方法及系统 | |
CN113239148B (zh) | 基于机器阅读理解的科技资源检索方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN110674970A (zh) | 企业法务风险预警方法、装置、设备及可读存储介质 | |
CN111178051B (zh) | 建筑信息模型自适应的中文分词方法及装置 | |
CN113806563A (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN111339754A (zh) | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 | |
CN112035658A (zh) | 基于深度学习的企业舆情监测方法 | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN113157903A (zh) | 一种面向多领域的电力词库构建方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN117474507A (zh) | 一种基于大数据应用技术的智能招聘匹配方法及系统 | |
CN111143507A (zh) | 一种基于复合式问题的阅读理解方法 | |
CN116662643A (zh) | 法条推荐方法、法条推荐系统、电子设备、存储介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN108681977B (zh) | 一种律师信息处理方法和系统 | |
CN112989830A (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN111222028B (zh) | 一种数据智能爬取方法 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
CN115936624A (zh) | 基层数据管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |