CN113065005B - 一种基于知识图谱和文本分类模型的法律条文推荐方法 - Google Patents

一种基于知识图谱和文本分类模型的法律条文推荐方法 Download PDF

Info

Publication number
CN113065005B
CN113065005B CN202110548315.XA CN202110548315A CN113065005B CN 113065005 B CN113065005 B CN 113065005B CN 202110548315 A CN202110548315 A CN 202110548315A CN 113065005 B CN113065005 B CN 113065005B
Authority
CN
China
Prior art keywords
legal
text
label
training
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110548315.XA
Other languages
English (en)
Other versions
CN113065005A (zh
Inventor
穆宁
陶辉
陈洲
阮祥超
朱丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fiberhome Telecommunication Technologies Co ltd
Original Assignee
Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fiberhome Telecommunication Technologies Co ltd filed Critical Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority to CN202110548315.XA priority Critical patent/CN113065005B/zh
Publication of CN113065005A publication Critical patent/CN113065005A/zh
Application granted granted Critical
Publication of CN113065005B publication Critical patent/CN113065005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于知识图谱和文本分类模型的法律条文推荐方法,步骤包括:法律知识图谱构建、训练文本数据预处理、多标签分类模型训练、法律罪名要素识别、法律条文推荐。本发明采用知识图谱存储法律知识,可以详细展示各级罪名的关联,同时能够快速响应查询结果,能够方便的进行知识扩展和更新。采用TextCNN进行多标签文本分类,使用罪名作为分类标签,解决了罪名与法条不是一对一对应关系的问题。针对法律罪名信息的组合多样性,可以不断补充语料进行迭代,扩充法条推荐的广度。

Description

一种基于知识图谱和文本分类模型的法律条文推荐方法
技术领域
本发明公开了一种基于知识图谱和文本分类模型的法律条文推荐方法,涉及知识图谱和NLP技术领域。
背景技术
随着人工智能在各个行业的广泛应用,人工智能结合法律成了一个热门的研究方向。其中比较常见的应用就是法律条文推荐,不仅能够辅助法官进行信息处理,还能为广大群众进行普法,具有明显应用价值。
现有技术中存在一些推荐方法:
1.基于FastText算法的智能法条推荐方法:通过FastText算法针对诈骗罪、抢劫、经济犯罪或离婚纠纷案件类的判决文书(案情描述),将法条作为分类标签,进行多标签文本分类识别,对案件事实进行分析,提供适用的法条推送。
2.基于倒排索引与Seq2Seq模型的法律法规推荐:构建法律法规的全文倒排索引,然后通过seq2seq神经网络模型输出检索文本对应的关键词序列,通过关键词序列在索引库中进行查询对应的法条信息。
现有技术中,方法一用法条作为分类标签,当罪名涉及多个法条的时候,会导致相同样例对应的法条标签增加,增加了模型训练的复杂度。方法二中神经网络模型输出的是最佳关键词序列,类似于分类模型的最佳标签,当检索词涉及多个法条的时候,会存在信息遗漏,同时维护全文索引库的成本相对较高。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于知识图谱和文本分类模型的法律条文推荐方法,全面有效的识别文本中的法律罪名要素,同时快速进行法条的查询推荐。
本发明为解决上述技术问题采用以下技术方案:
一种基于知识图谱和文本分类模型的法律条文推荐方法,所述方法包括如下步骤:
步骤一、法律知识图谱构建;
步骤二、训练文本数据预处理;
步骤三、多分类标签模型训练;
步骤四、法律罪名要素识别;
步骤五、法律条文推荐,根据罪名分类在法律知识图谱中快速找到对应的法律罪名实体和对应的法律条文实体。
作为本发明的进一步优选方案,所述法律知识图谱构建,包括:
101、从法律网站采集所有法律罪名信息和法律条文信息;
102、根据本体定义,将罪名和法条处理成实体和关系;
103、将数据入图库,构建法律知识图谱。
作为本发明的进一步优选方案,所述训练文本数据预处理,包括:
201、数据集构建:选择训练文本,对文本数据进行打标,标签为训练文本数据对应的罪名信息,然后将训练文本数据进行shape转换,shape维度是m*2;所述训练文本包括公开的判决文书、案件摘要或犯罪行为描述;
202、数据清洗分词:对shape中的content数据进行清洗,同时进行中文分词;
203、样本数值化:对shape中的content内容进行id化,提取所有分词,形成vocab,然后将中文替换成id,同时获取最大文本分词数量max_length,将content分词转换成维度是1*max_length的矩阵,对于长度小于max_length的进行zero padding,用0进行补位,最终输出input_x矩阵,表示所有的文本信息;
204、标签数值化:对shape中的label进行数值化,将标签类型表示为one-hot向量编码,生成input_y矩阵,表示input_x对应的标签信息,同时保存好标签转换器,存为label.pickle,供模型预测使用;
205、文本词向量转换:通过bert中文向量模型,将vocab对应的分词转换为词向量,生成embedding_matrix。
作为本发明的进一步优选方案,所述多分类标签模型训练,包括:
301、采用TextCNN算法进行多标签模型训练,其中,句子向量可以表示为Xi:n,n为句子分词的长度,每个词向量用xi表示:
每一次滑窗的卷积操作结果为ci
ci=f(ω·Xi:i+h-1)+b;
其中,ω表示的是卷积核,维度是h*k。Xi:i+h-1表示的是Xi:n中每次的滑窗矩阵,维度是h*k,同时,/>f是激活函数;
由于句子长度为n,卷积核高度为h,需要滑窗n-h+1次,卷积汇总结果表示为:
c=[c1,c2,…,cn-h+1];
采用全局最大池化进行卷积,即卷积核个数num_filters有多个,假设卷积核数量为m,则最终池化结果为:
将池化层结果经过全连接层转换,通过sigmoid函数压缩成数值在(0,1)的实数,表示各分类的概率,得到T×1的向量y,T表示标签类别,W表示权重矩阵,b为偏置项:
y=sigmoid(W*z+b);
302、将文本数据划分为train、evaluate、test三个数据集,通过train数据进行训练,其他数据集进行评估和测试;
303、设置学习率为0.0001,loss值计算加入L1正则化,将训练数据通过embedding_matrix转成向量,进行轮询训练;
304、将训练好的最优模型进行保存,用于法律罪名要素识别。
作为本发明的进一步优选方案,所述法律罪名要素识别,包括:
401、检索文本预处理:基于保存的vocab embedding_matrix,将输入文本进行向量化,然后加载法律要素识别模型,获取标签概率分布;
402、标签概率转化:根据阈值筛选符合条件的分类,将概率分布转为数值化标签,同时通过label.pickle转换成具体的标签,即罪名分类。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明针对传统推荐方法的推荐范围和效率的局限性,做出了以下改进:
1.采用知识图谱存储法律知识,可以详细展示各级罪名的关联,同时能够快速响应查询结果,能够方便的进行知识扩展和更新。
2.采用TextCNN进行多标签文本分类,使用罪名作为分类标签,解决了罪名与法条不是一对一对应关系的问题。
3.针对法律罪名信息的组合多样性,可以不断补充语料进行迭代,扩充法条推荐的广度。
附图说明
图1是本发明中,法律条文推荐流程示意图;
图2是本发明中,法律知识图谱样例结构示意图;
图3是本发明中,法条推荐结果示意图;
图4是本发明所述方法中,法律条文推荐整体流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明公开了一种基于知识图谱和文本分类模型的法条推荐方法,步骤包括:法律知识图谱构建、训练文本数据预处理、多标签分类模型训练、法律罪名要素识别、法律条文推荐,具体如下:
步骤一、法律知识图谱构建,包括:
101、从法律网站采集所有法律罪名信息和法律条文信息。
102、根据本体定义,将罪名和法条处理成实体和关系。
103、将数据入图库,构建法律知识图谱。
步骤二、训练文本数据预处理,包括:
201、数据集构建:将公开的判决文书、案件摘要、犯罪行为描述等作为训练文本,手动对文本数据进行打标,标签为文本数据对应的罪名信息,可以为多值,然后将训练数据进行shape转换,shape维度是m*2。
202、数据清洗分词:对shape中的content数据进行清洗(通过哈工大stopwords),同时使用jieba进行中文分词。
203、样本数值化:对shape中的content内容进行id化,提取所有分词,形成vocab,然后将中文替换成id,同时获取最大文本分词数量max_length,将content分词转换成维度是1*max_length的矩阵,对于长度小于max_length的进行zero padding,用0进行补位,最终输出input_x矩阵,表示所有的文本信息。
204、标签数值化:对shape中的label进行数值化,将标签类型表示为one-hot向量编码,生成input_y矩阵,表示input_x对应的标签信息,同时保存好标签转换器,存为label.pickle,供模型预测使用。
205、文本词向量转换:通过bert中文向量模型,将vocab对应的分词转换为词向量,生成embedding_matrix。
步骤三、多分类标签模型训练,包括:
301、采用TextCNN算法进行多标签模型训练,其中,句子向量可以表示为Xi:n,n为句子分词的长度,每个词向量用xi表示:
每一次滑窗的卷积操作结果为ci
ci=f(ω·Xi:i+h-1)+b;
其中,ω表示的是卷积核,维度是h*k。Xi:i+h-1表示的是Xi:n中每次的滑窗矩阵,维度是h*k,同时,/>f是激活函数;
由于句子长度为n,卷积核高度为h,需要滑窗n-h+1次,卷积汇总结果表示为:
c=[c1,c2,…,cn-h+1];
采用全局最大池化进行卷积,即卷积核个数num_filters有多个,假设卷积核数量为m,则最终池化结果为:
将池化层结果经过全连接层转换,通过sigmoid函数压缩成数值在(0,1)的实数,表示各分类的概率,得到T×1的向量y,T表示标签类别,W表示权重矩阵,b为偏置项:
y=sigmoid(W*z+b);
302、将文本数据划分为train、evaluate、test三个数据集,通过train数据进行训练,其他数据集进行评估和测试;
303、设置学习率为0.0001,loss值计算加入L1正则化,将训练数据通过embedding_matrix转成向量,进行轮询训练;
304、将训练好的最优模型进行保存,用于法律罪名要素识别。
步骤四、法律罪名要素识别,包括:
401、检索文本预处理:基于保存的vocab embedding_matrix,将输入文本进行向量化,然后加载法律要素识别模型,获取标签概率分布。
402、标签概率转化:根据阈值筛选符合条件的分类,将概率分布转为数值化标签,同时通过label.pickle转换成具体的标签,即罪名分类。
步骤五、法律条文推荐,根据罪名分类找到在知识图谱中快速的找到对应的罪名实体和对应的法律条文实体。
下面结合附图对本发明的技术方案做进一步的详细说明:
基于中国刑法罪名和相关法律条文构建知识图谱,然后根据判决文书、案情摘要、犯罪行为描述等信息文本训练法律罪名要素识别模型,然后通过知识图谱进行法条信息推荐,具体流程如图1所示,该流程共分为5个步骤:
步骤一、法律知识图谱构建:
需要对中国刑法罪名进行格式封装,处理成三级罪名结构,其中一级罪名为父类,共10种,共包含469条法律罪名,结构样例如表1所示:
表1刑法罪名要素样例
根据本体设计,将采集的刑法罪名对应的法律条文(法条样例信息见表2)作为输入,抽取存在关联的实体信息,内部包含法律条文、条目详情、法律罪名要素这些实体,数据格式样例如表3所示:
表2法律条文信息样例
法条信息中,name字段对应的是三级罪名,与具体法条产生关联,可能会存在多值,抽取的时候用“;”分割。
表3关联实体数据格式样例
结合三级标签数据和关联实体数据,将数据通过MR处理成知识图谱需要的点边结构,然后将数据存入图数据库,结构样例如图2所示。
步骤二、训练文本数据处理:
首先对采集的公开判决文书、案件摘要、犯罪行为描述等文本进行打标,标签为文本数据对应的罪名信息,多值标签用“_”分割,样例见表4。
表4训练文本数据打标样例
对打标完的数据进行矩阵转化,shape维度是m*2,宽度有两列分别表示label、content,对shape["content"]进行清洗和分词,清洗通过哈工大停词去除文本中的特殊符号、常见词、生僻字等,然后对清洗后的文本进行jieba分词,同时在shape中增加一列length,表示文本分词长度。此时对文本进行数值转化,整合所有文本分词生成vocab词典,每个分词都有一个序列号id,同时获取最长的length,作为文本的数组宽度,shape["content"]中的分词转为id,同时进行zero padding,将不足max_length的位置用数值0填补,将转化后的文本矩阵记为input_x。
shape["content"]转化完成后,对shape["label"]进行数值转化,采用one-hot向量编码,宽度为所有label的种类数量,转化后的标签矩阵记为input_y。
input_x,input_y的样例如表5所示:
表5打标数据数值化样例
id input_y input_x
0 [0 0 1 ... 0 0 0] [83 61 144 ... 0 0 0]
1 [0 1 0 ... 0 1 0] [54 84 162 ... 0 0 0]
2 [0 0 0 ... 1 0 0] [147 62 10 ... 0 0 0]
…… …… ……
最后将标签转化器和词表另存为label.pickle和vocab.pickle,同时通过bert训练好的法律相关的中文词向量模型,将vocab中的分词转为词向量,记为embedding_matrix。
步骤三、多标签分类模型训练:
采用TextCNN模型,设置模型参数:卷积核大小filter_size=[3,4,5],每个大小对应的卷积核数量num_filters=64,最大句子长度max_lengh=128,激活函数选用ReLU,池化策略为1-max-pooling,dorpout rate=0.5,学习率learning_rate=0.0001,batch_size=256,epochs=100。
划分数据集,开始训练,训练时会自动将输入的文本数据(此处为预处理好的数值矩阵)进行向量化,通过初始化加载的embedding_matrix将input_x转化为向量矩阵(见表6),每一轮次的训练随机有放回抽取256条向量数据作为一个批度的输入,根据损失函数计算公式获取每一批尺度训练结果的loss值,利用梯度下降算法寻找模型最优参数解。经过不断迭代训练,最终得到一个多标签分类模型。
表6输入向量矩阵
步骤四、法律罪名要素识别:
首先对输入文本进行清洗和分词,通过vocab转换为数值矩阵,然后通过加载embedding_matrix得到输入文本的向量矩阵,调用训练好的多标签分类模型,输出结果,然后通过函数将输出结果转为概率分布,若output_y_embedding的概率值大于阈值0.5,可以认为当前概率对应的标签有效,将结果数值化,有效的概率数值为1,其余为0,得到output_y,然后通过label.pickle将获取实际的罪名标签。具体样例见表7:
表7法条识别结果样例
[0 1 0 ... 0 1 0]对应的结果标签为:故意杀人罪、抢劫罪。
步骤五、法律条文推荐:
根据罪名分类在知识图谱中快速找到对应的罪名实体。若实体是三级罪名,则直接获取相关联的法律条文;若不是三级罪名,通过罪名实体的关联关系找到所有的三级罪名实体,然后推荐所有相关的法律条文。故意杀人罪、抢劫罪都是三级罪名,可以直接推荐法条信息,样例如图3所示。综合以上步骤,本发明的整体推荐流程图如图4所示。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (5)

1.一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述方法包括如下步骤:
步骤一、法律知识图谱构建;
步骤二、训练文本数据预处理;
步骤三、多分类标签模型训练;
所述多分类标签模型训练,包括:
301、采用TextCNN算法进行多标签模型训练,其中,句子向量可以表示为Xi:n,n为句子分词的长度,每个词向量用xi表示:
每一次滑窗的卷积操作结果为ci
ci=f(ω·Xi:i+h-1)b;
其中,ω表示的是卷积核,维度是h*k;Xi:i+h-1表示的是Xi:n中每次的滑窗矩阵,维度是h*k,同时,/>f是激活函数;
由于句子长度为n,卷积核高度为h,需要滑窗n-h+1次,卷积汇总结果表示为:
c=[c1,c2,…,cn-h+1];
采用全局最大池化进行卷积,即卷积核个数num_filters有多个,设卷积核数量为m,则最终池化结果为:
将池化层结果经过全连接层转换,通过sigmoid函数压缩成数值在(0,1)的实数,表示各分类的概率,得到T×1的向量y,T表示标签类别,W表示权重矩阵,b为偏置项:
y=sigmoid(W*z+b);
302、将文本数据划分为train、evaluate、test三个数据集,通过train数据进行训练,其他数据集进行评估和测试;
303、设置学习率为0.0001,loss值计算加入L1正则化,将训练数据通过embedding_matrix转成向量,进行轮询训练;
304、将训练好的最优模型进行保存,用于法律罪名要素识别;
步骤四、法律罪名要素识别;
步骤五、法律条文推荐,根据罪名分类在法律知识图谱中快速找到对应的法律罪名实体和对应的法律条文实体。
2.如权利要求1所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述法律知识图谱构建,包括:
101、从法律网站采集所有法律罪名信息和法律条文信息;
102、根据本体定义,将罪名和法条处理成实体和关系;
103、将数据入图库,构建法律知识图谱。
3.如权利要求1所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述训练文本数据预处理,包括:
201、数据集构建:选择训练文本,对文本数据进行打标,标签为训练文本数据对应的罪名信息,然后将训练文本数据进行shape转换,shape维度是m*2;
202、数据清洗分词:对shape中的content数据进行清洗,同时进行中文分词;
203、样本数值化:对shape中的content内容进行id化,提取所有分词,形成vocab,然后将中文替换成id,同时获取最大文本分词数量max_length,将content分词转换成维度是1*max_length的矩阵,对于长度小于max_length的进行zero padding,用0进行补位,最终输出input_x矩阵,表示所有的文本信息;
204、标签数值化:对shape中的label进行数值化,将标签类型表示为one-hot向量编码,生成input_y矩阵,表示input_x对应的标签信息,同时保存好标签转换器,存为label.pickle,供模型预测使用;
205、文本词向量转换:通过bert中文向量模型,将vocab对应的分词转换为词向量,生成embedding_matrix。
4.如权利要求1所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于,所述法律罪名要素识别,包括:
401、检索文本预处理:基于保存的vocab embedding_matrix,将输入文本进行向量化,然后加载法律要素识别模型,获取标签概率分布;
402、标签概率转化:根据阈值筛选符合条件的分类,将概率分布转为数值化标签,同时通过label.pickle转换成具体的标签,即罪名分类。
5.如权利要求3所述的一种基于知识图谱和文本分类模型的法律条文推荐方法,其特征在于:所述训练文本包括公开的判决文书、案件摘要或犯罪行为描述。
CN202110548315.XA 2021-05-19 2021-05-19 一种基于知识图谱和文本分类模型的法律条文推荐方法 Active CN113065005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110548315.XA CN113065005B (zh) 2021-05-19 2021-05-19 一种基于知识图谱和文本分类模型的法律条文推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110548315.XA CN113065005B (zh) 2021-05-19 2021-05-19 一种基于知识图谱和文本分类模型的法律条文推荐方法

Publications (2)

Publication Number Publication Date
CN113065005A CN113065005A (zh) 2021-07-02
CN113065005B true CN113065005B (zh) 2024-01-09

Family

ID=76568447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110548315.XA Active CN113065005B (zh) 2021-05-19 2021-05-19 一种基于知识图谱和文本分类模型的法律条文推荐方法

Country Status (1)

Country Link
CN (1) CN113065005B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114915468B (zh) * 2022-05-10 2024-02-02 广州数智网络科技有限公司 基于知识图谱的网络犯罪智能分析检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990560A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种司法数据处理方法及系统
WO2020140386A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN111611396A (zh) * 2019-02-26 2020-09-01 广州慧睿思通信息科技有限公司 基于法律知识图谱的信息匹配方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990560A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种司法数据处理方法及系统
WO2020140386A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN111611396A (zh) * 2019-02-26 2020-09-01 广州慧睿思通信息科技有限公司 基于法律知识图谱的信息匹配方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卷积神经网络在案件分类上的应用;李昊泉;史梦凡;陈舒楠;张君阳;;软件(04);全文 *

Also Published As

Publication number Publication date
CN113065005A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN109740655B (zh) 基于矩阵分解及神经协同过滤的物品评分预测方法
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN111966825A (zh) 一种基于机器学习的电网设备缺陷文本分类方法
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN109299246B (zh) 一种文本分类方法及装置
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN112016313A (zh) 口语化要素识别方法及装置、警情分析系统
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN111126057A (zh) 一种分级神经网络的案件情节精准量刑系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN114372465A (zh) 基于Mixup和BQRNN的法律命名实体识别方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN113065005B (zh) 一种基于知识图谱和文本分类模型的法律条文推荐方法
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
Hussain et al. Design and analysis of news category predictor
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN111460817A (zh) 一种刑事法律文书相关法条的推荐方法和系统
KR100842216B1 (ko) 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
CN115309899B (zh) 一种文本中特定内容识别存储方法及系统
CN115392474B (zh) 一种基于迭代优化的局部感知图表示学习方法
CN111191455A (zh) 一种交通事故损害赔偿中法律条文预测方法
CN114764913A (zh) 融入标签信息的案情要素识别方法
CN114419391A (zh) 目标图像识别方法及装置、电子设备及可读存储介质
Usman et al. Feature selection: It importance in performance prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant