CN111552808A - 一种基于卷积神经网络的行政违法案由预测方法及工具 - Google Patents

一种基于卷积神经网络的行政违法案由预测方法及工具 Download PDF

Info

Publication number
CN111552808A
CN111552808A CN202010311136.XA CN202010311136A CN111552808A CN 111552808 A CN111552808 A CN 111552808A CN 202010311136 A CN202010311136 A CN 202010311136A CN 111552808 A CN111552808 A CN 111552808A
Authority
CN
China
Prior art keywords
illegal
word
neural network
word vectors
fact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010311136.XA
Other languages
English (en)
Inventor
李伟平
王嘉熙
杨晓
张世琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Peking University Software Engineering Co ltd
Original Assignee
Beijing Peking University Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Peking University Software Engineering Co ltd filed Critical Beijing Peking University Software Engineering Co ltd
Priority to CN202010311136.XA priority Critical patent/CN111552808A/zh
Publication of CN111552808A publication Critical patent/CN111552808A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于卷积神经网络的行政违法案由预测方法及工具,包括:获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。本发明提供的技术方案,在把文本信息交给深度神经网络模型进行处理之前,需要对文本信息进行处理,将文本信息转换为连续稠密的词向量,以便深度学习模型处理,相比现有技术,这种做法不需要选用特定的方法进行特征工程,特征表达能力更强。

Description

一种基于卷积神经网络的行政违法案由预测方法及工具
技术领域
本发明涉及文本分类技术领域,具体涉及一种基于卷积神经网络的行政违法案由预测方法及工具。
背景技术
案由指的是政府执法部门对特定违法行为进行处罚的职权。基于违法事实,识别与该违法事实相对应的案由,可以提高执法人员在执法过程中的工作效率,并且能够防止由于执法人员因为业务不熟练导致对案由的错误判定;对于执法监督人员来说,案由识别同样有意义。借助案由识别模型,可以在大量的历史执法记录中快速抽取案由判定与模型判定不一致的记录,进行重点审核,查看是否有执法错误。
基于文本类型的违法事实,判断相应的案由,属于一个文本分类的问题。传统的做法是先对文本进行特征工程的处理,提取出文本中的特征,然后对特征进行数值化,从而完成了对文本的数值化表示的转换,以便机器学习模型的处理。这里的机器模型可以选择KNN、决策树、SVM等。这种做法需要选用特定的方法进行特征工程,且特征表达能力有限。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于卷积神经网络的行政违法案由预测方法及工具,借助深度神经网络强大的自动特征提取能力,实现对违法事实的案由预测。
为实现以上目的,本发明采用如下技术方案:
一种基于卷积神经网络的行政违法案由预测方法,包括:
获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;
利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;
其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。
优选地,所述构建由违法事实词向量组成的训练数据集,包括:
对违法事实进行分词、去停用词处理,将各违法事实句子转换为词汇序列,每个词汇序列包括多个词汇;
以第二预设数量的行政法律法规作为训练样本,训练行政法规词向量,形成词向量字典;
基于所述词向量字典,将所述词汇转换为词向量,形成由违法事实词向量组成的训练数据集。
优选地,所述方法,还包括:
计算所有词汇的词频;
按词频由大到小,对每个词汇序列中的词汇进行排序;
所述将所述词汇转换为词向量,具体为:
将词频排名为前N名的词汇转换为所述词向量字典中对应的词向量。
优选地,所述方法,还包括:
根据各词汇序列的长度,确定一个长度阈值L;
根据所述长度阈值L,将各词汇序列处理为固定长度。
优选地,所述将各词汇序列处理为固定长度,包括:
对任一违法事实的词汇序列,若长度大于所述长度阈值L,则截取所述违法事实的前L个词汇;
对任一违法事实的词汇序列,若长度等于所述长度阈值L,则不做处理;
对任一违法事实的词汇序列,若长度小于所述长度阈值L,则用特定值进行补充。
优选地,所述方法,还包括:
词频排名为前N名之后的词汇不转换为词向量,使用固定值M组成的向量来表示;和/或,
使用特定值进行补充的词汇不转换为词向量,使用固定值M组成的向量来表示。
优选地,所述利用训练数据集中的违法事实词向量对所述预测模型进行训练,包括:
以违法事实词向量作为卷积神经网络的输入,创建卷积神经网络的输入层;
确定卷积核的长度、高度、以及卷积核的个数,构建卷积神经网络的卷积层;
构建卷积神经网络的池化层,对多个卷积核的计算结果,进行池化处理;
将池化后的结果进行归一化处理;
将归一化处理后的结果作为全连接层的输入,利用softmax函数得到违法案由的预测结果。
优选地,所述对违法事实进行分词、去停用词处理,包括:
筛选掉数字、单字、标点符号。
优选地,所述方法,还包括:
对获取到的违法事实,剔除掉字数少于预设字数的违法事实;和/或,
预测模型训练结束后,观察预测结果的精确率和F1值,达到预设性能后,将模型存储为违法案由识别模型。
另外,本发明还提出了一种基于卷积神经网络的行政违法案由预测工具,包括:
构建模块,用于获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;
训练模块,用于利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;
其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。
本发明采用以上技术方案,至少具备以下有益效果:
通过获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集,利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型,将待识别的违法事实词向量输入到违法案由识别模型,就能输出为违法案由预测结果。本发明提供的技术方案,在把文本信息交给深度神经网络模型进行处理之前,需要对文本信息进行处理,将文本信息转换为连续稠密的词向量,以便深度学习模型处理,相比现有技术,这种做法不需要选用特定的方法进行特征工程,特征表达能力更强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种基于卷积神经网络的行政违法案由预测方法的流程图;
图2为本发明一实施例提供的预测模型的结构示意图;
图3为本发明一实施例提供的一种基于卷积神经网络的行政违法案由预测工具的示意框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
参见图1,本发明一实施例提供的一种基于卷积神经网络的行政违法案由预测方法,包括:
步骤S11、获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;
步骤S12、利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;
其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。
需要说明的是,所述第一预设数量根据历史经验值,或者,用户需要进行设置,例如设置为20000条。
可以理解的是,本实施例提供的技术方案,通过获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集,利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型,将待识别的违法事实词向量输入到违法案由识别模型,就能输出为违法案由预测结果。本实施例提供的技术方案,在把文本信息交给深度神经网络模型进行处理之前,需要对文本信息进行处理,将文本信息转换为连续稠密的词向量,以便深度学习模型处理,相比现有技术,这种做法不需要选用特定的方法进行特征工程,特征表达能力更强。
优选地,所述构建由违法事实词向量组成的训练数据集,包括:
对违法事实进行分词、去停用词处理,将各违法事实句子转换为词汇序列,每个词汇序列包括多个词汇;
以第二预设数量的行政法律法规作为训练样本,训练行政法规词向量,形成词向量字典;
基于所述词向量字典,将所述词汇转换为词向量,形成由违法事实词向量组成的训练数据集。
需要说明的是,所述第二预设数量根据历史经验值,或者,用户需要进行设置,例如设置为10000部。
可以理解的是,收集10000部行政法律法规,使用Glove模型进行词向量的训练,就可以得到一个词向量词典。
优选地,所述方法,还包括:
计算所有词汇的词频;
按词频由大到小,对每个词汇序列中的词汇进行排序;
所述将所述词汇转换为词向量,具体为:
将词频排名为前N名的词汇转换为所述词向量字典中对应的词向量。
优选地,所述方法,还包括:
根据各词汇序列的长度,确定一个长度阈值L;
根据所述长度阈值L,将各词汇序列处理为固定长度。
优选地,所述将各词汇序列处理为固定长度,包括:
对任一违法事实的词汇序列,若长度大于所述长度阈值L,则截取所述违法事实的前L个词汇;
对任一违法事实的词汇序列,若长度等于所述长度阈值L,则不做处理;
对任一违法事实的词汇序列,若长度小于所述长度阈值L,则用特定值进行补充。
优选地,所述方法,还包括:
词频排名为前N名之后的词汇不转换为词向量,使用固定值M组成的向量来表示;和/或,
使用特定值进行补充的词汇不转换为词向量,使用固定值M组成的向量来表示。
需要说明的是,所述L为大于或等于1的正整数,所述N为大于或等于1的正整数,所述N根据历史经验值,或者,实验数据进行设置,例如设置为5000。
可以理解的是,将长度为L的违法事实词汇,转化为词向量表示。对于词频排名前5000的词汇,利用词向量词典将其转换为词向量,对于排名5000名之后的词汇,以及用特定值来补充句子长度的词汇,按照0向量来处理。
优选地,所述利用训练数据集中的违法事实词向量对所述预测模型进行训练,包括:
以违法事实词向量作为卷积神经网络的输入,创建卷积神经网络的输入层;
确定卷积核的长度、高度、以及卷积核的个数,构建卷积神经网络的卷积层;
构建卷积神经网络的池化层,对多个卷积核的计算结果,进行池化处理;
将池化后的结果进行归一化处理;
将归一化处理后的结果作为全连接层的输入,利用softmax函数得到违法案由的预测结果。
需要说明的是,在具体实践中,参见图2,可以构建卷积神经网络模型,分别由输入层(词嵌入层)、卷积层、池化层、批量标准化层、全连接层组成。
将转换成为词向量的训练数据,传递给模型的输入层;
进行模型训练,损失函数使用交叉熵损失函数,优化器选择adam,训练轮数设定30轮。
优选地,所述对行政违法事实进行分词、去停用词处理,包括:
筛选掉数字、单字、标点符号。
优选地,所述方法,还包括:
对获取到的违法事实,剔除掉字数少于预设字数的违法事实;和/或,
预测模型训练结束后,观察预测结果的精确率和F1值,达到预设性能后,将模型存储为违法案由识别模型。
需要说明的是,所述预设字数根据历史经验值,或者,用户需要进行设置,例如设置为200字。
可以理解的是,对获取到的行政违法事实,首先要进行数据清洗,因为是对案由进行识别,所以要保证每种类别的案由都有足够的样本。对于样本不足的案由类别,要从训练集中筛选掉。
因为案由的识别是基于违法事实的,所以违法事实的描述要能够提供足够多的信息,因此对于违法事实字数少于200字的记录,要筛选掉。
另外,参见图3,本发明还提出了一种基于卷积神经网络的行政违法案由预测工具100,包括:
构建模块101,用于获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;
训练模块102,用于利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;
其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。
可以理解的是,本实施例提供的技术方案,通过获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集,利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型,将待识别的违法事实词向量输入到违法案由识别模型,就能输出为违法案由预测结果。本实施例提供的技术方案,在把文本信息交给深度神经网络模型进行处理之前,需要对文本信息进行处理,将文本信息转换为连续稠密的词向量,以便深度学习模型处理,相比现有技术,这种做法不需要选用特定的方法进行特征工程,特征表达能力更强。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。

Claims (10)

1.一种基于卷积神经网络的行政违法案由预测方法,其特征在于,包括:
获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;
利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;
其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。
2.根据权利要求1所述的方法,其特征在于,所述构建由违法事实词向量组成的训练数据集,包括:
对违法事实进行分词、去停用词处理,将各违法事实句子转换为词汇序列,每个词汇序列包括多个词汇;
以第二预设数量的行政法律法规作为训练样本,训练行政法规词向量,形成词向量字典;
基于所述词向量字典,将所述词汇转换为词向量,形成由违法事实词向量组成的训练数据集。
3.根据权利要求2所述的方法,其特征在于,还包括:
计算所有词汇的词频;
按词频由大到小,对每个词汇序列中的词汇进行排序;
所述将所述词汇转换为词向量,具体为:
将词频排名为前N名的词汇转换为所述词向量字典中对应的词向量。
4.根据权利要求3所述的方法,其特征在于,还包括:
根据各词汇序列的长度,确定一个长度阈值L;
根据所述长度阈值L,将各词汇序列处理为固定长度。
5.根据权利要求4所述的方法,其特征在于,所述将各词汇序列处理为固定长度,包括:
对任一违法事实的词汇序列,若长度大于所述长度阈值L,则截取所述违法事实的前L个词汇;
对任一违法事实的词汇序列,若长度等于所述长度阈值L,则不做处理;
对任一违法事实的词汇序列,若长度小于所述长度阈值L,则用特定值进行补充。
6.根据权利要求5所述的方法,其特征在于,还包括:
词频排名为前N名之后的词汇不转换为词向量,使用固定值M组成的向量来表示;和/或,
使用特定值进行补充的词汇不转换为词向量,使用固定值M组成的向量来表示。
7.根据权利要求1所述的方法,其特征在于,所述利用训练数据集中的违法事实词向量对所述预测模型进行训练,包括:
以违法事实词向量作为卷积神经网络的输入,创建卷积神经网络的输入层;
确定卷积核的长度、高度、以及卷积核的个数,构建卷积神经网络的卷积层;
构建卷积神经网络的池化层,对多个卷积核的计算结果,进行池化处理;
将池化后的结果进行归一化处理;
将归一化处理后的结果作为全连接层的输入,利用softmax函数得到违法案由的预测结果。
8.根据权利要求2所述的方法,其特征在于,所述对违法事实进行分词、去停用词处理,包括:
筛选掉数字、单字、标点符号。
9.根据权利要求1所述的方法,其特征在于,还包括:
对获取到的违法事实,剔除掉字数少于预设字数的违法事实;和/或,
预测模型训练结束后,观察预测结果的精确率和F1值,达到预设性能后,将模型存储为违法案由识别模型。
10.一种基于卷积神经网络的行政违法案由预测工具,其特征在于,包括:
构建模块,用于获取第一预设数量的违法事实,并将所述违法事实转换为违法事实词向量,构建由违法事实词向量组成的训练数据集;
训练模块,用于利用卷积神经网络和全连接神经网络构建预测模型,并利用训练数据集中的违法事实词向量对所述预测模型进行训练,得到违法案由识别模型;
其中,所述违法案由识别模型的输入为待识别的违法事实词向量,输出为违法案由预测结果。
CN202010311136.XA 2020-04-20 2020-04-20 一种基于卷积神经网络的行政违法案由预测方法及工具 Pending CN111552808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010311136.XA CN111552808A (zh) 2020-04-20 2020-04-20 一种基于卷积神经网络的行政违法案由预测方法及工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010311136.XA CN111552808A (zh) 2020-04-20 2020-04-20 一种基于卷积神经网络的行政违法案由预测方法及工具

Publications (1)

Publication Number Publication Date
CN111552808A true CN111552808A (zh) 2020-08-18

Family

ID=72002921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010311136.XA Pending CN111552808A (zh) 2020-04-20 2020-04-20 一种基于卷积神经网络的行政违法案由预测方法及工具

Country Status (1)

Country Link
CN (1) CN111552808A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787249A (zh) * 2024-02-23 2024-03-29 北京大学深圳研究生院 一种用于材料与化工行业科技情报的数据处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
WO2019023412A1 (en) * 2017-07-26 2019-01-31 Siuvo Inc. DIGITAL SEMANTIC CLASSIFICATION DATA IN NATURAL LANGUAGE CONTEXT BASED ON MACHINE LEARNING
CN110276068A (zh) * 2019-05-08 2019-09-24 清华大学 法律案情分析方法及装置
CN110751216A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于改进卷积神经网络的裁判文书行业分类方法
CN110968688A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 司法数据的处理方法及系统
CN110990560A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种司法数据处理方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
WO2019023412A1 (en) * 2017-07-26 2019-01-31 Siuvo Inc. DIGITAL SEMANTIC CLASSIFICATION DATA IN NATURAL LANGUAGE CONTEXT BASED ON MACHINE LEARNING
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
CN110968688A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 司法数据的处理方法及系统
CN110990560A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 一种司法数据处理方法及系统
CN110276068A (zh) * 2019-05-08 2019-09-24 清华大学 法律案情分析方法及装置
CN110751216A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于改进卷积神经网络的裁判文书行业分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787249A (zh) * 2024-02-23 2024-03-29 北京大学深圳研究生院 一种用于材料与化工行业科技情报的数据处理方法
CN117787249B (zh) * 2024-02-23 2024-05-28 北京大学深圳研究生院 一种用于材料与化工行业科技情报的数据处理方法

Similar Documents

Publication Publication Date Title
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN101692639A (zh) 一种基于url的不良网页识别方法
CN109657011B (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统
CN111639497A (zh) 一种基于大数据机器学习的异常行为发现方法
CN110807098A (zh) 基于BiRNN深度学习的DGA域名检测方法
CN110837601A (zh) 一种警情的自动分类与预测方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN112116168B (zh) 一种用户行为的预测方法、装置及电子设备
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN110716957B (zh) 类案可疑对象智能挖掘分析方法
CN109582743B (zh) 一种针对恐怖袭击事件的数据挖掘系统
CN111488501A (zh) 一种基于云平台的电商统计系统
CN111460100A (zh) 一种刑事法律文书罪名的推荐方法和系统
CN111552808A (zh) 一种基于卷积神经网络的行政违法案由预测方法及工具
CN112687402A (zh) 基于人工智能的智慧医疗互联网大数据处理方法及智能云服务平台
CN109274836A (zh) 一种大规模数据流中电信欺诈风险识别方法
CN106484672A (zh) 词汇识别方法和词汇识别系统
CN112732865B (zh) 一种刑事案件情节对刑期影响比例的测算方法及装置
CN108647497A (zh) 一种基于特征提取的api密钥自动识别系统
CN114491049A (zh) 一种基于信息管理的办公系统资产配置方法
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113657443A (zh) 一种基于soinn网络的在线物联网设备识别方法
CN111651960A (zh) 一种从合同简体迁移到繁体的光学字符联合训练及识别方法
CN113762589A (zh) 一种输变电工程变更预测系统及方法
CN112185083A (zh) 一种重复报警判断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination