CN111177010B - 一种软件缺陷严重程度识别方法 - Google Patents

一种软件缺陷严重程度识别方法 Download PDF

Info

Publication number
CN111177010B
CN111177010B CN201911425226.5A CN201911425226A CN111177010B CN 111177010 B CN111177010 B CN 111177010B CN 201911425226 A CN201911425226 A CN 201911425226A CN 111177010 B CN111177010 B CN 111177010B
Authority
CN
China
Prior art keywords
word
severity
defect report
software
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911425226.5A
Other languages
English (en)
Other versions
CN111177010A (zh
Inventor
俞东进
郭世明
陈信
王琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911425226.5A priority Critical patent/CN111177010B/zh
Publication of CN111177010A publication Critical patent/CN111177010A/zh
Application granted granted Critical
Publication of CN111177010B publication Critical patent/CN111177010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Abstract

本发明公开了一种软件缺陷报告严重程度识别方法。该方法基于卷积神经网络来实现缺陷报告严重程度的识别,利用元启发式算法—遗传算法进行特征选择来提高预测的性能。通过本发明方法能够高效识别软件缺陷报告的严重程度,降低软件维护的成本,对软件开发过程具有非常重要的意义。本发明提出使用遗传算法来进行特征提取,同时结合深度学习模型进行预测。相比于传统的软件缺陷报告严重程度预测方法,本发明利用遗传算法进行特征选择,采用最小化平均绝对偏差作为适应度函数来评估每个个体,大大提高特征选择的效果;使用深度卷积神经网络创建模型,进一步提高特征选择的准确性,增强预测模型的性能。

Description

一种软件缺陷严重程度识别方法
技术领域
本发明涉及软件仓库挖掘领域,尤其涉及一种遗传算法和卷积神经网络的软件缺陷报告严重程度识别方法。
背景技术
在软件开发过程中,不可避免地会出现软件缺陷,软件缺陷会影响软件质量,需要被及时修复,并且软件缺陷的修复在软件开发生命周期中占很大比例。因此,提高软件缺陷修复效率是确保软件质量的关键。目前,为了解决这个问题,很多大型项目都使用软件缺陷报告跟踪系统来记录缺陷信息,以便快速定位和修复缺陷。
软件缺陷报告的严重性主要包括blocker、critical、major、normal、minor、trivial六个级别,其中blocker、critical和major级别的缺陷归类为严重缺陷,其他级别的缺陷归类为非严重缺陷。在对缺陷报告进一步分类时,传统的做法是开发人员手动将用户所提交的软件缺陷报告定性分成两类,来帮助开发人员确定哪些缺陷需要被及时修复以及哪些缺陷可以延迟修复。在实际操作中,首先由于用户之间表达方式的差异性,同类型的软件缺陷也许会被判定为不同级别的严重程度;其次,开发人员手动分类软件缺陷报告时,主观性较强且效率低下,因此人们迫切需要依靠自动化技术实现软件缺陷报告的分类。近年来受到机器学习在预测领域所取得的成果启发,研究人员已经将机器学习技术应用到软件缺陷报告严重程度识别这一问题。然而将传统机器学习技术应用到缺陷报告严重程度识别时,会遇到一个很大的挑战,即无法有效提取文本特征。
传统预测方法对软件缺陷报告严重程度预测的准确率较低,可能会导致开发人员花费大量时间在紧急度低的软件缺陷上,对软件质量造成巨大影响。相比较之下,机器学习算法可以有效识别软件缺陷报告严重程度,极大地降低了软件维护的成本。
发明内容
为了克服现有技术的不足,本发明提供一种结合遗传算法和卷积神经网络的软件缺陷报告严重程度识别方法,可有效解决上述问题。本发明具体采用的技术方案如下:
一种软件缺陷严重程度识别方法,具体包括以下步骤:
步骤(1)定义软件缺陷的严重程度,将normal、trivial和minor级别归为非严重缺陷s1,将major、blocker和critical级别归为严重缺陷s2
步骤(2)给定缺陷报告集合R=(R1,R2,...Rn),将其中每个软件缺陷报告表示成Ri=<reportId,des,severity>,i=1,2...,n,其中reportId表示软件缺陷报告编号,des表示软件缺陷报告的描述信息,severity表示软件缺陷报告的严重程度,即s1或s2
步骤(3)对每个软件缺陷的描述信息des进行预处理:首先对des进行标记,用空格区分成单词形式,并删除其中的符号,然后基于停用词列表移除其中的停用词,最后将每个单词转为它的原型(即将每个单词转为它原有的词干或词根);经过预处理后每个缺陷报告Ri=<reportId,preDes,severity>,其中preDes表示预处理后的描述信息;
步骤(4)首先抽取所有缺陷报告中的描述信息preDes中的不同单词,形成关键词字典Dict=(w1,w2,...,wk),即特征集合,其中每一个关键词就是一个特征;然后利用遗传算法进行特征选择,特征选择的步骤如下:
4-1.设定初始化种群X=(X1,X2,...,Xp),p表示种群大小,以及最大迭代次数MaxIter;种群中的每一个个体Xi可以用一个长度为k的二进制串表示,其中1代表对应的特征被选中,0表示对应的特长度k即关键词的个数;
4-2.对于每个个体Xi,根据关键词字典Dict得到对应的特征子集SDi(基于个体Xi二进制串过滤得到),然后根据SDi去除每个preDes的冗余特征,即只保留在SDi中存在的特征,得到preDesR;
4-3.利用TF-IDF加权方法计算每个特征的权重,其中TF表示单词频率,IDF表示文档反向频率;TF-IDF公式为TF-IDFl,i=TFl,j×IDFj,其中TF-IDFl,j表示第j个单词在第l个文档中的权重,TFl,j表示第j个单词在第l个文档中的频率,IDFj=log(n/DFj)表示第j个单词的文档反向频率,n表示文档的个数,DFj表示包含第j个单词的文档的个数;
4-4.对种群中的每一个个体Xi采用最小化平均绝对偏差作为适应度函数进行评估;适应度函数定义如下:
其中,MAD(Xi)表示第i个个体Xi对应的适应度值,al是第l个软件缺陷报告中被选中的特征的数量,el,j表示第l个软件缺陷报告中第j个特征的权值,即TF-IDFl,j;然后采用锦标赛选择算法对种群进行选择,被选择的个体进入子代种群;
4-5.对子代种群进行交叉和变异,重复上述步骤4-2到4-4的操作,直到达到最大迭代次数MaxIter;
4-6.输出最优特征子集;
步骤(5)单词向量化,基于最优特征子集将每个缺陷报告的preDes中的冗余特征进行过滤,得到preDesR;然后利用Word2Vec中的Skip-gram模型将每个preDesR中的每个单词转为一个d维向量,即
步骤(6)训练软件缺陷报告严重程度预测的卷积神经网络模型M,将步骤(5)得到的每个单词的向量表示输入至模型M的Embedding层进行训练,具体步骤如下:
第一,设置模型参数:Number of hidden units(隐藏单元数)、IterMax(CNN训练最大迭代次数)、Batch size(批量大小)、L2、Learning rate(学习率)、Dropout和Dimensional of word vectors(单词向量维度);
第二,将R分为训练数据集合ζtrain与测试数据集合ζtest
第三,将训练数据集合ζtrain所有单词的输入至CNN中进行训练;
第四,对于训练数据集合ζtrain中数据,利用三个不同卷积核执行卷积操作,分别对每一个卷积结果进行最大池化1-Max操作,输出Θ1,Θ2,Θ3
第五,对Θ1,Θ2,Θ3进行Flatten操作,展平成一维向量,并输入到全连接层中,其中激活函数使用Relu,输出
第六,卷积神经网络通过损失函数Loss计算c与之间的损失值,即预测的严重程度与真实的严重程度的差值,不断优化模型参数,其中c是每次迭代对ζtrain中的部分数据的预测结果;
第七,达到设定的损失函数要求值或达到最大迭代次数IterMax后,迭代结束;最后,输出预测模型M;
步骤(7)将测试数据集合ζtest数据输入至预测模型M,输出预测结果c’,得到类标签s1或s2
步骤(8)进行十折交叉验证,十次预测之后取平均值,作为最终预测结果
本发明提出使用遗传算法来进行特征提取,同时结合深度学习模型进行预测。相比于传统的软件缺陷报告严重程度预测方法,本发明具有如下收益:1、利用遗传算法进行特征选择,采用最小化平均绝对偏差作为适应度函数来评估每个个体,大大提高特征选择的效果;
2、使用深度卷积神经网络创建模型,进一步提高特征选择的准确性,增强预测模型的性能。
附图说明
图1为本发明结合遗传算法和神经网络算法的缺陷报告严重程度识别方法的流程图;
图2为本发明基于遗传算法进行特征选择的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
为叙述方便,定义相关符号如下:
r:每一个缺陷报告的格式。
R:缺陷报告集合。
wk:第k个单词。
Dict:基于缺陷报告生成的关键字典。
xi:第i个个体。
p:初始种群大小。
MaxIter:迭代次数大小。
al:第l个软件缺陷报告中被选中的特征的数量。
el,j:第l个软件缺陷报告中第j个特征的权值。
vd:第d个单词所对应的向量。
ζtrain:软件缺陷报告90%的子集作为训练集。
ζtest:软件缺陷报告10%的子集作为训练集。
数据源获取:本实施例所用的原始数据来自由Lamkanfi整理的公开数据集。该数据集是从两个开源项目Eclipse和Mozilla中提取的。每个项目包含四个产品,每个缺陷报告都有完整的生命周期。从数据集中,我们选择了三个开源产品的缺陷报告集合:Platform,Core和Firefox,其中Platform属于Eclipse,Core和Firefox属于Mozilla。因为其他产品的缺陷报告数量过少,所以我们忽略其他产品的缺陷报告。收集到的缺陷报告总数为168,946,其中每种产品缺陷报告的数量分别占14.66%,43.97%和41.37%。每个缺陷报告主要有以下几部分组成:缺陷报告编号、缺陷报告的描述信息、缺陷报告的严重程度以及缺陷报告所属组件等等。考虑到组件属性对严重程度识别没有作用,我们将每个缺陷报告表示为r=<reportId,des,severity>。
如图1所示,本发明的结合一种遗传算法和卷积神经网络的软件缺陷报告严重程度识别方法,包括以下步骤:
步骤(1)定义软件缺陷的严重程度,将normal、trivial和minor级别归为非严重缺陷s1,将major、blocker和critical级别归为严重缺陷s2
步骤(2)给定缺陷报告集合R=(R1,R2,...Rn),将其中每个软件缺陷报告表示成Ri=<reportId,des,severity>,i=1,2...,n,其中reportId表示软件缺陷报告编号,des表示软件缺陷报告的描述信息,severity表示软件缺陷报告的严重程度,即s1或s2
步骤(3)对每一个des进行预处理:首先对des进行标记,用空格区分成单词形式,并删除其中的符号,然后基于停用词列表移除其中的停用词,最后将每个单词转为它的原型;经过预处理后每个缺陷报告Ri=<reportId,preDes,severity>,其中preDes表示预处理后的描述信息;
步骤(4)首先抽取所有缺陷报告的preDes中的不同单词,形成关键词字典Dict=(w1,w2,...,wk),即特征集合,其中每一个关键词就是一个特征;然后利用遗传算法进行特征选择,特征选择的步骤如下:
1)设定初始化种群X=(X1,X2,...,Xp),p表示种群大小,设定为10,以及最大迭代次数MaxIter,设定为100;种群中的每一个个体Xi可以用一个二进制串表示,例如Xi=(0110010101),其中1代表对应的特征被选中,0表示对应的特征未被选中;在我们的方法中,二进制串的长度为k,即关键词的个数;
2)对于每个个体Xi,根据Dict得到对应的特征子集SDi,然后根据SDi去除每个preDes的冗余特征,得到preDesR;
3)利用TF-IDF加权方法计算每个特征的权重,其中TF表示单词频率,IDF表示文档反向频率;TF-IDF公式为TF-IDFl,j=TFl,j×IDFj,其中TF-IDFl,j表示第j个单词在第l个文档中的权重,TFl,j表示第j个单词在第l个文档中的频率,IDFj=log(n/DFi),n表示文档的个数,DFj表示包含第j个单词的文档的个数;
4)对种群中的每一个个体Xi采用最小化平均绝对偏差(mean absolutedifference)作为适应度函数进行评估;适应度函数定义如下:
其中MAD(Xi)表示第i个个体对应的适应度值,al是第l个软件缺陷报告中被选中的特征的数量,el,j表示第l个软件缺陷报告中第j个特征的权值,即TF-IDFl,j;然后采用锦标赛选择算法对种群进行选择,被选择的个体进入子代种群;
5)对种群进行交叉和变异,设定交叉概率和变异概率分别为0.9和0.05,重复上述步骤2)-4)操作,直到达到最大迭代次数MaxIter;
6)输出最优特征子集;
步骤(5)单词向量化,基于最优特征子集将每个缺陷报告的preDes中的冗余特征进行过滤,得到preDesR;然后利用Word2Vec中的Skip-gram模型将每个preDesR中的每个单词转为一个d维向量,即输入到卷积神经网络的输入层;
步骤(6)训练软件缺陷报告严重程度预测模型M,具体包含以下步骤:
1)设置模型参数:
·Number of hidden units:256
·IterMax:25
·Batch size:64
·L2:0.01
·Learning rate:0.0001
·Dropout:0.5
·Dimensional of word vectors:100
2)将R分为①训练数据集合ζtrain②测试数据集合ζtest,其中ζtrain:ζtest=9∶1;
3)将ζtrain所有单词的输入至CNN中进行训练;
4)对于ζtrain中数据,利用三个不同卷积核执行卷积操作,卷积核大小为3、4、5,分别对每一个卷积结果进行最大池化1-Max操作,输出Θ1,Θ2,Θ3
5)对Θ1,Θ2,Θ3进行Flatten操作,展平成一维向量,并输入到全连接层中,其中激活函数使用Relu,输出
6)卷积神经网络通过损失函数Loss迭代c与之间的损失值,即预测的严重程度与真实的严重程度的差值,不断优化模型参数;
7)达到设定的损失函数要求值或达到最大迭代次数IterMax后后,迭代结束;
8)输出预测模型M;
步骤(7)将测试数据集合ζtest数据输入至预测模型M,输出预测结果c′,得到类标签s1或s2
步骤(8)进行十折交叉验证,十次预测之后取平均值,作为最终预测结果步骤如下:
1)将每个产品的数据集切分成10折,每次取一折作为测试集,其他作为训练集;
2)重复10次,求得平均预测结果

Claims (1)

1.一种软件缺陷严重程度识别方法,其特征在于包括以下步骤:
步骤(1)定义软件缺陷的严重程度,将normal、trivial和minor级别归为非严重缺陷s1,将major、blocker和critical级别归为严重缺陷s2
步骤(2)给定缺陷报告集合R=(R1,R2,...Rn),将其中每个软件缺陷报告表示成Ri=<reportId,des,severity>,i=1,2...,n,其中reportId表示软件缺陷报告编号,des表示软件缺陷报告的描述信息,severity表示软件缺陷报告的严重程度,即s1或s2
步骤(3)对每个软件缺陷的描述信息des进行预处理:首先对des进行标记,用空格区分成单词形式,并删除其中的符号,然后基于停用词列表移除其中的停用词,最后将每个单词转为它的原型;经过预处理后每个缺陷报告Ri=<reportId,preDes,severity>,其中preDes表示预处理后的描述信息;
步骤(4)首先抽取所有缺陷报告中的描述信息preDes中的不同单词,形成关键词字典Dict=(w1,w2,...,wk),即特征集合,其中每一个关键词就是一个特征;然后利用遗传算法进行特征选择,特征选择的步骤如下:
4-1.设定初始化种群X=(X1,X2,...,Xp),p表示种群大小,以及最大迭代次数MaxIter;种群中的每一个个体Xi可以用一个长度为k的二进制串表示,其中1代表对应的特征被选中,0表示对应的特长度k即关键词的个数;
4-2.对于每个个体Xi,根据关键词字典Dict得到对应的特征子集SDi,然后根据SDi去除每个preDes的冗余特征,即只保留在SDi中存在的特征,得到preDesR;
4-3.利用TF-IDF加权方法计算每个特征的权重,其中TF表示单词频率,IDF表示文档反向频率;TF-IDF公式为TF-IDFl,j=TFl,j×IDFj,其中TF-IDFl,j表示第j个单词在第l个文档中的权重,TFl,j表示第j个单词在第l个文档中的频率,IDFj=log(n/DFj)表示第j个单词的文档反向频率,n表示文档的个数,DFj表示包含第j个单词的文档的个数;
4-4.对种群中的每一个个体Xi采用最小化平均绝对偏差作为适应度函数进行评估;适应度函数定义如下:
其中,MAD(Xi)表示第i个个体Xi对应的适应度值,al是第l个软件缺陷报告中被选中的特征的数量,el,j表示第l个软件缺陷报告中第j个特征的权值,即TF-IDFl,j;然后采用锦标赛选择算法对种群进行选择,被选择的个体进入子代种群;
4-5.对子代种群进行交叉和变异,重复上述步骤4-2到4-4的操作,直到达到最大迭代次数MaxIter;
4-6.输出最优特征子集;
步骤(5)单词向量化,基于最优特征子集将每个缺陷报告的preDes中的冗余特征进行过滤,得到preDesR;然后利用Word2Vec中的Skip-gram模型将每个preDesR中的每个单词转为一个d维向量,即
步骤(6)训练软件缺陷报告严重程度预测的卷积神经网络模型M,将步骤(5)得到的每个单词的向量表示输入至模型M的Embedding层进行训练,具体步骤如下:
第一,设置模型参数:Number of hidden units隐藏单元数、IterMax CNN训练最大迭代次数、Batch size批量大小、L2、Learning rate学习率、Dropout和Dimensional of wordvectors单词向量维度;
第二,将R分为训练数据集合ζtrain与测试数据集合ζtest
第三,将训练数据集合ζtrain所有单词的输入至CNN中进行训练;
第四,对于训练数据集合ζtrain中数据,利用三个不同卷积核执行卷积操作,分别对每一个卷积结果进行最大池化1-Max操作,输出Θ1,Θ2,Θ3
第五,对Θ1,Θ2,Θ3进行Flatten操作,展平成一维向量,并输入到全连接层中,其中激活函数使用Relu,输出
第六,卷积神经网络通过损失函数Loss计算c与之间的损失值,即预测的严重程度与真实的严重程度的差值,不断优化模型参数,其中c是每次迭代对ζtrain中的部分数据的预测结果;
第七,达到设定的损失函数要求值或达到最大迭代次数IterMax后,迭代结束;最后,输出预测模型M;
步骤(7)将测试数据集合ζtest数据输入至预测模型M,输出预测结果c’,得到类标签s1或s2
步骤(8)进行十折交叉验证,十次预测之后取平均值,作为最终预测结果
CN201911425226.5A 2019-12-31 2019-12-31 一种软件缺陷严重程度识别方法 Active CN111177010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911425226.5A CN111177010B (zh) 2019-12-31 2019-12-31 一种软件缺陷严重程度识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911425226.5A CN111177010B (zh) 2019-12-31 2019-12-31 一种软件缺陷严重程度识别方法

Publications (2)

Publication Number Publication Date
CN111177010A CN111177010A (zh) 2020-05-19
CN111177010B true CN111177010B (zh) 2023-12-15

Family

ID=70650731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911425226.5A Active CN111177010B (zh) 2019-12-31 2019-12-31 一种软件缺陷严重程度识别方法

Country Status (1)

Country Link
CN (1) CN111177010B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269732B (zh) * 2020-10-14 2024-01-05 北京轩宇信息技术有限公司 一种软件缺陷预测特征的选择方法及装置
CN112286799B (zh) * 2020-10-19 2024-03-12 杭州电子科技大学 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN112463643A (zh) * 2020-12-16 2021-03-09 郑州航空工业管理学院 一种软件质量预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653450A (zh) * 2015-12-28 2016-06-08 中国石油大学(华东) 基于改进遗传算法与Adaboost结合的软件缺陷数据特征选择方法
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法
CN110188047A (zh) * 2019-06-20 2019-08-30 重庆大学 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN110597735A (zh) * 2019-09-25 2019-12-20 北京航空航天大学 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653450A (zh) * 2015-12-28 2016-06-08 中国石油大学(华东) 基于改进遗传算法与Adaboost结合的软件缺陷数据特征选择方法
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法
CN110188047A (zh) * 2019-06-20 2019-08-30 重庆大学 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN110597735A (zh) * 2019-09-25 2019-12-20 北京航空航天大学 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于分类的软件缺陷严重性预测;王婧宇;张欣;邹卫琴;;计算机与数字工程(第08期);全文 *

Also Published As

Publication number Publication date
CN111177010A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN107239529B (zh) 一种基于深度学习的舆情热点类别划分方法
CN111177010B (zh) 一种软件缺陷严重程度识别方法
WO2019214133A1 (zh) 一种大规模客户投诉数据自动分类方法
CN105975573B (zh) 一种基于knn的文本分类方法
CN1307579C (zh) 用于分类文本以及构造文本分类器的方法和装置
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN109871443A (zh) 一种基于记账场景的短文本分类方法及装置
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN110781333A (zh) 一种基于机器学习的斜拉桥非结构化监测数据处理方法
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN109947936A (zh) 一种基于机器学习动态检测垃圾邮件的方法
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN113378563B (zh) 一种基于遗传变异和半监督的案件特征提取方法及装置
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN113569048A (zh) 一种基于企业经营范围自动划分所属行业的方法及系统
CN112069307B (zh) 一种法律法条引用信息抽取系统
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant