CN113704470A - 用于设备缺陷分类的实现方法及系统 - Google Patents
用于设备缺陷分类的实现方法及系统 Download PDFInfo
- Publication number
- CN113704470A CN113704470A CN202110988404.6A CN202110988404A CN113704470A CN 113704470 A CN113704470 A CN 113704470A CN 202110988404 A CN202110988404 A CN 202110988404A CN 113704470 A CN113704470 A CN 113704470A
- Authority
- CN
- China
- Prior art keywords
- words
- defect
- data
- model
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及设备缺陷数据分析领域,为用于设备缺陷分类的实现方法及系统,其方法包括:获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;基于BERT模型对预处理后的文本数据进行训练得到初始化BERT模型;通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;利用优化后的BERT模型对设备缺陷数据进行预测得到设备缺陷分类结果;基于约束规则对BERT模型预测后的结果进行二次优化得到最终的分类结果。本发明首先根据已标注的设备缺陷数据训练通用的缺陷分类模型,再利用该模型对未标注的设备缺陷数据进行预测,能够快速准确的实现缺陷分类,为数据分析应用实时响应奠定基础。
Description
技术领域
本发明涉及设备缺陷数据分析领域,具体涉及用于设备缺陷分类的实现方法及系统。
背景技术
企业信息系统存储着大量的设备缺陷数据,此数据日积月累,已成为公司重要的数据资产。企业管理由原先的粗放式管理逐步转化为精细化管理,设备管理部门需通过设备的历史缺陷来管理供应商的供货质量,制定设备巡检计划和设备防护措施来避免设备缺陷的发生,从而达到设备管理的精细化管理。由于设备类别众多,设备缺陷数据存在数据填写不规范、存在歧义、填写内容无实际价值等特点,给设备管理部门对该缺陷数据的利用率不高。目前设备管理部门使用设备缺陷数据时,主要是通过人工标注来实现,而人工标注耗时耗力,标注易出错,对设备缺陷数据的分析应用带来很大的困难。
发明内容
本发明提出用于设备缺陷分类的实现方法来解决上述现有技术所存在的问题,首先根据已标注的设备缺陷数据训练通用的缺陷分类模型,再利用该模型对未标注的设备缺陷数据进行预测,能够快速准确的实现缺陷分类,为数据分析应用实时响应奠定基础。
本发明还提出用于设备缺陷分类的系统。
本发明用于设备缺陷分类的实现方法,包括以下步骤:
步骤S1、获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;
步骤S2、基于BERT模型对预处理后的文本数据进行训练,得到初始化BERT模型;
步骤S3、通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;
步骤S4、利用优化后的BERT模型对设备缺陷数据进行预测,得到设备缺陷分类结果;
步骤S5、基于约束规则对BERT模型预测后的结果进行二次优化,得到最终的分类结果。
基于相同的发明构思,本发明用于设备缺陷分类的系统,包括:
数据预处理模块,用于获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;
模型训练模块,基于BERT模型对预处理后的文本数据进行训练,得到初始化BERT模型;
模型优化模块,通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;
模型预测模块,基于BERT模型对设备缺陷数据进行预测,得到设备缺陷分类结果。
预测结果优化模块,基于缺陷类型对应的关键词库对模型预测的结果进行二次优化,输出最终的分类结果。
与现有技术相比,本发明提出的技术方案取得的技术效果包括:
本发明首先利用BERT模型对已标注的设备缺陷数据进行模型训练,然后对未标注的设备缺陷数据进行模型预测,从而提高数据清洗效率,为开展数据分析应用实时响应奠定基础。
附图说明
图1为本发明实施例中基于BERT模型实现缺陷类型分类的整体流程图;
图2为本发明实施例中BERT模型预测输出各个缺陷类型的得分示意图;
图3为本发明实施例中基于BERT模型实现缺陷类型分类的系统框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明,但本发明的实施方式并不限于此。
实施例
如图1所示,本实施例中,用于设备缺陷分类的实现方法包括以下步骤:
步骤S1、获取文本数据,并基于正则分析对文本数据进行预处理,以提升数据质量,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息。
由于文本数据的描述存在数据填写不规范、歧义、填写内容无实际价值等问题,因此需要对文本数据进行预处理,将其规范化,其处理步骤如下:
S11、建立缺陷词库,例如:树障、生锈、放电、发热、雷击、积水、倒塌等。
S12、将文本数据的内容按分隔符进行切分,切分后得到多个分段文本,其中分隔符为常用标点符号。
S13、判断切分后的各分段文本是否为有价值的内容描述。假如某分段文本不包含缺陷词库的描述,则该分段文本的内容被视为无价值的描述,将其舍弃。
S14、将有价值的分段文本重新组合,在分段文本组合时需参考BERT模型的输入文本长度(输入文本长度为128个字符),假如在分段文本组合过程中,组合后的文本长度超过BERT模型的输入文本长度,则舍弃最后一节分段文本,得到最终预处理后的文本数据。
步骤S2、基于BERT模型对预处理后的文本数据进行训练,得到初始化BERT模型。本实施例使用的预训练模型为Google预训练好的chinese_L-12_H-768_A-12,其训练步骤如下:
S21、获取步骤S1预处理后的文本数据,包括缺陷描述信息和缺陷类型信息;将缺陷类型信息按预设数量划分,得到均匀分布的样本数据;最后将均匀分布的样本数据按比例分为训练集、验证集和测试集。
S22、利用BERT模型下的file_based_convert_examples_to_features将缺陷描述信息转换为BERT模型所需的特征向量,所述特征向量包括了词向量、分段向量和位置向量。
S23、输入特征向量和相应的模型参数,用BERT模型对文本数据进行训练,得到文本数据的标签得分,其表现形式如图2所示,一共有10个缺陷类型(鸟害、鼠患、密封不严、漏气、积水、门损伤、放电、机器异响、装置故障、锈蚀),输入文本描述,经BERT模型训练得到每个缺陷类型的分数,每条记录的分数求和等于1。
S24、根据设备类别和标签得分对分类结果进行优化。
现有模型采用得分最高的标签为分类结果。由于缺陷类型的划分还需考虑设备类别因素,一个设备类别含有多个缺陷类型,所以本实施例采用指定设备类别下得分最高的缺陷类型作为分类结果。例如:设备类别A对应的缺陷类型为A1、A2、A3、A4;设备类别B对应的缺陷类型为B1、B2、B3、B4;在对设备类别A的文本数据进行预测时,会得到设备类别B的缺陷类型,这显然是不合理的,因此需采用设备类别A下得分最高的缺陷类型作为分类结果。
S25、验证模型的准确率,并保存模型。训练模型时,每隔一定次数(例如5000次)在验证集上进行验证,并计算出准确率,假如准确率大于前一次验证的准确率,则保存模型,直到迭代停止,迭代停止条件是通过迭代次数控制。准确率的计算方式如下:
其中TP表示真正例样本数,FP表示实际为假正例样本数,FN表示实际为假负例样本数,TN表示实际为真负例样本数。
步骤S3、优化初始化BERT模型,保存优化后的BERT模型,此模型供后续做预测使用。
主要是通过调整模型参数和修改样本标注数据来实现初始化BERT模型的优化。由于样本标注数据是人工标注,易出现错误,因此需对其修改。样本数据经手工标注调整后形成样本标注数据,再通过调整模型参数来对模型调优,每调整一次参数均记录对应的准确率,假如准确率达到人工设定的阈值,则此模型可用,保存最优模型,否则再进行优化。
步骤S4、利用优化后的BERT模型对设备缺陷数据进行预测,可得到设备缺陷分类结果,其步骤如下:
S401、获取原始数据,其数据字段包含设备类别、缺陷描述信息。
S402、通过读取步骤S11所建立的缺陷词库(例如:树障、生锈、放电、发热、雷击、积水、倒塌等等),将缺陷词库定义为一个集合P(keywords)。
S403、读取BERT模型下的file_based_convert_examples_to_features缺陷描述信息转换后的特征向量,此特征包含了词向量、分段向量和位置向量。依据转换成向量的方法,把集合P(keywords)的所有缺陷词库都转化为向量值。
S404、读取步骤S1对文本数据预处理后需要预测的词语,对其进行向量化(向量化操作和步骤S403相同),定义集合Q(seewords)。
S405、定义相关性算法,通过计算角度距离判断词语的相关性,算法如下:
公式(1)中,P代表集合P(keywords)里面某个缺陷词的向量,Q代表集合Q(seewords)里面某个需要预测的词语的向量,β为P、Q两个向量的夹角。
S406、针对需要预测的词语和缺陷词语进行逐个判断,找出相关性大的词语,即找出角度距离排在前50的词语;然后通过反向溯源找到它们(缺陷词语)所在的句子。
以上步骤401-406记为方法1。
S407、定义与出现在句子中的缺陷词库里的词语相关的词语作为相关词,例如“树障”通常会关联“茂密、”“修剪”、“砍伐”;“生锈”通常会关联“钢铁”、“油漆”;“积水”通常会关联“暴雨”、“疏通”等。
S408、根据相关词定义相关词的词库集合CP(closewords),并对词库集合CP进行向量化(向量化操作和步骤S403相同);
S409、针对句子拆分出来的词集合W(words),删除缺陷词库的词语(集合P(keywords)出现的词),把剩余的词与相关词库即CP(closewords)集合进行相关性计算,也就是利用公式(1)进行角度距离大小的计算,设拆分出来的词集合为W(words)也是进行了向量处理:
公式(2)中,CP代表集合CP(closewords)里面某个相关词的向量、W代表集合W(words)里面某个拆分出来的词的向量,β为CP、W两个向量的夹角。
S410、对某个句子,根据角度距离大小判断相关性,对符合相关性要求的角度距离小于10度的词语,采用记1分的方式进行登记和加分,对角度距离大于10度的词语统统抛弃,从而筛选出有接近相关性词语的词的句子。
以上步骤S407-410记为方法2。
通过这样的方法(方法1+方法2),最终找出那些既有接近相关性词语的词,也有接近缺陷词语的词的句子。
S411、有了上述句子基础,就可以对缺陷词语的频度进行调查,统计出含有缺陷词语和相关性词语在这一批句子中的频度Hertzi,实现方式如下:
定义一个频度集合Z(Fi),设出现缺陷词语的句子条数为n,这些出现缺陷词语的句子中含有多个相关缺陷词语个数为L,相关词在全文中出现的次数为num,所统计的句子总条数为fnum,被标记为告警级别和以上级别的句子条数(排除级别为信息记录级别的条数)为T,定义公式如下:
其中,i=1,2,3,…,n,通过以上公式,统计出含有缺陷词语和相关词语在这一批句子中的频度Hertzi。
对应的伪代码为:
a)读取方法1+方法2所统计出来的句子,设置集合Z(Fi)总个数为N;
b)初始化集合Z(Fi);
c)统计n、L、num、fnum、T的值;
d)for i=1 to n do:
e)读取一个Fi的初始参数;
f)根据公式(3)计算得到集合Z(Fi);
g)end for
h)for j=0 to n do:
i)根据公式(4)计算频度;
j)end for
k)return含有缺陷和相关词语在这一批句子中的频度集Hertzi。
通过以上的方法,可对那些没有通过训练的文本,评判它的缺陷频度集,从而找出含有高度设备缺陷的句子,对这些句子进行训练,可以得到训练模型需要的结果。
步骤S5、基于约束规则对BERT模型预测后的结果进行二次优化,得到最终的分类结果,提高文本分类的准确性。
在模型预测环节中,模型预测的准确率达到一定程度就无法提升,为了提高预测准确率,需利用约束规则对缺陷类型进行微调优化,其步骤如下:
S51、总结缺陷类型对应的缺陷词语和短文本,一个缺陷类型可对应多个不同的缺陷词语和短文本。
S52、利用正则表达式对设备缺陷描述文本做出判断,假如文本描述包含某缺陷类型的缺陷词语和短文本,则输出该缺陷类型,否则输出预测的缺陷类型。
基于相同的发明构思,本实施例还提供用于设备缺陷分类的系统,如图3所示,具体包括以下模块:
数据预处理模块,用于实现步骤S1,获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;
模型训练模块,用于实现步骤S2,基于BERT模型对预处理后的文本数据进行训练,得到初始化BERT模型;
模型优化模块,用于实现步骤S3,通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;
模型预测模块,用于实现步骤S4,基于BERT模型对设备缺陷数据进行预测,得到设备缺陷分类结果。
预测结果优化模块,用于实现步骤S5,基于缺陷类型对应的关键词库对模型预测的结果进行二次优化,输出最终的分类结果。
数据预处理模块首先建立缺陷词库;将文本数据的内容按分隔符进行切分,切分后得到多个分段文本;判断切分后的各分段文本是否为有价值的内容描述,假如某分段文本不包含缺陷词库的描述,则该分段文本的内容被视为无价值的描述,将其舍弃;将有价值的分段文本重新组合,得到最终预处理后的文本数据。
而模型训练模块通过获取预处理后的文本数据,将缺陷类型信息按预设数量划分得到均匀分布的样本数据,将样本数据按比例分为训练集、验证集和测试集;将缺陷描述信息转换为BERT模型所需的特征向量,所述特征向量包括词向量、分段向量和位置向量;输入特征向量和相应的模型参数,用BERT模型对文本数据进行训练,得到文本数据的标签得分;根据设备类别和标签得分对分类结果进行优化;验证模型的准确率,并保存模型。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.用于设备缺陷分类的实现方法,其特征在于,包括以下步骤:
步骤S1、获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;
步骤S2、基于BERT模型对预处理后的文本数据进行训练,得到初始化BERT模型;
步骤S3、通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;
步骤S4、利用优化后的BERT模型对设备缺陷数据进行预测,得到设备缺陷分类结果;
步骤S5、基于约束规则对BERT模型预测后的结果进行二次优化,得到最终的分类结果。
2.根据权利要求1所述的实现方法,其特征在于,步骤S1包括:
S11、建立缺陷词库;
S12、将文本数据的内容按分隔符进行切分,切分后得到多个分段文本;
S13、判断切分后的各分段文本是否为有价值的内容描述;假如某分段文本不包含缺陷词库的描述,则该分段文本的内容被视为无价值的描述,将其舍弃;
S14、将有价值的分段文本重新组合,得到最终预处理后的文本数据。
3.根据权利要求1所述的实现方法,其特征在于,步骤S2包括:
S21、获取预处理后的文本数据,将缺陷类型信息按预设数量划分得到均匀分布的样本数据,将样本数据按比例分为训练集、验证集和测试集;
S22、将缺陷描述信息转换为BERT模型所需的特征向量,所述特征向量包括词向量、分段向量和位置向量;
S23、输入特征向量和相应的模型参数,用BERT模型对文本数据进行训练,得到文本数据的标签得分;
S24、根据设备类别和标签得分对分类结果进行优化;
S25、验证模型的准确率,并保存模型。
4.根据权利要求3所述的实现方法,其特征在于,步骤S4包括:
S401、获取原始数据,其数据字段包含设备类别、缺陷描述信息;
S402、读取缺陷词库,并将缺陷词库定义为一个集合P;
S403、读取缺陷描述信息转换后的特征向量,依据转换成向量的方法,把集合P的所有缺陷词库都转化为向量值;
S404、读取对文本数据预处理后需要预测的词语,对其进行向量化,定义集合Q;
S405、定义相关性算法,通过计算角度距离判断词语的相关性;
S406、针对需要预测的词语和缺陷词语进行逐个判断,找出相关性大的词语,然后通过反向溯源找到缺陷词语所在的句子;
S407、定义与出现在句子中的缺陷词库里的词语相关的词语作为相关词;
S408、根据相关词定义相关词的词库集合CP,并对词库集合CP进行向量化;
S409、针对句子拆分出来的词集合W,删除缺陷词库的集合P出现的词,把剩余的词与词库集合CP进行角度距离大小的计算;
S410、对某个句子,根据角度距离大小判断相关性,筛选出有接近相关性词语的词的句子;
S411、对缺陷词语的频度进行调查,统计出含有缺陷词语和相关性词语在一批句子中的频度。
7.根据权利要求1所述的实现方法,其特征在于,步骤S5包括:
S51、总结缺陷类型对应的缺陷词语和短文本;
S52、利用正则表达式对设备缺陷描述文本做出判断,假如文本描述包含某缺陷类型的缺陷词语和短文本,则输出该缺陷类型,否则输出预测的缺陷类型。
8.用于设备缺陷分类的系统,其特征在于,包括:
数据预处理模块,用于获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;
模型训练模块,基于BERT模型对预处理后的文本数据进行训练,得到初始化BERT模型;
模型优化模块,通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;
模型预测模块,基于BERT模型对设备缺陷数据进行预测,得到设备缺陷分类结果。
预测结果优化模块,基于缺陷类型对应的关键词库对模型预测的结果进行二次优化,输出最终的分类结果。
9.根据权利要求8所述的系统,其特征在于,数据预处理模块建立缺陷词库;将文本数据的内容按分隔符进行切分,切分后得到多个分段文本;判断切分后的各分段文本是否为有价值的内容描述,假如某分段文本不包含缺陷词库的描述,则该分段文本的内容被视为无价值的描述,将其舍弃;将有价值的分段文本重新组合,得到最终预处理后的文本数据;
模型训练模块获取预处理后的文本数据,将缺陷类型信息按预设数量划分得到均匀分布的样本数据,将样本数据按比例分为训练集、验证集和测试集;将缺陷描述信息转换为BERT模型所需的特征向量,所述特征向量包括词向量、分段向量和位置向量;输入特征向量和相应的模型参数,用BERT模型对文本数据进行训练,得到文本数据的标签得分;根据设备类别和标签得分对分类结果进行优化;验证模型的准确率,并保存模型。
10.根据权利要求8所述的系统,其特征在于,模型预测模块的预测过程为:
获取原始数据,其数据字段包含设备类别、缺陷描述信息;
读取缺陷词库,并将缺陷词库定义为一个集合P;
读取缺陷描述信息转换后的特征向量,依据转换成向量的方法,把集合P的所有缺陷词库都转化为向量值;
读取对文本数据预处理后需要预测的词语,对其进行向量化,定义集合Q;
定义相关性算法,通过计算角度距离判断词语的相关性;
针对需要预测的词语和缺陷词语进行逐个判断,找出相关性大的词语,然后通过反向溯源找到缺陷词语所在的句子;
定义与出现在句子中的缺陷词库里的词语相关的词语作为相关词;
根据相关词定义相关词的词库集合CP,并对词库集合CP进行向量化;
针对句子拆分出来的词集合W,删除缺陷词库的集合P出现的词,把剩余的词与词库集合CP进行角度距离大小的计算;
对某个句子,根据角度距离大小判断相关性,筛选出有接近相关性词语的词的句子;
对缺陷词语的频度进行调查,统计出含有缺陷词语和相关性词语在一批句子中的频度,其中频度的统计方法为:
定义一个频度集合Z(Fi),设出现缺陷词语的句子条数为n,这些出现缺陷词语的句子中含有多个相关缺陷词语个数为L,相关词在全文中出现的次数为num,所统计的句子总条数为fnum,被标记为告警级别和以上级别的句子条数(排除级别为信息记录级别的条数)为T,定义公式如下:
其中,i=1,2,3,...,n,通过以上公式统计出含有缺陷和相关词语在一批句子中的频度Hertzi。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988404.6A CN113704470B (zh) | 2021-08-26 | 2021-08-26 | 用于设备缺陷分类的实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988404.6A CN113704470B (zh) | 2021-08-26 | 2021-08-26 | 用于设备缺陷分类的实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704470A true CN113704470A (zh) | 2021-11-26 |
CN113704470B CN113704470B (zh) | 2023-08-25 |
Family
ID=78655229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110988404.6A Active CN113704470B (zh) | 2021-08-26 | 2021-08-26 | 用于设备缺陷分类的实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704470B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200241861A1 (en) * | 2019-01-28 | 2020-07-30 | Adobe Inc. | Software component defect prediction using classification models that generate hierarchical component classifications |
CN112735597A (zh) * | 2020-12-31 | 2021-04-30 | 荆门汇易佳信息科技有限公司 | 半监督自学习驱动的医学文本病症辨识方法 |
CN113065356A (zh) * | 2021-03-19 | 2021-07-02 | 南方电网调峰调频发电有限公司信息通信分公司 | 一种基于语义分析算法的it设备运维故障建议处理方法 |
CN113138920A (zh) * | 2021-04-20 | 2021-07-20 | 中国科学院软件研究所 | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 |
-
2021
- 2021-08-26 CN CN202110988404.6A patent/CN113704470B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200241861A1 (en) * | 2019-01-28 | 2020-07-30 | Adobe Inc. | Software component defect prediction using classification models that generate hierarchical component classifications |
CN112735597A (zh) * | 2020-12-31 | 2021-04-30 | 荆门汇易佳信息科技有限公司 | 半监督自学习驱动的医学文本病症辨识方法 |
CN113065356A (zh) * | 2021-03-19 | 2021-07-02 | 南方电网调峰调频发电有限公司信息通信分公司 | 一种基于语义分析算法的it设备运维故障建议处理方法 |
CN113138920A (zh) * | 2021-04-20 | 2021-07-20 | 中国科学院软件研究所 | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 |
Non-Patent Citations (1)
Title |
---|
田园;原野;刘海斌;满志博;毛存礼;: "基于BERT预训练语言模型的电网设备缺陷文本分类", 南京理工大学学报, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN113704470B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
CN109614488B (zh) | 基于文本分类和图像识别的配网带电作业条件判别方法 | |
CN108563722A (zh) | 文本信息的行业分类方法、系统、计算机设备和存储介质 | |
CN108536800A (zh) | 文本分类方法、系统、计算机设备和存储介质 | |
CN111460164B (zh) | 一种基于预训练语言模型的电信工单智能判障方法 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN111860981A (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
WO2023000725A1 (zh) | 电力计量的命名实体识别方法、装置和计算机设备 | |
CN113177109B (zh) | 文本的弱标注方法、装置、设备以及存储介质 | |
CN114580978A (zh) | 一种环评报告质量检查系统及其方法 | |
CN110362592B (zh) | 裁决指引信息推送方法、装置、计算机设备和存储介质 | |
CN104021180A (zh) | 一种组合式软件缺陷报告分类方法 | |
CN112579777B (zh) | 一种未标注文本的半监督分类方法 | |
CN116680590B (zh) | 基于工作说明书解析的岗位画像标签提取方法及装置 | |
CN113704470A (zh) | 用于设备缺陷分类的实现方法及系统 | |
CN113409305B (zh) | 一种光缆资源数字化管理方法 | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 | |
CN115357718A (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN111814457B (zh) | 一种电网工程合同文本生成方法 | |
CN114756650A (zh) | 一种超大规模数据自动化比对分析处理方法及系统 | |
CN114912460A (zh) | 基于文本挖掘的精细化拟合识别变压器故障方法及设备 | |
CN110837735B (zh) | 一种数据智能分析识别方法及系统 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
CN114020901A (zh) | 一种结合主题挖掘和情感分析的金融舆情分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |