CN115392254A - 一种基于目标任务可解释性认知预测与判别方法及其系统 - Google Patents

一种基于目标任务可解释性认知预测与判别方法及其系统 Download PDF

Info

Publication number
CN115392254A
CN115392254A CN202211021921.7A CN202211021921A CN115392254A CN 115392254 A CN115392254 A CN 115392254A CN 202211021921 A CN202211021921 A CN 202211021921A CN 115392254 A CN115392254 A CN 115392254A
Authority
CN
China
Prior art keywords
target task
prediction
description text
text
interpretable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211021921.7A
Other languages
English (en)
Inventor
杜乐
吴敏
周正
姜疆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Donghu Big Data Trading Center Co ltd
Original Assignee
Wuhan Donghu Big Data Trading Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Donghu Big Data Trading Center Co ltd filed Critical Wuhan Donghu Big Data Trading Center Co ltd
Priority to CN202211021921.7A priority Critical patent/CN115392254A/zh
Publication of CN115392254A publication Critical patent/CN115392254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于目标任务可解释性认知预测与判别方法及其系统,包括以下步骤:S1,采集目标任务产生的多源数据,提取上述数据的特征信息,通过归一化处理,得到目标任务的事实描述文本;S2,通过使用自然语言处理方法,提取上述事实描述文本中隐含的语义信息,形成语义信息的集合;S3,基于GBDT算法构建分类模型,将上述语义信息融入分类模型,并进行预训练;S4,基于rationales增强机制的RNN模型,将目标任务的事实描述文本作为输入模型,输出预测结果和判决依据。通过使用自然语言处理方法以及基于rationales增强机制的RNN模型,有效解决了机器判别方法缺少基本原理、解释和依据的问题。

Description

一种基于目标任务可解释性认知预测与判别方法及其系统
技术领域
本发明涉及智能判别领域,尤其涉及一种基于目标任务可解释性认知预测与判别方法及其系统。
背景技术
可解释性意味着AI系统能够解释其预测的能力,并且已经引起越来越多的关注。多源数据融合认知计算与预测判别是数据智能判别领域最热门的任务之一,旨在通过分析多源数据的事实描述文本来确定目标任务认知预测与判别结果。汽车故障之时会产生相应的故障描述文本和质量投诉文本,根据这些故障描述文本和质量投诉文本可以获得相对应的关键分词,而最后输出判决结果的同时如何输出相对应的解释与判决依据是重中之重。
由CN110569920《一种多任务机器学习的预测方法》,当下的机器学习,机器判别方法仅仅给出预测和判别结果,而并未给出解释与判别依据。机器判别方法常常只给出最终结果而不提供任何解释,因此人们往往对于机器的判决无法完全信服。
发明内容
有鉴于此,本发明提出了一种基于目标任务可解释性认知预测与判别方法及其系统,用于解决机器判决未给出基本原理、解释和依据的问题。
本发明的技术方案是这样实现的:本发明提供了一种基于目标任务可解释性认知预测与判别方法,包括以下步骤,
S1,采集目标任务产生的多源数据,提取上述数据的特征信息,通过归一化处理,得到目标任务的事实描述文本;
S2,通过使用自然语言处理方法,提取上述事实描述文本中隐含的语义信息,形成语义信息的集合;
S3,基于GBDT算法构建分类模型,将上述语义信息融入分类模型,并进行预训练;
S4,基于rationales增强机制的RNN模型,将目标任务的事实描述文本作为输入模型,输出预测结果和判决依据。
在以上技术方案的基础上,优选的,步骤S1具体包括以下步骤:
对于图像数据,将图像内容转换成可直观理解的类文本语言表达,从图像内容中抽取出“像素-区域-目标-场景”的层次关系,然后采用合适的词汇、合理的构词方式进行词汇编码和标注。
在以上技术方案的基础上,优选的,步骤S2具体包括以下步骤:
S210,对事实描述文本做预处理,获取关键分词,建立关键分词集合;
S220,将所有文本中不重复的关键分词构建为一个词条列表;
S230,对每个文本,构建一个向量,向量维度与词条列表维度相同,向量的值与词条列表中每个词条在文本里出现的次数相同;
S240,利用TF-IDF算法进行权值转换。
在以上技术方案的基础上,优选的,步骤S3具体包括以下步骤:
S310,构建初始化弱学习器;
S320,对每个样本做GBDT算法迭代,计算残差,结合得到的残差和数据,得到GBDT算法的一颗新的回归树,计算最佳拟合值;
S330,根据S310和S320更新弱学习器;
S340,得到弱学习器迭代后的强学习器。
在以上技术方案的基础上,优选的,步骤S4具体包括以下步骤:
将输入的事实描述文本定义为单词序列,结合基于rationales增强机制的RNN模型预测最终结果同时输出判决依据。
另一方面,本发明还提供一种基于目标任务可解释性认知预测与判别系统,所述系统包括:
数据提取模块:用于采集目标任务产生的多源数据,提取上述数据的特征信息,通过归一化处理,得到目标任务的事实描述文本;
可解释模块:用于通过使用自然语言处理方法,提取上述事实描述文本中隐含的语义信息,形成语义信息的集合;
分类模块:用于基于GBDT算法构建分类模型,将上述语义信息融入分类模型,并进行预训练;
认知预测与智能判别模块:用于基于rationales增强机制的RNN模型,将目标任务的事实描述文本作为输入模型,输出预测结果和判决依据。
优选的,所述数据提取模块具体用于:
对于图像数据,将图像内容转换成可直观理解的类文本语言表达,从图像内容中抽取出“像素-区域-目标-场景”的层次关系,然后采用合适的词汇、合理的构词方式进行词汇编码和标注。
优选的,所述可解释模块具体用于:
S210,对事实描述文本做预处理,获取关键分词,建立关键分词集合;
S220,将所有文本中不重复的关键分词构建为一个词条列表;
S230,对每个文本,构建一个向量,向量维度与词条列表维度相同,向量的值与词条列表中每个词条在文本里出现的次数相同;
S240,利用TF-IDF算法进行权值转换。
优选的,所述分类模块具体用于:
S310,构建初始化弱学习器;
S320,对每个样本做GBDT算法迭代,计算残差,结合得到的残差和数据,得到GBDT算法的一颗新的回归树,计算最佳拟合值;
S330,根据S310和S320更新弱学习器;
S340,得到弱学习器迭代后的强学习器。
优选的,所述认知预测与智能判别模块具体用于:
将输入的事实描述文本定义为单词序列,结合基于rationales增强机制的RNN模型预测最终结果同时输出判决依据。
本发明的一种基于目标任务可解释性认知预测与判别方法及其系统相对于现有技术具有以下有益效果:
(1)通过使用自然语言处理的方法,提取事实描述文本中隐含的语义信息,在机器判别缺少对目标任务基本原理、解释、依据等对应预测的情况下,做了很好的补充;
(2)使用基于rationales增强机制的RNN模型,在保持可解释性的情况下,提高了预测结果的准确性,可与经典的基于注意力模型相媲美。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于目标任务可解释性认知预测与判别方法流程图;
图2为本发明的一种基于目标任务可解释性认知预测与判别系统模块图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例一
提供一种基于目标任务可解释性认知预测与判别方法,如图1所示,包括以下步骤,
S1,采集目标任务产生的多源数据,提取上述数据的特征信息,通过归一化处理,得到目标任务的事实描述文本;
S2,通过使用自然语言处理方法,提取上述事实描述文本中隐含的语义信息,形成语义信息的集合;
S3,基于GBDT(Gradient Boosting Decision Tree,梯度提升迭代决策树)算法构建分类模型,将上述语义信息融入分类模型,并进行预训练;
S4,基于rationales(基本原理)增强机制的RNN(Recurrent Neural Networks,循环神经网络)模型,将目标任务的事实描述文本作为输入模型,输出预测结果和判决依据。
本发明能够与人工注释高度一致地提取目标任务的基本原理、解释、依据等语义信息,并且在预测准确性方面可与经典的基于注意力模型相媲美。
其中,所述步骤S1具体包括以下步骤:
对于图像数据,将图像内容转换成可直观理解的类文本语言表达,从图像内容中抽取出“像素-区域-目标-场景”的层次关系,然后采用合适的词汇、合理的构词方式进行词汇编码和标注。比如,从图像集中提取所谓的“视觉词”,将图像转换为视觉词文档,进行语义分析。
具体方法为:将每个图像表示为图像块的集合,并对每个图像块提取其特征,构成特征描述子。再对所有的特征描述子进行聚类,在聚类结果中提取特定的特征描述子或聚类中心作为视觉词,由视觉词的集合构成视觉词袋,从而通过得到的视觉词袋将图像映射为视觉词的直方图,即使用视觉词来表示图像。
其中,所述步骤S2具体包括以下步骤:
S210,对事实描述文本做预处理,获取关键分词,建立关键分词集合;
S220,将所有文本中不重复的关键分词构建为一个词条列表;
S230,对每个文本,构建一个向量,向量维度与词条列表维度相同,向量的值与词条列表中每个词条在文本里出现的次数相同;
S240,利用TF-IDF算法进行权值转换。
比如,对收集的汽车各种故障描述文本和这些质量投诉文本,进行文本预处理,获取汽车各种故障和各种质量投诉的关键分词,建立汽车质量投诉关键分词以及对应的汽车故障关键分词集合。这里,上述文本被切分成分词后,需要进一步转换成向量。先将所有文本中的词汇构建成一个词条列表,其中不含重复的词条。然后对每个文本,构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数,这种模型叫做词袋模型。
最后利用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)算法进行权值转换。TF-IDF是一种统计方法,用来评估一个词条对于一个文件集中一份文件的重要程度。TF-IDF的主要思想是:如果某个词在一篇文章中出现的频率高,并且在其他文件中很少出现,则认为此词条具有很好的类别区分能力,适合用来分类。将词袋向量转换为TF-IDF权值向量,更有利于判断两个文本的相似性。
词频(TF):
Figure BDA0003814380350000061
ni,k是词条ti在文件dj中出现的次数,∑knk,j是文件dj中所有词条出现的次数之和。
逆向文件频率(IDF):
Figure BDA0003814380350000062
D是文件总数,{j:ti∈dj}是包含词条ti的文件数,如果该词不存在,就会导致分母为零,因此一般使用1+|{j:ti∈dj}|作为分母。
tf-idfi,j=tfi,j×idfi (3)
词频-逆向文件频率(TD-IDF)即所求。
其中,所述步骤S3具体包括以下步骤:
S310,构建初始化弱学习器;
S320,对每个样本做GBDT算法迭代,计算残差,结合得到的残差和数据,得到GBDT算法的一颗新的回归树,计算最佳拟合值;
S330,根据S310和S320更新弱学习器;
S340,得到弱学习器迭代后的强学习器。
GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代。每一轮迭代,拟合的岁数误差都会减小。S310,构建初始化弱学习器:
Figure BDA0003814380350000071
其中x为输入向量;y为输出变量;给定由x和y组成N个训练样本(x1,y1),(x2,y2)…,(xN,yN);γ为梯度下降步长;L(yk,γ)为损失函数,L(yk,γ)=|yk-γ|;argmin是其后面式子
Figure BDA0003814380350000072
达到最小值时变量yk和γ的取值,k=1,2,3,...,N。
S320,对每个样本做GBDT算法迭代,计算残差,结合得到的残差和数据,得到GBDT算法的一颗新的回归树,计算最佳拟合值;
Figure BDA0003814380350000073
其中rkm是残差,迭代轮数m=1,2,3,...,M,k=1,2,3,...,N,将得到的残差作为样本新的真实值,并将数据(xk,rkm)作为下棵树的训练数据,得到一棵新的回归树fm(x),其对应的叶子节点区域为Rlm,l=1,2,3,...,L,l为回归树fm(x)的叶子节点的个数,对叶子区域l=1,2,3,...,L计算最佳拟合值;
Figure BDA0003814380350000074
S330,根据S310和S320更新弱学习器:
Figure BDA0003814380350000075
其中,I取值为1或-1,表示是否落在对应的叶子节点上,是则取1,否则取-1。
S340,得到弱学习器迭代后的强学习器:
Figure BDA0003814380350000081
通过GBDT算法实现多次迭代,完成梯度提升决策树叶子节点的分类。GBDT中的决策树是回归树,预测结果是一个数值,累加所有树的结果作为最终值,不用关心表征信息或者数据值之间的相互关系,每一颗树学习的是之前所有树的结论和残差。
其中,所述步骤S4具体包括以下步骤:
将输入的事实描述文本定义为单词序列,结合基于rationales增强机制的RNN模型预测最终结果同时输出判决依据。
一般来说,首先将输入的事实描述定义为单词序列,预测和判断结果标签yRNN为非负整数。给定xRNN,首先抽取基本原理(rationales)r={xg|zg=1,xg∈xRNN},其中zg∈{0,1}。然后基于r和xRNN预测最终结果,输出最终结果与判别依据。
实施例二
提供一种基于目标任务可解释性认知预测与判别系统,如图2所示,所述系统包括,
数据提取模块,用于采集目标任务产生的多源数据,提取上述数据的特征信息,通过归一化处理,得到目标任务的事实描述文本;
可解释模块,用于通过使用自然语言处理方法,提取上述事实描述文本中隐含的语义信息,形成语义信息的集合;
分类模块,用于基于GBDT(Gradient Boosting Decision Tree,梯度提升迭代决策树)算法构建分类模型,将上述语义信息融入分类模型,并进行预训练;
认知预测与智能判别模块,用于基于rationales(基本原理)增强机制的RNN(Recurrent Neural Networks,循环神经网络)模型,将目标任务的事实描述文本作为输入模型,输出预测结果和判决依据。
本发明能够与人工注释高度一致地提取目标任务的基本原理、解释、依据等语义信息,并且在预测准确性方面可与经典的基于注意力模型相媲美。
其中,所述数据提取模块具体用于以下场景:
对于图像数据,将图像内容转换成可直观理解的类文本语言表达,从图像内容中抽取出“像素-区域-目标-场景”的层次关系,然后采用合适的词汇、合理的构词方式进行词汇编码和标注。比如,从图像集中提取所谓的“视觉词”,将图像转换为视觉词文档,进行语义分析。
具体方法为:将每个图像表示为图像块的集合,并对每个图像块提取其特征,构成特征描述子。再对所有的特征描述子进行聚类,在聚类结果中提取特定的特征描述子或聚类中心作为视觉词,由视觉词的集合构成视觉词袋,从而通过得到的视觉词袋将图像映射为视觉词的直方图,即使用视觉词来表示图像。
其中,所述可解释模块具体用于以下场景:
S210,对事实描述文本做预处理,获取关键分词,建立关键分词集合;
S220,将所有文本中不重复的关键分词构建为一个词条列表;
S230,对每个文本,构建一个向量,向量维度与词条列表维度相同,向量的值与词条列表中每个词条在文本里出现的次数相同;
S240,利用TF-IDF算法进行权值转换。
比如,对收集的汽车各种故障描述文本和这些质量投诉文本,进行文本预处理,获取汽车各种故障和各种质量投诉的关键分词,建立汽车质量投诉关键分词以及对应的汽车故障关键分词集合。这里,上述文本被切分成分词后,需要进一步转换成向量。先将所有文本中的词汇构建成一个词条列表,其中不含重复的词条。然后对每个文本,构建一个向量,向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数,这种模型叫做词袋模型。
最后利用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)算法进行权值转换。TF-IDF是一种统计方法,用来评估一个词条对于一个文件集中一份文件的重要程度。TF-IDF的主要思想是:如果某个词在一篇文章中出现的频率高,并且在其他文件中很少出现,则认为此词条具有很好的类别区分能力,适合用来分类。将词袋向量转换为TF-IDF权值向量,更有利于判断两个文本的相似性。
词频(TF):
Figure BDA0003814380350000101
ni,k是词条ti在文件dj中出现的次数,∑knk,j是文件dj中所有词条出现的次数之和。
逆向文件频率(IDF):
Figure BDA0003814380350000102
D是文件总数,{j:ti∈dj}是包含词条ti的文件数,如果该词不存在,就会导致分母为零,因此一般使用1+|{j:ti∈dj}|作为分母。
tf-idfi,j=tfi,j×idfi (3)
词频-逆向文件频率(TD-IDF)即所求。
其中,所述分类模块具体用于以下场景:
S310,构建初始化弱学习器;
S320,对每个样本做GBDT算法迭代,计算残差,结合得到的残差和数据,得到GBDT算法的一颗新的回归树,计算最佳拟合值;
S330,根据S310和S320更新弱学习器;
S340,得到弱学习器迭代后的强学习器。
GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代。每一轮迭代,拟合的岁数误差都会减小。S310,构建初始化弱学习器:
Figure BDA0003814380350000111
其中x为输入向量;y为输出变量;给定由x和y组成N个训练样本(x1,y1),(x2,y2)…,(xN,yN);γ为梯度下降步长;L(yk,γ)为损失函数,L(yk,γ)=|yk-γ|;argmin是其后面式子
Figure BDA0003814380350000112
达到最小值时变量yk和γ的取值,k=1,2,3,...,N。
S320,对每个样本做GBDT算法迭代,计算残差,结合得到的残差和数据,得到GBDT算法的一颗新的回归树,计算最佳拟合值;
Figure BDA0003814380350000113
其中rkm是残差,迭代轮数m=1,2,3,...,M,k=1,2,3,...,N,将得到的残差作为样本新的真实值,并将数据(xk,rkm)作为下棵树的训练数据,得到一棵新的回归树fm(x),其对应的叶子节点区域为Rlm,l=1,2,3,...,L,l为回归树fm(x)的叶子节点的个数,对叶子区域l=1,2,3,...,L计算最佳拟合值;
Figure BDA0003814380350000114
S330,根据S310和S320更新弱学习器:
Figure BDA0003814380350000115
其中,I取值为1或-1,表示是否落在对应的叶子节点上,是则取1,否则取-1。
S340,得到弱学习器迭代后的强学习器:
Figure BDA0003814380350000116
通过GBDT算法实现多次迭代,完成梯度提升决策树叶子节点的分类。GBDT中的决策树是回归树,预测结果是一个数值,累加所有树的结果作为最终值,不用关心表征信息或者数据值之间的相互关系,每一颗树学习的是之前所有树的结论和残差。
其中,所述认知预测与智能判别模块具体用于以下场景:
将输入的事实描述文本定义为单词序列,结合基于rationales增强机制的RNN模型预测最终结果同时输出判决依据。
一般来说,首先将输入的事实描述定义为单词序列,预测和判断结果标签yRNN为非负整数。给定xRNN,首先抽取基本原理(rationales)r={xg|zg=1,xg∈xRNN},其中zg∈{0,1}。然后基于r和xRNN预测最终结果,输出最终结果与判别依据。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于目标任务可解释性认知预测与判别方法,其特征在于:包括以下步骤,
S1,采集目标任务产生的多源数据,提取上述数据的特征信息,通过归一化处理,得到目标任务的事实描述文本;
S2,通过使用自然语言处理方法,提取上述事实描述文本中隐含的语义信息,形成语义信息的集合;
S3,基于GBDT算法构建分类模型,将上述语义信息融入分类模型,并进行预训练;
S4,基于rationales增强机制的RNN模型,将目标任务的事实描述文本作为输入模型,输出预测结果和判决依据。
2.如权利要求1所述的一种基于目标任务可解释性认知预测与判别方法,其特征在于:所述步骤S1具体包括以下步骤:
对于图像数据,将图像内容转换成可直观理解的类文本语言表达,从图像内容中抽取出“像素-区域-目标-场景”的层次关系,然后采用词汇和构词方式进行词汇编码和标注。
3.如权利要求2所述的一种基于目标任务可解释性认知预测与判别方法,其特征在于:所述步骤S2具体包括以下步骤:
S210,对事实描述文本做预处理,获取关键分词,建立关键分词集合;
S220,将所有文本中不重复的关键分词构建为一个词条列表;
S230,对每个文本,构建一个向量,向量维度与词条列表维度相同,向量的值与词条列表中每个词条在文本里出现的次数相同;
S240,利用TF-IDF算法进行权值转换。
4.如权利要求3所述的一种基于目标任务可解释性认知预测与判别方法,其特征在于:所述步骤S2还包括:
收集汽车的故障描述文本和质量投诉文本,进行文本预处理,获取汽车故障描述文本和质量投诉文本的关键分词,建立汽车质量投诉关键分词集合以及汽车故障描述关键分词集合。
5.如权利要求3所述的一种基于目标任务可解释性认知预测与判别方法,其特征在于:所述步骤S3具体包括以下步骤:
S310,构建初始化弱学习器;
S320,对每个样本做GBDT算法迭代,计算残差,结合得到的残差和数据,得到GBDT算法的一颗新的回归树,计算最佳拟合值;
S330,根据S310和S320更新弱学习器;
S340,得到弱学习器迭代后的强学习器。
6.如权利要求5所述的一种基于目标任务可解释性认知预测与判别方法,其特征在于:所述步骤S4具体包括以下步骤:
将输入的事实描述文本定义为单词序列,结合基于rationales增强机制的RNN模型预测最终结果同时输出判决依据。
7.如权利要求6所述的一种基于目标任务可解释性认知预测与判别方法,其特征在于:所述步骤S4还包括:
基于rationales增强机制的RNN模型:提取事实描述文本中的rationales信息,rationales信息包括基本原理、解释和依据,然后将rationales信息融入到RNN模型中。
8.一种基于目标任务可解释性认知预测与判别系统,其特征在于:所述系统包括:
数据提取模块:用于采集目标任务产生的多源数据,提取上述数据的特征信息,通过归一化处理,得到目标任务的事实描述文本;
可解释模块:用于通过使用自然语言处理方法,提取上述事实描述文本中隐含的语义信息,形成语义信息的集合;
分类模块:用于基于GBDT算法构建分类模型,将上述语义信息融入分类模型,并进行预训练;
认知预测与智能判别模块:用于基于rationales增强机制的RNN模型,将目标任务的事实描述文本作为输入模型,输出预测结果和判决依据。
9.如权利要求8所述的一种基于目标任务可解释性认知预测与判别系统,其特征在于:所述可解释模块具体用于:
S210,对事实描述文本做预处理,获取关键分词,建立关键分词集合;
S220,将所有文本中不重复的关键分词构建为一个词条列表;
S230,对每个文本,构建一个向量,向量维度与词条列表维度相同,向量的值与词条列表中每个词条在文本里出现的次数相同;
S240,利用TF-IDF算法进行权值转换。
10.如权利要求9所述的一种基于目标任务可解释性认知预测与判别系统,其特征在于:所述分类模块具体用于:
S310,构建初始化弱学习器;
S320,对每个样本做GBDT算法迭代,计算残差,结合得到的残差和数据,得到GBDT算法的一颗新的回归树,计算最佳拟合值;
S330,根据步骤S310和步骤S320更新弱学习器;
S340,得到弱学习器迭代后的强学习器。
CN202211021921.7A 2022-08-24 2022-08-24 一种基于目标任务可解释性认知预测与判别方法及其系统 Pending CN115392254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211021921.7A CN115392254A (zh) 2022-08-24 2022-08-24 一种基于目标任务可解释性认知预测与判别方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211021921.7A CN115392254A (zh) 2022-08-24 2022-08-24 一种基于目标任务可解释性认知预测与判别方法及其系统

Publications (1)

Publication Number Publication Date
CN115392254A true CN115392254A (zh) 2022-11-25

Family

ID=84122384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211021921.7A Pending CN115392254A (zh) 2022-08-24 2022-08-24 一种基于目标任务可解释性认知预测与判别方法及其系统

Country Status (1)

Country Link
CN (1) CN115392254A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861258A (zh) * 2023-08-31 2023-10-10 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质
CN117763361A (zh) * 2024-02-22 2024-03-26 泰山学院 一种基于人工智能的学生成绩预测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861258A (zh) * 2023-08-31 2023-10-10 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质
CN116861258B (zh) * 2023-08-31 2023-12-01 腾讯科技(深圳)有限公司 模型处理方法、装置、设备及存储介质
CN117763361A (zh) * 2024-02-22 2024-03-26 泰山学院 一种基于人工智能的学生成绩预测方法及系统
CN117763361B (zh) * 2024-02-22 2024-04-30 泰山学院 一种基于人工智能的学生成绩预测方法及系统

Similar Documents

Publication Publication Date Title
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN115392254A (zh) 一种基于目标任务可解释性认知预测与判别方法及其系统
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN113806494A (zh) 一种基于预训练语言模型的命名实体识别方法
CN111651606B (zh) 一种文本处理方法、装置及电子设备
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN112487237A (zh) 基于自适应cnn和半监督自训练模型的音乐分类方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN115203338A (zh) 一种标签及标签实例推荐方法
CN113806547A (zh) 一种基于图模型的深度学习多标签文本分类方法
CN115952292A (zh) 多标签分类方法、装置及计算机可读介质
CN116610818A (zh) 一种输变电工程项目知识库的构建方法及系统
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN117033640A (zh) 一种融合全局特征和局部特征的文本分类方法
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN114647730A (zh) 一种融合图注意力和图卷积网络的事件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination