CN115757773A - 一种多价值链问题文本分类方法和装置 - Google Patents
一种多价值链问题文本分类方法和装置 Download PDFInfo
- Publication number
- CN115757773A CN115757773A CN202211355585.XA CN202211355585A CN115757773A CN 115757773 A CN115757773 A CN 115757773A CN 202211355585 A CN202211355585 A CN 202211355585A CN 115757773 A CN115757773 A CN 115757773A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- word
- label
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多价值链问题文本分类方法,包括:对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;将数据集进行预处理并划分为训练文本集与测试文本集,并进行词向量提取,基于训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图,并对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;基于训练文本集提取的词向量,对初始文本语义抽取模型进行训练得到训练完毕的文本语义抽取模型;根据训练完毕的文本语义抽取模型对测试文本集进行语义抽取,根据训练完毕的标签图注意力模型对测试文本集进行分类。采用本发明可以实现多价值链问题文本的智能分类。
Description
技术领域
本发明涉及文本分类技术领域,特别是指一种多价值链问题文本分类方法和装置。
背景技术
在多价值链中各企业协同工作、数据共享平台的不断自我更新下,越来越多的企业建立了自己的知识库,存储了在企业经营、生产、销售等方面重要的知识和经验,而智能问答系统随之被开发,用于企业工作人员对知识库的检索,而企业工人往往倾向于使用自然语言进行查询想要的知识,因此对问句进行分类是在多价值链智能问答系统构建里的重要一环,对于智能问答系统服务有重要的推进作用。
文本分类的核心问题是文本表示与分类模型。传统的文本表示利用词袋原理(Bag-of-Words),将词无序地表示到一个高维的向量空间模型(Vector Space Model)中,丢弃了词序、语法等文本结构信息。传统的机器学习文本分类模型基于分类服从某种概率分布的假设,利用贝叶斯理论获取分类器,但是一旦假设不成立则会影响分类准确率。
发明内容
本发明提供了一种多价值链问题文本分类方法和装置,用以实现多价值链问题文本的智能分类。
所述技术方案如下:
一方面,提供了一种多价值链问题文本分类方法,该方法包括:
S1、对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;
S2、将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;
S3、对所述训练文本集与所述测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;
S4、基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;
S5、基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;
S6、根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。
可选地,所述S2中的对所述问题文本数据集进行预处理,包括:
对所述问题文本数据集进行中文分词处理和去掉停用词处理;
其中,所述中文分词处理以及停用词过滤处理包括:
基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;
基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。
可选地,所述S3中的对预处理后的所述训练文本集与测试文本集进行词向量提取,并基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图,包括:
基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量;
基于训练文本集,用提取后的词向量与标注的文本类别标签分别作为节点,构建所有节点间全连接的全连接网络图,其中,所述文本类别标签代表的节点初始化为随机向量,维度与词向量维度一致,词向量节点间的边权重随机初始化,类别-词节点间的边权重初始化为所述训练文本集中该词在该类别中出现的概率。
可选地,所述S4中基于全连接网络图,训练初始标签图注意力模型为GNN-Attention模型,所述GNN-Attention模型包括GNN子模型与Attention子模型;
所述GNN子模型用于得到每个类别标签节点的输出特征;
所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。
可选地,所述GNN-Attention模型的训练过程包括:
根据下述公式(2)对GNN-Attention模型中节点的特征向量进行迭代更新;
其中,σ0表示sigmoid激活函数,Wk表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈R+,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k-1次迭代时节点u的特征向量,是节点v在第k-1次迭代时的特征向量,是第k次迭代时节点v的输出向量,Bk是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化。αvu表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;
其中,evu定义如下述公式(4)得到;
其中,a表示一种计算注意力权重的函数;
所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):
其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,nb表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,sj表示第j个标签出现在整个训练文本集里的频次,gb(i)表示在下标为b的批次里下标为i的训练文本对应的类别标签,zb(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,zb(gb(i))表示类别标签gb(i)在全连接图中所对应的节点下标,Wc表示对训练文本节点进行线性变换的参数矩阵,Wl表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数;
根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN-Attention模型中的参数进行更新,得到训练完毕的标签图注意力模型。
可选地,所述S5中基于训练文本集提取的词向量,训练的初始文本语义抽取模型为Bi-LSTM模型;
根据下述公式(6)对Bi-LSTM子模型进行训练;
其中,N表示训练文本集的句子个数,yi表示第i个句子的分类标签向量,用独热编码表示,pi表示第i个句子的最终输出的概率分布,定义如下述公式(7)表示;
pi=Softmax(z)……(7)
其中,Softmax表示Softmax激活函数,z表示当前文本经过Bi-LSTM的输出向量与每一个标签向量的点积结果向量,定义为下述公式(8);
zt=ei·ht,t∈[0,M)……(8)
其中zt表示向量z的第t个分量,ei表示Bi-LSTM模型对第i条文本的输出向量,ht表示第t个类别标签的表示向量,M表示类别标签总数目。
另一方面,本发明提供了一种多价值链问题文本分类装置,所述装置包括:
数据收集模块,用于对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;
数据预处理模块,用于将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;
提取构建模块,用于对所述训练文本集与测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;
训练模块,用于基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;
分类模块,用于根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。
可选地,所述数据预处理模块,具体用于:
对所述问题文本数据集进行中文分词处理和去除停用词处理;
其中,所述中文分词处理以及去除停用词处理包括:
基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;
基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。
可选地,所述提取构建模块,具体用于:
基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量;
基于训练文本集,用提取后的词向量与标注的文本类别标签分别作为节点,构建所有节点间全连接的全连接网络图,其中,所述文本类别标签代表的节点初始化为随机向量,维度与词向量维度一致,词向量节点间的边权重随机初始化,类别-词节点间的边权重初始化为所述训练文本集中该词在该类别中出现的概率。
可选地,所述初始标签图注意力模型为GNN-Attention模型,所述GNN-Attention模型包括GNN子模型与Attention子模型;
所述GNN子模型用于得到每个类别标签节点的输出特征;
所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。
可选地,所述训练模块具体用于:
根据下述公式(2)对GNN-Attention模型中节点的特征向量进行迭代更新;
其中,σ0表示sigmoid激活函数,Wk表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈R+,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k-1次迭代时节点u的特征向量,是节点v在第k-1次迭代时的特征向量,是第k次迭代时节点v的输出向量,Bk是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化。αvu表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;
其中,evu定义如下述公式(4)得到;
其中,a表示一种计算注意力权重的函数;
所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):
其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,nb表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,sj表示第j个标签出现在整个训练文本集里的频次,gb(i)表示在下标为b的批次里下标为i的训练文本对应的类别标签,zb(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,zb(gb(i))表示类别标签gb(i)在全连接图中所对应的节点下标,Wc表示对训练文本节点进行线性变换的参数矩阵,Wl表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数;
根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN-Attention模型中的参数进行更新,得到训练完毕的标签图注意力模型。
可选地,所述初始文本语义抽取模型为Bi-LSTM模型,所述训练模块,具体用于:
根据下述公式(6)对Bi-LSTM子模型进行训练;
其中,N表示训练文本集的句子个数,yi表示第i个句子的分类标签向量,用独热编码表示,pi表示第i个句子的最终输出的概率分布,定义如下述公式(7)表示;
pi=Softmax(z)……(7)
其中,Softmax表示Softmax激活函数,z表示当前文本经过Bi-LSTM的输出向量与每一个标签向量的点积结果向量,定义为下述公式(8);
zt=ei·ht,t∈[0,M)……(8)
其中zt表示向量z的第t个分量,ei表示Bi-LSTM模型对第i条文本的输出向量,ht表示第t个类别标签的表示向量,M表示类别标签总数目。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述多价值链问题文本分类方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述多价值链问题文本分类方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明中,首先是多价值链问题文本的收集,其中包括构建多价值链领域内专有词典,通过梳理多价值链领域内的专有名词,能够对多价值链领域内文本的分词准确性提供很大的帮助;
然后是基于图注意力网络的问题文本分类,通过训练图注意力标签模型与文本语义抽取模型对多价值链领域中企业工作人员的搜索问句进行分类,对于企业内部的业务问答系统的构建提供了很大帮助,问答系统能够根据问题分类结果大大减少检索的范围并提高检索的效率,最终使问答系统能够得到更快速的响应与更准确的语义搜索。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种多价值链问题文本分类方法的流程示意图;
图2是本发明实施例提供的基于图注意力网络的多价值链问题文本分类模型的详细架构图;
图3是本发明实施例提供的基于图注意力网络的多价值链问题文本辅助分类决策模型构建方法流程图;
图4是本发明实施例提供的一种多价值链问题文本分类装置框图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种多价值链问题文本分类方法,该方法可以由一种多价值链问题文本分类装置实现。如图1所示的一种多价值链问题文本分类方法流程图,该方法的处理流程可以包括如下的步骤:
S1、对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;
S2、将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;
S3、对所述训练文本集与所述测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;
S4、基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;
S5、基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;
S6、根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。
可选地,所述S2中的对所述问题文本数据集进行预处理,包括:
对所述问题文本数据集进行中文分词处理和去掉停用词处理;
其中,所述中文分词处理以及停用词过滤处理包括:
基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;
基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。
可选地,所述S3中的对预处理后的所述训练文本集与测试文本集进行词向量提取,并基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图,包括:
基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量;
基于训练文本集,用提取后的词向量与标注的文本类别标签分别作为节点,构建所有节点间全连接的全连接网络图,其中,所述文本类别标签代表的节点初始化为随机向量,维度与词向量维度一致,词向量节点间的边权重随机初始化,类别-词节点间的边权重初始化为所述训练文本集中该词在该类别中出现的概率。
可选地,所述S4中基于全连接网络图,训练初始标签图注意力模型为GNN-Attention模型,所述GNN-Attention模型包括GNN子模型与Attention子模型;
所述GNN子模型用于得到每个类别标签节点的输出特征;
所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。
可选地,所述GNN-Attention模型的训练过程包括:
根据下述公式(2)对GNN-Attention模型中节点的特征向量进行迭代更新;
其中,σ0表示sigmoid激活函数,Wk表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈R+,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k-1次迭代时节点u的特征向量,是节点v在第k-1次迭代时的特征向量,是第k次迭代时节点v的输出向量,Bk是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化。αvu表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;
其中,evu定义如下述公式(4)得到;
其中,a表示一种计算注意力权重的函数;
所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):
其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,nb表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,sj表示第j个标签出现在整个训练文本集里的频次,gb(i)表示在下标为b的批次里下标为i的训练文本对应的类别标签,zb(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,zb(gb(i))表示类别标签gb(i)在全连接图中所对应的节点下标,Wc表示对训练文本节点进行线性变换的参数矩阵,Wl表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数;
根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN-Attention模型中的参数进行更新,得到训练完毕的标签图注意力模型。
可选地,所述S5中基于训练文本集提取的词向量,训练的初始文本语义抽取模型为Bi-LSTM模型;
根据下述公式(6)对Bi-LSTM子模型进行训练;
其中,N表示训练文本集的句子个数,yi表示第i个句子的分类标签向量,用独热编码表示,pi表示第i个句子的最终输出的概率分布,定义如下述公式(7)表示;
pi=Softmax(z)……(7)
其中,Softmax表示Softmax激活函数,z表示当前文本经过Bi-LSTM的输出向量与每一个标签向量的点积结果向量,定义为下述公式(8);
zt=ei·ht,t∈[0,M)……(8)
其中zt表示向量z的第t个分量,ei表示Bi-LSTM模型对第i条文本的输出向量,ht表示第t个类别标签的表示向量,M表示类别标签总数目。
本发明实施例中,首先是多价值链问题文本的收集,其中包括构建多价值链领域内专有词典,通过梳理多价值链领域内的专有名词,能够对多价值链领域内文本的分词准确性提供很大的帮助;
然后是基于图注意力网络的问题文本分类,通过训练图注意力标签模型与文本语义抽取模型对多价值链领域中企业工作人员的搜索问句进行分类,对于企业内部的业务问答系统的构建提供了很大帮助,问答系统能够根据问题分类结果大大减少检索的范围并提高检索的效率,最终使问答系统能够得到更快速的响应与更准确的语义搜索。
下面详细介绍本发明实施例:
首先,介绍一下文本分类领域的相关知识:
文本分类是文本挖掘的重要部分,其主要任务是将给定的文本集合划分到已知的一个或者多个类别集合中。目前文本分类任务已经应用到了许多领域,如情感分析、问题分类、垃圾邮件检测等。构建文本分类系统与有监督的学习一样,需要一个训练集合D=(d1,d2,…,dN),其中N是序列个数,每个文本标注好它的类别(c1,c2,…,cN),然后利用训练数据学习分类模型,从而对新的文本x预测其类别。
文本分类的核心问题是文本表示与分类模型。传统的文本表示利用词袋原理(Bag-of-Words),将词无序地表示到一个高维的向量空间模型(Vector Space Model)中,丢弃了词序、语法等文本结构信息。传统的机器学习文本分类模型基于分类服从某种概率分布的假设,利用贝叶斯理论获取分类器,但是一旦假设不成立则会影响分类准确率。随着深度学习的发展,越来越多的神经网络模型被用来进行文本分类。如fastText将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。但是fastText中的网络结果是完全没有考虑词序信息的,而它用的n-gram特征恰恰说明了局部序列信息的重要意义。于是TextCNN被提出,将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的n-gram),从而能够更好地捕捉局部相关性。
尽管TextCNN能够在很多任务里面能有不错的表现,但CNN有个最大问题是固定filter_size的视野,一方面无法建模更长的序列信息,另一方面filter_size的超参调节也很繁琐。CNN本质是做文本的特征表达工作,而自然语言处理中更常用的是递归神经网络,能够更好的表达上下文信息。
CNN和RNN用在文本分类任务中尽管效果显著,但可解释性不好。而注意力(Attention)机制是自然语言处理领域一个常用的建模长时间记忆机制,能够很直观的给出每个词对结果的贡献。如Hierarchical Attention Network在文档分类任务中将一个文档按照句子和单词进行了分层,并且在每层中使用了效果非常好的注意力机制。这些深度学习模型可以很好地捕捉局部连续词序列中的语义和句法信息,但在具有非连续和长距离语义的语料库中,可能会忽略全局词的共现,而基于图神经网络的GNN模型通过迭代更新可以很好的解决这个问题。因此本发明实施例将GNN和Attention结合起来能很好的解决特征表达与可解释性的问题,并用RNN的变种Bi-LSTM做文本语义提取。
本发明实施例提出的多价值链问题文本分类方案应用了有监督学习和图神经网络学习理论,通过将训练文本中的词语与所有表示类别标签的节点构成全连接图进行类别标签的特征学习,然后通过训练文本语义抽取模型对文本特征进行抽取,最后通过文本特征与类别标签特征的相似度得到文本类别的标签分布,取其中概率最大的为预测类别,如图3所示。
基于上述思路,如图2所示的基于图注意力网络的多价值链问题文本分类方法流程图,该方法的处理流程可以包括如下的步骤:
S1、对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;
S2、将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;
可选地,所述步骤中的将问题文本数据集进行预处理包括中文分词处理以及去除停用词处理。
其中,所述中文分词处理以及停用词过滤处理包括:
基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;
一种可行的实施方式中,由于与开放领域分词的开放度要求相比,多价值链领域分词需要更加精确与准确,因此,本发明实施例采用了构建专家词典的分词方法对多价值链问题文本进行分词,采用的词典通过解析文档中的词级或短文本字段值,对这些词语或短语进行抽取,并结合多价值链中企业积累的术语词库以及开放领域的通用词库,由此构建了领域的专业分词词库。
一种可行的实施方式中,通过开源的Jieba中文分词库,设置个人词典为所述专家辞典内容,然后用其内置的分词算法,由于Jieba分词库提供了精准分词模式和全模式分词,后者是将所有可能的分词结果都展示出来,所以本发明实施例采用前者,即采用精准分词模式,通过分词即可得到较准确的多价值链问题文本分词结果。
基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。
一种可行的实施方式中,经过文本分词,文本已经被切分成词语的形式,但其中包含了大量低质量数据,被称为停用词,这些词汇对于文本语义的影响很小,因此,过滤停用词有利于减小数据量,进而降低后续工作对文本处理的计算量。通用的停用词表包括数词、量词以及“的/地/在/和”等连词、副词等,这些词语在分词结果中大量出现,并且对上下文语义几乎无影响,因此进行剔除。
本发明实施例使用的开放领域中文停用词表包括:哈工大停用词库、百度停用词库和四川大学机器智能实验室停用词表,并基于多价值链领域专家知识构建了多价值链领域停用词表,这些词表基本完整涵盖开放领域绝大部分中文停用词和多价值链领域停用词,利用上述完备的常用停用库,可以有效剔除掉大多数对分类多价值链问题文本无关的噪声词,去除停用词之后的问题文本的特征词数量大大减小,在后续计算中即可提升模型计算速度,也能提高基于词向量模型进行后续知识抽取的准确度。
S3、对所述训练文本集与测试文本集进行词向量提取,基于训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;
一种可行的实施方式中,多价值链问题文本经过分词、去停用词后,得到了一系列离散的中文词汇,这些词汇是计算机无法处理的。因此,要构建数学模型,以计算机能计算的数字的形式表示每一个字词,即将自然语言词汇转换为一定维度的数字向量,以输入数学模型进行概率计算,这就是提取词向量的过程。
可选地,S3中的对预处理后的训练文本集与测试文本集进行词向量提取,可以包括以下步骤:
基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量,完成词向量提取。
可选地,所述BERT词向量提取模型的训练过程包括以下步骤S31-S33:
S31、构建初始BERT词向量提取模型,初始化其参数,所述初始BERT词向量提取模型的输入为一条经过掩码处理后的词序列,所述经过掩码处理的词序列表示为其中n为所述序列长度,m1,m2,…mk为随机选取的k个下标,k<n,将这些下标位置上的词语统一用掩码词[MASK]代替;所述初始BERT词向量提取模型的第i个位置的输出向量为预测对应位置的输出词的概率分布pi;其中,词序列表示中除了被掩码遮盖的词语,其余均初始化为随机向量,被掩码遮盖的词语统一初始化为0向量。
S32、定义损失函数为多分类交叉熵损失函数,如下公式(1);
S33、基于所述多分类交叉熵损失函数,采用批量随机梯度下降法更新初始BERT词向量提取模型中的参数,得到预训练完毕的BERT词向量提取模型。
S4、基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;
一种可行的实施方式中,多价值链问题文本通过分词、去停用词的预处理和词向量化的数值化转换后,获得了向量数据表征,将这些词向量和类别标签向量构成一张全连接网络图,得以建模文本中词语与类别标签的依赖关系,通过图卷积和注意力机制,训练出每个类别标签的特征向量表示,是本发明实施例中多价值链问题文本分类模型要着重解决的技术重点。
可选地,所述训练初始标签图注意力模型为GNN-Attention模型,所述GNN-Attention模型包括GNN子模型与Attention子模型;
所述GNN子模型用于得到每个类别标签节点的输出特征。
所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。
可选地,所述GNN-Attention模型的训练过程包括:
根据下述公式(2)对GNN-Attention模型中节点的特征向量进行迭代更新;
其中,σ0表示sigmoid激活函数,Wk表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈R+,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k-1次迭代时节点u的特征向量,是节点v在第k-1次迭代时的特征向量,是第k次迭代时节点v的输出向量,Bk是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化。αvu表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;
其中,evu定义如下述公式(4)得到;
其中,a表示一种计算注意力权重的函数。
可选地,a在本发明实施例中为内积计算函数,定义为a(x,y)=x·y。模型中的系数矩阵其中n为词向量维度,为偏置系数矩阵,当前迭代中的输出由上一层在节点v的特征乘上偏置系数矩阵Bk再加上节点v的所有邻居节点的特征的注意力权重加权求和并乘上系数矩阵W,最后经过一个激活函数σ0得到,系数矩阵W用来将输入向量映射到隐藏层,它的第i列表示对邻居节点加权求和结果的第i项的变换向量。激活函数σ0将隐藏层映射到输出层,得到输出向量的每一项。
所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):
其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,nb表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,sj表示第j个标签出现在整个训练文本集里的频次,gb(i)表示在下标为b的批次里下标为i的训练文本对应的类别标签,zb(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,zb(gb(i))表示类别标签gb(i)在全连接图中所对应的节点下标,Wc表示对训练文本节点进行线性变换的参数矩阵,Wl表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数。
根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN-Attention模型中的参数进行更新,得到训练完毕的标签图注意力模型。
S5、基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;
一种可行的实施方式中,文本语义抽取模型训练首先将多价值链问题文本进行问题文本类别的标注;接着进行文本分词、去停用词和提取词向量,获取文本的词向量表示;根据训练文本中提取的词向量,通过前向LSTM网络和后向LSTM网络,所述前向LSTM网络提取从左到右的文本特征,所述后向LSTM网络提取从右到左的文本特征,再将两种特征拼接起来形成最终的文本语义特征;基于所述文本语义特征和本文的类别标签的向量特征之间的相似度得到预测类别,并通过交叉熵损失函数和梯度下降算法迭代更新模型。
可选地,所述Bi-LSTM模型的训练过程包括:
根据下述公式(6)对Bi-LSTM子模型进行训练;
其中,N表示训练文本集的句子个数,yi表示第i个句子的分类标签向量,用独热编码表示,pi表示第i个句子的最终输出的概率分布,定义如下述公式(7)表示;
pi=Softmax(z)……(7)
其中,Softmax表示Softmax激活函数,z表示当前文本经过Bi-LSTM的输出向量与每一个标签向量的点积结果向量,定义为下述公式(8);
zt=ei·ht,t∈[0,M)……(8)
其中zt表示向量z的第t个分量,ei表示Bi-LSTM模型对第i条文本的输出向量,ht表示第t个类别标签的表示向量,M表示类别标签总数目,ei·ht表示第i条文本和类别标签t点积后的结果,用于计算文本与类别标签之间的相似度,通过Softmax函数即可做归一化得到文本属于某一类别标签的概率。其中Softmax函数定义如下述公式(9)所示;
其中,z表示输入向量,C表示输入向量的长度,zc表示向量z的第c个分量,zi表示向量z的第i个分量,公式左边代表向量z通过Softmax函数后的输出的第i个分量的数值。Softmax是Sigmoid函数的多分类版本,可以很好的根据向量的分布做归一化,得到的输出都在0到1之间,并加起来为1,可将其视为预测为类别分布的概率。
类别标签预测结果为对所有pi中取最大的,即预测结果如下述公式(10)给出;
o=argmaxi∈[0,M)(pi)……(10)
其中i代表序号为i的类别标签,o表示最终判断为哪一类别标签的结果,用数字序号表示。
S6、根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。
一种可行的实施方式中,基于已经提取出的测试文本集的词向量,通过Bi-LSTM进行文本的语义抽取,得到文本向量;再将所述文本向量与训练好的标签向量做点积计算相似度得到预测的文本类别概率分布。
一种可行的实施方式中,基于图注意力机制模型训练的多价值链问题文本分类方法可以描述为:首先将多价值链问题文本进行问题文本类别的标注;接着进行文本分词、去停用词和提取词向量,获取文本的词向量表示;根据训练文本中提取的词向量,和类别标签节点构建全连接网络图;基于全连接网络图训练图注意力标签网络;对于输入测试问题文本,首先对齐进行文本语义特征提取,然后将文本语义特征与各个类别标签特征分别计算相似度,得到文本预测类别的概率分布,再取概率最大的类别作为最终输出。
下面对一条测试文本“市场发展部的业务负责人是谁”进行实施方式说明,经过分词和停用词处理后,文本变为“市场发展部业务负责人谁”的形式,其中四个词语分别通过BERT预训练词向量提取模型,词向量提取维度为30,得到的四个词向量分别为:
市场发展部:[-3.06069449,8.08047426,-1.04657962,2.54707903,-5.45107929,7.71724758,-7.21749163,7.71894487,7.39433977,2.44432663,-2.92139483,-3.49030684,-15.05859546,-8.33196712,-4.01220638,-5.44485077,-3.03348011,3.26214281,-2.34982418,-0.71703633,-0.29940802,7.9193014,-3.54363642,-1.94711914,4.08936812,-2.04229542,-4.19505067,-7.50068999,-5.51120226,5.35286249]
业务:[-11.49322276,-9.0087295,2.98726354,6.07464975,-0.21259287,-6.2843385,1.84081827,10.30846377,-2.41484459,6.04847987,0.5687931,2.82225513,7.81969373,-1.63986626,0.47389163,4.96921189,10.62406197,-5.75455476,-3.0132695,-7.46912705,-1.2137597,3.00314305,-10.63480443,-0.82058986,-1.31221196,7.27846531,-9.13755732,-7.62935541,-1.39987815,-0.57207014]
负责人:[0.838648,-2.32750228,-2.11157415,12.02372248,1.65800467,0.73202825,2.32446473,7.97169743,8.66769421,3.99108438,-1.1913395,9.52866323,-4.00235065,-6.49928031,2.77208777,7.91763519,-8.94140453,0.69549411,-2.56620284,-0.83404516,0.51637593,-2.18320035,2.72544347,4.41380924,9.34230022,7.80633086,7.66541672,-6.44587512,-11.85742246,0.92828721]
谁:[3.54257652,-2.46677404,6.74304161,3.0546189,8.07932277,-1.55837684,-1.70794653,8.42905947,-0.91862296,5.50648557,6.29667199,3.22428499,-6.24749457,-4.03600091,0.37989248,3.819908,3.12067776,-2.09767777,-4.56015178,-4.10751633,-2.41868704,2.29356171,0.24205031,8.31607237,-6.97760015,-3.66999542,-3.23085068,1.68964771,8.75373907,0.06482891]]
再将其输入文本语义抽取模型,语义抽取特征向量的维度为50,,得到抽取后的语义特征向量为:
[0.52673236,0.3993348,-0.9075469,0.20685045,-0.47519173,-0.25433797,-0.54043339,0.63237959,1.02988192,1.54368237,-0.16636896,-0.22707328,0.71075747,0.27404235,0.40035875,-0.77351184,-1.20920109,0.4209648,-1.47120421,1.83841554,-1.549165,-1.66126562,0.50334785,0.29269983,0.30320881,-0.65911658,1.40018188,0.08858524,0.64016785,-0.12970235,-0.45579809,0.59939497,2.19082701,-1.33034428,0.53647678,2.88246469,0.67153008,-0.03897543,0.86870672,0.94777567,-1.04138594,0.47477545,0.21174536,-1.73312968,1.06127785,-0.62674278,-0.95263472,-0.3574392,-0.45807574,-1.08791478]
根据前述的基于训练文本集训练完毕的标签图注意力模型,已经得出各个类别标签的类别特征向量,本文中有5个类别标签,分别用0、1、2、3、4表示,它们的类别特征向量由前述根据训练文本集训练时最后一次迭代得到的前述的平均值得到,其中l是类别标签的下标,K为最大迭代次数,即特征向量其中m为前述训练文本集里的批次数量。得到的五个标签的特征向量分别如下所示:
标签0:[6.22224509,1.25236757,5.76307916,-0.17946888,-3.9552577,9.30892701,13.22358767,-16.73601084,15.23879299,1.0829373,-5.59663971,8.2802847,-8.64210783,-3.84631036,16.92925892,-1.1073331,-5.94752419,9.51731006,-6.3277868,12.03070463,-6.33621219,-18.38287457,6.2027111,3.82932457,16.47385438,-2.71609963,0.54453846,5.77940675,-8.06122818,1.00034761,-4.49338511,-0.79850251,5.53174973,0.58391409,-11.9442521,14.41069912,-6.58643516,8.8108187,5.62632291,-2.76650273,7.72521331,-2.59458137,-5.84662537,-8.38614455,-4.3733154,8.88788102,7.9281024,4.30021329,4.11297809,2.0158162],
标签1:[-13.52978119,10.18655095,-22.65309115,11.19357032,-10.03651148,3.53468868,17.72594014,-7.40914667,3.75224215,-6.49460953,6.03641369,13.25902568,-2.0260207,10.99278901,-0.94538989,-2.86637046,-1.35209965,-9.31925225,-6.04641304,-9.05954462,-4.19337716,14.57395911,9.17987103,2.00481698,-1.54548618,20.95201259,1.19885046,11.36862312,9.69431927,8.30669821,1.65183686,2.70179518,-26.48967033,5.1492787,9.97703957,-0.25899668,16.80103617,5.54094704,6.67475959,20.23955869,4.4467589,-1.1262427,-9.41496104,-5.75355392,-0.57321567,-15.7887971,-5.76783193,-20.41854168,9.03704669,-7.8332908],
标签2:[-15.5523014,-0.05098922,-14.34667976,-2.25306942,8.27374374,12.72074316,-12.71875066,-10.296529,-2.06284104,2.45320212,16.16718339,-6.62264998,16.27301166,13.89477223,-12.65328534,0.27039158,16.53604385,-5.42513727,-9.11123829,-2.47018876,7.82217354,-4.22237532,-17.04346112,-6.69827197,5.73699076,13.35587841,1.2153476,-3.83075819,5.12494883,-9.38151991,-14.57682911,10.56865872,-13.68774591,10.21696476,6.8567849,9.01829401,-0.95757215,-16.13063979,-0.262992,8.68835084,10.6138184,-9.17414989,6.33474456,5.94803427,20.02490159,-3.20275873,11.40157664,-1.19329514,14.87974036,3.87267909],
标签3:[4.85479927,-1.99093857,-5.56741885,6.20331452,3.62071848,12.37271197,12.47100925,5.55905451,-6.24048162,-0.73280996,6.89689023,7.22896023,17.30554227,-20.74874563,10.3976227,-17.11342545,-4.66771674,-0.05348024,-2.11445769,5.72611576,-12.52517376,-2.6273724,3.61542192,-0.82440065,-8.68445132,-11.81142574,8.62742712,7.07431355,6.59820306,1.6810814,-7.27525461,7.07595003,1.73496954,6.5950062,17.02141687,9.91207892,-1.93083413,-2.874787,-7.68151885,3.13225138,21.4477146,12.68083358,8.85897204,9.11184453,1.76935689,7.08592237,0.60035095,-12.19481081,-4.15659429,-7.84300446],
标签4:[10.35834579,4.27755478,8.28834525,-4.32956095,7.56058244,9.48078205,1.71802476,4.50813155,18.53001609,8.5279681,-13.37840118,0.40000298,11.91627408,-1.03129535,-18.31844916,1.5001133,7.10047334,3.00095028,3.72462107,-11.59926491,-5.0415842,10.09667557,-7.99359476,-14.64089078,7.11108861,10.33194604,5.26059789,-11.85866284,-1.02213081,3.93500563,-15.22253635,-5.38307785,11.19184711,16.25874224,-2.78640284,5.35442683,0.55587949,8.84622493,8.15230091,-3.76267201,-8.21651066,2.41864845,11.19213948,5.50713794,-5.88278869,8.13093996,2.22734626,4.69525982,-8.82085003,0.83872203]
根据相似度计算函数计算该文本特征向量与每一个类别特征向量的归一化相似度,作为预测为该类别的概率,相似度计算公式为sim(x,y)=104*(x·y)*(||x||·||y||)-1,再做softmax归一化,计算结果如下所示:
[8.6843e-01,4.5041e-04,2.1220e-04,1.3028e-01,6.2073e-04]
取其中概率最大的类别,即标签0,为0.86843,作为输出,测试完毕。
图4是根据示例实施例示出的一种基于图注意力网络的多价值链问题文本分类模型构建装置框图。该装置400包括:数据收集模块410、数据预处理模块420、提取构建模块430、训练模块440、分类模块450;
数据收集模块410,用于对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;
数据预处理模块420,用于将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;
提取构建模块430,用于对所述训练文本集与测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;
训练模块440,用于基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;
分类模块450,用于根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。
可选地,所述数据预处理模块,具体用于:
对所述问题文本数据集进行中文分词处理和去除停用词处理;
其中,所述中文分词处理以及去除停用词处理包括:
基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;
基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。
可选地,所述提取构建模块,具体用于:
基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量;
基于训练文本集,用提取后的词向量与标注的文本类别标签分别作为节点,构建所有节点间全连接的全连接网络图,其中,所述文本类别标签代表的节点初始化为随机向量,维度与词向量维度一致,词向量节点间的边权重随机初始化,类别-词节点间的边权重初始化为所述训练文本集中该词在该类别中出现的概率。
可选地,所述初始标签图注意力模型为GNN-Attention模型,所述GNN-Attention模型包括GNN子模型与Attention子模型;
所述GNN子模型用于得到每个类别标签节点的输出特征;
所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。
可选地,所述训练模块具体用于:
根据下述公式(2)对GNN-Attention模型中节点的特征向量进行迭代更新;
其中,σ0表示sigmoid激活函数,Wk表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈R+,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k-1次迭代时节点u的特征向量,是节点v在第k-1次迭代时的特征向量,是第k次迭代时节点v的输出向量,Bk是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化。αvu表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;
其中,evu定义如下述公式(4)得到;
其中,a表示一种计算注意力权重的函数;
所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):
其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,nb表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,sj表示第j个标签出现在整个训练文本集里的频次,gb(i)表示在下标为b的批次里下标为i的训练文本对应的类别标签,zb(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,zb(gb(i))表示类别标签gb(i)在全连接图中所对应的节点下标,Wc表示对训练文本节点进行线性变换的参数矩阵,Wl表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数;
根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN-Attention模型中的参数进行更新,得到训练完毕的标签图注意力模型。
图5是本发明实施例提供的一种电子设备的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述一种多价值链问题文本分类方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述一种多价值链问题文本分类方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多价值链问题文本分类方法,其特征在于,所述方法包括:
S1、对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;
S2、将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;
S3、对所述训练文本集与所述测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;
S4、基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;
S5、基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;
S6、根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。
2.根据权利要求1所述的方法,其特征在于,所述S2中的对所述问题文本数据集进行预处理,包括:
对所述问题文本数据集进行中文分词处理和去掉停用词处理;
其中,所述中文分词处理以及停用词过滤处理包括:
基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;
基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。
3.根据权利要求1所述的方法,其特征在于,所述S3中的对预处理后的所述训练文本集与测试文本集进行词向量提取,并基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图,包括:
基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量;
基于训练文本集,用提取后的词向量与标注的文本类别标签分别作为节点,构建所有节点间全连接的全连接网络图,其中,所述文本类别标签代表的节点初始化为随机向量,维度与词向量维度一致,词向量节点间的边权重随机初始化,类别-词节点间的边权重初始化为所述训练文本集中该词在该类别中出现的概率。
4.根据权利要求1所述的方法,其特征在于,所述S4中基于全连接网络图,训练初始标签图注意力模型为GNN-Attention模型,所述GNN-Attention模型包括GNN子模型与Attention子模型;
所述GNN子模型用于得到每个类别标签节点的输出特征;
所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。
5.根据权利要求4所述的方法,其特征在于,所述GNN-Attention模型的训练过程包括:
根据下述公式(2)对GNN-Attention模型中节点的特征向量进行迭代更新;
其中,σ0表示sigmoid激活函数,Wk表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈R+,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k-1次迭代时节点u的特征向量,是节点v在第k-1次迭代时的特征向量,是第k次迭代时节点v的输出向量,Bk是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化。αvu表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;
其中,evu定义如下述公式(4)得到;
其中,a表示一种计算注意力权重的函数;
所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):
其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,nb表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,sj表示第j个标签出现在整个训练文本集里的频次,gb(i)表示在下标为b的批次里下标为i的训练文本对应的类别标签,zb(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,zb(gb(i))表示类别标签gb(i)在全连接图中所对应的节点下标,Wc表示对训练文本节点进行线性变换的参数矩阵,Wl表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数;
根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN-Attention模型中的参数进行更新,得到训练完毕的标签图注意力模型。
6.一种多价值链问题文本分类装置,其特征在于,所述装置包括:
数据收集模块,用于对企业里各业务检索平台中用户检索的问句进行收集与文本类别标签标注,得到多价值链问题文本的数据集;
数据预处理模块,用于将所述问题文本数据集进行预处理,将预处理后的问题文本数据集划分为训练文本集与测试文本集;
提取构建模块,用于对所述训练文本集与测试文本集进行词向量提取,基于所述训练文本集,用提取后的词向量与标注的文本类别标签,构建全连接网络图;
训练模块,用于基于所述全连接网络图,对初始标签图注意力模型进行训练,得到训练完毕的标签图注意力模型;基于所述训练文本集提取的词向量,对初始文本语义抽取模型进行训练,得到训练完毕的文本语义抽取模型;
分类模块,用于根据训练完毕的文本语义抽取模型,对所述测试文本集进行语义抽取,根据训练完毕的标签图注意力模型,对所述测试文本集进行分类。
7.根据权利要求6所述的装置,其特征在于,所述数据预处理模块,具体用于:
对所述问题文本数据集进行中文分词处理和去除停用词处理;
其中,所述中文分词处理以及去除停用词处理包括:
基于预先构建的多价值链文本专家词典对所述文本进行分词,采用大颗粒度词语数目最大化的原则,确定分词结果;其中,所述文本为问题文本数据集;
基于预先构建的多价值链停用词词典对停用词进行过滤,去除噪声字词。
8.根据权利要求6所述的装置,其特征在于,所述提取构建模块,具体用于:
基于预训练的BERT词向量提取模型,得到预处理后的训练文本集与测试文本集的词向量;
基于训练文本集,用提取后的词向量与标注的文本类别标签分别作为节点,构建所有节点间全连接的全连接网络图,其中,所述文本类别标签代表的节点初始化为随机向量,维度与词向量维度一致,词向量节点间的边权重随机初始化,类别-词节点间的边权重初始化为所述训练文本集中该词在该类别中出现的概率。
9.根据权利要求6所述的装置,其特征在于,所述初始标签图注意力模型为GNN-Attention模型,所述GNN-Attention模型包括GNN子模型与Attention子模型;
所述GNN子模型用于得到每个类别标签节点的输出特征;
所述Attention子模型用于控制在GNN子模型中的节点间的注意力权重分配。
10.根据权利要求9所述的装置,其特征在于,所述训练模块具体用于:
根据下述公式(2)对GNN-Attention模型中节点的特征向量进行迭代更新;
其中,σ0表示sigmoid激活函数,Wk表示GNN第k次迭代时的参数矩阵,k∈[1,K],其中K∈R+,K>1,为预设的常数,N(v)表示节点v的所有邻居节点,|N(v)|表示N(v)的大小,表示第k-1次迭代时节点u的特征向量,是节点v在第k-1次迭代时的特征向量,是第k次迭代时节点v的输出向量,Bk是第k次迭代时的偏置参数,k为1表示第一次迭代,所有参数都随机初始化。αvu表示节点u和节点v之间的注意力权重,定义如下述公式(3)表示;
其中,evu定义如下述公式(4)得到;
其中,a表示一种计算注意力权重的函数;
所定义损失函数为类均衡标签相似度损失函数,如下述公式(5):
其中m表示将整个训练文本集分成的批次的数量,b表示批次的下标,nb表示下标为b的批次里训练文本的数量,i表示某一批次内训练文本的下标,L表示类别标签的总个数,sj表示第j个标签出现在整个训练文本集里的频次,gb(i)表示在下标为b的批次里下标为i的训练文本对应的类别标签,zb(i)表示在下标为b的批次里下标为i的训练文本在全连接图中对应的节点下标,zb(gb(i))表示类别标签gb(i)在全连接图中所对应的节点下标,Wc表示对训练文本节点进行线性变换的参数矩阵,Wl表示对标签节点进行线性变换的参数矩阵,K为前述的迭代的总次数;
根据上述类均衡标签相似度损失函数,采用批量梯度下降算法对GNN-Attention模型中的参数进行更新,得到训练完毕的标签图注意力模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210734541.1A CN115168574A (zh) | 2022-06-27 | 2022-06-27 | 一种多价值链问题文本分类方法和装置 |
CN2022107345411 | 2022-06-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757773A true CN115757773A (zh) | 2023-03-07 |
Family
ID=83487147
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210734541.1A Withdrawn CN115168574A (zh) | 2022-06-27 | 2022-06-27 | 一种多价值链问题文本分类方法和装置 |
CN202211355585.XA Pending CN115757773A (zh) | 2022-06-27 | 2022-11-01 | 一种多价值链问题文本分类方法和装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210734541.1A Withdrawn CN115168574A (zh) | 2022-06-27 | 2022-06-27 | 一种多价值链问题文本分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN115168574A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992600A (zh) * | 2024-04-07 | 2024-05-07 | 之江实验室 | 一种业务执行方法、装置、存储介质以及电子设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753540B (zh) * | 2020-06-24 | 2023-04-07 | 云南电网有限责任公司信息中心 | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 |
CN116308464B (zh) * | 2023-05-11 | 2023-09-08 | 广州市沃钛移动科技有限公司 | 目标客户获取系统和方法 |
-
2022
- 2022-06-27 CN CN202210734541.1A patent/CN115168574A/zh not_active Withdrawn
- 2022-11-01 CN CN202211355585.XA patent/CN115757773A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992600A (zh) * | 2024-04-07 | 2024-05-07 | 之江实验室 | 一种业务执行方法、装置、存储介质以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115168574A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN113761936B (zh) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN115757773A (zh) | 一种多价值链问题文本分类方法和装置 | |
CN112364638B (zh) | 一种基于社交文本的人格识别方法 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN111274829B (zh) | 一种利用跨语言信息的序列标注方法 | |
CN112818118B (zh) | 基于反向翻译的中文幽默分类模型的构建方法 | |
JP6738769B2 (ja) | 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN113204952A (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114358201A (zh) | 基于文本的情感分类方法和装置、计算机设备、存储介质 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
Li et al. | Semi-supervised learning for text classification by layer partitioning | |
Gunaseelan et al. | Automatic extraction of segments from resumes using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |