CN114970497B - 基于预训练特征嵌入的文本分类方法及词义消歧方法 - Google Patents

基于预训练特征嵌入的文本分类方法及词义消歧方法 Download PDF

Info

Publication number
CN114970497B
CN114970497B CN202210625333.8A CN202210625333A CN114970497B CN 114970497 B CN114970497 B CN 114970497B CN 202210625333 A CN202210625333 A CN 202210625333A CN 114970497 B CN114970497 B CN 114970497B
Authority
CN
China
Prior art keywords
text classification
training
model
word
quantum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210625333.8A
Other languages
English (en)
Other versions
CN114970497A (zh
Inventor
石金晶
赖蔚
袁逸凡
王雯萱
黄端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210625333.8A priority Critical patent/CN114970497B/zh
Publication of CN114970497A publication Critical patent/CN114970497A/zh
Application granted granted Critical
Publication of CN114970497B publication Critical patent/CN114970497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N10/00Quantum computing, i.e. information processing based on quantum-mechanical phenomena
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预训练特征嵌入的文本分类方法,包括构建训练数据集;构建量子启发式文本分类初始模型;采用训练数据集训练量子启发式文本分类初始模型得到量子启发式文本分类模型;获取预训练模型ERNIE;连接量子启发式文本分类模型和预训练模型ERNIE构建文本分类模型;采用训练数据集训练文本分类模型得到基于预训练特征嵌入的文本分类模型;采用基于预训练特征嵌入的文本分类模型对实际文本进行文本分类。本发明提供的这种基于预训练特征嵌入的文本分类方法及词义消歧方法,通过结合预训练特征嵌入、神经网络模型和量子计算理论,提出了全新的文本分类方法和对应的词义消歧方法;本发明方法不仅可靠性高,而且分类精度较好。

Description

基于预训练特征嵌入的文本分类方法及词义消歧方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于预训练特征嵌入的文本分类方法及词义消歧方法。
背景技术
近年来,随着深度学习技术的发展,自然语言处理(NLP,Natural LanguageProcessing)也已经得到了巨大的突破和发展。在文本分类、情感分析、对话系统、机器翻译等一系列任务上有突破性进展。
在NLP中,如果想要使用深度学习技术来完成各种任务,首先需要将词语、句子或文档转换为计算机能够识别的形式。目前,常用的做法是采用分布式表示方法,通过构建词语和向量的映射表,将词语映射为特定维度的向量,该过程称为词嵌入。
在实际的NLP任务中,以文本分类任务为例,首先通过文本预处理得到所有词语的对应向量表示,然后将这些向量作为深度学习模型的输入,中间通过感知机、循环神经网络、卷积神经网络等结构学习文本的内部特征,最后利用这些特征进行分类,从而达到文本分类的目的。
但是,目前的文本分类方法常用的词嵌入方法,一般将词语映射为特定的向量,并没有考虑到一词多义的情况。当相同词语在不同句子中的含义不一致时,分类模型将难以正确识别词语的语义,预测的分类结果也容易出错,最终导致分类的精度不高。
发明内容
本发明的目的之一在于提供一种可靠性高且分类精度较好的基于预训练特征嵌入的文本分类方法。
本发明的目的之二在于提供一种包括了所述基于预训练特征嵌入的文本分类方法的词义消歧方法。
本发明提供的这种基于预训练特征嵌入的文本分类方法,包括如下步骤:
S1.获取语料库和带有分类标记的训练文本,构建训练数据集;
S2.基于量子计算和深度学习理论,构建量子启发式文本分类初始模型;
S3.采用步骤S1构建的训练数据集,对步骤S2构建的量子启发式文本分类初始模型进行训练,从而得到量子启发式文本分类模型;
S4.获取预训练模型ERNIE;
S5.连接量子启发式文本分类模型和预训练模型ERNIE,构建文本分类模型;
S6.采用步骤S1构建的训练数据集,对步骤S5构建的文本分类模型进行训练,得到最终的基于预训练特征嵌入的文本分类模型;
S7.采用步骤S6得到的基于预训练特征嵌入的文本分类模型,对实际文本进行文本分类。
步骤S2所述的基于量子计算和深度学习理论,构建量子启发式文本分类初始模型,具体包括如下步骤:
A.对获取的文本数据进行分词,从而构建单词和单词索引映射表;
B.采用复数词嵌入,将步骤A得到的所有单词映射到对应量子态的希尔伯特空间,从而得到单词的复数向量;
C.构建GRU循环神经网络;
D.将步骤B得到的单词的复数向量输入到步骤C构建的GRU循环神经网络中进行特征提取,得到中间隐含特征;
E.对步骤D得到的中间隐含特征进行测量,从而得到概率特征;
F.采用线性分类器,对步骤E得到的概率特征进行分类结果预测。
步骤B所述的采用复数词嵌入,将步骤A得到的所有单词映射到对应量子态的希尔伯特空间,从而得到单词的复数向量,具体为将步骤A得到的所有单词,采用振幅嵌入层和相位嵌入层进行映射,得到振幅向量和相位向量,并采用欧拉公式计算得到词单词的复数向量。
所述的振幅嵌入层,对应词语振幅向量映射表Wa,并随机化初始词语振幅向量映射表Wa中的参数;所述的相位嵌入层,对应词语相位向量映射表Wβ,并随机初始化词语相位向量映射表Wβ中的参数为[0,1]中的数,然后再乘以2π,将参数区间扩大至[0,2π];单词通过单词索引对应的独热向量为x,对应的振幅向量αi为αi=Wαx,对应的相位向量βi为βi=Wβx;然后根据欧拉公式αeβi=αcosβ+iαsinβ,最后得到单词对应的实部向量real为real=αicosβi,对应的虚部向量image为image=αisinβi
步骤C所述的构建GRU循环神经网络,具体包括如下步骤:
GRU循环神经网络采用如下算式进行计算:
Figure BDA0003677028350000031
Figure BDA0003677028350000032
Figure BDA0003677028350000033
Figure BDA0003677028350000034
式中z为更新门,用于更新隐藏状态;σ()为sigmoid激活函数;
Figure BDA0003677028350000041
为更新门的第一参数;xt为当前时刻的输入;
Figure BDA0003677028350000042
为更新门的第二参数;ht-1为上一个时刻的输出;b(z)为更新门的偏置;r为重置门,用于控制过去的隐藏信息,且当r=0时过去的信息被完全忽略;
Figure BDA0003677028350000043
为重置门的第一参数;
Figure BDA0003677028350000044
为重置门的第二参数;b(r)为重置门的偏置;
Figure BDA0003677028350000045
为记忆门神经元输出;tanh()为tanh激活函数;Wx为记忆门的第一参数;Wh为记忆门的第二参数;⊙为哈达玛乘积;b为记忆门的偏置;ht为当前时刻的输出。
步骤E所述的对步骤D得到的中间隐含特征进行测量,从而得到概率特征,具体包括如下步骤:
采用如下算式计算概率特征pi
pi=<ti|M|ti>=<tim><λm|ti>=<tim>2
式中ti为任意单词,|ti>为单词ti的量子态表示;<ti|为|ti>的厄米共轭,且
Figure BDA0003677028350000046
为测量算子;M为测量算子|λm>对应的密度矩阵,且M=|λm><λm|;<tim>表示向量的内积运算,且(|ti>,|λm>)=<ti||λm>=<tim>,满足<tim>=<λm|ti>,因此<tim><λm|ti>=<tim>2
步骤S3所述的采用步骤S1构建的训练数据集,对步骤S2构建的量子启发式文本分类初始模型进行训练,从而得到量子启发式文本分类模型,具体包括如下步骤:
通过监督学习和半监督学习对量子启发式文本分类初始模型进行训练;对于有标签的文本数据,采用文本分类任务对模型进行训练,对于无标签数据,采用下一个句子预测任务自定义标签对模型进行训练;模型训练完成后,得到量子启发式文本分类模型。
步骤S5所述的连接量子启发式文本分类模型和预训练模型ERNIE,构建最终的文本分类模型,具体包括如下步骤:
拼接量子启发式文本分类模型的最后一层特征和预训练模型ERNIE的最后一层特征;然后,将拼接后的特征连接到线性分类器,得到最终的文本分类模型;连接完成后,将量子启发式文本分类模型中的参数进行保留,保留的参数包括复数词嵌入层中的振幅嵌入层和相位嵌入层的参数;线性分类器的输出为最终的文本分类模型的输出;线性分类器用于将拼接后的特征映射到分类结果维度,从而输出最终的分类结果。
本发明还公开了一种包括了所述基于预训练特征嵌入的文本分类方法的词义消歧方法,具体包括如下步骤:
a.将含有歧义词的语句作为目标文本,将目标文本的分类结果定义为歧义词的所有可能含义;
b.采用所述的基于预训练特征嵌入的文本分类方法,对目标文本进行分类;
c.根据步骤b的分类结果,得到歧义词在语句中对应的含义。
本发明提供的这种基于预训练特征嵌入的文本分类方法及词义消歧方法,通过结合预训练特征嵌入、神经网络模型和量子计算理论,提出了全新的文本分类方法和对应的词义消歧方法;本发明方法不仅可靠性高,而且分类精度较好。
附图说明
图1为本发明的文本分类方法的方法流程示意图。
图2为本发明的文本分类方法所对应的文本分类模型的模型结构示意图。
图3为本发明的词义消歧方法的方法流程示意图。
具体实施方式
如图1所示为本发明的文本分类方法的方法流程示意图:本发明提供的这种基于预训练特征嵌入的文本分类方法,包括如下步骤:
S1.获取语料库和带有分类标记的训练文本,构建训练数据集;
S2.基于量子计算和深度学习理论,构建量子启发式文本分类初始模型(如图2中的上半部分模型);具体包括如下步骤:
A.对获取的文本数据进行分词,从而构建单词和单词索引映射表;
B.采用复数词嵌入,将步骤A得到的所有单词映射到对应量子态的希尔伯特空间,从而得到单词的复数向量;具体为将步骤A得到的所有单词,采用振幅嵌入层和相位嵌入层进行映射,得到振幅向量和相位向量,并采用欧拉公式计算得到词单词的复数向量;
具体实施时,振幅嵌入层对应词语振幅向量映射表Wa,并随机化初始词语振幅向量映射表Wa中的参数;相位嵌入层对应词语相位向量映射表Wβ,并随机初始化词语相位向量映射表Wβ中的参数为[0,1]中的数,然后再乘以2π,将参数区间扩大至[0,2π];单词通过单词索引对应的独热向量为x,对应的振幅向量αi为αi=Wαx,对应的相位向量βi为βi=Wβx;然后根据欧拉公式αeβi=αcosβ+iαsinβ,最后得到单词对应的实部向量real为real=αicosβi,对应的虚部向量image为image=αisinβi
C.构建GRU循环神经网络;具体包括如下步骤:
GRU循环神经网络采用如下算式进行计算:
Figure BDA0003677028350000061
Figure BDA0003677028350000062
Figure BDA0003677028350000071
Figure BDA0003677028350000072
式中z为更新门,用于更新隐藏状态;σ()为sigmoid激活函数;
Figure BDA0003677028350000073
为更新门的第一参数;xt为当前时刻的输入;
Figure BDA0003677028350000074
为更新门的第二参数;ht-1为上一个时刻的输出;b(z)为更新门的偏置;r为重置门,用于控制过去的隐藏信息,且当r=0时过去的信息被完全忽略;
Figure BDA0003677028350000075
为重置门的第一参数;
Figure BDA0003677028350000076
为重置门的第二参数;b(r)为重置门的偏置;
Figure BDA0003677028350000077
为记忆门神经元输出;tanh()为tanh激活函数;Wx为记忆门的第一参数;Wh为记忆门的第二参数;⊙为哈达玛乘积;b为记忆门的偏置;ht为当前时刻的输出。
D.将步骤B得到的单词的复数向量输入到步骤C构建的GRU循环神经网络中进行特征提取,得到中间隐含特征;
E.对步骤D得到的中间隐含特征进行测量,从而得到概率特征;具体包括如下步骤:
采用如下算式计算概率特征pi
pi=<ti|M|ti>=<tim><λm|ti>=<tim>2
式中ti为任意单词,|ti>为单词ti的量子态表示;<ti|为|ti>的厄米共轭,且
Figure BDA0003677028350000078
为测量算子;M为测量算子|λm>对应的密度矩阵,且M=|λm><λm|;<tim>表示向量的内积运算,且(|ti>,|λm>)=<ti||λm>=<tim>,满足<tim>=<λm|ti>,因此<tim><λm|ti>=<tim>2
F.采用线性分类器,对步骤E得到的概率特征进行分类结果预测;
S3.采用步骤S1构建的训练数据集,对步骤S2构建的量子启发式文本分类初始模型进行训练,从而得到量子启发式文本分类模型;具体包括如下步骤:
通过监督学习和半监督学习对量子启发式文本分类初始模型进行训练;对于有标签的文本数据,采用文本分类任务对模型进行训练,对于无标签数据,采用下一个句子预测任务自定义标签对模型进行训练;模型训练完成后,得到量子启发式文本分类模型;
S4.获取预训练模型ERNIE;预训练模型ERNIE为百度自研的基于TransformerEncoder结构的预训练模型,结构如图2中的下半部分模型所示;
S5.连接量子启发式文本分类模型和预训练模型ERNIE,构建文本分类模型(整体模型如图2所示);具体包括如下步骤:
拼接量子启发式文本分类模型的最后一层特征和预训练模型ERNIE的最后一层特征;然后,将拼接后的特征连接到线性分类器,得到最终的文本分类模型;连接完成后,将量子启发式文本分类模型中的参数进行保留,保留的参数包括复数词嵌入层中的振幅嵌入层和相位嵌入层的参数;线性分类器的输出为最终的文本分类模型的输出;线性分类器用于将拼接后的特征映射到分类结果维度,从而输出最终的分类结果;
S6.采用步骤S1构建的训练数据集,对步骤S5构建的文本分类模型进行训练,得到最终的基于预训练特征嵌入的文本分类模型;
S7.采用步骤S6得到的基于预训练特征嵌入的文本分类模型,对实际文本进行文本分类。
如图3所示为本发明的词义消歧方法的方法流程示意图:本发明公开的这种包括了所述基于预训练特征嵌入的文本分类方法的词义消歧方法,具体包括如下步骤:
a.将含有歧义词的语句作为目标文本,将目标文本的分类结果定义为歧义词的所有可能含义;
b.采用所述的基于预训练特征嵌入的文本分类方法,对目标文本进行分类;
c.根据步骤b的分类结果,得到歧义词在语句中对应的含义。
以下针对上述的词义消歧方法,以一个实例进行说明:
以英语词义消歧为例,给定一个句子“When necessary,it‘sought’and receivedassistance from organized crime.”(译文:必要时,它“寻求”和接受有组织犯罪的援助。)其中,“sought”是需要确定词义的歧义词,在这个句子中,它对应的词义是“sought:try to get or reach”(寻求:试图得到或达到)。英文歧义词的词义来源是wordnet。wordnet(https://wordnet.princeton.edu/)是一个英语词汇数据库,能发现词之间的概念关系,如同义词,下同义词,同义词,反义词等。以上面例子中的“sought”为例,它的词根是“seek”,对应所有含义如下表1所示:
表1 seek的词义示意表
Figure BDA0003677028350000091
对上述句子进行词义消歧的过程如下:
确定歧义词为“sought”后,首先转换歧义词“sought”为其词根“seek”,并从wordnet中找到“seek”的所有词义标签(“seek%1:11:00::”,“seek%2:40:00::”,“seek%2:35:00::”,“seek%2:41:00::”,“seek%2:38:00::”,“seek%2:32:00::”),将标签离散化为0-5之间的数值形式。该例子中正确的标签为“seek%2:40:00::”,对应数值标签1。再将上述含有歧义词的句子输入到模型,模型将输出0-5之间的数值标签。之后,将预测的数值标签转化为词义标签,查询wordnet得到歧义词的释义。如模型预测结果为1,则对应的词义标签为“seek%2:40:00::”,根据wordnet输出预测词义“try to get or reach”,由此确定原句子中“sought”的具体词义。

Claims (4)

1.一种基于预训练特征嵌入的文本分类方法,包括如下步骤:
S1.获取语料库和带有分类标记的训练文本,构建训练数据集;
S2.基于量子计算和深度学习理论,构建量子启发式文本分类初始模型;具体包括如下步骤:
A.对获取的文本数据进行分词,从而构建单词和单词索引映射表;
B.采用复数词嵌入,将步骤A得到的所有单词映射到对应量子态的希尔伯特空间,从而得到单词的复数向量;具体为将步骤A得到的所有单词,采用振幅嵌入层和相位嵌入层进行映射,得到振幅向量和相位向量,并采用欧拉公式计算得到词单词的复数向量;
所述的振幅嵌入层,对应词语振幅向量映射表Wa,并随机化初始词语振幅向量映射表Wa中的参数;所述的相位嵌入层,对应词语相位向量映射表Wβ,并随机初始化词语相位向量映射表Wβ中的参数为[0,1]中的数,然后再乘以2π,将参数区间扩大至[0,2π];单词通过单词索引对应的独热向量为x,对应的振幅向量αi为αi=Wαx,对应的相位向量βi为βi=Wβx;然后根据欧拉公式αeβi=αcosβ+iαsinβ,最后得到单词对应的实部向量real为real=αicosβi,对应的虚部向量image为image=αisinβi
C.构建GRU循环神经网络;
D.将步骤B得到的单词的复数向量输入到步骤C构建的GRU循环神经网络中进行特征提取,得到中间隐含特征;
E.对步骤D得到的中间隐含特征进行测量,从而得到概率特征;具体包括如下步骤:
采用如下算式计算概率特征pi
pi=<ti|M|ti>=<tim><λm|ti>=<tim>2
式中ti为任意单词,|ti>为单词ti的量子态表示;<ti|为|ti>的厄米共轭,且
Figure FDA0004169019710000021
m>为测量算子;M为测量算子|λm>对应的密度矩阵,且M=|λm><λm|;<tim>表示向量的内积运算,且(|ti>,|λm>)=<ti||λm>=<tim>,满足<tim>=<λm|ti>;
F.采用线性分类器,对步骤E得到的概率特征进行分类结果预测;
S3.采用步骤S1构建的训练数据集,对步骤S2构建的量子启发式文本分类初始模型进行训练,从而得到量子启发式文本分类模型;
S4.获取预训练模型ERNIE;
S5.连接量子启发式文本分类模型和预训练模型ERNIE,构建文本分类模型;具体包括如下步骤:
拼接量子启发式文本分类模型的最后一层特征和预训练模型ERNIE的最后一层特征;然后,将拼接后的特征连接到线性分类器,得到最终的文本分类模型;连接完成后,将量子启发式文本分类模型中的参数进行保留,保留的参数包括复数词嵌入层中的振幅嵌入层和相位嵌入层的参数;线性分类器的输出为最终的文本分类模型的输出;线性分类器用于将拼接后的特征映射到分类结果维度,从而输出最终的分类结果;
S6.采用步骤S1构建的训练数据集,对步骤S5构建的文本分类模型进行训练,得到最终的基于预训练特征嵌入的文本分类模型;
S7.采用步骤S6得到的基于预训练特征嵌入的文本分类模型,对实际文本进行文本分类。
2.根据权利要求1所述的基于预训练特征嵌入的文本分类方法,其特征在于步骤C所述的构建GRU循环神经网络,具体包括如下步骤:
GRU循环神经网络采用如下算式进行计算:
Figure FDA0004169019710000031
Figure FDA0004169019710000032
Figure FDA0004169019710000033
Figure FDA0004169019710000034
式中z为更新门,用于更新隐藏状态;σ()为sigmoid激活函数;
Figure FDA0004169019710000035
为更新门的第一参数;xt为当前时刻的输入;
Figure FDA0004169019710000036
为更新门的第二参数;ht-1为上一个时刻的输出;b(z)为更新门的偏置;r为重置门,用于控制过去的隐藏信息,且当r=0时过去的信息被完全忽略;
Figure FDA0004169019710000037
为重置门的第一参数;
Figure FDA0004169019710000038
为重置门的第二参数;b(r)为重置门的偏置;
Figure FDA0004169019710000039
为记忆门神经元输出;tanh()为tanh激活函数;Wx为记忆门的第一参数;Wh为记忆门的第二参数;⊙为哈达玛乘积;b为记忆门的偏置;ht为当前时刻的输出。
3.根据权利要求2所述的基于预训练特征嵌入的文本分类方法,其特征在于步骤S3所述的采用步骤S1构建的训练数据集,对步骤S2构建的量子启发式文本分类初始模型进行训练,从而得到量子启发式文本分类模型,具体包括如下步骤:
通过监督学习和半监督学习对量子启发式文本分类初始模型进行训练;对于有标签的文本数据,采用文本分类任务对模型进行训练,对于无标签数据,采用下一个句子预测任务自定义标签对模型进行训练;模型训练完成后,得到量子启发式文本分类模型。
4.一种包括了权利要求1~3之一所述的基于预训练特征嵌入的文本分类方法的词义消歧方法,其特征在于具体包括如下步骤:
a.将含有歧义词的语句作为目标文本,将目标文本的分类结果定义为歧义词的所有可能含义;
b.采用权利要求1~3之一所述的基于预训练特征嵌入的文本分类方法,对目标文本进行分类;
c.根据步骤b的分类结果,得到歧义词在语句中对应的含义。
CN202210625333.8A 2022-06-02 2022-06-02 基于预训练特征嵌入的文本分类方法及词义消歧方法 Active CN114970497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210625333.8A CN114970497B (zh) 2022-06-02 2022-06-02 基于预训练特征嵌入的文本分类方法及词义消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210625333.8A CN114970497B (zh) 2022-06-02 2022-06-02 基于预训练特征嵌入的文本分类方法及词义消歧方法

Publications (2)

Publication Number Publication Date
CN114970497A CN114970497A (zh) 2022-08-30
CN114970497B true CN114970497B (zh) 2023-05-16

Family

ID=82960105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210625333.8A Active CN114970497B (zh) 2022-06-02 2022-06-02 基于预训练特征嵌入的文本分类方法及词义消歧方法

Country Status (1)

Country Link
CN (1) CN114970497B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630979B (zh) * 2023-04-10 2024-04-30 雄安创新研究院 一种ocr识别方法、系统、存储介质和边缘设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3522079A1 (en) * 2018-02-01 2019-08-07 Siemens Healthcare Limited Data encoding and classification
CN110851593A (zh) * 2019-09-23 2020-02-28 天津大学 一种基于位置与语义的复值词向量构建方法
CN111581383A (zh) * 2020-04-30 2020-08-25 上海电力大学 一种基于ERNIE-BiGRU的中文文本分类方法
CN112699222A (zh) * 2021-01-07 2021-04-23 中南大学 基于量子启发式神经网络的文本分类方法及邮件分类方法
CN113434646A (zh) * 2021-06-08 2021-09-24 天津大学 基于量子测量与自注意力机制的问答任务匹配模型及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3522079A1 (en) * 2018-02-01 2019-08-07 Siemens Healthcare Limited Data encoding and classification
CN110851593A (zh) * 2019-09-23 2020-02-28 天津大学 一种基于位置与语义的复值词向量构建方法
CN111581383A (zh) * 2020-04-30 2020-08-25 上海电力大学 一种基于ERNIE-BiGRU的中文文本分类方法
CN112699222A (zh) * 2021-01-07 2021-04-23 中南大学 基于量子启发式神经网络的文本分类方法及邮件分类方法
CN113434646A (zh) * 2021-06-08 2021-09-24 天津大学 基于量子测量与自注意力机制的问答任务匹配模型及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Quantum-inspired ComplexWord Embedding;Qiuchi Li 等;《arXiv: 1805.11351v1》;1-8 *
Semantic Hilbert Space for Text Representation Learning;Benyou Wang 等;《arXiv:1902.09802v1》;1-7 *

Also Published As

Publication number Publication date
CN114970497A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110334354B (zh) 一种中文关系抽取方法
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
CN108733792B (zh) 一种实体关系抽取方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN110096711B (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN109992780B (zh) 一种基于深度神经网络特定目标情感分类方法
CN107220506A (zh) 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN113326380B (zh) 基于深度神经网络的设备量测数据处理方法、系统及终端
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN110457714B (zh) 一种基于时序主题模型的自然语言生成方法
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN110019795A (zh) 敏感词检测模型的训练方法和系统
CN116385937B (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN111753088A (zh) 一种自然语言信息的处理方法
CN114970497B (zh) 基于预训练特征嵌入的文本分类方法及词义消歧方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN109948163B (zh) 序列动态阅读的自然语言语义匹配方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant