CN116501864A - 交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 - Google Patents
交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 Download PDFInfo
- Publication number
- CN116501864A CN116501864A CN202310121295.7A CN202310121295A CN116501864A CN 116501864 A CN116501864 A CN 116501864A CN 202310121295 A CN202310121295 A CN 202310121295A CN 116501864 A CN116501864 A CN 116501864A
- Authority
- CN
- China
- Prior art keywords
- vector
- semantic
- representation
- text
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013145 classification model Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 109
- 201000010099 disease Diseases 0.000 claims abstract description 67
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 67
- 230000006870 function Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 208000024891 symptom Diseases 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 5
- 208000031295 Animal disease Diseases 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 241001465754 Metazoa Species 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 claims description 3
- 238000002791 soaking Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备,属于深度学习的文本分类领域,用于解决因句式特征复杂,专有名词过长且频度副词多,导致的水产病害文本分类中不能全面地学习文本特征的问题。要点是根据所述词嵌入向量根据所述语义表示,获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;根据所述潜在语义向量,获取水产病害文本特征向量;根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别,效果是有效的提高了水产病害多标签文本分类效果。
Description
技术领域
本发明属于深度学习的文本分类领域,具体涉及一种交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备。
背景技术
文本分类中多标签比单标签的计算更加复杂,一段文本可以同时属于多个类别。最早的多标签文本分类使用的是机器学习的方法,采用特征选择与特征提取技术构建模型,但模型会过于复杂且无法表达复杂的文本信息,所以目前大多数学者都在研究基于深度学习的文本分类方法。Zhang等在2006年提出了BP-MLL算法,这是首次通过神经网络来解决多标签文本分类问题(Zhang M L,Zhou Z H.Multilabel neural networks withapplications to functional genomics and text categorization[J].IEEEtransactions on Knowledge and Data Engineering,2006,18(10):1338-1351.)。Nam等对BP-MLL算法进行了改进,改用交叉熵损失函数并且使用了AdaGrad、Dropout和ReLUs,但是这两种神经网络模型都较为简单,无法表达文本的完整性(Nam J,Kim J,Loza MencíaE,etal.Large-scale multi-label text classification—revisiting neuralnetworks[C].Joint european conference on machine learning and knowledgediscovery in databases.Springer,Berlin,Heidelberg,2014:437-452.)。因此,后来又出现了许多基于CNN、RNN和Transformer的深度神经网文本分类模型,用于解决上述问题。
Baker等设计了一种共现多标签文本分类方法,该方法在CNN模型的基础上通过初始化神经网络中的隐藏层来处理标签与标签之间的共现关系(Berger M J.Large scalemulti-label text classification with semantic word vectors[J].Technicalreport,Stanford University,2015.)。Shimura等提出了一种分层卷积神经网络结构的多标签分类,用于解决短文本多数据稀疏问题,该方法在预训练模型中加入微调的思想,充分利用了标签之间的内在联系。虽然CNN是一种简单的网络模型,但是依然取得了不错的效果。但是会造成语义信息的丢失,尤其是当文本过长时,CNN不利于捕获前后文的关系而造成语义的偏差(Shimura K,Li J,Fukumoto F.HFT-CNN:Learning hierarchical categorystructure for multi-label short text categorization[C].Proceedings of the2018Conference on Empirical Methods in Natural Language Processing.2018:811-816.)。
尽管基于深度学习的文本分类方法在很多领域已经取得了较好的成果,但上述方法不能直接应用于水产病害语料的分类任务,原因在于水产病害文本句式特征复杂,专有名词过长且频度副词多,使得以往的模型不能全面地学习文本特征。
发明内容
本发明的目的是解决因句式特征复杂,专有名词过长且频度副词多,导致的水产病害文本分类中不能全面地学习文本特征的问题。
在第一方面上,根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类方法,包括
步骤S1:获取水产病害数据集;
步骤S2:通过词嵌入表示将所述水产病害数据集的每一条数据的每个字的字符向量和位置向量相加获取词嵌入向量;
步骤S3:根据所述词嵌入向量,RoBERTa层输出所述水产病害数据集的每一条数据的词级别的语义表示;
步骤S4:根据所述语义表示,BiLSTM层获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;
步骤S5:根据所述潜在语义向量,Text CNN层获取水产病害文本特征向量;
步骤S6:SoftMax层根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别。
根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类方法,模型训练阶段步骤S1的获取水产病害数据集,包括
S101.获取数据资源:根据水产病害的重点研究对象,围绕水产动物所患疾病名称、疾病流行温度、疾病防治方法等,搜集水产动物疾病相关网站、电子图书和相关文献的数据资源;
S102.分类数据:根据获取的数据资源,在水产病害文本多标签分类语料库中定义类别;
S103.数据清洗,获取水产病害数据集。
根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类方法,定义类别包括投喂治疗、流行地区、流行时间、浸泡治疗、状态症状、部位症状和预防治疗。
根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类方法,步骤S3中RoBERTa层通过动态掩码机制把预训练数据复制10份,并逐份选取15%的字符进行mask,使模型训练时动态改变被mask的字符。
根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类方法,其中,所述步骤S4中的所述BiLSTM层的第一种LSTM的隐藏层的单向传播方向与第二种LSTM的隐藏层的单向传播方向相反,不同节点对应的第一种LSTM的隐藏层单向连接形成第一种LSTM的隐藏层的单向传播方向,不同节点对应的第二种LSTM的隐藏层单向连接形成第二种LSTM的隐藏层的单向传播方向;
步骤S4的所述根据所述语义表示,BiLSTM层获取所述语义表示的上下文语义信息的方法,包括
S401.一个节点的所述语义表示wi分别输入所述一个节点对应的一个第一种LSTM以及所述一个节点对应的一个第二种LSTM中学习上文表示Cf(wi)和下文表示Cb(wi),由公式(1)和公式(2)表示:
Cf(wi)=f(W(f)Cf(wi-1)) (1)
Cb(wi)=f(W(b)Cb(wi+1)) (2)
其中W(f)表示前向LSTM的权重矩阵,W(b)表示后向LSTM的权重矩阵;
S402.将上文表示Cf(wi)和下文表示Cb(wi)分别进行注意力提取,获取优化特征bf和bb,由公式(3)和公式(4)表示:
其中wi T表示wi的转置向量,N表示注意力变量的个数;
S403.将优化特征bf和bb拼接获取向量ai,由公式(5)表示:
ai=[bf,bb] (5)
S404.将向量ai作为所述语义表示wi学习之后的的语义表示,通过tanh激活函数计算后输出,得到语义表示wi的潜在语义向量h,由公式(6)表示:
h=tanh(Wai+b) (6)
其中W与b表示权重参数。
根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类方法,步骤S5的根据所述潜在语义向量,Text CNN层提取水产病害文本特征向量特征的方法,包括
S501.Text CNN层的三种卷积核对BiLSTM模型获取的语义表示wi的潜在语义向量h进行特征提取,所述三种卷积核第二维的维度与潜在语义向量h的第二维的维度一致,移动并提取潜在语义向量h的卷积特征,由公式(7)和公式(8)表示:
Vi=f(Wc·hi:i+m-1+b) (7)
V=[V1,V2,…,Vn] (8)
其中WC为权重矩阵,m为卷积的滑动步长,hi:i+m-1表示从潜在语义向量h第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为Sigmoid激活函数,Vi表示第i个位置的卷积特征值,V表示卷积特征的集合;
S502.将卷积特征的集合V通过池化层,最大池化层对卷积特征的集合V的卷积特征的特征图压缩,通过不同卷积核提取特征向量u,由公式(9)表示:
u=max{V} (9)
S503.将步骤S502提取的所述特征向量u进行拼接,形成特征序列ec,由公式(10)所示:
ec=[u1,u2,…,un] (10)
其中n表示特征数量的个数;
S504.将所述特征序列ec由ReLU函数激活得到所述水产病害文本特征向量。
在第二方面上,根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类模型,包括
RoBERTa层,根据所述词嵌入向量输出水产病害数据集的每一条数据的词级别的语义表示,所述词嵌入向量通过词嵌入表示将获取的水产病害数据集的每一条数据的每个字的字符向量和位置向量相加而获取;
BiLSTM层,根据所述语义表示获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;
Text CNN层,根据所述潜在语义向量获取水产病害文本特征向量;
SoftMax层,根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别。
根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类模型,其中,所述BiLSTM层的第一种LSTM的隐藏层的单向传播方向与第二种LSTM的隐藏层的单向传播方向相反,不同节点对应的第一种LSTM的隐藏层单向连接形成第一种LSTM的隐藏层的单向传播方向,不同节点对应的第二种LSTM的隐藏层单向连接形成第二种LSTM的隐藏层的单向传播方向;
所述BiLSTM层基于如下方式获取所述语义表示的上下文语义信息:
一个节点的所述语义表示wi分别输入所述一个节点对应的一个第一种LSTM以及所述一个节点对应的一个第二种LSTM中学习上文表示Cf(wi)和下文表示Cb(wi),由公式(1)和公式(2)表示:
Cf(wi)=f(W(f)Cf(wi-1)) (1)
Cb(wi)=f(W(b)Cb(wi+1)) (2)
其中W(f)和W(b)分别为前后向的权重矩阵;
将上文表示Cf(wi)和下文表示Cb(wi)分别进行注意力提取,获取优化特征bf和bb,由公式(3)和公式(4)表示:
其中;
将优化特征bf和bb拼接获取向量ai,由公式(5)表示:
ai=[bf,bb] (5)
将向量ai作为所述语义表示wi学习之后的的语义表示,通过tanh激活函数计算后输出,得到语义表示wi的潜在语义向量h,由公式(6)表示:
h=tanh(Wai+b) (6)
其中。
根据本申请一些实施例的交叉嵌入式注意力BiLSTM多标签文本分类模型,所述Text CNN层基于如下方式根据所述潜在语义向量提取水产病害文本特征向量特征:
Text CNN层的三种卷积核对BiLSTM模型获取的语义表示wi的潜在语义向量h进行特征提取,所述三种卷积核第二维的维度与潜在语义向量h的第二维的维度一致,移动并提取潜在语义向量h的卷积特征,由公式(7)和公式(8)表示:
Vi=f(Wc·hi:i+m-1+b) (7)
V=[V1,V2,…,Vn] (8)
其中WC为权重矩阵,m为卷积的滑动步长,hi:i+m-1表示从潜在语义向量h第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为Sigmoid激活函数,Vi表示第i个位置的卷积特征值,V表示卷积特征的集合;
将卷积特征的集合V通过池化层,最大池化层对卷积特征的集合V的卷积特征的特征图压缩,通过不同卷积核提取特征向量,由公式(9)表示:
u=max{V} (9)
将提取的所述特征向量进行拼接,形成特征序列ec,由公式(10)所示:
ec=[u1,u2,…,un] (10)
将所述特征序列ec由ReLU函数激活得到所述水产病害文本特征向量。
在第三方面上,根据本申请一些实施例的电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一项所述的方法中的步骤。
本发明的有益效果:
(1)本发明采用Roberta模型对水产病害语料进行字符级和词语级混合表示,动态更新文本中的掩码模式,从而增强语义表示能力。
(2)本发明通过交叉嵌入注意力机制的BiLSTM模型学习长序列语义信息,以解决长距离依赖问题,着重突出影响因子较高的特征。
(3)本发明由TextCNN模型进行卷积特征提取,从而减小特征向量的维度。
(4)本发明文本分类更准确,在准确率、召回率和F1值3个评价指标中优于其他模型,有效的提高了水产病害多标签文本分类效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为总体框架结构图。
图2为RoBERTa模型结构图。
具体实施方式
下面通过参考附图详细描述本申请的实施例,所述实施例的示例在附图中示出,本申请提供一种方法、模型、电子设备,用以解决因句式特征复杂,专有名词过长且频度副词多,导致的水产病害文本分类中不能全面地学习文本特征的问题。。其中,方法、模型和电子设备是基于同一技术构思的,由于方法、模型和电子设备解决问题的原理相似,因此实施可以相互参见,重复之处不再赘述。
实施例:
图1是本发明模型总体框架结构图,根据图1所示本发明的交叉嵌入式注意力BiLSTM多标签文本模型,通过所述模型实施的分类方法,主要包括下列几个步骤:
步骤1:数据获取。根据现阶段水产病害的重点研究对象围绕水产动物所患疾病名称、疾病流行温度、疾病防治方法等,搜集水产动物疾病相关网站、电子图书和相关文献等数据资源。
步骤2:数据分类。研究获取的数据资源,并与水产动物疾病专家沟通,在水产病害文本多标签分类语料库中定义了7个类别,分别是投喂治疗、流行地区、流行时间、浸泡治疗、状态症状、部位症状和预防治疗。
步骤3:数据清洗。直接从源途径获取的数据杂乱无章,其中较多的冗余信息及不规范的格式对模型的计算过程造成负担,因此在试验前增加一步数据的预处理。大部分错误原因来源于PDF转WORD这一方式,转化过程中会出现大量干扰字符、干扰词、错别字等无关字符,这些问题的出现会影响模型的学习效率,因此,需要通过数据清洗排除这些错误。
步骤4:模型获取词嵌入向量:模型通过词嵌入表示将所述水产病害数据集的每一条数据的每个字的字符向量和位置向量相加获取模型所需的词嵌入向量。
步骤5:模型获取语义表示:通过RoBERTa模型,获取所述水产病害数据集的每一条数据的词嵌入向量的词级别的语义表示。其中,BERT学习包含先验语义知识的特征表示是利用水产病害文本中对字进行先掩盖然后再预测的方式,但对于长序列的专有名词而言,仅由字级别的特征表示无法全面的对其进行理解,而RoBERTa在进行预训练的过程时会涵盖更多的语义组合,尝试更多不同的mask。在模型层面,RoBERTa与BERT基本一致,不同之处在于前者使用了新的预训练方法并进行了更为精细的调优工作,具体变化有:取消NSP任务;改变了BERT的静态掩码策略,通过动态掩码机制把预训练数据复制10份,并逐份选取15%的字符进行mask,模型训练时会动态改变被mask的字符。RoBERTa在进行预训练的过程时会涵盖更多的语义组合,尝试更多不同的mask。通过这种方式,RoBERTa可以在水产病害文本中学到词级别的语义表示,更有助于提升文本分类效果,RoBERTa模型结构如图2所示。
步骤6:模型获取潜在语义向量(上下文语义信息):将步骤5所得的语义表示输入交叉嵌入注意力机制的BiLSTM,通过将注意力机制分别作用于交叉嵌入注意力机制的BiLSTM的两个隐藏层,使得同一输入数据在这两个相对独立的隐藏层的作用下各自获取到关于输入信息的特征向量,再将这两个结果做拼接或取平均值的处理得到一个最终向量结果(上下文语义信息),获取所述水产病害数据集的每一条数据的上下文语义信息。注意力嵌入式BiLSTM在学习水产病害料特征时不仅保证了短序列语义学习能力,且在解决长序列语义稀释问题上也有不错的效果,相比于一般常用的BiLSTM+Attention方法可以分别增加前向与后向LSTM的特征权重,进一步减少语义消失问题的发生。二者的总体效果对比如表2所示。
具体过程如下:
(1)首先词嵌入层中的特征表示wi(语义表示)分别传入前向和后向的LSTM中学习出上文表示Cf(wi)和下文表示Cb(wi),由公式(1)和公式(2)表示。
其中W(f)和W(b)分别为前后向LSTM的权重矩阵。
(2)然后将上文表示Cf(wi)和下文表示Cb(wi)分别进行注意力提取,获取优化特征bf和bb。
其中Wi T表示,N表示。
(3)再将优化特征bf和bb拼接获取向量ai。
ai=[bf,bb] (5)
(4)将最后的到的ai作为词嵌入wi(语义表示wi)学习之后的的语义表示,通过tanh激活函数计算后输出,最终得到语义表示wi的潜在语义向量h。
h=tanh(Wai+b) (6)
其中W表示,b表示。
根据所述方案,本发明将注意力机制分别作用于两个隐藏层上来优化LSTM,可以更全面地解决语义信息丢失,使得在较长的水产病害文本语句中也能学习出较好的特征。其中,BiLSTM模型的文本特征提取和分类模型底层结构上与LSTM模型基本相似。LSTM在隐藏层的传播方向上仅仅是单向传播,而BiLSTM在此基础上进行优化,其增加了一层与前者方向相反的隐藏层。同一输入数据在这两个相对独立的隐藏层的作用下各自获取到关于输入信息的特征向量,再将这两个结果做拼接或取平均值的处理得到一个最终向量结果,最后通过Attention优化输出。该方法可以处理水产病害文本特征复杂以及因为语句过长导致地语义信息丢失问题,但对于双层结构的BiLSTM,其前后双向的隐藏层仍存在语义丢失的情况,当然这种情况相较于单向传播的单个隐藏层模型来说已经极大降低。为此,本发明在步骤S7模型获取水产病害文本特征向量步骤对该问题继续解决。
步骤7:模型获取水产病害文本特征向量。
(1)通过Text CNN的3种(2、3、4)卷积核对上一层生成的潜在语义向量h(上下文语义信息)进行特征提取,卷积核第二维的维度与潜在语义向量h的一致,移动并提取n-gram特征。由公式(7)和公式(8)表示:
Vi=f(Wc·hi:i+m-1+b) (7)
V=[V1,V2,…,Vn] (8)
其中:式子中WC为权重矩阵,m为卷积的滑动步长,hi:i+m-1表示从词向量矩阵第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为Sigmoid激活函数,Vi表示第i个位置的卷积特征值,V表示卷积特征的集合。
(2)随后将卷积特征的集合V通过池化层,使用Max pooling提取出每个featuremap的最大值进行级联操作。该步骤利用最大池化层对特征图压缩并提取其主要特征信息如公式(9)所示。然后将不同卷积核提取到的特征向量进行拼接,形成特征序列ec如公式(10)所示:
u=max{V} (9)
ec=[u1,u2,…,un] (10)
其中n表示特征数量的个数。
(3)最后由ReLU函数激活得到最终的水产病害文本特征向量。
步骤8:模型获取标签类别:通过SoftMax计算每个类别的概率,判断文本可能属于的标签类别。
实验例:
为验证本发明的交叉嵌入式注意力BiLSTM多标签文本分类模型(Cross-embeddedattention BiLSTM multi-label text classification model,CABT)效果,分别与TextCNN模型、BiLSTM模型、BiLSTM+Attention+TextCNN(BTCNN)模型和BiLSTM+Attention+TextCNN(BATCNN)模型,进行对比与消融实验。TextCNN与BiLSTM为经典的文本分类模型,BTCNN与BATCNN为现阶段常见的模型组合。
本发明在实验中使用30万字符的水产病害文本数据,按照8:2:2的比例划分为训练集、验证集和测试集,分别用于训练模型、验证训练效果和测试训练效果所用。
实验结果如表1所示的各类别分类结果对比。从实验结果可以看出,在准确率、召回率和F1值3个评价指标中,CBAT模型的实验效果都优于其它四种模型,说明本发明提出的模型更准确,有效的提高了水产病害多标签文本分类效果。
实验结果如表2所示的交叉嵌入注意力机制思想的效果对比结果。从实验结果可以看出,在准确率、召回率和F1值3个评价指标中,CBAT模型的实验效果优于非交叉嵌入注意力机制思想的模型,说明本发明提出的模型更准确,有效的提高了水产病害多标签文本分类效果。
表1各类别分类结果对比
表2交叉嵌入注意力机制思想的效果对比结果
本申请是参照根据本申请的方法、设备(系统)的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种交叉嵌入式注意力BiLSTM多标签文本分类方法,其特征在于,包括
步骤S1:获取水产病害数据集;
步骤S2:通过词嵌入表示将所述水产病害数据集的每一条数据的每个字的字符向量和位置向量相加获取词嵌入向量;
步骤S3:根据所述词嵌入向量,RoBERTa层输出所述水产病害数据集的每一条数据的词级别的语义表示;
步骤S4:根据所述语义表示,BiLSTM层获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;
步骤S5:根据所述潜在语义向量,Text CNN层获取水产病害文本特征向量;
步骤S6:SoftMax层根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别。
2.根据权利要求1所述的交叉嵌入式注意力BiLSTM多标签文本分类方法,其特征在于,模型训练阶段步骤S1的获取水产病害数据集,包括
S101.获取数据资源:根据水产病害的重点研究对象,围绕水产动物所患疾病名称、疾病流行温度、疾病防治方法等,搜集水产动物疾病相关网站、电子图书和相关文献的数据资源;
S102.分类数据:根据获取的数据资源,在水产病害文本多标签分类语料库中定义类别;
S103.数据清洗,获取水产病害数据集。
3.根据权利要求2所述的交叉嵌入式注意力BiLSTM多标签文本分类方法,其特征在于,定义类别包括投喂治疗、流行地区、流行时间、浸泡治疗、状态症状、部位症状和预防治疗。
4.根据权利要求1所述的交叉嵌入式注意力BiLSTM多标签文本分类方法,其特征在于,步骤S3中RoBERTa层通过动态掩码机制把预训练数据复制10份,并逐份选取15%的字符进行mask,使模型训练时动态改变被mask的字符。
5.根据权利要求1-4任一项所述的交叉嵌入式注意力BiLSTM多标签文本分类方法,其特征在于,其中,所述步骤S4中的所述BiLSTM层的第一种LSTM的隐藏层的单向传播方向与第二种LSTM的隐藏层的单向传播方向相反,不同节点对应的第一种LSTM的隐藏层单向连接形成第一种LSTM的隐藏层的单向传播方向,不同节点对应的第二种LSTM的隐藏层单向连接形成第二种LSTM的隐藏层的单向传播方向;
步骤S4的所述根据所述语义表示,BiLSTM层获取所述语义表示的上下文语义信息的方法,包括
S401.一个节点的所述语义表示wi分别输入所述一个节点对应的一个第一种LSTM以及所述一个节点对应的一个第二种LSTM中学习上文表示Cf(wi)和下文表示Cb(wi),由公式(1)和公式(2)表示:
Cf(wi)=f(W(f)Cf(wi-1)) (1)
Cb(wi)=f(W(b)Cb(wi+1)) (2)
其中W(f)表示前向LSTM的权重矩阵,W(b)表示后向LSTM的权重矩阵;
S402.将上文表示Cf(wi)和下文表示Cb(wi)分别进行注意力提取,获取优化特征bf和bb,由公式(3)和公式(4)表示:
其中wi T表示wi的转置向量,N表示注意力变量的个数;
S403.将优化特征bf和bb拼接获取向量ai,由公式(5)表示:
ai=[bf,bb] (5)
S404.将向量ai作为所述语义表示wi学习之后的的语义表示,通过tanh激活函数计算后输出,得到语义表示wi的潜在语义向量h,由公式(6)表示:
h=tan h(Wai+b) (6)
其中W与b表示权重参数。
6.根据权利要求5所述的交叉嵌入式注意力BiLSTM多标签文本分类方法,其特征在于,步骤S5的根据所述潜在语义向量,Text CNN层提取水产病害文本特征向量特征的方法,包括
S501.Text CNN层的三种卷积核对BiLSTM模型获取的语义表示wi的潜在语义向量h进行特征提取,所述三种卷积核第二维的维度与潜在语义向量h的第二维的维度一致,移动并提取潜在语义向量h的卷积特征,由公式(7)和公式(8)表示:
Vi=f(Wc·hi:i+m-1+b) (7)
V=[V1,V2,…,Vn] (8)
其中WC为权重矩阵,m为卷积的滑动步长,hi:i+m-1表示从潜在语义向量h第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为Sigmoid激活函数,Vi表示第i个位置的卷积特征值,V表示卷积特征的集合;
S502.将卷积特征的集合V通过池化层,最大池化层对卷积特征的集合V的卷积特征的特征图压缩,通过不同卷积核提取特征向量u,由公式(9)表示:
u=max{V} (9)
S503.将步骤S502提取的所述特征向量u进行拼接,形成特征序列ec,由公式(10)所示:
ec=[u1,u2,…,un] (10)
其中n表示特征数量的个数;
S504.将所述特征序列ec由ReLU函数激活得到所述水产病害文本特征向量。
7.一种交叉嵌入式注意力BiLSTM多标签文本分类模型,其特征在于,包括
RoBERTa层,根据所述词嵌入向量输出水产病害数据集的每一条数据的词级别的语义表示,所述词嵌入向量通过词嵌入表示将获取的水产病害数据集的每一条数据的每个字的字符向量和位置向量相加而获取;
BiLSTM层,根据所述语义表示获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;
Text CNN层,根据所述潜在语义向量获取水产病害文本特征向量;
SoftMax层,根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别。
8.根据权利要求7所述的交叉嵌入式注意力BiLSTM多标签文本分类模型,其特征在于,其中,所述BiLSTM层的第一种LSTM的隐藏层的单向传播方向与第二种LSTM的隐藏层的单向传播方向相反,不同节点对应的第一种LSTM的隐藏层单向连接形成第一种LSTM的隐藏层的单向传播方向,不同节点对应的第二种LSTM的隐藏层单向连接形成第二种LSTM的隐藏层的单向传播方向;
所述BiLSTM层基于如下方式获取所述语义表示的上下文语义信息:
一个节点的所述语义表示wi分别输入所述一个节点对应的一个第一种LSTM以及所述一个节点对应的一个第二种LSTM中学习上文表示Cf(wi)和下文表示Cb(wi),由公式(1)和公式(2)表示:
Cf(wi)=f(W(f)Cf(wi-1)) (1)
Cb(wi)=f(W(b)Cb(wi+1)) (2)
其中W(f)和W(b)分别为前后向的权重矩阵;
将上文表示Cf(wi)和下文表示Cb(wi)分别进行注意力提取,获取优化特征bf和bb,由公式(3)和公式(4)表示:
其中;
将优化特征bf和bb拼接获取向量ai,由公式(5)表示:
ai=[bf,bb] (5)
将向量ai作为所述语义表示wi学习之后的的语义表示,通过tanh激活函数计算后输出,得到语义表示wi的潜在语义向量h,由公式(6)表示:
h=tan h(Wai+b) (6)
其中。
9.根据权利要求8所述的交叉嵌入式注意力BiLSTM多标签文本分类模型,其特征在于,所述Text CNN层基于如下方式根据所述潜在语义向量提取水产病害文本特征向量特征:
Text CNN层的三种卷积核对BiLSTM模型获取的语义表示wi的潜在语义向量h进行特征提取,所述三种卷积核第二维的维度与潜在语义向量h的第二维的维度一致,移动并提取潜在语义向量h的卷积特征,由公式(7)和公式(8)表示:
Vi=f(Wc·hi:i+m-1+b) (7)
V=[V1,V2,…,Vn] (8)
其中WC为权重矩阵,m为卷积的滑动步长,hi:i+m-1表示从潜在语义向量h第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为Sigmoid激活函数,Vi表示第i个位置的卷积特征值,V表示卷积特征的集合;
将卷积特征的集合V通过池化层,最大池化层对卷积特征的集合V的卷积特征的特征图压缩,通过不同卷积核提取特征向量,由公式(9)表示:
u=max{V} (9)
将提取的所述特征向量进行拼接,形成特征序列ec,由公式(10)所示:
ec=[u1,u2,…,un] (10)
将所述特征序列ec由ReLU函数激活得到所述水产病害文本特征向量。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~6中任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310121295.7A CN116501864A (zh) | 2023-02-16 | 2023-02-16 | 交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310121295.7A CN116501864A (zh) | 2023-02-16 | 2023-02-16 | 交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116501864A true CN116501864A (zh) | 2023-07-28 |
Family
ID=87325589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310121295.7A Pending CN116501864A (zh) | 2023-02-16 | 2023-02-16 | 交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501864A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756624A (zh) * | 2023-08-17 | 2023-09-15 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
-
2023
- 2023-02-16 CN CN202310121295.7A patent/CN116501864A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756624A (zh) * | 2023-08-17 | 2023-09-15 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
CN116756624B (zh) * | 2023-08-17 | 2023-12-12 | 中国民用航空飞行学院 | 一种面向民航监管事项检查记录处理的文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN107506414B (zh) | 一种基于长短期记忆网络的代码推荐方法 | |
Lyu et al. | Long short-term memory RNN for biomedical named entity recognition | |
US11580415B2 (en) | Hierarchical multi-task term embedding learning for synonym prediction | |
Zhou et al. | Joint extraction of multiple relations and entities by using a hybrid neural network | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
Ciftci et al. | A deep learning approach to sentiment analysis in Turkish | |
Zhang et al. | Deep autoencoding topic model with scalable hybrid Bayesian inference | |
CN112836051B (zh) | 一种在线自学习的法院电子卷宗文本分类方法 | |
WO2023045725A1 (zh) | 用于数据集创建的方法、电子设备和计算机程序产品 | |
CN113157919A (zh) | 语句文本方面级情感分类方法及系统 | |
CN116501864A (zh) | 交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 | |
Yang et al. | Text classification based on convolutional neural network and attention model | |
Ouyang et al. | Chinese named entity recognition based on B-LSTM neural network with additional features | |
Han et al. | DTaxa: An actor–critic for automatic taxonomy induction | |
CN109977194B (zh) | 基于无监督学习的文本相似度计算方法、系统、设备及介质 | |
Zhang et al. | Meta-complementing the semantics of short texts in neural topic models | |
CN112131363B (zh) | 自动问答方法、装置、设备及存储介质 | |
Agathangelou et al. | A hybrid deep learning network for modelling opinionated content | |
Ruan et al. | Promoting diversity for end-to-end conversation response generation | |
Hameed et al. | Short Text Semantic Similarity Measurement Approach Based on Semantic Network | |
Hameed | User ticketing system with automatic resolution suggestions | |
Chauhan | Sentiment analysis of customer reviews using deep learning techniques | |
Hilmiaji et al. | Identifying Emotion on Indonesian Tweets using Convolutional Neural Networks | |
Piad-Morffis et al. | A Neural Network Component for Knowledge-Based Semantic Representations of Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |