CN112732872B - 面向生物医学文本的基于主题注意机制的多标签分类方法 - Google Patents
面向生物医学文本的基于主题注意机制的多标签分类方法 Download PDFInfo
- Publication number
- CN112732872B CN112732872B CN202110038330.XA CN202110038330A CN112732872B CN 112732872 B CN112732872 B CN 112732872B CN 202110038330 A CN202110038330 A CN 202110038330A CN 112732872 B CN112732872 B CN 112732872B
- Authority
- CN
- China
- Prior art keywords
- document
- topic
- sentence
- label
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了面向生物医学文本的基于主题注意机制的多标签分类方法,包括:生物医学文本预处理;对预处理后的文本构建词向量特征;构建词/句子级的层次注意力机制获得生物医学文档的层次注意力表示;利用词袋模型对文档进行表示;利用神经主题模型获得语料库的词分布和文档主题分布;构建主题注意机制获得文档的主题注意力表示;将两种表示连接后通过神经模型进行多标签分类;在训练集中训练神经网络模型,保存最优模型参数;使用最优模型在测试集上测试,得到样本的多个标签。本发明采用了基于门控循环单元的层次注意力机制和主题注意力机制来进行多标签分类任务,相比以往的多标签文本分类方法,本发明具有更好的分类效果。
Description
技术领域
本发明涉及利用计算机对生物医学文本进行多标签文本分类的方法,属于信息处理技术领域。
背景技术
在生物医学领域,越来越多的科学文献为科研人员提供了更丰富的信息来源,同时也给信息检索带来了更大的困难。解决这一问题的有效方法是在生物医学文献数据库中,为每个文档标注一个标签列表。然而,面对海量的生物医学文献,通过人力进行标注的成本是极其昂贵的,而且耗费大量时间。很显然,运用自然语言处理技术进行文本的自动分类变得尤为重要。文本分类是为文本指定一个或多个预定义标签的任务,在生物医学领域有着广泛的应用,包括生物医学文献索引、公共卫生主题推文分类、自动诊断代码分配等。文本分类可以进一步分为两种类型:文本单标签分类与文本多标签分类。前者是指一个样本文本只会有一个标签;后者是指每个文本会有大于等于一个标签。事实上,在生物医学文献中,大多数的论文都会有多个相关主题与之对应,因而每个文档会对应多个标签,属于文本多标签分类范畴。
文本多标签分类任务是机器学习领域的热门任务之一。针对这个问题的解决方法包括:传统的机器学习方法和深度学习方法。传统的机器学习方法采用一些基础的特征工程方法,例如TF-IDF(Term Frequency–Inverse Document Frequency)等对文档内容进行特征表示,然后使用支持向量机(Support Vector Machine,SVM)等分类器进行分类;而深度学习方法,则选择使用更先进的CNN或RNN对文本进行特征抽取,然后进行分类。然而上述方法大多忽略了两个问题:第一,生物医学文本,大多由多个长文本句子组成,不同的句子有着不同的重要程度。仅使用CNN或RNN会忽略长文本中的一些重要句子或内容;第二,生物医学文本具有全局主题信息,这些全局的主题信息可以帮助分类器识别出更多的相关标签。目前的生物医学文本多标签分类方法却忽略了这两个因素。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种面向生物医学文本的基于主题注意力的多标签文本分类方法,该方法能够通过词级注意力机制和句子级注意力机制、以及主题注意力机制进行多标签文本分类任务,可以弥补当前方法的一些局限性。
技术方案:为实现上述目的,本发明采用的技术方案为:
面向生物医学文本的基于主题注意机制的多标签分类方法,包括以下步骤:
(1)对生物医学文本进行预处理,将文档进行分词以及去除停用词;
(2)通过基于门控循环单元的单词级注意力机制对词编码获得句子的表示;包括:使用门控循环单元对单词的嵌入进行编码获得单词隐状态,使用单词级的注意力机制对每个单词的表示进行加权求和,获得句子的表示;
(3)通过基于门控循环单元的句子级注意力机制对句子编码获得文档的表示;包括:使用门控循环单元对句子的表示进行编码获得句子隐状态,使用句子级的注意力机制对每个单词的表示进行加权求和,获得文档的层次注意力表示;
(4)通过词袋模型对文档进行表示,然后利用主题模型获得数据集中的词分布以及所有文档的主题分布;
(5)通过主题分布和词分布构建主题注意力机制,通过主题注意力机制获得文档的主题注意力表示;
(6)将文档的层次注意力表示和文档的主题注意力表示进行连接,通过一个多层感知机将其映射为标签分布,使用Sigmoid激活函数将其映射为各标签上的概率分布;
作为优选,所述步骤(1)中的生物医学文本预处理包括:对文档进行分词,过滤一些停用词等没有语义的单词。
作为优选,所述步骤(2)中对于句子si来说,句子的隐状态可以通过门控循环单元表示为句子的隐状态Hi由每一个词wij的隐状态hij组成,wij代表句子si的第j个词的词向量,Ni是句子长度。句子si表示为:
作为优选,所述步骤(3)中对文档来说,文档的隐状态可以通过门控循环单元表示为文档隐状态H由每一个句子si的隐状态组成,代表文档d中第i个句子si的表示,M代表文档d中的句子数量。文档d的层次注意力表示dh为:
作为优选,所述步骤(5)中构建主题注意力机制包括:
其中WE、bE是模型参数,tanh(.)是双曲正切激活函数。
b)将文档d的层次注意力表示dh与文档主题嵌入Etopic构建文档-主题相似度矩阵Md,然后利用文档-主题相似度矩阵Md与文档d的主题分布θd来获得文档d的主题注意力表示dtopic,计算方法如下:
Md=dh·θd
dtopic=Md·θd
作为优选,所述步骤(6)包括将文档d的层次注意力表示dh和主题注意力表示dtopic连接,然后通过多层感知机将其映射为标签分布,并使用Sigmoid激活函数将其映射为各标签上的概率分布,计算方法如下:
dis=Sigmoid(MLP(dh:dtopic))
其中Sigmoid(.)是Sigmoid激活函数,:是向量连接操作,然后利用预先设定的阈值,选出dis中大于阈值的标签得到文档d的标签集;
作为优选,文本多标签任务旨在学习标签分布函数g(di)=[g1(di),g2(di),...,gT(di)]为每一个标签cj(j=1,2,...,T)分配一个置信度gj(di),其中T为标签数量,di为训练集中的第i个生物医学文档;学习时使用的二元交叉熵损失函数表示为:
附图说明
图1是本发明实施例的方法流程图。
图2是本发明实施基于主题注意力的多标签文本分类模型示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
问题可以描述如下:假设有T个标签集合C={c1,...,cT}和K个文档D={d1,d2,...,dK},每个文档di都有相应的标签集合多标签文本分类任务旨在学习标签打分函数g(di)=[g1(di),g2(di),...,gT(di)]为每个标签cj(j=1,2,...,T)分配一个分数gj(di)。为了区分文档具有的标签和无关标签,定义一个阈值gθ(di),该阈值通常设置为固定值,分数低于阈值则认为样本不具有该标签。
本发明实施例公开的一种面向生物医学文本的基于主题注意力的多标签文本分类模型。如图1所示,主要包括如下步骤:
S1:对于生物医学文本的数据集中给定的一个文档d进行分词,去除停用词,得到处理后的文档d={s1,s2,...,sM}以及句子其中si表示文档d中的第i句的单词序列,wij表示文档d的第i个句子中的第j个单词的词向量,M是文档中的句子数目,Ni是句子中的单词数目。
S2:构建基于GRU(门控循环单元)的单词级注意力机制对词编码获得句子的表示,具体包括:
首先针对句子中的每一个词,将其映射为一个预先训练好的词向量,则一个句子可以表示为wij代表句子si的第j个词的词向量,Ni是句子长度。由于自然语言通常具有较长的文档,本方法选择使用GRU这一循环神经网络作为编码器。在句子级循环神经网络中,对于句子si来说,状态可以表示为:
它包括对于每一个单词wij的隐状态对于一个句子中的所有单词而言,每一个单词对于句子的重要程度是不同的,因此引入了单词级别的注意力机制来提取重要的单词,并将这些注意力信息和词汇表示进行加权,形成了最终的句子表示。计算方法如下:
S3:构建基于GRU的句子级注意力机制对句子编码获得文档的表示,具体包括:
在句子级注意力机制中,使用了基于GRU的循环神经网络作为编码器,对于文档d来说,状态可以表示为:
它是由每一个句子si的隐状态组成。对于一个文档中的所有句子而言,每一个句子对于文档的重要程度是不同的,因此引入了句子级别的注意力机制来提取重要的句子,并将这些注意力信息和句子表示进行加权,形成了最终的句子层次注意力表示dh。计算方法如下:
S4:对文档d中出现的单词利用词袋模型进行表示,则一个文档可以表示为其中代表为词表中第i个词在文档d中出现的次数,V指词表中所有词的数量。然后通过主题模型ProdLDA获得文档d的主题分布和语料库中的词分布其中K为主题模型中设定的主题数量。
其中WE、bE是模型参数,tanh(.)是双曲正切激活函数。然后将文档d的层次注意力表示dh与文档嵌入进行点积,求解文档-主题相似度矩阵Md;将文档-主题相似度矩阵Md与文档d的主题分布θd进行点积,获得第i个文档的主题注意力表示dtopic。计算方法如下:
Md=dh·Etopic
dtopic=Md·θd
S6:将文档d所对应的层次注意力表示dh和主题注意力表示dtopic连接,通过一个多层感知机将其映射为标签分布,并使用Sigmoid函数将其映射为各标签上的概率分布,具体如下:
dis=Sigmoid(MLP(dh:dtopic))
其中Sigmoid(.)是Sigmoid激活函数,:是指向量连接操作。然后使用预先设定的阈值,选出dis中大于阈值的标签得到文档d的标签集合Ld={l1,l2,...,lQ}。
多标签文本分类任务是学习到标签分数函数g,为了训练模型学习该函数,使用了二元交叉熵损失函数,具体如下:
一种面向生物医学文本的基于主题注意力的多标签文本分类方法的算法流程如下:
本发明在实验过程中,实验参数设置如下:使用gensim对文档进行分词,预训练词向量使用Bert,词向量维度为768,中间层隐向量维度为100,主题嵌入维度为150,标签阈值设置为0.5。使用Adam优化器对神经网络进行优化,。在癌症症状(Hallmarks of cancersclassification)数据集上Precision为0.882,Recall为0.887,F1为0.885,性能均优于现有生物医学文本多标签分类方法。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.面向生物医学文本的基于主题注意机制的多标签分类方法,其特征在于,包括以下步骤:
(1)对生物医学文本进行预处理,将文档进行分词以及去除停用词;
(2)通过基于门控循环单元的单词级注意力机制对词编码获得句子的表示;包括:
使用门控循环单元对单词的嵌入进行编码获得单词隐状态,使用单词级的注意力机制对每个单词的表示进行加权求和,获得句子的表示;
(3)通过基于门控循环单元的句子级注意力机制对句子编码获得文档的表示;包括:
使用门控循环单元对句子的表示进行编码获得句子隐状态,使用句子级的注意力机制对每个单词的表示进行加权求和,获得文档的层次注意力表示;
(4)通过词袋模型对文档进行表示,然后利用主题模型获得数据集中的词分布以及所有文档的主题分布;
(5)通过主题分布和词分布构建主题注意力机制,通过主题注意力机制获得文档的主题注意力表示;
(6)将文档的层次注意力表示和文档的主题注意力表示进行连接,通过一个多层感知机将其映射为标签分布,使用Sigmoid激活函数将其映射为各标签上的概率分布。
2.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法,其特征在于,所述步骤(1)生物医学文本预处理包括:对文档进行分词,过滤没有语义的单词,包括停用词。
7.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法,其特征在于,所述步骤(6)包括将文档d的层次注意力表示dh和主题注意力表示dtopic连接,然后通过多层感知机将其映射为标签分布,并使用Sigmoid激活函数将其映射为各标签上的概率分布,计算方法如下:
dis=Sigmoid(MLP(dh:dtopic))
其中Sigmoid(.)是Sigmoid激活函数,:是向量连接操作,然后利用预先设定的阈值,选出dis中大于阈值的标签得到文档d的标签集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038330.XA CN112732872B (zh) | 2021-01-12 | 2021-01-12 | 面向生物医学文本的基于主题注意机制的多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038330.XA CN112732872B (zh) | 2021-01-12 | 2021-01-12 | 面向生物医学文本的基于主题注意机制的多标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732872A CN112732872A (zh) | 2021-04-30 |
CN112732872B true CN112732872B (zh) | 2022-11-18 |
Family
ID=75590564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110038330.XA Active CN112732872B (zh) | 2021-01-12 | 2021-01-12 | 面向生物医学文本的基于主题注意机制的多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732872B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420154B (zh) * | 2021-08-25 | 2021-12-10 | 成都索贝数码科技股份有限公司 | 基于层次注意的分层多标签文本分类模型的构建方法 |
CN114880462A (zh) * | 2022-02-25 | 2022-08-09 | 北京百度网讯科技有限公司 | 医用文档的分析方法、装置、设备以及存储介质 |
CN116206755B (zh) * | 2023-05-06 | 2023-08-22 | 之江实验室 | 一种基于神经主题模型的疾病检测与知识发现装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134786B (zh) * | 2019-05-14 | 2021-09-10 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN111339440B (zh) * | 2020-02-19 | 2024-01-23 | 东南大学 | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 |
CN111949790A (zh) * | 2020-07-20 | 2020-11-17 | 重庆邮电大学 | 基于lda主题模型与分层神经网络的情感分类方法 |
-
2021
- 2021-01-12 CN CN202110038330.XA patent/CN112732872B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112732872A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875051B (zh) | 面向海量非结构化文本的知识图谱自动构建方法及系统 | |
CN111368528B (zh) | 一种面向医学文本的实体关系联合抽取方法 | |
CN109697232B (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
CN112732872B (zh) | 面向生物医学文本的基于主题注意机制的多标签分类方法 | |
CN109783818B (zh) | 一种企业行业分类方法 | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN108829818A (zh) | 一种文本分类方法 | |
CN109977416A (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN117009490A (zh) | 基于知识库反馈的生成式大语言模型的训练方法和装置 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN111581385A (zh) | 一种不平衡数据采样的中文文本类别识别系统及方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113516198B (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN113849653B (zh) | 一种文本分类方法及装置 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN113434688A (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN111339777A (zh) | 基于神经网络的医学相关意图识别方法及系统 | |
CN113987175A (zh) | 一种基于医学主题词表增强表征的文本多标签分类方法 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |