CN112765353A - 一种基于科研文本的生物医学学科分类方法及装置 - Google Patents

一种基于科研文本的生物医学学科分类方法及装置 Download PDF

Info

Publication number
CN112765353A
CN112765353A CN202110085738.2A CN202110085738A CN112765353A CN 112765353 A CN112765353 A CN 112765353A CN 202110085738 A CN202110085738 A CN 202110085738A CN 112765353 A CN112765353 A CN 112765353A
Authority
CN
China
Prior art keywords
convolution
word
text
head
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110085738.2A
Other languages
English (en)
Other versions
CN112765353B (zh
Inventor
王进
马珍珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110085738.2A priority Critical patent/CN112765353B/zh
Publication of CN112765353A publication Critical patent/CN112765353A/zh
Application granted granted Critical
Publication of CN112765353B publication Critical patent/CN112765353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明属于文本分类技术领域,特别涉及一种基于科研文本的生物医学学科分类方法及装置,方法包括获取文本数据,对文本数据进行分词、去除停用词处理后,进行缩写词的扩展、大小写转换、词形还原操作;获取每个词对应的词向量;构建改进的Inception网络,并利用该网络对词向量进行特征提取;将从训练数据中提取的特征输入支持向量机模型中,通过预测类标与训练数据的标准类标进行比较,通过反向传播更新支持向量机模型;将待预测的文本数据输入改进的Inception网络提取特征,并将提取的特征输入经过训练的支持向量机模型,得到该待预测文本数据的类标;本发明减少了计算资源消耗,提升了生物医学文本的学科分类的分类性能。

Description

一种基于科研文本的生物医学学科分类方法及装置
技术领域
本发明属于文本分类技术领域,特别涉及一种基于科研文本的生物医学学科分类方法及装置。
背景技术
文本分类技术的不断发展与深入,己逐渐在邮件过滤、信息检索、文本情感分析、文本索引等领域表现出广泛的应用前景,在文本分类过程中,分类主题的细化,复杂的分类问题,以及对句子、文章的泛化处理的能力,如何将浅层的字面上的文本信息结合上下文信息、词与词之间的联系等作为分类问题的难点,急需对算法进行创新改革,突破瓶颈。各医疗卫生机构更加重视自身学科建设,以学科评价排名为亮点的各种医院排行榜越来越受关注。在开展学科评价排名,尤其针对学科的科研能力水平展开评价时,需要将评价数据按照评价体系的学科分类划分到不同的学科类别中,其中就涉及包括SCI论文、临床试验项目、授权专利等在内的生物医学文本数据。
针对生物医学文本的学科分类,中国医院科技量值评价研究课题组先后采用词表匹配和基于支持向量机模型的文本分类算法。由于学科差异性,一些学科的研究内容与其他学科交叉较少,容易区分,利用词表和基于支持向量机模型的文本分类算法标引效果较好,如眼科学、骨外科学等。但也有部分学科由于其研究内容与其他学科交叉较多,利用基于字符串匹配的词表匹配法和基于支持向量机模型的文本分类算法分类效果不太理想,仍需采用人工标引方法,通过人工阅读理解文本语义并结合上下文内容确定相关学科,如神经病学、消化病学等。而随着深度学习在文本分类领域的应用研究越来越多,在针对公开的新闻语料或数据集的主题分类研究或者社交软件留言的情感分类研究中,基于深度学习的文本分类方法比传统的浅层机器学习模型具备更好的分类性能。
传统文本分类算法存在的特征维度过高、数据稀疏以及深度学习模型训练时间长的问题。SVM算法在进行多类与多标签的文本分类任务时,需要训练多个分类器,导致时间成本与计算开销大大增高。同时词袋模型带来了特征维数高、数据稀疏以及文本分类精度低等问题。卷积神经网络的优点是具有良好的提取有用特征的能力。但是卷积神经网络可以提取文本的短语级特征,但是不能很好地捕获文本的结构信息;同时卷积神经网络优势在于可以应用更深更广的卷积层来提取更丰富的语义特征,带来了昂贵的计算成本,并且在量级差异较大的数据集中不具备普适性;而注意力机制能够学习到不同词或短语对文本整体语义的分布。GoogLeNet网络的核心模块Inception,既能够保持网络结构的稀疏性,并且充分利用密集矩阵的高效计算,但也存在计算量比较大的问题。
发明内容
为了提高学科评估中生物医学文本的学科分类效率与质量,减少CNN的网络复杂性,防止过拟合,更好的提取文本的短语特征及上下文特征,本发明提出一种基于科研文本的生物医学学科分类方法及装置,所述方法具体包括以下步骤:
S1、获取文本数据,对文本数据进行分词、去除停用词处理后,进行缩写词的扩展、大小写转换、词形还原操作;
S2、利用Word2vec模型中的Skip-gram模型对预处理后的词进行训练,得到每个词对应的词向量;
S3、构建改进的Inception网络,并利用该网络对词向量进行特征提取;
S4、将从训练数据中提取的特征输入支持向量机模型中,通过预测类标与训练数据的标准类标进行比较,通过反向传播更新支持向量机模型;
S5、将待预测的文本数据输入改进的Inception网络提取特征,并将提取的特征输入经过训练的支持向量机模型,得到该待预测文本数据的类标。
进一步的,改进的Inception网络包括四个分支,第一个分支包括卷积核为1*1的卷积层;第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层;四个分支得到的特征图通过FilterConcatenation层将相同尺寸的图按深度链接起来。
进一步的,深度可分离空洞卷积包括深度空洞卷积和逐点卷积,深度空洞卷积每一个通道只被一个卷积核卷积,卷积核的尺寸为3*3,空洞率为r;逐点卷积为卷积核大小为1*1的卷积运算。
进一步的,多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取具体包括和以下步骤:
对输入的词向量表示进行多次不同映射,第i头对于新文本表示的映射表示为:
Figure BDA0002910736140000031
对于每一头的映射输出,进行一次注意力池化,第i头得到的注意力权重:
Figure BDA0002910736140000032
随后将每个表示的特征值与其权重进行加权求和:
Figure BDA0002910736140000033
使用tanh函数激活,得到每一头的输出:
Figure BDA0002910736140000034
将每一头的输出结果进行拼接后再进行融合,表示为:
Figure BDA0002910736140000035
y(6)=tanh(W(6)y(5)+b(6));
其中,Wi (2)表示第i头的权重矩阵,
Figure BDA0002910736140000037
表示第i头的偏置系数;X表示样本词向量;ui表示第i头中随机初始化的参数向量;
Figure BDA0002910736140000036
表示拼接操作;y(5)表示对H个注意力池化输出进行拼接的结果,y(6)表示融合的结果;W(6)表示权重矩阵,bi (6)表示偏置系数。
进一步的,支持向量机模型在反向传播过程中的损失函数为改进的聚焦均分损失函数,表示为:
Figure BDA0002910736140000041
其中,α为平衡因子,yi是标签数据,yi'是预测数据,δ是极小值,γ是聚焦权重,n为样本数量。
本发明还提出一种基于科研文本的生物医学学科分类装置,包括数据采集模块、数据预处理模块、词向量获取模块、特征提取模块以及分类模块,其中:
数据采集模块包括历史数据获取以及待预测数据获取,历史数据用于对分类模块进行网络更新;
数据预处理模块,用于对获取的数据文本中的词,该模块包括分词单元、去除停用词单元、缩写词的扩展单元、大小写转换单元、词干提取单元及词形还原单元;
词向量获取模块,用于将预处理模块得到的词进行映射,得到每个词对应的词向量;
特征提取模块,用于从得到的词向量中提取特征;
分类模块,用于将词向量的特征输入利用历史数据进行训练的支持向量机模型得到分类结果。
本发明为了提高生物医学文本的学科分类的分类性能,采用了能够保持网络结构的稀疏性,并且充分利用密集矩阵的高效计算的Inception进行改进,采用深度可分离卷积代替传统卷积,减少计算成本的同时可很好的提取文本的短语特征和上下文特征;采用空洞卷积与可分离卷积结合,获得更大感受野的局部信息,提高网络对局部信息的感知能力;利用小卷积核堆叠代替大卷积核,在感受野不减小的情况下减少参数的计算;采用多头注意力池化,考虑了每个新的词表示所包含的信息对分类的贡献,提取到了更多有助于分类的重要特征,多头注意力池化在不同的特征表示子空间中进行多次注意力池化,更加充分地提取了文本重要特征,同时利用矩阵并行计算,多个注意力头之间也可以并行计算,耗费时间较少;模型采用聚焦损失函数作为训练过程中的损失函数,缓解训练过程中样本数量和难易程度不均衡带来的问题,提高综合检测率;模型采用聚焦均方损失函数作为训练过程中的损失函数,缓解训练过程中样本数量和难易程度不均衡带来的问题,提高综合检测率。总的来说,改进后的医学文本分类模型相比于传统其他分类模型减少了计算资源的消耗,减少CNN的网络复杂性,防止过拟合,考虑了局部和全局信息,更好的提取文本的短语特征及上下文特征,而注意力机制能够学习到不同词或短语对文本整体语义的分布,更好的提高模型的分类准确性。
附图说明
图1为本发明一种基于科研文本的生物医学学科分类方法流程图;
图2为本发明一种基于科研文本的生物医学学科分类方法中改进的Inception网络结构示意图;
图3为本发明一种基于科研文本的生物医学学科分类方法中深度可分离空洞卷结构示意图;
图4为本发明一种基于科研文本的生物医学学科分类方法中多头注意力池化结构示意图;
图5为本发明一种基于科研文本的生物医学学科分类装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于科研文本的生物医学学科分类方法,如图1,具体包括以下步骤:
S1、获取文本数据,对文本数据进行分词、去除停用词处理后,进行缩写词的扩展、大小写转换、词形还原操作;
S2、利用Word2vec模型中的Skip-gram模型对预处理后的词进行训练,得到每个词对应的词向量;
S3、构建改进的Inception网络,并利用该网络对词向量进行特征提取;
S4、将从训练数据中提取的特征输入支持向量机模型中,通过预测类标与训练数据的标准类标进行比较,通过反向传播更新支持向量机模型;
S5、将待预测的文本数据输入改进的Inception网络提取特征,并将提取的特征输入经过训练的支持向量机模型,得到该待预测文本数据的类标。
在本实施例中,对分词进行词还原操作是指把一个任何形式的语言词汇还原为一般形式,获得具有实际意义的词的原形。具体实施过程中,采用NLTK库中词形还原工具与WordNet词典结合,对词典中的查询进行词缀删除及转换,获得有效的原形。
在本实施例中改进的Inception网络,如图2,包括四个分支,第一个分支包括卷积核为1*1的卷积层;第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层;四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。
进一步的,如图3,深度可分离空洞卷积包括深度空洞卷积和逐点卷积,深度空洞卷积每一个通道只被一个卷积核卷积,卷积核的尺寸为3*3,空洞率为r;逐点卷积为卷积核大小为1*1的卷积运算。
作为一种可选的实施方式,本实施例中改进的Inception网络中,第二分支中的深度可分离卷积层选择空洞率r=1,则第二分支的3*3空洞卷积核的感受野同3*3的卷积核感受野相同;第三分支中第一个深度可分离卷积层选择空洞率r=1,第二个深度可分离卷积层选择空洞率r=2。当空洞率r=2时,3*3空洞卷积核的感受野同5*5尺寸的卷积核感受野相同,使用不同空洞率的空洞卷积串联或者并行操作来分割不同尺度的目标,可以捕获不同尺度的语义信息。
在本实施例中,多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取,如图4,具体包括和以下步骤:
对输入的词向量表示进行多次不同映射,第i头对于新文本表示的映射表示为:
Figure BDA0002910736140000071
对于每一头的映射输出,进行一次注意力池化,第i头得到的注意力权重:
Figure BDA0002910736140000072
随后将每个表示的特征值与其权重进行加权求和:
Figure BDA0002910736140000073
使用tanh函数激活,得到每一头的输出:
Figure BDA0002910736140000074
将每一头的输出结果进行拼接后再进行融合,表示为:
Figure BDA0002910736140000075
y(6)=tanh(W(6)y(5)+b(6));
其中,Wi (2)表示第i头的权重矩阵,
Figure BDA0002910736140000078
表示第i头的偏置系数;X表示样本词向量;ui表示第i头中随机初始化的参数向量;
Figure BDA0002910736140000076
表示拼接操作;y(5)表示对H个注意力池化输出进行拼接的结果,y(6)表示融合的结果;W(6)表示权重矩阵,b(6)表示偏置系数。
在本实施例中,支持向量机模型在反向传播过程中的损失函数为改进的聚焦均分损失函数,表示为:
Figure BDA0002910736140000077
其中,α为平衡因子,yi是标签数据,yi'是预测数据,δ是极小值,γ是聚焦权重,n为样本数量。
本实施例改进的聚焦均分损失函数在均方损失函数的基础上增加前置权重和平衡因子,缓解训练过程中样本数量和难易程度不均衡带来的问题,提高综合检测率;优选的,当训练正常区域样本数量较多时,设置平衡因子为0.5。
本实施例还提出一种基于科研文本的生物医学学科分类装置,如图5,包括数据采集模块、数据预处理模块、词向量获取模块、特征提取模块以及分类模块,其中:
数据采集模块包括历史数据获取以及待预测数据获取,历史数据用于对分类模块进行网络更新;
数据预处理模块,用于对获取的数据文本中的词,该模块包括分词单元、去除停用词单元、缩写词的扩展单元、大小写转换单元、词干提取单元及词形还原单元;
词向量获取模块,用于将预处理模块得到的词进行映射,得到每个词对应的词向量;
特征提取模块,用于从得到的词向量中提取特征;
分类模块,用于将词向量的特征输入利用历史数据进行训练的支持向量机模型得到分类结果。
特征提取模块,即改进的Inception网络,包括四个分支,第一个分支包括卷积核为1*1的卷积层;第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层;四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于科研文本的生物医学学科分类方法,其特征在于,具体包括以下步骤:
S1、获取文本数据,对文本数据进行分词、去除停用词处理后,进行缩写词的扩展、大小写转换、词形还原操作;
S2、利用Word2vec模型中的Skip-gram模型对预处理后的词进行训练,得到每个词对应的词向量;
S3、构建改进的Inception网络,并利用该网络对词向量进行特征提取;
S4、将从训练数据中提取的特征输入支持向量机模型中,通过预测类标与训练数据的标准类标进行比较,通过反向传播更新支持向量机模型;
S5、将待预测的文本数据输入改进的Inception网络提取特征,并将提取的特征输入经过训练的支持向量机模型,得到该待预测文本数据的类标。
2.根据权利要求1所述的一种基于科研文本的生物医学学科分类方法,其特征在于,改进的Inception网络包括四个分支,第一个分支包括卷积核为1*1的卷积层;第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层;四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。
3.根据权利要求2所述的一种基于科研文本的生物医学学科分类方法,其特征在于,深度可分离空洞卷积包括深度空洞卷积和逐点卷积,深度空洞卷积的卷积核的尺寸为3*3,空洞率为r;逐点卷积为卷积核大小为1*1的卷积运算。
4.根据权利要求2所述的一种基于科研文本的生物医学学科分类方法,其特征在于,多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取具体包括和以下步骤:
对输入的词向量表示进行多次不同映射,第i头对于文本表示的映射表示为:
Figure FDA0002910736130000021
对于每一头的映射输出,进行一次注意力池化,第i头得到的注意力权重:
Figure FDA0002910736130000022
随后将每个表示的特征值与其权重进行加权求和:
Figure FDA0002910736130000023
使用tanh函数激活,得到每一头的输出:
Figure FDA0002910736130000024
将每一头的输出结果进行拼接后再进行融合,表示为:
Figure FDA0002910736130000025
其中,Wi (2)表示第i头的权重矩阵,
Figure FDA0002910736130000026
表示第i头的偏置系数;X表示样本词向量;ui表示第i头中随机初始化的参数向量;⊕表示拼接操作;y(5)表示对H个注意力池化输出进行拼接的结果,y(6)表示融合的结果;W(6)表示权重矩阵,
Figure FDA0002910736130000027
表示偏置系数。
5.根据权利要求1所述的一种基于科研文本的生物医学学科分类方法,其特征在于,支持向量机模型在反向传播过程中的损失函数为改进的聚焦均分损失函数,表示为:
Figure FDA0002910736130000028
其中,α为平衡因子,yi是标签数据,yi'是预测数据,δ是极小值,γ是聚焦权重,n为样本数量。
6.一种基于科研文本的生物医学学科分类装置,其特征在于,包括数据采集模块、数据预处理模块、词向量获取模块、特征提取模块以及分类模块,其中:
数据采集模块包括历史数据获取以及待预测数据获取,历史数据用于对分类模块进行网络更新;
数据预处理模块,用于对获取的数据文本中的词,该模块包括分词单元、去除停用词单元、缩写词的扩展单元、大小写转换单元、词干提取单元及词形还原单元;
词向量获取模块,用于将预处理模块得到的词进行映射,得到每个词对应的词向量;
特征提取模块,用于从得到的词向量中提取特征;
分类模块,用于将词向量的特征输入利用历史数据进行训练的支持向量机模型得到分类结果。
7.根据权利要求1所述的一种基于科研文本的生物医学学科分类装置,其特征在于,特征提取模块为改进的Inception网络,改进的Inception网络包括四个分支,第一个分支包括卷积核为1*1的卷积层;第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层;第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层;四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。
8.根据权利要求7所述的一种基于科研文本的生物医学学科分类方法,其特征在于,深度可分空洞卷积深度可分离空洞卷积包括深度空洞卷积和逐点卷积,深度空洞卷积每一个通道只被一个卷积核卷积,卷积核的尺寸为3*3,空洞率为r;逐点卷积为卷积核大小为1*1的卷积运算。
9.根据权利要求7所述的一种基于科研文本的生物医学学科分类方法,其特征在于,多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取包括以下步骤:
对输入的词向量表示进行多次不同映射,第i头对于新文本表示的映射表示为:
Figure FDA0002910736130000031
对于每一头的映射输出,进行一次注意力池化,第i头得到的注意力权重:
Figure FDA0002910736130000032
随后将每个表示的特征值与其权重进行加权求和:
Figure FDA0002910736130000033
使用tanh函数激活,得到每一头的输出:
Figure FDA0002910736130000041
将每一头的输出结果进行拼接后再进行融合,表示为:
Figure FDA0002910736130000042
其中,Wi (2)表示第i头的权重矩阵,
Figure FDA0002910736130000043
表示第i头的偏置系数;X表示样本词向量;ui表示第i头中随机初始化的参数向量;⊕表示拼接操作;y(5)表示对H个注意力池化输出进行拼接的结果,y(6)表示融合的结果;W(6)表示权重系数,b(6)表示偏置系数。
10.根据权利要求1所述的一种基于科研文本的生物医学学科分类装置,其特征在于,分类模块利用历史数据进行训练支持向量机模型时,通过反向传播更新支持向量机模型的过程中,损失函数表示为:
Figure FDA0002910736130000044
其中,α为平衡因子,y是标签数据,y'是预测数据,δ是极小值,γ是聚焦权重,n为样本数量。
CN202110085738.2A 2021-01-22 2021-01-22 一种基于科研文本的生物医学学科分类方法及装置 Active CN112765353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110085738.2A CN112765353B (zh) 2021-01-22 2021-01-22 一种基于科研文本的生物医学学科分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110085738.2A CN112765353B (zh) 2021-01-22 2021-01-22 一种基于科研文本的生物医学学科分类方法及装置

Publications (2)

Publication Number Publication Date
CN112765353A true CN112765353A (zh) 2021-05-07
CN112765353B CN112765353B (zh) 2022-11-04

Family

ID=75702663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110085738.2A Active CN112765353B (zh) 2021-01-22 2021-01-22 一种基于科研文本的生物医学学科分类方法及装置

Country Status (1)

Country Link
CN (1) CN112765353B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688234A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本分类管理方法、装置、终端及可读存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
US20180137406A1 (en) * 2016-11-15 2018-05-17 Google Inc. Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs
CN109214406A (zh) * 2018-05-16 2019-01-15 长沙理工大学 基于D-MobileNet神经网络图像分类方法
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
US10223616B1 (en) * 2018-06-30 2019-03-05 Figleaf Limited System and method identification and classification of internet advertising
CN109949304A (zh) * 2018-03-29 2019-06-28 北京昆仑医云科技有限公司 图像检测学习网络的训练和获取方法、图像检测装置和介质
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110472539A (zh) * 2019-08-01 2019-11-19 上海海事大学 一种文本检测方法、装置及计算机存储介质
CN110717451A (zh) * 2019-10-10 2020-01-21 电子科技大学 一种基于深度学习的药用植物叶部病害图像识别方法
CN110866542A (zh) * 2019-10-17 2020-03-06 西安交通大学 一种基于特征可控融合的深度表示学习方法
CN111126333A (zh) * 2019-12-30 2020-05-08 齐齐哈尔大学 一种基于轻量卷积神经网络的垃圾分类方法
CN111274995A (zh) * 2020-02-13 2020-06-12 腾讯科技(深圳)有限公司 视频分类方法、装置、设备和计算机可读存储介质
CN111400535A (zh) * 2020-03-11 2020-07-10 广东宜教通教育有限公司 轻量级人脸识别方法、系统、计算机设备及存储介质
CN111651593A (zh) * 2020-05-08 2020-09-11 河南理工大学 基于词向量和字向量混合模型的文本情感分析方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
CN111860046A (zh) * 2019-04-26 2020-10-30 四川大学 一种改进MobileNet模型的人脸表情识别方法
CN112132813A (zh) * 2020-09-24 2020-12-25 中国医学科学院生物医学工程研究所 基于改进的UNet网络模型的皮肤超声影像分割方法
CN112199496A (zh) * 2020-08-05 2021-01-08 广西大学 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137406A1 (en) * 2016-11-15 2018-05-17 Google Inc. Efficient Convolutional Neural Networks and Techniques to Reduce Associated Computational Costs
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN109949304A (zh) * 2018-03-29 2019-06-28 北京昆仑医云科技有限公司 图像检测学习网络的训练和获取方法、图像检测装置和介质
CN109214406A (zh) * 2018-05-16 2019-01-15 长沙理工大学 基于D-MobileNet神经网络图像分类方法
US10223616B1 (en) * 2018-06-30 2019-03-05 Figleaf Limited System and method identification and classification of internet advertising
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN111860046A (zh) * 2019-04-26 2020-10-30 四川大学 一种改进MobileNet模型的人脸表情识别方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110472539A (zh) * 2019-08-01 2019-11-19 上海海事大学 一种文本检测方法、装置及计算机存储介质
CN110717451A (zh) * 2019-10-10 2020-01-21 电子科技大学 一种基于深度学习的药用植物叶部病害图像识别方法
CN110866542A (zh) * 2019-10-17 2020-03-06 西安交通大学 一种基于特征可控融合的深度表示学习方法
CN111126333A (zh) * 2019-12-30 2020-05-08 齐齐哈尔大学 一种基于轻量卷积神经网络的垃圾分类方法
CN111274995A (zh) * 2020-02-13 2020-06-12 腾讯科技(深圳)有限公司 视频分类方法、装置、设备和计算机可读存储介质
CN111400535A (zh) * 2020-03-11 2020-07-10 广东宜教通教育有限公司 轻量级人脸识别方法、系统、计算机设备及存储介质
CN111651593A (zh) * 2020-05-08 2020-09-11 河南理工大学 基于词向量和字向量混合模型的文本情感分析方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
CN112199496A (zh) * 2020-08-05 2021-01-08 广西大学 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN112132813A (zh) * 2020-09-24 2020-12-25 中国医学科学院生物医学工程研究所 基于改进的UNet网络模型的皮肤超声影像分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CIV: "卷积神经网络之深度可分离卷积", 《HTTPS://ZHUANLAN.ZHIDU.COM/P/166736637》 *
小麦粒: "GOOGLENET INCEPTION相关概念", 《HTTPS://BLOG.CSDN.NET/U010986753/ARTICLE/DETAILS/99172414》 *
程越等: "基于轻量型卷积神经网络的交通标志识别方法", 《计算机系统应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688234A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本分类管理方法、装置、终端及可读存储介质

Also Published As

Publication number Publication date
CN112765353B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN105808524A (zh) 一种基于专利文献摘要的专利自动分类方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112800225B (zh) 一种微博评论情绪分类方法和系统
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN114428850A (zh) 一种文本检索匹配方法和系统
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
CN116501861A (zh) 基于层级bert模型与标签迁移的长文本摘要生成方法
CN113688621B (zh) 一种长短不一的文本在不同粒度下的文本匹配方法及装置
CN112765353B (zh) 一种基于科研文本的生物医学学科分类方法及装置
CN113535960A (zh) 一种文本分类方法、装置和设备
CN113254609A (zh) 一种基于负样本多样性的问答模型集成方法
CN111881685A (zh) 基于小粒度策略混合模型的汉语命名实体识别方法及系统
CN115909455A (zh) 多尺度特征提取与注意力机制融合的表情识别方法
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
Handayani et al. Sentiment Analysis of Bank BNI User Comments Using the Support Vector Machine Method
CN111104478A (zh) 一种领域概念语义漂移探究方法
Hao et al. Research on Offline Handwritten Chinese Character Recognition Based on Deep Learning
Haisa et al. Research on Classification of Kazakh Questions Integrate with Multi-feature Embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230728

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right