CN113704396A - 短文本分类方法、装置、设备及存储介质 - Google Patents

短文本分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113704396A
CN113704396A CN202110840579.2A CN202110840579A CN113704396A CN 113704396 A CN113704396 A CN 113704396A CN 202110840579 A CN202110840579 A CN 202110840579A CN 113704396 A CN113704396 A CN 113704396A
Authority
CN
China
Prior art keywords
output
layer
vector
word
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110840579.2A
Other languages
English (en)
Inventor
陈挺安
黄玉娇
董温俊
何文秀
毛科技
郝鹏翼
龙海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhijiang College of ZJUT
Original Assignee
Zhijiang College of ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhijiang College of ZJUT filed Critical Zhijiang College of ZJUT
Priority to CN202110840579.2A priority Critical patent/CN113704396A/zh
Publication of CN113704396A publication Critical patent/CN113704396A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种短文本分类方法、装置、设备及存储介质,涉及文本识别技术领域,该方法包括:获取预设的训练集和验证集,对标准语句进行预处理并进行编码,输入模型进行识别,得到权重,将权重输入到全连接层,得到归一化输出,得到与每个标准语句的语义类别的近似概率,将近似概率最大的类别作为预测类别输出。本申请实施例充分考虑当前词的上下文语义信息,再引入Attention机制层来计算每个词向量应分配的权重概率,进而捕获到相对重要的文本信息,利用Softmax函数对全连接层的输出进行归一化,得到近似概率值,并选取概率最大的作为预测类别输出,能够有效对短文本进行语义识别,自动对病历表进行筛选识别,节约医护人员工作时间,提高效率。

Description

短文本分类方法、装置、设备及存储介质
技术领域
本申请涉及文本识别技术领域,具体而言,本申请涉及一种短文本分类方法、装置、设备及存储介质。
背景技术
近些年来,随着中国医院信息化建设及中国医疗信息化的快速发展,中文电子健康医疗数据急剧增加,且大多呈现是非结构化文本。为大量、便捷地提取结构化文本用于临床试验,通过自然语言处理和机器学习的方法并依据临床试验筛选标准进行文本分类。
临床试验是指通过人体志愿者也称为受试者进行的科学研究,根据试验目的等不同,受试者可能是患者或健康志愿者。筛选标准是临床试验负责人拟定的鉴定受试者是否满足某项临床试验的主要指标,分为入组标准和排出标准,一般为无规则的自由文本形式。临床试验的受试者招募一般是通过人工比较病历记录表和临床试验筛选标准完成,这种方式费时费力且效率低下。因此,通过现有的一些自然语言处理技术来进行对临床试验筛选标准进行分类具有重要的意义。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术受试者招募一般是通过人工比较病历记录表和临床试验筛选标准完成,这种方式费时费力且效率低下的技术问题。
第一方面,提供了一种短文本分类方法,包括:
获取预设的训练集和验证集,所述训练集和所述验证集中的每一个数据都包含预先设定的多种筛选标准语义类别和中文临床试验筛选标准的标准语句;
对所述标准语句进行预处理,去除标点符号、特殊符号,并对所述标准语句进行分词和删除停用词;
将分词出的每个词进行编码,形成二进制向量;
将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出;
将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度;
将所述权重输入到全连接层,得到归一化输出,得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出。
作为本申请一种可能的实施方式,在该实施方式中,所述将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出,包括:
为所述二级制向量添加用于任务分类的分隔符,形成词向量;
将所述词向量输入到第一Encoder层,并将所述第一Encoder层的输出结果作为第二Encoder层的输入,得到所述ERNIE文本语义模型的输出,其中,每层所述Encoder层都采用self-attention和feed-word network。
作为本申请一种可能的实施方式,在该实施方式中,所述将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,包括:
所述双向长短期记忆网络层包括前向LSTM和后向LSTM,每个所述LSTM都包括输入门、输出门以及遗忘门;
采用如下公式计算所述双向长短期记忆网络层的输出向量:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt])+bi
Figure BDA0003178762840000021
Figure BDA0003178762840000022
ot=σ(Wo·[ht-1,xt])+bo
ht=ot⊙tanh(Ct)
Figure BDA0003178762840000023
V={v1,v2,…,vt,,vT}
其中,ft、it
Figure BDA0003178762840000031
Ct和Ot分别表示遗忘门、输入门、候选的单元状态、当前单元状态和输出门;Wf、Wi、Wo和Wc为对应的权重矩阵;bf、bi、bc和bo为对应的偏置;ht-1和ht分别表示上一层的隐层状态和当前隐层状态;xt为t时刻的输入;σ为非线性激活函数;
Figure BDA0003178762840000033
Figure BDA0003178762840000034
分别表示t时刻前向LSTM和后向LSTM的隐藏层向量,V表示所述双向长短期记忆网络层包的输出向量。
作为本申请一种可能的实施方式,在该实施方式中,所述加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度,包括:
采用如下公式每一个所述双向长短期记忆网络层输出向量的权重:
S(Query,Keyi)=Query·Keyi
Figure BDA0003178762840000032
其中,Query表示查询矩阵;Keyi表示为第i个键;Si表示为第i个词向量的权值;αi表示为第i个词向量的权重;Tx表示为文本向量的长度;Vi表示第i个输入向量。
作为本申请一种可能的实施方式,在该实施方式中,所述将所述权重输入到全连接层,得到归一化输出,包括:
采用如下公式计算所述归一化输出:
Y=tanh(Wc·A+bc)
其中,A表示注意力机制层的输出;Wc表示全连接层的权重矩阵,bc表示全连接层的偏置向量。
作为本申请一种可能的实施方式,在该实施方式中,所述得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出,包括:
采用如下公式计算与每个所述标准语句的语义类别的近似概率:
y=softmax(W·Y+b)
其中,W表示输出层的权重矩阵,b表示输出层的偏置向量;y表示近似概率。
第二方面,提供了一种短文本分类装置,该装置包括:
数据获取模块,用于获取预设的训练集和验证集,所述训练集和所述验证集中的每一个数据都包含预先设定的多种筛选标准语义类别和中文临床试验筛选标准的标准语句;
数据预处理模块,用于对所述标准语句进行预处理,去除标点符号、特殊符号,并对所述标准语句进行分词和删除停用词;
编码模块,用于将分词出的每个词进行编码,形成二进制向量;
模型识别模块,用于将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出;
重要性识别模块,用于将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度;
分类模块,用于将所述权重输入到全连接层,得到归一化输出,得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出。
第三方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述的短文本分类方法。
第四方面,提供了一种计算机可读存储介质,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的短文本分类方法。
本申请实施例首先将描述中文临床试验筛选标准句子中的每个词进行one-hot编码,将词转换为向量的形式,输入到预训练层ERINE模型,将其最后Transformer层的输出结果输入到BiLSTM中,以充分考虑当前词的上下文语义信息,再引入Attention机制层来计算每个词向量应分配的权重概率,进而捕获到相对重要的文本信息,然后经过全连接层,将分布式特征映射到样本标记空间,最后利用Softmax函数对全连接层的输出进行归一化,得到44个筛选标准语义类别的近似概率值,并选取概率最大的作为预测类别输出,能够有效对短文本进行语义识别,自动对病历表进行筛选识别,节约医护人员工作时间,提高效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种短文本分类方法的流程示意图;
图2为本申请实施例提供的一种知识增强语义表示模型的结构示意图;
图3为本申请实施例提供的一种双向长短期记忆网络层的结构示意图;
图4为本申请实施例提供的一种引入注意力机制Attention层的结构示意图;
图5为本申请实施例提供的一种短文本分类装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
结合附图并参考以下具体实施方式,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的短文本分类方法、装置、设备及存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例中提供了一种短文本分类方法,如图1所示,该方法包括:
步骤S101,获取预设的训练集和验证集,所述训练集和所述验证集中的每一个数据都包含预先设定的多种筛选标准语义类别和中文临床试验筛选标准的标准语句。
在本申请实施例中,在对目标短文本进行识别之前,需要先获取到数据集,数据集包括训练集和验证集,数据集可以是中国健康信息处理会议(CHIP2019)评测数据集CHIP-CTC,其中每一条训练集和验证集中的数据都包含事先给定的44种筛选标准语义类别和中文临床试验筛选标准的描述句子。
步骤S102,对所述标准语句进行预处理,去除标点符号、特殊符号,并对所述标准语句进行分词和删除停用词。
在本申请实施例中,在获取到上述数据集中的标准语句之后,对所述标准语句进行预处理,其中,预处理包括但不限于去除标点符号、去除特殊符号,分词以及删除停用词。
步骤S103,将分词出的每个词进行编码,形成二进制向量。
在本申请实施例中,在对标准语句进行预处理之后,对分词形成的每个词汇进行one-hot编码,将每个词wt表示为二进制向量et,即把文本信息转换为计算机可识别的向量形式。
步骤S104,将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出。
在本申请实施例中,如图2所示,为知识增强语义表示模型的结构示意图,是基于多层Transformer编码器构建的语言模型,其结构主要分为Transformer编码和知识整合两个部分。前者使用Transformer编码器Encoder生成词向量表示,通过self-attention机制获取该词向量所对应文本的上下文信息。后者则通过随机隐藏15%的短语和实体级别的知识进行整合保存到文本表示中。为所述二级制向量添加用于任务分类的分隔符,形成词向量;将所述词向量输入到第一Encoder层,并将所述第一Encoder层的输出结果作为第二Encoder层的输入,得到所述ERNIE文本语义模型的输出,其中,每层所述Encoder层都采用self-attention和feed-word network。在预训练文本语义模型层中使用ERNIE模型,得到起始输入为标记分类任务的分隔符[CLS]的词向量,再将输入到Encoder层,然后把结果传入到下一个Encoder层,其中每层都使用self-attention和feed-word network,最后得到最终的输出,并作为输入传入到BiLSTM层。知识增强语义表示模型(EnhancedRepresentation through Knowledge Integr-ation,ERNIE)是基于多层Transformer编码器构建的语言模型,其结构主要分为Transformer编码和知识整合两个部分。前者使用Transformer编码器Encoder生成词向量表示,通过self-attention机制获取该词向量所对应文本的上下文信息。后者则通过随机隐藏15%的短语和实体级别的知识进行整合保存到文本表示中。ERNIE模型主要通过对海量数据中的词、实体和实体关系进行建模来学习现实世界的语义知识。其直接对先验语义知识单元进行建模,增强了模型的语义表示能力,可以捕获训练语料中的潜在信息,如词法、语法和语义。通过预训练,结合一个简单的输出层,得到一个通用的语义表示。
步骤S105,将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度。
在本申请实施中,如图3所述,为双向长短期记忆网络层的结构示意图,所述双向长短期记忆网络层包括前向LSTM和后向LSTM,每个所述LSTM都包括输入门、输出门以及遗忘门;
采用如下公式计算所述双向长短期记忆网络层的输出向量,BiLSTM是由前向LSTM和后向LSTM组成,可以更好的捕捉双向的语义依赖。LSTM是由多个储存单元连接而成。每个单元中包含输入门、输出门和遗忘门,其用于记录和更新记忆单元的信息。其中各个门t时刻的状态更新状态如下:
计算遗忘门,有一定概率选择是否遗忘掉上一层的隐藏细胞状态:
ft=σ(Wf·[ht-1,xt]+bf);
计算输入门和候选的单元状态:
it=σ(Wi·[ht-1,xt])+bi
Figure BDA0003178762840000081
计算当前时刻单元状态:
Figure BDA0003178762840000082
计算输出门和当前时刻的隐层状态:
ot=σ(Wo·[ht-1,xt])+bo
ht=ot⊙tanh(Ct);
BiLSTM的隐藏层由正、反两个不同方向的LSTM结合而成,其中在t时刻,正向隐藏层向量为
Figure BDA0003178762840000083
反向隐藏层向量为
Figure BDA0003178762840000084
然后将这两个不同方向的隐藏层向量合并得到t时刻隐藏层输出的向量vt,最终连接所有时刻的隐藏层向量得到BiLSTM层的输出和注意力机制层的输入向量V。
Figure BDA0003178762840000091
V={v1,v2,…,vt,……vT}
其中,ft、it
Figure BDA0003178762840000092
Ct和Ot分别表示遗忘门、输入门、候选的单元状态、当前单元状态和输出门;Wf、Wi、Wo和Wc为对应的权重矩阵;bf、bi、bc和bo为对应的偏置;ht-1和ht分别表示上一层的隐层状态和当前隐层状态;xt为t时刻的输入;σ为非线性激活函数;
Figure BDA0003178762840000095
Figure BDA0003178762840000096
分别表示t时刻前向LSTM和后向LSTM的隐藏层向量,V表示所述双向长短期记忆网络层包的输出向量。
步骤S106,将所述权重输入到全连接层,得到归一化输出,得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出。
在本申请实施例中,如图4所示,为引入注意力机制Attention层的结构示意图,计算每一个BiLSTM输出向量V应分配的权重概率,得到不同特征之间的重要程度。
对Query和Key进行相似度计算得到权值,相似性的常用计算方式有向量点积、余弦相似性、多层感知机网络等,其中向量点积相似度计算为:
S(Query,Keyi)=Query·Keyi
利用Softmax函数对步骤6.1中的权值进行归一化处理,将其转换为对应的权重:
Figure BDA0003178762840000093
将权重系数与相应的Value进行加权求和最终得到Attention值。其公式为:
Figure BDA0003178762840000094
其中:Query表示查询矩阵;Keyi表示为第i个键;Si表示为第i个词向量的权值;αi表示为第i个词向量的权重;Tx表示为文本向量的长度;Vi表示第i个输入向量;
将注意力机制层的输出Attention输入到全连接层,并输出为Y,计算公式如下:
Y=tanh(Wc·A+bc)
其中:A表示注意力机制层的输出;Wc表示全连接层的权重矩阵,bc表示全连接层的偏置向量
利用Softmax函数对全连接层的输出Y进行归一化,得到44个筛选标准语义类别的近似概率值y,并选取概率最大的作为预测类别输出。计算公式如下:
y=softmax(W·Y+b)
其中:W表示输出层的权重矩阵,b表示输出层的偏置向量。
本申请实施例首先将描述中文临床试验筛选标准句子中的每个词进行one-hot编码,将词转换为向量的形式,输入到预训练层ERINE模型,将其最后Transformer层的输出结果输入到BiLSTM中,以充分考虑当前词的上下文语义信息,再引入Attention机制层来计算每个词向量应分配的权重概率,进而捕获到相对重要的文本信息,然后经过全连接层,将分布式特征映射到样本标记空间,最后利用Softmax函数对全连接层的输出进行归一化,得到44个筛选标准语义类别的近似概率值,并选取概率最大的作为预测类别输出,能够有效对短文本进行语义识别,自动对病历表进行筛选识别,节约医护人员工作时间,提高效率。
本申请实施例提供了一种短文本分类装置,如图5所示,该短文本分类装置50可以包括:数据获取模块501、数据预处理模块502、编码模块503、模型识别模块504、重要性识别模块505、以及分类模块506,其中,
数据获取模块501,用于获取预设的训练集和验证集,所述训练集和所述验证集中的每一个数据都包含预先设定的多种筛选标准语义类别和中文临床试验筛选标准的标准语句;
数据预处理模块502,用于对所述标准语句进行预处理,去除标点符号、特殊符号,并对所述标准语句进行分词和删除停用词;
编码模块503,用于将分词出的每个词进行编码,形成二进制向量;
模型识别模块504,用于将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出;
重要性识别模块505,用于将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度;
分类模块506,用于将所述权重输入到全连接层,得到归一化输出,得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出。
本申请实施例首先将描述中文临床试验筛选标准句子中的每个词进行one-hot编码,将词转换为向量的形式,输入到预训练层ERINE模型,将其最后Transformer层的输出结果输入到BiLSTM中,以充分考虑当前词的上下文语义信息,再引入Attention机制层来计算每个词向量应分配的权重概率,进而捕获到相对重要的文本信息,然后经过全连接层,将分布式特征映射到样本标记空间,最后利用Softmax函数对全连接层的输出进行归一化,得到44个筛选标准语义类别的近似概率值,并选取概率最大的作为预测类别输出,能够有效对短文本进行语义识别,自动对病历表进行筛选识别,节约医护人员工作时间,提高效率。
本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,获取预设的训练集和验证集,所述训练集和所述验证集中的每一个数据都包含预先设定的多种筛选标准语义类别和中文临床试验筛选标准的标准语句;对所述标准语句进行预处理,去除标点符号、特殊符号,并对所述标准语句进行分词和删除停用词;将分词出的每个词进行编码,形成二进制向量;将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出;将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度;将所述权重输入到全连接层,得到归一化输出,得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出。
与现有技术相比可实现:本申请实施例首先将描述中文临床试验筛选标准句子中的每个词进行one-hot编码,将词转换为向量的形式,输入到预训练层ERINE模型,将其最后Transformer层的输出结果输入到BiLSTM中,以充分考虑当前词的上下文语义信息,再引入Attention机制层来计算每个词向量应分配的权重概率,进而捕获到相对重要的文本信息,然后经过全连接层,将分布式特征映射到样本标记空间,最后利用Softmax函数对全连接层的输出进行归一化,得到44个筛选标准语义类别的近似概率值,并选取概率最大的作为预测类别输出,能够有效对短文本进行语义识别,自动对病历表进行筛选识别,节约医护人员工作时间,提高效率。
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请实施例首先将描述中文临床试验筛选标准句子中的每个词进行one-hot编码,将词转换为向量的形式,输入到预训练层ERINE模型,将其最后Transformer层的输出结果输入到BiLSTM中,以充分考虑当前词的上下文语义信息,再引入Attention机制层来计算每个词向量应分配的权重概率,进而捕获到相对重要的文本信息,然后经过全连接层,将分布式特征映射到样本标记空间,最后利用Softmax函数对全连接层的输出进行归一化,得到44个筛选标准语义类别的近似概率值,并选取概率最大的作为预测类别输出,能够有效对短文本进行语义识别,自动对病历表进行筛选识别,节约医护人员工作时间,提高效率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (9)

1.一种短文本分类方法,其特征在于,包括:
获取预设的训练集和验证集,所述训练集和所述验证集中的每一个数据都包含预先设定的多种筛选标准语义类别和中文临床试验筛选标准的标准语句;
对所述标准语句进行预处理,去除标点符号、特殊符号,并对所述标准语句进行分词和删除停用词;
将分词出的每个词进行编码,形成二进制向量;
将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出;
将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度;
将所述权重输入到全连接层,得到归一化输出,得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出。
2.根据权利要求1所述的短文本分类方法,其特征在于,所述将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出,包括:
为所述二级制向量添加用于任务分类的分隔符,形成词向量;
将所述词向量输入到第一Encoder层,并将所述第一Encoder层的输出结果作为第二Encoder层的输入,得到所述ERNIE文本语义模型的输出,其中,每层所述Encoder层都采用self-attention和feed-word network。
3.根据权利要求1所述的短文本分类方法,其特征在于,所述将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,包括:
所述双向长短期记忆网络层包括前向LSTM和后向LSTM,每个所述LSTM都包括输入门、输出门以及遗忘门;
采用如下公式计算所述双向长短期记忆网络层的输出向量:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt])+bi
Figure FDA0003178762830000011
Figure FDA0003178762830000021
ot=σ(Wo·[ht-1,xt])+bo
ht=ot⊙tanh(Ct)
Figure FDA0003178762830000022
V={v1,v2,…,vt,…,vT}
其中,ft、it
Figure FDA0003178762830000024
Ct和Ot分别表示遗忘门、输入门、候选的单元状态、当前单元状态和输出门;Wf、Wi、Wo和Wc为对应的权重矩阵;bf、bi、bc和bo为对应的偏置;ht-1和ht分别表示上一层的隐层状态和当前隐层状态;xt为t时刻的输入;σ为非线性激活函数;
Figure FDA0003178762830000025
Figure FDA0003178762830000026
分别表示t时刻前向LSTM和后向LSTM的隐藏层向量,V表示所述双向长短期记忆网络层包的输出向量。
4.根据权利要求1所述的短文本分类方法,其特征在于,所述加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度,包括:
采用如下公式每一个所述双向长短期记忆网络层输出向量的权重:
Figure FDA0003178762830000023
其中,Query表示查询矩阵;Keyi表示为第i个键;Si表示为第i个词向量的权值;αi表示为第i个词向量的权重;Tx表示为文本向量的长度;Vi表示第i个输入向量。
5.根据权利要求1所述的短文本分类方法,其特征在于,所述将所述权重输入到全连接层,得到归一化输出,包括:
采用如下公式计算所述归一化输出:
Y=tanh(Wc·A+bc)
其中,A表示注意力机制层的输出;Wc表示全连接层的权重矩阵,bc表示全连接层的偏置向量。
6.根据权利要求1所述的短文本分类方法,其特征在于,所述得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出,包括:
采用如下公式计算与每个所述标准语句的语义类别的近似概率:
y=softmax(W·Y+b)
其中,W表示输出层的权重矩阵,b表示输出层的偏置向量;y表示近似概率。
7.一种短文本分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取预设的训练集和验证集,所述训练集和所述验证集中的每一个数据都包含预先设定的多种筛选标准语义类别和中文临床试验筛选标准的标准语句;
数据预处理模块,用于对所述标准语句进行预处理,去除标点符号、特殊符号,并对所述标准语句进行分词和删除停用词;
编码模块,用于将分词出的每个词进行编码,形成二进制向量;
模型识别模块,用于将所述二进制向量作为ERNIE文本语义模型的输入,得到所述ERNIE文本语义模型的输出;
重要性识别模块,用于将所述ERNIE文本语义模型的输出作为双向长短期记忆网络层的输入,加入注意力机制层计算每一个所述双向长短期记忆网络层输出向量的权重,得到不同特征的重要程度;
分类模块,用于将所述权重输入到全连接层,得到归一化输出,得到与每个所述标准语句的语义类别的近似概率,将所述近似概率最大的类别作为预测类别输出。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~6中任一项所述的短文本分类方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1~6中任一项所述的短文本分类方法。
CN202110840579.2A 2021-07-25 2021-07-25 短文本分类方法、装置、设备及存储介质 Withdrawn CN113704396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110840579.2A CN113704396A (zh) 2021-07-25 2021-07-25 短文本分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110840579.2A CN113704396A (zh) 2021-07-25 2021-07-25 短文本分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113704396A true CN113704396A (zh) 2021-11-26

Family

ID=78650469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110840579.2A Withdrawn CN113704396A (zh) 2021-07-25 2021-07-25 短文本分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113704396A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547285A (zh) * 2022-03-03 2022-05-27 创新奇智(浙江)科技有限公司 表格数据含义推断方法、装置、计算机设备和存储介质
CN115204164A (zh) * 2022-09-13 2022-10-18 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质
CN116719945A (zh) * 2023-08-08 2023-09-08 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547285A (zh) * 2022-03-03 2022-05-27 创新奇智(浙江)科技有限公司 表格数据含义推断方法、装置、计算机设备和存储介质
CN115204164A (zh) * 2022-09-13 2022-10-18 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质
CN115204164B (zh) * 2022-09-13 2022-12-02 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质
CN116719945A (zh) * 2023-08-08 2023-09-08 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
CN116719945B (zh) * 2023-08-08 2023-10-24 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110491465B (zh) 基于深度学习的疾病分类编码方法、系统、设备及介质
CN109697285B (zh) 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN113221567A (zh) 司法领域命名实体及关系联合抽取方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN113704396A (zh) 短文本分类方法、装置、设备及存储介质
CN110263325B (zh) 中文分词系统
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
CN111950283B (zh) 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN112527961B (zh) 一种应急预案应急响应等级、行政单位职责自动抽取方法
CN110502742B (zh) 一种复杂实体抽取方法、装置、介质及系统
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN114065848A (zh) 一种基于预训练情感嵌入的中文方面级别情感分类方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
Suyanto Synonyms-based augmentation to improve fake news detection using bidirectional LSTM
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN115658905A (zh) 一种跨篇章的事件多维画像生成方法
Devi et al. Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211126

WW01 Invention patent application withdrawn after publication