CN112541065A

CN112541065A - 基于表示学习的医学新词发现处理方法

Info

Publication number: CN112541065A
Application number: CN202011453115.8A
Authority: CN
Inventors: 张继勇; 陈浩翔
Original assignee: Zhejiang Handrui Intelligent Technology Co Ltd
Current assignee: Zhejiang Handrui Intelligent Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-23

Abstract

本发明公开了基于表示学习的医学新词发现处理方法，S10，原始语料预处理；S20，分词处理；S30，频繁n‑gram挖掘；S40，n‑gram词串剪枝。本发明基于词向量表征的n‑gram模型，同时，采用融合文本描述的Skip‑gram方法表征词向量，以提升词向量表征的准确度，解决医学领域新词发现的挑战，继而针对新发疾病提出相应的预防措施和治疗方案，具有现实意义。

Description

基于表示学习的医学新词发现处理方法

技术领域

本发明属于语言处理技术领域，涉及一种基于表示学习的医学新词发现处理方法。

背景技术

近年来，随着人工智能技术的发展，基于知识图谱的认知智能的应用广泛，各类应用(包括数据分析、智慧搜索、智能推荐、自然人机交互和决策支持)都对知识图谱技术提出需求。知识图谱描述的是现实世界中实体间的关系，知识表示是对现实世界的一种抽象表达。以在医学领域的应用为例，知识图谱是从医学数据中提炼信息并加以管理、共享及应用，这是推进医学智能化的关键问题，是医学知识检索、临床诊断、医疗质量管理、电子病历及健康档案智能化处理的基础。具体来说，通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素，选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接，增强知识库内部的逻辑性和表达能力，并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识；借助知识推理，推断出缺失事实，自动完成疾病诊断与治疗；质量评估则是保障数据的重要手段，提高医学知识图谱的可信度和准确度。

知识表示学习是近年来的研究热点，知识表示学习目的是将研究对象的语义信息表示为低维稠密实值向量，主要面向知识图谱中的实体和关系进行表示学习目前的表示学习模型可分为三类：基于语义匹配、基于距离变换、基于融合多源信息。TransE模型作为距离变换模型的代表，将知识库中的关系看作实体间的某种平移向量。为解决TransE模型在处理复杂关系时的局限性，TransH模型提出让一个实体在不同的关系下拥有不同的表示。TransR模型提出不同关系关注实体的不同属性，不同的关系拥有不同的语义空间。TransD模型定义两个分别将头实体和尾实体投影到关系空间的相应投影矩阵。TransA模型将损失函数中的距离度量改用马氏距离，并为每一维学习不同的权重。在此基础上，又衍生出其他的改进模型。DKRL提出在知识表示学习中考虑FreeBase等知识库中描述实体的文本信息，通过卷积神经网络或者连续词袋模型编码实体描述信息；TransE-NMM提出引入邻居实体信息，通过邻居向量和实体向量相加得到最后的实体表示；PTransE考虑了关系路径信息增强知识表示学习；IKRL提出融合图像多模态，将图像信息映射到向量空间；TKRL提出将层次类型信息用于映射矩阵，使每一个实体在不同关系下突出不同的实体类型。表示学习的应用有知识库的链接预测、三元组的事实判定(作为知识图谱的增补)、实体分类等。

疾病智能辅助诊断发展至今，在越来越多临床场景铺开尝试性应用。1982年，美国匹兹堡大学的Miller成功研发了内科辅助诊断系统，其构建的知识库中含有572种疾病，以及约4500种症状数据；1991年美国哈弗大学Barnertt研制的“解释”软件，包含2200种疾病数据和5000种症状数据；2013年Karim Baati等人提出基于分类算法朴素贝叶斯诊断淋巴疾病；2016年Khushboo Chandel等人提出采用数据挖掘分类技术(贝叶斯、K-近邻和支持向量机)应用于甲状腺疾病分析。医学智能诊断覆盖高低危疾病、罕见疾病，凭借既往病史、症状等信息就能推理出疾病类型，有助于后续治疗。

发明内容

本发明提出一种基于词向量表征的n-gram模型，同时，采用融合文本描述的Skip-gram方法表征词向量，最后将其应用于新词发现。

本发明的技术方案为基于表示学习的医学新词发现处理方法，包括以下步骤：

S10，原始语料预处理；

S20，分词处理；

S30，频繁n-gram挖掘；

S40，n-gram词串剪枝。

优选地，所述原始语料预处理，为对原始语料中的语句进行预处理，通过句、逗号或换行符，将语句简单划分成短句子集合。

优选地，所述分词处理，为遍历短句，进行分词处理，分词之后形成一个有序词列。

优选地，所述频繁n-gram挖掘，包括以下步骤：

S31，设定频率阈值，第一遍扫描数据集T，在第一次扫描结束后找出所有出现频率大于阈值的n元词串，扫描的同时记录下所有这些n元词串的位置索引；

S32，进行第二遍扫描，只扫描上一次扫描结果词所在的词序列，并且只根据上一次扫描结果记录的位置索引前后扩张一个词，探测n+1元词串是否满足要求；

S33，重复S32，最终得到出现频率高于阈值的n_max元词串，得到新词候选词串。

优选地，所述n-gram词串剪枝为利用Skip-gram模型剪枝，通过n-gram挖掘得到候选词串中含有大量的噪音数据，利用词向量的相似性对候选词串进行过滤，利用候选词串中的词与词之间对应的词向量的距离衡量相似度，词与词之间的相似度小于某个阈值，便对其进行剪枝，从而剔除噪音数据。

优选地，所述n-gram词串剪枝为利用CENE将文本内容视为特殊类型的节点，并利用节点-节点链接和节点-内容链接进行节点嵌入，与Skip-gram模型结合，把语句中的词理解为CENE模型中的节点。

优选地，所述CENE模型中实现节点-句子链接，包括以下组合模型：

WAvg：将词向量的平均值表示句子嵌入，不考虑词序；

RNN：使用门控循环单位，具有捕获每层隐藏层信息的能力；

BiRNN：在RNN的基础上采用两层独立的隐藏层在两个相反方向上处理同一个句子，两层隐藏层输出经过平均池化层之后汇集。

本发明至少有如下具体有益效果：医学领域的快速发展，网络信息的快速更迭，医学新词的频繁涌现，这给文本挖掘工作带来很大的挑战，新词发现与分词工作紧密相关，分词的准确性又很大程度上影响文本语义分析的准确性。例如，对于“新冠肺炎的早期症状是发热、疲劳和干咳”进行文本分析，错误把“新冠肺炎”分为“新/冠肺炎”，会导致后续文本分析中与新冠肺炎这一实体相关的分析不准确。目前新词识别方法主要分为有监督的方法和无监督的方法。有监督的方法主要是基于统计学习，这种方法需要大量的标注数据以及繁复的特征选取工作，而获得大量的标注数据往往成本高昂，特征选取则需要丰富的经验。无监督的方法主要是基于规则或计算一些统计指标来进行新词发现，基于规则的方法需要制定大量的语言规则，可移植性差，而单纯的某个统计指标往往效果较差，且一些统计指标计算复杂。

近几年的研究表明，通过知识表示模型的训练，已经能够较好的将实词及词之间的语义关系向量化表示。本发明提出一种基于词向量表征的n-gram模型，同时，采用融合文本描述的Skip-gram方法表征词向量，最后将其应用于新词发现。

在医学领域，一些疾病的诞生、爆发具有未知性、不可控性，比如今年在世界范围内爆发的新冠疫情，其传播感染性强，可通过呼吸道、密切接触传播，患者常见症状有发烧、疲劳、咳嗽等，在集中爆发时期致死率较高，对于新冠肺炎的危险性是疾病发现伊始无法预料的。随着疫情的发展，我们对新冠肺炎的认知不断刷新，潜伏期、无症状感染者、核酸检测、新冠病毒基因序列这些名词随之诞生。基于词向量表征的新词发现能解决新词分词的问题，而分词作为文本语义分析的基础，有助于医学知识图谱的构建、补全，有助于医学疾病诊断。

附图说明

图1为本发明实施例的基于表示学习的医学新词发现处理方法的步骤流程图；

图2为本发明一具体实施例的基于表示学习的医学新词发现处理方法的skip-gram模型图；

图3为本发明一具体实施例的基于表示学习的医学新词发现处理方法的CENE中三种组合模型图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参见图1，为本发明实施例的本发明的技术方案为基于表示学习的医学新词发现处理方法的步骤流程图，包括以下步骤：

S10，原始语料预处理；

S20，分词处理；

S30，频繁n-gram挖掘；

S40，n-gram词串剪枝。

如果几个词语连续且高频的出现在不同的词序列中，那么它们一定存在某种关系，它们很有可能是一个完整的词语，而数据预处理时采用的分词工具有可能将其错误划分。本发明将这样多次出现在不同的词序列中的词串叫做n-gram词串，其中，n代表序列词串中词的个数，例如“新/冠/肺炎”在语料中高频出现，可以找出{‘新’，‘冠’，‘肺炎’}这一3-gram词串，本发明的目标便是找出所有的出现频率大于阈值的n-gram词串。

S10，原始语料预处理，为对原始语料中的语句进行预处理，通过句、逗号或换行符，将语句简单划分成短句子集合。

D＝{D₁,...D_i,...,D_∣D∣}

其中，D_i为文本划分后的第i个短句。

S20，分词处理，为遍历短句，进行分词处理，分词之后形成一个有序词列。

其中，w_i为D_i中的第i个分词。由此，训练集T可表示为：

S30，频繁n-gram挖掘，包括以下步骤：

S32，进行第二遍扫描，只扫描上一次扫描结果词所在的词序列，并且只根据上一次扫描结果记录的位置索引前后扩张一个词，探测n+1元词串是否满足出现频率的要求；

S33，重复S32，最终得到出现频率高于阈值的n_max元词串，即新词候选词串。由此，可以得到大量的新词候选词串。候选词串举例参见表1.

表1

T	候选词串
		T<sub>1</sub>	{“代谢”，“综合征”}
T<sub>2</sub>	{“新型”，“冠状”，“病毒”}
		T<sub>3</sub>	{“疾控”，“中心”，“公布”}

S40，n-gram词串剪枝为利用Skip-gram模型剪枝，通过n-gram挖掘得到候选词串中含有大量的噪音数据，利用词向量的相似性对候选词串进行过滤，利用候选词串中的词与词之间对应的词向量的距离衡量相似度，词与词之间的相似度小于某个阈值，便对其进行剪枝，从而剔除噪音数据。

选取相似度阈值需结合度量方式考虑，采用不同的向量距离度量方法阈值是有差异的。例如，采用余弦相似性度量时，阈值选在[0，1]；采用欧式距离度量时，其取值范围就会变得很大。

至此，新词发现问题已经转化为词向量表征问题，词向量表示直接影响剪枝操作。经典的词向量表示方法有Skip-gram和CBOW。Skip-gram是一种通过中心词预测窗口长度内上下文语境词出现的概率，以最大化上下文语境词概率之和为目标函数的词向量表示方法；CBOW(continues bag of words，连续词袋模型)是一种通过上下语境词来预测中心词出现的概率，以最大化中心词概率值为目标函数的词向量表示方法。本发明中，采用基于Skip-gram模型对词向量化表征，Skip-gram模型图参见图2.

在Skip-gram模型中，首先对训练数据的格式作说明，模型INPUT是一个中心单词w(^t)，根据给定上下文窗口长度(C＝2)，OUTPUT为输入单词作为中心词的上下文语境词w(^t ⁺¹)、w(^t+2)、w(^t-1)、w(^t-2)，PROJECTION是一个线性隐藏层。从计算角度，每个词被表示成两个d维向量，用来计算条件概率。假设这个词在词典中索引为i，当它为中心词时向量表示为

而为背景词时向量表示为

设中心词w_c在词典中索引为c，背景词w_o在词典中索引为o，给定中心词生成背景词的条件概率可以通过对向量内积做softmax运算而得到：

因此，为最大化相邻词向量概率和，Skip-gram的目标函数定义为：

其中m为窗口大小。基于以上目标函数，对函数进行变换，采用随机梯度下降法最小化损失函数，损失函数即为：

值得思考的是如何在Skip-gram模型的基础上提升词向量表征的准确性，这里引入CENE(Content-Enhanced Network Embedding)的思想，CENE是一种共同模拟节点中的网络结构和文本内容的网络嵌入方法。CENE将文本内容视为特殊类型的节点，并利用节点-节点链接和节点-内容链接进行节点嵌入。引入CENE的思想与Skip-gram模型结合，把语句中的词理解为CENE模型中的节点。在含有新词的短句序列中，对于一些“旧词”，可以通过维基百科等其他知识库中学习其文本描述。

这里涉及到节点嵌入与文本嵌入，节点-节点链接预节点-内容链接。节点-节点的损失函数与Skip-gram中提及的含义一致。在节点-内容链接中，使用f_e(·)组合函数来表示描述内容，以完全捕获文本的语义。进一步，将每个描述文本分解成句子，并分别对节点-句子链接进行建模。具体实现节点-句子链接，这里对比了三种典型组合模型，参见图3。

(a)WAvg(Word Embedding Average，平均词向量)是一种简单的将词向量的平均值作为句子嵌入表示的方法，尽管不考虑词序，但在文本分类任务中已被证明表现出色。其中，w_i为词向量。

(b)RNN(Recurrent Neural Network，循环神经网络)是一种以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络，改进的RNN网络包括LSTM以及GRU。LSTM(Long Short-Term Memory networks，长短期记忆网络)是一种特殊的RNN，通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。GRU(Gate RecurrentUnit，门控循环单位)也是RNN的一种，和LSTM一样，是为解决长期记忆和反向传播中的梯度消失和爆炸问题而提出来的，相比LSTM，其优势在于具有较少的参数，消耗更少的算力。其中，w_i为词向量。

(c)BiRNN(Bidirectional Recurrent Neural Network，双向循环神经网络)是在GRU方法上更进一步，采用两层独立的隐藏层在两个相反方向上处理同一个句子的方法，两层隐藏层输出将经过平均池化层之后汇集。其中，w_i为词向量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于表示学习的医学新词发现处理方法，其特征在于，包括以下步骤：

S10，原始语料预处理；

S20，分词处理；

S30，频繁n-gram挖掘；

S40，n-gram词串剪枝。

2.根据权利要求1所述的方法，其特征在于，所述原始语料预处理，为对原始语料中的语句进行预处理，通过句、逗号或换行符，将语句简单划分成短句子集合。

3.根据权利要求2所述的方法，其特征在于，所述分词处理，为遍历短句，进行分词处理，分词之后形成一个有序词列。

4.根据权利要求3所述的方法，其特征在于，所述频繁n-gram挖掘，包括以下步骤：

5.根据权利要求4所述的方法，其特征在于，所述n-gram词串剪枝为利用Skip-gram模型剪枝，通过n-gram挖掘得到候选词串中含有大量的噪音数据，利用词向量的相似性对候选词串进行过滤，利用候选词串中的词与词之间对应的词向量的距离衡量相似度，词与词之间的相似度小于某个阈值，便对其进行剪枝，从而剔除噪音数据。

6.根据权利要求5所述的方法，其特征在于，所述n-gram词串剪枝为利用CENE将文本内容视为特殊类型的节点，并利用节点-节点链接和节点-内容链接进行节点嵌入，与Skip-gram模型结合，把语句中的词理解为CENE模型中的节点。

7.根据权利要求6所述的方法，其特征在于，所述CENE模型中实现节点-句子链接，包括以下组合模型：

WAvg：将词向量的平均值表示句子嵌入，不考虑词序；

RNN：使用门控循环单位，具有捕获每层隐藏层信息的能力；