CN112541065A - 基于表示学习的医学新词发现处理方法 - Google Patents
基于表示学习的医学新词发现处理方法 Download PDFInfo
- Publication number
- CN112541065A CN112541065A CN202011453115.8A CN202011453115A CN112541065A CN 112541065 A CN112541065 A CN 112541065A CN 202011453115 A CN202011453115 A CN 202011453115A CN 112541065 A CN112541065 A CN 112541065A
- Authority
- CN
- China
- Prior art keywords
- word
- gram
- node
- scanning
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000013138 pruning Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000005065 mining Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 abstract description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 11
- 230000003449 preventive effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 9
- 206010035664 Pneumonia Diseases 0.000 description 8
- 239000002585 base Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008033 biological extinction Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 206010016256 fatigue Diseases 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 208000018501 Lymphatic disease Diseases 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 208000024799 Thyroid disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 208000017574 dry cough Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 208000021510 thyroid gland disease Diseases 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于表示学习的医学新词发现处理方法,S10,原始语料预处理;S20,分词处理;S30,频繁n‑gram挖掘;S40,n‑gram词串剪枝。本发明基于词向量表征的n‑gram模型,同时,采用融合文本描述的Skip‑gram方法表征词向量,以提升词向量表征的准确度,解决医学领域新词发现的挑战,继而针对新发疾病提出相应的预防措施和治疗方案,具有现实意义。
Description
技术领域
本发明属于语言处理技术领域,涉及一种基于表示学习的医学新词发现处理方法。
背景技术
近年来,随着人工智能技术的发展,基于知识图谱的认知智能的应用广泛,各类应用(包括数据分析、智慧搜索、智能推荐、自然人机交互和决策支持)都对知识图谱技术提出需求。知识图谱描述的是现实世界中实体间的关系,知识表示是对现实世界的一种抽象表达。以在医学领域的应用为例,知识图谱是从医学数据中提炼信息并加以管理、共享及应用,这是推进医学智能化的关键问题,是医学知识检索、临床诊断、医疗质量管理、电子病历及健康档案智能化处理的基础。具体来说,通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接,增强知识库内部的逻辑性和表达能力,并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识;借助知识推理,推断出缺失事实,自动完成疾病诊断与治疗;质量评估则是保障数据的重要手段,提高医学知识图谱的可信度和准确度。
知识表示学习是近年来的研究热点,知识表示学习目的是将研究对象的语义信息表示为低维稠密实值向量,主要面向知识图谱中的实体和关系进行表示学习目前的表示学习模型可分为三类:基于语义匹配、基于距离变换、基于融合多源信息。TransE模型作为距离变换模型的代表,将知识库中的关系看作实体间的某种平移向量。为解决TransE模型在处理复杂关系时的局限性,TransH模型提出让一个实体在不同的关系下拥有不同的表示。TransR模型提出不同关系关注实体的不同属性,不同的关系拥有不同的语义空间。TransD模型定义两个分别将头实体和尾实体投影到关系空间的相应投影矩阵。TransA模型将损失函数中的距离度量改用马氏距离,并为每一维学习不同的权重。在此基础上,又衍生出其他的改进模型。DKRL提出在知识表示学习中考虑FreeBase等知识库中描述实体的文本信息,通过卷积神经网络或者连续词袋模型编码实体描述信息;TransE-NMM提出引入邻居实体信息,通过邻居向量和实体向量相加得到最后的实体表示;PTransE考虑了关系路径信息增强知识表示学习;IKRL提出融合图像多模态,将图像信息映射到向量空间;TKRL提出将层次类型信息用于映射矩阵,使每一个实体在不同关系下突出不同的实体类型。表示学习的应用有知识库的链接预测、三元组的事实判定(作为知识图谱的增补)、实体分类等。
疾病智能辅助诊断发展至今,在越来越多临床场景铺开尝试性应用。1982年,美国匹兹堡大学的Miller成功研发了内科辅助诊断系统,其构建的知识库中含有572种疾病,以及约4500种症状数据;1991年美国哈弗大学Barnertt研制的“解释”软件,包含2200种疾病数据和5000种症状数据;2013年Karim Baati等人提出基于分类算法朴素贝叶斯诊断淋巴疾病;2016年Khushboo Chandel等人提出采用数据挖掘分类技术(贝叶斯、K-近邻和支持向量机)应用于甲状腺疾病分析。医学智能诊断覆盖高低危疾病、罕见疾病,凭借既往病史、症状等信息就能推理出疾病类型,有助于后续治疗。
发明内容
本发明提出一种基于词向量表征的n-gram模型,同时,采用融合文本描述的Skip-gram方法表征词向量,最后将其应用于新词发现。
本发明的技术方案为基于表示学习的医学新词发现处理方法,包括以下步骤:
S10,原始语料预处理;
S20,分词处理;
S30,频繁n-gram挖掘;
S40,n-gram词串剪枝。
优选地,所述原始语料预处理,为对原始语料中的语句进行预处理,通过句、逗号或换行符,将语句简单划分成短句子集合。
优选地,所述分词处理,为遍历短句,进行分词处理,分词之后形成一个有序词列。
优选地,所述频繁n-gram挖掘,包括以下步骤:
S31,设定频率阈值,第一遍扫描数据集T,在第一次扫描结束后找出所有出现频率大于阈值的n元词串,扫描的同时记录下所有这些n元词串的位置索引;
S32,进行第二遍扫描,只扫描上一次扫描结果词所在的词序列,并且只根据上一次扫描结果记录的位置索引前后扩张一个词,探测n+1元词串是否满足要求;
S33,重复S32,最终得到出现频率高于阈值的nmax元词串,得到新词候选词串。
优选地,所述n-gram词串剪枝为利用Skip-gram模型剪枝,通过n-gram挖掘得到候选词串中含有大量的噪音数据,利用词向量的相似性对候选词串进行过滤,利用候选词串中的词与词之间对应的词向量的距离衡量相似度,词与词之间的相似度小于某个阈值,便对其进行剪枝,从而剔除噪音数据。
优选地,所述n-gram词串剪枝为利用CENE将文本内容视为特殊类型的节点,并利用节点-节点链接和节点-内容链接进行节点嵌入,与Skip-gram模型结合,把语句中的词理解为CENE模型中的节点。
优选地,所述CENE模型中实现节点-句子链接,包括以下组合模型:
WAvg:将词向量的平均值表示句子嵌入,不考虑词序;
RNN:使用门控循环单位,具有捕获每层隐藏层信息的能力;
BiRNN:在RNN的基础上采用两层独立的隐藏层在两个相反方向上处理同一个句子,两层隐藏层输出经过平均池化层之后汇集。
本发明至少有如下具体有益效果:医学领域的快速发展,网络信息的快速更迭,医学新词的频繁涌现,这给文本挖掘工作带来很大的挑战,新词发现与分词工作紧密相关,分词的准确性又很大程度上影响文本语义分析的准确性。例如,对于“新冠肺炎的早期症状是发热、疲劳和干咳”进行文本分析,错误把“新冠肺炎”分为“新/冠肺炎”,会导致后续文本分析中与新冠肺炎这一实体相关的分析不准确。目前新词识别方法主要分为有监督的方法和无监督的方法。有监督的方法主要是基于统计学习,这种方法需要大量的标注数据以及繁复的特征选取工作,而获得大量的标注数据往往成本高昂,特征选取则需要丰富的经验。无监督的方法主要是基于规则或计算一些统计指标来进行新词发现,基于规则的方法需要制定大量的语言规则,可移植性差,而单纯的某个统计指标往往效果较差,且一些统计指标计算复杂。
近几年的研究表明,通过知识表示模型的训练,已经能够较好的将实词及词之间的语义关系向量化表示。本发明提出一种基于词向量表征的n-gram模型,同时,采用融合文本描述的Skip-gram方法表征词向量,最后将其应用于新词发现。
在医学领域,一些疾病的诞生、爆发具有未知性、不可控性,比如今年在世界范围内爆发的新冠疫情,其传播感染性强,可通过呼吸道、密切接触传播,患者常见症状有发烧、疲劳、咳嗽等,在集中爆发时期致死率较高,对于新冠肺炎的危险性是疾病发现伊始无法预料的。随着疫情的发展,我们对新冠肺炎的认知不断刷新,潜伏期、无症状感染者、核酸检测、新冠病毒基因序列这些名词随之诞生。基于词向量表征的新词发现能解决新词分词的问题,而分词作为文本语义分析的基础,有助于医学知识图谱的构建、补全,有助于医学疾病诊断。
附图说明
图1为本发明实施例的基于表示学习的医学新词发现处理方法的步骤流程图;
图2为本发明一具体实施例的基于表示学习的医学新词发现处理方法的skip-gram模型图;
图3为本发明一具体实施例的基于表示学习的医学新词发现处理方法的CENE中三种组合模型图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参见图1,为本发明实施例的本发明的技术方案为基于表示学习的医学新词发现处理方法的步骤流程图,包括以下步骤:
S10,原始语料预处理;
S20,分词处理;
S30,频繁n-gram挖掘;
S40,n-gram词串剪枝。
如果几个词语连续且高频的出现在不同的词序列中,那么它们一定存在某种关系,它们很有可能是一个完整的词语,而数据预处理时采用的分词工具有可能将其错误划分。本发明将这样多次出现在不同的词序列中的词串叫做n-gram词串,其中,n代表序列词串中词的个数,例如“新/冠/肺炎”在语料中高频出现,可以找出{‘新’,‘冠’,‘肺炎’}这一3-gram词串,本发明的目标便是找出所有的出现频率大于阈值的n-gram词串。
S10,原始语料预处理,为对原始语料中的语句进行预处理,通过句、逗号或换行符,将语句简单划分成短句子集合。
D={D1,...Di,...,D∣D∣}
其中,Di为文本划分后的第i个短句。
S20,分词处理,为遍历短句,进行分词处理,分词之后形成一个有序词列。
其中,wi为Di中的第i个分词。由此,训练集T可表示为:
S30,频繁n-gram挖掘,包括以下步骤:
S31,设定频率阈值,第一遍扫描数据集T,在第一次扫描结束后找出所有出现频率大于阈值的n元词串,扫描的同时记录下所有这些n元词串的位置索引;
S32,进行第二遍扫描,只扫描上一次扫描结果词所在的词序列,并且只根据上一次扫描结果记录的位置索引前后扩张一个词,探测n+1元词串是否满足出现频率的要求;
S33,重复S32,最终得到出现频率高于阈值的nmax元词串,即新词候选词串。由此,可以得到大量的新词候选词串。候选词串举例参见表1.
表1
T | 候选词串 |
T<sub>1</sub> | {“代谢”,“综合征”} |
T<sub>2</sub> | {“新型”,“冠状”,“病毒”} |
T<sub>3</sub> | {“疾控”,“中心”,“公布”} |
S40,n-gram词串剪枝为利用Skip-gram模型剪枝,通过n-gram挖掘得到候选词串中含有大量的噪音数据,利用词向量的相似性对候选词串进行过滤,利用候选词串中的词与词之间对应的词向量的距离衡量相似度,词与词之间的相似度小于某个阈值,便对其进行剪枝,从而剔除噪音数据。
选取相似度阈值需结合度量方式考虑,采用不同的向量距离度量方法阈值是有差异的。例如,采用余弦相似性度量时,阈值选在[0,1];采用欧式距离度量时,其取值范围就会变得很大。
至此,新词发现问题已经转化为词向量表征问题,词向量表示直接影响剪枝操作。经典的词向量表示方法有Skip-gram和CBOW。Skip-gram是一种通过中心词预测窗口长度内上下文语境词出现的概率,以最大化上下文语境词概率之和为目标函数的词向量表示方法;CBOW(continues bag of words,连续词袋模型)是一种通过上下语境词来预测中心词出现的概率,以最大化中心词概率值为目标函数的词向量表示方法。本发明中,采用基于Skip-gram模型对词向量化表征,Skip-gram模型图参见图2.
在Skip-gram模型中,首先对训练数据的格式作说明,模型INPUT是一个中心单词w(t),根据给定上下文窗口长度(C=2),OUTPUT为输入单词作为中心词的上下文语境词w(t +1)、w(t+2)、w(t-1)、w(t-2),PROJECTION是一个线性隐藏层。从计算角度,每个词被表示成两个d维向量,用来计算条件概率。假设这个词在词典中索引为i,当它为中心词时向量表示为而为背景词时向量表示为设中心词wc在词典中索引为c,背景词wo在词典中索引为o,给定中心词生成背景词的条件概率可以通过对向量内积做softmax运算而得到:因此,为最大化相邻词向量概率和,Skip-gram的目标函数定义为:其中m为窗口大小。基于以上目标函数,对函数进行变换,采用随机梯度下降法最小化损失函数,损失函数即为:
值得思考的是如何在Skip-gram模型的基础上提升词向量表征的准确性,这里引入CENE(Content-Enhanced Network Embedding)的思想,CENE是一种共同模拟节点中的网络结构和文本内容的网络嵌入方法。CENE将文本内容视为特殊类型的节点,并利用节点-节点链接和节点-内容链接进行节点嵌入。引入CENE的思想与Skip-gram模型结合,把语句中的词理解为CENE模型中的节点。在含有新词的短句序列中,对于一些“旧词”,可以通过维基百科等其他知识库中学习其文本描述。
这里涉及到节点嵌入与文本嵌入,节点-节点链接预节点-内容链接。节点-节点的损失函数与Skip-gram中提及的含义一致。在节点-内容链接中,使用fe(·)组合函数来表示描述内容,以完全捕获文本的语义。进一步,将每个描述文本分解成句子,并分别对节点-句子链接进行建模。具体实现节点-句子链接,这里对比了三种典型组合模型,参见图3。
(a)WAvg(Word Embedding Average,平均词向量)是一种简单的将词向量的平均值作为句子嵌入表示的方法,尽管不考虑词序,但在文本分类任务中已被证明表现出色。其中,wi为词向量。
(b)RNN(Recurrent Neural Network,循环神经网络)是一种以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络,改进的RNN网络包括LSTM以及GRU。LSTM(Long Short-Term Memory networks,长短期记忆网络)是一种特殊的RNN,通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。GRU(Gate RecurrentUnit,门控循环单位)也是RNN的一种,和LSTM一样,是为解决长期记忆和反向传播中的梯度消失和爆炸问题而提出来的,相比LSTM,其优势在于具有较少的参数,消耗更少的算力。其中,wi为词向量。
(c)BiRNN(Bidirectional Recurrent Neural Network,双向循环神经网络)是在GRU方法上更进一步,采用两层独立的隐藏层在两个相反方向上处理同一个句子的方法,两层隐藏层输出将经过平均池化层之后汇集。其中,wi为词向量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于表示学习的医学新词发现处理方法,其特征在于,包括以下步骤:
S10,原始语料预处理;
S20,分词处理;
S30,频繁n-gram挖掘;
S40,n-gram词串剪枝。
2.根据权利要求1所述的方法,其特征在于,所述原始语料预处理,为对原始语料中的语句进行预处理,通过句、逗号或换行符,将语句简单划分成短句子集合。
3.根据权利要求2所述的方法,其特征在于,所述分词处理,为遍历短句,进行分词处理,分词之后形成一个有序词列。
4.根据权利要求3所述的方法,其特征在于,所述频繁n-gram挖掘,包括以下步骤:
S31,设定频率阈值,第一遍扫描数据集T,在第一次扫描结束后找出所有出现频率大于阈值的n元词串,扫描的同时记录下所有这些n元词串的位置索引;
S32,进行第二遍扫描,只扫描上一次扫描结果词所在的词序列,并且只根据上一次扫描结果记录的位置索引前后扩张一个词,探测n+1元词串是否满足要求;
S33,重复S32,最终得到出现频率高于阈值的nmax元词串,得到新词候选词串。
5.根据权利要求4所述的方法,其特征在于,所述n-gram词串剪枝为利用Skip-gram模型剪枝,通过n-gram挖掘得到候选词串中含有大量的噪音数据,利用词向量的相似性对候选词串进行过滤,利用候选词串中的词与词之间对应的词向量的距离衡量相似度,词与词之间的相似度小于某个阈值,便对其进行剪枝,从而剔除噪音数据。
6.根据权利要求5所述的方法,其特征在于,所述n-gram词串剪枝为利用CENE将文本内容视为特殊类型的节点,并利用节点-节点链接和节点-内容链接进行节点嵌入,与Skip-gram模型结合,把语句中的词理解为CENE模型中的节点。
7.根据权利要求6所述的方法,其特征在于,所述CENE模型中实现节点-句子链接,包括以下组合模型:
WAvg:将词向量的平均值表示句子嵌入,不考虑词序;
RNN:使用门控循环单位,具有捕获每层隐藏层信息的能力;
BiRNN:在RNN的基础上采用两层独立的隐藏层在两个相反方向上处理同一个句子,两层隐藏层输出经过平均池化层之后汇集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453115.8A CN112541065A (zh) | 2020-12-11 | 2020-12-11 | 基于表示学习的医学新词发现处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453115.8A CN112541065A (zh) | 2020-12-11 | 2020-12-11 | 基于表示学习的医学新词发现处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112541065A true CN112541065A (zh) | 2021-03-23 |
Family
ID=75018355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011453115.8A Pending CN112541065A (zh) | 2020-12-11 | 2020-12-11 | 基于表示学习的医学新词发现处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541065A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609250A (zh) * | 2021-06-29 | 2021-11-05 | 中国科学院微生物研究所 | 基于科学角度的冠状病毒关联数据的知识挖掘方法及装置 |
CN113611424A (zh) * | 2021-06-29 | 2021-11-05 | 中国科学院微生物研究所 | 基于毒株角度的冠状病毒关联数据的知识挖掘方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168953A (zh) * | 2017-05-16 | 2017-09-15 | 电子科技大学 | 海量文本中基于词向量表征的新词发现方法及系统 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
US10558759B1 (en) * | 2018-01-04 | 2020-02-11 | Facebook, Inc. | Consumer insights analysis using word embeddings |
CN111368074A (zh) * | 2020-02-24 | 2020-07-03 | 西安电子科技大学 | 一种基于网络结构和文本信息的链路预测方法 |
CN111709518A (zh) * | 2020-06-16 | 2020-09-25 | 重庆大学 | 一种基于社区感知和关系注意力的增强网络表示学习的方法 |
-
2020
- 2020-12-11 CN CN202011453115.8A patent/CN112541065A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168953A (zh) * | 2017-05-16 | 2017-09-15 | 电子科技大学 | 海量文本中基于词向量表征的新词发现方法及系统 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
US10558759B1 (en) * | 2018-01-04 | 2020-02-11 | Facebook, Inc. | Consumer insights analysis using word embeddings |
CN111368074A (zh) * | 2020-02-24 | 2020-07-03 | 西安电子科技大学 | 一种基于网络结构和文本信息的链路预测方法 |
CN111709518A (zh) * | 2020-06-16 | 2020-09-25 | 重庆大学 | 一种基于社区感知和关系注意力的增强网络表示学习的方法 |
Non-Patent Citations (1)
Title |
---|
SUN X: "A General Framework for Content-enhanced Network Representation Learning", 《ARXIV PREPRINT》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609250A (zh) * | 2021-06-29 | 2021-11-05 | 中国科学院微生物研究所 | 基于科学角度的冠状病毒关联数据的知识挖掘方法及装置 |
CN113611424A (zh) * | 2021-06-29 | 2021-11-05 | 中国科学院微生物研究所 | 基于毒株角度的冠状病毒关联数据的知识挖掘方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu | Understanding graph embedding methods and their applications | |
CN110110324B (zh) | 一种基于知识表示的生物医学实体链接方法 | |
Fries | Brundlefly at SemEval-2016 Task 12: Recurrent neural networks vs. joint inference for clinical temporal information extraction | |
JPWO2004036497A1 (ja) | 構造化知識に基づく学習・思考機械及び学習・思考方法並びにコンピュータシステム及び情報生成方法 | |
CN111554360A (zh) | 基于生物医学文献和领域知识数据的药物重定位预测方法 | |
CN113707339B (zh) | 一种多源异质数据库间概念对齐与内容互译方法及系统 | |
US11301639B2 (en) | Methods and systems for generating a reference data structure for anonymization of text data | |
CN112735597A (zh) | 半监督自学习驱动的医学文本病症辨识方法 | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及系统 | |
CN115269865A (zh) | 一种面向辅助诊断的知识图谱构建方法 | |
CN112541065A (zh) | 基于表示学习的医学新词发现处理方法 | |
CN111540470B (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
CN116168825A (zh) | 基于知识图谱增强的自动可解释性疾病自动诊断装置 | |
CN112925918A (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
CN114021584A (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
Cannataro et al. | Artificial intelligence in bioinformatics: from omics analysis to deep learning and network mining | |
Lee et al. | Combining expression data and knowledge ontology for gene clustering and network reconstruction | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
Raj | Novel Method for Sentiment Analysis in Social Media Data Using Hybrid Deep Learning Model | |
Jayasudha et al. | CNN based Hidden Markov Model Algorithm to Segment Words and Identify the Medical Term to Match EMRs | |
Lee et al. | Evaluation of Large Tweet Dataset for Emotion Detection Model: A Comparative Study between Various ML and Transformer | |
Balabin | Multimodal Transformers for Biomedical Text and Knowledge Graph Data | |
Premisha et al. | “Predicting the Future Research Gaps Using Hybrid Approach: Machine Learning and Ontology | |
Ren et al. | A Tree-structured Neural Network Model for Joint Extraction of Adverse Drug Events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210323 |