CN115114932A - 一种基于关键词的多粒度中文短文本匹配方法 - Google Patents

一种基于关键词的多粒度中文短文本匹配方法 Download PDF

Info

Publication number
CN115114932A
CN115114932A CN202210738535.3A CN202210738535A CN115114932A CN 115114932 A CN115114932 A CN 115114932A CN 202210738535 A CN202210738535 A CN 202210738535A CN 115114932 A CN115114932 A CN 115114932A
Authority
CN
China
Prior art keywords
sentence
granularity
word
sentences
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210738535.3A
Other languages
English (en)
Other versions
CN115114932B (zh
Inventor
甘玲
李梦珠
刘菊
胡柳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210738535.3A priority Critical patent/CN115114932B/zh
Priority claimed from CN202210738535.3A external-priority patent/CN115114932B/zh
Publication of CN115114932A publication Critical patent/CN115114932A/zh
Application granted granted Critical
Publication of CN115114932B publication Critical patent/CN115114932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于关键词的多粒度中文短文本匹配方法,属于自然语言处理领域,包括以下步骤:S1:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示;S2:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;S3:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;S4:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;S5:连接关键词特征和两句子的表示向量作为最终的预测向量。

Description

一种基于关键词的多粒度中文短文本匹配方法
技术领域
本发明属于自然语言处理领域,涉及一种基于关键词的多粒度中文短文本匹配方法。
背景技术
随着大数据技术和互联网的发展,短文本信息飞速增长,如新闻、手机短信、网络聊天、购物介绍、出行提示等。在海量的信息中,如何获取与自身需要和吻合度更高的内容成为了关键所在,因此使得自然语言处理成为了研究的热点,而短文本匹配就是其中的关键技术之一,由此也成为一个热门的研究话题。短文本匹配指对于给定的两条短文本,按照语义的相似程度,判断是否匹配。
随着深度学习的发展,利用深度学习的方法研究短文本匹配任务成为了如今的主流方法。Shen等人提出了基于卷积神经网络的深度语义结构化模型,得到句子的局部和全局信息从而进行匹配;Paul等人提出孪生BiLSTM方法,在获得句中每一个词的前向和后向信息,利用上下文信息进行匹配;Sandeep等人提出利用多任务训练的方法进行短文本匹配;Chen等人提出BiLSTM结合注意力机制的方法进行短文本匹配;Yang等人提出反复对齐和融合句子的原始特征、上下文特征、对齐特征的方法进行文本匹配。
现有技术中存在以下问题:(1)对于中文文本的特征信息提取不够充分,不同粒度的文本序列包含了不同的文本特征,现有的方法仅仅考虑了单一特征,缺乏多粒度的语义特征和多特征融合。(2)短文本内容简短,关键词对语义的影响比长文本更大,但是现有模型大都忽略了关键词信息。
发明内容
有鉴于此,本发明的目的在于提供一种基于关键词的多粒度中文短文本匹配方法。
为达到上述目的,本发明提供如下技术方案:
一种基于关键词的多粒度中文短文本匹配方法,包括以下步骤:
S1:多粒度词嵌入:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示
Figure BDA0003712340710000011
S2:上下文编码:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;
S3:句子特征融合:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;
S4:关键词特征提取:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;所述关注关键词的Transformer是指在Transformer的自注意力层中,句子一对句子二做注意力操作时只关注句子二的关键词,反之亦然;
S5:特征融合:连接关键词特征和两句子的表示向量作为最终的预测向量。
进一步,步骤S1中,通过词粒度信息提取模块和字粒度信息提取模块进行;
词粒度信息提取模块先将中文句子切分为基于词语的句子表示,再将句子填充到相同的长度N;通过在目标数据集上训练Word2Vec获得词语级别的嵌入向量;
字粒度信息提取模块先将中文句子切分为基于字的句子表示,再将句子填充到相同的长度N;通过在目标数据集上训练Word2Vec获得字粒度的嵌入向量。
进一步,步骤S2中,获得句子两个方向的上下文信息,具体通过以下方式计算:
Figure BDA0003712340710000021
其中,
Figure BDA0003712340710000022
表示句子一字粒度的上下文表示向量,
Figure BDA0003712340710000023
表示句子一字粒度的嵌入向量;
句子一词粒度的上下文表示向量
Figure BDA0003712340710000024
句子二字粒度的上下文表示向量
Figure BDA0003712340710000025
句子二词粒度的上下文表示向量
Figure BDA0003712340710000026
也用同样的方式计算。
进一步,步骤S3具体通过以下方式计算:
Figure BDA0003712340710000027
Figure BDA0003712340710000028
Figure BDA0003712340710000029
其中,S1表示句子一的最终表示向量;句子二的最终表示向量S2也用同样的方式计算。
进一步,步骤S4中,通过关键词特征提取模块进行关键词特征提取,选择名词作为关键词,通过jieba标注关键词。
进一步,步骤S5中,利用特征提取模块,通过交叉注意力对同一个句子的字粒度信息和词粒度信息进行融合,对于两个句子的特征向量和关键词特征向量,先拼接两句子特征向量及它们的差值绝对值,然后拼接关键词特征向量:
F=Concat(S1,S2,|S1-S2|,Pkey)
最后将F传入MLP进行预测。
本发明的有益效果在于:
1)考虑到中文文本是由词语构成的,本发明从字粒度和词粒度两方面提取句子的特性信息,并通过交叉注意力融合两个粒度的特征,捕获它们之间的关联信息,提取到丰富的语义信息。
2)由于句子文本长度较短,关键词对句子的语义的影响很大,本发明采用关注关键词的Transformer编码器对句子进行编码,提取句子的关键词信息,提高模型的性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为基于关键词的多粒度中文短文本匹配模型。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明提供一种基于关键词的多粒度中文短文本匹配模型,包括词粒度信息提取模块、字粒度特征提取模块、关键词特征提取模块、特征融合模块和预测模块五部分,其结构如图1所示。
在学习句子文本表示时,本发明提出的模型采用了孪生网络结构,孪生网络是对两个句子应用共享参数的相同结构的编码器进行编码,这样得到的编码得到的两个句子向量特征就欸映射到同一向量空间,在区分句子的语义差异方面表现更好并且保证了句子特征向量不被模型差异所影响。
1)词粒度信息提取模块
词粒度模块先将中文句子切分为基于词语的句子表示,再将句子填充到相同的长度N。通过在目标数据集上训练Word2Vec获得词语级别的嵌入向量。获得嵌入向量后,将其传入上下文编码层,上下文编码层由两个BiGRU组成,嵌入向量经两个BiGRU编码得到的结果就是句子最后的语义表示向量。
2)字粒度信息提取模块
词粒度模块先将中文句子切分为基于词语的句子表示,再将句子填充到相同的长度N。然后对句子做和词粒度句子同样的操作,先训练Word2Vec获得字粒度的嵌入向量,再将其传入上下文编码层编码得到包含上下文信息的语义表示向量。
3)关键词特征提取模块
在句子中,通常名词对句子语义的影响较大,因此选择名词作为关键词,通过jieba标注关键词。连接词粒度信息提取模块和字粒度信息提取模块的嵌入向量,先通过11层Transformer编码层对向量进行编码获得特征向量,然后通过只关注关键词的Transformer层获得关键词信息。
4)特征融合模块
对于同一个句子的字粒度信息和词粒度信息,通过交叉注意力进行融合。交叉注意力遵循与多头自注意力机制相似的原理,不同的是,自注意力机制中,Q、K、V三个矩阵是从同一个矩阵计算出来的,而交叉注意力则是来自两个矩阵。对于两个句子的特征向量和关键词特征向量,先拼接两句子特征向量及它们的差值绝对值,然后拼接关键词特征向量。
5)预测模块
预测模块采用MLP分类器根据特征融合的结果判断两个句子的语义是否匹配。MLP由三个RULE函数激活的完全连接的隐藏层和一个由softmax激活的输出层构成。
本发明的具体实施步骤如下:
步骤一:多粒度词嵌入。本发明首先使用分词工具jieba将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示
Figure BDA0003712340710000051
步骤二:上下文编码。用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息,如公式(1)(2)(3)(4)所示。
Figure BDA0003712340710000052
其中,
Figure BDA0003712340710000053
表示句子一字粒度的上下文表示向量,
Figure BDA0003712340710000054
表示句子一字粒度的嵌入向量,
Figure BDA0003712340710000055
Figure BDA0003712340710000056
也用同样的方式计算。
步骤三:句子特征融合。用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量,如公式(2)(3)(4)所示:
Figure BDA0003712340710000057
Figure BDA00037123407100000511
Figure BDA0003712340710000058
其中,S1表示句子一的最终表示向量,S2也用同样的方式计算。
步骤四:关键词特征提取。连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码。其中关注关键词的Transformer是指在Transformer的自注意力层中,句子一对句子二做注意力操作时只关注句子二的关键词,反之亦然。
步骤五:最终的特征融合。连接关键词特征和两句子的表示向量作为最终的预测向量:
F=Concat(S1,S2,|S1-S2|,Pkey)
最后将F传入MLP进行预测。
本发明的数据集在大规模开放数据集LCQMC和银行领域数据集BQ上进行实验,数据集的划分和数据量的组成如表1所示。
表1
Figure BDA0003712340710000059
本发明采用精确率P、召回率R和准确率Acc、综合评价F1值作为评价指标,计算方法如公式(8)~(10)所示:
Figure BDA00037123407100000510
Figure BDA0003712340710000061
Figure BDA0003712340710000062
Figure BDA0003712340710000063
其中,TP表示将正类预测为正类的数量,FN表示将正类预测为负类的数目,FP表示将负类预测为正类的数目,TN表示将负类预测为负类的数目。
本发明的实验环境是基于Tensorflw和Keras框架,采用NVIDIA TESLA P100 GPU训练模型,预训练模型的嵌入维度是768,编码层的维度也设置为768,预测模块的隐藏层激活函数是relu和softmax,设置每个隐藏层的单元数为60个。采用动态的学习率,初始学习率为0.001,batch_size设置为512,优化函数是ADAM。实验采用了早停机制,设置patience为10。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于关键词的多粒度中文短文本匹配方法,其特征在于:包括以下步骤:
S1:多粒度词嵌入:将句子分为字和词两个粒度,将两个粒度的句子统一填充到长度N,在对应数据集上训练Word2Vec,获得字和词两个粒度的嵌入表示
Figure FDA0003712340700000011
S2:上下文编码:用两个BiGRU对句子向量进行编码,获得句子两个方向的上下文信息;
S3:句子特征融合:用交叉注意力获得字粒度特征和词粒度特征之间的关联,再对其及逆行平均池化并连接获得句子最终的表示向量;
S4:关键词特征提取:连接两句子的词粒度嵌入向量,用11层Transformer编码器和一层关注关键词的Transformer进行编码;所述关注关键词的Transformer是指在Transformer的自注意力层中,句子一对句子二做注意力操作时只关注句子二的关键词,反之亦然;
S5:特征融合:连接关键词特征和两句子的表示向量作为最终的预测向量。
2.根据权利要求1所述的基于关键词的多粒度中文短文本匹配方法,其特征在于:步骤S1中,通过词粒度信息提取模块和字粒度信息提取模块进行;
词粒度信息提取模块先将中文句子切分为基于词语的句子表示,再将句子填充到相同的长度N;通过在目标数据集上训练Word2Vec获得词语级别的嵌入向量;
字粒度信息提取模块先将中文句子切分为基于字的句子表示,再将句子填充到相同的长度N;通过在目标数据集上训练Word2Vec获得字粒度的嵌入向量。
3.根据权利要求1所述的基于关键词的多粒度中文短文本匹配方法,其特征在于:步骤S2中,获得句子两个方向的上下文信息,具体通过以下方式计算:
Figure FDA0003712340700000012
其中,
Figure FDA0003712340700000013
表示句子一字粒度的上下文表示向量,
Figure FDA0003712340700000014
表示句子一字粒度的嵌入向量;
句子一词粒度的上下文表示向量
Figure FDA0003712340700000015
句子二字粒度的上下文表示向量
Figure FDA0003712340700000016
句子二词粒度的上下文表示向量
Figure FDA0003712340700000017
也用同样的方式计算。
4.根据权利要求1所述的基于关键词的多粒度中文短文本匹配方法,其特征在于:步骤S3具体通过以下方式计算:
Figure FDA0003712340700000018
Figure FDA0003712340700000019
Figure FDA00037123407000000110
其中,S1表示句子一的最终表示向量;句子二的最终表示向量S2也用同样的方式计算。
5.根据权利要求1所述的基于关键词的多粒度中文短文本匹配方法,其特征在于:步骤S4中,通过关键词特征提取模块进行关键词特征提取,选择名词作为关键词,通过jieba标注关键词。
6.根据权利要求1所述的基于关键词的多粒度中文短文本匹配方法,其特征在于:步骤S5中,利用特征提取模块,通过交叉注意力对同一个句子的字粒度信息和词粒度信息进行融合,对于两个句子的特征向量和关键词特征向量,先拼接两句子特征向量及它们的差值绝对值,然后拼接关键词特征向量:
F=Concat(S1,S2,|S1-S2|,Pkey)
最后将F传入MLP进行预测。
CN202210738535.3A 2022-06-24 一种基于关键词的多粒度中文短文本匹配方法 Active CN115114932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210738535.3A CN115114932B (zh) 2022-06-24 一种基于关键词的多粒度中文短文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210738535.3A CN115114932B (zh) 2022-06-24 一种基于关键词的多粒度中文短文本匹配方法

Publications (2)

Publication Number Publication Date
CN115114932A true CN115114932A (zh) 2022-09-27
CN115114932B CN115114932B (zh) 2024-06-28

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862875A (zh) * 2023-02-27 2023-03-28 四川大学华西医院 基于多类型特征融合的术后肺部并发症预测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018153217A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN112966524A (zh) * 2021-03-26 2021-06-15 湖北工业大学 基于多粒度孪生网络的中文句子语义匹配方法及系统
KR20210100517A (ko) * 2020-02-06 2021-08-17 네이버 주식회사 멀티-홉 기계 판독을 위한 잠재적 질의 재공식화와 정보 축적
CN113627172A (zh) * 2021-07-26 2021-11-09 重庆邮电大学 基于多粒度特征融合和不确定去噪的实体识别方法及系统
CN113987179A (zh) * 2021-10-27 2022-01-28 哈尔滨工业大学 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN113987129A (zh) * 2021-11-08 2022-01-28 重庆邮电大学 基于变分自动编码器的数字媒体保护文本隐写方法
CN114238563A (zh) * 2021-12-08 2022-03-25 齐鲁工业大学 基于多角度交互的中文句子对语义智能匹配方法和装置
CN114626367A (zh) * 2022-03-11 2022-06-14 广东工业大学 基于新闻文章内容的情感分析方法、系统、设备及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018153217A1 (zh) * 2017-02-27 2018-08-30 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN108509408A (zh) * 2017-02-27 2018-09-07 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
KR20210100517A (ko) * 2020-02-06 2021-08-17 네이버 주식회사 멀티-홉 기계 판독을 위한 잠재적 질의 재공식화와 정보 축적
US20210256069A1 (en) * 2020-02-06 2021-08-19 Naver Corporation Latent question reformulation and information accumulation for multi-hop machine reading
CN112966524A (zh) * 2021-03-26 2021-06-15 湖北工业大学 基于多粒度孪生网络的中文句子语义匹配方法及系统
CN113627172A (zh) * 2021-07-26 2021-11-09 重庆邮电大学 基于多粒度特征融合和不确定去噪的实体识别方法及系统
CN113987179A (zh) * 2021-10-27 2022-01-28 哈尔滨工业大学 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN113987129A (zh) * 2021-11-08 2022-01-28 重庆邮电大学 基于变分自动编码器的数字媒体保护文本隐写方法
CN114238563A (zh) * 2021-12-08 2022-03-25 齐鲁工业大学 基于多角度交互的中文句子对语义智能匹配方法和装置
CN114626367A (zh) * 2022-03-11 2022-06-14 广东工业大学 基于新闻文章内容的情感分析方法、系统、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LING GAN等: "s sentence semantic matching model based on cross-attention mechanism", 2022 3RD INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND MANAGEMENT, 20 November 2022 (2022-11-20), pages 1 - 10 *
刘孝保;陆宏彪;阴艳超;陈志成;: "基于多元神经网络融合的分布式资源空间文本分类研究", 计算机集成制造系统, vol. 26, no. 01, 15 January 2020 (2020-01-15), pages 161 - 170 *
张志昌;周侗;张瑞芳;张敏钰;: "融合双向GRU与注意力机制的医疗实体关系识别", 计算机工程, vol. 46, no. 06, 15 June 2020 (2020-06-15), pages 296 - 302 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862875A (zh) * 2023-02-27 2023-03-28 四川大学华西医院 基于多类型特征融合的术后肺部并发症预测方法及系统
CN115862875B (zh) * 2023-02-27 2024-02-09 四川大学华西医院 基于多类型特征融合的术后肺部并发症预测方法及系统

Similar Documents

Publication Publication Date Title
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN114118065B (zh) 一种电力领域中文文本纠错方法、装置、存储介质及计算设备
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
Ali et al. Boosting Arabic named-entity recognition with multi-attention layer
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN111626062A (zh) 文本语义编码方法及系统
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114970503A (zh) 一种基于预训练的字音字形知识增强的中文拼写纠正方法
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN114428850A (zh) 一种文本检索匹配方法和系统
CN114723013A (zh) 一种多粒度知识增强的语义匹配方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN113609840B (zh) 一种汉语法律判决摘要生成方法及系统
CN114564953A (zh) 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
do Carmo Nogueira et al. A reference-based model using deep learning for image captioning
CN110717316B (zh) 字幕对话流的主题分割方法及装置
Mahata et al. JUNLP@ Dravidian-CodeMix-FIRE2020: Sentiment classification of code-mixed tweets using bi-directional RNN and language tags
CN117172253A (zh) 一种基于标签信息引导的社交媒体多模态命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant