CN116029300A - 一种强化中文实体语义特征的语言模型训练方法和系统 - Google Patents

一种强化中文实体语义特征的语言模型训练方法和系统 Download PDF

Info

Publication number
CN116029300A
CN116029300A CN202211454800.1A CN202211454800A CN116029300A CN 116029300 A CN116029300 A CN 116029300A CN 202211454800 A CN202211454800 A CN 202211454800A CN 116029300 A CN116029300 A CN 116029300A
Authority
CN
China
Prior art keywords
entity
text
language model
training
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211454800.1A
Other languages
English (en)
Inventor
饶璐
杨兰
谭斌
周兴发
孙锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Qiruike Technology Co Ltd
Sichuan Changhong Electronic Holding Group Co Ltd
Original Assignee
Sichuan Qiruike Technology Co Ltd
Sichuan Changhong Electronic Holding Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Qiruike Technology Co Ltd, Sichuan Changhong Electronic Holding Group Co Ltd filed Critical Sichuan Qiruike Technology Co Ltd
Priority to CN202211454800.1A priority Critical patent/CN116029300A/zh
Publication of CN116029300A publication Critical patent/CN116029300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种强化中文实体语义特征的语言模型训练方法和系统,包括以下步骤:对语料数据进行文本规范化处理;将所述语料数据分为标准集和候选集;将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;根据所述n个相似候选集,构建实体标准库、实体别名库和实体对立库;根据所述实体标准库、实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,获得包含实体语义特征的语言模型。

Description

一种强化中文实体语义特征的语言模型训练方法和系统
技术领域
本发明涉及自然语言处理和深度学习技术领域,具体涉及一种强化中文实体语义特征的语言模型训练方法和系统。
背景技术
语言模型简单来说就是用于表示自然语言的一串概率分布,随着人工智能技术的发展,预训练语言模型被广泛应用于自然语言理解领域的各个任务当中,如信息抽取、机器翻译、文本生成和自动对话系统等。
在神经网络问世之前,早期人们常用n-gram模型和词袋模型生成一串序列来表示文本的含义,此时文本的向量表示不存在任何语义信息和文本的上下文关系,无法衡量单词间的语义相似度,2013年之后,随着word2vec和GloVe等分布式表示方法的出现,基于大规模的文本数据训练得到的分布式表示逐渐成为自然语言表示的主流方法,在这种模式下,每个单词都有了一个固定的向量表示,语义相近的单词其向量表示也是相似的。但是这种分布式表示方法无法解决一词多义的问题,直到2018年ELMo、BERT、GPT等动态词向量表示方法提出之后,预训练语言模型的效果达到了新的高度。目前预训练语言模型的通用范式就是先基于大规模文本预训练得到通用的语言表示,再通过微调的方式将学习到的知识传递到不同的下游任务中。但是这种通用的预训练语言模型往往在某些特定领域如医疗、旅游、金融等领域效果欠佳,因为这些领域的文本数据具有较为鲜明的领域特色,尤其是中文文本数据,包含更加复杂的实体名称和句法结构,通用的语言模型和普适性的微调方式无法达到理想的效果,如现有模型很容易将一些代表同一实体的人名地名误判为不相似的单词,或者将字形极其相似但实际不代表同一实体的单词赋予相似的向量表示,从而导致整个句子的向量信息出现偏差进而影响下游任务的判定。
现有技术中,CN110085215A提出了一种基于生成对抗网络的语言模型数据增强方法,该方法利用生成对抗网络对现有数据进行增强,主要通过生成模型随机生成负样本序列,再通过判别模型随机在原始数据集中采样正样本数据,组合正负样本数据在生成模型中进行迭代训练,提高生成模型质量,从而提高生成文本数据的质量,解决现有语言模型在数据增强过程中存在的暴露偏差问题。但是该方法过度依赖生成模型的性能,且负样本数据的生成存在一定的随机性,所生成的的文本是否对语言模型性能有所提升无法得到准确的验证。
CN115203419A公开了一种语言模型的训练方法、装置和电子设备,该方法利用知识蒸馏技术通过教师模型和学生模型的构建和训练来增强学生语言模型的通用性和泛化性,从而提升目标语言模型的训练效率。该方法使用到了无标签数据对教师模型进行训练,在一定程度上省去了部分人工标注数据的时间成本,不过该方法比较适用于通用领域任务,对于特殊领域的特殊问题,如一些具有领域特色的专有名词,这类方法训练出来的语言模型仍然无法做出差异性的识别。
综上所述,现有预训练语言模型存在以下几点问题:
1)现有的预训练语言模型对不同语种的文本处理方式都大同小异,而中文文本通常具有更加复杂的专有名词和句法结构,当遇到特殊领域比较复杂或者容易混淆的单词和短语时,这些语言模型的识别效果就会明显下降。
2)一些预训练语言模型会通过数据增强的方式让模型在某些领域具有更好的理解能力,但是现有的数据增强方法无法保证新增数据的质量,可能会给模型带来更多的噪声。
3)现有的语言模型并未着重关注文本中的实体信息,而一句话的主题实体往往影响了整句话的语义走向,现有模型很容易将一些代表同一实体的人名地名误判为不相似的单词,或者将字形极其相似但实际不代表同一实体的单词赋予相似的向量表示,从而导致整个句子的向量信息出现偏差进而影响下游任务的判定。
发明内容
本发明的目的在于提供一种强化中文实体语义特征的语言模型训练方法和系统,用于解决上述技术背景中描述的现有技术的不足之处,包括对中文文本识别不敏感、通过数据增强方法获得的数据质量无法保证、特殊领域的复杂单词识别效果差等问题。
为达到上述目的,本发明实施例提供了一种强化中文实体语义特征的语言模型训练方法,包括:
对语料数据进行文本规范化处理;
将所述语料数据分为标准集和候选集;
将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;
根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库;
根据所述实体标准库,实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;
将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,训练过程中对所述语言模型进行微调,获得包含了实体语义特征的语言模型。
进一步地,对语料数据进行文本规范化处理的方法,包括:对文本中标点符号的处理,对文本中数字的规范化处理,对文本中非中文字符串的处理,对文本中停用词的处理,对文本中繁简字体的转化方法,对文本句子长度的处理等。
进一步地,将所述语料数据分为标准集和候选集的方法,包括:采用无监督的方法对所述语料数据进行粗分类后,采用人工方法对所述粗分类后的语料数据进行校对和纠正。
进一步地,将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据之前,构建相似度模型的方法,包括:基于概率相似度的方法和基于信息相似度的方法。
进一步地,根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库的方法,包括:采用实体抽取模型对相似集中的实体进行抽取后,采用规则和人工参与的方法构建所述三种实体库。
进一步地,所述采用实体抽取模型对相似集中的实体进行抽取之前,还包括:构建实体抽取模型的方法和训练实体抽取模型的方法。
进一步地,将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练之前,构建所述分类模型的方法,包括:构建初始化语言模型的方法,构建融合了实体信息的神经网络结构的方法。
进一步地,构建所述分类模型的方法之后,还包括:损失函数的设定,以及迭代更新所述分类模型参数的方法的设定。
本发明实施例提供的另一种强化中文实体语义特征的语言模型训练系统,包括:
文本规范单元,对语料数据进行文本规范化处理;
数据划分单元,将所述语料数据分为标准集和候选集;
文本匹配单元,将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;
实体库构建单元,根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库;
文本对构建单元,根据所述实体标准库,实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;
语言模型训练单元,将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,训练过程中对所述语言模型进行微调,获得包含了实体语义特征的语言模型。
本申请所提供的一种强化中文实体语义特征的语言模型训练方法和系统具有的有益效果包括但不限于:
1)本发明提供的强化中文实体语义特征的语言模型训练方法和系统能够强化语言模型对中文文本和复杂专有名词的理解。
2)本发明提供的强化中文实体语义特征的语言模型训练方法和系统在领域数据不充足的情况下,能够保证通过数据增强得到的扩充数据的准确性。
3)本发明提供的强化中文实体语义特征的语言模型训练方法和系统能够有效地区分容易混淆的实体名词,让字形相似而代表不同实体的单词向量表示距离更远,而让字形不同却代表同一实体的单词向量表示距离更近。
附图说明
图1为本发明一种强化中文实体语义特征的语言模型训练方法的实施例一中的流程示意图。
图2为本发明一种强化中文实体语义特征的语言模型训练系统的实施例二中的系统架构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
相反,本申请涵盖任何由权利要求定义的在本申请的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本申请有更好的了解,在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。
以下将结合图1-2对本申请实施例所涉及的一种强化中文实体语义特征的语言模型训练方法和系统进行详细说明。值得注意的是,以下实施例仅仅用于解释本申请,并不构成对本申请的限定。
实施例1:
如图1所示,是本发明一种强化中文实体语义特征的语言模型训练方法的实施例一中的流程示意图,包括:
步骤1、对语料数据进行文本规范化处理。
具体实施例中,对语料数据进行文本规范化处理的方法,包括:对文本中标点符号的处理,对文本中数字的规范化处理,对文本中非中文字符串的处理,对文本中停用词的处理,对文本中繁简字体的转化方法,对文本句子长度的处理等。
所述对文本中标点符号的处理方法,具体为利用规则和标点符号库将文本中的所有标点符号进行删除操作。
所述对文本中非中文字符串的处理方法,具体为删除文本中所有的非中文字符串。
所述对文本中停用词的处理方法,具体为利用停用词库删除文本中的高频停用词。
所述对文本中繁简字体的转化方法,具体为利用繁简体字典库将文本中所有的繁体字转换为简体字。
所述对文本句子长度的处理方法,具体为将句子长度小于i的文本删除,对于句子长度大于j的文本随机截取长度为j的文本保留,其中1<i<5,128<j<512,i和j的取值根据实际情况选择。
步骤2、将所述语料数据分为标准集和候选集。
具体实施例中,将所述语料数据分为标准集和候选集的方法,包括:采用无监督的方法对所述语料数据进行粗分类后,采用人工方法对所述粗分类后的语料数据进行校对和纠正。
所述采用无监督的方法对所述语料数据进行粗分类的方法,具体为利用规则将语料数据中第一次出现的文本划分到标准集中,第二次或者多次出现的相似文本划分到候选集中,候选集和标准集中相似的文本之间建立唯一索引。
所述采用人工方法对所述粗分类后的语料数据进行校对和纠正的方法,具体为观察标准集中的语料数据是否唯一,并且观察候选集中的语料数据是否与标准集中的对应语料数据存在相似关系。
步骤3、将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据。
具体实施例中,将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据之前,构建相似度模型的方法,包括:基于概率相似度的方法和基于信息相似度的方法。
所述基于概率相似度的方法,包括:TF-IDF模型,BM25模型等。
所述基于信息相似度的方法,包括:先将文本转化为向量表示,再计算文本间向量表示的距离,距离计算模型有余弦相似度计算方法、杰卡德相似系数计算方法等。
步骤4、根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库。
具体实施例中,根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库的方法,包括:采用实体抽取模型对相似集中的实体进行抽取后,采用规则和人工参与的方法构建所述三种实体库。
所述采用规则和人工参与的方法构建所述三种实体库的方法,具体为首先从标准集中筛选出标准实体构建实体标准库,再根据候选集和标准集的唯一索引筛选出与标准实体代表同一实体的实体别名库,最后根据步骤3中为标准集中的每条语料找出的top k个相似数据筛选出与标准实体字形相似但不代表同一实体的实体对立库,其中实体标准库和实体别名库之间建立唯一索引,实体标准库和实体对立库之间建立唯一索引。
具体实施例中,采用实体抽取模型对相似集中的实体进行抽取之前,还包括:构建实体抽取模型的方法和训练实体抽取模型的方法
所述构建实体抽取模型的方法,包括:LSTM(长短记忆网络)模型,LSTM+CRF(条件随机场)模型,Transformer模型等。
所述训练实体抽取模型的方法,包括:采用公开数据直接对所述实体抽取模型进行训练,或对所述语料数据进行实体标注后放入所述实体抽取模型进行训练,得到训练好的实体抽取模型。
步骤5、根据所述实体标准库,实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对。
具体实施例中,根据所述实体标准库,实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对的方法,具体为利用算法检测出标准集中的每条语料的实体是否存在对应的别名实体或者对立实体,若存在别名实体,将该条语料中的实体替换为别名实体,并和原标准语料构成文本相似对,标注上正样本标签;若存在对立实体,将该条语料中的实体替换为对立实体,并和原标准语料构成文本不相似对,标注上负样本标签。
步骤6、将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,训练过程中对所述语言模型进行微调,获得包含了实体语义特征的语言模型。
具体实施例中,将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练之前,构建所述分类模型的方法,包括:构建初始化语言模型的方法,构建融合了实体信息的神经网络结构的方法。
所述构建初始化语言模型的方法,包括:GPT模型,ELMo模型,Bert模型,GNN模型等。
所述构建融合了实体信息的神经网络结构的方法,具体为将实体的类别信息转换为向量表示后通过注意力机制传输到语言模型下游的全连接层。
具体实施例中,构建所述分类模型的方法之后,还包括:损失函数的设定,以及迭代更新所述分类模型参数的方法的设定。
所述损失函数的设定方法,包括:采用最大间隔损失函数来计算真实值与预测值之间的差值。
所述迭代更新分类模型参数的方法,包括:采用AdaGrad优化器,或采用Adadelta优化器,或采用RMSprop优化器等。
实施例二
如图2所示,是本发明一种强化中文实体语义特征的语言模型训练系统的实施例二中的系统架构图,包括:
文本规范单元,对语料数据进行文本规范化处理;
数据划分单元,将所述语料数据分为标准集和候选集;
文本匹配单元,将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;
实体库构建单元,根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库;
文本对构建单元,根据所述实体标准库,实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;
语言模型训练单元,将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,训练过程中对所述语言模型进行微调,获得包含了实体语义特征的语言模型
需要说明的是,本实施例中的各个单元是逻辑意义上的,在具体实施过程中,一个单元可拆分成多个单元,多个单元也可以合并成一个单元。
根据本发明实施例二提供的一种强化中文实体语义特征的语言模型训练系统,该系统通过引入中文实体信息让预训练语言模型能够更好地理解中文文本中的复杂实体和区分相似实体,同时保证了用于强化语言模型实体语义特征的增强数据的准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种强化中文实体语义特征的语言模型训练方法,其特征在于,包括以下步骤:
对语料数据进行文本规范化处理;
将所述语料数据分为标准集和候选集;
将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;
根据所述n个相似候选集,构建实体标准库、实体别名库和实体对立库;
根据所述实体标准库、实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;
将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,获得包含实体语义特征的语言模型。
2.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,所述对语料数据进行文本规范化处理的方法,包括:对文本中标点符号的处理、对文本中数字的规范化处理、对文本中非中文字符串的处理、对文本中停用词的处理、对文本中繁简字体的转化方法、对文本句子长度的处理。
3.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,将所述语料数据分为标准集和候选集的方法,包括:采用无监督的方法对所述语料数据进行粗分类后,采用人工方法对所述粗分类后的语料数据进行校对和纠正。
4.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据之前,构建相似度模型的方法,包括:基于概率相似度的方法和基于信息相似度的方法。
5.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库的方法,包括:采用实体抽取模型对相似集中的实体进行抽取后,采用规则和人工参与的方法构建所述三种实体库。
6.根据权利要求5所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,采用实体抽取模型对相似集中的实体进行抽取之前,还包括:构建实体抽取模型的方法和训练实体抽取模型的方法。
7.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练之前,构建所述分类模型的方法,包括:构建初始化语言模型的方法,构建融合了实体信息的神经网络结构的方法。
8.根据权利要求7所述的一种强化中文实体语义特征的语言模型训练方法,其特征在于,构建所述分类模型的方法之后,还包括:损失函数的设定,以及迭代更新所述分类模型参数的方法的设定。
9.根据权利要求1所述的一种强化中文实体语义特征的语言模型训练系统,其特征在于,包括:
文本规范单元,对语料数据进行文本规范化处理;
数据划分单元,将所述语料数据分为标准集和候选集;
文本匹配单元,将所述标准集中的n条语料和候选集中的m条语料放入文本相似度模型中,形成n个相似候选集,为标准集中的每条语料在候选集中找出top k个相似数据;
实体库构建单元,根据所述n个相似候选集,构建实体标准库,实体别名库和实体对立库;
文本对构建单元,根据所述实体标准库,实体别名库和实体对立库,构建用于训练语言模型的文本相似对和文本不相似对;
语言模型训练单元,将所述文本相似对和所述文本不相似对放入包含了初始化语言模型的分类模型中进行训练,训练过程中对所述语言模型进行微调,获得包含了实体语义特征的语言模型。
CN202211454800.1A 2022-11-21 2022-11-21 一种强化中文实体语义特征的语言模型训练方法和系统 Pending CN116029300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211454800.1A CN116029300A (zh) 2022-11-21 2022-11-21 一种强化中文实体语义特征的语言模型训练方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211454800.1A CN116029300A (zh) 2022-11-21 2022-11-21 一种强化中文实体语义特征的语言模型训练方法和系统

Publications (1)

Publication Number Publication Date
CN116029300A true CN116029300A (zh) 2023-04-28

Family

ID=86078477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211454800.1A Pending CN116029300A (zh) 2022-11-21 2022-11-21 一种强化中文实体语义特征的语言模型训练方法和系统

Country Status (1)

Country Link
CN (1) CN116029300A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540734A (zh) * 2024-01-10 2024-02-09 中南大学 一种中文医学实体标准化方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540734A (zh) * 2024-01-10 2024-02-09 中南大学 一种中文医学实体标准化方法、装置及设备
CN117540734B (zh) * 2024-01-10 2024-04-09 中南大学 一种中文医学实体标准化方法、装置及设备

Similar Documents

Publication Publication Date Title
CN107748757B (zh) 一种基于知识图谱的问答方法
CN112989005B (zh) 一种基于分阶段查询的知识图谱常识问答方法及系统
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN111079418B (zh) 命名体识别方法、装置、电子设备和存储介质
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
Namysl et al. NAT: Noise-aware training for robust neural sequence labeling
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统
CN113254586B (zh) 一种基于深度学习的无监督文本检索方法
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
Göker et al. Neural text normalization for turkish social media
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN117131932A (zh) 基于主题模型的领域知识图谱本体半自动构建方法及系统
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination