CN116776887B - 一种基于样本相似性计算的负采样远程监督实体识别方法 - Google Patents

一种基于样本相似性计算的负采样远程监督实体识别方法 Download PDF

Info

Publication number
CN116776887B
CN116776887B CN202311045140.6A CN202311045140A CN116776887B CN 116776887 B CN116776887 B CN 116776887B CN 202311045140 A CN202311045140 A CN 202311045140A CN 116776887 B CN116776887 B CN 116776887B
Authority
CN
China
Prior art keywords
entity
sample
samples
feature vectors
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311045140.6A
Other languages
English (en)
Other versions
CN116776887A (zh
Inventor
线岩团
刘杨
相艳
郭军军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202311045140.6A priority Critical patent/CN116776887B/zh
Publication of CN116776887A publication Critical patent/CN116776887A/zh
Application granted granted Critical
Publication of CN116776887B publication Critical patent/CN116776887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于样本相似性计算的负采样远程监督实体识别方法,属于自然语言处理技术领域。本发明首先获取训练样本和增强样本,将增强样本与原有训练样本一起,使用预训练语言模型PLM的词编码模块进行编码,得到文本的词嵌入,然后通过预训练语言模型里的双向Transformer编码器对词嵌入进行编码处理,得到所有样本最终的特征向量,将其中的负样本部分与正样本部分进行相似度计算并对其打分,从中取出得分靠前的K个负样本,这K个得分高的负样本就认为其为漏标实体,而后与原有正样本一起参与训练,以此实现完成漏标实体的发现和模型泛化能力的提高。

Description

一种基于样本相似性计算的负采样远程监督实体识别方法
技术领域
本发明涉及一种基于样本相似性计算的负采样远程监督实体识别方法,属于自然语言处理技术领域。
背景技术
命名实体识别(Named Entity Recognition, NER)主要是从文本中识别出特定类别的实体,例如人名、地名、组织机构名等,是自然语言处理任务中的最基础的一步,可以应用于关系抽取、实体链接、事件提取、知识图谱等一系列下游任务。
与其他自然语言处理任务类似,命名实体识别仍然严重依赖于人工注释或人工标注的训练数据集。通过人工标注数据花费时间较长,而且金钱成本较为高昂。一种解决手段是采用远程监督(Distantly Supervised,DS)的方法来获取实体标签或注释。在标注实体的过程中,远程监督的方法以外部知识库或词典去匹配输入文本中的词或者字符串,当匹配成功时,认为所匹配词或字符串类别即为外部知识库或词典中对应的标签。
然而,对于这种通过远程监督方法获取的标签,标注的实体大多有正确的标签,由于外部知识库或词典并不是完备的,其覆盖范围有限,不能保证完全覆盖数据集中所包含的所有实体,从而导致数据集整体标注是不完整的,存在有实体被漏标的情况。如果直接将从远程监督中获取的标注数据送入传统的命名实体识别模型中训练,将漏标实体当作非实体训练。一般来说,假设有某个实体在训练集中不存在,命名实体识别模型在预测过程中能够凭借其泛化能力有一定几率将实体识别出来;若该实体存在于训练集中,但被漏标,模型在训练时便会将其作为非实体学习,导致模型在后续预测实体类型时更倾向于将该实体预测为非实体,这将损害模型的性能。
发明内容
本发明提供了一种基于样本相似性计算的负采样远程监督实体识别方法,以用于解决远程监督命名实体识别方法中实体标签漏标的问题,提高识别模型的泛化能力。
本发明的技术方案是:一种基于样本相似性计算的负采样远程监督实体识别方法,所述方法的具体步骤如下:
步骤1:对数据集中的原始数据进行处理,得到训练样本;然后对其中的实体部分通过外部实体词库进行同义实体词随机替换,生成新的句子,处理后作为增强样本;
步骤2:将增强样本与原有训练样本一起,使用预训练语言模型PLM的词编码模块进行编码,得到文本的词嵌入,然后通过预训练语言模型里的双向Transformer编码器对词嵌入进行编码处理,得到所有样本最终的特征向量;
步骤3:对从步骤2处理后获取的所有样本最终的特征向量,将其中的负样本部分与正样本部分进行相似度计算并对其打分,从中取出得分靠前的K个负样本,这K个得分高的负样本就认为其为漏标实体,而后与原有正样本一起参与训练,以此实现完成漏标实体的发现和模型泛化能力的提高。
进一步地,所述步骤1中包含以下步骤:
步骤1.1:对从数据集中获取的原始数据进行处理,得到训练样本
其中tokens为实体文本序列,为实体文本序列中的第i个单词,m为实体文 本序列中单词的数量;文本序列的子序列称为span,spans表示所有可能的输入的文本序列 的子序列集合,其中为文本序列的第i1个子序列的开始位置,为文本序列的第 i1个子序列的结束位置,n表示spans中文本序列的子序列的数量;spans_label表示文本序 列的子序列对应的实体类型标签的集合,其中为文本序列的第i2个子序列对应的实体类 型标签,n1表示实体类型标签的数量;
步骤1.2:对训练样本S中的实体文本序列部分通过外部实体词库进行同义实体词 随机替换,得到新的增强实体文本,其中 为第i3个替换的实体词;
步骤1.3:将训练样本S中的实体文本序列替换为增强实体文本,而且训练样本中 的spans_label中的实体类型标签均标记为非实体,从而得到增强样本S
进一步地,所述步骤2中包含如下内容:
步骤2.1:定义批次数据量为B,N为批次中最长的数量,M为向量维度,T为批 次中最长序列的长度;对从步骤1获取的训练样本和增强样本S,对和S中的实体文本 序列使用预训练语言模型PLM的词编码模块,得到对应的词嵌入向量集合
,
其中和S中对应的第i4个词的词嵌入向量,同时对进行向量化处理;m为实体文本序列中单词的数量;文本序列的子序列称为 span,spans表示所有可能的输入的文本序列的子序列集合,spans_label表示文本序列的 子序列对应的实体类型标签的集合;
步骤2.2:对进行拼接得到新的特征向量,将拼接后的新的 特征向量输入预训练语言模型里的双向Transformer编码器进行编码进行处理,得到所有 样本的特征向量,其中为第i5个样本的特征向量;
步骤2.3:使用spans中的开始部分作为索引,从中获取到实体的头部特征向量的 集合,其中为第i6个实体头部的特征向量,d为头部特征向 量的数量;
步骤2.4:使用spans中结束的部分作为索引,从中获取到获取实体的尾部特征向 量的集合,其中为第i7个实体尾部的特征向量,d为尾部特 征向量的数量,也即头部特征向量的数量,头部特征向量的数量和尾部特征向量的数量相 等;
步骤2.5:对实体宽度进行编码得到实体宽度的特征向量集合;其中为第i8个实体宽度的特征向量,v为实体宽度特 征向量的数量;
步骤2.6:对前述步骤2.3-步骤2.5得到的特征向量进行拼接得到
;
而后对 使用多层线性层进行降维,得到所有样本最终的特征向量,其中为经过降维后的特征向量,r为降维后的维度。
进一步地,所述步骤3中包含以下步骤:
步骤3.1:对于从前序步骤获得的所有样本最终的特征向量P中包括正样本序列和负样本序列,其中为正样本序列集合中的一 个正样本,为负样本序列集合中的一个负样本;对于每一个负样本,都对其与正样本序 列中的每个正样本计算平均相似度得分:
其中为样本之间的相似度,为相似度得分,B1为一个批次数 据中正样本数量;
步骤3.2:以为依据,从负样本序列中选出分数高的样本的对应索引,其中为排序算法;根据索引,从负样本中一共取 出K个相似度得分高的负样本即为漏标实体,其中为负采样后得到的第i9个样本,k为负采样采出的样本数量;而后将采样出的样本与原 有的正样本一起投入训练模型参与训练,最后所有样本通过线性层后得到所有实体对于每 种实体类型的分数:
其中为所有实体对于每种实体类型的分数,为线性层;
步骤3.3:对实体类型标签集和所得实体类型得分,采用交叉熵损失计 算标签类型损失;其中,为 交叉熵损失函数。
本发明的有益效果是:
(1)本发明通过数据增强的方法,对输入的文本序列中的实体词进行同义实体词的随机替换,生成了新的增强数据,有效增加了样本来源的丰富度,同时又可以获得相对原本数据更多样性的语义特征。
(2)针对远程监督中获取标签不完全,导致的对于实体漏标的问题,本发明通过生成的增强数据作为额外的负样本,计算正样本与负样本之间的相似度,选择与正样本相似度较高的负样本参加训练,从而达到漏标实体发现的目的并且能够提高模型的泛化能力。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,一种基于样本相似性计算的负采样远程监督实体识别方法,所述方法的具体步骤如下:
步骤1:对CoNLL03数据集,Twitter数据集,Wiki数据集中获取的英文文本,对数据集中的原始数据进行处理,得到训练样本;然后对其中的实体部分通过外部实体词库进行同义实体词随机替换,生成新的句子,处理后作为增强样本;
步骤1.1:对从数据集中获取的原始数据进行处理,得到训练样本
其中tokens为实体文本序列,为实体文本序列中的第i个单词,m为实体文 本序列中单词的数量;文本序列的子序列称为span,spans表示所有可能的输入的文本序列 的子序列集合,其中为文本序列的第i1个子序列的开始位置,为文本序列的第 i1个子序列的结束位置,n表示spans中文本序列的子序列的数量;spans_label表示文本序 列的子序列对应的实体类型标签的集合,其中为文本序列的第i2个子序列对应的实体类 型标签,n1表示实体类型标签的数量;
对数据集进行切分,将数据集切分按7:1.5:1.5的比例进行切分成train 数据集,dev数据集和test数据集。对数据集中涉及的类别进行编号,将数据集中每个实体对应的类别转化成编号;语料信息如表1所示;
表1 实验语料
CoNLL03 Twitter Wiki
句子数量 20744 4393 1696
步骤1.2:对训练样本S中的实体文本序列部分通过外部实体词库进行同义实体词 随机替换,得到新的增强实体文本,其中 为第i3个替换的实体词;
步骤1.3:将训练样本S中的实体文本序列替换为增强实体文本,而且训练样本中 的spans_label中的实体类型标签均标记为非实体,从而得到增强样本S
步骤2:将增强样本与原有训练样本一起,使用预训练语言模型PLM的词编码模块进行编码,得到文本的词嵌入,然后通过预训练语言模型里的双向Transformer编码器对词嵌入进行编码处理,得到所有样本最终的特征向量;
所述步骤2中包含如下内容:
步骤2.1:定义批次数据量为B,N为批次中最长的数量,M为向量维度,T为批 次中最长序列的长度;对从步骤1获取的训练样本和增强样本S,对和S中的实体文本 序列使用预训练语言模型PLM的词编码模块,得到对应的词嵌入向量集合
,
其中和S中对应的第i4个词的词嵌入向量,同时对进行向量化处理;m为实体文本序列中单词的数量;文本序列的子序列称为 span,spans表示所有可能的输入的文本序列的子序列集合,spans_label表示文本序列的 子序列对应的实体类型标签的集合;
步骤2.2:对进行拼接得到新的特征向量,将拼接后的新的 特征向量输入预训练语言模型里的双向Transformer编码器进行编码进行处理,得到所有 样本的特征向量,其中为第i5个样本的特征向量;
步骤2.3:使用spans中的开始部分作为索引,从中获取到实体的头部特征向量的 集合,其中为第i6个实体头部的特征向量,d为头部特征向 量的数量;
步骤2.4:使用spans中结束的部分作为索引,从中获取到获取实体的尾部特征向 量的集合,其中为第i7个实体尾部的特征向量,d为尾部特 征向量的数量,也即头部特征向量的数量,头部特征向量的数量和尾部特征向量的数量相 等;
步骤2.5:对实体宽度进行编码得到实体宽度的特征向量集合;其中为第i8个实体宽度的特征向量,v为实体宽度特 征向量的数量;
步骤2.6:对前述步骤2.3-步骤2.5得到的特征向量进行拼接得到
;
而后对 使用多层线性层进行降维,得到所有样本最终的特征向量,其中为经过降维后的特征向量,r为降维后的维度。
步骤3:对从步骤2处理后获取的所有样本最终的特征向量,将其中的负样本部分与正样本部分进行相似度计算并对其打分,从中取出得分靠前的K个负样本,这K个得分高的负样本就认为其为漏标实体,而后与原有正样本一起参与训练,以此实现完成漏标实体的发现和模型泛化能力的提高。
所述步骤3中包含以下步骤:
步骤3.1:对于从前序步骤获得的所有样本最终的特征向量P中包括正样本序列和负样本序列,其中为正样本序列集合中的一 个正样本,为负样本序列集合中的一个负样本;对于每一个负样本,都对其与正样本序 列中的每个正样本计算平均相似度得分:
其中为样本之间的相似度,为相似度得分,B1为一个批次数 据中正样本数量;
步骤3.2:以为依据,从负样本序列中选出分数高的样本的对应索引,其中为排序算法;根据索引,从负样本中一共取 出K个相似度得分高的负样本即为漏标实体,其中为负采样后得到的第i9个样本,k为负采样采出的样本数量;而后将采样出的样本与原 有的正样本一起投入训练模型参与训练,最后所有样本通过线性层后得到所有实体对于每 种实体类型的分数:
其中为所有实体对于每种实体类型的分数,为线性层;
步骤3.3:对实体类型标签集]、]或]和所得实体类型得分, 采用交叉熵损失计算标签类型损失
其中代表CoNLL03数据集中的实体类型,代表Wiki数据集中的实体类型,代表 Twitter数据集中的实体类型,为交叉熵损失函数。
对于CoNLL03数据集和Wiki数据集,共包含四种实体类型:人名(PER)、地名(LOC)、机构名(ORG)、其他类型(MISC);对于Twitter数据集,共包含十种实体类型地名(geoloc),设施(facility), 电影(movie),公司(company),产品(product), 人名(person), 其他实体(other), 运动队(sportsteam), TV秀(tvshow), 音乐艺术家(musicartist);
为了说明本发明的效果,使用现有模型和本发明在CoNLL03数据集、Twitter数据集、Wiki数据集进行实体识别;
现有模型KB Matching模型、AutoNER模型、BOND模型、Span-NS模型、Span-NS-V模型以及本发明在三个数据集上的实验结果如下表2所示:
表2实验结果
从表2可以看出,本发明提出的方法可以有效的提升识别效果,相比较于之前的模型,指标均有明显提升。通过同义词实体替换生成新句子作为负样本参与训练,生成新的增强数据,有效增加了负样本来源的丰富度,同时又可以获得相对原本数据更多样性的语义特征;同时将生成的增强数据作为额外的负样本,计算正样本与所有负样本片段之间的相似度并进行打分,从中取出得分靠前的负样本片段与原有正样本一起参与训练,从而达到漏标实体发现的目的,并且能够提高模型的泛化能力。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (1)

1.一种基于样本相似性计算的负采样远程监督实体识别方法,其特征在于:所述方法的具体步骤如下:
步骤1:对数据集中的原始数据进行处理,得到训练样本;然后对其中的实体部分通过外部实体词库进行同义实体词随机替换,生成新的句子,处理后作为增强样本;
步骤2:将增强样本与原有训练样本一起,使用预训练语言模型PLM的词编码模块进行编码,得到文本的词嵌入,然后通过预训练语言模型里的双向Transformer编码器对词嵌入进行编码处理,得到所有样本最终的特征向量;
步骤3:对从步骤2处理后获取的所有样本最终的特征向量,将其中的负样本部分与正样本部分进行相似度计算并对其打分,从中取出得分靠前的K个负样本,这K个得分高的负样本就认为其为漏标实体,而后与原有正样本一起参与训练;
所述步骤1中包含以下步骤:
步骤1.1:对从数据集中获取的原始数据进行处理,得到训练样本
其中tokens为实体文本序列,为实体文本序列中的第i个单词,m为实体文本序列中单词的数量;文本序列的子序列称为span,spans表示所有可能的输入的文本序列的子序列集合,其中/>为文本序列的第i1个子序列的开始位置,/>为文本序列的第i1个子序列的结束位置,n表示spans中文本序列的子序列的数量;spans_label表示文本序列的子序列对应的实体类型标签的集合,其中/>为文本序列的第i2个子序列对应的实体类型标签,n1表示实体类型标签的数量;
步骤1.2:对训练样本S中的实体文本序列部分通过外部实体词库进行同义实体词随机替换,得到新的增强实体文本,其中/>为第i3个替换的实体词;
步骤1.3:将训练样本S中的实体文本序列替换为增强实体文本,而且训练样本中的spans_label中的实体类型标签均标记为非实体,从而得到增强样本S
所述步骤2中包含如下内容:
步骤2.1:定义批次数据量为B,N为批次中最长的数量,M为向量维度,T为批次中最长序列的长度;对从步骤1获取的训练样本/>和增强样本S/>,对/>和S/>中的实体文本序列使用预训练语言模型PLM的词编码模块,得到对应的词嵌入向量集合/>和/>
,/>
其中为/>和S/>中对应的第i4个词的词嵌入向量,同时对/>进行向量化处理;m为实体文本序列中单词的数量;文本序列的子序列称为span,spans表示所有可能的输入的文本序列的子序列集合,spans_label表示文本序列的子序列对应的实体类型标签的集合;
步骤2.2:对和/>进行拼接得到新的特征向量,将拼接后的新的特征向量输入预训练语言模型里的双向Transformer编码器进行编码进行处理,得到所有样本的特征向量/>,其中/>为第i5个样本的特征向量;
步骤2.3:使用spans中的开始部分作为索引,从中获取到实体的头部特征向量的集合,其中/>为第i6个实体头部的特征向量,d为头部特征向量的数量;
步骤2.4:使用spans中结束的部分作为索引,从中获取到获取实体的尾部特征向量的集合/>,其中/>为第i7个实体尾部的特征向量,d为尾部特征向量的数量,也即头部特征向量的数量,头部特征向量的数量和尾部特征向量的数量相等;
步骤2.5:对实体宽度进行编码得到实体宽度的特征向量集合;其中/>为第i8个实体宽度的特征向量,v为实体宽度特征向量的数量;
步骤2.6:对前述步骤2.3-步骤2.5得到的特征向量进行拼接得到 ;
而后对 使用多层线性层进行降维,得到所有样本最终的特征向量,其中/>为经过降维后的特征向量,r为降维后的维度;
所述步骤3中包含以下步骤:
步骤3.1:对于从前序步骤获得的所有样本最终的特征向量P中包括正样本序列和负样本序列/>,其中/>为正样本序列集合中的一个正样本,/>为负样本序列集合中的一个负样本;对于每一个负样本,都对其与正样本序列中的每个正样本计算平均相似度得分:
其中为样本之间的相似度,/>为相似度得分,B1为一个批次数据中正样本数量;
步骤3.2:以为依据,从负样本序列中选出分数高的样本的对应索引,其中/>为排序算法;根据索引,从负样本中一共取出K个相似度得分高的负样本即为漏标实体/>,其中为负采样后得到的第i9个样本,k为负采样采出的样本数量;而后将采样出的样本与原有的正样本一起投入训练模型参与训练,最后所有样本通过线性层后得到所有实体对于每种实体类型的分数:/>
其中为所有实体对于每种实体类型的分数,/>为线性层;
步骤3.3:对实体类型标签集和所得实体类型得分/>,采用交叉熵损失计算标签类型损失/>:/>;其中,/>为交叉熵损失函数。
CN202311045140.6A 2023-08-18 2023-08-18 一种基于样本相似性计算的负采样远程监督实体识别方法 Active CN116776887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311045140.6A CN116776887B (zh) 2023-08-18 2023-08-18 一种基于样本相似性计算的负采样远程监督实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311045140.6A CN116776887B (zh) 2023-08-18 2023-08-18 一种基于样本相似性计算的负采样远程监督实体识别方法

Publications (2)

Publication Number Publication Date
CN116776887A CN116776887A (zh) 2023-09-19
CN116776887B true CN116776887B (zh) 2023-10-31

Family

ID=87991600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311045140.6A Active CN116776887B (zh) 2023-08-18 2023-08-18 一种基于样本相似性计算的负采样远程监督实体识别方法

Country Status (1)

Country Link
CN (1) CN116776887B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165658A (zh) * 2018-08-28 2019-01-08 哈尔滨工业大学(威海) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN110209836A (zh) * 2019-05-17 2019-09-06 北京邮电大学 远程监督关系抽取方法及装置
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN113722431A (zh) * 2021-08-24 2021-11-30 北京工业大学 命名实体关系识别方法、装置、电子设备及存储介质
CN114547232A (zh) * 2021-11-24 2022-05-27 人民网股份有限公司 一种低标注成本的嵌套实体识别方法及系统
CN114580433A (zh) * 2022-05-05 2022-06-03 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
WO2022141864A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 对话意图识别模型训练方法、装置、计算机设备及介质
CN114880478A (zh) * 2022-06-07 2022-08-09 昆明理工大学 基于主题信息增强的弱监督方面类别检测方法
CN114970536A (zh) * 2022-06-22 2022-08-30 昆明理工大学 一种分词、词性标注和命名实体识别的联合词法分析方法
CN115146629A (zh) * 2022-05-10 2022-10-04 昆明理工大学 一种基于对比学习的新闻文本与评论相关性分析方法
CN115687917A (zh) * 2022-10-20 2023-02-03 阿里巴巴(中国)有限公司 样本处理方法以及装置、识别模型训练方法及装置
CN116011470A (zh) * 2022-12-15 2023-04-25 山东科讯信息科技有限公司 翻译、对抗样本生成、模型鲁棒性增强方法及相关装置
WO2023065544A1 (zh) * 2021-10-18 2023-04-27 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN116049412A (zh) * 2023-03-31 2023-05-02 腾讯科技(深圳)有限公司 文本分类方法、模型训练方法、装置及电子设备
WO2023092961A1 (zh) * 2022-04-27 2023-06-01 之江实验室 一种用于舆情文本分析的半监督方法和装置
CN116310656A (zh) * 2023-05-11 2023-06-23 福瑞泰克智能系统有限公司 训练样本确定方法、装置和计算机设备
WO2023134378A1 (zh) * 2022-01-11 2023-07-20 广州小鹏汽车科技有限公司 语音交互方法、车辆、计算机可读存储介质
CN116578704A (zh) * 2023-05-16 2023-08-11 平安科技(深圳)有限公司 文本情感分类方法、装置、设备及计算机可读介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165658A (zh) * 2018-08-28 2019-01-08 哈尔滨工业大学(威海) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN110209836A (zh) * 2019-05-17 2019-09-06 北京邮电大学 远程监督关系抽取方法及装置
WO2022141864A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 对话意图识别模型训练方法、装置、计算机设备及介质
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN113722431A (zh) * 2021-08-24 2021-11-30 北京工业大学 命名实体关系识别方法、装置、电子设备及存储介质
WO2023065544A1 (zh) * 2021-10-18 2023-04-27 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN114547232A (zh) * 2021-11-24 2022-05-27 人民网股份有限公司 一种低标注成本的嵌套实体识别方法及系统
WO2023134378A1 (zh) * 2022-01-11 2023-07-20 广州小鹏汽车科技有限公司 语音交互方法、车辆、计算机可读存储介质
WO2023092961A1 (zh) * 2022-04-27 2023-06-01 之江实验室 一种用于舆情文本分析的半监督方法和装置
CN114580433A (zh) * 2022-05-05 2022-06-03 北京大学 基于动态权重对比学习的多标签文本分类方法和系统
CN115146629A (zh) * 2022-05-10 2022-10-04 昆明理工大学 一种基于对比学习的新闻文本与评论相关性分析方法
CN114880478A (zh) * 2022-06-07 2022-08-09 昆明理工大学 基于主题信息增强的弱监督方面类别检测方法
CN114970536A (zh) * 2022-06-22 2022-08-30 昆明理工大学 一种分词、词性标注和命名实体识别的联合词法分析方法
CN115687917A (zh) * 2022-10-20 2023-02-03 阿里巴巴(中国)有限公司 样本处理方法以及装置、识别模型训练方法及装置
CN116011470A (zh) * 2022-12-15 2023-04-25 山东科讯信息科技有限公司 翻译、对抗样本生成、模型鲁棒性增强方法及相关装置
CN116049412A (zh) * 2023-03-31 2023-05-02 腾讯科技(深圳)有限公司 文本分类方法、模型训练方法、装置及电子设备
CN116310656A (zh) * 2023-05-11 2023-06-23 福瑞泰克智能系统有限公司 训练样本确定方法、装置和计算机设备
CN116578704A (zh) * 2023-05-16 2023-08-11 平安科技(深圳)有限公司 文本情感分类方法、装置、设备及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用双主题表征的涉案微博评价对象识别方法;相艳等;《软件学报》;第1811-1823页 *

Also Published As

Publication number Publication date
CN116776887A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN113051356B (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115238697A (zh) 基于自然语言处理的司法命名实体识别方法
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN116776887B (zh) 一种基于样本相似性计算的负采样远程监督实体识别方法
Yao et al. A unified approach to researcher profiling
CN116779177A (zh) 一种基于去偏见混合标签学习的内分泌疾病分类方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN116341557A (zh) 一种糖尿病医学文本命名实体识别方法
CN115269795B (zh) 一种电子病历的分段方法
CN115859978A (zh) 基于Roberta部首增强适配器的命名实体识别模型及方法
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN114970537A (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN110909547A (zh) 一种基于改进深度学习的司法实体识别方法
Li et al. Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts
CN110705287A (zh) 一种用于文本摘要的生成方法和系统
CN116629267B (zh) 一种基于多粒度命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant