CN113779987A - 一种基于自注意力增强语义的事件共指消岐方法及系统 - Google Patents

一种基于自注意力增强语义的事件共指消岐方法及系统 Download PDF

Info

Publication number
CN113779987A
CN113779987A CN202110970296.XA CN202110970296A CN113779987A CN 113779987 A CN113779987 A CN 113779987A CN 202110970296 A CN202110970296 A CN 202110970296A CN 113779987 A CN113779987 A CN 113779987A
Authority
CN
China
Prior art keywords
event
text
self
attention
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110970296.XA
Other languages
English (en)
Inventor
李飞
徐况
王颜颜
赵龙
周源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kedaduochuang Cloud Technology Co ltd
Original Assignee
Kedaduochuang Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kedaduochuang Cloud Technology Co ltd filed Critical Kedaduochuang Cloud Technology Co ltd
Priority to CN202110970296.XA priority Critical patent/CN113779987A/zh
Publication of CN113779987A publication Critical patent/CN113779987A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自注意力增强语义的事件共指消岐方法及系统,属于通信领域和自然语言处理技术领域,包括以下步骤:S1:数据预处理;S2:相似度计算;S3:事件关系类别判断。本发明采用基于自注意力增强语义的模型,先将通信领域过程类事件的属性进行拼接用于捕捉全面的语义信息,然后通过预训练模型BERT中的自注意力机制表示事件属性中不同词汇的重要性,再通过特征匹配整合快速高效的计算事件相似度概率,实现优异的事件消岐效果,可以在小数据量下实现对文本语义的快速捕捉与微调。

Description

一种基于自注意力增强语义的事件共指消岐方法及系统
技术领域
本发明涉及通信领域和自然语言处理技术领域,具体涉及一种基于自注意力增强语义的事件共指消岐方法及系统。
背景技术
通信领域存在多种过程类知识,如硬件安装、参数配置、集成调测、故障处理等。在通信运维过程中,一般通过“事件”及“事件关系”对故障过程知识文本进行梳理,给用户呈现故障发生的逻辑,提供故障排查和故障恢复方案,指导一线处理现网故障。“事件共指消解”是通过自然语言处理技术实现故障脉络、排查步骤和恢复步骤梳理的重要手段,对通信领域自动问答、知识图谱构建都具有重要意义。
传统的事件共指消解模型通常从多种语言知识库和其他资源抽取丰富的语义特征,以句法分析为基础设置语言规则进行共指消解,它需要按照规则反复遍历文本,计算量较大。之后基于机器学习的方法被不断提出,包括决策树、最大熵、支持向量机等模型,这种模型既考虑了多个实体之间的排序关系,又实现了实体特征互补,但是特征不足也会导致结果出现较大偏差。最近几年,深度学习开始被用于共指消岐中,通过词向量表示事件进行共指消岐,但是词向量技术难以应对“一词多义”的问题,无法很好地解决事件表示中的歧义问题。因此研究基于自注意力增强语义的文本分类用于通信领域过程类事件共指消岐研究十分有必要。为此,提出一种基于自注意力增强语义的事件共指消岐方法及系统。
发明内容
本发明所要解决的技术问题在于:如何解决目前已有相似度计算模型无法很好的实现通信领域过程类事件共指消岐,造成通信运维过程语义表示模糊,进而导致运维人员资源损耗过多的问题,提供了一种基于自注意力增强语义的事件共指消岐方法,该方法通过计算事件相似度实现通信领域过程类事件共指消岐,解决通信领域数据稀疏下的语义歧义模糊问题,提升文本事件相似度检测准确率。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:数据预处理
将事件A的文本序列TextA、触发词TriggerA、事件元素ArgumentA拼接组合表示事件EventA,在拼接组合时,将文本序列TextA进行分词处理,将触发词TriggerA去除触发类型只保留触发词语,将事件元素ArgumentA去除事件元素类型只保留事件元素词语,对每一个事件均进行事件A的拼接组合过程,得到各事件拼接组合后的文本序列;
S2:相似度计算
将事件文本序列EventA和EventB同时输入到一个预训练模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过特征匹配整合得到事件的相似度概率;
S3:事件关系类别判断
根据两个事件的相似度概率来判断两个事件的关系类别。
更进一步地,在所述步骤S1中,每一个事件都包含三个属性内容,在事件EventA中包括TextA、TriggerA,ArgumentA三个属性,其中textA是文本序列,TriggerA是事件触发类型和触发词语,ArgumentA是文本中包含的事件元素。
更进一步地,在所述步骤S1中,拼接组合后事件EventA的文本序列表示为:
EventA={TexA,TriA,ArgA}
其中,TexA表示TextA经过分词处理后的结果,TriA表示TriggerA去除触发类型只保留触发词语的结果,ArgA表示ArgumentA去除事件元素类型只保留事件元素词语的结果。
更进一步地,在所述步骤S2中,事件文本序列EventA和EventB同时输入模型时先拼接到一起,获得新的文本序列:
E=cat(EventA,EventB)
其中,cat()表示拼接操作。
更进一步地,在所述步骤S2中,通过文本词汇之间的自注意力机制获得不同词汇的重要性的具体过程如下:
S201:将E中每一个词汇经过向量随机初始化表示获得嵌入向量矩阵VE=[v1,v2,……,vN],然后计算查询向量矩阵Q、键向量矩阵K、值向量矩阵V:
Q=WQ*VE
K=WK*VE
V=WV*VE
其中,WQ、WK、WV是模型的参数矩阵,随机初始化,然后由模型训练进行优化改进;
S202:计算注意力权重,给每一个词汇重要性赋分,E中第i个词汇的注意力ai表示为:
Figure BDA0003225691770000021
其中,kj表示键向量矩阵K中第j行向量表示,qi表示查询向量矩阵Q中第i行向量表示,D表示向量维度;
S203:更新文本序列E每一个词汇的向量表示,因此第i个词汇wi的更新向量特征vi′表示定义如下:
vi′=vi*ai
S204:对文本序列E,将不同词汇的特征通过语义向量进行整合,获得事件EventA和EventB的共同向量表示VE′:
Figure BDA0003225691770000031
更进一步地,在所述步骤S201中,对拼接文本序列数据E进行去重清洗处理后,有N个词汇,记为E=[w1,w2,……,wN]。
更进一步地,在所述步骤S3中,将VE′通过分类判别获得事件EventA和EventB的关系标签情况,判断结果标签为True表示相似,需要消岐,判断结果为False表示不相似,不需要消岐。
本发明还提供了一种基于自注意力增强语义的事件共指消岐系统,采用上述的方法进行事件共指消岐工作,包括:
数据预处理模块,用于将每一个事件的文本序列、触发词、事件元素拼接组合表示事件;
相似度计算模块,用于将两个拼接组合后的事件文本序列同时输入到一个预训练模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过特征匹配整合得到事件的相似度概率;
关系类别判断模块,用于根据两个事件的相似度概率来判断两个事件的关系类别;
控制处理模块,用于向各模块发出控制指令,完成相关动作;
所述数据预处理模块、相似度计算模块、关系类别判断模块均与所述控制处理模块通信连接。
本发明相比现有技术具有以下优点:该基于自注意力增强语义的事件共指消岐方法,采用基于自注意力增强语义的模型,先将通信领域过程类事件的属性进行拼接用于捕捉全面的语义信息,然后通过预训练模型BERT中的自注意力机制表示事件属性中不同词汇的重要性,再通过特征匹配整合快速高效的计算事件相似度概率和关系标签,实现优异的事件消岐效果,可以在小数据量下实现对文本语义的快速捕捉与微调,并且在通信领域过程类数据共指消岐实验中,准确率达到0.7542,明显优于其他已有的词嵌入和句子嵌入方法,值得被推广使用。
附图说明
图1是本发明实施例一基于自注意力增强语义的通信领域过程类事件共指消岐模型架构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
传统的文本相似度计算基本上是通过对文本进行向量表示,然后计算文本之间的向量余弦相似度。对于文本TA和TB,首先通过分词获得每一段文本的词汇序列合集TA={w1,w2,……,wn}和TB={w1,w2,……,wm},其中n和m分别表示文本TA,TB序列的词汇数目,然后通过预训练模型对TA和TB中的第i个词汇wi进行词嵌入表示vi
vi=Embedding(wi,D), (1)
其中,D表示向量维度,Embedding(·)表示词语向量化函数,可以让每一个词汇转化为确定维度大小的向量,该向量包含着词汇的语义信息,预训练模型目前常使用的是Skip-gram或者BERT,均基于大规模语料对文本进行模型训练获得词汇向量表示。
为了获得两个文本句子TA和TB的相似性,重点是获得两个句子的向量表示,因此整合句子中单个词汇的向量表示获得句子表示,这里以句子TA为例:
Figure BDA0003225691770000041
其中,
Figure BDA0003225691770000042
表示句子TA的向量形式。
最终再通过公式(3)计算句子之间余弦相似度,实现对句子相似性的判断达到文本消岐的目的:
Figure BDA0003225691770000043
其中,sim(TA,TB)表示TA和TB的相似度,
Figure BDA0003225691770000044
Figure BDA0003225691770000045
分别表示TA和TB的语义向量形式。
在本实施例中,在进行通信领域过程类事件共指消岐工作时,由于通信领域过程类事件数据除了事件文本语句,还包括事件触发词和事件元素词如表1所示,为了能够较好地表示事件的语义信息,实现事件共指消岐,因此如何改进事件表示方式尤为重要,由传统的基于词嵌入向量的表示转为端到端的通信领域过程类事件相似度计算,不再单独对文本或者事件进行向量表示,而是直接计算事件或者文本之间的相似度,减少中间过程的不准确性对结果的不良影响。本发明以BERT作为预训练模型,通过拼接事件的文本、触发词、事件元素,采用自注意力机制捕捉不同文本的语义重要性,建模两个事件之间的语义信息,判断事件关系,最终实现事件共指消岐。
表1一个通信领域过程类事件例子
Figure BDA0003225691770000051
本实施例提供了一种基于自注意力增强语义的事件共指消岐方法,具体包括以下步骤:
首先假设两个事件EventA和EventB,每一个事件都包含三个属性内容,以事件EventA为例,包括TextA、TriggerA,ArgumentA,其中textA主要是文本序列,TriggerA主要是事件触发类型和触发词语,ArgumentA主要是文本中包含的事件元素,例如事件元素类型、事件主体词、事件状态词等。本发明为了能够涵盖更多的事件语义信息,将每一个事件的文本序列TextA、触发词TriggerA、事件元素ArgumentA拼接组合表示事件,因此事件EventA表示为:
EventA={TexA,TriA,ArgA}, (4)
其中,TexA表示TextA经过分词处理后的结果,TriA表示TriggerA去除触发类型只保留触发词语的结果,ArgA表示ArgumentA去除事件元素类型只保留事件元素词语的结果,TriggerA和ArgumentA如此处理是因为需要进行共指消岐的两个事件都具有相同的事件触发类型和事件元素类型,具体见表2所示。
表2事件数据处理后拼接结果示例
Figure BDA0003225691770000052
将公式(4)的结果作为本发明提出的基于自注意力增强语义模型的输入,通过基于BERT的自注意力机制模块获得两个事件的相似度概率,该架构将事件文本序列EventA和EventB同时输入到一个预训练的BERT模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过特征匹配整合得到两个事件的相似度概率以及关系标签,而不再像公式(2)那样产生文本向量表示。
具体架构设计如下:
首先将事件EventA和事件EventB拼接在一起,获得新的文本序列:
E=cat(EventA,EventB), (5)
其中,cat()表示拼接操作。
对拼接文本序列数据E进行去重清洗处理后,假设有N个词汇,记为E=[w1,w2,……,wN],为了获得不同词汇对于构建通信领域过程类事件的不同重要性,同时体现不同词汇之间的语义关系,这里进行自注意力机制建模,首先将E中每一个词汇经过向量随机初始化表示获得嵌入向量矩阵VE=[v1,v2,……,vN],然后计算查询向量矩阵Q、键向量矩阵K、值向量矩阵V:
Q=WQ*VE, (6)
K=WK*VE, (7)
V=WV*VE, (8)
其中,WQ、WK、WV是模型参数矩阵,随机初始化,然后由模型训练进行优化改进。
为了给每一个词汇重要性赋分,需要计算注意力权重,第i个词汇的注意力ai表示为:
Figure BDA0003225691770000061
其中,kj表示键向量矩阵K中第j行向量表示,qi表示查询向量矩阵Q中第i行向量表示,D表示向量维度。
之后更新文本序列E每一个词汇的向量表示,因此第i个词汇wi的更新向量特征vi′表示定义如下:
vi′=vi*ai (10)
然后针对文本序列E,将不同词汇的特征通过语义向量进行匹配整合,获得事件EventA和EventB的共同向量表示VE′:
Figure BDA0003225691770000062
然后对VE′通过全连接层和softmax函数进行降维处理,将D维的向量降维到2维,第一维表示事件EventA和EventB不相似的概率,记为pF;第二维表示事件EventA和EventB相似的概率,记为pT,因此通过如下分类判别,获得事件EventA和EventB的关系标签L(EventA,EventB):
Figure BDA0003225691770000063
最终将VE′通过以上操作获得事件EventA和EventB的关系标签情况,判断结果标签为True表示相似,需要消岐,判断结果为False表示不相似,从而实现通信领域过程类事件共指消岐,本发明的模型架构如图1所示。
在本实施例中,将通过已有的词向量模型、孪生网络相似度模型等与本发明提出的基于自注意力增强语义模型在通信领域过程类事件上进行文本分类性能对比,其分类准确率Acc定义如下所示:
Figure BDA0003225691770000071
其中,TP表示真实标签为True,预测标签也为True的语料条数,FN表示真实标签为True,预测标签为False的语料条数;TN表示真实标签为False,预测标签也为False的语料条数,FP表示真实标签为False,预测标签为True的语料条数。
实施例二
本实施例采用的数据是来着来自某公司外部公开的故障处理案例数据,其中训练数据包括15000条,每一条数据包含两个事件,每一个事件包含文本、触发词、事件元素三类属性,以及两个事件的标签,测试数据2000条与训练数据类似。本实施例通过与词嵌入方法、句子嵌入方法比较,结果如表3所示:
(1)词向量方法:2012年由Google公司提供的Word2vec工具,里面包含2个模型分别是CBOW和Skip-gram,本实施例对比使用更适合小数据集的Skip-gram模型,它通过语料中的当前单词预测训练周围单词的向量表示。
(2)句子嵌入方法:这里使用的句子嵌入方法是孪生网络相似度模型,它首先通过预训练模型BERT分别获得每一个事件的向量表示,然后计算向量的余弦相似度获得两个事件之间的相似度。
表3基于语料训练的相似度评价实验
序号 模型 准确率(Acc)
1 词向量模型 0.6235
2 句子相似度模型孪生网络相似度 0.5998
3 OUR model 0.7542
综上所述,上述实施例的基于自注意力增强语义的事件共指消岐方法,提出了一种基于自注意力增强语义的模型,先将通信领域过程类事件的属性进行拼接用于捕捉全面的语义信息,然后通过预训练模型BERT中的自注意力机制表示事件属性中不同词汇的重要性,再通过特征匹配整合快速高效的计算事件相似度概率和关系类型,实现优异的事件消岐效果,可以在小数据量下实现对文本语义的快速捕捉与微调,并且在通信领域过程类数据共指消岐实验中,准确率达到0.7542,明显优于其他已有的词嵌入和句子嵌入方法,值得被推广使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于自注意力增强语义的事件共指消岐方法,其特征在于,包括:
S1:数据预处理
将事件A的文本序列TextA、触发词TriggerA、事件元素ArgumentA拼接组合表示事件EventA,在拼接组合时,将文本序列TextA进行分词处理,将触发词TriggerA去除触发类型只保留触发词语,将事件元素ArgumentA去除事件元素类型只保留事件元素词语,对每一个事件均进行事件A的拼接组合过程,得到各事件拼接组合后的文本序列;
S2:相似度计算
将两个事件文本序列EventA和EventB同时输入到一个预训练模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过词汇语义向量与词汇重要性权重特征匹配整合得到事件的相似度概率;
S3:事件关系类别判断
根据两个事件的相似度概率来判断两个事件的关系类别。
2.根据权利要求1所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S1中,每一个事件都包含三个属性内容,对于事件EventA,包括TextA、TriggerA,ArgumentA三个属性,其中textA是文本序列,TriggerA是事件触发类型和触发词语,ArgumentA是文本中包含的事件元素。
3.根据权利要求2所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S1中,拼接组合后事件EventA的文本序列表示为:
EventA={TexA,TriA,ArgA}
其中,TexA表示TextA经过分词处理后的结果,TriA表示TriggerA去除触发类型只保留触发词语的结果,ArgA表示ArgumentA去除事件元素类型只保留事件元素词语的结果。
4.根据权利要求2所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S2中,事件文本序列EventA和EventB同时输入模型时先拼接到一起,获得新的文本序列:
E=cat(EventA,EventB)
其中,cat()表示拼接操作。
5.根据权利要求1所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S2中,通过文本词汇之间的自注意力机制获得不同词汇的重要性的具体过程如下:
S201:将E中每一个词汇经过向量随机初始化表示获得嵌入向量矩阵VE=[v1,v2,……,vN],然后计算查询向量矩阵Q、键向量矩阵K、值向量矩阵V:
Q=WQ*VE
K=WK*VE
V=WV*VE
其中,WQ、WK、WV是模型的参数矩阵,随机初始化,然后由模型训练进行优化改进;
S202:计算注意力权重,给每一个词汇重要性赋分,E中第i个词汇的注意力ai表示为:
Figure FDA0003225691760000021
其中,kj表示键向量矩阵K中第j行向量表示,qi表示查询向量矩阵Q中第i行向量表示,D表示向量维度;
S203:更新文本序列E每一个词汇的向量表示,因此第i个词汇wi的更新向量特征vi′表示定义如下:
vi′=vi*ai
S204:对文本序列E,将不同词汇的特征通过语义向量进行整合,获得事件EventA和EventB的共同向量表示VE′:
Figure FDA0003225691760000022
6.根据权利要求5所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S201中,对拼接文本序列数据E进行去重清洗处理后,有N个词汇,记为E=[w1,w2,……,wN]。
7.根据权利要求6所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S3中,将VE′通过分类判别获得事件EventA和EventB的关系标签情况,判断结果标签为True表示相似,需要消岐,判断结果为False表示不相似,不需要消岐。
8.一种基于自注意力增强语义的事件共指消岐系统,其特征在于,采用如权利要求1~7任一项所述的方法进行事件共指消岐工作,包括:
数据预处理模块,用于将每一个事件的文本序列、触发词、事件元素拼接组合表示事件;
相似度计算模块,用于将两个拼接组合后的事件文本序列同时输入到一个预训练模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过特征匹配整合得到事件的相似度概率;
关系类别判断模块,用于根据两个事件的相似度概率来判断两个事件的关系类别;
控制处理模块,用于向各模块发出控制指令,完成相关动作;
所述数据预处理模块、相似度计算模块、关系类别判断模块均与所述控制处理模块通信连接。
CN202110970296.XA 2021-08-23 2021-08-23 一种基于自注意力增强语义的事件共指消岐方法及系统 Pending CN113779987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110970296.XA CN113779987A (zh) 2021-08-23 2021-08-23 一种基于自注意力增强语义的事件共指消岐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110970296.XA CN113779987A (zh) 2021-08-23 2021-08-23 一种基于自注意力增强语义的事件共指消岐方法及系统

Publications (1)

Publication Number Publication Date
CN113779987A true CN113779987A (zh) 2021-12-10

Family

ID=78838952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110970296.XA Pending CN113779987A (zh) 2021-08-23 2021-08-23 一种基于自注意力增强语义的事件共指消岐方法及系统

Country Status (1)

Country Link
CN (1) CN113779987A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617971A (zh) * 2022-11-14 2023-01-17 湖南君安科技有限公司 基于ALBERT-Coref模型的对话文本生成方法
CN117892735A (zh) * 2024-03-14 2024-04-16 中电科大数据研究院有限公司 一种基于深度学习的自然语言处理方法及系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199838A (zh) * 2014-08-04 2014-12-10 浙江工商大学 一种基于标签消歧的用户模型建构方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107526723A (zh) * 2017-08-21 2017-12-29 百度在线网络技术(北京)有限公司 一种语义消歧的方法、装置、服务器和存储介质
CN108491382A (zh) * 2018-03-14 2018-09-04 四川大学 一种半监督生物医学文本语义消歧方法
CN108491817A (zh) * 2018-03-30 2018-09-04 国信优易数据有限公司 一种事件检测模型训练方法、装置以及事件检测方法
CN109214407A (zh) * 2018-07-06 2019-01-15 阿里巴巴集团控股有限公司 事件检测模型、方法、装置、计算设备及存储介质
CN109344403A (zh) * 2018-09-20 2019-02-15 中南大学 一种增强语义特征嵌入的文本表示方法
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN110941951A (zh) * 2019-10-15 2020-03-31 平安科技(深圳)有限公司 文本相似度计算方法、装置、介质及电子设备
CN111159335A (zh) * 2019-12-12 2020-05-15 中国电子科技集团公司第七研究所 基于金字塔池化与lda主题模型的短文本分类方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111581468A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于噪声容忍的偏多标记学习方法
CN111680494A (zh) * 2020-04-27 2020-09-18 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN112131350A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质
CN112148832A (zh) * 2019-06-26 2020-12-29 天津大学 一种基于标签感知的双重自注意力网络的事件检测方法
CN113065350A (zh) * 2021-04-13 2021-07-02 哈尔滨理工大学 一种基于注意力神经网络的生物医学文本词义消岐方法
CN113239700A (zh) * 2021-04-27 2021-08-10 哈尔滨理工大学 改进bert的文本语义匹配设备、系统、方法及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199838A (zh) * 2014-08-04 2014-12-10 浙江工商大学 一种基于标签消歧的用户模型建构方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107526723A (zh) * 2017-08-21 2017-12-29 百度在线网络技术(北京)有限公司 一种语义消歧的方法、装置、服务器和存储介质
CN108491382A (zh) * 2018-03-14 2018-09-04 四川大学 一种半监督生物医学文本语义消歧方法
CN108491817A (zh) * 2018-03-30 2018-09-04 国信优易数据有限公司 一种事件检测模型训练方法、装置以及事件检测方法
CN109214407A (zh) * 2018-07-06 2019-01-15 阿里巴巴集团控股有限公司 事件检测模型、方法、装置、计算设备及存储介质
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN109344403A (zh) * 2018-09-20 2019-02-15 中南大学 一种增强语义特征嵌入的文本表示方法
CN112148832A (zh) * 2019-06-26 2020-12-29 天津大学 一种基于标签感知的双重自注意力网络的事件检测方法
CN110941951A (zh) * 2019-10-15 2020-03-31 平安科技(深圳)有限公司 文本相似度计算方法、装置、介质及电子设备
CN111159335A (zh) * 2019-12-12 2020-05-15 中国电子科技集团公司第七研究所 基于金字塔池化与lda主题模型的短文本分类方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111680494A (zh) * 2020-04-27 2020-09-18 平安科技(深圳)有限公司 相似文本的生成方法及装置
CN111581468A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于噪声容忍的偏多标记学习方法
CN112131350A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质
CN113065350A (zh) * 2021-04-13 2021-07-02 哈尔滨理工大学 一种基于注意力神经网络的生物医学文本词义消岐方法
CN113239700A (zh) * 2021-04-27 2021-08-10 哈尔滨理工大学 改进bert的文本语义匹配设备、系统、方法及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617971A (zh) * 2022-11-14 2023-01-17 湖南君安科技有限公司 基于ALBERT-Coref模型的对话文本生成方法
CN117892735A (zh) * 2024-03-14 2024-04-16 中电科大数据研究院有限公司 一种基于深度学习的自然语言处理方法及系统

Similar Documents

Publication Publication Date Title
CN107451126B (zh) 一种近义词筛选方法及系统
EP3933657A1 (en) Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
WO2020082560A1 (zh) 文本关键词提取方法、装置、设备及计算机可读存储介质
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN110765759B (zh) 意图识别方法及装置
US20080052262A1 (en) Method for personalized named entity recognition
CN108304372A (zh) 实体提取方法和装置、计算机设备和存储介质
US11481387B2 (en) Facet-based conversational search
CN110263325A (zh) 中文分词系统
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN114462392B (zh) 一种基于主题关联度与关键词联想的短文本特征扩展方法
CN111353050A (zh) 一种电信客服垂直领域的词库构建方法及工具
CN113779987A (zh) 一种基于自注意力增强语义的事件共指消岐方法及系统
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN118152570A (zh) 一种智能化的文本分类方法
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN113869040A (zh) 一种电网调度的语音识别方法
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination