CN113779987A - 一种基于自注意力增强语义的事件共指消岐方法及系统 - Google Patents
一种基于自注意力增强语义的事件共指消岐方法及系统 Download PDFInfo
- Publication number
- CN113779987A CN113779987A CN202110970296.XA CN202110970296A CN113779987A CN 113779987 A CN113779987 A CN 113779987A CN 202110970296 A CN202110970296 A CN 202110970296A CN 113779987 A CN113779987 A CN 113779987A
- Authority
- CN
- China
- Prior art keywords
- event
- text
- self
- attention
- trigger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004891 communication Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 230000010354 integration Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 63
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 7
- 238000003379 elimination reaction Methods 0.000 claims description 7
- 241000282326 Felis catus Species 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- FESBVLZDDCQLFY-UHFFFAOYSA-N sete Chemical group [Te]=[Se] FESBVLZDDCQLFY-UHFFFAOYSA-N 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自注意力增强语义的事件共指消岐方法及系统,属于通信领域和自然语言处理技术领域,包括以下步骤:S1:数据预处理;S2:相似度计算;S3:事件关系类别判断。本发明采用基于自注意力增强语义的模型,先将通信领域过程类事件的属性进行拼接用于捕捉全面的语义信息,然后通过预训练模型BERT中的自注意力机制表示事件属性中不同词汇的重要性,再通过特征匹配整合快速高效的计算事件相似度概率,实现优异的事件消岐效果,可以在小数据量下实现对文本语义的快速捕捉与微调。
Description
技术领域
本发明涉及通信领域和自然语言处理技术领域,具体涉及一种基于自注意力增强语义的事件共指消岐方法及系统。
背景技术
通信领域存在多种过程类知识,如硬件安装、参数配置、集成调测、故障处理等。在通信运维过程中,一般通过“事件”及“事件关系”对故障过程知识文本进行梳理,给用户呈现故障发生的逻辑,提供故障排查和故障恢复方案,指导一线处理现网故障。“事件共指消解”是通过自然语言处理技术实现故障脉络、排查步骤和恢复步骤梳理的重要手段,对通信领域自动问答、知识图谱构建都具有重要意义。
传统的事件共指消解模型通常从多种语言知识库和其他资源抽取丰富的语义特征,以句法分析为基础设置语言规则进行共指消解,它需要按照规则反复遍历文本,计算量较大。之后基于机器学习的方法被不断提出,包括决策树、最大熵、支持向量机等模型,这种模型既考虑了多个实体之间的排序关系,又实现了实体特征互补,但是特征不足也会导致结果出现较大偏差。最近几年,深度学习开始被用于共指消岐中,通过词向量表示事件进行共指消岐,但是词向量技术难以应对“一词多义”的问题,无法很好地解决事件表示中的歧义问题。因此研究基于自注意力增强语义的文本分类用于通信领域过程类事件共指消岐研究十分有必要。为此,提出一种基于自注意力增强语义的事件共指消岐方法及系统。
发明内容
本发明所要解决的技术问题在于:如何解决目前已有相似度计算模型无法很好的实现通信领域过程类事件共指消岐,造成通信运维过程语义表示模糊,进而导致运维人员资源损耗过多的问题,提供了一种基于自注意力增强语义的事件共指消岐方法,该方法通过计算事件相似度实现通信领域过程类事件共指消岐,解决通信领域数据稀疏下的语义歧义模糊问题,提升文本事件相似度检测准确率。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:数据预处理
将事件A的文本序列TextA、触发词TriggerA、事件元素ArgumentA拼接组合表示事件EventA,在拼接组合时,将文本序列TextA进行分词处理,将触发词TriggerA去除触发类型只保留触发词语,将事件元素ArgumentA去除事件元素类型只保留事件元素词语,对每一个事件均进行事件A的拼接组合过程,得到各事件拼接组合后的文本序列;
S2:相似度计算
将事件文本序列EventA和EventB同时输入到一个预训练模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过特征匹配整合得到事件的相似度概率;
S3:事件关系类别判断
根据两个事件的相似度概率来判断两个事件的关系类别。
更进一步地,在所述步骤S1中,每一个事件都包含三个属性内容,在事件EventA中包括TextA、TriggerA,ArgumentA三个属性,其中textA是文本序列,TriggerA是事件触发类型和触发词语,ArgumentA是文本中包含的事件元素。
更进一步地,在所述步骤S1中,拼接组合后事件EventA的文本序列表示为:
EventA={TexA,TriA,ArgA}
其中,TexA表示TextA经过分词处理后的结果,TriA表示TriggerA去除触发类型只保留触发词语的结果,ArgA表示ArgumentA去除事件元素类型只保留事件元素词语的结果。
更进一步地,在所述步骤S2中,事件文本序列EventA和EventB同时输入模型时先拼接到一起,获得新的文本序列:
E=cat(EventA,EventB)
其中,cat()表示拼接操作。
更进一步地,在所述步骤S2中,通过文本词汇之间的自注意力机制获得不同词汇的重要性的具体过程如下:
S201:将E中每一个词汇经过向量随机初始化表示获得嵌入向量矩阵VE=[v1,v2,……,vN],然后计算查询向量矩阵Q、键向量矩阵K、值向量矩阵V:
Q=WQ*VE
K=WK*VE
V=WV*VE
其中,WQ、WK、WV是模型的参数矩阵,随机初始化,然后由模型训练进行优化改进;
S202:计算注意力权重,给每一个词汇重要性赋分,E中第i个词汇的注意力ai表示为:
其中,kj表示键向量矩阵K中第j行向量表示,qi表示查询向量矩阵Q中第i行向量表示,D表示向量维度;
S203:更新文本序列E每一个词汇的向量表示,因此第i个词汇wi的更新向量特征vi′表示定义如下:
vi′=vi*ai
S204:对文本序列E,将不同词汇的特征通过语义向量进行整合,获得事件EventA和EventB的共同向量表示VE′:
更进一步地,在所述步骤S201中,对拼接文本序列数据E进行去重清洗处理后,有N个词汇,记为E=[w1,w2,……,wN]。
更进一步地,在所述步骤S3中,将VE′通过分类判别获得事件EventA和EventB的关系标签情况,判断结果标签为True表示相似,需要消岐,判断结果为False表示不相似,不需要消岐。
本发明还提供了一种基于自注意力增强语义的事件共指消岐系统,采用上述的方法进行事件共指消岐工作,包括:
数据预处理模块,用于将每一个事件的文本序列、触发词、事件元素拼接组合表示事件;
相似度计算模块,用于将两个拼接组合后的事件文本序列同时输入到一个预训练模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过特征匹配整合得到事件的相似度概率;
关系类别判断模块,用于根据两个事件的相似度概率来判断两个事件的关系类别;
控制处理模块,用于向各模块发出控制指令,完成相关动作;
所述数据预处理模块、相似度计算模块、关系类别判断模块均与所述控制处理模块通信连接。
本发明相比现有技术具有以下优点:该基于自注意力增强语义的事件共指消岐方法,采用基于自注意力增强语义的模型,先将通信领域过程类事件的属性进行拼接用于捕捉全面的语义信息,然后通过预训练模型BERT中的自注意力机制表示事件属性中不同词汇的重要性,再通过特征匹配整合快速高效的计算事件相似度概率和关系标签,实现优异的事件消岐效果,可以在小数据量下实现对文本语义的快速捕捉与微调,并且在通信领域过程类数据共指消岐实验中,准确率达到0.7542,明显优于其他已有的词嵌入和句子嵌入方法,值得被推广使用。
附图说明
图1是本发明实施例一基于自注意力增强语义的通信领域过程类事件共指消岐模型架构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
传统的文本相似度计算基本上是通过对文本进行向量表示,然后计算文本之间的向量余弦相似度。对于文本TA和TB,首先通过分词获得每一段文本的词汇序列合集TA={w1,w2,……,wn}和TB={w1,w2,……,wm},其中n和m分别表示文本TA,TB序列的词汇数目,然后通过预训练模型对TA和TB中的第i个词汇wi进行词嵌入表示vi:
vi=Embedding(wi,D), (1)
其中,D表示向量维度,Embedding(·)表示词语向量化函数,可以让每一个词汇转化为确定维度大小的向量,该向量包含着词汇的语义信息,预训练模型目前常使用的是Skip-gram或者BERT,均基于大规模语料对文本进行模型训练获得词汇向量表示。
为了获得两个文本句子TA和TB的相似性,重点是获得两个句子的向量表示,因此整合句子中单个词汇的向量表示获得句子表示,这里以句子TA为例:
最终再通过公式(3)计算句子之间余弦相似度,实现对句子相似性的判断达到文本消岐的目的:
在本实施例中,在进行通信领域过程类事件共指消岐工作时,由于通信领域过程类事件数据除了事件文本语句,还包括事件触发词和事件元素词如表1所示,为了能够较好地表示事件的语义信息,实现事件共指消岐,因此如何改进事件表示方式尤为重要,由传统的基于词嵌入向量的表示转为端到端的通信领域过程类事件相似度计算,不再单独对文本或者事件进行向量表示,而是直接计算事件或者文本之间的相似度,减少中间过程的不准确性对结果的不良影响。本发明以BERT作为预训练模型,通过拼接事件的文本、触发词、事件元素,采用自注意力机制捕捉不同文本的语义重要性,建模两个事件之间的语义信息,判断事件关系,最终实现事件共指消岐。
表1一个通信领域过程类事件例子
本实施例提供了一种基于自注意力增强语义的事件共指消岐方法,具体包括以下步骤:
首先假设两个事件EventA和EventB,每一个事件都包含三个属性内容,以事件EventA为例,包括TextA、TriggerA,ArgumentA,其中textA主要是文本序列,TriggerA主要是事件触发类型和触发词语,ArgumentA主要是文本中包含的事件元素,例如事件元素类型、事件主体词、事件状态词等。本发明为了能够涵盖更多的事件语义信息,将每一个事件的文本序列TextA、触发词TriggerA、事件元素ArgumentA拼接组合表示事件,因此事件EventA表示为:
EventA={TexA,TriA,ArgA}, (4)
其中,TexA表示TextA经过分词处理后的结果,TriA表示TriggerA去除触发类型只保留触发词语的结果,ArgA表示ArgumentA去除事件元素类型只保留事件元素词语的结果,TriggerA和ArgumentA如此处理是因为需要进行共指消岐的两个事件都具有相同的事件触发类型和事件元素类型,具体见表2所示。
表2事件数据处理后拼接结果示例
将公式(4)的结果作为本发明提出的基于自注意力增强语义模型的输入,通过基于BERT的自注意力机制模块获得两个事件的相似度概率,该架构将事件文本序列EventA和EventB同时输入到一个预训练的BERT模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过特征匹配整合得到两个事件的相似度概率以及关系标签,而不再像公式(2)那样产生文本向量表示。
具体架构设计如下:
首先将事件EventA和事件EventB拼接在一起,获得新的文本序列:
E=cat(EventA,EventB), (5)
其中,cat()表示拼接操作。
对拼接文本序列数据E进行去重清洗处理后,假设有N个词汇,记为E=[w1,w2,……,wN],为了获得不同词汇对于构建通信领域过程类事件的不同重要性,同时体现不同词汇之间的语义关系,这里进行自注意力机制建模,首先将E中每一个词汇经过向量随机初始化表示获得嵌入向量矩阵VE=[v1,v2,……,vN],然后计算查询向量矩阵Q、键向量矩阵K、值向量矩阵V:
Q=WQ*VE, (6)
K=WK*VE, (7)
V=WV*VE, (8)
其中,WQ、WK、WV是模型参数矩阵,随机初始化,然后由模型训练进行优化改进。
为了给每一个词汇重要性赋分,需要计算注意力权重,第i个词汇的注意力ai表示为:
其中,kj表示键向量矩阵K中第j行向量表示,qi表示查询向量矩阵Q中第i行向量表示,D表示向量维度。
之后更新文本序列E每一个词汇的向量表示,因此第i个词汇wi的更新向量特征vi′表示定义如下:
vi′=vi*ai (10)
然后针对文本序列E,将不同词汇的特征通过语义向量进行匹配整合,获得事件EventA和EventB的共同向量表示VE′:
然后对VE′通过全连接层和softmax函数进行降维处理,将D维的向量降维到2维,第一维表示事件EventA和EventB不相似的概率,记为pF;第二维表示事件EventA和EventB相似的概率,记为pT,因此通过如下分类判别,获得事件EventA和EventB的关系标签L(EventA,EventB):
最终将VE′通过以上操作获得事件EventA和EventB的关系标签情况,判断结果标签为True表示相似,需要消岐,判断结果为False表示不相似,从而实现通信领域过程类事件共指消岐,本发明的模型架构如图1所示。
在本实施例中,将通过已有的词向量模型、孪生网络相似度模型等与本发明提出的基于自注意力增强语义模型在通信领域过程类事件上进行文本分类性能对比,其分类准确率Acc定义如下所示:
其中,TP表示真实标签为True,预测标签也为True的语料条数,FN表示真实标签为True,预测标签为False的语料条数;TN表示真实标签为False,预测标签也为False的语料条数,FP表示真实标签为False,预测标签为True的语料条数。
实施例二
本实施例采用的数据是来着来自某公司外部公开的故障处理案例数据,其中训练数据包括15000条,每一条数据包含两个事件,每一个事件包含文本、触发词、事件元素三类属性,以及两个事件的标签,测试数据2000条与训练数据类似。本实施例通过与词嵌入方法、句子嵌入方法比较,结果如表3所示:
(1)词向量方法:2012年由Google公司提供的Word2vec工具,里面包含2个模型分别是CBOW和Skip-gram,本实施例对比使用更适合小数据集的Skip-gram模型,它通过语料中的当前单词预测训练周围单词的向量表示。
(2)句子嵌入方法:这里使用的句子嵌入方法是孪生网络相似度模型,它首先通过预训练模型BERT分别获得每一个事件的向量表示,然后计算向量的余弦相似度获得两个事件之间的相似度。
表3基于语料训练的相似度评价实验
序号 | 模型 | 准确率(Acc) |
1 | 词向量模型 | 0.6235 |
2 | 句子相似度模型孪生网络相似度 | 0.5998 |
3 | OUR model | 0.7542 |
综上所述,上述实施例的基于自注意力增强语义的事件共指消岐方法,提出了一种基于自注意力增强语义的模型,先将通信领域过程类事件的属性进行拼接用于捕捉全面的语义信息,然后通过预训练模型BERT中的自注意力机制表示事件属性中不同词汇的重要性,再通过特征匹配整合快速高效的计算事件相似度概率和关系类型,实现优异的事件消岐效果,可以在小数据量下实现对文本语义的快速捕捉与微调,并且在通信领域过程类数据共指消岐实验中,准确率达到0.7542,明显优于其他已有的词嵌入和句子嵌入方法,值得被推广使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于自注意力增强语义的事件共指消岐方法,其特征在于,包括:
S1:数据预处理
将事件A的文本序列TextA、触发词TriggerA、事件元素ArgumentA拼接组合表示事件EventA,在拼接组合时,将文本序列TextA进行分词处理,将触发词TriggerA去除触发类型只保留触发词语,将事件元素ArgumentA去除事件元素类型只保留事件元素词语,对每一个事件均进行事件A的拼接组合过程,得到各事件拼接组合后的文本序列;
S2:相似度计算
将两个事件文本序列EventA和EventB同时输入到一个预训练模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过词汇语义向量与词汇重要性权重特征匹配整合得到事件的相似度概率;
S3:事件关系类别判断
根据两个事件的相似度概率来判断两个事件的关系类别。
2.根据权利要求1所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S1中,每一个事件都包含三个属性内容,对于事件EventA,包括TextA、TriggerA,ArgumentA三个属性,其中textA是文本序列,TriggerA是事件触发类型和触发词语,ArgumentA是文本中包含的事件元素。
3.根据权利要求2所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S1中,拼接组合后事件EventA的文本序列表示为:
EventA={TexA,TriA,ArgA}
其中,TexA表示TextA经过分词处理后的结果,TriA表示TriggerA去除触发类型只保留触发词语的结果,ArgA表示ArgumentA去除事件元素类型只保留事件元素词语的结果。
4.根据权利要求2所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S2中,事件文本序列EventA和EventB同时输入模型时先拼接到一起,获得新的文本序列:
E=cat(EventA,EventB)
其中,cat()表示拼接操作。
5.根据权利要求1所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S2中,通过文本词汇之间的自注意力机制获得不同词汇的重要性的具体过程如下:
S201:将E中每一个词汇经过向量随机初始化表示获得嵌入向量矩阵VE=[v1,v2,……,vN],然后计算查询向量矩阵Q、键向量矩阵K、值向量矩阵V:
Q=WQ*VE
K=WK*VE
V=WV*VE
其中,WQ、WK、WV是模型的参数矩阵,随机初始化,然后由模型训练进行优化改进;
S202:计算注意力权重,给每一个词汇重要性赋分,E中第i个词汇的注意力ai表示为:
其中,kj表示键向量矩阵K中第j行向量表示,qi表示查询向量矩阵Q中第i行向量表示,D表示向量维度;
S203:更新文本序列E每一个词汇的向量表示,因此第i个词汇wi的更新向量特征vi′表示定义如下:
vi′=vi*ai
S204:对文本序列E,将不同词汇的特征通过语义向量进行整合,获得事件EventA和EventB的共同向量表示VE′:
6.根据权利要求5所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S201中,对拼接文本序列数据E进行去重清洗处理后,有N个词汇,记为E=[w1,w2,……,wN]。
7.根据权利要求6所述的一种基于自注意力增强语义的事件共指消岐方法,其特征在于:在所述步骤S3中,将VE′通过分类判别获得事件EventA和EventB的关系标签情况,判断结果标签为True表示相似,需要消岐,判断结果为False表示不相似,不需要消岐。
8.一种基于自注意力增强语义的事件共指消岐系统,其特征在于,采用如权利要求1~7任一项所述的方法进行事件共指消岐工作,包括:
数据预处理模块,用于将每一个事件的文本序列、触发词、事件元素拼接组合表示事件;
相似度计算模块,用于将两个拼接组合后的事件文本序列同时输入到一个预训练模型网络中,通过文本词汇之间的自注意力机制获得不同词汇的重要性,再通过特征匹配整合得到事件的相似度概率;
关系类别判断模块,用于根据两个事件的相似度概率来判断两个事件的关系类别;
控制处理模块,用于向各模块发出控制指令,完成相关动作;
所述数据预处理模块、相似度计算模块、关系类别判断模块均与所述控制处理模块通信连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110970296.XA CN113779987A (zh) | 2021-08-23 | 2021-08-23 | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110970296.XA CN113779987A (zh) | 2021-08-23 | 2021-08-23 | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779987A true CN113779987A (zh) | 2021-12-10 |
Family
ID=78838952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110970296.XA Pending CN113779987A (zh) | 2021-08-23 | 2021-08-23 | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779987A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617971A (zh) * | 2022-11-14 | 2023-01-17 | 湖南君安科技有限公司 | 基于ALBERT-Coref模型的对话文本生成方法 |
CN117892735A (zh) * | 2024-03-14 | 2024-04-16 | 中电科大数据研究院有限公司 | 一种基于深度学习的自然语言处理方法及系统 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199838A (zh) * | 2014-08-04 | 2014-12-10 | 浙江工商大学 | 一种基于标签消歧的用户模型建构方法 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107526723A (zh) * | 2017-08-21 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 一种语义消歧的方法、装置、服务器和存储介质 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN108491817A (zh) * | 2018-03-30 | 2018-09-04 | 国信优易数据有限公司 | 一种事件检测模型训练方法、装置以及事件检测方法 |
CN109214407A (zh) * | 2018-07-06 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 事件检测模型、方法、装置、计算设备及存储介质 |
CN109344403A (zh) * | 2018-09-20 | 2019-02-15 | 中南大学 | 一种增强语义特征嵌入的文本表示方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110941951A (zh) * | 2019-10-15 | 2020-03-31 | 平安科技(深圳)有限公司 | 文本相似度计算方法、装置、介质及电子设备 |
CN111159335A (zh) * | 2019-12-12 | 2020-05-15 | 中国电子科技集团公司第七研究所 | 基于金字塔池化与lda主题模型的短文本分类方法 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111581468A (zh) * | 2020-05-15 | 2020-08-25 | 北京交通大学 | 基于噪声容忍的偏多标记学习方法 |
CN111680494A (zh) * | 2020-04-27 | 2020-09-18 | 平安科技(深圳)有限公司 | 相似文本的生成方法及装置 |
CN112131350A (zh) * | 2020-09-30 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 文本标签确定方法、装置、终端及可读存储介质 |
CN112148832A (zh) * | 2019-06-26 | 2020-12-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
CN113065350A (zh) * | 2021-04-13 | 2021-07-02 | 哈尔滨理工大学 | 一种基于注意力神经网络的生物医学文本词义消岐方法 |
CN113239700A (zh) * | 2021-04-27 | 2021-08-10 | 哈尔滨理工大学 | 改进bert的文本语义匹配设备、系统、方法及存储介质 |
-
2021
- 2021-08-23 CN CN202110970296.XA patent/CN113779987A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199838A (zh) * | 2014-08-04 | 2014-12-10 | 浙江工商大学 | 一种基于标签消歧的用户模型建构方法 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107526723A (zh) * | 2017-08-21 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 一种语义消歧的方法、装置、服务器和存储介质 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN108491817A (zh) * | 2018-03-30 | 2018-09-04 | 国信优易数据有限公司 | 一种事件检测模型训练方法、装置以及事件检测方法 |
CN109214407A (zh) * | 2018-07-06 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 事件检测模型、方法、装置、计算设备及存储介质 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109344403A (zh) * | 2018-09-20 | 2019-02-15 | 中南大学 | 一种增强语义特征嵌入的文本表示方法 |
CN112148832A (zh) * | 2019-06-26 | 2020-12-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
CN110941951A (zh) * | 2019-10-15 | 2020-03-31 | 平安科技(深圳)有限公司 | 文本相似度计算方法、装置、介质及电子设备 |
CN111159335A (zh) * | 2019-12-12 | 2020-05-15 | 中国电子科技集团公司第七研究所 | 基于金字塔池化与lda主题模型的短文本分类方法 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111680494A (zh) * | 2020-04-27 | 2020-09-18 | 平安科技(深圳)有限公司 | 相似文本的生成方法及装置 |
CN111581468A (zh) * | 2020-05-15 | 2020-08-25 | 北京交通大学 | 基于噪声容忍的偏多标记学习方法 |
CN112131350A (zh) * | 2020-09-30 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 文本标签确定方法、装置、终端及可读存储介质 |
CN113065350A (zh) * | 2021-04-13 | 2021-07-02 | 哈尔滨理工大学 | 一种基于注意力神经网络的生物医学文本词义消岐方法 |
CN113239700A (zh) * | 2021-04-27 | 2021-08-10 | 哈尔滨理工大学 | 改进bert的文本语义匹配设备、系统、方法及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617971A (zh) * | 2022-11-14 | 2023-01-17 | 湖南君安科技有限公司 | 基于ALBERT-Coref模型的对话文本生成方法 |
CN117892735A (zh) * | 2024-03-14 | 2024-04-16 | 中电科大数据研究院有限公司 | 一种基于深度学习的自然语言处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
EP3933657A1 (en) | Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
WO2020082560A1 (zh) | 文本关键词提取方法、装置、设备及计算机可读存储介质 | |
CN111190997B (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN110765759B (zh) | 意图识别方法及装置 | |
US20080052262A1 (en) | Method for personalized named entity recognition | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
US11481387B2 (en) | Facet-based conversational search | |
CN110263325A (zh) | 中文分词系统 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN114444462B (zh) | 模型训练方法及人机交互方法、装置 | |
CN114462392B (zh) | 一种基于主题关联度与关键词联想的短文本特征扩展方法 | |
CN111353050A (zh) | 一种电信客服垂直领域的词库构建方法及工具 | |
CN113779987A (zh) | 一种基于自注意力增强语义的事件共指消岐方法及系统 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN118152570A (zh) | 一种智能化的文本分类方法 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN112417875B (zh) | 配置信息的更新方法、装置、计算机设备及介质 | |
CN113869040A (zh) | 一种电网调度的语音识别方法 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |