CN110147446A - 一种基于双层attention机制的词嵌入方法、设备及存储设备 - Google Patents

一种基于双层attention机制的词嵌入方法、设备及存储设备 Download PDF

Info

Publication number
CN110147446A
CN110147446A CN201910318341.6A CN201910318341A CN110147446A CN 110147446 A CN110147446 A CN 110147446A CN 201910318341 A CN201910318341 A CN 201910318341A CN 110147446 A CN110147446 A CN 110147446A
Authority
CN
China
Prior art keywords
vocabulary
semantic
vector
semanteme
justice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910318341.6A
Other languages
English (en)
Inventor
姚宏
陈仁谣
刘超
董理君
康晓军
李新川
李圣文
梁庆中
郑坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910318341.6A priority Critical patent/CN110147446A/zh
Publication of CN110147446A publication Critical patent/CN110147446A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提供了一种基于双层attention机制的词嵌入方法、设备及存储设备,其方法包括:首先通过attention获取词汇内部不同语义对应的不同义原的权重;再对词汇内部不同语义对应的不同义原进行加权和计算得到词汇内部不同语义的向量表示;然后通过attention获取词汇内部不同语义的权重;最后对词汇内部的不同语义进行加权和计算得到词向量表示。一种基于双层attention机制的词嵌入设备及存储设备,用于实现一种基于双层attention机制的词嵌入方法。本发明的有益效果是:本发明所提出的技术方案创新性地引入attention机制来捕捉词汇内部的语义权重以及语义内部的义原权重,可以更加深入和准确的描述词汇内部的语义随上下文的变化,从而能够更好的对词汇在上下文中的语义进行表达。

Description

一种基于双层attention机制的词嵌入方法、设备及存储设备
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于双层attention机制的词嵌入方法、设备及存储设备。
背景技术
Word Embedding(词嵌入)的目的是将词汇嵌入到连续的低维稠密的向量空间中。作为NLP(自然语言处理)中的预训练模型的基础,Word Embedding在语言模型、文本分类、阅读理解、机器翻译、QA等方面都得到了广泛的应用。
由于Word Embedding在NLP中的重要性,近年来涌现了大量有关Word Embedding的工作。Word2Vec作为Word Embedding的经典代表,包括CBOW(Continuous Bag-of-WordsModel:由上下文预测当前词)和Skip-gram(Continuous Skip-gram Model:由当前词预测上下文)两种模型,其基本思想是:具有相似上下文的词汇应该相互靠近。但是Wor2Vec由于词汇稀疏性的限制,导致低频词难以得到充分的训练。为了解决这个问题,其中一部分学者通过利用词汇的内部信息来作为词汇的语义补充,如,利用词汇的形态学信息(前缀/词根/后缀)以及进行字符级别的嵌入等。在中文方面还考虑了字符内部的偏旁部首,组成结构以及笔画笔顺等信息。另一部分学者则考虑到了使用外部知识来辅助训练词向量,如图像信息以及一些外部的语义知识库(如同义词词林、WordNet、BabelNet、ConceptNet、HowNet等)。
Word Embedding在将词汇嵌入到统一的语义空间的同时保留了词与词之间的语义相关性。但是Word Embedding同时也存在明显的语义混淆缺陷,将一个词汇的所有语义表示在了同一个向量中。为了弥补这样的不足,就需要对词汇的不同语义进行单独的建模,从而克服词嵌入的语义混淆缺陷。Word Sense Disambiguation(WSD)的目的在于在不同的上下文中对词汇的不同语义进行区分,可粗略的分为无监督的方法和基于知识的方法。
Sememe-Encoded Word Representation Learning Model(SE-WRL)是一种基于语义知识库的Word Embedding模型,同时也是基于知识的WSD模型。SE-WRL模型基于Skip-gram模型框架,通过建模HowNet中的词汇、语义以及义原的结构(一个词汇可能存在多种不同的语义,而语义又由不同的义原构成,如图5所示),来描述词汇的内部语义信息。
义原是语义描述的不可分割的最小单位,义原能够深入到词汇的语义内部,从而可以对词汇的语义进行精确的表达。Hownet是一种类似于WordNet的中文词概念知识库,其基本组成单位为义原。HowNet的组织结构为:Word(词汇)、Sense(语义)、Sememe(义原)。一个词汇可能由多种不同的语义组成,而义原则用来描述语义的内部信息。如图5所示,苹果包含两种语义:sense1_Apple brand;sense2_Apple。sense1_Apple brand的义原为:sememe1_电脑(computer),sememe2_样式值(PatterValue),sememe3_能(able),sememe4_携带(bring)和sememe5_特定牌子(SpeBrand)。sense2_Apple的义原为:sememe1_水果(fruit)。如图5所示,HowNet中义原的组织形式为层级树状的结构(如sense1_Apple brand中所示的义原组织形式)。由于HowNet特殊的义原组织形式,使得可以深入到词汇的语义内部来对词汇进行描述。
但是在SE-WRL模型中,认为同一语义下的每一个义原是相互等价的,这样的假设显然存在不合理性。同一语义下的不同义原应该是不等价的,即每个不同的义原在构成语义时,义原对形成语义的贡献应该是不同的。如图5所示,造成义原的不等价性很大的一部分原因是由于义原的层级树状结构引起的,处于不同层次不同分支下的义原通常情况下是不等价的;其次即使是同一层次同一分支下的义原在面对不同的上下文时也应该是不等价的。
发明内容
为了解决上述问题,本发明提供了一种基于双层attention机制的词嵌入方法、设备及存储设备,一种基于双层attention机制的词嵌入方法,主要包括以下步骤:
S101:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S102:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重;
S103:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;
S104:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;
S105:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示。
进一步地,一种用于Skip-gram中上下文词的基于双层attention机制的词嵌入方法,其特征在于,包括如下步骤:
S201:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S202:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重,如公式(1)所示:
上式中,表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义si对应的第j个义原的权重,其中,a≤t≤W-a,W为分完词的待处理语料中的词汇总个数,a为上下文窗口大小,为预设值,且t-a≤c≤t+a,c≠t;表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义对应的第k个义原, 为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;为目标词汇wt的第i个语义si的第j个义原 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
S203:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;如公式(2)所示:
上式中,为目标词汇wt的上下文词汇wc的第i个语义的向量表示;为目标词汇wt的上下文词汇wc的第i个语义si的第j个义原的向量表示,为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;
S204:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;如公式(3)所示:
上式中,为目标词汇wt的上下文词汇wc的第i个语义对应的权重;为目标词汇wt的上下文词汇wc的第i个语义的向量表示, 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
S205:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到目标词汇wt对应的上下文词wc的向量表示,如公式(4)所示:
上式中,wc为目标词汇wt的上下文词汇wc的向量表示;为步骤S201中初始化的目标词汇wt的上下文词汇wc的第i个语义, 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
循环执行步骤S202至S205,直到分完词的待处理语料中的所有词汇的向量表示均被更新。
进一步地,一种用于Skip-gram中目标词的基于双层attention机制的词嵌入方法,其特征在于,包括如下步骤:
S301:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S302:根据初始化得到的所有词汇的向量表示,采用公式(5)计算得到各个词汇对应的上下文的向量表示,由上下文窗口中的所有词汇的向量的均值得到:
上式中,wcontext为第t个词汇wt对应的上下文的向量表示;a为上下文窗口大小,为预设值;wj为第t个上下文词汇对应的第j个词汇的向量表示,t-a≤j≤t+a,j≠t;a≤t≤W-a,W为分完词的待处理语料中的词汇总个数;
S303:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重;如公式(6)所示:
上式中,为使用wcontext对wt的第i个语义中的第j个义原进行attention计算的权重, 为wt的第i个语义的所有义原的集合,k的取值范围和j相同; 为目标词汇wt对应的所有语义的集合;
S304:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;如公式(7)所示:
上式中,为目标词汇wt的第i个语义的向量表示;为目标词汇wt的第i个语义si的第j个义原的向量表示;
S305:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;如公式(8)所示:
上式中,为目标词汇wt的第i个语义对应的权重;为目标词汇wt的第i个语义的向量表示, 为目标词汇wt的所有语义的集合;
S306:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示;如公式(9)所示:
上式中,wt为第t个词汇对应的向量表示;为步骤S301中初始化的目标词汇wt的第i个语义的向量表示;
循环执行步骤S302至S306,直到分完词的待处理语料中的所有词汇的向量表示均被更新。
一种存储设备,所述存储设备存储指令及数据用于实现一种基于双层attention机制的词嵌入方法。
一种基于attention机制和义原信息的词嵌入设备,包括:处理器及所述存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现一种基于双层attention机制的词嵌入方法。
本发明提供的技术方案带来的有益效果是:本发明所提出的技术方案创新性地引入attention机制来捕捉词汇内部的语义权重以及语义内部的义原权重,可以更加深入和准确的描述词汇内部的语义随上下文的变化,从而能够更好的对词汇在上下文中的语义进行表达。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种基于双层attention机制的词嵌入方法的流程图;
图2是本发明实施例中一种基于双层attention机制的词嵌入方法的模型图;
图3是本发明实施例中一种用于Skip-gram中上下文词的基于双层attention机制的词嵌入方法的模型图;
图4是本发明实施例中一种用于Skip-gram中目标词的基于双层attention机制的词嵌入方法的模型图;
图5是本发明实施例中采用HowNet对词汇建模的示例图;
图6是本发明实施例中硬件设备工作的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于双层attention机制的词嵌入方法。
请参考图1,图1是本发明实施例中一种基于双层attention机制的词嵌入方法的流程图,其特征在于,所述一种基于双层attention机制的词嵌入方法,具体包括如下步骤:
S101:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S102:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention(sememe-level attention)得到各词汇在同一语义下不同义原的权重;
S103:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;
S104:根据各词汇的各个语义的向量表示,使用语义级别的attention(sense-level attention)得到各词汇的各个语义的权重;
S105:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示。
本发明的实施例中的一种基于双层attention机制的词嵌入方法的模型图如图2所示;采用了双层attention的架构,包括sense-level attention和sememe-levelattention,采用双层attention机制的意义在于:1)捕捉语义随上下文的权重变化。一个词汇可能拥有多种不同的语义,而这些语义的变化是通过不同的上下文表现出来的,但这并不意味着词汇在特定上下文中的语义就是唯一的。我们认为,词汇在特定上下文中存在特定的语义倾向,同时应该是多种不同语义的融合。随着上下文的改变,语义的权重也在发生着相应的变化。2)捕捉义原随上下文的权重变化。在现有模型中,认为构成语义的每一个义原是相互等价的,但是这样的假设存在不合理的地方,义原在构成一个词汇的语义时,不同的义原对语义的贡献值应该是不同的。于是通过attention机制来捕获义原随上下文的权重变化。
请参考图3,图3是本发明实施例中一种用于Skip-gram中上下文词的基于双层attention机制的词嵌入方法的模型图;其中,W,S和X分别代表词汇集合,语义集合和义原集合,对于每一个词w∈W,对应的有多个 S(w)表示词w对应的sense集合;对于每一个对应的有多个不同的 表示词w对应的第i个sense的sememe集合;C(w)表示词w对应的上下文集合。采用w、s和x对应的粗体形式w、s和x表示词汇(word)、语义(sense)和义原(sememe)的嵌入(向量表示);该方法将所述一种基于双层attention机制的词嵌入方法用于Skip-gram模型的上下文词汇中,即将目标词嵌入作为attention指导上下文词汇的语义生成,其特征在于,所述一种用于Skip-gram中上下文词的基于双层attention机制的词嵌入方法,具体包括如下步骤:
S201:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S202:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重,如公式(1)所示:
上式中,表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义si对应的第j个义原的权重,其中,a≤t≤W-a,W为分完词的待处理语料中的词汇总个数,a为上下文窗口大小,为预设值,且t-a≤c≤t+a,c≠t;表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义对应的第k个义原, 为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;为目标词汇wt的第i个语义si的第j个义原 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
S203:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;如公式(2)所示:
上式中,为目标词汇wt的上下文词汇wc的第i个语义的向量表示;为目标词汇wt的上下文词汇wc的第i个语义si的第j个义原的向量表示,为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;
S204:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;如公式(3)所示:
上式中,为目标词汇wt的上下文词汇wc的第i个语义对应的权重;为目标词汇wt的上下文词汇wc的第i个语义的向量表示, 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
S205:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到目标词汇wt对应的上下文词wc的向量表示,如公式(4)所示:
上式中,wc为目标词汇wt的上下文词汇wc的向量表示;为步骤S201中初始化的目标词汇wt的上下文词汇wc的第i个语义, 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
循环执行步骤S202至S205,直到分完词的待处理语料中的所有词汇的向量表示均被更新。
请参考图4,图4是本发明实施例中一种用于Skip-gram中目标词的基于双层attention机制的词嵌入方法的模型图;其中,W,S和X分别代表词汇集合,语义集合和义原集合,对于每一个词w∈W,对应的有多个S(w)表示词w对应的sense集合;对于每一个对应的有多个不同的表示词w对应的第i个sense的sememe集合;C(w)表示词w对应的上下文集合。采用w、s和x对应的粗体形式w、s和x表示词汇(word)、语义(sense)和义原(sememe)的嵌入(向量表示);该方法将所述一种基于双层attention机制的词嵌入方法用于Skip-gram模型中的目标词汇上,即将上下文词汇嵌入作为attention来指导目标词在上下文词汇中的语义生成,其特征在于,所述一种用于Skip-gram中目标词的基于双层attention机制的词嵌入方法,具体包括如下步骤:
S301:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S302:根据初始化得到的所有词汇的向量表示,采用公式(5)计算得到各个词汇对应的上下文的向量表示,由上下文窗口中的所有词汇的向量的均值得到:
上式中,wcontext为第t个词汇wt对应的上下文的向量表示;a为上下文窗口大小,为预设值;wj为第t个上下文词汇对应的第j个词汇的向量表示,t-a≤j≤t+a,j≠t;a≤t≤W-a,W为分完词的待处理语料中的词汇总个数;
S303:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重;如公式(6)所示:
上式中,为使用wcontext对wt的第i个语义中的第j个义原进行attention计算的权重, 为wt的第i个语义的所有义原的集合,k的取值范围和j相同; 为目标词汇wt对应的所有语义的集合;
S304:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;如公式(7)所示:
上式中,为目标词汇wt的第i个语义的向量表示;为目标词汇wt的第i个语义si的第j个义原的向量表示;
S305:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;如公式(8)所示:
上式中,为目标词汇wt的第i个语义对应的权重;为目标词汇wt的第i个语义的向量表示, 为目标词汇wt的所有语义的集合;
S306:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示;如公式(9)所示:
上式中,wt为第t个词汇对应的向量表示;为步骤S301中初始化的目标词汇wt的第i个语义的向量表示;
循环执行步骤S302至S306,直到分完词的待处理语料中的所有词汇的向量表示均被更新。
请参见图6,图6是本发明实施例的硬件设备工作示意图,所述硬件设备具体包括:一种基于attention机制和义原信息的词嵌入设备601、处理器602及存储设备603。
一种基于attention机制和义原信息的词嵌入设备601:所述一种基于attention机制和义原信息的词嵌入设备601实现所述一种基于双层attention机制的词嵌入方法。
处理器602:所述处理器602加载并执行所述存储设备603中的指令及数据用于实现所述一种基于双层attention机制的词嵌入方法。
存储设备603:所述存储设备603存储指令及数据;所述存储设备603用于实现所述一种基于双层attention机制的词嵌入方法。
本发明的有益效果是:本发明所提出的技术方案创新性地引入attention机制来捕捉词汇内部的语义权重以及语义内部的义原权重,可以更加深入和准确的描述词汇内部的语义随上下文的变化,从而能够更好的对词汇在上下文中的语义进行表达。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于双层attention机制的词嵌入方法,其特征在于:包括以下步骤:
S101:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S102:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重;
S103:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;
S104:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;
S105:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示。
2.一种用于Skip-gram中上下文词的基于双层attention机制的词嵌入方法,其特征在于,包括如下步骤:
S201:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S202:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重,如公式(1)所示:
上式中,表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义si对应的第j个义原的权重,其中,a≤t≤W-a,W为分完词的待处理语料中的词汇总个数,a为上下文窗口大小,为预设值,且t-a≤c≤t+a,c≠t;表示第t个目标词汇wt的第c个上下文词汇wc的第i个语义对应的第k个义原, 为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;为目标词汇wt的第i个语义si的第j个义原 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
S203:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;如公式(2)所示:
上式中,为目标词汇wt的上下文词汇wc的第i个语义的向量表示;为目标词汇wt的上下文词汇wc的第i个语义si的第j个义原的向量表示,为目标词汇wt的上下文词汇wc的第i个语义对应的所有义原的集合;
S204:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;如公式(3)所示:
上式中,为目标词汇wt的上下文词汇wc的第i个语义对应的权重;为目标词汇wt的上下文词汇wc的第i个语义的向量表示, 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
S205:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到目标词汇wt对应的上下文词wc的向量表示,如公式(4)所示:
上式中,wc为目标词汇wt的上下文词汇wc的向量表示;为步骤S201中初始化的目标词汇wt的上下文词汇wc的第i个语义, 为目标词汇wt的上下文词汇wc对应的所有语义的集合;
循环执行步骤S202至S205,直到分完词的待处理语料中的所有词汇的向量表示均被更新。
3.一种用于Skip-gram中目标词的基于双层attention机制的词嵌入方法,其特征在于,包括如下步骤:
S301:利用HowNet语义知识库,找出分完词的待处理语料中的各个词汇,对应的语义和语义的义原,从而生成各词汇的词汇-语义-义原的对应关系,进而根据所述对应关系初始化所有词汇的向量表示和各词汇对应的所有语义的义原的向量表示;
S302:根据初始化得到的所有词汇的向量表示,采用公式(5)计算得到各个词汇对应的上下文的向量表示,由上下文窗口中的所有词汇的向量的均值得到:
上式中,wcontext为第t个词汇wt对应的上下文的向量表示;a为上下文窗口大小,为预设值;wj为第t个上下文词汇对应的第j个词汇的向量表示,t-a≤j≤t+a,j≠t;a≤t≤W-a,W为分完词的待处理语料中的词汇总个数;
S303:根据所有词汇的向量表示和所有词汇对应的所有语义的义原的向量表示,使用义原级别的attention得到各词汇在同一语义下不同义原的权重;如公式(6)所示:
上式中,为使用wcontext对wt的第i个语义中的第j个义原进行attention计算的权重, 为wt的第i个语义的所有义原的集合,k的取值范围和j相同; 为目标词汇wt对应的所有语义的集合;
S304:根据各词汇在同一语义下不同义原的权重,对各词汇的各个语义对应的所有义原进行加权计算得到各词汇的各个语义的向量表示;如公式(7)所示:
上式中,为目标词汇wt的第i个语义的向量表示;为目标词汇wt的第i个语义si的第j个义原的向量表示;
S305:根据各词汇的各个语义的向量表示,使用语义级别的attention得到各词汇的各个语义的权重;如公式(8)所示:
上式中,为目标词汇wt的第i个语义对应的权重;为目标词汇wt的第i个语义的向量表示, 为目标词汇wt的所有语义的集合;
S306:根据各词汇的各个语义的权重,对各词汇的所有语义进行加权计算,得到所述语料的各词汇的向量表示;如公式(9)所示:
上式中,wt为第t个词汇对应的向量表示;为步骤S301中初始化的目标词汇wt的第i个语义的向量表示;
循环执行步骤S302至S306,直到分完词的待处理语料中的所有词汇的向量表示均被更新。
4.一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现权利要求1~3所述的任意一种基于双层attention机制的词嵌入方法。
5.一种基于双层attention机制的词嵌入设备,其特征在于:包括:处理器及存储设备;所述处理器加载并执行存储设备中的指令及数据用于实现权利要求1~3所述的任意一种基于双层attention机制的词嵌入方法。
CN201910318341.6A 2019-04-19 2019-04-19 一种基于双层attention机制的词嵌入方法、设备及存储设备 Pending CN110147446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910318341.6A CN110147446A (zh) 2019-04-19 2019-04-19 一种基于双层attention机制的词嵌入方法、设备及存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910318341.6A CN110147446A (zh) 2019-04-19 2019-04-19 一种基于双层attention机制的词嵌入方法、设备及存储设备

Publications (1)

Publication Number Publication Date
CN110147446A true CN110147446A (zh) 2019-08-20

Family

ID=67589660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910318341.6A Pending CN110147446A (zh) 2019-04-19 2019-04-19 一种基于双层attention机制的词嵌入方法、设备及存储设备

Country Status (1)

Country Link
CN (1) CN110147446A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765259A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于词汇义原的文本过滤方法及相关设备
WO2021139266A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN107577659A (zh) * 2017-07-18 2018-01-12 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法
CN108763217A (zh) * 2018-06-01 2018-11-06 北京玄科技有限公司 基于多语义的集外词处理方法、智能问答方法及装置
CN108776655A (zh) * 2018-06-01 2018-11-09 北京玄科技有限公司 一种有监督的词向量训练方法及装置
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109086269A (zh) * 2018-07-19 2018-12-25 大连理工大学 一种基于语义资源词表示和搭配关系的语义双关语识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN107577659A (zh) * 2017-07-18 2018-01-12 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备
CN108595601A (zh) * 2018-04-20 2018-09-28 福州大学 一种融入Attention机制的长文本情感分析方法
CN108763217A (zh) * 2018-06-01 2018-11-06 北京玄科技有限公司 基于多语义的集外词处理方法、智能问答方法及装置
CN108776655A (zh) * 2018-06-01 2018-11-09 北京玄科技有限公司 一种有监督的词向量训练方法及装置
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109086269A (zh) * 2018-07-19 2018-12-25 大连理工大学 一种基于语义资源词表示和搭配关系的语义双关语识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NIU, Y等: "Improved word representation learning with sememes", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, VANCOUVER, BC, CANADA》 *
PENNINGTON, J.等: "Global vectors for word representation", 《PROCEEDINGS OF THE 2014 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING (EMNLP), DOHA, QATAR》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765259A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于词汇义原的文本过滤方法及相关设备
WO2021139266A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
Tewel et al. Zerocap: Zero-shot image-to-text generation for visual-semantic arithmetic
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Cheng et al. Learning structured natural language representations for semantic parsing
Liu et al. Implicit discourse relation classification via multi-task neural networks
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
Mao et al. Explain images with multimodal recurrent neural networks
Kumar et al. Learning specific-class segmentation from diverse data
CN109214001A (zh) 一种中文语义匹配系统及方法
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN106650756A (zh) 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN110717024B (zh) 基于图像视觉到文本转换的视觉问答问题解决方法
CN109961442A (zh) 神经网络模型的训练方法、装置和电子设备
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN110147446A (zh) 一种基于双层attention机制的词嵌入方法、设备及存储设备
CN110135461A (zh) 基于分层注意感知深度度量学习的情感图像检索的方法
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
Nguyen et al. Dynamic semantic matching and aggregation network for few-shot intent detection
CN104794455A (zh) 一种东巴象形文字识别方法
CN115658954A (zh) 一种基于提示学习的跨模态检索对抗防御方法
CN113723075A (zh) 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法
CN111046166B (zh) 一种基于相似度修正的半隐式多模态推荐方法
CN111488732A (zh) 一种变形关键词检测方法、系统及相关设备
Wang et al. Image captioning with adaptive incremental global context attention
Cosovic et al. Classification methods in cultural heritage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190820

RJ01 Rejection of invention patent application after publication