CN107180026B - 一种基于词嵌入语义映射的事件短语学习方法及装置 - Google Patents

一种基于词嵌入语义映射的事件短语学习方法及装置 Download PDF

Info

Publication number
CN107180026B
CN107180026B CN201710301306.4A CN201710301306A CN107180026B CN 107180026 B CN107180026 B CN 107180026B CN 201710301306 A CN201710301306 A CN 201710301306A CN 107180026 B CN107180026 B CN 107180026B
Authority
CN
China
Prior art keywords
expanded
phrase
training
word
verb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710301306.4A
Other languages
English (en)
Other versions
CN107180026A (zh
Inventor
熊德意
李方圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Transn Beijing Information Technology Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201710301306.4A priority Critical patent/CN107180026B/zh
Publication of CN107180026A publication Critical patent/CN107180026A/zh
Application granted granted Critical
Publication of CN107180026B publication Critical patent/CN107180026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种基于词嵌入语义映射的事件短语学习方法及装置,该方法包括:获取动宾结构的事件短语,提取其中包含的待扩展名词及待扩展动词;利用预先基于训练语料集训练的词嵌入模型得到与每个待扩展名词及待扩展动词对应的词向量;基于词向量计算每个待扩展名词及待扩展动词与训练语料集中的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。在事件识别性能上得到了显著的提升。

Description

一种基于词嵌入语义映射的事件短语学习方法及装置
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于词嵌入语义映射的事件短语学习方法及装置。
背景技术
事件识别(Event Recognition)是信息抽取(Information Extraction,IE)领域中一个非常重要的研究方向,也是自然语言处理(natural language processing,NLP)任务的一项基础工作,主要是为了通过识别文档中的事件,从而判断文档是否与某一特定类型的事件相关。
目前事件识别方法主要分为两类,一类是基于监督机器学习的方法,依赖于大量的人工标注数据,获取较好抽取效果的同时,耗时耗力,并且可移植性较差。另一类是基于半监督学习的自举(bootstrapping)方法,该方法能够解决监督机器学习的方法中存在的上述缺点,但是抽取的效果高度依赖于初始种子的质量和迭代过程中的条件约束,并且在自举迭代的后期,错误增长非常的快速;为了克服上述缺陷,取得较高的事件抽取准确率,对自举方法做了严格的句法结构限制,在此限制之下,会导致很多描述需要识别出的特定类型事件的事件短语无法学习到,进而导致事件识别性能较差。
综上所述,如何提供一种事件识别性能较好的事件短语学习技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种基于词嵌入语义映射的事件短语学习方法及装置,以提高事件识别性能。
为了实现上述目的,本发明提供如下技术方案:
一种基于词嵌入语义映射的事件短语学习方法,包括:
获取学习到的动宾结构的事件短语,并提取所述事件短语中包含的待扩展名词及待扩展动词;
利用预先基于训练语料集训练得到的词嵌入模型得到与每个所述待扩展名词及所述待扩展动词对应的词向量;
基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;
将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。
优选的,基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度,包括:
按照下列公式基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度:
Figure GDA0001369744990000021
其中,
Figure GDA0001369744990000022
表示待扩展名词或者待扩展动词的词向量,
Figure GDA0001369744990000023
表示所述训练语料集中任一训练名词或者训练动词的词向量,
Figure GDA0001369744990000024
表示
Figure GDA0001369744990000025
Figure GDA0001369744990000026
的相似度。
优选的,将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,包括:
将同一事件短语中包含的待扩展动词与该事件短语中包含的待扩展名词的各相似语义词分别组成扩展短语,并将同一事件短语中包含的待扩展名词与该事件短语中包含的待扩展动词的各相似语义词分别组成扩展短语。
优选的,利用所述扩展短语实现事件短语学习之前,还包括:
确定每个扩展短语在所述训练语料集中出现的频率,并将该频率小于短语频率阈值的扩展短语删除;
确定每个扩展短语中动词结构部分在所述训练语料集中出现的频率,并将该频率小于结构频率阈值的扩展短语删除。
优选的,基于训练语料集训练得到词嵌入模型,包括:
利用Word2vec对训练语料集训练得到词嵌入模型。
一种基于词嵌入语义映射的事件短语学习装置,包括:
提取模块,用于:获取学习到的动宾结构的事件短语,并提取所述事件短语中包含的待扩展名词及待扩展动词;
分析模块,用于:利用预先基于训练语料集训练得到的词嵌入模型得到与每个所述待扩展名词及所述待扩展动词对应的词向量;
计算模块,用于:基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;
学习模块,用于:将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。
优选的,所述计算模块包括:
计算单元,用于:按照下列公式基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度:
Figure GDA0001369744990000031
其中,
Figure GDA0001369744990000032
表示待扩展名词或者待扩展动词的词向量,
Figure GDA0001369744990000033
表示所述训练语料集中任一训练名词或者训练动词的词向量,
Figure GDA0001369744990000034
表示
Figure GDA0001369744990000035
Figure GDA0001369744990000036
的相似度。
优选的,所述学习模块包括:
重组单元,用于:将同一事件短语中包含的待扩展动词与该事件短语中包含的待扩展名词的各相似语义词分别组成扩展短语,并将同一事件短语中包含的待扩展名词与该事件短语中包含的待扩展动词的各相似语义词分别组成扩展短语。
优选的,还包括:
约束模块,用于:确定每个扩展短语在所述训练语料集中出现的频率,并将该频率小于短语频率阈值的扩展短语删除;确定每个扩展短语中动词结构部分在所述训练语料集中出现的频率,并将该频率小于结构频率阈值的扩展短语删除。
优选的,还包括:
训练模块,用于利用Word2vec对训练语料集训练得到词嵌入模型。
本发明提供了一种基于词嵌入语义映射的事件短语学习方法及装置,其中该方法包括:获取学习到的动宾结构的事件短语,并提取所述事件短语中包含的待扩展名词及待扩展动词;利用预先基于训练语料集训练得到的词嵌入模型得到与每个所述待扩展名词及所述待扩展动词对应的词向量;基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。本申请公开的技术方案中,获取自举方法中学习到的事件短语并由中提取到待扩展名词及待扩展动词,通过词嵌入确定出与每个待扩展名词及待扩展动词对应的相似语义词,从而通过待扩展名词、待扩展动词及对应的相似语义词泛化出更多具有相似语义的同类事件短语,即扩展短语,并将得到的扩展短语及事件短语用于事件短语学习中,从而有效解决了现有技术中由于严格的句法结构限制导致无法学习到很多特定事件的事件短语的问题,且实验表明,本申请公开的上述技术方案可以有效的学习到新的事件短语,即扩展短语,在事件识别性能上得到了显著的提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法的流程图;
图2为本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中及物动词后接直接宾语的示意图;
图3为本发明实施例提供的本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中不及物动词后加介词后再接宾语的示意图;
图4为本发明实施例提供的本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中短语抽取方法的示例图;
图5为本发明实施例提供的本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中单词替换方法的示意图;
图6为本发明实施例提供的本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中Word2vec中的CBOW模型和Skip-gram模型的示意图;
图7为本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中Word2vec采用Hierarchical Softmax优化策略训练单词嵌入表示的网络结构示意图;
图8为本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中实验的动词扩展在事件识别任务上的结果F值变化趋势图;
图9为本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中实验的名词扩展在事件识别任务上的结果F值变化趋势图;
图10为本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法中实验的50维词向量模型下动词名词扩展在事件识别任务上的准确率对比图;
图11为本发明实施例提供的一种基于词嵌入语义映射的事件短语学习装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法的流程图,可以包括:
S11:获取学习到的动宾结构的事件短语,并提取事件短语中包含的待扩展名词及待扩展动词。
本申请公开的技术方案可以从Huang和Riloff(即文献Ruihong Huang and EllenRiloff,2013.Multi-faceted event recognition with bootstrapped dictionaries.InHLT-NAACL,pages 41–51;后文简称H&R)中的自举方法展开,通过语义上的相似语义映射来学习出更多事件短语,以克服自举方法中固有的局限性。其中对于识别任务的对象具体可以根据实际需要进行确定,如可以主要识别社会动乱(civil unrest)这一特定主题的事件。具体来说,本申请中获取到的事件短语具体可以是在H&R方法中第四轮迭代时学习到的,包括事件表示短语(event phrases,EP)和事件目的短语(purpose phrases,PP),这是因为在H&R方法的第四轮迭代中学习到的短语在事件识别效果上达到了最高,从而有利于提高本申请提供的技术方案的事件识别性能。
另外在H&R自举迭代学习方法中,为了减少噪声在自动迭代过程增长过快,对短语的格式进行了严格的限定,要求事件表示短语和事件目的短语必须为动宾结构,具体表现形式有两种,其一是及物动词后接直接宾语,如图2,其二是不及物动词后加介词后再接宾语,如图3。其中,宾语为一个名词短语的核心词(Noun head),因此可以根据短语的已知结构进行动词提取与名词提取,图4展示了几种短语的抽取方法;如图4所示,P1为一个(a)类结构的短语,动词为短语首单词,名词为短语尾单词,P2为一个(b)类结构的短语,提取方法同P1,P3虽为一个(a)类结构的短语,但由于动词为不定式结构,因此,动词为“to”后面的第一个单词,名词为短语尾单词。本申请中的待扩展名词及待扩展动词即为事件短语中包含的名词及动词。另外本申请中的相似语义词和同义词被认为表达的含义相同。
S12:利用预先基于训练语料集训练得到的词嵌入模型得到与每个待扩展名词及待扩展动词对应的词向量。
需要说明的是,训练语料集为根据实际需要进行获取的,通常训练语料集中包含有数量非常大的词语,如可以选取Gigaword英文第四版单语语料集作为训练语料集。通过对训练语料集的训练得到词嵌入模型,从而将每个待扩展名词及待扩展动词作为词嵌入模型的输入,得到的输出即为对应词的词向量。由此,通过不同词向量之间的相似度确定出可以作为相似语义词的词语,也即利用Word embedding(词嵌入)的方式实现相似语义词的选取。具体来说,词嵌入是一组语言模型和自然语言处理中特征学习技术的总称,词汇中的单词被映射到相对于词汇量的大小而言低维空间的实数向量;单词嵌入的基本思想是采用神经网络或者深度学习方法,构建某种模型来捕捉目标单词与上下文其他单词之间的共现关系,进而将单词表示成向量的形式;单词嵌入将语义信息融入在单词向量表示之中,基于聚类的思想,神经网络能让语义相近的词拥有相似的向量,直观的来说,就是在单词向量表示的空间中,相似的词往往离得更近。相似的单词距离近能让我们从一个句子演变出一类相似的句子;这不仅指把一个词替换成一个它的同义词,如图5中的(1)中将“door”替换成了“gate”,而且指把一个词换成一个相似类别里面的词,如图5中的(2)中将“blue”替换成“red”。
S13:基于词向量计算每个待扩展名词及待扩展动词与训练语料集中包含的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词。
其中,计算上述相似度具体可以为计算每个待扩展名词的词向量与训练语料中包含的每个训练名词的词向量之间的相似度,计算每个待扩展动词的词向量与训练语料中包含的每个训练动词的词向量之间的相似度,从而可以确定出与待扩展动词及待扩展名词具有相近含义(相似语义词)的训练动词及训练名词。其中相似度阈值可以根据实际需要进行设定,当相似度大于相似度阈值时则说明该相似度对应的两个词向量距离较近,对应的这两个词向量对应的两个词语含义相近,否则,则说明该相似度对应的两个词向量距离较远,对应的这两个词向量对应的两个词语含义并不相近。当然还可以根据实际需要进行其他设定,如对于任一待扩展名词或待扩展动词,选取与其的相似度最大的预设数量个(如15个)训练名词或训练动词作为其相似语义词,均在本发明的保护范围之内。
S14:将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。
获取待相似语义词后,可以将待扩展动词、待扩展名词及对应相似语义词组成新的短语,即扩展短语,从而泛化出更多具有相似语义的同类事件短语,并将得到的这些扩展短语及事件短语同时用于H&R方法的事件短语学习,完成对应的测评。
本申请公开的技术方案中,获取自举方法中学习到的事件短语并由中提取到待扩展名词及待扩展动词,通过词嵌入确定出与每个待扩展名词及待扩展动词对应的相似语义词,从而通过待扩展名词、待扩展动词及对应的相似语义词泛化出更多具有相似语义的同类事件短语,即扩展短语,并将得到的扩展短语及事件短语用于事件短语学习中,从而有效解决了现有技术中由于严格的句法结构限制导致无法学习到很多特定事件的事件短语的问题,且实验表明,本申请公开的上述技术方案可以有效的学习到新的事件短语,即扩展短语,在事件识别性能上得到了显著的提升。
本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法,基于词向量计算每个待扩展名词及待扩展动词与训练语料集中包含的训练名词及训练动词的相似度,可以包括:
按照下列公式基于词向量计算每个待扩展名词及待扩展动词与训练语料集中包含的训练名词及训练动词的相似度:
Figure GDA0001369744990000081
其中,
Figure GDA0001369744990000082
表示待扩展名词或者待扩展动词的词向量,
Figure GDA0001369744990000083
表示训练语料集中任一训练名词或者训练动词的词向量,
Figure GDA0001369744990000084
表示
Figure GDA0001369744990000085
Figure GDA0001369744990000086
的相似度。
需要说明的是,计算相似度时可以根据实际需要选用不同的方式,本申请中采用余弦相似度作为不同词语之间的相似度,从而能够使得计算量较少,且得到的相似度结果较准确,当然根据实际需要选用的其他方式均在本发明的保护范围之内。
本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法,将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,可以包括:
将同一事件短语中包含的待扩展动词与该事件短语中包含的待扩展名词的各相似语义词分别组成扩展短语,并将同一事件短语中包含的待扩展名词与该事件短语中包含的待扩展动词的各相似语义词分别组成扩展短语。
需要说明的是,实现扩展短语的重组的方法可以根据实际需要进行设置,此处以一个事件短语进行说明,如可以将该事件短语中包含的待扩展名词及该待扩展名词对应的相似语义词均称为名词,待扩展动词及该待扩展动词对应的相似语义词均称为动词,从而将每个名词与每个动词分别组成扩展短语;也可以将待扩展名词与待扩展动词的每个相似语义词分别组成扩展短语,将待扩展动词与待扩展名词的每个相似语义词分别组成扩展短语,当然还可以根据实际需要进行其他设定,均在本发明的保护范围之内。而通过实验证明,上述举例中的第二种,即将同一事件短语中包含的待扩展动词与该事件短语中包含的待扩展名词的各相似语义词分别组成扩展短语,并将同一事件短语中包含的待扩展名词与该事件短语中包含的待扩展动词的各相似语义词分别组成扩展短语,得到的扩展短语包含噪声较小,有利于提升事件识别准确率。
本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法,利用扩展短语实现事件短语学习之前,还可以包括:
确定每个扩展短语在所述训练语料集中出现的频率,并将该频率小于短语频率阈值的扩展短语删除;
确定每个扩展短语中动词结构部分在所述训练语料集中出现的频率,并将该频率小于结构频率阈值的扩展短语删除。
其中短语频率阈值及结构频率阈值可以根据实际需要进行设定,两者可以相同,也可以不同,均在本发明的保护范围之内。对于任一扩展短语中动词结构部分的出现频率的具体可以统计该扩展短语中的动词结构部分在训练语料中出现的次数,出现的频率小于结构频率阈值说明扩展短语中动词结构部分为不常用的搭配,此时将其进行删除;对于任一扩展短语的出现频率的具体可以统计该扩展短语在训练语料中出现的次数,出现的频率小于短语频率阈值说明扩展短语为不常用的搭配,此时将其进行删除。根据以上两者实现语言学约束,能够进一步保证事件识别准确率。具体来说,通过上述语言学约束主要可以实现两方面的约束,一是动词搭配是否合理,二是动名词搭配组合是否符合语言学使用习惯。例如:原短语“called for protest”,其中动词called的相似语义词学习到declares、branded、invoked等,原词called是不及物动词,因此需要连接一个介词for后再接宾语,然而相似语义词declares、branded、invoked均为及物动词,所以不存在类似“declares forprotest”这样的用法,因此要过滤掉;针对动宾搭配的情况,例如:“preceded a strike”,原动词preceded,学习得到的相似语义词有followed、opened、witnessed等,但是“followed a strike”、“opened a strike”搭配的情况不符合英语语言学习惯,因此要过滤掉这两种情况,只保留“witnessed a strike”;举例中的原短语即为学习到的事件短语,对应的原词即为原短语中的动词或名词。另外扩展短语中的动词结构部分可以指该扩展短语中除名词之外的全部部分。
本发明实施例提供的一种基于词嵌入语义映射的事件短语学习方法,基于训练语料集训练得到词嵌入模型,可以包括:
利用Word2vec对训练语料集训练得到词嵌入模型。
需要说明的是,获取单词嵌入表示的工具有很多,常见的有Word2vec、GloVe等,本申请中采用Word2vec训练词嵌入模型,从而保证模型具有较好的性能。Word2vec是一个用于获得单词嵌入的开源工具包,是CBOW(Continuous Bag-of-Words Model)模型和Skip-gram模型的实现,是目前在诸多自然语言处理任务中获取词嵌入表示最常用的方法之一,其本质上是对神经网络语言模型基础上的优化。CBOW模型和Skip-gram模型都是三层结构的神经网络模型,分别是输入层、投影层以及输出层,不同的是,这两个模型的输入输出的方向刚好相反。如图6所示,CBOW是已知当前词wt的下文wt-2,wt-1,wt+1,wt+2的前提下预测当前词wt,在CBOW模型中,上下文每一个词对当前词wt出现概率的影响权重是相同的,因此不必考虑上下文单词的次序问题。而Skip-gram模型则恰恰相反,是在已知当前词wt的前提下,预测其上下文wt-2,wt-1,wt+1,wt+2,Skip允许在预先设定的窗口内的单词中间隔着一些词,因为模型会分别进行两两单词间概率的计算,所以可以有效的排除助词等的干扰。
对于CBOW和Skip-gram两个模型,Word2vec给出了两套优化策略来加快词向量的训练效率,分别是Hierarchical Softmax(层次softmax)和Negative Sampling(负采样)。Hierarchical Softmax是一种对输出层进行优化的策略,输出层从原始模型的利用softmax计算概率值改为利用哈夫曼树计算概率值。哈夫曼树是二叉树,在叶子节点及叶子节点的权值给定的情况下,该树的带权路径长度最短(一个节点的带权路径长度指根节点到该节点的路径长度乘以该节点的权,树的带权路径长度指全部叶子节点的带权路径长度之和)。直观上可以看出,叶子节点的权越大,则该叶子节点就应该离根节点越近。因此对于模型来说就是,词频越高的词,距离根节点就越近。从根节点出发,到达指定叶子节点的路径是唯一的。Hierarchical Softmax正是利用这条路径来计算指定词的概率,而非用softmax来计算。Negative Sampling是Noise-Contrastive Estimation(NCE,噪声对比估计)的简化版本:把语料中一个词串的中心词替换为别的词,构造语料DD中不存在的词串作为负样本。因此在这种策略下,优化目标变为了:最大化正样本的概率,同时最小化负样本的概率。
因此,Word2vec的训练方法有四种,分别是CBOW模型采用Hierarchical Softmax策略,CBOW模型采用Negative Sampling策略,Skip-gram采用Hierarchical Softmax策略,Skip-gram采用Negative Sampling策略。图7展示了Word2vec采用Hierarchical Softmax优化策略训练单词嵌入表示的网络结构示意图,由图可知,整个训练过程还是三层神经网络,分别是输入层、投影层和输出层。CBOW模型输入层是当前词的上下文窗口中的单词向量,并在投影层对窗口中单词向量进行加和。而Skip-gram模型的输入层是当前词的向量,在投影层进行恒等映射。两个模型的输出层都是树形结构的,是以词表中的全部单词作为叶子节点,单词的词频作为节点的权值,构造的一棵哈夫曼树。投影层与哈夫曼树的非叶子节点相连,叶子则对应词表中的单词,任意非叶子节点仅表示一个向量,而并不是具体的某个单词,仅作为辅助向量,最终所有叶子结点的向量就是训练得到的词向量。
另外采用以下实验证明本申请公开的上述技术方案的良好性能:
本申请采用上文中指出的H&R论文中相同的测试数据集,共包含400篇英文文档。H&R选取了6个关键词:protest,strike,march,rally,riot,occupy以及它们的不同形态的词作为种子,从英文Gigaword语料中抽取至少包含以上1个关键词(或其变形)的文档出来作为候选文档,约100万篇文档,然后从中随机抽取400篇文章作为测试数据集,由两位标注者同时进行标注,标注文档是否是一个社会动乱主题的文章。最后将这400篇文档分为两部分,其中100篇为调试集(tuning set),剩下的300篇为测试集(test set)。调试集是用于测试之前的调整,把实验中的参数在调试集上调试到最佳,然后使用调试集中的最佳参数再在测试集上进行测评,最终得到测评结果。采用准确率、召回率和F值作为测评指标来衡量在文档级别上的事件识别效果。其中,准确率(Precision,P)是指系统正确识别出的个数占识别出的总数的比例,召回率(Recall,R)是系统正确识别出来的个数占整个测试集中标注为正确的总数的比例,F值(F-measure)是综合了准确率和召回率的一个综合性评价指标,是Precision和Recall加权调和平均值。在本文的实验中,计算P,R,F值的公式如下:
Figure GDA0001369744990000121
Figure GDA0001369744990000122
Figure GDA0001369744990000123
本实验所使用的语料是Gigaword英文第四版语料集,约1.27亿句子,33亿单词的规模大小。利用Python扩展工具包gensim中集成的word2vec模型训练词嵌入,采用CBOW模型,层次softmax优化策略来训练模型。在维度参数上,分别在20维、50维和100维三个维度上训练了三组模型作对比实验。并且利用全部语料集作为语言学约束的检查。
实验结果测评采用H&R标注400篇文档作为测评数据集,其中300篇作为测试集(test set),100篇作为调试集(tuning set),整个测评系统使用准确率、召回率和F值作为评价指标。
分别在20维、50维和100维三组词嵌入模型下进行动词的相似词抽取,并在每个词嵌入模型下,分别进行与原词最相似的top1到top10的单词,进行替换扩展学习新的事件短语,最后将扩展好的短语在测试集上进行事件识别任务的测评,实验结果如表1所示:
表1动词相似语义词替换短语扩展实验结果
Figure GDA0001369744990000131
类似的,进行名词相似词抽取,进行事件短语的学习,其结果如表2所示:
表2名词相似语义词替换短语扩展实验结果
Figure GDA0001369744990000132
从表1和表2的实验结果可以看出,根据词嵌入模型扩展学习事件短语,在维度为50的时候效果最好,在动词扩展中最好结果召回率76.2%,名词扩展中最好结果召回率77.2%,相比baseline系统第四轮最好结果的召回率71%分别提升了5.2%和6.2%;动词扩展中取得最好结果时F值81.1%,名词扩展中F值为81.3%,相比baseline系统F值79%分别提升了2.1%和2.3%。
下面针对动词与名词扩展学习事件短语的方法进行对比分析,图8和图9展示了这两种方法实验结果的F值变化趋势。
根据图8和图9,可以发现动词扩展短语的方法,其F值变化趋势接近正太分布结构,在top3或top4的时候取得最好结果,而名词扩展方法F值变化总体呈上升趋于平行的趋势,基本都在top7及以后取得最好结果。接着再分析两种方法随着扩展短语数量的增加,准确率的变化情况。图10展示了在50维模型下,两种方法准确率随扩展短语数量增加的对比情况。由图10可以看出,采用名词扩展的方法准确率要高于动词扩展的方法。
根据以上的分析,可以得出结论,采用动词扩展方法,最好结果在扩展与原词最接近的3到4个词时,效果最好,召回率提升的同时,准确率不会降低太多,而采用名词扩展方法,最好结果在扩展7到8个词的时候,此时召回率可以得到最大的提升的同时,准确率也在可以接受的范围,再往后,随着短语数量的增加,并不会带来F值的提升,推测原因是,很多新的事件短语并没有在测评语料中出现,因此,无法对测评结果产生影响。
本发明实施例公开的技术方案中与现有技术中对应技术方案原理一致的部分并未详细说明,以免过多赘述。
本发明实施例还公开了一种基于词嵌入语义映射的事件短语学习装置,如图11所示,可以包括:
提取模块11,用于:获取学习到的动宾结构的事件短语,并提取事件短语中包含的待扩展名词及待扩展动词;
分析模块12,用于:利用预先基于训练语料集训练得到的词嵌入模型得到与每个待扩展名词及待扩展动词对应的词向量;
计算模块13,用于:基于词向量计算每个待扩展名词及待扩展动词与训练语料集中包含的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;
学习模块14,用于:将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。
本发明实施例公开的一种基于词嵌入语义映射的事件短语学习装置,计算模块可以包括:
计算单元,用于:按照下列公式基于词向量计算每个待扩展名词及待扩展动词与训练语料集中包含的训练名词及训练动词的相似度:
Figure GDA0001369744990000151
其中,
Figure GDA0001369744990000152
表示待扩展名词或者待扩展动词的词向量,
Figure GDA0001369744990000153
表示训练语料集中任一训练名词或者训练动词的词向量,
Figure GDA0001369744990000154
表示
Figure GDA0001369744990000155
Figure GDA0001369744990000156
的相似度。
本发明实施例公开的一种基于词嵌入语义映射的事件短语学习装置,学习模块可以包括:
重组单元,用于:将同一事件短语中包含的待扩展动词与该事件短语中包含的待扩展名词的各相似语义词分别组成扩展短语,并将同一事件短语中包含的待扩展名词与该事件短语中包含的待扩展动词的各相似语义词分别组成扩展短语。
本发明实施例公开的一种基于词嵌入语义映射的事件短语学习装置,还可以包括:
约束模块,用于:利用扩展短语实现事件短语学习之前,确定每个扩展短语在训练语料集中出现的频率,并将该频率小于短语频率阈值的扩展短语删除;利用所述扩展短语实现事件短语学习之前,确定每个扩展短语中动词结构部分在所述训练语料集中出现的频率,并将该频率小于结构频率阈值的扩展短语删除。
本发明实施例公开的一种基于词嵌入语义映射的事件短语学习装置,还可以包括:
训练模块,用于利用Word2vec对训练语料集训练得到词嵌入模型。
本发明实施例公开的一种基于词嵌入语义映射的事件短语学习装置中相关部分的说明请参见本发明实施例公开的一种基于词嵌入语义映射的事件短语学习方法中对应部分的详细说明,在此不再赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于词嵌入语义映射的事件短语学习方法,其特征在于,包括:
获取学习到的动宾结构的事件短语,并提取所述事件短语中包含的待扩展名词及待扩展动词;
利用预先基于训练语料集训练得到的词嵌入模型得到与每个所述待扩展名词及所述待扩展动词对应的词向量;
基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;
将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习;
利用所述扩展短语实现事件短语学习之前,还包括:
确定每个扩展短语在所述训练语料集中出现的频率,并将该频率小于短语频率阈值的扩展短语删除;
确定每个扩展短语中动词结构部分在所述训练语料集中出现的频率,并将该频率小于结构频率阈值的扩展短语删除;
将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,包括:
将同一事件短语中包含的待扩展动词与该事件短语中包含的待扩展名词的各相似语义词分别组成扩展短语,并将同一事件短语中包含的待扩展名词与该事件短语中包含的待扩展动词的各相似语义词分别组成扩展短语;
基于训练语料集训练得到词嵌入模型,包括:
利用Word2vec对训练语料集训练得到词嵌入模型。
2.根据权利要求1所述的方法,其特征在于,基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度,包括:
按照下列公式基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度:
Figure FDA0002721588710000021
其中,
Figure FDA0002721588710000022
表示待扩展名词或者待扩展动词的词向量,
Figure FDA0002721588710000023
表示所述训练语料集中任一训练名词或者训练动词的词向量,
Figure FDA0002721588710000024
表示
Figure FDA0002721588710000025
Figure FDA0002721588710000026
的相似度。
3.一种基于词嵌入语义映射的事件短语学习装置,其特征在于,包括:
提取模块,用于:获取学习到的动宾结构的事件短语,并提取所述事件短语中包含的待扩展名词及待扩展动词;
分析模块,用于:利用预先基于训练语料集训练得到的词嵌入模型得到与每个所述待扩展名词及所述待扩展动词对应的词向量;
计算模块,用于:基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度,并选取出对应相似度大于相似度阈值的训练名词及训练动词作为对应待扩展名词及待扩展动词的相似语义词;
学习模块,用于:将同一事件短语中包含的待扩展动词、待扩展名词的对应相似语义词映射该事件短语中的待扩展动词、待扩展名词重新组成新的扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习;
所述装置还包括:
约束模块,用于:确定每个扩展短语在所述训练语料集中出现的频率,并将该频率小于短语频率阈值的扩展短语删除;确定每个扩展短语中动词结构部分在所述训练语料集中出现的频率,并将该频率小于结构频率阈值的扩展短语删除;
所述学习模块包括:
重组单元,用于:将同一事件短语中包含的待扩展动词与该事件短语中包含的待扩展名词的各相似语义词分别组成扩展短语,并将同一事件短语中包含的待扩展名词与该事件短语中包含的待扩展动词的各相似语义词分别组成扩展短语;
所述装置还包括:
训练模块,用于利用Word2vec对训练语料集训练得到词嵌入模型。
4.根据权利要求3所述的装置,其特征在于,所述计算模块包括:
计算单元,用于:按照下列公式基于所述词向量计算每个所述待扩展名词及所述待扩展动词与所述训练语料集中包含的训练名词及训练动词的相似度:
Figure FDA0002721588710000031
其中,
Figure FDA0002721588710000032
表示待扩展名词或者待扩展动词的词向量,
Figure FDA0002721588710000033
表示所述训练语料集中任一训练名词或者训练动词的词向量,
Figure FDA0002721588710000034
表示
Figure FDA0002721588710000035
Figure FDA0002721588710000036
的相似度。
CN201710301306.4A 2017-05-02 2017-05-02 一种基于词嵌入语义映射的事件短语学习方法及装置 Active CN107180026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710301306.4A CN107180026B (zh) 2017-05-02 2017-05-02 一种基于词嵌入语义映射的事件短语学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710301306.4A CN107180026B (zh) 2017-05-02 2017-05-02 一种基于词嵌入语义映射的事件短语学习方法及装置

Publications (2)

Publication Number Publication Date
CN107180026A CN107180026A (zh) 2017-09-19
CN107180026B true CN107180026B (zh) 2020-12-29

Family

ID=59832095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710301306.4A Active CN107180026B (zh) 2017-05-02 2017-05-02 一种基于词嵌入语义映射的事件短语学习方法及装置

Country Status (1)

Country Link
CN (1) CN107180026B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417210B (zh) * 2018-01-10 2020-06-26 苏州思必驰信息科技有限公司 一种词嵌入语言模型训练方法、词语识别方法及系统
CN110472251B (zh) * 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN108875963A (zh) * 2018-06-28 2018-11-23 北京字节跳动网络技术有限公司 机器学习模型的优化方法、装置、终端设备和存储介质
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN109271636B (zh) * 2018-09-17 2023-08-11 鼎富智能科技有限公司 词嵌入模型的训练方法及装置
CN109635383A (zh) * 2018-11-28 2019-04-16 优信拍(北京)信息科技有限公司 一种基于word2vec的车系相关度确定的方法及装置
CN113312908B (zh) * 2021-01-26 2024-02-06 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN114912448B (zh) * 2022-07-15 2022-12-09 山东海量信息技术研究院 一种文本扩展方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765769B (zh) * 2015-03-06 2018-04-27 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104933183B (zh) * 2015-07-03 2018-02-06 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106021371A (zh) * 2016-05-11 2016-10-12 苏州大学 一种事件识别方法及系统
CN106126494B (zh) * 2016-06-16 2018-12-28 上海智臻智能网络科技股份有限公司 同义词发现方法及装置、数据处理方法及装置

Also Published As

Publication number Publication date
CN107180026A (zh) 2017-09-19

Similar Documents

Publication Publication Date Title
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
Jung Semantic vector learning for natural language understanding
US9183274B1 (en) System, methods, and data structure for representing object and properties associations
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及系统
CN110209818B (zh) 一种面向语义敏感词句的分析方法
Chen et al. Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features
Saravanan et al. Improving legal document summarization using graphical models
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
JP2011118689A (ja) 検索方法及びシステム
CN114416942A (zh) 一种基于深度学习的自动化问答方法
Alsallal et al. Intrinsic plagiarism detection using latent semantic indexing and stylometry
CN112000802A (zh) 基于相似度集成的软件缺陷定位方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Lin et al. Enhanced BERT-based ranking models for spoken document retrieval
Kessler et al. Extraction of terminology in the field of construction
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
CN109977391A (zh) 一种文本数据的信息抽取方法及装置
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221107

Address after: 18/F, Building A, Wuhan Optics Valley International Business Center, No. 111, Guanshan Avenue, Donghu New Technology Development Zone, Wuhan, Hubei 430070

Patentee after: Wuhan Ruidimu Network Technology Co.,Ltd.

Address before: 215123 No. 199 benevolence Road, Suzhou Industrial Park, Jiangsu, China

Patentee before: SOOCHOW University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221227

Address after: 101113 room 1216, 12 / F, building 1, courtyard 3, beihuangmuchang North Street, Tongzhou District, Beijing

Patentee after: TRANSN (BEIJING) INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 18/F, Building A, Wuhan Optics Valley International Business Center, No. 111, Guanshan Avenue, Donghu New Technology Development Zone, Wuhan, Hubei 430070

Patentee before: Wuhan Ruidimu Network Technology Co.,Ltd.

TR01 Transfer of patent right