CN107168950B - 一种基于双语语义映射的事件短语学习方法及装置 - Google Patents

一种基于双语语义映射的事件短语学习方法及装置 Download PDF

Info

Publication number
CN107168950B
CN107168950B CN201710303450.1A CN201710303450A CN107168950B CN 107168950 B CN107168950 B CN 107168950B CN 201710303450 A CN201710303450 A CN 201710303450A CN 107168950 B CN107168950 B CN 107168950B
Authority
CN
China
Prior art keywords
phrase
event
verb
noun
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710303450.1A
Other languages
English (en)
Other versions
CN107168950A (zh
Inventor
熊德意
李方圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201710303450.1A priority Critical patent/CN107168950B/zh
Publication of CN107168950A publication Critical patent/CN107168950A/zh
Application granted granted Critical
Publication of CN107168950B publication Critical patent/CN107168950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于双语语义映射的事件短语学习方法及装置,该方法包括:获取学习到的动宾结构的事件短语,提取出事件短语中包含的动词结构及名词结构;利用包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及其中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取转述词;确定质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。提升了事件识别性能。

Description

一种基于双语语义映射的事件短语学习方法及装置
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于双语语义映射的事件短语学习方法及装置。
背景技术
事件识别(Event Recognition)是信息抽取(Information Extraction,IE)领域中一个非常重要的研究方向,也是自然语言处理(natural languageprocessing,NLP)任务的一项基础工作,主要是为了通过识别文档中的事件,从而判断文档是否与某一特定类型的事件相关。
目前事件识别方法主要分为两类,一类是基于监督机器学习的方法,依赖于大量的人工标注数据,获取较好抽取效果的同时,耗时耗力,并且可移植性较差。另一类是基于半监督学习的自举(bootstrapping)方法,该方法能够解决监督机器学习的方法中存在的上述缺点,但是抽取的效果高度依赖于初始种子的质量和迭代过程中的条件约束,并且在自举迭代的后期,错误增长非常的快速;为了克服上述缺陷,取得较高的事件抽取准确率,对自举方法做了严格的句法结构限制,在此限制之下,会导致很多描述需要识别出的特定类型事件的事件短语无法学习到,进而导致事件识别性能较差。
综上所述,如何提供一种事件识别性能较好的事件短语学习技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种基于双语语义映射的事件短语学习方法及装置,以提升事件识别性能。
为了实现上述目的,本发明提供如下技术方案:
一种基于双语语义映射的事件短语学习方法,包括:
获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;
利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;
确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。
优选的,利用所述扩展短语实现事件短语学习之前,还包括:
确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。
优选的,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,包括:
将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。
优选的,利用所述扩展短语实现事件短语学习之前,还包括:
将与事件短语相同的扩展短语删除。
一种基于双语语义映射的事件短语学习装置,包括:
提取模块,用于:获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;
分析模块,用于:利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;
学习模块,用于:确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。
优选的,还包括:
约束模块,用于:利用所述扩展短语实现事件短语学习之前,确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。
优选的,所述学习模块包括:
重组单元,用于:将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。
优选的,还包括:
去重模块,用于:利用所述扩展短语实现事件短语学习之前,将与事件短语相同的扩展短语删除。
本发明提供了一种基于双语语义映射的事件短语学习方法及装置,其中该方法包括:获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。本申请公开的技术方案中,获取自举方法中学习到的事件短语并由中提取到名词结构及动词结构,通过paraphrase双语语义映射确定出与每个名词结构及动词结构对应的替换词,从而通过动词结构、名词结构及对应的替换词泛化出更多的同类事件短语,即扩展短语,并将得到的扩展短语及事件短语用于事件短语学习中,通过这种方法不仅扩展事件短语原有的语义,还通过包含句法结构的短语一定程度上实现了事件短语结构上的扩展,从而有效解决了现有技术中由于严格的句法结构限制导致无法学习到很多特定事件的事件短语的问题,且实验表明,本申请公开的上述技术方案可以有效的学习到新的事件短语,即扩展短语,在事件识别性能上得到了显著的提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于双语语义映射的事件短语学习方法的流程图;
图2为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中及物动词后接直接宾语的示意图;
图3为本发明实施例提供的本发明实施例提供的一种基于双语语义映射的事件短语学习方法中不及物动词后加介词后再接宾语的示意图;
图4为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中动词结构与名词结构抽取示例图;
图5为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中paraphrase抽取示例图;
图6为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中paraphrase中n-gram特征抽取示例图;
图7为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中语言学约束上的特征抽取示例图;
图8为本发明实施例提供的一种基于双语语义映射的事件短语学习装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种基于双语语义映射的事件短语学习方法的流程图,可以包括:
S11:获取学习到的动宾结构的事件短语,并提取出事件短语中包含的动词结构及名词结构。
本申请公开的技术方案可以从Huang和Riloff(即文献Ruihong Huang and EllenRiloff,2013.Multi-faceted event recognition with bootstrapped dictionaries.InHLT-NAACL,pages 41–51;后文简称H&R)中的自举方法展开,通过双语语义映射来学习出更多事件短语,以克服自举方法中固有的局限性。其中对于识别任务的对象具体可以根据实际需要进行确定,如可以主要识别社会动乱(civil unrest)这一特定主题的事件。具体来说,本申请中获取到的事件短语具体可以是在H&R方法中第四轮迭代时学习到的,包括事件表示短语(event phrases,EP)和事件目的短语(purpose phrases,PP),这是因为在H&R方法的第四轮迭代中学习到的短语在事件识别效果上达到了最高,从而有利于提高本申请提供的技术方案的事件识别性能。
另外在H&R自举迭代学习方法中,为了减少噪声在自动迭代过程增长过快,对短语的格式进行了严格的限定,要求事件表示短语和事件目的短语必须为动宾结构,具体表现形式有两种,其一是及物动词后接直接宾语,如图2,其二是不及物动词后加介词后再接宾语,如图3。其中,宾语为一个名词短语的核心词(Noun head),因此可以根据短语的已知结构进行动词结构提取与名词结构提取,图4展示了几种短语类型的动词结构与名词结构的抽取方法:由于短语最后一个单词均为名词的核心词,因此,可以将除了最后一个单词以外的部分都看作动词结构的部分,例如P1中,动词结构为单个单词“stage”,P2中,动词结构为一个不及物动词连接介词的结构“call for”,P3中,动词结构为一个动词不定式结构“tovoice”。
S12:利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,并获取与每个动词结构及名词结构组成对应paraphrase对的具有相同词性的转述词。
其中数据集可以为预先获取的,该数据集中包含有数量非常多的paraphrase对,由此通过该数据集中可以确定与每个动词结构或名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,质量分数越高表明paraphrase对中包含的两个词结构越可以互换,以及互相作为彼此的转述词时转述效果越好,对应的动词结构或名词结构组成的paraphrase对中另一词结构即为该动词结构或名词结构的转述词(paraphrase)。也即本申请是利用paraphrase基于双语映射学习到的同义转述单词、短语和句法结构进行事件短语的扩展学习,具体来说paraphrase是通过单词、短语等结构在双语之间进行映射,继而学习到原有单词、短语的转述表达形式的方法。paraphrase的定义是指某一语言上两个不同的单词(word)、短语(phrase)或模式(pattern)在另一语言中有相同的翻译结果,则认为这两个单词、短语或模式是一对paraphrase。paraphrase可以看做是描述某一实体、特征、事件等的一种备选方案,可以是词汇级的、短语级的、句法级的,其中词汇级的paraphrase通常表示两个相似相近或是可以相互替换的单词,而短语级和句法级别的paraphrase除了是同义转述以外,还蕴含了许多句法结构信息。2013年paraphrase Database 1.0(PPDB 1.0)数据集被发布,该数据集包含了2.2亿paraphrase对,其中包括800万词汇级paraphrase对、7300万短语级paraphrase对和1.4亿的模式级paraphrase对。其后,在PPDB1.0数据集基础上通过改进原有的打分模型的排序算法、增加了蕴含关系识别模块以及单词的word embedding相似度计算方法和完善了类别标注模型,于2015年发布了升级版的PPDB2.0数据集。本申请公开的上述技术方案的数据集可以为选取PPDB系列,首先可以组建如表1所示的字典数据结构:
表1 paraphrase存放数据结构示例
Figure GDA0001369744830000061
其中,Key为待扩展的原始结构(即由事件短语中提取出的动词结构或名词结构),Value为一个列表,其每一项由三部分组成:原始结构的一个候选paraphrase、候选paraphrase词性标注(part-of-speech tags,Pos tags)、与原始结构的相似度分值(即质量分数)。词性标注的作用是为了区别结构的词性,很多结构同时具有多种词性,当要抽取一个结构的paraphrase时,要根据原始结构的词性作为依据,也即需要选取与原始结构的词性相同的paraphrase;相似度分值的作用,是为了过滤掉一些质量不太高的paraphrase,对于相似度分值较低的paraphrase,其质量往往较差。
具体来说,针对动词结构组成的列表中的每一个动词结构抽取其paraphrase列表,特别的,抽取时,必须保证其词性标注(Pos_tag)为动词结构,才进行抽取;抽取结果示例如表2:
表2 动词结构paraphrase抽取示例
Figure GDA0001369744830000071
由于篇幅限制,这里仅展示每个动词结构相似度分值最高的3个paraphrase,在实际操作中,有些词结构可以有几十个paraphrase,而有些词,仅有一两个,同时也存在一些动词结构,没有学习得到paraphrase。
针对名词结构组成的列表中的每一个名词结构抽取其paraphrase列表,特别的,抽取时,必须保证其词性标注(Pos_tag)为名词结构,才进行抽取;抽取结果示例如表3:
表3 名词结构paraphrase抽取示例
Figure GDA0001369744830000081
表3为每个示例名词结构列出了相似度分值最高的3个paraphrase。
S13:确定质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。
其中分数阈值可以根据实际需要进行设定,质量分数大于分数阈值则说明对应的paraphrase对质量较好,其中包含的结构互相之间可以作为替换词,否则,则说明对应的paraphrase对质量相对较低,实验中不选取其中包含的结构作为替换词。具体来说,如表2所示,即使是相似度分值较高的词,抽取出的paraphrase也会混杂一些噪声,例如“oppose”的第二个paraphrase为“am”,这时候就需要用上其质量分数过滤掉这样的paraphrase。当然还可以根据实际需要进行其他设置,如对于任一名词结构或动词结构,选取其对应质量分数最大的预设数量个(如15个,如果对应的转述词不足预设数量个则全部保留)转述词作为替换词等,均在本发明的保护范围之内。获取替换词后,可以将动词结构、名词结构及对应替换词组成新的短语,即扩展短语,从而泛化出更多具有相似含义的同类事件短语,并将得到的这些扩展短语及事件短语同时用于H&R方法的事件识别任务,完成对应的测评。
本申请公开的技术方案中,获取自举方法中学习到的事件短语并由中提取到名词结构及动词结构,通过paraphrase双语语义映射确定出与每个名词结构及动词结构对应的替换词,从而通过动词结构、名词结构及对应的替换词泛化出更多的同类事件短语,即扩展短语,并将得到的扩展短语及事件短语用于事件短语学习中,通过这种方法不仅扩展事件短语原有的语义,还通过包含句法结构的短语一定程度上实现了事件短语结构上的扩展,从而有效解决了现有技术中由于严格的句法结构限制导致无法学习到很多特定事件的事件短语的问题,且实验表明,本申请公开的上述技术方案可以有效的学习到新的事件短语,即扩展短语,在事件识别性能上得到了显著的提升。
以下对如何获取包含有多个paraphrase对的数据集以及各paraphrase对的质量分数进行具体说明:
paraphrase对基于双语平行语料抽取得到,在PPDB中,采用了一个加权的同步上下文无关语法(Synchronous Context-Free Grammar,SCFG),同时采用非终结符标签语法。一条SCFG规则的形式如下:
Figure GDA0001369744830000091
该式中,规则的左端C是一个非终结符,规则的右端的f和e是终结符与非终结符中间的两个字符串,~代表f与e之间一对一的对应关系,
Figure GDA0001369744830000092
是一个特征函数向量,每一个规则r都配有一个
Figure GDA0001369744830000093
其中结合了一个包含权重的对数线性模型,用来计算采用规则r的代价,计算公式如下:
Figure GDA0001369744830000094
为了抽取paraphrase的句法语法规则,首先通过句法机器翻译系统在双语平行文本上抽取英文(e)到另一语言(f)的翻译规则,若两条翻译规则中具有相同的C和f,如下式:
Figure GDA0001369744830000095
Figure GDA0001369744830000096
则可以根据此两条规则抽取出一条paraphrase的规则rp,如下:
Figure GDA0001369744830000101
该式中,两个英文字符串e1和e2在另一语言中具有相同的翻译f。整个抽取的思想可以用图5展示的例子来说明:
图5中,“held”(e1)与“staged”(e2)在中文端具有相同的翻译“举行”(f),则可以抽取出一对paraphrase,“held”和“staged”。
针对每一对e1与e2,可以计算其映射概率p(e2|e1),该条件概率等于e1与e2在另一语言上共享的全部的翻译f的集合的条件概率乘积之和,即下式所示:
Figure GDA0001369744830000102
由上述原理可知,在抽取paraphrase转译短语对时,运用了大量的语言学和句法结构信息作为特征,抽取出的短语级的、句法级的paraphrase对中包含了丰富的结构信息,因此,采用paraphrase扩展事件短语,不单单可以进行一个单词的同义替换,还可以进行短语中部分结构的同义转换,从而获得语义更加丰富的短语和结构更多样化的短语。
完成paraphrase抽取工作以后,就可以得到规模庞大的paraphrase对,然而,并非每一个转译词对的质量都很高,因此,还需要对抽取得到的paraphrase对进行打分。受到具有相似含义的短语在文本中往往具有相似的上下文这一灵感的启发,可以采用短语在单语语料中的分布相似度来对抽取出的paraphrase对进行重排序。
为了描述一个短语e在单语语料中上下文的分布特征,为e在语料中的每一次出现情况统计了一个基于上下文特征的集合,用上下文向量
Figure GDA0001369744830000103
表示e的第i次出现,接着收集e的全部出现情况,合成一个总的分布特征向量
Figure GDA0001369744830000104
可以计算一对paraphrase(e和e′)的质量通过计算这两个短语的分布特征向量的余弦相似度得到对应的质量分数:
Figure GDA0001369744830000105
大量的特征可以用作表示一个短语在文本中的分布特性,包括很多语言学特征,例如依存关系、句法结构组成、词性标注或词干信息等。实验中使用的特征具体表现形式例如:动词的主语是什么?有哪些形容词修饰该短语?或者仅采用简化的n-gram模型,这个单词的左边一个或几个单词是什么,右边一个或几个单词是什么?
在PPDB中,为n-gram语料中最高频的2亿多短语计算了一个基于n-gram的上下文特征,在语言学约束上,采用了蕴含丰富语言学特征的标注过的Gigaword语料作为数据集,实验中具体抽取的特征如下:
采用短语左右各一个词作为特征作为基于n-gram模型的特征;
位置感知词汇(Position-aware lexical)、基于词干(lemma-based)、词性标注、命名实体类一元和二元特征,创建一个三个词的窗口,包含当前词和当前词前一个词和后一个词;
短语的依存关系特征,对应的入度和出度的单词结点和词性标注等;
短语的句法结构组成特征,按照CCG风格标识短语成分标签。
下面分别用两张图展示paraphrase在语言学约束上抽取特征的方法。图6展示了n-gram特征抽取的一个例子:
如图6所示,模型记录了短语“the long-term”在语料中出现在单词“revise”后面43次,出现在单词“plans”前面97次,保留这些计数信息作为短语“thelong-term”的分布特征的一部分。
图7展示了一个语言学约束上的特征抽取示例,其中包括位置感知词汇、n-gram的词性标注特征,依存关系连接信息,和短语的CCG风格成分标签(NP/NN)。
本发明实施例提供的一种基于双语语义映射的事件短语学习方法,利用扩展短语实现事件短语学习之前,还可以包括:
确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。
通过paraphrase替换生成的扩展短语,并非就一定是一个合理的真实存在的短语搭配,因此需要进行语言学约束,只保留常用的短语搭配,过滤掉不符合语言学习惯的短语搭配。具体可以选取Gigaword第四版英文语料作为语料集,将在语料集中出现的频率小于频率阈值的扩展短语删除,从而进一步保证了事件识别准确性。其中频率阈值可以根据实际需要进行设定,对于任一扩展短语的出现频率的计算具体可以为该扩展短语在训练语料中出现的次数与训练语料中包含的全部短语出现的总次数之比。
本发明实施例提供的一种基于双语语义映射的事件短语学习方法,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,可以包括:
将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。
需要说明的是,实现扩展短语的重组的方法可以根据实际需要进行设置,此处以一个事件短语进行说明,如可以将该事件短语中包含的名词结构及该名词结构对应的替换词均称为名词,动词结构及该动词结构对应的替换词均称为动词,从而将每个名词与每个动词分别组成扩展短语;也可以将名词结构与动词结构的每个替换词分别组成扩展短语,将动词结构与名词结构的每个替换词分别组成扩展短语,当然还可以根据实际需要进行其他设定,均在本发明的保护范围之内。而通过实验证明,上述举例中的第二种,即将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语,得到的扩展短语包含噪声较小,有利于提升事件识别准确率。
本发明实施例提供的一种基于双语语义映射的事件短语学习方法,利用扩展短语实现事件短语学习之前,还包括:
将与事件短语相同的扩展短语删除。
如果组成的扩展短语成为已经存在的事件短语,则这样的扩展短语并不是新的词语,需要将其删除,从而避免了短语重复性,保证了本发明提供的上述技术方案的实施效率。
另外采用以下实验证明本申请公开的上述技术方案的良好性能:
本实验在PPDB 1.0和PPDB 2.0两个版本的数据集上作对比实验,进行本申请公开的上述基于paraphrase的方法扩展学习事件短语的实验。采用Gigaword英文第四版语料集作为语言学约束的语料集。实验中,针对paraphrase对质量分数阈值的选择,经调试集上评测设定为2.8。
实验结果测评采用H&R标注400篇文档作为测评数据集,其中300篇作为测试集,100篇作为调试集,整个测评系统使用准确率、召回率和F值作为评价指标。
首先,进行动词结构的替换扩展实验,采用提取到的动词结构列表作为要扩展的结构列表,分别在PPDB 1.0和PPDB 2.0数据集上进行其paraphrase结构的抽取,并针对扩展top1~10相近的结构获得的短语列表在测试集上进行事件识别任务的效果测评,其结果如表3所示:
表3 动词结构paraphrase替换扩展事件短语实验结果
Figure GDA0001369744830000131
由表3可以看出,在PPDB 1.0和PPDB 2.0数据集上,F值最好结果分别为81.0%和81.3%,再分析扩展top1~10短语的准确率和召回率可以发现,PPDB 1.0数据集上,F值的提升,依靠的是召回率的增长,同时损失了很大一部分准确率,因此随着扩展短语数量不断增多时取得最好的F值,而PPDB 2.0数据集上,F值的增长,依靠的是较高的准确率,而到后面,随着短语数量的增加,准确率降低,召回率不再继续提升,导致F值下降。造成这个结果的原因,分析是因为PPDB1.0和PPDB 2.0采用的对paraphrase打分策略和排序策略的调整,PPDB 2.0可以提供更精准质量更好的paraphrase。因此可以得出结论,若想从提升短语数量,提升召回率的角度出发,应该采用PPDB 1.0数据集进行短语的扩展,若想获得更高准确率的短语,则应该在PPDB 2.0数据集上进行扩展。
进行名词结构的替换扩展实验,采用提取得到的名词结构列表作为要扩展的结构列表,分别在PPDB 1.0和PPDB 2.0数据集上进行其paraphrase结构的抽取,并针对扩展top1~10相近的结构获得的短语列表在测试集上进行事件识别任务的效果测评,其结果如表4所示:
表4 名词结构paraphrase替换扩展事件短语实验结果
Figure GDA0001369744830000141
实验结果显示,采用PPDB 2.0扩展名词结构的结果总体都高于采用PPDB 1.0的扩展效果,F值的最好结果分别为80.6%和80.2%。在PPDB 2.0上具有更高的准确率,但是召回率的表现相对较差(仅74.3%),而PPDB 1.0扩展,依旧在召回率上比较突出(83.2%),然而随着短语数量的增加,其准确率的值降低的速度太快。因此,可以得到与扩展动词结构类似的结论。如果目标是获得更多的短语,则采用PPDB 1.0进行扩展,若想获得更高准确率的短语,则应当在PPDB 2.0上进行扩展学习。
通过用paraphrase替换原事件短语中的部分结构来扩展新的事件短语的方法,可以有效地获取很多新短语,通过对学习到的新短语进行分析发现,该方法提升事件识别召回率的同时,还通过结构的替换,短语的结构或形态发生了一些新的变化,有一些新的结构产生。通过分析归纳,我们将通过paraphrase扩展出的短语分为4种类型。
1.单个动词的同义转述
动词结构为单个动词的,通过该动词的paraphrase进行同义转述生成的短语。例如表5中“blocked”与“blockaded”的替换。
2.动词短语的同义转述
动词结构为多个单词的,通过动词组合的paraphrase进行同义转述生成的短语。例如表5中“participating in”与“take part in”的替换。
3.动词时态的变化
动词的原型、过去式、过去分词、现在进行时、动词不定式和被动式等形态的转变生成的短语。例如表5中“begun”与“are beginning”的替换。
4.非动宾结构短语的产生
少量的具有新型结构的短语产生,比如名词结构的短语。例如表5中“to pressfor reforms”的转述短语“requirements for reforms”就是一个名词结构的短语。
绝大多数通过paraphrase扩展的短语都属于以上四种类别,也有部分是它们的组合情况,更多的例子可以参考表5。
表5 基于paraphrase学习的新事件短语示例
Figure GDA0001369744830000151
本申请针对自举算法中的句法结构限制,提出了一种采用paraphrase扩展学习事件短语的方法,paraphrase利用上双语之间的互补信息,有效地获得了很多英文结构的同义转述表示,且实验结果证明,通过paraphrase进行事件短语的扩展学习,可以有效地提升事件识别任务的效果,分别在PPDB 1.0数据集上,可以显著提升事件识别的召回率(83.2%),在PPDB 2.0数据集上,则可以学习出较高质量的事件短语,在损失少量准确率的同时,提升了召回率,最终将F值提升到了81.3%。除以之外,由于短语级和句法级的paraphrase中蕴含了很多结构信息,因此,本方法还有效地学习出了具有新结构的事件短语,例如少量名词结构的事件短语,一定程度上缓解了自举算法中对短语结构所作的严格的限制。
本发明实施例公开的技术方案中与现有技术中对应技术方案原理一致的部分并未详细说明,以免过多赘述。
本发明实施例还提供了一种基于双语语义映射的事件短语学习装置,如图8所示,可以包括:
提取模块11,用于:获取学习到的动宾结构的事件短语,并提取出事件短语中包含的动词结构及名词结构;
分析模块12,用于:利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;
学习模块13,用于:确定质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。
本发明实施例提供的一种基于双语语义映射的事件短语学习装置,还可以包括:
约束模块,用于:利用扩展短语实现事件短语学习之前,确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。
本发明实施例提供的一种基于双语语义映射的事件短语学习装置,学习模块可以包括:
重组单元,用于:将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。
本发明实施例提供的一种基于双语语义映射的事件短语学习装置,还可以包括:
去重模块,用于:利用扩展短语实现事件短语学习之前,将与事件短语相同的扩展短语删除。
本发明实施例提供的一种基于双语语义映射的事件短语学习装置中相关部分的说明请参见本发明实施例提供的一种基于双语语义映射的事件短语学习方法中对应部分的详细说明,在此不再赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (2)

1.一种基于双语语义映射的事件短语学习方法,其特征在于,包括:
获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;
利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;
确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习;
利用所述扩展短语实现事件短语学习之前,还包括:
确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除;
将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,包括:
将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语;
利用所述扩展短语实现事件短语学习之前,还包括:
将与事件短语相同的扩展短语删除。
2.一种基于双语语义映射的事件短语学习装置,其特征在于,包括:
提取模块,用于:获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;
分析模块,paraphrase利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;学习模块,用于:确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习;
所述装置还包括:
约束模块,用于:利用所述扩展短语实现事件短语学习之前,确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除;
所述学习模块包括:
重组单元,用于:将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语;
所述装置还包括:
去重模块,用于:利用所述扩展短语实现事件短语学习之前,将与事件短语相同的扩展短语删除。
CN201710303450.1A 2017-05-02 2017-05-02 一种基于双语语义映射的事件短语学习方法及装置 Active CN107168950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710303450.1A CN107168950B (zh) 2017-05-02 2017-05-02 一种基于双语语义映射的事件短语学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710303450.1A CN107168950B (zh) 2017-05-02 2017-05-02 一种基于双语语义映射的事件短语学习方法及装置

Publications (2)

Publication Number Publication Date
CN107168950A CN107168950A (zh) 2017-09-15
CN107168950B true CN107168950B (zh) 2021-02-12

Family

ID=59812927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710303450.1A Active CN107168950B (zh) 2017-05-02 2017-05-02 一种基于双语语义映射的事件短语学习方法及装置

Country Status (1)

Country Link
CN (1) CN107168950B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325224B (zh) * 2018-08-06 2022-03-11 中国地质大学(武汉) 一种基于语义元语的词向量表征学习方法及系统
CN110895566A (zh) * 2018-08-23 2020-03-20 优估(上海)信息科技有限公司 一种车辆评估方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325513A (zh) * 1998-09-09 2001-12-05 发明机器公司 具有知识生成能力的文档语义分析/选择
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799579B (zh) * 2012-07-18 2015-01-21 西安理工大学 具有错误自诊断和自纠错功能的统计机器翻译方法
CN106021371A (zh) * 2016-05-11 2016-10-12 苏州大学 一种事件识别方法及系统
CN106055536B (zh) * 2016-05-19 2018-08-21 苏州大学 一种中文事件联合推理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325513A (zh) * 1998-09-09 2001-12-05 发明机器公司 具有知识生成能力的文档语义分析/选择
CN106502981A (zh) * 2016-10-09 2017-03-15 广西师范大学 基于词性、句法和词典的比喻修辞句自动分析与判定方法

Also Published As

Publication number Publication date
CN107168950A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
Karimi et al. Machine transliteration survey
US9460080B2 (en) Modifying a tokenizer based on pseudo data for natural language processing
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
Pettersson et al. A multilingual evaluation of three spelling normalisation methods for historical text
Hadni et al. Hybrid part-of-speech tagger for non-vocalized Arabic text
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Dien et al. POS-tagger for English-Vietnamese bilingual corpus
WO2008059111A2 (en) Natural language processing
Zeroual et al. Adapting a decision tree based tagger for Arabic
US8335681B2 (en) Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns
Ekbal et al. Named entity recognition and transliteration in Bengali
Scholivet et al. Identification of ambiguous multiword expressions using sequence models and lexical resources
Rasooli et al. Unsupervised morphology-based vocabulary expansion
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
Stepanov et al. Language style and domain adaptation for cross-language SLU porting
Chaudhary et al. The ariel-cmu systems for lorehlt18
Mrinalini et al. Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems
Jian et al. TANGO: Bilingual collocational concordancer
Wu et al. Parsing-based Chinese word segmentation integrating morphological and syntactic information
Liu et al. PENS: A machine-aided English writing system for Chinese users
Spasic et al. Unsupervised multi-word term recognition in Welsh
Saini et al. Relative clause based text simplification for improved english to hindi translation
Tukur et al. Parts-of-speech tagging of Hausa-based texts using hidden Markov model
Hasan et al. An online Punjabi Shahmukhi lexical resource

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221108

Address after: 18/F, Building A, Wuhan Optics Valley International Business Center, No. 111, Guanshan Avenue, Donghu New Technology Development Zone, Wuhan, Hubei 430070

Patentee after: Wuhan Ruidimu Network Technology Co.,Ltd.

Address before: 215123 No. 199 benevolence Road, Suzhou Industrial Park, Jiangsu, China

Patentee before: SOOCHOW University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221228

Address after: Room 1302, 13/F, Building B2, Future Science and Technology City, No. 999, Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, 430200, Hubei Province (Wuhan Area, Free Trade Zone)

Patentee after: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 18/F, Building A, Wuhan Optics Valley International Business Center, No. 111, Guanshan Avenue, Donghu New Technology Development Zone, Wuhan, Hubei 430070

Patentee before: Wuhan Ruidimu Network Technology Co.,Ltd.