CN108595408A - 一种基于端到端神经网络的指代消解方法 - Google Patents

一种基于端到端神经网络的指代消解方法 Download PDF

Info

Publication number
CN108595408A
CN108595408A CN201810215428.6A CN201810215428A CN108595408A CN 108595408 A CN108595408 A CN 108595408A CN 201810215428 A CN201810215428 A CN 201810215428A CN 108595408 A CN108595408 A CN 108595408A
Authority
CN
China
Prior art keywords
neural network
pronoun
method based
network
reference resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810215428.6A
Other languages
English (en)
Inventor
卓汉逵
刘恩乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201810215428.6A priority Critical patent/CN108595408A/zh
Publication of CN108595408A publication Critical patent/CN108595408A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于端到端神经网络的指代消解方法,该方法通过对知识库的抽取,解决了在代词消解问题中训练数据不足的问题,同时考虑了代词在句子中的结构信息,抽取出一系列特征用于训练深度神经网络,使得模型个具有代词消歧的能力。

Description

一种基于端到端神经网络的指代消解方法
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于端到端神经网络的的指代消解方法。
背景技术
深度学习(Deep Learning):深度学习是由Hinton等人于2006年提出,是机器学习的一个新领域。深度学习被引入机器学习使其更接近最初目标----人工智能。深度学习是学习样本数据的内在规律和表示层次。这些学习过程中获得的信息对图像、文字等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别图像、文字等数据。
循环神经网络(Recurrent Neural Networks,RNN):循环神经网络是Jordan,Pineda.Williams,Elman等神经网络专家于上世纪80年代末提出的一种神经网络结构模型。这种网络的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。从系统观点看,它是一个反馈动力系统,在计算过程中体现过程动态特性,比前馈神经网络具有更强的动态行为和计算能力。目前,循环神经网络已在机器翻译、语音识别、图像描述生成等领域广泛应用并获得极大成功。
Skip-Gram模型:Skip-Gram是一种自然语言模型,是用上下文来预测中心词,即输入是特定的一次词的词向量,而输出是特定词对应的上下文词向量。
在ACL2016举行的机器翻译的比赛中(WMT16 Shared Task),其中一项是跨语言代词预测任务,在翻译系统中,往往不能很好翻译代词,不同语言中,代词语法具有较大的差异,任务要求源一个句子中的目标语言代词。目前主要有两种方法,第一个是解决文本对应词语以及使用相关的句子信息来帮助预测代词,如提取句子的特征信息,用最大熵来预测。第二个方法更多的依赖于上下文信息,如用代词上下文的特征的支持向量机,基于上下文名词短语特征的朴素贝叶斯分类器,用神经网络方法来处理前面的名词短语特征。
威诺格拉德模式挑战赛(Winograd Schema Challenge)是图灵测试的一个变种,旨在判定AI系统的常识推理能力。参与挑战的计算机程序需要回答一种特殊但简易的常识问题,即代词消歧问题,可是此项任务并没有提供可训练的数据,所以有参赛者用了知识库的来提取特征表示,即用分布式词向量来解决代词消解问题。
发明内容
本发明提供一种基于端到端神经网络的的指代消解方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于端到端神经网络的的指代消解方法,包括以下步骤:
S1:基于知识库的词向量通过WikiPedia和CBTest这两个数据集训练得到,提取知识库不等式;
S2:建立skip-gram权重矩阵;该权重表达了基于知识库的分布式词向量网络的全部内容;
S3:训练深度神经网络,网络的输入为句子提取的特征映射的低维空间的向量。
步骤S1中,提取wikipedia数据,制定知识库抽取的不定式关系:
关系如下:
ConceptNet:
(w k∈V和wkis not linked with wh)
WordNet:
同义词反义词规则:同义词之间的相似性比反义词的相似性高;
语义种类规则:同种类的词的相似性比异种类的相似性高;
语义层次规则:层次越接近的词的相似性越高;
wk∈V and wk is not the effect of wi
步骤S2中,利用skip-gram模型对数据进行训练得到词向量,在训练过程中,把从知识库提取出的不等式规则作为联合优化,即将所有限制不等式作为一个目标函数的惩罚项。
步骤S3中,对ontonotes5、ParCor和DiscoMT2015.test数据集进行处理,提取候选词和代词。
步骤S4中,利用训练文本的所有单词之间的跨度来组合成不同的候选目标,通过模型得到端到端的候选簇类,用双向lstm来对候选词进行编码得到x,通过注意力机制a,级联编码g和注意力a,得到我们的跨度分布式表达g,再通过神经网络得到这个候选目标的分数S,以此方式,可以得到两个不同候选目标之间的分数S(i,j),计算候选词指代的分数时,将前面得到的候选目标中选取分数较高的两个,与代词的向量作为输入到前向神经网络得到两个候选目标S(i,j)的分数。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对知识库的抽取,解决了在代词消解问题中训练数据不足的问题,同时考虑了代词在句子中的结构信息,抽取出一系列特征用于训练深度神经网络,使得模型个具有代词消歧的能力。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于端到端神经网络的的指代消解方法,包括以下步骤:
S1:基于知识库的词向量通过WikiPedia和CBTest这两个数据集训练得到,提取知识库不等式;
S2:建立skip-gram权重矩阵;该权重表达了基于知识库的分布式词向量网络的全部内容;
S3:训练深度神经网络,网络的输入为句子提取的特征映射的低维空间的向量。
步骤S1中,提取wikipedia数据,制定知识库抽取的不定式关系:
关系如下:
ConceptNet:
(wk∈V和wk is not linked with wh)
WordNet:
同义词反义词规则:同义词之间的相似性比反义词的相似性高;
语义种类规则:同种类的词的相似性比异种类的相似性高;
语义层次规则:层次越接近的词的相似性越高;
wk∈V and wk is not the effect of wi
步骤S2中,利用skip-gram模型对数据进行训练得到词向量,在训练过程中,把从知识库提取出的不等式规则作为联合优化,即将所有限制不等式作为一个目标函数的惩罚项。
步骤S3中,对ontonotes5、ParCor和DiscoMT2015.test数据集进行处理,提取候选词和代词。
步骤S4中,利用训练文本的所有单词之间的跨度来组合成不同的候选目标,通过模型得到端到端的候选簇类,用双向lstm来对候选词进行编码得到x,通过注意力机制a,级联编码g和注意力a,得到我们的跨度分布式表达g,再通过神经网络得到这个候选目标的分数S,以此方式,可以得到两个不同候选目标之间的分数S(i,j),计算候选词指代的分数时,将前面得到的候选目标中选取分数较高的两个,与代词的向量作为输入到前向神经网络得到两个候选目标S(i,j)的分数。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (1)

1.一种基于端到端神经网络的指代消解方法,其特征在于,包括以下步骤:
S1:基于知识库的词向量通过WikiPedia和CBTest这两个数据集训练得到,提取知识库不等式;
S2:建立skip-gram权重矩阵;该权重表达了基于知识库的分布式词向量网络的全部内容;
S3:训练深度神经网络,网络的输入为句子提取的特征映射的低维空间的向量。
CN201810215428.6A 2018-03-15 2018-03-15 一种基于端到端神经网络的指代消解方法 Pending CN108595408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810215428.6A CN108595408A (zh) 2018-03-15 2018-03-15 一种基于端到端神经网络的指代消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810215428.6A CN108595408A (zh) 2018-03-15 2018-03-15 一种基于端到端神经网络的指代消解方法

Publications (1)

Publication Number Publication Date
CN108595408A true CN108595408A (zh) 2018-09-28

Family

ID=63626488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810215428.6A Pending CN108595408A (zh) 2018-03-15 2018-03-15 一种基于端到端神经网络的指代消解方法

Country Status (1)

Country Link
CN (1) CN108595408A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428490A (zh) * 2020-01-17 2020-07-17 北京理工大学 一种利用语言模型的指代消解弱监督学习方法
WO2020211720A1 (zh) * 2019-04-19 2020-10-22 腾讯科技(深圳)有限公司 数据处理方法和代词消解神经网络训练方法
CN113297843A (zh) * 2020-02-24 2021-08-24 华为技术有限公司 指代消解的方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105138864A (zh) * 2015-09-24 2015-12-09 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN107463553A (zh) * 2017-09-12 2017-12-12 复旦大学 针对初等数学题目的文本语义抽取、表示与建模方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068661A (zh) * 2015-09-07 2015-11-18 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105138864A (zh) * 2015-09-24 2015-12-09 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN107463553A (zh) * 2017-09-12 2017-12-12 复旦大学 针对初等数学题目的文本语义抽取、表示与建模方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QUAN LIU等: "Commonsense Knowledge Enhanced Embeddings for Solving PronounDisambiguation Problems in Winograd Schema Challenge", 《HTTPS://ARXIV.ORG/PDF/1611.04146.PDF》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020211720A1 (zh) * 2019-04-19 2020-10-22 腾讯科技(深圳)有限公司 数据处理方法和代词消解神经网络训练方法
US11983493B2 (en) 2019-04-19 2024-05-14 Tencent Technology (Shenzhen) Company Limited Data processing method and pronoun resolution neural network training method
CN111428490A (zh) * 2020-01-17 2020-07-17 北京理工大学 一种利用语言模型的指代消解弱监督学习方法
CN111428490B (zh) * 2020-01-17 2021-05-18 北京理工大学 一种利用语言模型的指代消解弱监督学习方法
CN113297843A (zh) * 2020-02-24 2021-08-24 华为技术有限公司 指代消解的方法、装置及电子设备
WO2021169351A1 (zh) * 2020-02-24 2021-09-02 华为技术有限公司 指代消解的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Warstadt et al. Learning which features matter: RoBERTa acquires a preference for linguistic generalizations (eventually)
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
Dos Santos et al. Deep convolutional neural networks for sentiment analysis of short texts
Lopez-Gazpio et al. Word n-gram attention models for sentence similarity and inference
CN111597830A (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN112800234B (zh) 信息处理方法、装置、电子设备和存储介质
CN109145292B (zh) 释义文本深度匹配模型构建方法与释义文本深度匹配方法
Zou et al. Adversarial feature adaptation for cross-lingual relation classification
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
Svoboda et al. New word analogy corpus for exploring embeddings of Czech words
Jain et al. Fuzzy Hindi WordNet and word sense disambiguation using fuzzy graph connectivity measures
CN112765355A (zh) 基于改进的量子行为粒子群优化算法的文本对抗攻击方法
CN108595408A (zh) 一种基于端到端神经网络的指代消解方法
Du et al. Aspect-specific sentimental word embedding for sentiment analysis of online reviews
Huang et al. Multi-task sentence encoding model for semantic retrieval in question answering systems
Orhan et al. A novel embedding approach to learn word vectors by weighting semantic relations: SemSpace
Ait-Saada et al. How to leverage a multi-layered transformer language model for text clustering: an ensemble approach
Shahmohammadi et al. Language with vision: a study on grounded word and sentence embeddings
CN111552816B (zh) 面向大数据文本挖掘的动态认知语义匹配方法
Yang et al. A study on word vector models for representing Korean semantic information
Wang [Retracted] The Performance of Artificial Intelligence Translation App in Japanese Language Education Guided by Deep Learning
Yang et al. Deepening hidden representations from pre-trained language models
Alharahseheh et al. A survey on textual entailment: Benchmarks, approaches and applications
Lu et al. ECNU at SemEval-2018 task 2: leverage traditional NLP features and neural networks methods to address twitter emoji prediction task
Sangani et al. Comparing deep sentiment models using quantified local explanations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928