CN108595408A - 一种基于端到端神经网络的指代消解方法 - Google Patents
一种基于端到端神经网络的指代消解方法 Download PDFInfo
- Publication number
- CN108595408A CN108595408A CN201810215428.6A CN201810215428A CN108595408A CN 108595408 A CN108595408 A CN 108595408A CN 201810215428 A CN201810215428 A CN 201810215428A CN 108595408 A CN108595408 A CN 108595408A
- Authority
- CN
- China
- Prior art keywords
- neural network
- pronoun
- method based
- network
- reference resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于端到端神经网络的指代消解方法,该方法通过对知识库的抽取,解决了在代词消解问题中训练数据不足的问题,同时考虑了代词在句子中的结构信息,抽取出一系列特征用于训练深度神经网络,使得模型个具有代词消歧的能力。
Description
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于端到端神经网络的的指代消解方法。
背景技术
深度学习(Deep Learning):深度学习是由Hinton等人于2006年提出,是机器学习的一个新领域。深度学习被引入机器学习使其更接近最初目标----人工智能。深度学习是学习样本数据的内在规律和表示层次。这些学习过程中获得的信息对图像、文字等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别图像、文字等数据。
循环神经网络(Recurrent Neural Networks,RNN):循环神经网络是Jordan,Pineda.Williams,Elman等神经网络专家于上世纪80年代末提出的一种神经网络结构模型。这种网络的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。从系统观点看,它是一个反馈动力系统,在计算过程中体现过程动态特性,比前馈神经网络具有更强的动态行为和计算能力。目前,循环神经网络已在机器翻译、语音识别、图像描述生成等领域广泛应用并获得极大成功。
Skip-Gram模型:Skip-Gram是一种自然语言模型,是用上下文来预测中心词,即输入是特定的一次词的词向量,而输出是特定词对应的上下文词向量。
在ACL2016举行的机器翻译的比赛中(WMT16 Shared Task),其中一项是跨语言代词预测任务,在翻译系统中,往往不能很好翻译代词,不同语言中,代词语法具有较大的差异,任务要求源一个句子中的目标语言代词。目前主要有两种方法,第一个是解决文本对应词语以及使用相关的句子信息来帮助预测代词,如提取句子的特征信息,用最大熵来预测。第二个方法更多的依赖于上下文信息,如用代词上下文的特征的支持向量机,基于上下文名词短语特征的朴素贝叶斯分类器,用神经网络方法来处理前面的名词短语特征。
威诺格拉德模式挑战赛(Winograd Schema Challenge)是图灵测试的一个变种,旨在判定AI系统的常识推理能力。参与挑战的计算机程序需要回答一种特殊但简易的常识问题,即代词消歧问题,可是此项任务并没有提供可训练的数据,所以有参赛者用了知识库的来提取特征表示,即用分布式词向量来解决代词消解问题。
发明内容
本发明提供一种基于端到端神经网络的的指代消解方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于端到端神经网络的的指代消解方法,包括以下步骤:
S1:基于知识库的词向量通过WikiPedia和CBTest这两个数据集训练得到,提取知识库不等式;
S2:建立skip-gram权重矩阵;该权重表达了基于知识库的分布式词向量网络的全部内容;
S3:训练深度神经网络,网络的输入为句子提取的特征映射的低维空间的向量。
步骤S1中,提取wikipedia数据,制定知识库抽取的不定式关系:
关系如下:
ConceptNet:
(w k∈V和wkis not linked with wh)
WordNet:
同义词反义词规则:同义词之间的相似性比反义词的相似性高;
语义种类规则:同种类的词的相似性比异种类的相似性高;
语义层次规则:层次越接近的词的相似性越高;
wk∈V and wk is not the effect of wi。
步骤S2中,利用skip-gram模型对数据进行训练得到词向量,在训练过程中,把从知识库提取出的不等式规则作为联合优化,即将所有限制不等式作为一个目标函数的惩罚项。
步骤S3中,对ontonotes5、ParCor和DiscoMT2015.test数据集进行处理,提取候选词和代词。
步骤S4中,利用训练文本的所有单词之间的跨度来组合成不同的候选目标,通过模型得到端到端的候选簇类,用双向lstm来对候选词进行编码得到x,通过注意力机制a,级联编码g和注意力a,得到我们的跨度分布式表达g,再通过神经网络得到这个候选目标的分数S,以此方式,可以得到两个不同候选目标之间的分数S(i,j),计算候选词指代的分数时,将前面得到的候选目标中选取分数较高的两个,与代词的向量作为输入到前向神经网络得到两个候选目标S(i,j)的分数。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过对知识库的抽取,解决了在代词消解问题中训练数据不足的问题,同时考虑了代词在句子中的结构信息,抽取出一系列特征用于训练深度神经网络,使得模型个具有代词消歧的能力。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于端到端神经网络的的指代消解方法,包括以下步骤:
S1:基于知识库的词向量通过WikiPedia和CBTest这两个数据集训练得到,提取知识库不等式;
S2:建立skip-gram权重矩阵;该权重表达了基于知识库的分布式词向量网络的全部内容;
S3:训练深度神经网络,网络的输入为句子提取的特征映射的低维空间的向量。
步骤S1中,提取wikipedia数据,制定知识库抽取的不定式关系:
关系如下:
ConceptNet:
(wk∈V和wk is not linked with wh)
WordNet:
同义词反义词规则:同义词之间的相似性比反义词的相似性高;
语义种类规则:同种类的词的相似性比异种类的相似性高;
语义层次规则:层次越接近的词的相似性越高;
wk∈V and wk is not the effect of wi。
步骤S2中,利用skip-gram模型对数据进行训练得到词向量,在训练过程中,把从知识库提取出的不等式规则作为联合优化,即将所有限制不等式作为一个目标函数的惩罚项。
步骤S3中,对ontonotes5、ParCor和DiscoMT2015.test数据集进行处理,提取候选词和代词。
步骤S4中,利用训练文本的所有单词之间的跨度来组合成不同的候选目标,通过模型得到端到端的候选簇类,用双向lstm来对候选词进行编码得到x,通过注意力机制a,级联编码g和注意力a,得到我们的跨度分布式表达g,再通过神经网络得到这个候选目标的分数S,以此方式,可以得到两个不同候选目标之间的分数S(i,j),计算候选词指代的分数时,将前面得到的候选目标中选取分数较高的两个,与代词的向量作为输入到前向神经网络得到两个候选目标S(i,j)的分数。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种基于端到端神经网络的指代消解方法,其特征在于,包括以下步骤:
S1:基于知识库的词向量通过WikiPedia和CBTest这两个数据集训练得到,提取知识库不等式;
S2:建立skip-gram权重矩阵;该权重表达了基于知识库的分布式词向量网络的全部内容;
S3:训练深度神经网络,网络的输入为句子提取的特征映射的低维空间的向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810215428.6A CN108595408A (zh) | 2018-03-15 | 2018-03-15 | 一种基于端到端神经网络的指代消解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810215428.6A CN108595408A (zh) | 2018-03-15 | 2018-03-15 | 一种基于端到端神经网络的指代消解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108595408A true CN108595408A (zh) | 2018-09-28 |
Family
ID=63626488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810215428.6A Pending CN108595408A (zh) | 2018-03-15 | 2018-03-15 | 一种基于端到端神经网络的指代消解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595408A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428490A (zh) * | 2020-01-17 | 2020-07-17 | 北京理工大学 | 一种利用语言模型的指代消解弱监督学习方法 |
WO2020211720A1 (zh) * | 2019-04-19 | 2020-10-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
CN113297843A (zh) * | 2020-02-24 | 2021-08-24 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068661A (zh) * | 2015-09-07 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN105138864A (zh) * | 2015-09-24 | 2015-12-09 | 大连理工大学 | 基于生物医学文献的蛋白质交互关系数据库构建方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN107463553A (zh) * | 2017-09-12 | 2017-12-12 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 |
-
2018
- 2018-03-15 CN CN201810215428.6A patent/CN108595408A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068661A (zh) * | 2015-09-07 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN105138864A (zh) * | 2015-09-24 | 2015-12-09 | 大连理工大学 | 基于生物医学文献的蛋白质交互关系数据库构建方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN107463553A (zh) * | 2017-09-12 | 2017-12-12 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 |
Non-Patent Citations (1)
Title |
---|
QUAN LIU等: "Commonsense Knowledge Enhanced Embeddings for Solving PronounDisambiguation Problems in Winograd Schema Challenge", 《HTTPS://ARXIV.ORG/PDF/1611.04146.PDF》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211720A1 (zh) * | 2019-04-19 | 2020-10-22 | 腾讯科技(深圳)有限公司 | 数据处理方法和代词消解神经网络训练方法 |
US11983493B2 (en) | 2019-04-19 | 2024-05-14 | Tencent Technology (Shenzhen) Company Limited | Data processing method and pronoun resolution neural network training method |
CN111428490A (zh) * | 2020-01-17 | 2020-07-17 | 北京理工大学 | 一种利用语言模型的指代消解弱监督学习方法 |
CN111428490B (zh) * | 2020-01-17 | 2021-05-18 | 北京理工大学 | 一种利用语言模型的指代消解弱监督学习方法 |
CN113297843A (zh) * | 2020-02-24 | 2021-08-24 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
WO2021169351A1 (zh) * | 2020-02-24 | 2021-09-02 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Warstadt et al. | Learning which features matter: RoBERTa acquires a preference for linguistic generalizations (eventually) | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
Dos Santos et al. | Deep convolutional neural networks for sentiment analysis of short texts | |
Lopez-Gazpio et al. | Word n-gram attention models for sentence similarity and inference | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN112800234B (zh) | 信息处理方法、装置、电子设备和存储介质 | |
CN109145292B (zh) | 释义文本深度匹配模型构建方法与释义文本深度匹配方法 | |
Zou et al. | Adversarial feature adaptation for cross-lingual relation classification | |
CN110889282B (zh) | 一种基于深度学习的文本情感分析方法 | |
Svoboda et al. | New word analogy corpus for exploring embeddings of Czech words | |
Jain et al. | Fuzzy Hindi WordNet and word sense disambiguation using fuzzy graph connectivity measures | |
CN112765355A (zh) | 基于改进的量子行为粒子群优化算法的文本对抗攻击方法 | |
CN108595408A (zh) | 一种基于端到端神经网络的指代消解方法 | |
Du et al. | Aspect-specific sentimental word embedding for sentiment analysis of online reviews | |
Huang et al. | Multi-task sentence encoding model for semantic retrieval in question answering systems | |
Orhan et al. | A novel embedding approach to learn word vectors by weighting semantic relations: SemSpace | |
Ait-Saada et al. | How to leverage a multi-layered transformer language model for text clustering: an ensemble approach | |
Shahmohammadi et al. | Language with vision: a study on grounded word and sentence embeddings | |
CN111552816B (zh) | 面向大数据文本挖掘的动态认知语义匹配方法 | |
Yang et al. | A study on word vector models for representing Korean semantic information | |
Wang | [Retracted] The Performance of Artificial Intelligence Translation App in Japanese Language Education Guided by Deep Learning | |
Yang et al. | Deepening hidden representations from pre-trained language models | |
Alharahseheh et al. | A survey on textual entailment: Benchmarks, approaches and applications | |
Lu et al. | ECNU at SemEval-2018 task 2: leverage traditional NLP features and neural networks methods to address twitter emoji prediction task | |
Sangani et al. | Comparing deep sentiment models using quantified local explanations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |