CN110287333A - 一种基于知识库进行释义生成的方法及系统 - Google Patents
一种基于知识库进行释义生成的方法及系统 Download PDFInfo
- Publication number
- CN110287333A CN110287333A CN201910507994.9A CN201910507994A CN110287333A CN 110287333 A CN110287333 A CN 110287333A CN 201910507994 A CN201910507994 A CN 201910507994A CN 110287333 A CN110287333 A CN 110287333A
- Authority
- CN
- China
- Prior art keywords
- paraphrase
- word
- model
- knowledge
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 108
- 238000012549 training Methods 0.000 claims abstract description 66
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 5
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 125000004122 cyclic group Chemical group 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 230000000692 anti-sense effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于知识库进行释义生成的方法及系统,包括:获得训练数据集,该训练数据集中包括训练词语和训练词语对应的释义,以及知识库中的知识信息;基于训练数据集,构建用于为待释义词生成释义的释义模型,并对释义模型进行训练;通过训练好的释义模型,基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示,生成待释义词的释义。本发明中的释义模型包含自适应自注意力机制,在生成释义中的每个词时,通过自适应自注意力机制可对知识库中的知识信息进行选择,并判断是否将知识信息应用于当前词的生成。具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为词语准确生成释义的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是指一种基于知识库进行释义生成的方法及系统。
背景技术
释义生成任务可以为给定的词语生成其自然语言释义,在词典编纂、对外汉语教学等方面具有重大的理论价值和实践意义。由于释义生成任务要求对给定的词语生成一句自然语言释义,且给定的词语可能具有多个义项,使得该任务变得尤为困难。现有的释义生成技术一般基于深度学习,使用词语的分布式向量表示作为输入,并使用循环神经网络(RNN)或卷积神经网络(CNN)对生成过程进行建模。由于词语的分布式向量表示可以捕捉到部分语法和语义信息,使用现有方法的确可以做到生成词语的释义,但现有方法仍有许多不足之处。
首先,目前而言,词向量仍然无法完全满足释义生成任务的需求。例如,由于成对的反义词在语料库中出现的位置相似,与反义的两个词共现的词语也基本相似,因此,成对的反义词的词向量十分接近。这就造成了在释义生成任务中,难以对反义词生成准确的释义。
其次,现有技术所使用的模型结构一般比较简单,一般在循环神经网络或卷积神经网络的基础上构建。由于模型仅使用词语的向量表示作为输入,模型中一般无法使用注意力机制。而对于近年来在机器翻译等领域表现良好的自注意力模型,也未见在释义生成任务上有所应用。
最后,现有技术无法对多义词生成准确释义。对每个词语,现有技术仅接收一个词向量作为输入,因而无法准确生成对应各个义项的释义。
发明内容
本发明要解决的技术问题是提供一种基于知识库进行释义生成的方法及装置,在以词向量作为输入的基础上,加入知识库中的知识信息进行补充,实现为待释义词生成准确的释义,提升释义生成效果。
为解决上述技术问题,本发明提供一种基于知识库进行释义生成的方法,所述基于知识库进行释义生成的方法包括:
获得训练数据集,所述训练数据集中包括训练词语和所述训练词语对应的释义,以及知识库中的知识信息;
基于所述训练数据集,构建用于为待释义词生成释义的释义模型,并对所述释义模型进行训练;
通过训练好的释义模型,基于待释义词的分布式向量表示和所述知识库中与所述待释义词相关的知识信息的分布式向量表示,生成所述待释义词的释义。
优选地,所述释义模型配置为基于循环神经网络或自注意力网络的编码器-解码器模型。
优选地,所述释义模型包括自适应自注意力机制,在通过所述释义模型生成释义时,所述自适应自注意力机制对所述知识库中的知识信息进行选择,并判断是否将所述知识信息应用于当前释义的生成。
进一步地,在对释义模型进行训练时,释义模型以训练数据集中的训练词语和知识信息的分布式向量表示作为输入,并迭代地生成释义中的每个词。
进一步地,通过所述释义模型生成待释义词的释义的过程,包括:
接收待释义词x,并获取所述知识库中与待释义词x相关的知识信息s=[s1,…,sn],其中sn为第n条知识信息;
使用词嵌入层,获得待释义词x的分布式向量表示X,及与待释义词x相关的每条知识信息的分布式向量表示S=[S1,…,SN],其中SN为第n条知识信息sn对应的分布式向量表示;
使用编码器,对待释义词x的分布式向量表示X和知识信息的分布式向量表示S进行编码,编码结果为隐状态序列h;
使用解码器构建语言模型,基于所述语言模型利用所述隐状态序列h,迭代地生成释义中的每个词。
优选地,所述编码器被配置为双向长短期记忆网络或多头自注意力网络。
进一步地,所述语言模型迭代地生成释义中的每个词的过程,包括:
接收上一时刻输出的词yt-1,将词yt-1的分布式向量表示Yt-1作为当前时刻的输入;
获得当前语言模型的输出向量ot,将输出向量ot作为语言模型向量;
使用自适应自注意力机制对所述隐状态序列h进行筛选,并将筛选后所获得的向量作为知识信息向量;
使用自适应自注意力机制对所述知识信息向量和语言模型向量进行整合,获得上下文向量ct;
依据所述Yt-1,上一时刻的隐状态输出zt-1和所述上下文向量ct,获得当前时刻的隐状态zt;
利用所述隐状态zt,计算当前所预测词在词表范围内的概率分布,并取概率最大的词作为当前时刻的输出。
优选地,所述知识库为知网常识知识库。
优选地,所述知识库中的知识信息为知网常识知识库中的义原信息。
相应地,为解决上述技术问题,本发明还提供一种基于知识库进行释义生成的系统,所述基于知识库进行释义生成的系统包括:
训练数据集获取模块,用于获得训练数据集,所述训练数据集中包括训练词语和所述训练词语对应的释义,以及知识库中的知识信息;
释义模型构建及训练模块,用于基于所述训练数据集,构建用于为待释义词生成释义的释义模型,并对所述释义模型进行训练;
释义生成模块,用于通过训练好的释义模型,基于待释义词的分布式向量表示和所述知识库中与所述待释义词相关的知识信息的分布式向量表示,生成所述待释义词的释义。
本发明的上述技术方案的有益效果如下:
本发明通过获得训练数据集,训练数据集中包括训练词语和所述训练词语对应的释义,以及知识库中的知识信息;基于训练数据集,构建用于为待释义词生成释义的释义模型,并对释义模型进行训练;通过训练好的释义模型,基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示,生成待释义词的释义。在以词向量作为输入的基础上,加入知识库中的知识信息进行补充,提升了释义生成的准确性;并且本发明的释义模型包含自适应自注意力机制,在生成释义中的每个词时,可通过自适应自注意力机制对知识库中的知识信息进行选择,并判断是否将知识信息应用于当前词的生成,提升了释义生成效果。具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为待释义词准确生成释义的问题。
附图说明
图1为本发明的基于知识库进行释义生成的方法及系统的原理示意图;
图2为本发明第一实施例提供的基于知识库进行释义生成的方法的流程示意图;
图3为本发明第二实施例提供的基于知识库进行释义生成的系统的框图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
第一实施例
请参阅图1和图2,本实施例针对现有的释义生成方法生成释义不够准确的问题,提供一种基于知识库进行释义生成的方法,该方法包括:
S101,获得训练数据集;
需要说明的是,上述步骤中的训练数据集中包括训练词语和训练词语对应的释义,以及知识库中的知识信息;其中,知识库可以选用知网(HowNet)常识知识库,知网是一个以概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
相应地,知识库中的知识信息可选用知网常识知识库中的义原信息。义原(Sememe)是知网用来描述概念意义的基本单位,是最基本的、不易于再分割的最小的意义单元。本实施例将义原同待释义词一起输入释义模型中,作为词语的分布式向量表示的补充。
S102,基于训练数据集,构建用于为待释义词生成释义的释义模型,并对释义模型进行训练;
S103,通过训练好的释义模型,基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示,生成待释义词的释义。
需要说明的是,在本实施例中,上述释义模型被配置为基于循环神经网络(RNN)或自注意力(Self-Attention)网络的编码器-解码器模型。
而且在本实施例中,上述释义模型包括自适应自注意力机制,在通过释义模型生成释义时,自适应自注意力机制对知识库中的知识信息进行选择,并判断是否将知识信息应用于当前释义的生成。在对释义模型进行训练时,释义模型以训练数据集中的训练词语和知识信息的分布式向量表示作为输入,并迭代地生成释义中的每个词。
具体地,通过上述释义模型生成待释义词的释义的过程,包括:
接收待释义词x,并获取知识库中与待释义词x相关的知识信息s=[s1,…,sn],其中sn为第n条知识信息;
使用词嵌入层,获得待释义词x的分布式向量表示X,及与待释义词x相关的每条知识信息的分布式向量表示S=[S1,…,SN],其中SN为第n条知识信息sn对应的分布式向量表示;
使用编码器,对待释义词x的分布式向量表示X和知识信息的分布式向量表示S进行编码,编码结果为隐状态序列h;该隐状态序列h根据编码器所使用模型的不同,长度为N或N+1,即h=[h1,…,hN]或h=[h0,h1,…,hN]。
使用解码器构建语言模型,基于语言模型利用隐状态序列h,迭代地生成释义中的每个词;该语言模型可以通过释义中的前t-1个词,预测第t个词。
此外,上述编码器可以被配置为双向长短期记忆(Bidirectional LSTM)网络或多头自注意力(Multi-Head Self-Attention)网络;
当编码器被配置为双向长短期记忆网络时,该编码器接收的输入向量v可以通过以下方式获得:
vn=[x;sn],
其中,x是待释义词的向量表示,sn是第n个义原的向量表示,所述[a;b]表示将向量a和向量b拼接;
接着,编码器使用双向循环神经网络对vn进行编码;双向循环神经网络由前向和后向两个循环神经网络组成,编码过程可以用以下公式表示:
其中,f为长短期记忆循环函数,为时刻n的前向隐状态,为时刻n的后向隐状态。
这样,编码器就将原始的输入序列,编码成了长度为N的隐状态序列h=[h1,…,hN]。隐状态hn包含待释义词和第n个义原的语义信息。
当编码器被配置为多头自注意力网络时,该编码器接收的输入向量v可以通过以下方式获得:
其中,所述x是待释义词的向量表示,所述sn是第n个义原的向量表示,所述pn为位置向量,在训练中随机初始化,可以在训练阶段学习获得。
在获取到所述输入向量后,编码器使用多头自注意力机制进行编码,编码过程可用如下公式表示:
h=Multihead(Q,K,V),
Multihead(Q,K,V)=Concat(head1,…,headh)WO,
其中,Q=K=V=v,参数矩阵 dk为K的维数,dv为V的维数,dmodel为模型所使用的词向量维数,h为多头自注意力机制的头数,且dk=dv=dmodel/h。
这样,编码器就将原始的输入序列,编码成了长度为N+1的隐状态序列h=[h0,h1,…,hN]。隐状态hn包含待释义词和第n个义原的语义信息。
进一步地,上述语言模型迭代地生成释义中的每个词的过程,包括:
接收上一时刻输出的词yt-1,将词yt-1的分布式向量表示Yt-1作为当前时刻的输入;
获得当前语言模型的输出向量ot,将输出向量ot作为语言模型向量;
使用自适应自注意力机制对隐状态序列h进行筛选,并将筛选后所获得的向量作为知识信息向量;
使用自适应自注意力机制对知识信息向量和语言模型向量进行整合,获得上下文向量ct;
依据Yt-1,上一时刻的隐状态输出zt-1和上下文向量ct,获得当前时刻的隐状态zt;
利用隐状态zt,计算当前所预测词在词表范围内的概率分布,并取概率最大的词作为当前时刻的输出。
需要说明的是,当解码器被配置为带自适应注意力机制的长短期记忆网络时,在时刻t,上述获得当前语言模型的输出向量ot,将输出向量ot作为语言模型向量,指的是通过以下公式进行运算:
ot=gt⊙tanh(zt-1),
gt=σ(Wg[yt-1;zt-1]+bg),
其中,yt-1为t-1时刻解码器输出的词语的向量。
上述使用自适应自注意力机制对隐状态序列h进行筛选,并将筛选后所获得的向量作为知识信息向量,指的是使用以下公式进行计算:
其中,αtn为hn对应的权重,可以通过以下公式获得:
其中,zt-1为t-1时刻解码器的隐状态。
上述使用自适应自注意力机制对知识信息向量和语言模型向量进行整合,获得上下文向量ct,指的是通过以下公式进行运算:
其中,βt是t时刻的权重,可以通过如下公式获得:
eto=(Wo)T[ot;zt],
上述依据Yt-1,上一时刻的隐状态输出zt-1和上下文向量ct,获得当前时刻的隐状态zt,指的是通过以下公式进行运算:
zt=f(zt-1,yt-1,ct),
其中,f为长短期记忆循环函数。
上述利用隐状态zt,计算当前所预测词在词表范围内的概率分布,指的是通过以下公式进行计算:
P(yt|y<t,x,s)∝exp(yt;zt,ct)。
其中,所得的概率即为yt在词表中的概率分布。
而当解码器被配置为自适应自注意力模型时,在时刻t,上述获得当前语言模型的输出向量ot,将输出向量ot作为语言模型向量,指的是通过以下公式进行运算:
其中,为第l层的语言模型向量,为解码器中第l-1层、第t个时间步的隐藏状态;为解码器中第l-1层、前t个时间步的隐藏状态;MultiHead为多头自注意力函数。
上述使用自适应自注意力机制对隐状态序列h进行筛选,并将筛选后所获得的向量作为知识信息向量,指的是使用以下公式进行计算:
其中,为第l层的知识信息向量。
上述使用自适应自注意力机制对知识信息向量和语言模型向量进行整合,获得上下文向量ct,指的是通过以下公式进行运算:
其中,是第l层,第t个时刻的权重,可以通过如下公式获得:
上述依据Yt-1,上一时刻的隐状态输出zt-1和上下文向量ct,获得当前时刻的隐状态zt,指的是通过以下公式进行运算:
zt=f(zt-1,yt-1,ct),
其中,ct为最后一层的上下文向量,zt-1为最后一层的隐状态,f为长短期记忆循环函数。
上述利用隐状态zt,计算当前所预测词在词表范围内的概率分布,指的是通过以下公式进行计算:
P(yt|y<t,x,s)∝exp(yt;zt,ct)。
其中,所得的概率即为yt在词表中的概率分布。
第二实施例
请参阅图3,本实施例针对现有的释义生成方法生成释义不够准确的问题,提供一种基于知识库进行释义生成的系统,该系统包括:
训练数据集获取模块201,用于获得训练数据集,该训练数据集中包括训练词语和训练词语对应的释义,以及知识库中的知识信息;
释义模型构建及训练模块202,用于基于训练数据集,构建用于为待释义词生成释义的释义模型,并对释义模型进行训练;
释义生成模块203,用于通过训练好的释义模型,基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示,生成待释义词的释义。
本实施中的基于知识库进行释义生成的系统与上述第一实施例中的基于知识库进行释义生成的方法相对应;其中,该基于知识库进行释义生成的系统中的各模块所实现的功能与上述第一实施例中的基于知识库进行释义生成的方法的各流程步骤一一对应,故在此不再赘述。
本发明通过获得训练数据集,训练数据集中包括训练词语和所述训练词语对应的释义,以及知识库中的知识信息;基于训练数据集,构建用于为待释义词生成释义的释义模型,并对释义模型进行训练;通过训练好的释义模型,基于待释义词的分布式向量表示和知识库中与待释义词相关的知识信息的分布式向量表示,生成待释义词的释义。在以词向量作为输入的基础上,加入知识库中的知识信息进行补充,提升了释义生成的准确性;并且本发明的释义模型包含自适应自注意力机制,在生成释义中的每个词时,可通过自适应自注意力机制对知识库中的知识信息进行选择,并判断是否将知识信息应用于当前词的生成,提升了释义生成效果。具有逻辑清晰、效率高、准确率高的优点,解决了现有技术无法为待释义词准确生成释义的问题。
此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于知识库进行释义生成的方法,其特征在于,包括:
获得训练数据集,所述训练数据集中包括训练词语和所述训练词语对应的释义,以及知识库中的知识信息;
基于所述训练数据集,构建用于为待释义词生成释义的释义模型,并对所述释义模型进行训练;
通过训练好的释义模型,基于待释义词的分布式向量表示和所述知识库中与所述待释义词相关的知识信息的分布式向量表示,生成所述待释义词的释义。
2.如权利要求1所述的基于知识库进行释义生成的方法,其特征在于,所述释义模型配置为基于循环神经网络或自注意力网络的编码器-解码器模型。
3.如权利要求1所述的基于知识库进行释义生成的方法,其特征在于,所述释义模型包括自适应自注意力机制,在通过所述释义模型生成释义时,所述自适应自注意力机制对所述知识库中的知识信息进行选择,并判断是否将所述知识信息应用于当前释义的生成。
4.如权利要求1所述的基于知识库进行释义生成的方法,其特征在于,在对所述释义模型进行训练时,所述释义模型以所述训练数据集中的训练词语和知识信息的分布式向量表示作为输入,并迭代地生成释义中的每个词。
5.如权利要求4所述的基于知识库进行释义生成的方法,其特征在于,通过所述释义模型生成待释义词的释义的过程,包括:
接收待释义词x,并获取所述知识库中与待释义词x相关的知识信息s=[s1,…,sn],其中sn为第n条知识信息;
使用词嵌入层,获得待释义词x的分布式向量表示X,及与待释义词x相关的每条知识信息的分布式向量表示S=[S1,…,SN],其中SN为第n条知识信息sn对应的分布式向量表示;
使用编码器,对待释义词x的分布式向量表示X和知识信息的分布式向量表示S进行编码,编码结果为隐状态序列h;
使用解码器构建语言模型,基于所述语言模型利用所述隐状态序列h,迭代地生成释义中的每个词。
6.如权利要求5所述的基于知识库进行释义生成的方法,其特征在于,所述编码器被配置为双向长短期记忆网络或多头自注意力网络。
7.如权利要求5所述的基于知识库进行释义生成的方法,其特征在于,所述语言模型迭代地生成释义中的每个词的过程,包括:
接收上一时刻输出的词yt-1,将词yt-1的分布式向量表示Yt-1作为当前时刻的输入;
获得当前语言模型的输出向量ot,将输出向量ot作为语言模型向量;
使用自适应自注意力机制对所述隐状态序列h进行筛选,并将筛选后所获得的向量作为知识信息向量;
使用自适应自注意力机制对所述知识信息向量和语言模型向量进行整合,获得上下文向量ct;
依据所述Yt-1,上一时刻的隐状态输出zt-1和所述上下文向量ct,获得当前时刻的隐状态zt;
利用所述隐状态zt,计算当前所预测词在词表范围内的概率分布,并取概率最大的词作为当前时刻的输出。
8.如权利要求1所述的基于知识库进行释义生成的方法,其特征在于,所述知识库为知网常识知识库。
9.如权利要求8所述的基于知识库进行释义生成的方法,其特征在于,所述知识库中的知识信息为知网常识知识库中的义原信息。
10.一种基于知识库进行释义生成的系统,其特征在于,包括:
训练数据集获取模块,用于获得训练数据集,所述训练数据集中包括训练词语和所述训练词语对应的释义,以及知识库中的知识信息;
释义模型构建及训练模块,用于基于所述训练数据集,构建用于为待释义词生成释义的释义模型,并对所述释义模型进行训练;
释义生成模块,用于通过训练好的释义模型,基于待释义词的分布式向量表示和所述知识库中与所述待释义词相关的知识信息的分布式向量表示,生成所述待释义词的释义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910507994.9A CN110287333A (zh) | 2019-06-12 | 2019-06-12 | 一种基于知识库进行释义生成的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910507994.9A CN110287333A (zh) | 2019-06-12 | 2019-06-12 | 一种基于知识库进行释义生成的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287333A true CN110287333A (zh) | 2019-09-27 |
Family
ID=68004785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910507994.9A Pending CN110287333A (zh) | 2019-06-12 | 2019-06-12 | 一种基于知识库进行释义生成的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287333A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765766A (zh) * | 2019-10-25 | 2020-02-07 | 北京中献电子技术开发有限公司 | 一种面向神经网络机器翻译的德文词法分析方法及系统 |
CN111444328A (zh) * | 2020-05-06 | 2020-07-24 | 南京大学 | 一种带有解释生成的自然语言自动预测推断方法 |
CN112364639A (zh) * | 2020-10-19 | 2021-02-12 | 北京语言大学 | 基于预训练语言模型的上下文敏感的释义生成方法及系统 |
CN113221577A (zh) * | 2021-04-28 | 2021-08-06 | 西安交通大学 | 一种教育文本知识归纳方法、系统、设备及可读存储介质 |
CN113672915A (zh) * | 2021-10-20 | 2021-11-19 | 南京中孚信息技术有限公司 | 一套基于机器学习的数据防泄露系统 |
CN114139532A (zh) * | 2022-01-30 | 2022-03-04 | 北京语言大学 | 一种基于多任务框架进行简单释义生成的方法与系统 |
CN114282515A (zh) * | 2022-02-18 | 2022-04-05 | 北京语言大学 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
CN111462749B (zh) * | 2020-03-20 | 2023-07-21 | 北京邮电大学 | 基于对话状态导向和知识库检索的端到端对话系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108604227A (zh) * | 2016-01-26 | 2018-09-28 | 皇家飞利浦有限公司 | 用于神经临床释义生成的系统和方法 |
US20180329883A1 (en) * | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
EP3438844A1 (en) * | 2017-08-02 | 2019-02-06 | Oath Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
CN109524073A (zh) * | 2018-10-17 | 2019-03-26 | 新博卓畅技术(北京)有限公司 | 一种医院检查报告自动解读方法、系统及设备 |
CN109710915A (zh) * | 2017-10-26 | 2019-05-03 | 华为技术有限公司 | 复述语句生成方法及装置 |
-
2019
- 2019-06-12 CN CN201910507994.9A patent/CN110287333A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108604227A (zh) * | 2016-01-26 | 2018-09-28 | 皇家飞利浦有限公司 | 用于神经临床释义生成的系统和方法 |
US20180329883A1 (en) * | 2017-05-15 | 2018-11-15 | Thomson Reuters Global Resources Unlimited Company | Neural paraphrase generator |
EP3438844A1 (en) * | 2017-08-02 | 2019-02-06 | Oath Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
CN109710915A (zh) * | 2017-10-26 | 2019-05-03 | 华为技术有限公司 | 复述语句生成方法及装置 |
CN109524073A (zh) * | 2018-10-17 | 2019-03-26 | 新博卓畅技术(北京)有限公司 | 一种医院检查报告自动解读方法、系统及设备 |
Non-Patent Citations (2)
Title |
---|
ASHISH VASWANI 等: "Attention Is All You Need", 《NIPS 2017》 * |
LINER YANG 等: "Incorporating Sememes into Chinese Definition Modeling", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765766A (zh) * | 2019-10-25 | 2020-02-07 | 北京中献电子技术开发有限公司 | 一种面向神经网络机器翻译的德文词法分析方法及系统 |
CN110765766B (zh) * | 2019-10-25 | 2022-05-17 | 北京中献电子技术开发有限公司 | 一种面向神经网络机器翻译的德文词法分析方法及系统 |
CN111462749B (zh) * | 2020-03-20 | 2023-07-21 | 北京邮电大学 | 基于对话状态导向和知识库检索的端到端对话系统及方法 |
CN111444328A (zh) * | 2020-05-06 | 2020-07-24 | 南京大学 | 一种带有解释生成的自然语言自动预测推断方法 |
CN112364639A (zh) * | 2020-10-19 | 2021-02-12 | 北京语言大学 | 基于预训练语言模型的上下文敏感的释义生成方法及系统 |
CN112364639B (zh) * | 2020-10-19 | 2021-09-07 | 北京语言大学 | 基于预训练语言模型的上下文敏感的释义生成方法及系统 |
CN113221577A (zh) * | 2021-04-28 | 2021-08-06 | 西安交通大学 | 一种教育文本知识归纳方法、系统、设备及可读存储介质 |
CN113672915A (zh) * | 2021-10-20 | 2021-11-19 | 南京中孚信息技术有限公司 | 一套基于机器学习的数据防泄露系统 |
CN114139532A (zh) * | 2022-01-30 | 2022-03-04 | 北京语言大学 | 一种基于多任务框架进行简单释义生成的方法与系统 |
CN114139532B (zh) * | 2022-01-30 | 2022-04-19 | 北京语言大学 | 一种基于多任务框架进行简单释义生成的方法与系统 |
CN114282515A (zh) * | 2022-02-18 | 2022-04-05 | 北京语言大学 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
CN114282515B (zh) * | 2022-02-18 | 2022-07-08 | 北京语言大学 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287333A (zh) | 一种基于知识库进行释义生成的方法及系统 | |
Su et al. | A two-stage transformer-based approach for variable-length abstractive summarization | |
CN109918568B (zh) | 个性化学习方法、装置、电子设备及存储介质 | |
US20230121711A1 (en) | Content augmentation with machine generated content to meet content gaps during interaction with target entities | |
EP3580698B1 (en) | Hierarchical device placement with reinforcement learning | |
CN109635197B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN110326002A (zh) | 使用在线注意的序列处理 | |
CN110032638B (zh) | 一种基于编码器-解码器的生成式摘要提取方法 | |
CN112417092B (zh) | 基于深度学习的智能化文本自动生成系统及其实现方法 | |
KR102352251B1 (ko) | 자질 선별을 통한 고성능 기계독해 방법 | |
US20230205994A1 (en) | Performing machine learning tasks using instruction-tuned neural networks | |
CN110807335A (zh) | 基于机器学习的翻译方法、装置、设备及存储介质 | |
CN112364639B (zh) | 基于预训练语言模型的上下文敏感的释义生成方法及系统 | |
CN114925170B (zh) | 文本校对模型训练方法及装置、计算设备 | |
CN112560456A (zh) | 一种基于改进神经网络的生成式摘要生成方法和系统 | |
CN115906815A (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN112069827A (zh) | 一种基于细粒度主题建模的数据到文本生成方法 | |
CN114881010A (zh) | 一种基于Transformer和多任务学习的中文语法纠错方法 | |
CN111125323A (zh) | 一种聊天语料标注方法、装置、电子设备及存储介质 | |
CN109979461A (zh) | 一种语音翻译方法及装置 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
US20220284196A1 (en) | Electronic device, method and computer program | |
CN114519353B (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
CN110442706B (zh) | 一种文本摘要生成的方法、系统、设备及存储介质 | |
Fredj et al. | A novel phonemes classification method using fuzzy logic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190927 |