CN109522411B - 一种基于神经网络的写作辅助方法 - Google Patents
一种基于神经网络的写作辅助方法 Download PDFInfo
- Publication number
- CN109522411B CN109522411B CN201811336853.7A CN201811336853A CN109522411B CN 109522411 B CN109522411 B CN 109522411B CN 201811336853 A CN201811336853 A CN 201811336853A CN 109522411 B CN109522411 B CN 109522411B
- Authority
- CN
- China
- Prior art keywords
- sequence
- training
- neural network
- generator
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于神经网络的写作辅助方法,能够根据给定的若干关键词或短句生成语义丰富、表达流畅的句子。主要包括以下步骤:首先预处理原始文档语料,利用一种基于词性的词汇筛选方法从中筛选出关键词集合,将关键词集合和预处理后的文档一起作为训练数据集;然后在该数据集上对抗训练基于神经网络的编码器‑解码器模型;最后将训练好的编码器‑解码器模型用于写作辅助。本发明不需要预先标注语料,训练数据集从文本中自动构建,能极大地降低人工标注工作量,从而可以很容易地应用到不同领域实现写作辅助任务;基于神经网络的训练,能够有效地捕获语言特征;使用对抗训练的方法增强模型性能,进一步提高了生成文本的流畅度和真实度。
Description
技术领域
本发明涉及利用计算机对文本进行处理和生成的方法,属于信息处理技术领域。
背景技术
写作是一种将若干词语以一定的规则组织成句子的过程,对于以母语写作的人来说,这个过程往往是非常简单而自然的。然而当使用外语写作时,由于不同语言之间表达习惯和语法的差异,如果对该种语言不够熟悉,常常面临不知如何将词语组织成句子的问题。这可能是由于不能熟练地使用某些句式,也可能是因为不知道某些领域内的常用表达。在实际写作过程中,作者当前可能只有句子原型或几个核心的单词,但不知该如何将它们组织起来,形成流畅的句子。遇到这样的问题时,作者通常会先去了解每个词语或短语的用法,然后根据这些用法将它们组织起来,但是考虑到不同的语境和不同词汇之间的搭配,这种方法较为低效。
神经网络是一种强大的机器学习模型,其通过一系列的线性或非线性转换,将输入数据映射到不同的表示空间,并基于预先定义的损失函数,自适应地更新模型参数,以降低损失。循环神经网络(RNN)是神经网络的一种,相比普通的神经网络(多层感知机),循环神经网络会维护并更新不同时间步的状态,从而更适合处理变长的序列,如文档、语音。长短期记忆(LSTM)是一种循环神经网络,相比普通的神经网络(多层感知机),LSTM中输入门、遗忘门、输出门等的存在使其相对于传统RNN对每个时间步的信息处理有了更强的控制,从而有助于捕获长期依赖。
生成对抗网络由Goodfellow等于2014年提出,生成对抗网络包括生成器和判别器两部分,生成器生成样本,而判别器在不知道输入样本来源的情况下,判断其输入来自真实样本而非生成样本的概率。生成对抗网络交替地训练生成器和判别器,生成器的目的是生成逼真的样本骗过判别器,判别器的目的是准确区分出生成样本和真实样本之间的差异,从而判断其输入样本的来源。生成对抗网络的训练过程即为生成器和判别器的博弈过程,为了提高骗过判别器的概率,生成器需要尝试提高生成样本的质量。
发明内容
本发明提供了一种写作辅助方法,对于写作者写作过程中已有的句子原型或若干关键词,本发明的模型综合考虑它们结合在一起时的语境,并在该种语境下根据这些关键词生成一个润色的句子,从而实现对写作的辅助。
技术方案:为实现上述目的,本发明采用的技术方案如下:
一种基于神经网络的写作辅助方法,包括以下步骤:
步骤1,对给定的语料库D进行预处理,得到目标序列集合Y;对于任一目标序列y∈Y,使用基于词性的词汇筛选方法从中筛选出相应的关键词序列x,x和y构成了训练数据的一个样本{x,y},x模拟了写作时的若干关键词,而y是关键词序列x所对应的表达更流畅且完整的句子;
步骤2,预训练一个文本生成器:对于训练样本{x,y+},使用一个基于神经网络的编码器编码关键词序列x,得到该关键词序列的摘要向量b和关键词序列中各个词语的上下文特征矩阵H;使用另一个神经网络作为解码器从b中解码出一个候选句子y-;预训练阶段的目标是最小化模型生成的候选句子y-和来自目标序列集合Y的真实句子y+之间的交叉熵;
步骤3,预训练一个文本二分类器:所述文本二分类器可能的输入样本包括关键词序列-真实句子对{x,y+}和关键词序列-生成句子对{x,y-};给定样本{x,y},分类器首先使用神经网络分别提取x和y的特征得到特征向量[f1(x);f2(y)],然后利用多层感知机处理特征向量,得到样本是真实序列对的概率p;
步骤4,对抗训练文本生成器和分类器:交替地训练生成器和分类器,并利用分类器的概率输出指导生成器的训练;
步骤5,使用训练好的生成器辅助写作:以x表示写作过程中的句子原型或若干个关键词,将x作为生成器的输入,生成润色后的句子。
优选的:所述步骤1中目标文本的预处理包括句子边界检测、命名实体识别、非法句子过滤等。所述步骤1中关键词序列的生成基于词性分析,通过为不同词性和词频的词语分配不同的留存概率,筛选出包含关键语义的词语作为关键词。该过程实现的是对真实关键词的生成过程的模拟。
优选的:所述步骤2使用双向循环神经网络编码关键词序列,即在每个时间步依次读入关键词序列中的一个词语,直至整个序列都被编码到摘要向量b中;解码阶段使用了注意力机制:在每个解码步t,使用当前时间步的解码器隐层状态h′t和编码器得到的源序列的上下文矩阵H计算一个注意力向量at,该向量记录了与当前解码步相关的上下文信息,并过滤了无关的信息。
优选的:所述步骤3使用卷积神经网络提取序列特征。特征提取器首先对输入序列(关键词序列或句子序列)的词向量x∈Rl×d进行卷积计算,其中l为序列长度,d为词向量维度。特征提取器包括了多个宽度为d(与词向量维度相同),高度不等的卷积核。对于一个宽度为d,高度为h的卷积核W∈Rh×d,将其应用于各个高度为h的序列词向量窗口xi:i+h-1,i∈{1,2,...,l-h+1},得到该窗口的特征ci:
其中ReLU即线性整流函数,Wj为W的第j行;利用该卷积核对整个输入序列进行卷积,得到该序列的一个特征映射c=[c1,c2,...,cl-h+1]。由于序列的长度是可变的,为了得到固定长度的特征表示,对c应用时序上的最大池化得到其意义为其特征空间里最关键的时序特征。
优选的:所述步骤4使用对抗训练对步骤2的预训练模型进行增强。参数更新使用梯度下降算法,为了将来自判别器的梯度传递到生成器,指导生成器的训练,基于强化学习和策略梯度,将判别器得分作为对生成器策略的奖励,生成器的目标是最大化累积奖励的期望。为了获得对中间状态,即序列生成过程中的每个中间时间步的奖励,对于长度为T的候选目标序列,在其每个解码步t,利用蒙特卡罗搜索采样出未解码的最后T-t个标记,同前t个时间步生成的标记一起作为一个完整的序列提供给判别器以计算奖励,并将N次蒙特卡罗搜索得到的奖励的均值作为对第t个时间步的奖励的估计。
优选的:所述步骤5生成器生成文本的过程基于贪心搜索、随机搜索或BeamSearch。
本发明的有益效果是:本发明提出了一种写作辅助方法,将写作辅助任务形式化为一个条件文本生成过程,并提出用神经网络解决这一问题。神经网络模型的训练往往需要大量的标注数据,对于本发明提出的写作辅助任务,并没有现成的数据集可用于训练。为了解决这一问题,本发明提出了一种能够从无标注的甚至包含大量噪声的原始语料中,自动地构造用于这一写作任务的数据集的方法。这种自动化的方法,也避免了本发明对特定语料的依赖,使本发明可以用于不同语言和领域的写作辅助任务。进一步地,本发明使用生成对抗网络增强预训练的生成模型,从而能提高生成文本的流畅度和真实性。
本发明不需要预先标注语料,训练数据集从文本中自动构建,能极大地降低人工标注工作量,从而可以很容易地应用到不同领域实现写作辅助任务;基于神经网络的训练,能够有效地捕获语言特征;使用对抗训练的方法增强模型性能,进一步提高了生成文本的流畅度和真实度。
附图说明
图1是本发明方法流程图;
图2是本发明的生成器示意图;
图3是本发明的生成器解码时应用的注意力机制的示意图;
图4是本发明的判别器的示意图;
图5是本发明对抗训练的示意图;
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,一种基于神经网络的写作辅助方法,该方法包括数据集的构造、预训练、对抗训练等步骤。
问题可以描述如下:在给定部分关键词x的情况下,生成与这些关键词相关的一个语义更丰富的表达流畅的句子y。为了实现这样的目的,本方法首先训练一个生成模型,训练数据集构造自原始语料库D。
下面介绍具体的实施方式。
一,构造训练数据集。
预处理给定的语料库D,对于每个文档,首先检测句子的边界,将文档切分为句子,并过滤掉非法的句子,得到所有句子的集合Y。对于其中的每个句子y=[y1,y2,...,yj,...,yn](n为句子y中的单词数量),分析每个单词yj的词性POS(yj),以g(POS(yj))的概率将其留存下来(g为预先定义的不同词性的单词的留存概率映射),得到y对应的关键词序列x,将{x,y}作为一个训练样本。留存概率的定义基于先验知识,如名词、动词、形容词等对于语义的表达比较关键,因此其留存概率较高,而停用词等则具有较低的留存概率。
二,预训练文本生成器。
文本生成器包含一个关键词序列编码器和一个句子序列解码器,如图2所示。
关键词序列编码器使用双向的长短期记忆(LSTM)网络编码输入的关键词序列x=[x1,x2,...,xs,...,xS],其中S为x中词语的数量。编码器在每个编码时间步s读入单词xs,更新当前的隐状态hs:
hs=BiLSTM(hs-1,xs),
其中hs-1为上个时间步的编码器隐状态。编码器编码整个序列后得到x的摘要b=hS和上下文矩阵H=[h1,h2,...,hS]。
在每个解码步对ht′和编码器得到的上下文矩阵H应用注意力机制,如图3所示:
score(hs,h′t)=vTtanh(W1hs+W2h′t),
at=tanh(Wc[ct;h′t]),
其中,vT、W1、W2、Wc均为参数,以上各式首先计算时间步t上下文矩阵H中各个上下文向量的权重αt,αts是αt的第s个元素,随后用各个上下文向量的加权和ct和解码器隐状态ht′计算注意力向量at。at接着被用于时间步t的解码:
其中Wv为参数。
预训练阶段,使用随机梯度下降更新模型参数,对于样本{x,y+}和生成的候选句子y-,其损失函数为:
其中len(y+)为句子y+中单词的数量。
三,预训练判别器
判别器为一个文本分类器,如图4所示。其可能的输入样本包括真实序列对{x,y+}和生成序列对{x,y-}。给定样本{x,y},判别器首先使用卷积神经网络分别提取两个序列的特征向量得到[f1(x);f2(y)],其后利用多层感知机处理特征向量,得到样本是真实序列对的概率p。
特征提取器首先对输入序列(关键词序列或句子序列)的词向量x∈Rl×d进行卷积计算,其中l为序列长度,d为词向量维度。特征提取器包括了多个宽度为d(与词向量维度相同),高度不等的卷积核。对于一个宽度为d,高度为h的卷积核W∈Rh×d,将其应用于各个高度为h的序列词向量窗口xi:i+h-1,i∈{1,2,...,l-h+1},可得到该窗口的特征ci:
利用该卷积核对整个输入序列进行卷积,得到该序列的一个特征映射c=[c1,c2,...,cl-h+1]。由于序列的长度是可变的,为了得到固定长度的特征表示,对c应用时序上的最大池化得到其意义为其特征空间里最关键的时序特征。
判别器的训练同样使用批量随机梯度下降优化交叉熵。
四,对抗训练
对抗训练的整体过程如图5所示。对抗训练中将序列生成过程建模为一个连续的决策过程,将生成器视为一个随机化的策略,通过策略梯度直接训练策略,即生成器。对抗训练的目标是最大化期望最终奖励:
其中G为生成器,D为判别器,T是目标序列长度,V是所有词语的集合,RT是一个完整的序列获得的累积奖励,是序列的动作价值函数,即在状态s时,做动作a,然后遵从策略G获得的奖励,并将判别器的概率输出作为对动作价值函数的估计:
这样的累积奖励是对整个序列而言的,为了获得序列生成过程中的每个中间时间步的奖励,在解码时间步t,利用蒙特卡罗搜索取样出未知的最后T-t个标记,同前t个时间步生成的标记一起提供给判别器以计算奖励,并将N次蒙特卡罗搜索得到的奖励的期望作为对第t个时间步的策略的奖励的估计。
对抗训练过程交替训练生成器和判别器,在这种对抗性的训练中,生成器利用判别器关于生成器输出样本的梯度更新自己的参数,从而逐渐提高生成样本的质量,而判别器也能及时适应生成器的变化,给生成器以合适的指导。
五,辅助写作
辅助写作包括编码和解码两个过程。以x表示写作过程中的句子原型或若干个关键词,训练好的编码器以x为输入编码整个序列后得到其摘要向量b和上下文矩阵H。接着,解码器从b中解码出润色后的句子y-。其中编码过程与训练阶段一致,解码过程与训练阶段有两个不同:每个解码时间步的输入来源、输出采样方式。
输出采样方式:解码时间步t,解码器在前t-1个时间步中解码出的序列为解码的最后阶段是基于时间步t的输出单词分布采样一个单词,此时可选择以下采样方式:贪心搜索,从分布中选择具有最大概率的单词;随机搜索,从中随机采样一个单词;束宽为β的Beam Search在每个时间步保留当前生成的概率最大的β个序列,时间步t时在前t-1个时间步生成的β个序列的基础上进一步扩展:对于β个序列中的每个序列和所有词语的集合V中的每个单词Vj(1≤j≤|V|,|V|为V中词语的数量),计算前t-1个时间步生成而时间步t生成Vj的概率其中在序列扩展的过程中记录,根据可直接得到。之后将计算出的所有β*|V|个概率排序,并保留β个最大的概率对应的序列作为前t个时刻的生成结果。对于确定的输入x,贪心搜索总得到唯一的润色后的句子;不同次随机搜索的输出往往不同;Beam Search的结果为确定的β个句子。采样方式的灵活性,允许写作者从多个润色的句子中选择最满意的结果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于神经网络的写作辅助方法,其特征在于,包括以下步骤:
步骤1,对给定的语料库D进行预处理,得到目标序列集合Y;对于任一目标序列y∈Y,使用基于词性的词汇筛选方法从中筛选出相应的关键词序列x,x和y构成了训练数据的一个样本{x,y},x模拟了写作时的若干关键词,而y是关键词序列x所对应的表达更流畅且完整的句子;
步骤2,预训练一个文本生成器:对于训练样本{x,y+},使用一个基于神经网络的编码器编码关键词序列x,得到该关键词序列的摘要向量b和关键词序列中各个词语的上下文特征矩阵H;使用另一个神经网络作为解码器从摘要向量b中解码出一个候选句子y-;预训练阶段的目标是最小化模型生成的候选句子y-和来自目标序列集合Y的真实句子y+之间的交叉熵;
步骤3,预训练一个文本二分类器:所述文本二分类器可能的输入样本包括关键词序列-真实句子对{x,y+}和关键词序列-生成句子对{x,y-};给定样本{x,y},分类器首先使用神经网络分别提取x和y的特征得到特征向量[f1(x);f2(y)],然后利用多层感知机处理特征向量,得到样本是真实序列对的概率p;
步骤4,对抗训练文本生成器和分类器:交替地训练生成器和分类器,并利用分类器的概率输出指导生成器的训练;
步骤5,使用训练好的生成器辅助写作:以x表示写作过程中的句子原型或若干个关键词,将x作为生成器的输入,生成润色后的句子;
所述步骤4使用对抗训练对步骤2的预训练模型进行增强;参数更新使用梯度下降算法,为了将来自判别器的梯度传递到生成器,指导生成器的训练,基于强化学习和策略梯度,将判别器得分作为对生成器策略的奖励,生成器的目标是最大化累积奖励的期望;为了获得对中间状态,即序列生成过程中的每个中间时间步的奖励,对于长度为T的候选目标序列,在其每个解码步t,利用蒙特卡罗搜索采样出未解码的最后T-t个标记,同前t个时间步生成的标记一起作为一个完整的序列提供给判别器以计算奖励,并将N次蒙特卡罗搜索得到的奖励的均值作为对第t个时间步的奖励的估计,N为设定值。
2.根据权利要求1所述的基于神经网络的写作辅助方法,其特征在于:所述步骤1中目标文本的预处理包括句子边界检测、非法句子过滤。
3.根据权利要求1所述的基于神经网络的写作辅助方法,其特征在于:所述步骤1中关键词序列的生成基于词性分析,通过为不同词性和词频的词语分配不同的留存概率,筛选出包含关键语义的词语作为关键词;该过程实现对真实关键词生成过程的模拟。
4.根据权利要求1所述的基于神经网络的写作辅助方法,其特征在于:所述步骤2使用双向循环神经网络编码关键词序列,即在每个时间步依次读入关键词序列中的一个词语,直至整个序列都被编码到摘要向量b中;解码阶段使用注意力机制:在每个解码步t,使用当前时间步的解码器隐层状态h′t和编码器得到的源序列的上下文特征矩阵H计算一个注意力向量at,该向量记录了与当前解码步相关的上下文信息,并过滤了无关的信息。
5.根据权利要求1所述的基于神经网络的写作辅助方法,其特征在于:所述步骤3使用卷积神经网络提取序列特征;特征提取器首先对输入序列的词向量x∈Rl×d进行卷积计算,其中l为序列长度,d为词向量维度;特征提取器包括了多个宽度为d、高度不等的卷积核;对于一个宽度为d,高度为h的卷积核W∈Rh×d,将其应用于各个高度为h的序列词向量窗口xi:i+h-1,i∈{1,2,…,l-h+1},得到该窗口的特征ci:
6.根据权利要求1所述的基于神经网络的写作辅助方法,其特征在于:所述步骤5生成器生成文本的过程基于贪心搜索、随机搜索或Beam Search。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811336853.7A CN109522411B (zh) | 2018-11-12 | 2018-11-12 | 一种基于神经网络的写作辅助方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811336853.7A CN109522411B (zh) | 2018-11-12 | 2018-11-12 | 一种基于神经网络的写作辅助方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522411A CN109522411A (zh) | 2019-03-26 |
CN109522411B true CN109522411B (zh) | 2022-10-28 |
Family
ID=65774454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811336853.7A Active CN109522411B (zh) | 2018-11-12 | 2018-11-12 | 一种基于神经网络的写作辅助方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522411B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619118B (zh) * | 2019-03-28 | 2022-10-28 | 中国人民解放军战略支援部队信息工程大学 | 一种文本自动生成方法 |
CN110287478B (zh) * | 2019-05-15 | 2023-05-23 | 广东工业大学 | 一种基于自然语言处理技术的机器写作系统 |
CN110276081B (zh) * | 2019-06-06 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 文本生成方法、装置及存储介质 |
CN110264792B (zh) * | 2019-06-17 | 2021-11-09 | 上海元趣信息技术有限公司 | 一种针对小学生作文智能辅导系统 |
CN110414003B (zh) * | 2019-07-29 | 2021-09-14 | 清华大学 | 建立文本生成模型的方法、装置、介质和计算设备 |
CN110516244B (zh) * | 2019-08-26 | 2023-03-24 | 西安艾尔洛曼数字科技有限公司 | 一种基于bert的句子自动填充方法 |
CN110956254B (zh) * | 2019-11-12 | 2022-04-05 | 浙江工业大学 | 一种基于动态知识表示学习的案件推理方法 |
CN111428448B (zh) * | 2020-03-02 | 2024-05-07 | 平安科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及可读存储介质 |
CN111368056B (zh) * | 2020-03-04 | 2023-09-29 | 北京香侬慧语科技有限责任公司 | 一种古诗词生成方法和装置 |
CN111563367A (zh) * | 2020-05-06 | 2020-08-21 | 首都师范大学 | 基于FocalGAN的短文本自动生成方法、装置、设备及存储介质 |
CN111597819B (zh) * | 2020-05-08 | 2021-01-26 | 河海大学 | 一种基于关键词的大坝缺陷图像描述文本生成方法 |
CN111311385B (zh) * | 2020-05-15 | 2020-08-04 | 成都晓多科技有限公司 | 一种基于商品卖点的商品推荐话术生成方法及系统 |
CN112000769A (zh) * | 2020-08-17 | 2020-11-27 | 东北林业大学 | 一种基于对抗网络的服装商品广告文案生成方法 |
CN113139050B (zh) * | 2021-05-10 | 2022-07-19 | 桂林电子科技大学 | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 |
CN113469146B (zh) * | 2021-09-02 | 2021-12-14 | 深圳市海清视讯科技有限公司 | 目标检测方法及设备 |
CN113869057A (zh) * | 2021-10-15 | 2021-12-31 | 北京明略软件系统有限公司 | 文本数据增强方法、系统和计算机设备和存储介质 |
CN114239600B (zh) * | 2021-12-20 | 2024-05-28 | 山东浪潮科学研究院有限公司 | 一种生成一致性写作风格文档的方法、设备、存储介质 |
CN114282515B (zh) * | 2022-02-18 | 2022-07-08 | 北京语言大学 | 一种基于增量式片段预测的端到端词汇受限文本生成方法 |
CN114996438B (zh) * | 2022-05-20 | 2024-05-28 | 昆明理工大学 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
CN115099855A (zh) * | 2022-06-23 | 2022-09-23 | 广州华多网络科技有限公司 | 广告文案创作模型制备方法及其装置、设备、介质、产品 |
CN117312506B (zh) * | 2023-09-07 | 2024-03-08 | 广州风腾网络科技有限公司 | 一种页面语义信息提取方法及系统 |
CN116992834B (zh) * | 2023-09-27 | 2024-01-05 | 国高信息技术产业研究院(山东)集团有限公司 | 基于人工智能的辅助写作方法、系统、介质及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392147A (zh) * | 2017-07-20 | 2017-11-24 | 北京工商大学 | 一种基于改进的生成式对抗网络的图像语句转换方法 |
CN107590531A (zh) * | 2017-08-14 | 2018-01-16 | 华南理工大学 | 一种基于文本生成的wgan方法 |
CN107832300A (zh) * | 2017-11-17 | 2018-03-23 | 合肥工业大学 | 面向微创医疗领域文本摘要生成方法及装置 |
CN108197294A (zh) * | 2018-01-22 | 2018-06-22 | 桂林电子科技大学 | 一种基于深度学习的文本自动生成方法 |
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
CN108416065A (zh) * | 2018-03-28 | 2018-08-17 | 复旦大学 | 基于层级神经网络的图像-句子描述生成系统及方法 |
CN108491497A (zh) * | 2018-03-20 | 2018-09-04 | 苏州大学 | 基于生成式对抗网络技术的医疗文本生成方法 |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6732090B2 (en) * | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
-
2018
- 2018-11-12 CN CN201811336853.7A patent/CN109522411B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
CN107392147A (zh) * | 2017-07-20 | 2017-11-24 | 北京工商大学 | 一种基于改进的生成式对抗网络的图像语句转换方法 |
CN107590531A (zh) * | 2017-08-14 | 2018-01-16 | 华南理工大学 | 一种基于文本生成的wgan方法 |
CN107832300A (zh) * | 2017-11-17 | 2018-03-23 | 合肥工业大学 | 面向微创医疗领域文本摘要生成方法及装置 |
CN108197294A (zh) * | 2018-01-22 | 2018-06-22 | 桂林电子科技大学 | 一种基于深度学习的文本自动生成方法 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
CN108491497A (zh) * | 2018-03-20 | 2018-09-04 | 苏州大学 | 基于生成式对抗网络技术的医疗文本生成方法 |
CN108416065A (zh) * | 2018-03-28 | 2018-08-17 | 复旦大学 | 基于层级神经网络的图像-句子描述生成系统及方法 |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
Non-Patent Citations (1)
Title |
---|
基于深度学习改善英文写作;蔡畅之;《电子技术与软件工程》;20180927(第18期);244-246 * |
Also Published As
Publication number | Publication date |
---|---|
CN109522411A (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522411B (zh) | 一种基于神经网络的写作辅助方法 | |
Yao et al. | An improved LSTM structure for natural language processing | |
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
Goldwater et al. | Contextual dependencies in unsupervised word segmentation | |
Goodman | Exponential priors for maximum entropy models | |
CN111858931B (zh) | 一种基于深度学习的文本生成方法 | |
CN109871541B (zh) | 一种适用于多语言多领域的命名实体识别方法 | |
CN107506414A (zh) | 一种基于长短期记忆网络的代码推荐方法 | |
Konstas et al. | Inducing document plans for concept-to-text generation | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111241807B (zh) | 一种基于知识引导注意力的机器阅读理解方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
KR101923780B1 (ko) | 일관된 주제의 텍스트 생성 방법 및 이를 수행하는 텍스트 생성 장치 | |
CN109145292B (zh) | 释义文本深度匹配模型构建方法与释义文本深度匹配方法 | |
CN111191002A (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN110083824A (zh) | 一种基于多模型组合神经网络的老挝语分词方法 | |
CN114860930A (zh) | 一种文本分类方法、装置以及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114972907A (zh) | 基于强化学习和对比学习的图像语义理解及文本生成 | |
Göker et al. | Neural text normalization for turkish social media | |
CN113688624A (zh) | 一种基于语言风格的人格预测方法及装置 | |
CN110929006B (zh) | 一种数据型问答系统 | |
CN112163414B (zh) | 一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法 | |
CN110879838B (zh) | 一种放开域问答系统 | |
Kibria et al. | Context-driven bengali text generation using conditional language model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |