CN114139535A

CN114139535A - 一种关键词造句方法、装置、计算机设备及可读介质

Info

Publication number: CN114139535A
Application number: CN202111420602.9A
Authority: CN
Inventors: 廖盛斌; 杨宗凯
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-04

Abstract

本申请公开了一种关键词造句方法、装置、计算机设备及可读介质，该方法包括：获取目标关键词并进行向量化处理，得到目标关键词向量；将目标关键词向量输入训练好的神经网络模型中，得到目标关键词在多个场景下对应的目标词序列，将目标词序列合并，得到目标关键词对应的目标语句；其中，神经网络模型为利用大量关键词训练得到，每个关键词关联不同场景下的语句，各关键词被处理为关键词向量，对应的语句经分词和向量化处理为词序列向量后作为关键词的标签输入神经网络模型中；本发明使用神经网络模型学习语句的多维特征，基于训练好的模型对输入的关键词进行造句，能够自动生成不同场景下的句子，有效解决了人工仅能生成单一场景的语句的问题。

Description

一种关键词造句方法、装置、计算机设备及可读介质

技术领域

本申请涉及教育信息化技术领域，更具体地，涉及一种关键词造句方法、装置、计算机设备及可读介质。

背景技术

语言是是幼儿获取这个世界的信息的主要方式之一，语言的形式包括很多种，比如静态语言，姿体语言等。但是，对于听障儿童来说，他们获取到的信息十分有限，在初期并未接触到专业的康复训练课时，他们的世界几乎是没有声音的，发音水平也达不到相对应年龄段儿童能够达到的水平。因此当接触到康复训练课堂时，合适的、充足的语言训练对他们来说至关重要。因此，使他们多接触不同场景下的相同词汇的语句，可以极大的增强他们对词汇和世界的理解能力。

目前语言训练课堂在锻炼听障儿童对某一词汇的敏感程度的方法是，语言训练师对课程大纲中的词汇进行造句或者描述，多次重复给听障儿童学习者，通过学习者的反应或者教学达到固定时常要求来判断学习者是否学习到该词汇。但是这种方式的造句或者描述方式受语言训练师个人经验能力的影响较大，语言训练师可能会多次使用相同场景的语句，并不能使得学习者完全理解每个词汇在多种场景下的多重含义。而在多种场景下的语句训练也更能提升学习者们对世界的理解能力。

自然语言生成是目前机器学习研究中一个新的热点，它也是自然语言处理的一部分，从知识库或者逻辑形式等机器表述去生成自然语言，也可以说是一种资料转换成自然语言表述的翻译器。自然语言理解是通过理清输入句的含义，从而产生机器表述语言。自然语言生成可以视为自然语言理解的反向，把机器概念转化成语言。其优点在于，可以通过海量的数据完成机器概念模型，再通过特定的场景下的语境，生成生活中正常使用的语句。

中国专利申请号为201811560465.7的发明专利申请公开了一种造句提示方法及计算机设备，其主要技术方案为：获取造句词语对应的提示短片，该提示短片至少包括该造句词语适用的应用场景；将造句词语与提示短片关联存储至造句提示数据库；当接收到包括目标造句词语的造句提示指令时，根据该造句提示指令从造句提示数据库中获取目标造句词语关联的目标提示短片；播放目标提示短片，以使用户参考该目标提示短片中的目标应用场景对目标造句词语进行造句。可见，实施本发明，能够为用户播放提示短片以使用户在造句时能够参考该提示短片中的应用场景，有利于用户了解目标造句词语的使用语境，进而掌握目标造句词语的正确用法。上述方案的实施过程中，需要用户观看提示短片，在听障儿童语言训练康复课堂中，康复训练师很难花费时间去接收到这个提示，因此造句的过程其实仍然完全需要康复训练师自身完成，依然存在造句结果包含主观意愿的现象。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种关键词造句方法、装置、计算机设备及可读介质，该方法将使用自然语言生成模型学习海量数据中的机器含义，再使用听障儿童康复课堂训练过程中使用的训练语句，完成自然语言生成模型的训练，最终使用该自然语言生成模型对听障儿童康复训练课程大纲中的关键词汇进行造句，供听障儿童语言康复训练师使用，解决了目前造句由人工完成，无法有效生成多场景下的丰富语句的问题。

为实现上述目的，按照本发明的第一个方面，提供了一种关键词造句方法，其包括：

获取目标关键词，将所述目标关键词进行向量化处理，得到目标关键词向量；

将所述目标关键词向量输出训练好的神经网络模型中，得到目标关键词在多个场景下对应的目标词序列，将所述目标词序列合并，得到目标关键词对应的目标语句；

其中，所述神经网络模型为利用大量关键词训练得到，每个所述关键词关联不同场景下的语句，各关键词被处理为关键词向量，对应的语句经分词和向量化处理为词序列向量后作为关键词的标签输入神经网络模型中。

优选的，上述关键词造句方法，所述神经网络模型的训练过程包括：

获取大量关键词以及包含所述关键词的不同场景下的语句，根据所述关键词及语句构造语料库；

将所述语料库中语句进行分词，得到对应的词序列；将每个关键词及与其关联的所有语句对应的词序列进行向量化处理，得到关键词向量和词序列向量；

所述关键词向量及对应的词序列向量构成训练样本，将所述训练样本输出待训练的神经网络模型中，获得神经网络模型输出的预测词向量；

计算所述预测词向量与词序列向量之间的误差，根据所述误差反向更新所述神经网络模型的参数，直至误差最小化，得到训练好的神经网络模型。

优选的，上述关键词造句方法，所述神经网络模型包括编码网络和解码网络；

所述编码网络获取输入的关键词向量，提取关键词向量的多维特征，所述多维特征中包括场景特征；

所述解码网络基于关键词向量的多维特征输出多个预测词向量及其对应的概率分布。

优选的，上述关键词造句方法，所述计算所述预测词向量与词序列向量之间的误差，具体为：

使用输出的预测词向量与输入的词序列向量的交叉熵作为神经网络模型的误差。

优选的，上述关键词造句方法，所述误差表示为：

其中，T′表示神经网络模型的迭代训练的总次数；y₁,…,y_T’表示神经网络模型每次迭代输出的预测词向量，x₁,…,X_T表示输入神经网络模型的关键词向量的多维特征；y_t′表示当前时刻模型迭代输出的预测词向量，y₁,…,y_t′-1表示当前时刻之前的各时刻模型迭代输出的预测词向量，c表示概率分布。

优选的，上述关键词造句方法，所述编码网络和解码网络均包括多个门控循环单元。

优选的，上述关键词造句方法，将所述语料库中语句进行分词之前还包括：

对语料库中的语句进行规范化处理，剔除特殊字符、标点符号。

按照本发明的第二个方面，还提供了一种关键词造句装置，其包括：

向量生成模块，用于获取目标关键词，将所述目标关键词进行向量化处理，得到目标关键词向量；

预测模块，用于将所述目标关键词向量输出训练好的神经网络模型中，得到目标关键词在多个场景下对应的目标词序列，将所述目标词序列合并，得到目标关键词对应的目标语句；

按照本发明的第三个方面，还提供了一种计算机设备，其包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述方法的步骤。

按照本发明的第四个方面，还提供了一种计算机可读介质，其存储有可由计算机设备执行的计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的关键词造句方法、装置、计算机设备及可读介质，使用神经网络模型，学习语句对应的词序列向量包含的场景、语气等特征，使模型能够生成多个场景下的语句；使用训练后的模型对输入的关键词进行造句，能够生成不同场景下的多个句子。本发明有效的结合了网络中多场景的信息和康复训练师的语言特点，使模型生成的语句同时具备简易理解，多场景的特点，使听障儿童学习者能够更好的对关键词汇的理解。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例提供的关键词造句方法的流程图；

图2为本实施例提供的神经网络模型训练过程的简易流程图；；

图3是本实施例提供的神经网络模型的结构示意图；

图4是门控循环单元的工作原理示意图；

图5为本实施例提供的计算机设备的逻辑框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明的技术思路是：使用听障儿童语言康复训练大纲词汇表中提取出适合学习的关键词汇。通过关键词汇在网络中小学生作文语料库中提取出包含关键词汇的语句，和现实中听障儿童语言训练过程中康复训练师使用的包含关键词的语句，作为本发明的语料库。通过对该语料库进行预处理，去除语料库中的特殊字符，标点符号等，便于后续的操作。通过对每个语句进行分词操作，得到每个语句对应的词汇序列。再使用词向量技术，将语句对应的词汇序列转化为词汇对应的数字向量。使用Seq2Seq模型，学习语句对应的数字向量包含的场景、语气等特征，使模型能够生成多个场景下的语句。最后再使用模型对输入的关键词进行造句，生成多个场景下的句子。本发明对两方面来源的数据进行了整合，有效的结合了网络中多场景的信息和康复训练师的语言特点，使模型生成的语句同时具备简易理解，多场景的特点，使听障儿童学习者能够更好的对关键词汇的理解。

图1是本实施例提供的关键词造句方法的流程图，参见图1，该方法包括以下步骤：

S100获取目标关键词，将所述目标关键词进行向量化处理，得到目标关键词向量；

S200将所述目标关键词向量输出训练好的神经网络模型中，得到目标关键词在多个场景下对应的目标词序列，将所述目标词序列合并，得到目标关键词对应的目标语句；

本方案使用自然语言生成模型(即神经网络模型)学习海量数据中的机器含义，再使用关键词关联的不同场景下的语句完成自然语言生成模型的训练，最终使用该自然语言生成模型对关键词汇进行造句，供听障儿童语言康复训练师使用，无需训练师按照主观意愿自行造句。使用网络中的多场景数据训练出的模型生成的语句，给语言训练师在使用关键词汇授课提供了一个非常好的参考，避免了语言训练师仅能生成单一重复的语句的问题。

图2为本实施例提供的神经网络模型训练过程的简易流程图；如图2所示，本实施例中，所述神经网络模型的训练过程包括：

S300获取大量关键词以及包含所述关键词的不同场景下的语句，根据所述关键词及语句构造语料库；

本实施例中，关键词的主要来源为听障儿童语言训练课堂的授课大纲，该授课大纲中包含了健康幼童能正常学习理解的大多数词。听障儿童学习是一个长期的过程，在语言训练课堂主要锻炼的是对声音的敏感度，对某个词汇或者某个音调的从陌生到熟悉的过程。但是由于听障儿童在周期较短的康复训练过程中，无法吸收过多，过于复杂的词汇，听障儿童学习者需要先满足其基本的生活要求，因此在从课程大纲中搜集词汇时，需要考虑到词汇的难易程度和生活中出现频率，选择容易见到，出现频率高的词汇，去除了不常见的词汇。避免了在生活中听障儿童学习者不常遇到，就很容易随着时间变得对不常听到的词汇变得不敏感，降低学习质量。

包含关键词的不同场景下的语句按照以下方式收集：(1)搜集在互联网中搜集3-10岁儿童的文字作品中，包含关键词汇相关的语句；网络上的文本资料数量繁多，横跨各个领域，也对应着不同的年龄段，因此本发明在网络上的中小学生作文语料库中提取对应关键词的句子。网络中的文学作品是包含了多种语境场景的，因此接收多场景下的语句会让听障儿童对关键词汇有更深的理解，也便于语言康复训练师考察听障儿童学习者是否真的对关键词汇已经掌握。在语料库中提取的好处：避免了网络中参差不齐的语句质量；便于找到大量的包含关键字的语句；而中小学生作文语料库中找到的语句，更加符合听障儿童学习者年龄段所能接触到的信息。

(2)记录听障儿童语言康复训练课堂中康复训练师所使用的包含关键词汇的语句；听障儿童语言训练课堂中，康复训练师会通过描述关键词汇，或者使用包含关键词汇的语句，对听障儿童学习者进行教学。而这部分语句有一些共同的特征，简单易懂，更容易被学习者所接受，记录下课堂上使用的语句内容，便于生成风格相近，难度适中的语句。

S400将所述语料库中语句进行分词，得到对应的词序列；将每个关键词及与其关联的所有语句对应的词序列进行向量化处理，得到关键词向量和词序列向量；

分词是自然语言处理中比较重要的步骤，此处是指将一个较长的句子，划分为多个字或者词的形式，在使用不同的分词算法或者不同的分词粒度时都会分出不同的字词序列。本实施例将语料库中的语句都进行分词操作，对于每一个语句，就得到了一个对应的词序列。

由于在深度学习模型训练的过程中，本方案是使用向量来不断的优化模型，因此当上述分词操作完成后，得到的还是中文字词序列，需要将它们转化为对应的向量，这些向量就称为词向量。本实施例使用，预训练的词嵌入模型对关键词及与其关联的所有语句对应的词序列进行向量化，在转化为词向量的过程中，每一个词都被映射到多维空间内，相似的词汇或者有共同点的词汇在某一维上的数值会比较相近。通过多维的数值来对应某一个词，便于后续对模型进行训练。

在一个可选的实施例中，在将所述语料库中语句进行分词之前，还对语料库中的语句进行规范化处理，包括但不限于剔除上下文的标识、数据编号、标点符号、特殊字符等。虽然在网络中的语句数量足够，但是其带来的问题就是语句质量良莠不齐，内容并不能保证是全部可用的，可能会有很多特殊字符、标点符号等。在这部分需要将不可使用的语句去除，只保留合适的语句；并且考虑到在词嵌入过程中无法处理的字词，需要对这部分字词进行替换或者删除操作，以便于后续的操作。

S500所述关键词向量及对应的词序列向量构成训练样本，将所述训练样本输出待训练的神经网络模型中，获得神经网络模型输出的预测词向量；

具体的，每一个关键词向量及对应的词序列向量构成一个训练样本，将大量训练样本投入神经网络模型中对其进行训练。

S600计算所述预测词向量与词序列向量之间的误差，根据所述误差反向更新所述神经网络模型的参数，直至误差最小化，得到训练好的神经网络模型。

作为一个具体的示例，该神经网络模型是一个Seq2Seq模型，其用于将一个序列转化为另一个序列，在此处，需要转化的序列就是输入的关键词向量，得到序列就是关键词所对应的语句分词后的词序列向量。将步骤S500中得到的关键词向量作为神经网络的输入，关键词对应的语句映射出的词序列向量作为神经网络的输出，通过神经网络的预测输出和实际的词序列向量的差距，使用误差反向传播算法，反向更新模型中的参数。

当Seq2Seq模型迭代到一定程度，模型已经学习到了多个语句中的上下文的含义以及相关词汇间的关系。当再次输入某个关键词的词向量到模型中，其会输出多个词向量序列，每个词向量序列对应着一个词汇，再通过词嵌入模型，将多个词向量序列拼接，得到一个模型生成的句子。

图3是本实施例提供的神经网络模型的结构示意图，参见图3所示，本实施例中，Seq2Seq模型由两个部分组成，对输入序列的Encoder编码阶段和生成输出序列的Decoder解码阶段，即编码网络部分和解码网络部分；其中，编码网络部分获取输入的关键词向量，提取关键词向量的多维特征，所述多维特征中至少包括场景特征；解码网络部分基于关键词向量的多维特征输出多个预测词向量及其对应的概率分布。编码网络部分和解码网络部分均使用多个门控循环单元(GRU)，构建从序列到序列的模型。

图4是门控循环单元的工作原理示意图，参照附图4，Seq2Seq模型前向传播过程在每个门控循环单元中如下所示：

r_t＝σ(W_rx_t+U_rh_t-1)

z_t＝σ(W_zx_t+U_zh_t-1)

用GRU作为Seq2Seq模型的Encoder编码网络部分的单元，通过将上一步的输出作为当前步的输入，每个时刻使用一个GRU网络单元，将不定长度的输入序列表示成维度固定的内容向量C。其中，σ为Tan激活函数，W，U是模型的权重参数矩阵，其每个下标对应着每个门控单元，r_t是GRU单元重置门的状态，z_t是GRU单元更新门的状态，

是GRU单元候选激活值的状态，h_t是编码器在t时刻的隐藏状态。

C＝h_n

用GRU作为Seq2Seq模型的Decoder解码网络部分的单元，Decoder解码网络将Encoder编码网络部分最终生成的内容向量C作为输入，通过运算单元不断的输出解码结果。其中h_t是解码器Decoder在t时刻的隐藏状态，也是Decoder部分t时刻的输出。

在GRU单元中，可以很好的捕捉序列中距离较大的依赖关系，通过学习的门来控制信息的流动，其引入了重置门(reset gate)和更新门的概念(update gage)，从而修改了循环神经网络中隐藏状态的计算方式。

如图4所示，重置门与更新门的输入都是上一步隐藏状态，重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆保存到当前时间步的量，重置门有助于捕捉字词序列里短期的依赖关系；更新门有助于捕捉字词序列里长期的依赖关系。

将分词后转化的词向量输入Seq2Seq模型，将输入的数据通过神经网络的前向传播，得到预测的序列，再通过预测的序列与实际序列的误差反向传播来更新模型中的权重参数。在生成词向量的步骤，本方案已经将不同的词汇都嵌入到了相同维度。

第一步：对于每一个关键词的输入我们使用64维的向量来作为输入，在通过Encoder部分，对输入的关键词的特征进行提取，将其转化为128维的向量作为Decoder层的初始状态。

第二步：将Encoder层提取出的特征作为初始状态输入到Decoder部分，通过Decoder部分，得到128个维度的输出的概率向量，表示在生成的词向量，使用输出的词向量与原本的语句的词向量的交叉熵作为模型的损失函数。

第三步：使用计算出的损失来更新Seq2Seq模型中的权重参数，使其学习到包含关键词的语句的特征。

Seq2Seq模型是基于输入序列预测未知输出序列的模型。定义输入序列[x₁,x₂,…,x_m],由m个固定长度为d的向量构成；输出序列为[y₁,y₂,…,y_n],由n个固定长度为d的向量构成；解码器每一步的输出要基于上一步的输出和内容向量，所以表示为P(y_t′|y₁,…,y_t′-1,c),然后就可以自定义一个输出层来计算输出序列的概率分布。使用最大似然发法最大化输出序列基于输入序列的条件概率：

使用输出的预测词向量与输入的词序列向量的交叉熵作为神经网络模型的误差，因此损失函数可以表示为：

当模型训练完成之后，当再有新的关键词输入模型，模型可以在编码网络部分输出每个维度对应的词向量，再将词向量转化为对应的词汇并连接起来，即得到了关键词生成的句子。

应当注意，尽管在上述的实施例中，以特定顺序描述了本说明书实施例的方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本实施例提供了一种关键词造句装置，该装置包括：

关于关键词造句装置的具体限定可以参见上文中对于关键词造句方法的限定，在此不再赘述。上述关键词造句装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本实施例还提供了一种计算机设备，如图5所示，其包括至少一个处理器、以及至少一个存储器，其中，存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行上述关键词造句方法的步骤；本实施例中，处理器和存储器的类型不作具体限制，例如：处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等；存储器可以是易失性存储器、非易失性存储器或者它们的组合等。

该计算机设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等)通信，还可与一个或者多个使得用户能与该计算机设备交互的终端通信，和/或与使得该计算机设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算机设备还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键词造句方法，其特征在于，包括：

2.如权利要求1所述的关键词造句方法，其特征在于，所述神经网络模型的训练过程包括：

3.如权利要求2所述的关键词造句方法，其特征在于，所述神经网络模型包括编码网络和解码网络；

4.如权利要求2或3所述的关键词造句方法，其特征在于，所述计算所述预测词向量与词序列向量之间的误差，具体为：

5.如权利要求4所述的关键词造句方法，其特征在于，所述误差表示为：

6.如权利要求3所述的关键词造句方法，其特征在于，所述编码网络和解码网络均包括多个门控循环单元。

7.如权利要求2所述的关键词造句方法，其特征在于，所述将所述语料库中语句进行分词之前还包括：

8.一种关键词造句装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行权利要求1～8任一项所述方法的步骤。

10.一种计算机可读介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～8任一项所述方法的步骤。