CN106372107B

CN106372107B - 自然语言文句库的生成方法及装置

Info

Publication number: CN106372107B
Application number: CN201610697308.5A
Authority: CN
Inventors: 牛国扬; 陈虹; 温海娇; 许慢
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2020-01-17
Anticipated expiration: 2036-08-19
Also published as: CN106372107A; WO2018033030A1; EP3508990A1; EP3508990A4

Abstract

本发明提供了一种自然语言文句库的生成方法及装置，通过本发明，采用根据训练数据集获取字信息；采用预设维数的字向量将字信息转换为待识别的测试集；通过在RNN模型中对待识别的测试集进行训练，生成自然语言文句库的方式，解决了相关技术中构建自然语言文句库的方式需要大量人工干预，操作过程较为复杂的问题，进而达到了识别率高，简单易用，能够满足问答系统、检索系统、专家系统、在线客服、手机助手、私人助理等NLP业务需求的效果。

Description

自然语言文句库的生成方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种自然语言文句库的生成方法及装置。

背景技术

随着计算机和网络科技的发展，人们在日常工作和生活中，随处可以碰到人工智能(AI)的应用，而人工智能又与文本文字的处理密切相关，即自然语言处理(NLP)。进一步地，考虑到以文字(非词语)为基础的自然语言文句库又是自然语言处理的基础，因此，构建字的基础文句库十分必要，其原因在于：该基础文句库能够支撑自然语言处理的诸多任务，例如：拼写纠错、输入联想、成句判断、对话生成等。

在大数据和人工智能高速发展的今天，文字作为一种重要的信息载体发挥着不可替代的作用，准确地处理文字信息，能够提高NLP系统的服务质量，改善用户体验，是自然语言理解范畴中的一个重要课题，其研究迫在眉睫。

发明内容

本发明提供了一种自然语言文句库的生成方法及装置，以至少解决相关技术中构建自然语言文句库的方式需要大量人工干预，操作过程较为复杂的问题。

根据本发明的一个方面，提供了一种自然语言文句库的生成方法，包括：

根据训练数据集获取字信息；采用预设维数的字向量将字信息转换为待识别的测试集；通过在循环神经网络(RNN)模型中对待识别的测试集进行训练，生成自然语言文句库。

可选地，根据训练数据集获取字信息包括：对训练数据集中每个字符的出现频率进行统计，其中，字符包括以下至少之一：文字、数字、符号；将出现频率大于预设阈值的字符按照预设顺序进行排序，得到字信息。

可选地，RNN模型包括：输入层、隐藏层和输出层，其中，输入层与隐藏层相邻，隐藏层与输出层相邻。

可选地，通过在RNN模型中对待识别的测试集进行训练，生成自然语言文句库包括：从为RNN模型配置的RNN模型参数中提取隐藏层的个数以及每个隐藏层的神经元数目，训练数据截取长度；根据训练数据截取长度和预设维数计算得到输入层的神经元数目；按照字信息所包含字符的个数设置输出层的神经元数目；根据隐藏层的个数以及每个隐藏层的神经元数目，输入层的神经元数目和输出层的神经元数目对待识别的测试集中的每个字符进行训练，生成自然语言文句库。

可选地，在通过在RNN模型中对待识别的测试集进行训练，生成自然语言文句库之后，还包括以下之一：采用自然语言文句库验证当前接收到的语句是否为异常语句；采用自然语言文句库预测当前接收到的语句接续出现的字符。

可选地，采用自然语言文句库验证当前接收到的语句是否为异常语句包括：确定当前接收到的语句所包含的字符个数以及当前接收到的语句的验证方向；在所述自然语言文句库中按照所述验证方向计算所述当前接收到的语句所包含的每个字符的概率；根据每个字符的概率计算述当前接收到的语句为正常语句的概率。

可选地，采用自然语言文句库预测当前接收到的语句接续出现的字符包括：确定当前接收到的语句所包含的字符个数，当前接收到的语句的验证方向以及待预测字符的备选字符的数量；在自然语言文句库中按照验证方向计算当前接收到的语句所包含的每个字符的概率；根据每个字符的概率和待预测的备选字符的数量计算每个备选字符的出现概率。

根据本发明的另一方面，提供了一种自然语言文句库的生成装置，包括：

获取模块，用于根据训练数据集获取字信息和字向量；转换模块，用于采用预设维数的字向量将字信息转换为待识别的测试集；生成模块，用于通过在循环神经网络RNN模型中对待识别的测试集进行训练，生成自然语言文句库。

可选地，获取模块包括：统计单元，用于对训练数据集中每个字符的出现频率进行统计，其中，字符包括以下至少之一：文字、数字、符号；第一获取单元，用于将出现频率大于预设阈值的字符按照预设顺序进行排序，得到字信息。

可选地，生成模块包括：提取单元，用于从为RNN模型配置的RNN 模型参数中提取隐藏层的个数以及每个隐藏层的神经元数目，训练数据截取长度；第一计算单元，用于根据训练数据截取长度和预设维数计算得到输入层的神经元数目；设置单元，用于按照字信息所包含字符的个数设置输出层的神经元数目；生成单元，用于根据隐藏层的个数以及每个隐藏层的神经元数目，输入层的神经元数目和输出层的神经元数目对待识别的测试集中的每个字符进行训练，生成自然语言文句库。

可选地，上述装置还包括：处理模块，用于采用自然语言文句库验证当前接收到的语句是否为异常语句；或者，采用自然语言文句库预测当前接收到的语句接续出现的字符。

可选地，处理模块包括：确定单元，用于确定当前接收到的语句所包含的字符个数以及当前接收到的语句的验证方向；第二计算单元，用于在自然语言文句库中按照验证方向计算当前接收到的语句所包含的每个字符的概率；第三计算单元，用于根据每个字符的概率计算述当前接收到的语句为正常语句的概率。

可选地，处理模块包括：确定单元，用于确定当前接收到的语句所包含的字符个数，当前接收到的语句的验证方向以及待预测的备选字符的数量；第二计算单元，用于在自然语言文句库中按照验证方向计算当前接收到的语句所包含的每个字符的概率；第三计算单元，用于根据每个字符的概率和待预测的备选字符的数量计算每个备选字符的出现概率。

通过本发明，采用根据训练数据集获取字信息，采用预设维数的字向量将字信息转换为待识别的测试集以及通过在RNN模型中对待识别的测试集进行训练，生成自然语言文句库的方式，解决了相关技术中构建自然语言文句库的方式需要大量人工干预，操作过程较为复杂的问题，进而达到了识别率高，简单易用，能够满足问答系统、检索系统、专家系统、在线客服、手机助手、私人助理等NLP业务需求的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的自然语言文句库的生成方法的流程图；

图2是根据本发明优选实施例的应用自然语言文句库执行拼写纠错过程的示意图；

图3是根据本发明优选实施例的应用自然语言文句库执行输入联想过程的示意图；

图4是根据本发明优选实施例的应用自然语言文句库执行成句判断过程的示意图；

图5是根据本发明优选实施例的应用自然语言文句库执行对话生成过程的示意图；

图6是根据本发明实施例的自然语言文句库的生成装置的流程图；

图7是根据本发明优选实施例的自然语言文句库的生成装置的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在本实施例中提供了一种自然语言文句库的生成方法，图1是根据本发明实施例的自然语言文句库的生成方法的流程图，如图1所示，该流程包括如下步骤：

步骤S12，根据训练数据集获取字信息；

步骤S14，采用预设维数的字向量将字信息转换为待识别的测试集；

步骤S16，通过在循环神经网络(Recursive neural networks，简称为 RNN)模型中对待识别的测试集进行训练，生成自然语言文句库。

通过上述步骤，提供了一种自然语言文句库的构建方法，其主要面向问答系统、检索系统、专家系统、在线客服、手机助手、私人助理等，对中文自然语言进行处理；尤其适用于自然语言处理NLP、人工智能AI、智能问答、文本挖掘等领域。本发明实施例所提供的自然语言文句库是基于深度学习的RNN循环神经网络模型来实现的，其充分利用上下文中蕴含的大量信息，总结文字与文字之间的关系，文字与语句之间的关系，文字与字符之间的关系，字符与字符之间的关系以及文字与上下文之间的关系，创建自然语言基础知识数据，用于支撑多种NLP自然语言处理任务；即采用根据训练数据集获取字信息和字向量，并通过在RNN模型中对训练数据集、字信息、字向量以及预先配置的RNN模型参数进行训练，生成自然语言文句库的方式，从而解决了相关技术中构建自然语言文句库的方式需要大量人工干预，操作过程较为复杂的问题，进而达到了人工干预少，简单快捷，易于实施，且准确率高的效果。

在优选实施过程中，上述RNN模型可以包括：输入层、隐藏层和输出层，其中，输入层与隐藏层相邻，隐藏层与输出层相邻。

预先配置的RNN模型参数可以包括但不限于：

(1)输入层的神经元数目I，例如：I＝50；

(2)隐藏层的个数以及每个隐藏层所包含的神经元数目，例如：当前存在3个隐藏层，其分别为：H1，H2，H3，其中，H1代表第1个隐藏层，H2代表第2个隐藏层，H3代表第3个隐藏层；上述隐藏层参数可以根据过往经验来进行设置，例如：H1＝200,H2＝800,H3＝3200，…；

(3)输出层的神经元数目K，K还可以表示字信息的个数，例如： K＝5000；

(4)训练数据的截取长度W；

上述训练数据集可以为大量文本数据；假设选取N(例如：N＝20万) 条门户网站(例如：腾讯)发布的新闻信息，其数量越多越好。

在具体实施过程中，可以对选取的新闻信息进行分段，每段一行，当然，也可以不分段，每篇文章一行，并将结果存储在data.txt文本中，其形式如下：

但是自建自住的如果出租，甚至于也有转让的可能性，不管采取什么形式都有转让。

他总是在我身边嚷嚷，我怎么睡得着呢，娄淑元醒来后精神很好。

在油价波动方向不确定、且波动幅度较大的情况下，适当收取燃油附加费是应对油价波动的有效措施。

超市老板娘潘某也发现钙奶里有一股煤气的味道，于是给小诺换了一瓶。

张颖不但自称中央电视台记者，还恐吓他要曝光，并踢了他几脚。

可选地，在步骤S12中，根据训练数据集获取字信息可以包括以下执

步骤S121，对训练数据集中每个字符的出现频率进行统计，其中，字符包括以下至少之一：文字、数字、符号；

步骤S122，将出现频率大于预设阈值的字符按照预设顺序进行排序，得到字信息。

通过统计字信息(注：这里不是词信息)，为后续的RNN训练及RNN 文句库的使用做准备。具体地，经过对训练数据集进行统计，总共有5000 多个常用字。这些字都是常用的简体字、数字、符号等。

为了方便，在后续描述中，设置字信息个数K＝5000；

假设其编号如下：

……

114:上

115:下

116:不

117:与

118:且

119:丑

120:专

……

需要说明的是，前边的数字并非是指字的个数，而是指字的编号，该编号从0开始按照从小到大的顺序依次排列；在编号确定后，每个字对应的编号在训练和测试的过程中将不再改变。

由于中文常用字总体是不会变化的，也很少创造新字，因此，此处的 “字信息”一旦确定后，不但训练医药领域的信息可以使用，而且训练其他任何领域的文字信息都可以使用，例如：通信领域、机械领域。

准备字向量，其与词向量的原理相近似，使用本技术领域通用的形式即可；

此处训练的向量长度(即上述预设维数)是S，假设S＝50，即为50 维的字向量；

字向量的形式如下：

上[0.1525,0.3658,0.1634,0.2510,…]

下[0.1825,0.2658,0.1834,0.2715,…]

在本发明的优选实施例中，选用字向量而并非使用词向量的原因在于：字的数量较少且相对稳定，而词的数量较多且不断涌现新生词汇。特别是，将RNN文句库用于“拼写纠错”时，语句本身可能有错别字，会影响分词的准确率，故而本发明优选实施例使用字向量而不使用词向量。

同理，由于中文常用字总体是不会变化的，也很少创造新字，故此处的“字向量”一旦确定后，不但训练医药领域的信息可以使用，而且训练其他任何领域的文字信息都可以使用，例如：通信领域、机械领域。

可选地，在步骤S16中，通过在RNN模型中对待识别的测试集进行训练，生成自然语言文句库可以包括以下执行步骤：

步骤S161，从为RNN模型配置的RNN模型参数中提取隐藏层的个数以及每个隐藏层的神经元数目，训练数据截取长度；

步骤S162，根据训练数据截取长度和预设维数计算得到输入层的神经元数目；

步骤S163，按照字信息所包含字符的个数设置输出层的神经元数目；

步骤S164，根据隐藏层的个数以及每个隐藏层的神经元数目，输入层的神经元数目和输出层的神经元数目对待识别的测试集中的每个字符进行训练，生成自然语言文句库。

通过将训练数据集和预先配置的RNN模型参数输入至RNN模型中，反复训练，直到参数变化小于X(该参数可配置，例如：X＝0.001)为止，进而通过RNN训练将会得到N个权重矩阵，即RNN模型下的文句库，然后，再将RNN权重矩阵保存为一个二进制文件weight.rnn，供后续自然语言处理时使用。当然，为了提高文句库的准确性，训练时需要分别进行正向训练和反向训练，从而得到两套权重系数。

具体地，本发明实施例是基于RNN循环神经网络实现的一种文句库，其为一种基于深度学习(DL)的文句库。

根据RNN循环神经网络的具体结构可以确定包括以下部分：

(1)输入层

假设输入X个字，即I＝X*字向量的维数；

当X＝1，字向量的维数为50，则I＝50；

当X＝2，字向量的维数为50，则I＝100；

在优选实施例中，选用单字进行训练，即X＝1，I＝50；

此处，需要说明的是，X的取值越大，训练的RNN模型越准确，但是训练的工作量也随之增大。

(2)隐藏层

此处需要确定隐藏层个数与每个隐藏层的神经元数量。

假设有3个隐藏层的RNN模型，则可以设置H1＝200，H2＝800， H3＝2000，H可以根据过往经验来进行设置；在优选实施过程中，设置1 个隐藏层，其神经元的数目为H＝200。

另外，需要说明的是，隐藏层的个数越多，训练的模型越准确，但是训练的工作量也随之增大。

(3)输出层

输出层的神经元数量K可以与字信息的数目保持一致；

在优选实施过程中，设置为K＝5000。

上述训练过程的目的在于获取N对权重矩阵，N的取值大小与RNN 隐藏层的数量相关；

当有1个隐藏层时，将会得到N＝3个权重矩阵；

当有2个隐藏层时，将会得到N＝5个权重矩阵；

当有3个隐藏层时，将会得到N＝7个权重矩阵；

假设当前设置1个隐藏层，其神经元的数目为200，1个输入层，其神经元的数目为50以及1个输出层，其神经元的数目为5000；另外，采用i表示输入层，h表示隐藏层，k表示输出层，则由此可以得到3个权重矩阵：

(1)Wih输入层-隐藏层的权重矩阵；

(2)Whk隐藏层-输出层的权重矩阵；

(3)Whh隐藏层-隐藏层的权重矩阵；

由于使用双向训练，故最终获得的权重矩阵个数为2N。

另外，字信息是在RNN计算误差时使用，字向量是在“训练数据集” 的字转换为计算机能够识别的数字信息时使用。

通过上述介绍，隐藏层的神经元的计算公式如下：

θ_h是激活函数I输入节点个数H隐藏层神经元数

输出层的神经元的计算公式如下：

θ_k是Softmax函数H是隐层神经元个数K是输出层神经元个数

通过反复训练(假设训练2000遍)，其目的在于：得到N对权重矩阵，即W权重文件。

权重文件的格式为：P-Q,X-Y,W；

其中，P为上层神经网络序号，Q为下层神经网络序号，X为上层神经元序号，Y为下层神经元序号，W为RNN模型中两个不同神经元序号之间连接对应的权值；

其对应的示例如下：

0-1,1-1,0.3415

0-1,1-2,0.5415

0-1,1-3,0.6415

1-2,1-1,0.4715

1-2,1-2,0.5415

1-2,1-3,0.6415

2-2,1-1,0.7415

2-2,1-2,0.8415

2-2,1-3,0.9015

……

可选地，在步骤S16，通过在RNN模型中对待识别的测试集进行训练，生成自然语言文句库之后，还可以包括以下执行步骤之一：

步骤S17，采用自然语言文句库验证当前接收到的语句是否为异常语句；

步骤S18，采用自然语言文句库预测当前接收到的语句接续出现的字符。

对自然语言文句库的使用可以通过“NLP在线接口”来进行，即，通过NLP在线接口可以实现拼写纠错、输入联想、成句判断、对话生成等自然语言处理功能；其中，NLP在线接口还可以包括：概率接口和预测接口，这两种的发送消息格式与接收消息格式分别如下：

(1)“概率接口”发送的消息格式如表1所示，

表1

名称	说明	举例
			DomainType	领域	通用领域001；医药领域002；电信领域003；等
TrainForward	方向	ture是正向预测，false是反向预测；
			Sentence	语句	具体要处理的语句：你叫什么名子？

(2)“概率接口”返回的消息格式如表2所示，

表2

名称	说明	举例
			Probability	语句概率	成句的概率，比如0.4501；
Word1Prob	字1概率	第1个字的概率，比如0.2536
			Word2Prob	字2概率	第2个字的概率，比如0.3536
Word3Prob	字3概率	第3个字的概率，比如0.2736
			…	…	…
WordNProb	字N概率	第N个字的概率，比如0.5636

(3)“预测接口”发送的消息格式如表3所示，

表3

名称	说明	举例
			DomainType	领域	通用领域001；医药领域002；电信领域003；等
TrainForward	方向	ture是正向预测，false是方向预测；
			Sentence	语句	具体要处理的语句：你叫什么名字？
ForecastNum	预测字数	预测语句下一个字时，显示的字个数N；

(4)“预测接口”返回的消息格式如表4所示，

表4

名称	说明	举例
			Forecast1	第1个字	语句下一个字及其概率；比如:车0.2523
Forecast2	第2个字	语句下一个字及其概率；比如:人0.2323
			Forecast3	第3个字	语句下一个字及其概率；比如:电0.2023
…	…	…
			ForecastN	第N个字	语句下一个字及其概率；比如:学0.1923

可选地，在步骤S17中，采用自然语言文句库验证当前接收到的语句是否为异常语句可以包括以下执行步骤：

步骤S171，确定当前接收到的语句所包含的字符个数以及当前接收到的语句的验证方向；

步骤S172，在所述自然语言文句库中按照所述验证方向计算所述当前接收到的语句所包含的每个字符的概率；

步骤S173，根据每个字符的概率计算述当前接收到的语句为正常语句的概率。

在生成自然语言文句库之后，可以通过自然语言文句库计算用户输入的语句中各个字的概率和整个句子的平均概率；

例如：我爱我们的祖国。

其中，各个字的概率分别为：

<我0.000><爱0.0624><我0.2563><们0.2652><的0.2514><祖 0.2145><国0.2145>

整个语句的平均概率为：0.2850

在优选实施过程中，通过“NLP在线接口”中的“概率接口”对语句概率进行计算，需要按照规定的数据格式进行交互；

例如，用户录入的语句是“我想去商场买双鞋”，其消息的发送形式和返回形式分别如下；

“概率接口”发送消息的格式如下

<？xml version＝"1.0"encoding＝"utf-8"？>

<RNN>

<Sentence>我想去商场买双鞋</Sentence>

</RNN>

其中，DomainType为领域类型，例如：001为通用领域、002为电信领域、003为医药领域…，TrainForward为预测方向，例如：true为正向预测、false为反向预测，Sentence为具体要处理的语句。

“概率接口”返回消息的格式如下

<？xml version＝"1.0"encoding＝"utf-8"？>

<RNN>

</RNN>

其中，Probability为成句概率，即这个语句是正确语句的概率， Word1Prob为字的概率，经过了归一化处理。

可选地，在步骤S18中，采用自然语言文句库预测当前接收到的语句接续出现的字符可以包括以下执行步骤：

步骤S181，确定当前接收到的语句所包含的字符个数，当前接收到的语句的验证方向以及待预测字符的备选字符的数量；

步骤S182，在自然语言文句库中按照验证方向计算当前接收到的语句所包含的每个字符的概率；

步骤S183，根据每个字符的概率和待预测的备选字符的数量计算每个备选字符的出现概率。

在生成自然语言文句库之后，可以根据部分语句预测句子的下一个字的概率，即可以计算出句子下一个的字概率；

例如：我爱我们的祖(*)。

<国0.6012>

<先0.2017>

<宗0.0254>

……

由于文句库充分利用了语句上下文信息，故其概率统计会根据具体语境的变化而有所不同，其具体示例如下：

示例一、我大学毕业了，我每天要去上(*)。

<班0.2412>

<学0.1017>

示例二、我今年八岁了，我每天要去上(*)。

<班0.1016>

<学0.1517>

此处需要说明的是，在训练过程中可以分两个方向；一个是正向，即从左到右；一个是反向，从右到左，即双向训练，得到两组权重矩阵，其目的在于：提高NLP处理的准确性。

在优选实施过程中，通过“NLP在线接口”中的“预测接口”对语句进行预测，同样需要按照规定的数据格式进行交互；

例如：用户录入的语句“社会主义国”，其消息的发送形式和返回形式分别如下；

“预测接口”发送消息的格式如下

<？xml version＝"1.0"encoding＝"utf-8"？>

<RNN>

<Sentence>社会主义国</Sentence>

</RNN>

其中，DomainType为领域类型，例如：001为通用领域、002为电信领域、003为医药领域…，TrainForward为预测方向，例如：true为正向预测、false为反向预测，Sentence为具体要处理的语句，ForecastNum为预测字的数量，即显示多少预测的值

“预测接口”返回消息的格式如下：

<？xml version＝"1.0"encoding＝"utf-8"？>

<RNN>

</RNN>

其中，Forecast1为字的概率，其经过了归一化处理。

通过上述分析，构建一个基于循环神经网络的自然语言文句库，即通过使用RNN的深度学习模型为NLP做数据支撑，其原理在于：先收集语料并使用RNN模型进行训练，得到RNN模型下的自然语言文句库；再利用该自然语言文句库进行自然语言处理，其中，自然语言处理可以包括但不限于：拼写纠错、输入联想、成句判断、对话生成。

下面将结合以下优选实施方式对上述优选实施过程作进一步地描述。

文句库使用示例一：拼写纠错

图2是根据本发明优选实施例的应用自然语言文句库执行拼写纠错过程的示意图。如图2所示，在该文句库使用示例中，对于待纠错语句，需要逐字进行处理。在处理过程中，可以分别采用正向和反向文句库进行处理，其中，正向和反向处理的原理基本相同，其目的在于：提高纠错的准确率。

在自然语言处理的过曾中，通常反向处理比正向处理更为准确；考虑到准确率比召回率更为重要，故而使用双向处理，以便提高准确率。

例如：我想去商厂买一双鞋子

当处理第i(例如：i＝5)个字“厂”时，可以分为三种情况，即替换、添加、删除；选取概率大的新字；并加入到“候选纠错集”，具体可以包括以下处理步骤：

第一步、处理第i个字，根据预测接口生成“候选纠错集”数据，包括添加、删除、替换操作；例如：我想去商<>买一双鞋子。

我想去商<店>买一双鞋子

我想去商<场>买一双鞋子

我想去商厂<门>买一双鞋子

……

第二步、对句子中每个字均执行上述第一步操作，进而得到完整的“候选纠错集”。

第三步、计算句子双向的平均概率，选取概率较大的N(例如：N＝30) 个新语句。

此处需要句子的正向和反向平均概率都比较大才能被选取。

第四步、假设平均概率最大的句子的概率为P1，平均概率第二大的句子的概率为P2，如果P1>P2+X，其中，X可配置，根据过往经验可以设定X＝0.2，则P1语句即是纠错的语句。

另一种表达方式为：概率最大的语句(P1)远远大于概率第二的语句 (P2)。

第五步、根据研究结果表明，同音字错误的情况十分常见，在该步骤中将单独处理同音字。

具体地，将原始字和N个新字都转换为拼音，如果存在1个同音新字，则该语句即为纠错语句；

例如：原始语句：我想去商厂买一双鞋子

新的语句：我想去商场买一双鞋子——A

我想去商店买一双鞋子——B

则通常认为同音的A语句是纠错结果语句。

需要说明的是，该步骤为可选步骤。

第六步、可以判断“形近字”、“常错字”等，其主要目的在于：辅助筛选。

第七步、如果“候选纠错集”为空，则说明原始语句正常，无需纠错；如果“候选纠错集”只有1条数据，则该数据即是纠错语句；如果“候选纠错集”数据大于2，则无需纠错。

需要说明的是，对于拼写纠错而言，考虑到准确率相对于召回率更为重要，故而在无法判别那个是纠错语句时，便可以先行决定放弃纠错。

文句库使用示例二：输入联想

图3是根据本发明优选实施例的应用自然语言文句库执行输入联想过程的示意图。如图3所示，在该文句库使用示例中，为了便于用户录入，当用户录入语句的前半句时，自动提示后半句的内容；

例如；用户录入的语句为“我想买1000元左右的电”时，后边直接提示“视机”或“脑”，可以利用“NLP在线接口”实现本功能，具体可以包括以下执行步骤：

第一步、根据“前半语句”预测后续的一个字，选取概率最高的K个字。

例如：预测“我想买1000元左右的电”下一个字以及该字对应的概率；

<视0.3>

<脑0.28>

<动0.1>

第二步、判断上述语句是否已经达到长度限制；如果达到长度限制，则继续执行下一步；如果没有达到长度限制，则将当前预测的字添加到“前半语句”，返回执行第一步，例如：重新预测“我想买1000元左右的电视”。

第三步利用“概率接口”计算所有“联想筛选项”概率。

例如：

我想买1000元左右的电<脑>0.6502

我想买1000元左右的电<动车>0.6421

我想买1000元左右的电<视机>0.5241

……

第四步根据概率选取概率最大的M个选项，得到最终联想词。

文句库使用示例三：成句判断

图4是根据本发明优选实施例的应用自然语言文句库执行成句判断过程的示意图。如图4所示，在NLP处理过程中，有时需要判断语句是否为正常语句，即成句判断。

例如：在智能问答系统中，有些用户通常随意录入一些“不成语句” 的语句，来验证系统的分析能力；如何识别这些语句，此处便需要使用到 “成句判断”功能。

假设用户录入的语句为“来啊爱的到量开太噢同”，如何能够判断该语句是否为正常语句，则可以回复“请说人话”，或者“你的表达很深奥啊”等回复；其可以包括以下执行步骤：

第一步、根据“概率接口”生成语句正向概率；如果概率小于阈值A，则判断该语句不是正常的语句，流程结束；否则，继续执行下一步。

第二步、根据“概率接口”生成语句反向概率；如果概率小于阈值B，则判断该语句不是正常的语句，流程结束；否则，继续执行下一步。

第三步、对上述生成的正向概率和反向概率进行加权求和运算，如果计算出的概率小于阈值C，则判断该语句不是正常的语句，流程结束；否则，如果计算出的概率大于或等于阈值C，则确定该语句为正常语句，流程结束。

文句库使用示例四：对话生成

图5是根据本发明优选实施例的应用自然语言文句库执行对话生成过程的示意图。如图5所示，在NLP处理过程中，通常需要生成语句；例如，在问答系统中，当理解用户的意图后，需要根据用户的意图组织语句进行答复；

例如：首都北京人口

理解：通过查询得到——首都北京人口2000万

生成对话：首都北京的人口是2000万左右

该过程具体可以包括以下执行步骤：

第一步、确定对话生成的素材。

例如：素材为“首都、北京、人口、2000万”

第二步、对素材进行排列组合。

排列组合结果为以下之一：

首都、北京、人口、2000万

北京、首都、人口、2000万

人口、首都、北京、2000万

首都、人口、北京、2000万

……

第三步根据“预测接口”添加辅助词，生成待选语句。

例如：

首都、的、北京、人口、有、2000万，左右

北京、首都、的、人口、2000万

人口、首都、是、北京、2000万

首都、人口、有、北京、2000万，多

……

第四步、根据“概率接口”计算“待选语句”概率，其可以根据预先设定的阈值，对语句进行筛选。

第五步、根据预设策略选择合适的对话。

例如：

策略一、选择概率最高的对话，增加问答的准确性；

策略二、随机从筛选后的语句中选择不同的对话，增加问答的拟人效果。

通过上述优选实施例，整个自然语言文句库都是以RNN训练模型为基础，文字与文字之间的关系，文字与语句之间的关系，以及文字与上下文之间的关系，都是通过该训练流程得到的。为了提高文句库的可扩展性，用户可以添加新的领域数据或扩展原有领域的语料；“NLP在线接口”主要是展示文句库对外提供的服务；该接口提供的服务为基本文字信息，用户可以根据该基本文字信息执行不同的NLP自然语言应用，例如：拼写纠错、输入联想、成句判断、对话生成。另外，RNN神经网络结构是自然语言文句库的理论基础，RNN神经网络结构能够充分地利用语句上下文信息来构造文句库，且不需要人工干预，从而能够大量地减少人工操作的工作量。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种自然语言文句库的生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

在本实施例中还提供了一种自然语言文句库的生成装置，图6是根据本发明实施例的自然语言文句库的生成装置的流程图，如图6所示，该自然语言文句库的生成装置可以包括：获取模块10，用于根据训练数据集获取字信息和字向量；转换模块20，用于采用预设维数的字向量将字信息转换为待识别的测试集；生成模块30，用于通过在循环神经网络RNN模型中对待识别的测试集进行训练，生成自然语言文句库。

可选地，图7是根据本发明优选实施例的自然语言文句库的生成装置的流程图，如图7所示，获取模块10可以包括：统计单元100，用于对训练数据集中每个字符的出现频率进行统计，其中，字符包括以下至少之一：文字、数字、符号；获取单元102，用于将出现频率大于预设阈值的全部字符设置为字信息。

可选地，如图7所示，生成模块30可以包括：提取单元300，用于从为RNN模型配置的RNN模型参数中提取隐藏层的个数以及每个隐藏层的神经元数目，训练数据截取长度；第一计算单元302，用于根据训练数据截取长度和预设维数计算得到输入层的神经元数目；设置单元304，用于按照字信息所包含字符的个数设置输出层的神经元数目；生成单元306，用于根据隐藏层的个数以及每个隐藏层的神经元数目，输入层的神经元数目和输出层的神经元数目对待识别的测试集中的每个字符进行训练，生成自然语言文句库。

可选地，如图7所示，上述装置还可以包括：处理模块40，用于采用自然语言文句库验证当前接收到的语句是否为异常语句；或者，采用自然语言文句库预测当前接收到的语句接续出现的字符。

可选地，如图7所示，处理模块40可以包括：确定单元400，用于确定当前接收到的语句所包含的字符个数以及当前接收到的语句的验证方向；第二计算单元402，用于在自然语言文句库中按照验证方向计算当前接收到的语句所包含的每个字符的概率；第三计算单元404，用于根据每个字符的概率计算述当前接收到的语句为正常语句的概率。

可选地，处理模块40可以包括：确定单元400，还用于确定当前接收到的语句所包含的字符个数，当前接收到的语句的验证方向以及待预测的备选字符的数量；第二计算单元402，还用于在自然语言文句库中按照验证方向计算当前接收到的语句所包含的每个字符的概率；第三计算单元 404，还用于根据每个字符的概率和待预测的备选字符的数量计算每个备选字符的出现概率。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述模块分别位于多个处理器中。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自然语言文句库的生成方法，其特征在于，包括：

根据训练数据集获取字信息；

采用预设维数的字向量将所述字信息转换为待识别的测试集；

通过在循环神经网络RNN模型中对所述待识别的测试集进行训练，生成自然语言文句库；其中，通过在循环神经网络RNN 模型中对所述待识别的测试集进行训练，生成自然语言文句库包括：通过在循环神经网络RNN 模型中对所述待识别的测试集进行反复训练直到参数变化小于预定参数后得到N个权重矩阵，将所述N个权重矩阵保存为二进制文件以得到所述自然语言文句库。

2.根据权利要求1所述的方法，其特征在于，根据所述训练数据集获取所述字信息包括：

对所述训练数据集中每个字符的出现频率进行统计，其中，所述字符包括以下至少之一：文字、数字、符号；

将出现频率大于预设阈值的字符按照预设顺序进行排序，得到所述字信息。

3.根据权利要求2所述的方法，其特征在于，所述RNN模型包括：输入层、隐藏层和输出层，其中，所述输入层与所述隐藏层相邻，所述隐藏层与所述输出层相邻。

4.根据权利要求3所述的方法，其特征在于，通过在所述RNN模型中对所述待识别的测试集进行训练，生成所述自然语言文句库包括：

从为所述RNN模型配置的RNN模型参数中提取隐藏层的个数以及每个隐藏层的神经元数目，训练数据截取长度；

根据所述训练数据截取长度和所述预设维数计算得到所述输入层的神经元数目；

按照所述字信息所包含字符的个数设置所述输出层的神经元数目；

根据所述隐藏层的个数以及每个隐藏层的神经元数目，所述输入层的神经元数目和所述输出层的神经元数目对所述待识别的测试集中的每个字符进行训练，生成所述自然语言文句库。

5.根据权利要求4所述的方法，其特征在于，在通过在所述RNN模型中对所述待识别的测试集进行训练，生成自然语言文句库之后，还包括以下之一：

采用所述自然语言文句库验证当前接收到的语句是否为异常语句；

采用所述自然语言文句库预测当前接收到的语句接续出现的字符。

6.根据权利要求5所述的方法，其特征在于，采用所述自然语言文句库验证所述当前接收到的语句是否为所述异常语句包括：

确定所述当前接收到的语句所包含的字符个数以及所述当前接收到的语句的验证方向；

在所述自然语言文句库中按照所述验证方向计算所述当前接收到的语句所包含的每个字符的概率；

根据每个字符的概率计算述当前接收到的语句为正常语句的概率。

7.根据权利要求5所述的方法，其特征在于，采用所述自然语言文句库预测所述当前接收到的语句接续出现的字符包括：

确定所述当前接收到的语句所包含的字符个数，所述当前接收到的语句的验证方向以及待预测的备选字符的数量；

根据每个字符的概率和所述待预测的备选字符的数量计算每个备选字符的出现概率。

8.一种自然语言文句库的生成装置，其特征在于，包括：

获取模块，用于根据训练数据集获取字信息；

转换模块，用于采用预设维数的字向量将所述字信息转换为待识别的测试集；

生成模块，用于通过在循环神经网络RNN模型中对所述待识别的测试集进行训练，生成自然语言文句库；其中，所述生成模块用于通过如下方式在循环神经网络RNN模型中对所述待识别的测试集进行训练，生成自然语言文句库：通过在循环神经网络RNN 模型中对所述待识别的测试集进行反复训练直到参数变化小于预定参数后得到N个权重矩阵，将所述N个权重矩阵保存为二进制文件以得到所述自然语言文句库。

9.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

统计单元，用于对所述训练数据集中每个字符的出现频率进行统计，其中，所述字符包括以下至少之一：文字、数字、符号；

第一获取单元，用于将出现频率大于预设阈值的字符按照预设顺序进行排序，得到所述字信息。

10.根据权利要求9所述的装置，其特征在于，所述RNN模型包括：输入层、隐藏层和输出层，其中，所述输入层与所述隐藏层相邻，所述隐藏层与所述输出层相邻。

11.根据权利要求10所述的装置，其特征在于，所述生成模块包括：

提取单元，用于从为所述RNN模型配置的RNN模型参数中提取隐藏层的个数以及每个隐藏层的神经元数目，训练数据截取长度；

第一计算单元，用于根据所述训练数据截取长度和所述预设维数计算得到所述输入层的神经元数目；

设置单元，用于按照所述字信息所包含字符的个数设置所述输出层的神经元数目；

生成单元，用于根据所述隐藏层的个数以及每个隐藏层的神经元数目，所述输入层的神经元数目和所述输出层的神经元数目对所述待识别的测试集中的每个字符进行训练，生成所述自然语言文句库。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

处理模块，用于采用所述自然语言文句库验证当前接收到的语句是否为异常语句；或者，采用所述自然语言文句库预测当前接收到的语句接续出现的字符。

13.根据权利要求12所述的装置，其特征在于，所述处理模块包括：

确定单元，用于确定所述当前接收到的语句所包含的字符个数以及所述当前接收到的语句的验证方向；

第二计算单元，用于在所述自然语言文句库中按照所述验证方向计算所述当前接收到的语句所包含的每个字符的概率；

第三计算单元，用于根据每个字符的概率计算述当前接收到的语句为正常语句的概率。

14.根据权利要求12所述的装置，其特征在于，所述处理模块包括：

确定单元，用于确定所述当前接收到的语句所包含的字符个数，所述当前接收到的语句的验证方向以及待预测的备选字符的数量；

第三计算单元，用于根据每个字符的概率和所述待预测的备选字符的数量计算每个备选字符的出现概率。