CN111177370B

CN111177370B - 一种自然语言处理的算法

Info

Publication number: CN111177370B
Application number: CN201911222374.7A
Authority: CN
Inventors: 孙践知; 蔡添; 刘瑞军; 王向上
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-08-11
Anticipated expiration: 2039-12-03
Also published as: CN111177370A

Abstract

本发明公开了一种自然语言处理的算法，包括以下步骤：S1：获取需要处理的自然语言文本；S2：将自然语言文本中的字符串转化为词向量；S3：根据待处理中自然语言文本的词向量，可以查找出数据库中具有相同词向量的训练文本；S4：对每一个词向量，计算其属于数据库中具有相同词向量的训练文本的哪一类，对每一类训练文本，计算其类的质心，并进行收敛；S5：从最接近类别中获得该词向量所代表的含义，直到将待处理的自然语言文本中所有词向量的含义表示出来。本发明通过对每个词向量进行聚类分析，从而确定每个词向量中的类别以及词向量所代表的含义，可以精准的分析出待测自然语言文本所表达的内容，从而降低计算误差，提高语言表达的准确率。

Description

一种自然语言处理的算法

技术领域

本发明涉及信息处理技术领域，特别涉及一种自然语言处理的算法。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学，如何将自然语言有效的与计算机系统结合起来，是目前智能发展的热点话题，目前的自然语言处理在对词句的理解上容易出现偏差，无法准确理解自然语言中的含义，导致输出的结论出现很大的错误。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种自然语言处理的算法，解决目前自然语言处理过程中无法准确理解自然语言中的含义，导致无法正确输出表达文本中的内容的问题。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种自然语言处理的算法，包括以下步骤：

S1：获取需要处理的自然语言文本；

S2：将自然语言文本中的字符串转化为词向量；

S3：根据待处理中自然语言文本的词向量，可以查找出数据库中具有相同词向量的训练文本；

S4：对每一个词向量，计算其属于数据库中具有相同词向量的训练文本的哪一类，对每一类训练文本，计算其类的质心，并进行收敛；

S5：从最接近类别中获得该词向量所代表的含义，并重复S1-S4步骤，直到将待处理的自然语言文本中所有词向量的含义表示出来。

作为本发明的一种优选技术方案，所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为

对于每一类训练文本，计算该类的质心的计算公式为

其中，m为训练文本类别的个数，x⁽ⁱ⁾表示词向量，j表示训练文本的类别，μ_j表示该类的质心；c⁽ⁱ⁾代表词向量x⁽ⁱ⁾与m个类中距离最近的那个类。

作为本发明的一种优选技术方案，所述步骤S4中，收敛采用误差和的方式进行收敛，其误差和的计算公式为

其中，J(c，μ)表示误差和，x⁽ⁱ⁾表示词向量，μ_c ⁽ⁱ⁾表示词向量x⁽ⁱ⁾距离最近的那个类的质心。

作为本发明的一种优选技术方案，所述步骤S4中，从每次朝一个变量μ_c ⁽ⁱ⁾的方向找到最优解，也就是求偏导数，令误差和等于0，可得x⁽ⁱ⁾所在簇的元素中的个数。

作为本发明的一种优选技术方案，所述步骤S3中，具有相同词向量的训练文本的类别不少于2种。

与现有技术相比，本发明的有益效果如下：

本发明通过对每个词向量进行聚类分析，从而确定每个词向量中的类别以及词向量所代表的含义，可以精准的分析出待测自然语言文本所表达的内容，从而降低计算误差，提高语言表达的准确率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的整体结构流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

此外，如果已知技术的详细描述对于示出本发明的特征是不必要的，则将其省略。

实施例1

如图1所示，本发明提供一种自然语言处理的算法，包括以下步骤：

S1：获取需要处理的自然语言文本；

S2：将自然语言文本中的字符串转化为词向量；

所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为

对于每一类训练文本，计算该类的质心的计算公式为

所述步骤S4中，收敛采用误差和的方式进行收敛，其误差和的计算公式为

其中，J(c，μ)表示误差和，x⁽ⁱ⁾表示词向量，μ_c(i)表示词向量x⁽ⁱ⁾距离最近的那个类的质心。

所述步骤S4中，从每次朝一个变量μ_c(i)的方向找到最优解，也就是求偏导数，令误差和等于0，可得x⁽ⁱ⁾所在簇的元素中的个数。

所述步骤S3中，具有相同词向量的训练文本的类别不少于2种。

下面进行举例说明：假设给出的自然语言文本的字符串的词向量为{x⁽¹⁾、x⁽²⁾……x⁽ⁱ⁾}根据词向量x⁽ⁱ⁾找出数据库中具有相同词向量的训练文本，将具有相同词向量的训练文本的类别记为j，类别个数记为m，计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为

对于每一类训练文本，计算该类的质心的计算公式为

在对上述内容进行收敛，从每次朝一个变量μ_c(i)的方向找到最优解，也就是求偏导数，令误差和等于0，可得x⁽ⁱ⁾所在簇的元素中的个数，从而确定最接近类别，误差和的计算公式为由于数据库中记录有相同词向量的训练文本中词向量的含义，因此可以根据相近类别的训练文本找出词向量x⁽ⁱ⁾的含义，重复上述步骤，从而将各个词向量{x⁽¹⁾、x⁽²⁾……x⁽ⁱ⁾}的含义都表示出来，形成自然语言。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自然语言处理的算法，其特征在于，包括以下步骤：

S1：获取需要处理的自然语言文本；

S2：将自然语言文本中的字符串转化为词向量；

S4：对每一个词向量，计算其属于数据库中具有相同词向量的训练文本的哪一类，对每一类训练文本，计算其类的质心，并进行收敛；其中属于数据库中具有相同词向量的训练文本的哪一类的计算公式为:

对于每一类训练文本，计算该类的质心的计算公式为

其中，m为训练文本类别的个数，x⁽ⁱ⁾表示词向量，j表示训练文本的类别，μ_j|表示该类的质心；c⁽ⁱ⁾代表词向量x⁽ⁱ⁾与m个类中距离最近的那个类；

2.根据权利要求1所述的一种自然语言处理的算法，其特征在于，所述步骤S4中，收敛采用误差和的方式进行收敛，其误差和的计算公式为

其中，J(c，μ)表示误差和，x⁽ⁱ⁾表示词向量，表示词向量x⁽ⁱ⁾距离最近的那个类的质心。

3.根据权利要求2所述的一种自然语言处理的算法，其特征在于，所述步骤S4中，从每次朝一个变量的方向找到最优解，也就是求偏导数，令误差和等于0，可得x⁽ⁱ⁾所在簇的元素中的个数。

4.根据权利要求1所述的一种自然语言处理的算法，其特征在于，所述步骤S3中，具有相同词向量的训练文本的类别不少于2种。