CN111177370B - 一种自然语言处理的算法 - Google Patents

一种自然语言处理的算法 Download PDF

Info

Publication number
CN111177370B
CN111177370B CN201911222374.7A CN201911222374A CN111177370B CN 111177370 B CN111177370 B CN 111177370B CN 201911222374 A CN201911222374 A CN 201911222374A CN 111177370 B CN111177370 B CN 111177370B
Authority
CN
China
Prior art keywords
natural language
word vector
class
text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911222374.7A
Other languages
English (en)
Other versions
CN111177370A (zh
Inventor
孙践知
蔡添
刘瑞军
王向上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201911222374.7A priority Critical patent/CN111177370B/zh
Publication of CN111177370A publication Critical patent/CN111177370A/zh
Application granted granted Critical
Publication of CN111177370B publication Critical patent/CN111177370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自然语言处理的算法,包括以下步骤:S1:获取需要处理的自然语言文本;S2:将自然语言文本中的字符串转化为词向量;S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;S5:从最接近类别中获得该词向量所代表的含义,直到将待处理的自然语言文本中所有词向量的含义表示出来。本发明通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。

Description

一种自然语言处理的算法
技术领域
本发明涉及信息处理技术领域,特别涉及一种自然语言处理的算法。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学,如何将自然语言有效的与计算机系统结合起来,是目前智能发展的热点话题,目前的自然语言处理在对词句的理解上容易出现偏差,无法准确理解自然语言中的含义,导致输出的结论出现很大的错误。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种自然语言处理的算法,解决目前自然语言处理过程中无法准确理解自然语言中的含义,导致无法正确输出表达文本中的内容的问题。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种自然语言处理的算法,包括以下步骤:
S1:获取需要处理的自然语言文本;
S2:将自然语言文本中的字符串转化为词向量;
S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;
S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;
S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。
作为本发明的一种优选技术方案,所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
对于每一类训练文本,计算该类的质心的计算公式为
其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类。
作为本发明的一种优选技术方案,所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为
其中,J(c,μ)表示误差和,x(i)表示词向量,μc (i)表示词向量x(i)距离最近的那个类的质心。
作为本发明的一种优选技术方案,所述步骤S4中,从每次朝一个变量μc (i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。
作为本发明的一种优选技术方案,所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。
与现有技术相比,本发明的有益效果如下:
本发明通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的整体结构流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
此外,如果已知技术的详细描述对于示出本发明的特征是不必要的,则将其省略。
实施例1
如图1所示,本发明提供一种自然语言处理的算法,包括以下步骤:
S1:获取需要处理的自然语言文本;
S2:将自然语言文本中的字符串转化为词向量;
S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;
S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;
S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。
所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
对于每一类训练文本,计算该类的质心的计算公式为
其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类。
所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为
其中,J(c,μ)表示误差和,x(i)表示词向量,μc(i)表示词向量x(i)距离最近的那个类的质心。
所述步骤S4中,从每次朝一个变量μc(i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。
所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。
下面进行举例说明:假设给出的自然语言文本的字符串的词向量为{x(1)、x(2)……x(i)}根据词向量x(i)找出数据库中具有相同词向量的训练文本,将具有相同词向量的训练文本的类别记为j,类别个数记为m,计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
对于每一类训练文本,计算该类的质心的计算公式为
在对上述内容进行收敛,从每次朝一个变量μc(i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数,从而确定最接近类别,误差和的计算公式为由于数据库中记录有相同词向量的训练文本中词向量的含义,因此可以根据相近类别的训练文本找出词向量x(i)的含义,重复上述步骤,从而将各个词向量{x(1)、x(2)……x(i)}的含义都表示出来,形成自然语言。
本发明通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种自然语言处理的算法,其特征在于,包括以下步骤:
S1:获取需要处理的自然语言文本;
S2:将自然语言文本中的字符串转化为词向量;
S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;
S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;其中属于数据库中具有相同词向量的训练文本的哪一类的计算公式为:
对于每一类训练文本,计算该类的质心的计算公式为
其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj|表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类;
S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。
2.根据权利要求1所述的一种自然语言处理的算法,其特征在于,所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为
其中,J(c,μ)表示误差和,x(i)表示词向量,表示词向量x(i)距离最近的那个类的质心。
3.根据权利要求2所述的一种自然语言处理的算法,其特征在于,所述步骤S4中,从每次朝一个变量的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。
4.根据权利要求1所述的一种自然语言处理的算法,其特征在于,所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。
CN201911222374.7A 2019-12-03 2019-12-03 一种自然语言处理的算法 Active CN111177370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911222374.7A CN111177370B (zh) 2019-12-03 2019-12-03 一种自然语言处理的算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911222374.7A CN111177370B (zh) 2019-12-03 2019-12-03 一种自然语言处理的算法

Publications (2)

Publication Number Publication Date
CN111177370A CN111177370A (zh) 2020-05-19
CN111177370B true CN111177370B (zh) 2023-08-11

Family

ID=70650110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911222374.7A Active CN111177370B (zh) 2019-12-03 2019-12-03 一种自然语言处理的算法

Country Status (1)

Country Link
CN (1) CN111177370B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115733858A (zh) * 2022-11-04 2023-03-03 广州懿豪科技有限公司 基于大数据和物联网通信的数据处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093925A1 (en) * 2010-02-01 2011-08-04 Alibaba Group Holding Limited Method and apparatus of text classification
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093925A1 (en) * 2010-02-01 2011-08-04 Alibaba Group Holding Limited Method and apparatus of text classification
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯庆霖 ; .基于词向量及术语关系抽取方法的文本分类方法.移动通信.2018,(07),全文. *

Also Published As

Publication number Publication date
CN111177370A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN109543183B (zh) 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
Alayrac et al. Unsupervised learning from narrated instruction videos
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN111090461B (zh) 一种基于机器翻译模型的代码注释生成方法
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN110175585B (zh) 一种简答题自动批改系统及方法
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN111124487A (zh) 代码克隆检测方法、装置以及电子设备
CN111178051A (zh) 建筑信息模型自适应的中文分词方法及装置
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
Ki et al. KoTAB: Korean template-based arithmetic solver with BERT
CN114528398A (zh) 一种基于交互双重图卷积网络的情感预测方法及系统
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN111177370B (zh) 一种自然语言处理的算法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN117473093B (zh) 一种基于llm模型获取目标事件的数据处理系统
CN118278543A (zh) 答案评价模型训练方法、评价方法、装置、设备及介质
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法
CN112417851B (zh) 文本纠错分词方法、系统及电子设备
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant