CN111177370A - 一种自然语言处理的算法 - Google Patents

一种自然语言处理的算法 Download PDF

Info

Publication number
CN111177370A
CN111177370A CN201911222374.7A CN201911222374A CN111177370A CN 111177370 A CN111177370 A CN 111177370A CN 201911222374 A CN201911222374 A CN 201911222374A CN 111177370 A CN111177370 A CN 111177370A
Authority
CN
China
Prior art keywords
natural language
word vector
class
calculating
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911222374.7A
Other languages
English (en)
Other versions
CN111177370B (zh
Inventor
孙践知
蔡添
刘瑞军
王向上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201911222374.7A priority Critical patent/CN111177370B/zh
Publication of CN111177370A publication Critical patent/CN111177370A/zh
Application granted granted Critical
Publication of CN111177370B publication Critical patent/CN111177370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自然语言处理的算法,包括以下步骤:S1:获取需要处理的自然语言文本;S2:将自然语言文本中的字符串转化为词向量;S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;S5:从最接近类别中获得该词向量所代表的含义,直到将待处理的自然语言文本中所有词向量的含义表示出来。本发明通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。

Description

一种自然语言处理的算法
技术领域
本发明涉及信息处理技术领域,特别涉及一种自然语言处理的算法。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学,如何将自然语言有效的与计算机系统结合起来,是目前智能发展的热点话题,目前的自然语言处理在对词句的理解上容易出现偏差,无法准确理解自然语言中的含义,导致输出的结论出现很大的错误。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种自然语言处理的算法,解决目前自然语言处理过程中无法准确理解自然语言中的含义,导致无法正确输出表达文本中的内容的问题。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种自然语言处理的算法,包括以下步骤:
S1:获取需要处理的自然语言文本;
S2:将自然语言文本中的字符串转化为词向量;
S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;
S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;
S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。
作为本发明的一种优选技术方案,所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
Figure BDA0002301206180000021
对于每一类训练文本,计算该类的质心的计算公式为
Figure BDA0002301206180000022
其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类。
作为本发明的一种优选技术方案,所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为
Figure BDA0002301206180000023
其中,J(c,μ)表示误差和,x(i)表示词向量,μc (i)表示词向量x(i)距离最近的那个类的质心。
作为本发明的一种优选技术方案,所述步骤S4中,从每次朝一个变量μc (i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。
作为本发明的一种优选技术方案,所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。
与现有技术相比,本发明的有益效果如下:
本发明通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的整体结构流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
此外,如果已知技术的详细描述对于示出本发明的特征是不必要的,则将其省略。
实施例1
如图1所示,本发明提供一种自然语言处理的算法,包括以下步骤:
S1:获取需要处理的自然语言文本;
S2:将自然语言文本中的字符串转化为词向量;
S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;
S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;
S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。
所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
Figure BDA0002301206180000031
对于每一类训练文本,计算该类的质心的计算公式为
Figure BDA0002301206180000032
其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类。
所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为
Figure BDA0002301206180000041
其中,J(c,μ)表示误差和,x(i)表示词向量,μc(i)表示词向量x(i)距离最近的那个类的质心。
所述步骤S4中,从每次朝一个变量μc(i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。
所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。
下面进行举例说明:假设给出的自然语言文本的字符串的词向量为{x(1)、x(2)……x(i)}根据词向量x(i)找出数据库中具有相同词向量的训练文本,将具有相同词向量的训练文本的类别记为j,类别个数记为m,计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
Figure BDA0002301206180000042
对于每一类训练文本,计算该类的质心的计算公式为
Figure BDA0002301206180000043
在对上述内容进行收敛,从每次朝一个变量μc(i)的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数,从而确定最接近类别,误差和的计算公式为
Figure BDA0002301206180000051
由于数据库中记录有相同词向量的训练文本中词向量的含义,因此可以根据相近类别的训练文本找出词向量x(i)的含义,重复上述步骤,从而将各个词向量{x(1)、x(2)……x(i)}的含义都表示出来,形成自然语言。
本发明通过对每个词向量进行聚类分析,从而确定每个词向量中的类别以及词向量所代表的含义,可以精准的分析出待测自然语言文本所表达的内容,从而降低计算误差,提高语言表达的准确率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种自然语言处理的算法,其特征在于,包括以下步骤:
S1:获取需要处理的自然语言文本;
S2:将自然语言文本中的字符串转化为词向量;
S3:根据待处理中自然语言文本的词向量,可以查找出数据库中具有相同词向量的训练文本;
S4:对每一个词向量,计算其属于数据库中具有相同词向量的训练文本的哪一类,对每一类训练文本,计算其类的质心,并进行收敛;
S5:从最接近类别中获得该词向量所代表的含义,并重复S1-S4步骤,直到将待处理的自然语言文本中所有词向量的含义表示出来。
2.根据权利要求1所述的一种自然语言处理的算法,其特征在于,所述步骤S4中计算其属于数据库中具有相同词向量的训练文本的哪一类的计算公式为
Figure FDA0002301206170000011
对于每一类训练文本,计算该类的质心的计算公式为
Figure FDA0002301206170000012
其中,m为训练文本类别的个数,x(i)表示词向量,j表示训练文本的类别,μj表示该类的质心;c(i)代表词向量x(i)与m个类中距离最近的那个类。
3.根据权利要求2所述的一种自然语言处理的算法,其特征在于,所述步骤S4中,收敛采用误差和的方式进行收敛,其误差和的计算公式为
Figure FDA0002301206170000013
其中,J(c,μ)表示误差和,x(i)表示词向量,
Figure FDA0002301206170000014
表示词向量x(i)距离最近的那个类的质心。
4.根据权利要求3所述的一种自然语言处理的算法,其特征在于,所述步骤S4中,从每次朝一个变量
Figure FDA0002301206170000021
的方向找到最优解,也就是求偏导数,令误差和等于0,可得x(i)所在簇的元素中的个数。
5.根据权利要求1所述的一种自然语言处理的算法,其特征在于,所述步骤S3中,具有相同词向量的训练文本的类别不少于2种。
CN201911222374.7A 2019-12-03 2019-12-03 一种自然语言处理的算法 Active CN111177370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911222374.7A CN111177370B (zh) 2019-12-03 2019-12-03 一种自然语言处理的算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911222374.7A CN111177370B (zh) 2019-12-03 2019-12-03 一种自然语言处理的算法

Publications (2)

Publication Number Publication Date
CN111177370A true CN111177370A (zh) 2020-05-19
CN111177370B CN111177370B (zh) 2023-08-11

Family

ID=70650110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911222374.7A Active CN111177370B (zh) 2019-12-03 2019-12-03 一种自然语言处理的算法

Country Status (1)

Country Link
CN (1) CN111177370B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115733858A (zh) * 2022-11-04 2023-03-03 广州懿豪科技有限公司 基于大数据和物联网通信的数据处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093925A1 (en) * 2010-02-01 2011-08-04 Alibaba Group Holding Limited Method and apparatus of text classification
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093925A1 (en) * 2010-02-01 2011-08-04 Alibaba Group Holding Limited Method and apparatus of text classification
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯庆霖;: "基于词向量及术语关系抽取方法的文本分类方法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115733858A (zh) * 2022-11-04 2023-03-03 广州懿豪科技有限公司 基于大数据和物联网通信的数据处理方法及系统

Also Published As

Publication number Publication date
CN111177370B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN110287334B (zh) 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法
CN109543183B (zh) 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN108399163B (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
Alayrac et al. Unsupervised learning from narrated instruction videos
Ling et al. Latent predictor networks for code generation
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN111090461B (zh) 一种基于机器翻译模型的代码注释生成方法
CN105244029B (zh) 语音识别后处理方法及系统
CN103154936B (zh) 用于自动化文本校正的方法和系统
WO2017162134A1 (zh) 用于文本处理的电子设备和方法
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN107463553A (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
Xu et al. Cross-domain and semisupervised named entity recognition in chinese social media: A unified model
CN110427616A (zh) 一种基于深度学习的文本情感分析方法
KR101836996B1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
CN107977368B (zh) 信息提取方法及系统
CN111178051A (zh) 建筑信息模型自适应的中文分词方法及装置
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN112559749A (zh) 在线教育师生智能匹配方法、装置及存储介质
CN110765788A (zh) 一种基于隐式翻译模型的知识图谱嵌入方法
CN105159917A (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN110929532A (zh) 数据处理方法、装置、设备及存储介质
CN111177370B (zh) 一种自然语言处理的算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant