CN114519357B

CN114519357B - 基于机器学习的自然语言处理方法和系统

Info

Publication number: CN114519357B
Application number: CN202210045865.4A
Authority: CN
Inventors: 韩晓然; 李克秋; 赵来平
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2023-12-08
Anticipated expiration: 2042-01-17
Also published as: CN114519357A

Abstract

本发明提供一种基于机器学习的自然语言处理的方法和系统，通过将语句输入句法模型中，进行初步断句，得到第一词分量，将所述第一词分量逐个输入语义分析模型，得到第二词分量，重复输入语义分析模型的步骤，直到每一个第二词分量都被认定初步断句成功为止，按照预先设置的词组类型与权重值的映射关系，组成新的语句，从而可以识别出该新的语句的含义。

Description

基于机器学习的自然语言处理方法和系统

技术领域

本申请涉及网络多媒体领域，尤其涉及一种基于机器学习的自然语言处理的方法和系统。

背景技术

随着网络的快速发展，海量的信息爆炸式地充斥在网络中，其中信息包含了含义依靠现有的语义分析机器难以准确理解，而人工修正的工作量非常巨大，迫切需要改进语义分析机器识别语言的能力。

现有技术使用多层网络对一整句或多个句子建模，导致效率比较低，并且非常依赖对句子结构的准确断句，越来越不适应现在复杂多变的网络语言环境。

因此，急需一种针对性的基于机器学习的自然语言处理的方法和系统。

发明内容

本发明的目的在于提供一种基于机器学习的自然语言处理的方法和系统，通过将语句输入句法模型中，进行初步断句，得到第一词分量，将所述第一词分量逐个输入语义分析模型，得到第二词分量，重复输入语义分析模型的步骤，直到每一个第二词分量都被认定初步断句成功为止，按照预先设置的词组类型与权重值的映射关系，组成新的语句，从而可以识别出该新的语句的含义。

第一方面，本申请提供一种基于机器学习的自然语言处理的方法，所述方法包括：

获取网络数据流，从中提取出语句和附加元素信息，所述附加元素信息是指用于区分不同语句、不同来源的标识、冗余和帧结构；

将所述语句输入句法模型中，进行初步断句，得到第一词分量，所述句法模型根据每个单词类型设置不同宽度的提取窗口，以该提取窗口为断句依据，窗口宽度内的单词组成所述第一词分量；

将所述第一词分量逐个输入语义分析模型，如果还能够识别成短句的话，则认定该第一词分量的初步断句没有成功，需要将该第一词分量再次输入所述句法模型，再次进行断句，得到第二词分量；如果无法识别成短句、被识别成词组的话，则认定该第一词分量的初步断句成功，所述第一词分量直接标识为第二词分量；所述词组由若干个单词组成，不具有句法结构；

重复将所述第二词分量逐个输入语义分析模型，直到每一个第二词分量都被认定初步断句成功为止；

按照预先设置的词组类型与权重值的映射关系，分析所有初步断句后的第二词分量，将权重值大于阈值的第二词分量进行聚类，组成新的语句，识别出该新的语句的含义。

结合第一方面，在第一方面第一种可能的实现方式中，所述根据每个单词类型设置不同宽度的提取窗口，包括更新单词的类型，将新的单词类型与提取窗口宽度建立对应关系。

结合第一方面，在第一方面第二种可能的实现方式中，所述语义分析模型按照句子语法要求进行语义分析。

结合第一方面，在第一方面第三种可能的实现方式中，所述语义分析模型和句法模型的内核均使用神经网络模型。

第二方面，本申请提供一种基于机器学习的自然语言处理的系统，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面四种可能中任一项所述的方法。

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

图1为本申请提供的基于机器学习的自然语言处理的方法的流程图，包括：

在一些优选实施例中，所述根据每个单词类型设置不同宽度的提取窗口，包括更新单词的类型，将新的单词类型与提取窗口宽度建立对应关系。

在一些优选实施例中，所述语义分析模型按照句子语法要求进行语义分析。

在一些优选实施例中，所述语义分析模型和句法模型的内核均使用神经网络模型。

本申请提供一种基于机器学习的自然语言处理的系统，所述系统包括：所述系统包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法。

本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所有实施例中任一项所述的方法。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可以存储有程序，该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称：ROM)或随机存储记忆体(简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书各个实施例之间相同相似的部分互相参见即可。尤其，对于实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于机器学习的自然语言处理方法，其特征在于，所述方法包括：

其中，所述根据每个单词类型设置不同宽度的提取窗口，包括更新单词的类型，将新的单词类型与提取窗口宽度建立对应关系；

将所述第一词分量逐个输入语义分析模型，所述语义分析模型按照句子语法要求进行语义分析，如果还能够识别成短句的话，则认定该第一词分量的初步断句没有成功，需要将该第一词分量再次输入所述句法模型，再次进行断句，得到第二词分量；如果无法识别成短句、被识别成词组的话，则认定该第一词分量的初步断句成功，所述第一词分量直接标识为第二词分量；所述词组由若干个单词组成，不具有句法结构；

按照预先设置的词组类型与权重值的映射关系，分析所有初步断句后的第二词分量，将权重值大于阈值的第二词分量进行聚类，组成新的语句，识别出该新的语句的含义，降低对句子结构断句准确性的依赖。

2.根据权利要求1所述的一种基于机器学习的自然语言处理方法，其特征在于：所述语义分析模型和句法模型的内核均使用神经网络模型。

3.一种基于机器学习的自然语言处理系统，其特征在于，所述系统包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行实现权利要求1-2任一项所述的方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行实现权利要求1-2任一项所述的方法。