CN116911288B

CN116911288B - 一种基于自然语言处理技术的离散文本识别方法

Info

Publication number: CN116911288B
Application number: CN202311164234.5A
Authority: CN
Inventors: 赵志庆; 侯玉柱; 王印强; 董席峰; 张雨铭威; 张昊
Original assignee: Rongxing Technology Co ltd
Current assignee: Rongxing Technology Co ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-12-12
Anticipated expiration: 2043-09-11
Also published as: CN116911288A

Abstract

本发明涉及离散文本识别领域，具体涉及一种基于自然语言处理技术的离散文本识别方法，包括：S1、获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据；S2、利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果；S3、利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果，将现有数据与历史数据相互结合验证各模型的输出准确性，在神经网络的基础上考虑实际应用环境，方案整体逻辑自洽，在模型训练的过程中也实现了内部循环，保证结果的输出，采用了适用范围更广的神经网络算法，显著减少特征提取维度和计算复杂度，提高识别效率。

Description

一种基于自然语言处理技术的离散文本识别方法

技术领域

本发明涉及离散文本识别领域，具体涉及一种基于自然语言处理技术的离散文本识别方法。

背景技术

在现代社会中，离散文本数据广泛存在于各种场景中，如电子邮件、社交媒体、新闻报道等。离散文本识别技术是将这些离散文本数据转化为可读性更强的文本形式，以便于后续的处理和分析。传统的离散文本识别方法主要基于规则匹配和特征提取等技术，但是这些方法存在着识别率低、鲁棒性差等问题。近年来，随着NLP技术的发展，基于NLP技术的离散文本识别方法逐渐成为研究热点。

发明内容

针对现有技术的不足，本发明提供了一种基于自然语言处理技术的离散文本识别方法，通过神经网络与传统验证手段相结合，提升效率的同时又保证识别准确性。

为实现上述目的，本发明提供了一种基于自然语言处理技术的离散文本识别方法，包括：

S1、获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据；

S2、利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果；

S3、利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果。

优选的，所述获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据包括：

S1-1、利用所述待识别文本数据进行词语预处理得到第一初始筛选文本数据；

S1-2、判断所述第一初始筛选文本数据是否存在完全相同历史记录，若是，则输出所述第一初始筛选文本数据作为待识别筛选文本数据，否则，利用所述第一初始筛选文本数据对应历史待识别文本数据作为辅助标签，并利用所述第一初始筛选文本数据与辅助标签作为待识别筛选文本数据；

其中，所述词语预处理包括依次进行分词、去停用词与词性标注处理。

优选的，利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果包括：

S2-1、判断所述待识别筛选文本数据是否存在辅助标签，若是，则利用所述待识别筛选文本数据的第一初始筛选文本数据得到待识别筛选文本数据的离散文本数据，否则，利用所述待识别筛选文本数据得到待识别筛选文本数据的离散文本数据；

S2-2、利用所述离散文本数据进行特征提取得到离散文本数据的数据特征；

S2-3、根据所述离散文本数据的数据特征得到待识别筛选文本数据的分类处理结果；

其中，离散文本数据为以离散形式保存的第一初始筛选文本数据或待识别筛选文本数据。

进一步的，利用所述离散文本数据进行特征提取得到离散文本数据的数据特征包括：

S2-2-1、利用所述离散文本数据进行数字转换得到离散文本数字序列；

S2-2-2、判断所述离散文本数字序列是否存在完全相同历史离散文本数字序列，若是，则利用所述离散文本数字序列与对应历史离散文本数字序列建立自循环特征提取模型，否则，执行S2-2-3；

S2-2-3、利用所述离散文本数字序列建立自循环特征提取模型；

S2-2-4、利用所述离散文本数据根据自循环特征提取模型得到离散文本数据的数据特征；

其中，数字转换为基于词袋模型将离散文本数据转换得到离散文本数字序列。

进一步的，利用所述离散文本数字序列与对应历史离散文本数字序列建立自循环特征提取模型包括：

S2-2-2-1、利用所述历史离散文本数字序列作为训练集；

S2-2-2-2、利用所述训练集作为输入，所述训练集对应特征作为输出，基于循环神经网络进行训练得到自循环特征初始提取模型；

S2-2-2-3、利用所述离散文本数字序列作为验证集；

S2-2-2-4、将所述验证集代入自循环特征初始提取模型得到初始提取特征；

S2-2-2-5、判断所述初始提取特征与历史离散文本数字序列对应特征是否一致，若是，则直接输出自循环特征初始提取模型作为自循环特征提取模型，否则，获取与历史离散文本数字序列对应特征不一致的初始提取特征对应离散文本数字序列作为补充训练集，并执行S2-2-2-6；

S2-2-2-6、利用所述补充训练集并入训练集作为当前时刻训练集，并返回S2-2-2-2。

进一步的，利用所述离散文本数字序列建立自循环特征提取模型包括：

S2-2-3-1、利用所述离散文本数字序列作为训练集；

S2-2-3-2、利用所述训练集作为输入，所述训练集对应特征作为输出，基于循环神经网络进行训练得到自循环特征初始提取模型；

S2-2-3-3、判断所述自循环特征初始提取模型是否存在完全相同历史自循环特征初始提取模型，若是，则返回S2-2-2，否则，输出自循环特征初始提取模型作为自循环特征提取模型。

进一步的，根据所述离散文本数据的数据特征得到待识别筛选文本数据的分类处理结果包括：

S2-3-1、利用所述离散文本数据的数据特征建立文本数据分类模型；

S2-3-2、利用所述离散文本数据的数据特征根据文本数据分类模型得到待识别筛选文本数据的分类处理结果。

进一步的，利用所述离散文本数据的数据特征建立文本数据分类模型包括：

S2-3-1-1、判断所述离散文本数据的数据特征对应自循环特征提取模型是否存在历史离散文本数字序列，若是，则利用所述离散文本数据的数据特征对应历史数据特征作为训练集，并执行S2-3-1-2，否则，利用所述离散文本数据的数据特征作为训练集，并执行S2-3-1-2；

S2-3-1-2、利用所述训练集作为输入，所述训练集对应文本数据分类结果作为输出，基于支持向量机进行训练得到文本数据分类初始模型；

S2-3-1-3、判断所述文本数据分类初始模型是否对应历史数据特征，若是，则利用离散文本数据的数据特征作为验证集，并执行S2-3-1-4，否则，直接输出文本数据分类初始模型作为文本数据分类模型；

S2-3-1-4、将所述验证集代入文本数据分类初始模型得到文本数据初始分类结果；

S2-3-1-5、判断所述文本数据初始分类结果与历史数据特征对应文本数据初始分类结果是否完全对应，若是，则输出文本数据分类初始模型作为文本数据分类模型，否则，获取与历史数据特征对应文本数据初始分类结果不对应的离散文本数据的数据特征作为当前训练集，并返回S2-3-1-2。

进一步的，利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果包括：

S3-1、判断所述待识别筛选文本数据的分类处理结果是否存在对应辅助标签，若是，则执行S3-2，否则，执行S3-3；

S3-2、判断所述待识别筛选文本数据的分类处理结果与辅助标签对应分类处理结果是否一致，若是，则输出所述待识别筛选文本数据的分类处理结果作为离散文本识别结果，否则，返回S1-1；

S3-3、判断所述待识别筛选文本数据的分类处理结果对应自循环特征提取模型是否建立流程合理，若是，则输出所述待识别筛选文本数据的分类处理结果作为离散文本识别结果，否则，放弃处理；

其中，所述建立流程合理为当S2-2-3-3执行返回S2-2-2后，S2-2-3-1的执行次数为0。

与最接近的现有技术相比，本发明具有的有益效果：

首先合理依靠历史数据建立验证特征提取模型与数据分类模型，同时，将现有数据与历史数据相互结合验证各模型的输出准确性，在神经网络的基础上考虑实际应用环境，方案整体逻辑自洽，在模型训练的过程中也实现了内部循环，保证结果的输出，采用了适用范围更广的神经网络算法，显著减少特征提取维度和计算复杂度，提高识别效率。

附图说明

图1是本发明提供的一种基于自然语言处理技术的离散文本识别方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：本发明提供了一种基于自然语言处理技术的离散文本识别方法，如图1所示，包括：

S1具体包括：

S2具体包括：

S2-2具体包括：

S2-2-2具体包括：

S2-2-2-1、利用所述历史离散文本数字序列作为训练集；

S2-2-2-3、利用所述离散文本数字序列作为验证集；

S2-2-3具体包括：

S2-2-3-1、利用所述离散文本数字序列作为训练集；

本实施例中，一种基于自然语言处理技术的离散文本识别方法，所述自循环特征提取模型的思路具体实施如下：

采用循环神经网络（RNN）对离散文本数据进行特征提取，得到高维特征向量。

（a）数据预处理：将文本数据转换为数字序列，例如使用单词嵌入（wordembedding）或者词袋模型（bag-of-words）等方法将单词转换为数字向量。

（b）定义RNN模型：选择合适的RNN模型，例如LSTM或GRU等，并定义模型的输入、输出和隐藏状态等参数。

（c）训练模型：使用训练数据对模型进行训练，通过反向传播算法更新模型的权重和偏置。

（d）特征提取：使用训练好的RNN模型对新的文本数据进行特征提取，例如使用模型的最后一个隐藏状态或者平均隐藏状态等方法提取文本的特征向量。

（e）应用特征向量：将提取的特征向量应用于下游任务，例如文本分类、情感分析、机器翻译等。

S2-3具体包括：

S2-3-1具体包括：

本实施例中，一种基于自然语言处理技术的离散文本识别方法，所述文本数据分类模型的具体实施过程如下：

分类识别：采用支持向量机（SVM）对降维后的特征向量进行分类识别，得到离散文本数据的识别结果。

（a）数据准备：将数据集分为训练集和测试集，并将特征向量和对应的标签分别存储。

（b）特征归一化：对训练集和测试集的特征向量进行归一化处理，使得每个特征的均值为0，方差为1。

（c）训练模型：使用训练集对SVM模型进行训练，通过调整超参数（例如核函数类型、正则化参数等）来优化模型性能。

（d）预测测试集：使用训练好的SVM模型对测试集进行预测，得到预测结果。

（e）评估模型：使用评估指标（例如准确率、精确率、召回率等）来评估模型性能。

S3具体包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于自然语言处理技术的离散文本识别方法，其特征在于，包括：

其中，所述词语预处理包括依次进行分词、去停用词与词性标注处理；

其中，离散文本数据为以离散形式保存的第一初始筛选文本数据或待识别筛选文本数据；

2.如权利要求1所述的一种基于自然语言处理技术的离散文本识别方法，其特征在于，利用所述离散文本数据进行特征提取得到离散文本数据的数据特征包括：

3.如权利要求2所述的一种基于自然语言处理技术的离散文本识别方法，其特征在于，利用所述离散文本数字序列与对应历史离散文本数字序列建立自循环特征提取模型包括：

S2-2-2-1、利用所述历史离散文本数字序列作为训练集；

S2-2-2-3、利用所述离散文本数字序列作为验证集；

4.如权利要求2所述的一种基于自然语言处理技术的离散文本识别方法，其特征在于，利用所述离散文本数字序列建立自循环特征提取模型包括：

S2-2-3-1、利用所述离散文本数字序列作为训练集；

5.如权利要求2所述的一种基于自然语言处理技术的离散文本识别方法，其特征在于，根据所述离散文本数据的数据特征得到待识别筛选文本数据的分类处理结果包括：

6.如权利要求5所述的一种基于自然语言处理技术的离散文本识别方法，其特征在于，利用所述离散文本数据的数据特征建立文本数据分类模型包括：

7.如权利要求5所述的一种基于自然语言处理技术的离散文本识别方法，其特征在于，利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果包括：