CN116911288B - 一种基于自然语言处理技术的离散文本识别方法 - Google Patents
一种基于自然语言处理技术的离散文本识别方法 Download PDFInfo
- Publication number
- CN116911288B CN116911288B CN202311164234.5A CN202311164234A CN116911288B CN 116911288 B CN116911288 B CN 116911288B CN 202311164234 A CN202311164234 A CN 202311164234A CN 116911288 B CN116911288 B CN 116911288B
- Authority
- CN
- China
- Prior art keywords
- text data
- discrete
- data
- text
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000005516 engineering process Methods 0.000 title claims abstract description 22
- 238000003058 natural language processing Methods 0.000 title claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 81
- 238000000605 extraction Methods 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000013145 classification model Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及离散文本识别领域,具体涉及一种基于自然语言处理技术的离散文本识别方法,包括:S1、获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据;S2、利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果;S3、利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果,将现有数据与历史数据相互结合验证各模型的输出准确性,在神经网络的基础上考虑实际应用环境,方案整体逻辑自洽,在模型训练的过程中也实现了内部循环,保证结果的输出,采用了适用范围更广的神经网络算法,显著减少特征提取维度和计算复杂度,提高识别效率。
Description
技术领域
本发明涉及离散文本识别领域,具体涉及一种基于自然语言处理技术的离散文本识别方法。
背景技术
在现代社会中,离散文本数据广泛存在于各种场景中,如电子邮件、社交媒体、新闻报道等。离散文本识别技术是将这些离散文本数据转化为可读性更强的文本形式,以便于后续的处理和分析。传统的离散文本识别方法主要基于规则匹配和特征提取等技术,但是这些方法存在着识别率低、鲁棒性差等问题。近年来,随着NLP技术的发展,基于NLP技术的离散文本识别方法逐渐成为研究热点。
发明内容
针对现有技术的不足,本发明提供了一种基于自然语言处理技术的离散文本识别方法,通过神经网络与传统验证手段相结合,提升效率的同时又保证识别准确性。
为实现上述目的,本发明提供了一种基于自然语言处理技术的离散文本识别方法,包括:
S1、获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据;
S2、利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果;
S3、利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果。
优选的,所述获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据包括:
S1-1、利用所述待识别文本数据进行词语预处理得到第一初始筛选文本数据;
S1-2、判断所述第一初始筛选文本数据是否存在完全相同历史记录,若是,则输出所述第一初始筛选文本数据作为待识别筛选文本数据,否则,利用所述第一初始筛选文本数据对应历史待识别文本数据作为辅助标签,并利用所述第一初始筛选文本数据与辅助标签作为待识别筛选文本数据;
其中,所述词语预处理包括依次进行分词、去停用词与词性标注处理。
优选的,利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果包括:
S2-1、判断所述待识别筛选文本数据是否存在辅助标签,若是,则利用所述待识别筛选文本数据的第一初始筛选文本数据得到待识别筛选文本数据的离散文本数据,否则,利用所述待识别筛选文本数据得到待识别筛选文本数据的离散文本数据;
S2-2、利用所述离散文本数据进行特征提取得到离散文本数据的数据特征;
S2-3、根据所述离散文本数据的数据特征得到待识别筛选文本数据的分类处理结果;
其中,离散文本数据为以离散形式保存的第一初始筛选文本数据或待识别筛选文本数据。
进一步的,利用所述离散文本数据进行特征提取得到离散文本数据的数据特征包括:
S2-2-1、利用所述离散文本数据进行数字转换得到离散文本数字序列;
S2-2-2、判断所述离散文本数字序列是否存在完全相同历史离散文本数字序列,若是,则利用所述离散文本数字序列与对应历史离散文本数字序列建立自循环特征提取模型,否则,执行S2-2-3;
S2-2-3、利用所述离散文本数字序列建立自循环特征提取模型;
S2-2-4、利用所述离散文本数据根据自循环特征提取模型得到离散文本数据的数据特征;
其中,数字转换为基于词袋模型将离散文本数据转换得到离散文本数字序列。
进一步的,利用所述离散文本数字序列与对应历史离散文本数字序列建立自循环特征提取模型包括:
S2-2-2-1、利用所述历史离散文本数字序列作为训练集;
S2-2-2-2、利用所述训练集作为输入,所述训练集对应特征作为输出,基于循环神经网络进行训练得到自循环特征初始提取模型;
S2-2-2-3、利用所述离散文本数字序列作为验证集;
S2-2-2-4、将所述验证集代入自循环特征初始提取模型得到初始提取特征;
S2-2-2-5、判断所述初始提取特征与历史离散文本数字序列对应特征是否一致,若是,则直接输出自循环特征初始提取模型作为自循环特征提取模型,否则,获取与历史离散文本数字序列对应特征不一致的初始提取特征对应离散文本数字序列作为补充训练集,并执行S2-2-2-6;
S2-2-2-6、利用所述补充训练集并入训练集作为当前时刻训练集,并返回S2-2-2-2。
进一步的,利用所述离散文本数字序列建立自循环特征提取模型包括:
S2-2-3-1、利用所述离散文本数字序列作为训练集;
S2-2-3-2、利用所述训练集作为输入,所述训练集对应特征作为输出,基于循环神经网络进行训练得到自循环特征初始提取模型;
S2-2-3-3、判断所述自循环特征初始提取模型是否存在完全相同历史自循环特征初始提取模型,若是,则返回S2-2-2,否则,输出自循环特征初始提取模型作为自循环特征提取模型。
进一步的,根据所述离散文本数据的数据特征得到待识别筛选文本数据的分类处理结果包括:
S2-3-1、利用所述离散文本数据的数据特征建立文本数据分类模型;
S2-3-2、利用所述离散文本数据的数据特征根据文本数据分类模型得到待识别筛选文本数据的分类处理结果。
进一步的,利用所述离散文本数据的数据特征建立文本数据分类模型包括:
S2-3-1-1、判断所述离散文本数据的数据特征对应自循环特征提取模型是否存在历史离散文本数字序列,若是,则利用所述离散文本数据的数据特征对应历史数据特征作为训练集,并执行S2-3-1-2,否则,利用所述离散文本数据的数据特征作为训练集,并执行S2-3-1-2;
S2-3-1-2、利用所述训练集作为输入,所述训练集对应文本数据分类结果作为输出,基于支持向量机进行训练得到文本数据分类初始模型;
S2-3-1-3、判断所述文本数据分类初始模型是否对应历史数据特征,若是,则利用离散文本数据的数据特征作为验证集,并执行S2-3-1-4,否则,直接输出文本数据分类初始模型作为文本数据分类模型;
S2-3-1-4、将所述验证集代入文本数据分类初始模型得到文本数据初始分类结果;
S2-3-1-5、判断所述文本数据初始分类结果与历史数据特征对应文本数据初始分类结果是否完全对应,若是,则输出文本数据分类初始模型作为文本数据分类模型,否则,获取与历史数据特征对应文本数据初始分类结果不对应的离散文本数据的数据特征作为当前训练集,并返回S2-3-1-2。
进一步的,利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果包括:
S3-1、判断所述待识别筛选文本数据的分类处理结果是否存在对应辅助标签,若是,则执行S3-2,否则,执行S3-3;
S3-2、判断所述待识别筛选文本数据的分类处理结果与辅助标签对应分类处理结果是否一致,若是,则输出所述待识别筛选文本数据的分类处理结果作为离散文本识别结果,否则,返回S1-1;
S3-3、判断所述待识别筛选文本数据的分类处理结果对应自循环特征提取模型是否建立流程合理,若是,则输出所述待识别筛选文本数据的分类处理结果作为离散文本识别结果,否则,放弃处理;
其中,所述建立流程合理为当S2-2-3-3执行返回S2-2-2后,S2-2-3-1的执行次数为0。
与最接近的现有技术相比,本发明具有的有益效果:
首先合理依靠历史数据建立验证特征提取模型与数据分类模型,同时,将现有数据与历史数据相互结合验证各模型的输出准确性,在神经网络的基础上考虑实际应用环境,方案整体逻辑自洽,在模型训练的过程中也实现了内部循环,保证结果的输出,采用了适用范围更广的神经网络算法,显著减少特征提取维度和计算复杂度,提高识别效率。
附图说明
图1是本发明提供的一种基于自然语言处理技术的离散文本识别方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:本发明提供了一种基于自然语言处理技术的离散文本识别方法,如图1所示,包括:
S1、获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据;
S2、利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果;
S3、利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果。
S1具体包括:
S1-1、利用所述待识别文本数据进行词语预处理得到第一初始筛选文本数据;
S1-2、判断所述第一初始筛选文本数据是否存在完全相同历史记录,若是,则输出所述第一初始筛选文本数据作为待识别筛选文本数据,否则,利用所述第一初始筛选文本数据对应历史待识别文本数据作为辅助标签,并利用所述第一初始筛选文本数据与辅助标签作为待识别筛选文本数据;
其中,所述词语预处理包括依次进行分词、去停用词与词性标注处理。
S2具体包括:
S2-1、判断所述待识别筛选文本数据是否存在辅助标签,若是,则利用所述待识别筛选文本数据的第一初始筛选文本数据得到待识别筛选文本数据的离散文本数据,否则,利用所述待识别筛选文本数据得到待识别筛选文本数据的离散文本数据;
S2-2、利用所述离散文本数据进行特征提取得到离散文本数据的数据特征;
S2-3、根据所述离散文本数据的数据特征得到待识别筛选文本数据的分类处理结果;
其中,离散文本数据为以离散形式保存的第一初始筛选文本数据或待识别筛选文本数据。
S2-2具体包括:
S2-2-1、利用所述离散文本数据进行数字转换得到离散文本数字序列;
S2-2-2、判断所述离散文本数字序列是否存在完全相同历史离散文本数字序列,若是,则利用所述离散文本数字序列与对应历史离散文本数字序列建立自循环特征提取模型,否则,执行S2-2-3;
S2-2-3、利用所述离散文本数字序列建立自循环特征提取模型;
S2-2-4、利用所述离散文本数据根据自循环特征提取模型得到离散文本数据的数据特征;
其中,数字转换为基于词袋模型将离散文本数据转换得到离散文本数字序列。
S2-2-2具体包括:
S2-2-2-1、利用所述历史离散文本数字序列作为训练集;
S2-2-2-2、利用所述训练集作为输入,所述训练集对应特征作为输出,基于循环神经网络进行训练得到自循环特征初始提取模型;
S2-2-2-3、利用所述离散文本数字序列作为验证集;
S2-2-2-4、将所述验证集代入自循环特征初始提取模型得到初始提取特征;
S2-2-2-5、判断所述初始提取特征与历史离散文本数字序列对应特征是否一致,若是,则直接输出自循环特征初始提取模型作为自循环特征提取模型,否则,获取与历史离散文本数字序列对应特征不一致的初始提取特征对应离散文本数字序列作为补充训练集,并执行S2-2-2-6;
S2-2-2-6、利用所述补充训练集并入训练集作为当前时刻训练集,并返回S2-2-2-2。
S2-2-3具体包括:
S2-2-3-1、利用所述离散文本数字序列作为训练集;
S2-2-3-2、利用所述训练集作为输入,所述训练集对应特征作为输出,基于循环神经网络进行训练得到自循环特征初始提取模型;
S2-2-3-3、判断所述自循环特征初始提取模型是否存在完全相同历史自循环特征初始提取模型,若是,则返回S2-2-2,否则,输出自循环特征初始提取模型作为自循环特征提取模型。
本实施例中,一种基于自然语言处理技术的离散文本识别方法,所述自循环特征提取模型的思路具体实施如下:
采用循环神经网络(RNN)对离散文本数据进行特征提取,得到高维特征向量。
(a)数据预处理:将文本数据转换为数字序列,例如使用单词嵌入(wordembedding)或者词袋模型(bag-of-words)等方法将单词转换为数字向量。
(b)定义RNN模型:选择合适的RNN模型,例如LSTM或GRU等,并定义模型的输入、输出和隐藏状态等参数。
(c)训练模型:使用训练数据对模型进行训练,通过反向传播算法更新模型的权重和偏置。
(d)特征提取:使用训练好的RNN模型对新的文本数据进行特征提取,例如使用模型的最后一个隐藏状态或者平均隐藏状态等方法提取文本的特征向量。
(e)应用特征向量:将提取的特征向量应用于下游任务,例如文本分类、情感分析、机器翻译等。
S2-3具体包括:
S2-3-1、利用所述离散文本数据的数据特征建立文本数据分类模型;
S2-3-2、利用所述离散文本数据的数据特征根据文本数据分类模型得到待识别筛选文本数据的分类处理结果。
S2-3-1具体包括:
S2-3-1-1、判断所述离散文本数据的数据特征对应自循环特征提取模型是否存在历史离散文本数字序列,若是,则利用所述离散文本数据的数据特征对应历史数据特征作为训练集,并执行S2-3-1-2,否则,利用所述离散文本数据的数据特征作为训练集,并执行S2-3-1-2;
S2-3-1-2、利用所述训练集作为输入,所述训练集对应文本数据分类结果作为输出,基于支持向量机进行训练得到文本数据分类初始模型;
S2-3-1-3、判断所述文本数据分类初始模型是否对应历史数据特征,若是,则利用离散文本数据的数据特征作为验证集,并执行S2-3-1-4,否则,直接输出文本数据分类初始模型作为文本数据分类模型;
S2-3-1-4、将所述验证集代入文本数据分类初始模型得到文本数据初始分类结果;
S2-3-1-5、判断所述文本数据初始分类结果与历史数据特征对应文本数据初始分类结果是否完全对应,若是,则输出文本数据分类初始模型作为文本数据分类模型,否则,获取与历史数据特征对应文本数据初始分类结果不对应的离散文本数据的数据特征作为当前训练集,并返回S2-3-1-2。
本实施例中,一种基于自然语言处理技术的离散文本识别方法,所述文本数据分类模型的具体实施过程如下:
分类识别:采用支持向量机(SVM)对降维后的特征向量进行分类识别,得到离散文本数据的识别结果。
(a)数据准备:将数据集分为训练集和测试集,并将特征向量和对应的标签分别存储。
(b)特征归一化:对训练集和测试集的特征向量进行归一化处理,使得每个特征的均值为0,方差为1。
(c)训练模型:使用训练集对SVM模型进行训练,通过调整超参数(例如核函数类型、正则化参数等)来优化模型性能。
(d)预测测试集:使用训练好的SVM模型对测试集进行预测,得到预测结果。
(e)评估模型:使用评估指标(例如准确率、精确率、召回率等)来评估模型性能。
S3具体包括:
S3-1、判断所述待识别筛选文本数据的分类处理结果是否存在对应辅助标签,若是,则执行S3-2,否则,执行S3-3;
S3-2、判断所述待识别筛选文本数据的分类处理结果与辅助标签对应分类处理结果是否一致,若是,则输出所述待识别筛选文本数据的分类处理结果作为离散文本识别结果,否则,返回S1-1;
S3-3、判断所述待识别筛选文本数据的分类处理结果对应自循环特征提取模型是否建立流程合理,若是,则输出所述待识别筛选文本数据的分类处理结果作为离散文本识别结果,否则,放弃处理;
其中,所述建立流程合理为当S2-2-3-3执行返回S2-2-2后,S2-2-3-1的执行次数为0。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (7)
1.一种基于自然语言处理技术的离散文本识别方法,其特征在于,包括:
S1、获取待识别文本数据进行初始筛选处理得到待识别筛选文本数据;
S1-1、利用所述待识别文本数据进行词语预处理得到第一初始筛选文本数据;
S1-2、判断所述第一初始筛选文本数据是否存在完全相同历史记录,若是,则输出所述第一初始筛选文本数据作为待识别筛选文本数据,否则,利用所述第一初始筛选文本数据对应历史待识别文本数据作为辅助标签,并利用所述第一初始筛选文本数据与辅助标签作为待识别筛选文本数据;
其中,所述词语预处理包括依次进行分词、去停用词与词性标注处理;
S2、利用所述待识别筛选文本数据基于自然语言处理技术得到待识别筛选文本数据的分类处理结果;
S2-1、判断所述待识别筛选文本数据是否存在辅助标签,若是,则利用所述待识别筛选文本数据的第一初始筛选文本数据得到待识别筛选文本数据的离散文本数据,否则,利用所述待识别筛选文本数据得到待识别筛选文本数据的离散文本数据;
S2-2、利用所述离散文本数据进行特征提取得到离散文本数据的数据特征;
S2-3、根据所述离散文本数据的数据特征得到待识别筛选文本数据的分类处理结果;
其中,离散文本数据为以离散形式保存的第一初始筛选文本数据或待识别筛选文本数据;
S3、利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果。
2.如权利要求1所述的一种基于自然语言处理技术的离散文本识别方法,其特征在于,利用所述离散文本数据进行特征提取得到离散文本数据的数据特征包括:
S2-2-1、利用所述离散文本数据进行数字转换得到离散文本数字序列;
S2-2-2、判断所述离散文本数字序列是否存在完全相同历史离散文本数字序列,若是,则利用所述离散文本数字序列与对应历史离散文本数字序列建立自循环特征提取模型,否则,执行S2-2-3;
S2-2-3、利用所述离散文本数字序列建立自循环特征提取模型;
S2-2-4、利用所述离散文本数据根据自循环特征提取模型得到离散文本数据的数据特征;
其中,数字转换为基于词袋模型将离散文本数据转换得到离散文本数字序列。
3.如权利要求2所述的一种基于自然语言处理技术的离散文本识别方法,其特征在于,利用所述离散文本数字序列与对应历史离散文本数字序列建立自循环特征提取模型包括:
S2-2-2-1、利用所述历史离散文本数字序列作为训练集;
S2-2-2-2、利用所述训练集作为输入,所述训练集对应特征作为输出,基于循环神经网络进行训练得到自循环特征初始提取模型;
S2-2-2-3、利用所述离散文本数字序列作为验证集;
S2-2-2-4、将所述验证集代入自循环特征初始提取模型得到初始提取特征;
S2-2-2-5、判断所述初始提取特征与历史离散文本数字序列对应特征是否一致,若是,则直接输出自循环特征初始提取模型作为自循环特征提取模型,否则,获取与历史离散文本数字序列对应特征不一致的初始提取特征对应离散文本数字序列作为补充训练集,并执行S2-2-2-6;
S2-2-2-6、利用所述补充训练集并入训练集作为当前时刻训练集,并返回S2-2-2-2。
4.如权利要求2所述的一种基于自然语言处理技术的离散文本识别方法,其特征在于,利用所述离散文本数字序列建立自循环特征提取模型包括:
S2-2-3-1、利用所述离散文本数字序列作为训练集;
S2-2-3-2、利用所述训练集作为输入,所述训练集对应特征作为输出,基于循环神经网络进行训练得到自循环特征初始提取模型;
S2-2-3-3、判断所述自循环特征初始提取模型是否存在完全相同历史自循环特征初始提取模型,若是,则返回S2-2-2,否则,输出自循环特征初始提取模型作为自循环特征提取模型。
5.如权利要求2所述的一种基于自然语言处理技术的离散文本识别方法,其特征在于,根据所述离散文本数据的数据特征得到待识别筛选文本数据的分类处理结果包括:
S2-3-1、利用所述离散文本数据的数据特征建立文本数据分类模型;
S2-3-2、利用所述离散文本数据的数据特征根据文本数据分类模型得到待识别筛选文本数据的分类处理结果。
6.如权利要求5所述的一种基于自然语言处理技术的离散文本识别方法,其特征在于,利用所述离散文本数据的数据特征建立文本数据分类模型包括:
S2-3-1-1、判断所述离散文本数据的数据特征对应自循环特征提取模型是否存在历史离散文本数字序列,若是,则利用所述离散文本数据的数据特征对应历史数据特征作为训练集,并执行S2-3-1-2,否则,利用所述离散文本数据的数据特征作为训练集,并执行S2-3-1-2;
S2-3-1-2、利用所述训练集作为输入,所述训练集对应文本数据分类结果作为输出,基于支持向量机进行训练得到文本数据分类初始模型;
S2-3-1-3、判断所述文本数据分类初始模型是否对应历史数据特征,若是,则利用离散文本数据的数据特征作为验证集,并执行S2-3-1-4,否则,直接输出文本数据分类初始模型作为文本数据分类模型;
S2-3-1-4、将所述验证集代入文本数据分类初始模型得到文本数据初始分类结果;
S2-3-1-5、判断所述文本数据初始分类结果与历史数据特征对应文本数据初始分类结果是否完全对应,若是,则输出文本数据分类初始模型作为文本数据分类模型,否则,获取与历史数据特征对应文本数据初始分类结果不对应的离散文本数据的数据特征作为当前训练集,并返回S2-3-1-2。
7.如权利要求5所述的一种基于自然语言处理技术的离散文本识别方法,其特征在于,利用所述待识别筛选文本数据的分类处理结果得到离散文本识别结果包括:
S3-1、判断所述待识别筛选文本数据的分类处理结果是否存在对应辅助标签,若是,则执行S3-2,否则,执行S3-3;
S3-2、判断所述待识别筛选文本数据的分类处理结果与辅助标签对应分类处理结果是否一致,若是,则输出所述待识别筛选文本数据的分类处理结果作为离散文本识别结果,否则,返回S1-1;
S3-3、判断所述待识别筛选文本数据的分类处理结果对应自循环特征提取模型是否建立流程合理,若是,则输出所述待识别筛选文本数据的分类处理结果作为离散文本识别结果,否则,放弃处理;
其中,所述建立流程合理为当S2-2-3-3执行返回S2-2-2后,S2-2-3-1的执行次数为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311164234.5A CN116911288B (zh) | 2023-09-11 | 2023-09-11 | 一种基于自然语言处理技术的离散文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311164234.5A CN116911288B (zh) | 2023-09-11 | 2023-09-11 | 一种基于自然语言处理技术的离散文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116911288A CN116911288A (zh) | 2023-10-20 |
CN116911288B true CN116911288B (zh) | 2023-12-12 |
Family
ID=88367124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311164234.5A Active CN116911288B (zh) | 2023-09-11 | 2023-09-11 | 一种基于自然语言处理技术的离散文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116911288B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
CN113076749A (zh) * | 2021-04-19 | 2021-07-06 | 上海云绅智能科技有限公司 | 一种文本识别方法和系统 |
CN113486178A (zh) * | 2021-07-12 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN113806536A (zh) * | 2021-09-14 | 2021-12-17 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN114328913A (zh) * | 2021-12-06 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、计算机设备和存储介质 |
CN115130542A (zh) * | 2022-04-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 模型训练方法、文本处理方法、装置及电子设备 |
CN115730225A (zh) * | 2021-08-30 | 2023-03-03 | 北京字节跳动网络技术有限公司 | 一种离散序列的聚类方法及装置 |
CN116681082A (zh) * | 2023-05-29 | 2023-09-01 | 平安科技(深圳)有限公司 | 离散文本语义分段方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220220A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于文本处理的电子设备和方法 |
US11514699B2 (en) * | 2020-07-30 | 2022-11-29 | International Business Machines Corporation | Text block recognition based on discrete character recognition and text information connectivity |
-
2023
- 2023-09-11 CN CN202311164234.5A patent/CN116911288B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
CN113076749A (zh) * | 2021-04-19 | 2021-07-06 | 上海云绅智能科技有限公司 | 一种文本识别方法和系统 |
CN113486178A (zh) * | 2021-07-12 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN115730225A (zh) * | 2021-08-30 | 2023-03-03 | 北京字节跳动网络技术有限公司 | 一种离散序列的聚类方法及装置 |
CN113806536A (zh) * | 2021-09-14 | 2021-12-17 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
CN114328913A (zh) * | 2021-12-06 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、计算机设备和存储介质 |
CN115130542A (zh) * | 2022-04-27 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 模型训练方法、文本处理方法、装置及电子设备 |
CN116681082A (zh) * | 2023-05-29 | 2023-09-01 | 平安科技(深圳)有限公司 | 离散文本语义分段方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
"Developing discrete density Hidden Markov Models for Arabic printed text recognition";Sameh M. Awaida 等;《2012 IEEE International Conference on Computational Intelligence and Cybernetics (CyberneticsCom)》;第35-39页 * |
"高维数据集中局部离散文本数据挖掘方法研究";农晓锋;《现代电子技术》;第40卷(第19期);第138-141页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116911288A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914644B (zh) | 一种基于双模态协同的弱监督时序动作定位方法及系统 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN110348214B (zh) | 对恶意代码检测的方法及系统 | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
US11715487B2 (en) | Utilizing machine learning models to provide cognitive speaker fractionalization with empathy recognition | |
CN110262942A (zh) | 一种日志分析方法及装置 | |
CN109886021A (zh) | 一种基于api全局词向量和分层循环神经网络的恶意代码检测方法 | |
CN113111804B (zh) | 一种人脸检测的方法、装置、电子设备及存储介质 | |
CN112035345A (zh) | 一种基于代码片段分析的混合深度缺陷预测方法 | |
CN116361801A (zh) | 基于应用程序接口语义信息的恶意软件检测方法及系统 | |
CN113434685A (zh) | 一种资讯分类处理的方法及系统 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN116627490A (zh) | 一种智能合约字节码相似性检测方法 | |
CN116361788A (zh) | 一种基于机器学习的二进制软件漏洞预测方法 | |
CN112347531A (zh) | 一种脆性大理石三维裂纹扩展路径预测方法及系统 | |
CN115859302A (zh) | 源代码漏洞检测方法、装置、设备及存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN116911288B (zh) | 一种基于自然语言处理技术的离散文本识别方法 | |
CN112308149A (zh) | 基于机器学习的图像信息识别的优化方法及装置 | |
CN114238740A (zh) | 一种确定代理主体代理品牌的方法及装置 | |
CN116702160A (zh) | 一种基于数据依赖增强程序切片的源代码漏洞检测方法 | |
CN116070642A (zh) | 一种基于表情嵌入的文本情感分析方法及相关装置 | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 | |
CN115713669A (zh) | 一种基于类间关系的图像分类方法、装置、存储介质及终端 | |
CN113469237B (zh) | 用户意图识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |