CN115470773A

CN115470773A - 一种基于大数据的文本分析方法及装置

Info

Publication number: CN115470773A
Application number: CN202211004207.7A
Authority: CN
Inventors: 周祥; 贺庆; 尹皓
Original assignee: Hangzhou Shuzhi Zhengtong Technology Co ltd
Current assignee: Hangzhou Shuzhi Zhengtong Technology Co ltd
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-12-13

Abstract

本发明公开了一种基于大数据的文本分析方法及装置，采集文本大数据，并对所述文本大数据进行部分批注，得到目标文本；对所述目标文本进行数据预处理，所述数据预处理包括数据清理、数据变换和数据规约，得到模型数据；将所述模型数据划分为训练集、测试集和验证集，并利用所述训练集构建深度信念网络模型；根据所述验证集验证得到深度信念网络模型，用以分析所述文本大数据。深度信念网络模型学习到了数据的内在特征，得到了接近全局最优的初始权重，有效避免了网络模型因随机初始化权重参数，代价函数易收敛到局部最优的问题，使得模型无论是在分类还是回归方面，都表现出绝佳的性能。

Description

一种基于大数据的文本分析方法及装置

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种基于大数据的文本分析方法及装置。

背景技术

在现今互联网信息行业中，非结构化数据(UnstructuredData)占据了全部数据的百分之70以上，其中有过半以上为文本数据。这些文本数据可能包括了网页、用户文档、网络实时资讯、新闻、微博等，如何高效的利用这些资源，是互联网数据挖掘领域常见的技术困难之一。

文本相似性分析(Textsimilarityanalysis)是文本数据挖掘所包括的常用技术，其目的是通过算法对不同的长短文本进行解析、比较，计算出同一段文本与其他文本数据的相似程度。这项技术可用于资讯推荐、相似文章去重、文库检索等多种互联网应用场景。互联网行业中的文本数据一般来自用户的手动上传、网络爬虫的定期采集等，往往存在数据量较大、格式复杂、冗余内容较多以及更新频繁的特点。

深度学习作为一种新兴的深层次神经网络学习算法，通过模拟人脑的工作方式，构建含有多个隐藏层的人工神经网络模型，对输入的高维数据逐层提取特征进而形成抽象的高层表示，展现出强大的学习能力。深度信念网络作为一种优秀的深度学习模型，有着强大的特征提取能力，它是一种深层次概率生成模型，采用逐层无监督训练的方法解决了多隐层神经网络训练困难的问题，在预测和分类方面表现出绝佳的性能，现已成功应用于多个领域。本方法基于深度信念网络模型结构，提出一种对文本进行智能评估并提取关键内容的方法。

发明内容

本发明提供的一种基于大数据的文本分析方法，旨在解决上述问题，。

为实现上述目的，本发明采用以下技术方案：

本发明的一种基于大数据的文本分析方法，包括以下步骤：

采集文本大数据，并对所述文本大数据进行部分批注，得到目标文本；

对所述目标文本进行数据预处理，所述数据预处理包括数据清理、数据变换和数据规约，得到模型数据；

将所述模型数据划分为训练集、测试集和验证集，并利用所述训练集构建深度信念网络模型；

根据所述验证集验证得到深度信念网络模型，用以分析所述文本大数据。

作为优选，所述数据预处理的步骤包括：

步骤一：建立目标函数：

其中，ζ(x，θ)表示训练神经网络的优化目标，θ表示网络参数，x表示单个数据样本，在N个数据点的数据集X，{x_i}^N _i＝1中；

步骤二：再将公式(1)通过一阶优化进行优化，其中，随着目标数据集B上的参数θ沿负梯度下降т_k，其中т_k表示下降梯度的步长，k为大于1的整数，公式表示为：

步骤三：去除小批量随机梯度下降对应采样数据点带来的影响，以达到消除随机抽样数据带来的误差，提高模型的精度，更新方程为：

作为优选，所述所述构建深度信念网络模型的步骤，包括：

(1)从输入层开始，每相邻的两层节点构成一个RBM；首先用CD算法训练第一层RBM，得到第一层RBM的参数；然后固定该RBM的参数，将当前RBM的输出作为下一个RBM的输入，继续训练下一层RBM，直到所有RBM训练完成，得到所述深度信念网络的初始参数；

(2)以第(1)步得到的初始参数构建一个相同结构的人工神经网络模型，然后用带标签的数据来反向微调整个模型，得到所述深度信念网络模型的最终参数，所述带标签的数据表示预先设定的数据，用于在训练模型时逐层渗透以得到符合一定要求的深度信念网络模型。

作为优选，所述所述对所述文本大数据进行部分批注包括人工批注或使用文本关键词提取算法从所述文本大数据中提取出关键词，并过滤包括停用词在内的错误关键词。

一种基于大数据的文本分析装置，包括：

采集模块：用于采集文本大数据，并对所述文本大数据进行部分批注，得到目标文本；

数据预处理模块：用于对所述目标文本进行数据预处理，所述数据预处理包括数据清理、数据变换和数据规约，得到模型数据；

训练模块：用于将所述模型数据划分为训练集、测试集和验证集，并利用所述训练集构建深度信念网络模型；

分析模块：用于根据所述验证集验证得到深度信念网络模型，用以分析所述文本大数据。

作为优选，所述数据预处理包括：

步骤一：建立目标函数：

作为优选，所述训练模块包括：

作为优选，所述采集模块包括人工批注或使用文本关键词提取算法从所述文本大数据中提取出关键词，并过滤包括停用词在内的错误关键词。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种基于大数据的文本分析方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述中任一项所述的一种基于大数据的文本分析方法。

本发明具有如下有益效果：

数据预处理,一方面提高数据的质量，另一方面是要让数据更好的适应构建深度信念网络模型。然后通过对RBM的逐层预训练，深度信念网络模型学习到了数据的内在特征，得到了接近全局最优的初始权重，有效避免了网络模型因随机初始化权重参数，代价函数易收敛到局部最优的问题，使得模型无论是在分类还是回归方面，都表现出绝佳的性能。

将经过预处理后的相关数据划分为训练集、测试集和验证集，然后构建深度信念网络模型，将训练好的符合要求的模型应用于对采集的文本大数据通篇分析，提高了用户获取关键内容的效率。

附图说明

图1是本发明实施例实现一种基于大数据的文本分析方法流程图；

图2是本发明实施例实现一种基于大数据的文本分析方法中的训练深度信念网络模型示意图；

图3是本发明实施例实现一种基于大数据的文本分析系统中结构图；

图4是本发明实施例实现一种基于大数据的文本分析系统的一种电子设备示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式，此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同，本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

实施例1，如图1-2所示，一种基于大数据的文本分析方法，包括以下步骤：

S110、采集文本大数据，并对所述文本大数据进行部分批注，得到目标文本；

S120、对所述目标文本进行数据预处理，所述数据预处理包括数据清理、数据变换和数据规约，得到模型数据；

S130、将所述模型数据划分为训练集、测试集和验证集，并利用所述训练集构建深度信念网络模型；

S140、根据所述验证集验证得到深度信念网络模型，用以分析所述文本大数据。

由实施例1可知，数据预处理阶段涉及数据清理、数据变换和数据规约等。数据采集得到的数据会存在大量不完整、不一致、有异常的数据，严重影响到后期建模的执行效率，甚至可能导致评估结果的偏差，因此要进行数据预处理。一方面提高数据的质量，另一方面是要让数据更好的适应构建深度信念网络模型。数据清理通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标：格式标准化，异常数据清除，错误纠正，重复数据的清除。数据变换通过平滑聚集，数据概化，规范化等方式将数据转换成适用于后续训练学习的形式。数据采集获取的数据量会比较大，不利于后期的处理，数据归约技术可以用来得到数据集的归约表示，它小得多，但仍然接近于保持原数据的完整性，并且不会导致我们对的评估结果与归约前结果有很大差异。

在深度学习方法出现之前，学术界和工业界应用较多的是浅层人工神经网络，并不是因为浅层人工神经网络的性能要优于深层次人工神经网络，而是因为深层次神经网络训练困难，且易收敛到局部最小值，导致其结果比浅层模型还要差，无法满足应用需求。深度信念网络作为一种概率生成模型，它由多个受限波尔兹曼机(Resteicted BoltzmannMachine,RBM)依次堆叠而成，其结构如图2所示，深度信念网络有着强大的拟合复杂数据的能力，通过多个受限波尔兹曼机逐层提取数据特征，能处理语音、图像、文本、数值等各种复杂类型数据，被广泛应用在各个领域。深度信念网络作为深层次神经网络模型，其独特的训练过程克服了多隐层神经网络难以训练问题，其训练过程分为两步：

(1)从输入层开始，每相邻的两层节点构成一个RBM；首先用CD算法训练第一层RBM，得到第一层RBM的参数；然后固定该RBM的参数，将当前RBM的输出作为下一个RBM的输入，继续训练下一层RBM，直到所有RBM训练完成，得到网络的初始参数。

(2)以第(1)步得到的权重参数构建一个相同结构的人工神经网络模型，然后用带标签的数据来反向微调整个模型，得到模型的最终参数。

通过第(1)对RBM的逐层预训练，深度信念网络模型学习到了数据的内在特征，得到了接近全局最优的初始权重，有效避免了网络模型因随机初始化权重参数，代价函数易收敛到局部最优的问题，使得模型无论是在分类还是回归方面，都表现出绝佳的性能。

将经过预处理后的相关数据划分为训练集、测试集和验证集，然后构建深度信念网络模型，将训练好的符合要求的模型应用文本大数据分析。

实施例2，由于在深度信念网络模型的构建中，大数据文本是通过随机抽样得来，并且存在导致数据偏离的影响，导致深度信念网络的泛化，因此希望分离随机变量的影响，在数据预处理具体包括如下步骤：

步骤一：建立目标函数：

在公式(3)中，完整批次梯度下降对应于完整数据集B＝X上的下降，随机梯度下降对应于单个随机数据点B＝{x}进行采样，并且小批量随机梯度下降对应于采样数据点B＝{x_j}^S _j＝1，x_j～X，在不更换的情况下采样时，通常在所有元素都耗尽了，该更新方程通常作为受污染的完整批次梯度的更新进行分析随机小批量抽样产生的梯度噪声。

本实施例首先对采集的文本大数据进行初步内容解析，所述内容解析包括对已经批注好的目标文本进行同语义解析，所述批注的内容不限于原子切分、未登录词的识别、词性批注，并建立符合公式(1)的语义模型，并对该同语义解析所具备的具体实体信息，包括条件、变量和目标进行具体赋值，其次，基于公式(2)的要求，对不可被理解描述为语义的部分进行语义迭代计算优化，继而，基于公式(3)，对文本大数据对所含有的冗余部分、无效条件、重叠目标、矛盾条件等干扰因素进行消除，使其复杂程度降低，有利于计算机清晰读懂指令真实的查询目标，在对指令语义的准确理解之后，确定其语义解析的工作流程，使其准确符合指令所具有的输入、目标、约束等，成为一个可执行的工作流。从公式(1)-(3)出发利用批注文本到整体文本大数据的语义关联和依赖，选择对应的候选工作流实例集合；最后本发明通过过往工作流的查询案例知识，对工作流环节中出现的各种潜在风险和威胁进行识别，验证该工作流的可靠性。

实施例3，一种具体的实施方式，包括：

S310、采集文本大数据，并对所述文本大数据进行部分批注，得到目标文本，举例如下：

摘取大数据文本其中一部分内容为“全息摄影的记录过程：把激光束分成两束，一束激光直接投射在全息干板上，称为参考光束；另一束激光投射在物体上，经物体反射或者透射，携带有物体的光波信息，称为物光束。物光束也投射在全息干板的同一区域上，与参考光束干涉。在全息干板上，物光束与参考光束发生相干叠加，形成干涉条纹，一张全息图就完成了。全息图中物像的再现：用一束激光照射全息图，这束激光的频率和传输方向应该与参考光束完全一样。当用光波照射全息图时，由于衍射原理能重现出原始物光波，从而形成原物体逼真的三维像。人从不同角度看，可看到物体不同的侧面，就好像看到真实的物体一样，只是摸不到真实的物体”。本质就是干涉记录，衍射再现。

批注设置间隔符后为：把！激光束！分成！两束！，一束！激光！直接！投射！在！全息干板！上！，称为！参考光束！；另一束！激光！投射！在！物体！上！，经！物体！反射！或者！透射！，携带！有！物体！的！光波信息！，称为！物光束！。物光束！也！投射！在！全息干板！的！同一！区域！上！，与！参考光束！干涉！。在！全息干板！上！，物光束！与！参考光束！发生！相干！叠加！，形成！干涉！条纹！，一张！全息图！就！完成！了！。全息图！中！物像！的！再现！：用！一束！激光！照射！全息图！，这束！激光！的！频率！和！传输方向！应该！与！参考光束！完全！一样！。当！用！光波！照射！全息图！时！，由于！衍射！原理！能！重现！出！原始！物光波！，从而！形成！原物体！逼真！的！三维像！。

S320、对所述目标文本进行数据预处理，所述数据预处理包括数据清理、数据变换和数据规约，得到模型数据；

将其中词出现的频率低于平均值的词用间隔符“！”替换，然后得到出现次数频率最多的词，得到词“全息图”，然后去除“全息图”，再次统计出现频率最多的词，得到“激光”，重复并设定一定阈值，得到“干涉”、“物光束”、“参考光束”、“衍射”、“再现”“的”“在”、“上”等词。对将每个目标词建立目标函数，比如“激光”的同义词为“激光束、激光光束、脉冲激光、红外激光”等等，然后进行优化，去除停顿词“的”、“在”、“上”等以及同义词的随机误差干扰，“激光束、激光光束”就会造成“物光束”的随机干扰。

S330、将所述模型数据划分为训练集、测试集和验证集，并利用所述训练集构建深度信念网络模型；

以步骤S320得到的模型数据划分训练集、测试集和验证集，构建深度信念网络模型。最终在步骤S340中得到目标文本结果为“激光干涉全息图，衍射再现”或“物光束、参考光束干涉，衍射再现”，即可得到这段目标文本的结果是干涉记录，衍射再现。

S340、根据所述验证集验证得到深度信念网络模型，用以分析所述文本大数据。

实施例4，如图3所示，一种基于大数据的文本分析装置，包括：

采集模块10：用于采集文本大数据，并对所述文本大数据进行部分批注，得到目标文本；

数据预处理模块20：用于对所述目标文本进行数据预处理，所述数据预处理包括数据清理、数据变换和数据规约，得到模型数据；

训练模块30：用于将所述模型数据划分为训练集、测试集和验证集，并利用所述训练集构建深度信念网络模型；

分析模块40：用于根据所述验证集验证得到深度信念网络模型，用以分析所述文本大数据。

实施例5

如图4所示，一种电子设备，包括存储器401和处理器402，所述存储器401用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器402执行以实现上述的一种基于大数据的文本分析方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的一种基于大数据的文本分析方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器401中，并由处理器402执行，并由输入接口405和输出接口406完成数据的I/O接口传输，以完成本发明,一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，存储器401、处理器402,本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入器407、网络接入设备、总线等。

处理器402可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器402、数字信号处理器402(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器402可以是微处理器402或者该处理器402也可以是任何常规的处理器402等。

存储器401可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器401也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等,进一步地，存储器401还可以既包括计算机设备的内部存储单元也包括外部存储设备,存储器401用于存储计算机程序以及计算机设备所需的其他程序和数据,存储器401还可以用于暂时地存储在输出器408，而前述的存储介质包括U盘、移动硬盘、只读存储器ROM403、随机存储器RAM404、碟盘或光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。