CN110069558A

CN110069558A - 基于深度学习的数据分析方法及终端设备

Info

Publication number: CN110069558A
Application number: CN201910204235.5A
Authority: CN
Inventors: 冷晓宁; 刘金飞; 任晓德; 苏振中
Original assignee: Zhongke Hengyun Co Ltd
Current assignee: Zhongke Hengyun Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-07-30

Abstract

本发明提供了一种基于深度学习的数据分析方法及终端设备，包括：将采集的数据进行数据筛选和预处理，得到目标数据；通过深度卷积神经网络对所述目标数据进行特征提取，得到输入数据；将所述输入数据输入训练完成的深度学习模型，获取对所述目标数据的分析结果。本发明通过深度卷积神经网络进行学习，能够更好的表示数据的特征，同时，由于深度卷积神经网络模型的层次、参数很多，能够很好的表示大规模数据，对于图像、文本等特征不明显的问题，能够在大规模训练数据上取得很好的效果，使得数据分析的结果更为精准。

Description

基于深度学习的数据分析方法及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种基于深度学习的数据分析方法及终端设备。

背景技术

在大数据迅速发展的时代，深度学习是浅层学习发展和延伸，深度学习可以应用到浅层结构模型的应用领域中，而由于深度学习强大的特征表达能力，其在语音识别、图像识别、自然语言处理等方面都有重大的突破，并且可以应用到大规模的数据处理，但是深度学习的理论和技术发展方面还有一些不足，限制了深度学习的应用。目前已有的数据分析系统中的特征提取和分析预测模型大都是基于浅层学习开发的，这些模型转化的数据特征都是基于统计学方法计算得到的，这样得到的特征不能准确、有效的表达样本数据之间的内部关系，并且在大数据背景下的复杂网络数据处理分析应用较少,传统的数据分析系统没有整合完整算法不能为所有问题提供解决方案，没有整体的系统供数据进行分析。

发明内容

有鉴于此，本发明实施例提供了一种基于深度学习的数据分析方法及终端设备，以解决现有技术中数据分析不准确的问题。

本发明实施例的第一方面提供了一种基于深度学习的数据分析方法，包括：

将采集的数据进行数据筛选和预处理，得到目标数据；

通过深度卷积神经网络对所述目标数据进行特征提取，得到输入数据；

将所述输入数据输入训练完成的深度学习模型，获取对所述目标数据的分析结果。

本发明实施例的第二方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

将采集的数据进行数据筛选和预处理，得到目标数据；

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

将采集的数据进行数据筛选和预处理，得到目标数据；

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度学习的数据分析方法的流程示意图；

图2为本发明实施例提供的一种基于深度学习的数据分析装置的结构框图；

图3为本发明实施例提供的一种基于深度学习的数据分析终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

本发明实施例提供了一种基于深度学习的数据分析方法。结合图1，该方法包括：

S101，将采集的数据进行数据筛选和预处理，得到目标数据。

其中，数据筛选的目的是为了提高之前收集存储的相关数据的可用性，更利于后期数据分析。数据的价值在于其所能够反映的信息。然而在收集数据的时候，并没有能够完全考虑到未来的用途，在收集时只是尽可能的收集数据。其次就是为了更深层次的获得数据所包含的信息，可能需要将不同的数据源汇总在一起，从中提取所需要的数据，然而这就需要解决可能出现的不同数据源中数据结构相异、相同数据不同名称或者不同表示等问题。可以说数据筛选的最终目的就是为数据挖掘做准备。数据筛选包括数据抽取、数据清理、数据加载三个部分。

通过数据抽取把不同数据源中的数据按照数据仓库中的数据格式转入到数据仓库中，统一数据格式；数据清理包含缺失数据处理、重复数据处理、异常数据处理及不一致数据整理；数据加载将数据加载至数据库中，分为全量加载和增量加载两种方式。

通过数据预处理把数据组织成一个标准的形式，包括但不限于归一化处理、离散化处理等。

S102，通过深度卷积神经网络对所述目标数据进行特征提取，得到输入数据。

深度卷积神经网络模型的层次、参数很多，能够很好的表示大规模数据，对于图像、文本等特征不明显的问题，能够很好的进行特征提取。

S103，将所述输入数据输入训练完成的深度学习模型，获取对所述目标数据的分析结果。

具体的，本发明实施例提供对多种数据的分析：

可选的，目标数据为图像数据，所述深度学习模型为深度神经网络模型，在将所述输入数据输入训练完成的深度学习模型之前，该方法还包括：

通过预设训练集对所述深度神经网络模型进行训练，其中，所述预设训练集包含多张图片，所述预设训练集中的每张图片携带有对应的预标注的类别信息；

所述获取对所述目标数据的分析结果包括：获取所述图像数据所对应的类别信息。

通过海量预标注类型的图片对深度神经网络模型进行训练，使得深度神经网络模型具有图片分类功能，当目标数据为图像数据时，通过深度神经网络对图像数据进行特征提取，并通过训练好的深度神经网络模型对图像进行分类，得到的类别为预设类别中的一种。

另一种可选的，所述目标数据为选定词语，所述获取对所述目标数据的分析结果包括：

获取所述选定词语所对应的词向量；

根据所述选定词语所对应的词向量，获取至少一个相关词语，针对任一相关词语，所述相关词语所对应的词向量与所述选定词语所对应的词向量的欧式距离小于等于预设值。

可选的，通过预设的深度学习模型，在预设词库中获取与选定词语的词向量的欧式距离小于预设值的至少一个相关词语，作为所述选定词语的相关词。

可选的，所述目标数据为文档，所述深度学习模型为条件随机场CRF模型，所述获取对所述目标数据的分析结果包括：

通过训练完成的所述CRF模型，对所述文档进行分词，获得分词结果；

针对所述分词结果中的选定词语，根据所述选定词语的词性，统计所述选定词语出现的次数，计算所述选定词语在所述文档中的词频；

或针对所述分词结果，对所述文档进行实体识别，得到多个预设类型的实体中每个实体所包含的词语。

具体的，CRF(conditional random field algorithm，条件随机场算法)是一种基于遵循马尔可夫性的概率图模型，通过CRF模型能够对文档进行精准分词，对于获得的分词结果，本发明实施例提供两种可行的分析方式：

第一种，依次统计分词结果中每个词出现的词频，得到文档中的高频词汇；

第二种，对分词结果进行实体分类，统计每个实体所包含的词语，如，实体类别可以为人名、地名、机构名等，获得的分析结果即为实体类“人名”所包含的词语，实体类“地名”所包含的词语和实体类“机构名”所包含的词语等。

另一种可选的，所述目标数据为文档，所述深度学习模型为词频-逆文本频率tf-idf模型，所述获取对所述目标数据的分析结果包括：

通过所述tf-dif模型对所述文档进行关键词提取，获得所述文档中的一个或多个关键词。

具体的，tf-idf(term frequency–inverse document frequency，词频-逆文本频率)是一种用于信息检索与数据挖掘的常用加权技术，是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

通过tf-idf模型对文档进行关键词提取，获取文档中的一个或多个关键词。

另一种可选的，所述目标数据为文本，所述获取对所述目标数据的分析结果包括：

通过所述深度学习模型对所述文本进行分类，得到所述文本所对应的类别的标号，其中，所述类别为预设的多个类别中的一种。

另一种可选的，所述目标数据为多个文本，所述获取对所述目标数据的分析结果包括：

通过所述深度学习模型对所述多个文本进行分类，对属于同一类别的一个或多个文本进行聚类，并对所述属于同一类别的一个或多个文本标注所述类别所对应的标号。

通过上述两种分析方法，能够实现对文档/文本的分类和聚类。

通过所述深度学习模型对所述文本进行分词，得到分词结果；

统计所述分词结果中每个词语出现的次数；

根据预设的情感词典，获取所述分词结果中每个词语所对应的预设情感值；

根据所述每个词语出现的次数，和所述每个词语所对应的预设情感值，获取所述文本在每个预设情感倾向的概率值。

通过上述方法，可以实现对文本的情感分析和舆情分析。

本发明提供了一种基于深度学习的数据分析方法，包括：将采集的数据进行数据筛选和预处理，得到目标数据；通过深度卷积神经网络对所述目标数据进行特征提取，得到输入数据；将所述输入数据输入训练完成的深度学习模型，获取对所述目标数据的分析结果。本发明通过深度卷积神经网络进行学习，能够更好的表示数据的特征，同时，由于深度卷积神经网络模型的层次、参数很多，能够很好的表示大规模数据，对于图像、文本等特征不明显的问题，能够在大规模训练数据上取得很好的效果，使得数据分析的结果更为精准。

图2为本发明实施例提供的一种基于深度学习的数据分析装置示意图，结合图2，该装置包括：数据筛选和预处理单元21、特征提取单元22和数据分析单元23；

数据筛选和预处理单元21，用于将采集的数据进行数据筛选和预处理，得到目标数据；

特征提取单元22，用于通过深度卷积神经网络对所述目标数据进行特征提取，得到输入数据；

数据分析单元23，用于将所述输入数据输入训练完成的深度学习模型，获取对所述目标数据的分析结果。

可选的，所述目标数据为图像数据，所述深度学习模型为深度神经网络模型，所述数据分析单元23还用于：

获取所述图像数据所对应的类别信息。

可选的，所述目标数据为选定词语，所述数据分析单元23用于：

获取所述选定词语所对应的词向量；

可选的，所述目标数据为文档，所述深度学习模型为条件随机场CRF模型，所述数据分析单元23用于：

可选的，所述目标数据为文档，所述深度学习模型为词频-逆文本频率tf-idf模型，所述数据分析单元23用于：

可选的，所述目标数据为文本，所述数据分析单元23用于：

可选的，所述目标数据为多个文本，所述数据分析单元23用于：

可选的，所述目标数据为文本，所述数据分析单元23用于：

统计所述分词结果中每个词语出现的次数；

本发明提供了一种基于深度学习的数据分析装置，该装置用于：将采集的数据进行数据筛选和预处理，得到目标数据；通过深度卷积神经网络对所述目标数据进行特征提取，得到输入数据；将所述输入数据输入训练完成的深度学习模型，获取对所述目标数据的分析结果。本发明通过深度卷积神经网络进行学习，能够更好的表示数据的特征，同时，由于深度卷积神经网络模型的层次、参数很多，能够很好的表示大规模数据，对于图像、文本等特征不明显的问题，能够在大规模训练数据上取得很好的效果，使得数据分析的结果更为精准。

图3为本发明实施例提供的一种终端设备的示意图。如图3所示，该实施例的终端设备3包括：处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32，例如基于深度学习的数据分析程序。所述处理器30执行所述计算机程序32时实现上述各个基于深度学习的数据分析方法实施例中的步骤，例如图1所示的步骤101至103。或者，所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能，例如图2所示模块21至23的功能。

示例性的，所述计算机程序32可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序32在所述终端设备3中的执行过程。

所述终端设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器30、存储器31。本领域技术人员可以理解，图3仅仅是终端设备3的示例，并不构成对终端设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31可以是所述终端设备3的内部存储单元，例如终端设备3的硬盘或内存。所述存储器31也可以是所述终端设备3的外部存储设备，例如所述终端设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述基于深度学习的数据分析方法的步骤。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的数据分析方法，其特征在于，该方法包括：

将采集的数据进行数据筛选和预处理，得到目标数据；

2.根据权利要求1所述的基于深度学习的数据分析方法，其特征在于，所述目标数据为图像数据，所述深度学习模型为深度神经网络模型，在将所述输入数据输入训练完成的深度学习模型之前，该方法还包括：

3.根据权利要求1所述的基于深度学习的数据分析方法，其特征在于，所述目标数据为选定词语，所述获取对所述目标数据的分析结果包括：

获取所述选定词语所对应的词向量；

4.根据权利要求1所述的基于深度学习的数据分析方法，其特征在于，所述目标数据为文档，所述深度学习模型为条件随机场CRF模型，所述获取对所述目标数据的分析结果包括：

5.根据权利要求1所述的基于深度学习的数据分析方法，其特征在于，所述目标数据为文档，所述深度学习模型为词频-逆文本频率tf-idf模型，所述获取对所述目标数据的分析结果包括：

6.根据权利要求1所述的基于深度学习的数据分析方法，其特征在于，所述目标数据为文本，所述获取对所述目标数据的分析结果包括：

7.根据权利要求1所述的基于深度学习的数据分析方法，其特征在于，所述目标数据为多个文本，所述获取对所述目标数据的分析结果包括：

8.根据权利要求1所述的基于深度学习的数据分析方法，其特征在于，所述目标数据为文本，所述获取对所述目标数据的分析结果包括：

统计所述分词结果中每个词语出现的次数；

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。

10.一种终端设备，其特征在于，所述终端设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。