CN107305555A

CN107305555A - 数据处理方法及装置

Info

Publication number: CN107305555A
Application number: CN201610247554.0A
Authority: CN
Inventors: 刘毅; 董云龙; 李湛; 田江涛
Original assignee: China Mobile Group Hebei Co Ltd
Current assignee: China Mobile Group Hebei Co Ltd
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2017-10-31

Abstract

本发明实施例公开一种数据处理方法，所述方法包括：对待处理的源数据按照数据格式进行分类；将所述分类后的各类数据分别进行预处理转换为文本信息；对所述文本信息进行处理，并加入预设的业务规则进行判断，筛选出符合业务应用的数据。本发明实施例还公开一种数据处理装置。

Description

数据处理方法及装置

技术领域

本发明涉及业务支撑领域的数据处理技术，尤其涉及数据处理方法及装置。

背景技术

在信息化社会，信息可以划分为两大类：一类信息能够用数据或统一的结构加以表示，称之为结构化数据，如数字、符号；而另一类信息无法用数字或统一的结构表示，如文本、图片、音频、视频等，称之为非结构化数据。随着网络技术的发展，特别是互联网(Internet)技术的飞快发展，使得非结构化数据的数量日趋增大。

传统的数据处理方法多是针对结构化数据，现有的非结构化数据的处理方法：一种是进行分类存储，例如：按照数据属性进行分类，并存储得到分类数据库；在分析阶段，通过查询各个分类数据库输出分析结果。该方法由于数据的属性在不同语义环境下具有不同的含义，因而脱离应用场景对数据属性进行分类，很容易造成分析结果不准确。另一种是元数据匹配的方法，即动态地将元数据从结果集中抽取出来，然后从大量可用选项中，选择最佳匹配的元数据集。该方法主要针对文本数据，对于音频、视频等非结构化数据不适用。

上述处理非结构化数据的方法，其处理能力有限，且缺乏实际应用场景的支撑，因而应用范围有限。

发明内容

为解决上述技术问题，本发明实施例期望提供一种数据处理方法及装置，适用于结构化数据和非结构化数据，能增强数据处理能力，且能提高符合不同业务应用的处理结果的应用能力。

本发明的技术方案是这样实现的：

本发明实施例提供一种数据处理方法，所述方法包括：

对待处理的源数据按照数据格式进行分类；

将所述分类后的各类数据分别进行预处理转换为文本信息；

对所述文本信息进行处理，并加入预设的业务规则进行判断，筛选出符合业务应用的数据。

上述方案中，所述对所述文本信息进行处理，并加入预设的业务规则进行判断，筛选出符合业务应用的数据，包括：

对所述文本信息进行分词，得到词汇集合；

对所述词汇集合按照所述预设的业务规则进行判断，筛选出符合所述业务规则的词汇；

将所述词汇与预设的知识库进行匹配，得到符合业务应用的数据。

上述方案中，所述将所述词汇与预设的知识库进行匹配，得到符合业务应用的数据之后，所述方法还包括：

根据所述匹配结果修正所述知识库。

上述方案中，所述方法还包括：

将所述词汇加入数据库，所述数据库包括按照所述业务规则进行分类后的词汇及所述词汇与源数据间的映射关系。

上述方案中，所述将所述分类后的各类数据分别进行预处理转换为文本信息包括：

对分类后的视频进行预处理，将所述视频分离成音频和图片，并将分离后的音频和图片转化为文本，建立所述视频和所述文本的转换映射关系；和/或，

对分类后的音频进行预处理，将所述音频转化为文本，建立所述音频和所述文本的转换映射关系；和/或，

对分类后的图片进行预处理，将所述图片转化为文本，建立所述图片和所述文本的转换映射关系。

本发明实施例提供一种数据处理装置，所述装置包括：

分类模块，用于对待处理的源数据按照数据格式进行分类；

转换模块，用于将所述分类后的各类数据分别进行预处理转换为文本信息；

处理模块，用于对所述文本信息进行处理，并加入预设的业务规则进行判断，筛选出符合业务应用的数据。

上述方案中，所述处理模块具体用于：

对所述文本信息进行分词，得到词汇集合；

上述方案中，所述装置还包括：

修正模块，用于根据所述匹配结果修正所述知识库。

上述方案中，所述装置还包括：

加载模块，用于将所述词汇加入数据库，所述数据库包括按照所述业务规则进行分类后的词汇及所述词汇与源数据间的映射关系。

上述方案中，所述转换模块具体用于：

本发明实施例提供了一种数据处理方法及装置，通过对待处理的源数据按照格式进行分类，并将分类后的各类数据分别进行预处理转换为文本信息，从而在处理阶段可以对转换后的文本信息进行处理；并进一步加入业务规则作为判断条件，因而可以筛选出符合特定业务规则的数据。本发明实施例能够处理结构化和非结构化数据，且能根据不同的业务规则筛选出符合特定业务应用的数据，因而，不仅增强了数据处理能力，而且扩大了实际应用场景的范围。

附图说明

图1为本发明提供的数据处理方法实施例一的流程示意图；

图2为本发明提供的数据处理方法实施例二的流程示意图；

图3为本发明提供的筛选系统的流程示意图；

图4为本发明提供的数据加载的流程示意图；

图5为本发明提供的数据抽取-转换-装载(Extract-Transform-Load，ETL)数据处理流程图；

图6为本发明提供的数据转换示意图；

图7为本发明提供的数据处理装置实施例一的结构示意图；

图8为本发明提供的数据处理装置实施例二的结构示意图；

图9为本发明提供的数据处理装置实施例三的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例基于成熟的数据ETL处理流程，并对数据ETL处理流程进行优化。本发明实施例通过构造非结构化数据的处理流程，使之可以自动处理非结构化数据。与处理结构化数据一样，在处理非结构化数据的过程中，进行清洗、转换、加载入库的步骤；并进一步加入业务规则筛选机制，可以针对不同的业务需要得到适应业务需求的数据组合，更有助于实际的应用。

本发明实施例的实际应用场景是通过ETL，将获取的与用户相关的结构化数据和非结构化数据，根据业务需求加载入库，再进行相应的用户分析。比如，从用户流量话单中获得用户上网时间、上网时长、使用流量等结构化数据，同时对用户的上网页面进行抓取，获得用户观看视频、图片和文本内容等非结构化数据。

针对上述应用场景，本发明实施例待处理的数据为用户流量话单，该流量话单包括用户标识((identification，ID)、用户流量、用户上网时长等结构化数据，该流量话单还包括上网内容、交互内容等非结构化数据。对于结构化数据的处理ETL已经实现，在此不再赘述。下面本发明实施例基于ETL处理流程，针对非结构化数据的处理过程进行详细说明。

图1为本发明提供的数据处理方法实施例一的流程示意图，如图1所示，该方法包括：

步骤101：对待处理的源数据按照数据格式进行分类。

本步骤中，对待处理的源数据，如用户上网页面，其包括有视频、音频、图片、文本等非结构化的数据，按照数据格式进行分类存储，分类后的数据例如为视频类、音频类、图片类、文本类等。将这些分类后的数据按照分类进行存储，并建立分类后的数据与源数据间的存储映射关系；该存储映射关系可以为：分类后的数据在源数据中的索引，便于后续阶段非结构化数据的追踪。例如：在数据抽取阶段，建立一个资源池，统一存放这些非结构化数据和处理后的映射关系，方便在源数据和处理后的数据之间进行一一对应，保证非结构化数据处理后信息的完整性及可溯源性，后续处理阶段也采用了映射关系。

步骤102：将分类后的各类数据分别进行预处理转换为文本信息。

本步骤中，在上述分类后的各类数据中，由于视频、音频、图片等格式的内容相对难以分析，所以需要转化为文本信息进行分析。具体的，针对步骤101中抽取出来的分类数据，对各类数据进行预处理转换为文本信息。例如对于视频信息进行预处理，将视频分离成音频和图片，并进一步将音频和图片分别进转化为文本信息；对于音频信息进行预处理，将音频转化为文本信息，同理，对于图片信息也转化为文本信息。其中，将音频和图片转化为文本可以通过现有的识别处理技术来实现，例如通过语音识别技术将音频转化为文本，利用光学字符识别(Optical Character Recognition，OCR)技术将图片转化为文本，此处均不做限定。

需要说明的是，在上述处理过程中，为了保证视频和音频、图片及文本的对应关系，需要建立一个映射表，保证视频信息的完整性；同理，建立音频和文本的映射表，保证音频信息完整性；建立图片和文本的映射表，保证图片信息完整性。这样就建立了非结构化数据的文本结构表示，同时建立的映射表保证了各种非结构化信息的完整性。

步骤103：对文本信息进行处理，并加入预设的业务规则进行判断，筛选出符合业务应用的数据。

本步骤中，当经过步骤101、102将所有非结构化数据都转化为文本信息以后，此时对文本信息进行进一步处理，这里的进一步处理例如为对文本信息进行分词，得到词汇集合；并加入预设的业务规则进行判断，筛选出符合业务应用的数据。例如：建立一个筛选系统，输入是业务规则和文本信息，输出为根据业务规则进行判断的筛选结果，该结果为符合业务统计需要的数据。为了保持筛选的结果和之前文本信息的关联，可以将文本信息在筛选前建立编码规则。其中，预设的业务规则可以是属性规则，也可以是条件规则。比如，既可以是兴趣爱好、情绪态度等属性，也可以是订购了某些产品或者表现出购买意愿等筛选条件。实际分析时，根据最终的文本信息，进行相应的业务分析。例如：将用户上网记录里涉及用户情感的词语筛选出来，根据上述筛选系统，并加入业务规则的判断(即涉及用户情感)，便可以根据要求筛选出富有情感的用户上网记录数据。

本实施例的数据处理方法，通过对待处理的源数据按照数据格式进行分类，并对分类后的各类数据分别进行预处理转换为相应的文本信息；然后对该文本信息进行处理，并加入预设的业务规则进行判断，使之可以根据不同的业务规则筛选出对应不同业务应用的数据。如此，在扩展ETL处理能力的同时，能够针对业务发展和需求进行相应的非结构化数据处理流程，得到适应业务需求的数据。

图2为本发明提供的数据处理方法实施例二的流程示意图，如图2所示，在实施例一的基础上，所述对所述文本信息进行处理，并加入预设的业务规则进行判断，筛选出符合业务应用的数据包括：

步骤1031：对文本信息进行分词，得到词汇集合。

在本步骤中，将文本信息首先进行分词，形成词汇集合。为了使词汇信息能够还原文本信息，在分词过程中，需要记录每个词汇在每个文本中的位置信息。例如，C表示词汇集合，C＝{c₁₁,c₁₂,...,c_ij}，ij表示词汇在文本信息的第i行第j列；t表示文本，文本可以用词汇的集合表示，即t_s＝{C_s}，t_s表示文本集合中的第s个文本，C_s表示词汇集合C中的第s个词汇子集。

步骤1032：对词汇集合按照预设的业务规则进行判断，筛选出符合业务规则的词汇。

在本步骤中，对于得到的词汇集合，需要进行业务规则的筛选，使之成为符合业务统计需要的数据。业务规则可以为兴趣爱好、情绪态度等属性规则，也可以是订购了某些产品或者表现出购买意愿等筛选条件规则。相应的，在实施例一的筛选系统中，输入为文本词汇，输出为词汇对应的业务规则属性或者根据业务条件的筛选结果。

步骤1033：将词汇与预设的知识库进行匹配，得到符合业务应用的数据。

在本步骤中，根据业务规则，筛选出符合业务规则的词汇后，将词汇与预设的知识库进行匹配，得到符合实际业务应用的数据。当业务规则为属性规则时，对于每一个词汇，搜寻它在预设的知识库对应的属性，如果有，就标记为该属性，如果没有，就分别计算该词汇和知识库中包含该词汇某字的其他词汇的相似度(主要是通过计算同义词词典里词汇之间的距离)，然后根据最大相似度，标记该词汇的属性。

例如，业务规则是筛选带有用户情感态度的特征词汇，匹配每一个词汇与用户情感态度词库的相似度，提取出所有文本里对应词汇涉及用户情感态度的词语。其中，用户情感态度词库是预先建立的知识库中的一类词库。当业务规则为条件规则时，对于词汇组合进行筛选(词汇组合就是最小的语义群)，通过对词汇组合中的词汇在知识库的语义进行匹配，实现筛选。

图3为本发明提供的筛选系统的流程示意图，如图3所示，该筛选系统输入文本，经过分词后，形成词汇集合，最后经过业务规则的筛选，输出符合业务应用的词汇。

进一步的，在实施例二的基础上，所述将所述词汇与预设的知识库进行匹配，得到符合业务应用的数据之后还包括：根据所述匹配结果修正所述知识库；

具体的，将词汇集合按照文本顺序依次排列，作为参数输入到上述筛选系统中，按照定义的业务规则进行筛选，并和预设的知识库进行匹配，对词汇的词性和业务规则属性进行分类。根据匹配结果，进行分类后评估，对知识库进行修正，以不断优化知识库，达到准确分类的结果。具体的，对于在知识库中匹配不到的词汇，即知识库缺失的词汇，将其根据最大相似度计算标记的属性加入知识库里，再进行重复迭代计算，直到提取出的词汇稳定不变。

进一步的，在上述实施例的基础上，所述方法还包括：将所述词汇加入数据库，所述数据库包括：按照所述业务规则进行分类后的词汇及所述词汇与源数据间的映射关系；

具体的，对最终的词汇集合，按照上述筛选系统把词汇数据进行业务规则分类分属性加载入数据库，存储在不同分区和不同的数据表里，将映射关系同样进行数据库存储，以便通过映射关系可以找到最初对应非结构化数据字段的记录数据。图4为本发明提供的数据加载的流程示意图，如图4所示，从非结构化的源数据到分类后的数据库表，通过映射表可以进行相互关联，即通过映射关系在分类后的数据库表中可以找到源数据中相关字段的记录数据，同理，针对源数据中的某个数据信息通过映射表可以确定在分类后的数据库中的位置。

图5为本发明提供的ETL数据处理流程图，如图5所示，主要包括三个步骤：1、数据抽取；2、数据转换；3、数据加载。其中，数据转换阶段采用的将非结构化数据根据映射编码关系转化为结构化的词汇集合，同时加入业务规则筛选机制，将源数据经过上述三个步骤进程处理后，加入到数据库中。

本发明提供的ETL数据处理方法在实际应用中具有以下效果：

1)针对非结构化数据处理，采用成熟的ETL工具，从数据抽取，数据转换到最终数据加载入库，都有一整套自动化流程支撑；

2)扩展了ETL的处理能力，不仅可以处理结构化数据，同时也能够处理非结构化数据；

3)针对业务发展和需求进行相应的非结构化数据处理流程，得到适应业务需求的数据组合。

进一步的，所述将所述分类后的各类数据分别进行预处理转换为文本信息包括：

具体的，针对上述抽取出来的分类数据，对各类数据进行预处理。对分类后的视频进行预处理，将视频分离成音频和图片，并进一步将音频和图片转化为文本；和/或者对音频进行预处理，将音频转化为文本；和/或对图片进行预处理，将图片转化为文本。为了保证转换前后分类数据的完整性，需要建立各类信息的映射关系，下面是建立各类信息映射关系的过程。图6为本发明提供的数据转换示意图，如图6所示，将视频首先转化为音频和图片，而音频和图片可以进一步转化为文本。

用V表示视频集合，V＝{v₁,v₂,...,v_n}，表示n个视频的集合；用R表示音频集合，R＝{r₁,r₂,...,r_m}，表示m个音频集合；用P表示图片集合，P＝{p₁,p₂,...,p_q}，表示q个图片集合，用T表示文本集合，T＝{t₁,t₂,...,t_s}，表示s个文本集合。

如果视频V用音频R和图片P表示，就可以表示为v_i＝{R_i+P_i}，即视频可以表示为音频和图片的一个i的子集。同理，图片用文本表示，也可以表示成p_i＝{T_i}。

视频v₁用音频R1和图片P1表示的映射关系表，可以表示为如下的二维映射关系表，如表1所示，表1为视频映射表。

1	v₁	R1
			2	v₁	P1
3	R1	r₁₁
			4	P1	p₁₁

表1

图7为本发明提供的数据处理装置实施例一的结构示意图，如图7所示，该装置包括：

分类模块11，用于对待处理的源数据按照数据格式进行分类；

转换模块12，用于将所述分类后的各类数据分别进行预处理转换为文本信息；

处理模块13，用于对所述文本信息进行处理，并加入预设的业务规则进行判断，筛选出符合业务应用的数据。

本实施例提供的数据处理装置是与图1所示的数据处理方法对应的装置实施例，其原理和结构类似，此处不再赘述。

本实施例的数据处理装置，通过分类模块对待处理的源数据按照数据格式进行分类，转换模块对分类后的各类数据分别进行预处理转换为相应的文本信息；然后处理模块对该文本信息进行处理，并加入预设的业务规则进行判断，使之可以根据不同的业务规则筛选出对应不同业务应用的数据。如此，在扩展ETL处理能力的同时，能够针对业务发展和需求进行相应的非结构化数据处理流程，得到适应业务需求的数据。

进一步的，在实施例一的基础上，所述处理模块13具体用于：

对所述文本信息进行分词，得到词汇集合；

图8为本发明提供的数据处理装置实施例二的结构示意图，如图8所示，在上述实施例的基础上，所述装置还包括：修正模块14，用于根据所述匹配结果修正所述知识库。

图9为本发明提供的数据处理装置实施例三的结构示意图，如图9所示，在上述实施例的基础上，所述装置还包括：加载模块15，用于将所述词汇加入数据库，所述数据库包括按照所述业务规则进行分类后的词汇及所述词汇与源数据间的映射关系。

进一步的，在实施例一的基础上，所述转换模块12具体用于：

在实际应用中，所述分类模块11、转换模块12、处理模块13、修正模块14和加载模块15均可由位于终端的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

对待处理的源数据按照数据格式进行分类；

将所述分类后的各类数据分别进行预处理转换为文本信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述文本信息进行处理，并加入预设的业务规则进行判断，筛选出符合业务应用的数据，包括：

对所述文本信息进行分词，得到词汇集合；

3.根据权利要求2所述的方法，其特征在于，所述将所述词汇与预设的知识库进行匹配，得到符合业务应用的数据之后，所述方法还包括：

根据所述匹配结果修正所述知识库。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述将所述分类后的各类数据分别进行预处理转换为文本信息包括：

6.一种数据处理装置，其特征在于，所述装置包括：

分类模块，用于对待处理的源数据按照数据格式进行分类；

7.根据权利要求6所述的装置，其特征在于，所述处理模块具体用于：

对所述文本信息进行分词，得到词汇集合；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

修正模块，用于根据所述匹配结果修正所述知识库。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6至9任一项所述的装置，其特征在于，所述转换模块具体用于：