CN111125345A

CN111125345A - 数据应用方法和装置

Info

Publication number: CN111125345A
Application number: CN201911354623.8A
Authority: CN
Inventors: 王雨晨
Original assignee: Nanjing Sanbaiyun Information Technology Co Ltd
Current assignee: Nanjing Sanbaiyun Information Technology Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-08
Anticipated expiration: 2039-12-24
Also published as: CN111125345B

Abstract

本发明提供了一种数据应用方法和装置，涉及数据应用的技术领域，包括识别待应用数据的数据格式，根据数据格式确定预处理器，预处理器与数据格式相对应，数据格式包括可读文本信息、结构化文本信息和二进制格式信息；通过预处理器对待应用数据进行信息筛选，确定筛选后的数据信息对应的类别标签，并将筛选后的数据信息进行格式转换为通用文字信息；将通用文字信息输入数据处理链，得到满足业务需求的数据信息，数据处理链中包括业务处理逻辑，通过对大量数据进行预处理操作，便于对数据进行接收处理和分类应用，从而便于业务操作的展开。

Description

数据应用方法和装置

技术领域

本发明涉及数据应用技术领域，尤其是涉及一种数据应用方法和装置。

背景技术

对于如互联网二手车公司这种每天都会接收并处理大量数据的公司来说，数据的处理效率，业务运营效率，数据质量都难以保证，无法利用该待处理数据进行相关的业务操作，而且上述数据难以分阶段进行回溯，严重影响了公司的正常运营。

发明内容

本发明的目的在于提供数据应用方法和装置，通过对大量数据根据数据格式进行筛选、分类、格式转换的预处理操作，实现处理后的数据更贴近业务场景的目的，从而便于业务操作的展开。

第一方面，实施例提供一种数据应用方法，包括：

识别待应用数据的数据格式，根据所述数据格式确定预处理器，所述预处理器与所述数据格式相对应，所述数据格式包括可读文本信息、结构化文本信息和二进制格式信息；

通过所述预处理器对所述待应用数据进行信息筛选，确定筛选后的数据信息对应的类别标签，并将所述筛选后的数据信息进行格式转换为通用文字信息；

将所述通用文字信息输入数据处理链，得到满足业务需求的数据信息，所述数据处理链中包括业务处理逻辑。

在可选的实施方式中，通过所述预处理器对所述待应用数据进行信息筛选的步骤，包括：

通过预处理器将所述可读文本信息与字符串进行匹配，筛选出匹配成功的可读文本信息；

通过预处理器将所述结构化文本信息中与预设文档对象模型DOM结构进行匹配，过滤出匹配成功的结构化文本信息；

通过预处理器对所述可读文本信息进行语义识别，筛选出与预设主题相关的可读文本信息。

在可选的实施方式中，所述数据处理链中包括用于对所述通用文字信息进行细化的前置处理器，在将所述通用文字信息输入数据处理链的步骤之后，还包括：

将所述通用文字信息中的信息相关性不符合预设要求的信息进行过滤；

将过滤后的通用文字信息的细化格式进行规整，所述细化格式包括时间格式、数字格式、文本标点格式中的一种或多种；

将规整后的通用文字信息进行分词处理，并通过分词算法得到特征值，根据所述特征值在特征值词库中提取相似信息，根据所述相似信息的比对情况计算相似度，将所述相似度达到相似度阈值以上的通用文字信息进行过滤，得到细化处理数据。

在可选的实施方式中，所述数据处理链中包括至少一个处理器，通过每个所述处理器中的持久化组件对细化处理数据进行持久化处理，得到新生数据。

在可选的实施方式中，所述方法还包括：

将各个所述处理器得到的细化处理数据以及对应的新生数据形成血缘关系网络，并进行存储。

在可选的实施方式中，所述数据格式还包括图片信息和语音信息，所述方法还包括：

通过预处理器对所述图片信息进行相关性检测，将不相关的图片信息进行过滤，将相关的图片信息进行特征识别操作，将所述相关的图片信息转化为可读文本信息；

通过预处理器对所述语音信息进行相关性检测，对所述语音信息进行识别操作，将所述语音信息转化为可读文本信息。

在可选的实施方式中，所述方法还包括：

将所述满足业务需求的数据信息进行存储、分发并通知到相应业务系统。

第二方面，实施例提供一种数据应用装置，包括：

识别模块，用于识别待应用数据的数据格式，根据所述数据格式确定预处理器，所述预处理器与所述数据格式相对应，所述数据格式包括可读文本信息、结构化文本信息和二进制格式信息；

预处理模块，用于通过所述预处理器对所述待应用数据进行信息筛选，确定筛选后的数据信息对应的类别标签，并将所述筛选后的数据信息进行格式转换为通用文字信息；

应用模块，用于将所述通用文字信息输入数据处理链，得到满足业务需求的数据信息，所述数据处理链中包括业务处理逻辑。

第三方面，实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序，所述处理器执行所述程序时实现如前述实施方式中任一项所述的数据应用方法。

第四方面，实施例提供一种计算机可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现前述实施方式中任意一项所述的数据应用方法。

本发明提供了一种数据应用方法和装置，首先通过对大量的待应用数据的数据格式进行识别，根据数据格式确定相应的预处理器，以便相应的预处理器进行筛选、分类、格式转换等预处理操作，将处理后的通用文字信息输入数据处理链中，根据数据处理链中的添加的业务处理逻辑进行处理，得到满足相应业务应用场景的应用数据，实现处理后的数据更贴近业务场景的目的，从而便于业务操作的展开。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据应用方法流程图之一；

图2为本发明实施例提供的一种数据应用方法流程图之二；

图3为本发明实施例提供的一种数据应用装置的功能模块示意图；

图4为本发明实施例提供的电子设备的硬件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，将大量数据进行识别处理的方法有很多，这里以一种二手车行业垃圾数据识别方法为例进行说明，包括:

步骤一：从若干个互联网网站通过搜索算法提取卖车信息；步骤二：对卖车信息进行卖车数据汇总；步骤三：对卖车数据进行来源分类；步骤四：对卖车数据进行有效性分级。此发明取代人工处理互联网卖车数据，对数据进行分类、分级。提高业务运营效率，帮助客服更准确把握客户卖车迫切程度。

其中，上述卖车数据的数据源单一，仅能从网站获取信息，并依赖于搜索算法，以及文本识别算法准确度、精确度。在数据源越来越多的情况下，业务多元化之后，并不能很好的提高业务运营效率。

此外，在实践过程中，其搜索算法会递归访问互联网网站首页所有可访问链接，此种做法极大的浪费了计算机资源，也增加了访问的互联网网站的系统压力。

上述采集的数据没有进行预处理操作，众所周知互联网信息具有数量大，质量难以保证，真假难以辨别的特点。如果网站数量极多，并且数据海量，质量低下的情况下，汇总将会导致严重的资源浪费，包括计算机计算资源，时间资源，人力资源。而且，由于数据量庞大并且数据相关性极差，汇总出来的资源的价值也将大打折扣。

基于此，本发明实施例提供的一种数据应用方法和装置，通过对大量数据进行预处理操作，便于对数据进行接收处理和分类应用，从而便于业务操作的展开。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种数据应用方法进行详细介绍。

图1为本发明实施例提供的一种数据应用方法流程图。

本发明实施例提供的数据应用方法可应用于服务器、上位机等设备，具体包括以下步骤：

步骤S102，识别待应用数据的数据格式，根据数据格式确定预处理器，预处理器与数据格式相对应，数据格式包括可读文本信息、结构化文本信息和二进制格式信息；

步骤S104，通过预处理器对待应用数据进行信息筛选，确定筛选后的数据信息对应的类别标签，并将筛选后的数据信息进行格式转换为通用文字信息；

步骤S106，将通用文字信息输入数据处理链，得到满足业务需求的数据信息，数据处理链中包括业务处理逻辑。

在实际应用的优选实施例中，首先通过对大量的待应用数据的数据格式进行识别，根据数据格式确定相应的预处理器，以便相应的预处理器进行筛选、分类、格式转换等预处理操作，将处理后的通用文字信息输入数据处理链中，根据数据处理链中的添加的业务处理逻辑进行处理，得到满足相应业务应用场景的应用数据，从而便于业务操作的展开。

需要说明的是，本发明实施例中获取的数据可能具有不同的来源，因此数据的数据类别可能是不一致的。本发明实施例通过步骤S104将数据的类别进行确定，以使流入数据处理链的数据可通过其数据类别再进行精细化划分。具体地，这里的数据类别一般具有数据大商类别标签，比如应用程序接口(Application Programming Interface，api)来源的数据就标记为结构化信息@api，文本来源的数据就标记为可读文本信息@txt，数据流来源的数据就标记为二进制格式信息@byte，网页来源的数据就标记为可读文本信息@spider。

在可选的实施方式中，步骤S104中通过预处理器对待应用数据进行信息筛选的步骤，包括以下步骤：

步骤1.1)，通过预处理器将可读文本信息与字符串进行匹配，筛选出匹配成功的可读文本信息；

步骤1.2)，通过预处理器将结构化文本信息中与预设文档对象模型DOM结构进行匹配，过滤出匹配成功的结构化文本信息；

步骤1.3)，通过预处理器对可读文本信息进行语义识别，筛选出与预设主题相关的可读文本信息。

这里，在互联网信息海洋中，充斥着大量的无用数据、垃圾数据等无价值数据，如果此类数据流入了数据处理链中，会给数据处理带来巨大的压力并且会导致出现数据处理效率不高以及处理完的数据质量低下的情况，因此需要把这些无价值数据直接过滤掉。

作为一种可选的实施例，当数据格式是网站文本信息时，它的数据中可能会混有广告，其数据格式和正常的展示数据别无二致，但是其中的内容并不是我们想要的。这时候可设置预处理器的过滤逻辑：1设置字符串匹配，如果此条数据中包含我们想要的数据，那么我们就不过滤；2解析网页中结构化数据的文档对象模型(Document Object Model，DOM)结构，判断每条数据的DOM结构是否为预设DOM结构，如，预设DOM结构为广告样式，即将与广告样式匹配的结构化数据直接过滤；3机器学习进行语义识别，对于和预设主题无关的文本数据，直接过滤。

在可选的实施方式中，数据格式还包括图片信息和语音信息，所述方法还包括：

通过预处理器对图片信息进行相关性检测，将不相关的图片信息进行过滤，将相关的图片信息进行特征识别操作，将相关的图片信息转化为可读文本信息；

通过预处理器对语音信息进行相关性检测，对语音信息进行识别操作，将语音信息转化为可读文本信息。

当数据源是图片信息时，对图片进行相关性检测，判断是否与预设主题相关，不相关直接过滤，若相关则进行特征识别，OCR识别等操作，将数字化图片信息转变为可读文本信息在进行预处理。

在可选的实施方式中，数据处理链中包括用于对通用文字信息进行细化的前置处理器，在步骤S106的将通用文字信息输入数据处理链之后，还包括：

步骤2.1)，将通用文字信息中的信息相关性不符合预设要求的信息进行过滤；

步骤2.2)，将过滤后的通用文字信息的细化格式进行规整，细化格式包括时间格式、数字格式、文本标点格式中的一种或多种；

这里，对于不同来源、不同接入方式的数据，其数据格式也是多种多样的。本发明实施例在预处理过程中，将外部数据统一转换成统一通用的数据格式。文本信息来源的数据格式是可读的文字信息，它可能是一大段的文字信息，也有可能是key/value形式的规整化文字信息；api接口来源的信息都是json、xml格式的结构化文本信息；数据流来源的数据都是二进制格式的数据。所有来源的数据最终都会根据统一的数据模型进行转换规整，最终得到的模型的格式是key/value形式的通用文字信息。对于通用文字信息来说，所有的key都会被定义数据类型，可能是文字、数字、日期、IP等格式，例如{title：“标题”,phone：“13333333333”，city:“北京”}。

步骤2.3)，将规整后的通用文字信息进行分词处理，并通过分词算法得到特征值，根据特征值在特征值词库中提取相似信息，根据相似信息的比对情况计算相似度，将相似度达到相似度阈值以上的通用文字信息进行过滤，得到细化处理数据。

其中，通过数据处理链中设置前置处理器，它的重要作用在于对数据进行进一步的细化。第一方面，数据的清洗，以及去重，清洗的目的在于更进一步的去除无关的信息，此时的无关信息处理，有些数据它并不是垃圾数据，但是根据业务的要求来说，它的确是无用的，比如不符合时间要求，不符合地区要求，所以将这些数据给清洗掉，即对数据进行进一步的细化。第二方面，规整数据格式，将所有的时间格式统一，数字格式统一，文本标点统一以及根据一些业务上的需求进行处理。第三方面，对于数据的去重，不同业务有着不同的是否重复的要求，选取数据中的关键字段例如手机号、车牌号、文本标题等字段进行分词处理，借助Dijkstra算法、N-最短路径分词算法以及开源的分词程序，得到特征值，这里词库也加入了自定义的字典，然后到特征值库中提取所有相似数据，之后对选所有的数据进行两两比较，通过一系列的字符串匹配算法，朴素的字符串匹配算法(Naive StringMatching Algorithm)、Knuth-Morris-Pratt字符串匹配算法(即KMP算法)计算字符串相似度，得到相似度后在根据业务上的要求，认定相似度在一定值以上则为重复。

此外，如果需要对一些数据信息进行精细的人工识别，则加入人工识别步骤，然后再将经人工识别后的数据信息送入到数据处理链中。

在可选的实施方式中，数据处理链中包括至少一个处理器，通过每个处理器中的持久化组件对细化处理数据进行持久化处理，得到新生数据。

在可选的实施方式中，该方法还包括：

步骤3.1)，将各个处理器得到的细化处理数据以及对应的新生数据形成血缘关系网络，并进行存储。

在数据流转过程中，会对数据的流转过程进行记录，使得处理器处理完的细化处理数据与新生成的新生数据产生血缘关系。数据流转过程中会通过对细化处理数据进行业务上的处理，产生新生数据，这里的新生数据和细化处理数据就产生了血缘关系，类似于父子关系，我们通过每个处理器里的持久化组件来对数据进行持久化处理，并将这种血缘关系也进行持久化，这样所有的新生数据、细化处理数据就形成了一张血缘关系网，从而做到了全过程可回溯。新生数据和细化处理数据的区别在于新生数据是来自细化处理数据但其内容不仅仅包含细化处理数据，更有业务数据在其中，是为了更好的服务于公司业务的推进。

这里对数据记性记录的是持久化组件，持久化是一个抽象名次，可以将数据存储到数据库，存储到文本或存储到二进制文件中。

此外，新生数据是细化处理数据的子集，也可以是细化处理数据扩展过(加入其它业务信息)的子集。

在可选的实施方式中，该方法还包括：

步骤4.1)，将满足业务需求的数据信息进行存储、分发并通知到相应业务系统。

由于不同的业务团队对业务数据有着不同的需求，在数据流转的过程中，可以通过加入业务逻辑，使得不同的处理器完成数据处理后，可以将应用数据提供给相应的业务团队。数据处理链处理完毕后，可将应用数据持久化，分发到不同存储容器，并通知数据管理员，各业务使用方。

具体地，这里可将业务方的数据需求(比如数据需满足某个来源或者某个时间范围或者满足什么条件)，将数据处理逻辑(将该数据与某些详细的地区信息或是其它内部数据进行关联)加入进来，处理完毕后的应用数据，发送给业务系统方。经过本发明实施例，宏观上的处理筛选已经为其完成，微观上的数据筛选，比如某个字段某些值的筛选可由业务方自行操作。

图2为本发明实施例提供的另一种数据应用方法流程图。

参照图2，来自不同来源A、B、C、D的数据经过对应的预处理器的处理，通过数据管道流入数据处理链，以便最后得到的应用数据为对应业务系统进行应用。具体地，来自来源A的API接入数据经过API处理器进行预处理，来自来源B的文本文件数据经过文本预处理进行预处理，来自来源C的数据流数据，经过数据流处理器进行预处理，来自来源D的搜索算法得到网页数据，经过网页处理器进行预处理，将垃圾数据进行丢弃。

数据处理链中包括前置处理器，处理器1，处理器2，后置处理器。这是种链式设计，它的好处在于分工明确，责任清晰。前置处理器用于对输入数据进行进一步细化操作，不同处理器根据各自的业务需求加入业务处理逻辑，对新生数据和细化处理数据进行存储，便于回溯，并将输出的应用数据提供给对应的业务A、业务B，并进行分发通知操作。

如图3所示，本发明实施例提供一种数据应用装置，包括：

进一步的，预处理模块还用于通过预处理器将可读文本信息与字符串进行匹配，筛选出匹配成功的可读文本信息；通过预处理器将结构化文本信息中与预设文档对象模型DOM结构进行匹配，过滤出匹配成功的结构化文本信息；通过预处理器对可读文本信息进行语义识别，筛选出与预设主题相关的可读文本信息。

进一步的，数据格式还包括图片信息和语音信息，预处理模块还用于通过预处理器对图片信息进行相关性检测，将不相关的图片信息进行过滤，将相关的图片信息进行特征识别操作，将相关的图片信息转化为可读文本信息；通过预处理器对语音信息进行相关性检测，对语音信息进行识别操作，将语音信息转化为可读文本信息。

进一步的，数据处理链中包括用于对通用文字信息进行细化的前置处理器，应用模块还用于将通用文字信息中的信息相关性不符合预设要求的信息进行过滤；将过滤后的通用文字信息的细化格式进行规整，细化格式包括时间格式、数字格式、文本标点格式中的一种或多种；将规整后的通用文字信息进行分词处理，并通过分词算法得到特征值，根据特征值在特征值词库中提取相似信息，根据相似信息的比对情况计算相似度，将相似度达到相似度阈值以上的通用文字信息进行过滤，得到细化处理数据。

在可选的实施方式中，应用模块还用于将各个处理器得到的细化处理数据以及对应的新生数据形成血缘关系网络，并进行存储。

在可选的实施方式中，应用模块还用于将满足业务需求的数据信息进行存储、分发并通知到相应业务系统。

进一步地，如图4所示，是本发明实施例提供的用于实现所述数据应用方法的电子设备300的示意图。本实施例中，所述电子设备300可以是，但不限于，个人电脑(PersonalComputer，PC)、笔记本电脑、监控设备、服务器等具备分析及处理能力的计算机设备。作为一种可选的实施例，电子设备300可为服务器。

图4为本发明实施例提供的电子设备300的硬件架构示意图。参见图4所示，该计算机设备包括：机器可读存储介质301和处理器302，还可以包括非易失性存储介质303、通信接口304和总线305；其中，机器可读存储介质301、处理器302、非易失性存储介质303和通信接口304通过总线305完成相互间的通信。处理器302通过读取并执行机器可读存储介质301中数据应用方法的机器可执行指令，可执行上文实施例描述数据应用方法。

本文中提到的机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

非易失性介质可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的非易失性存储介质，或者它们的组合。

可以理解的是，本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

本发明实施例所提供计算机可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序代码被执行时可实现上述任一实施例所述的数据应用方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据应用方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过所述预处理器对所述待应用数据进行信息筛选的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述数据处理链中包括用于对所述通用文字信息进行细化的前置处理器，在将所述通用文字信息输入数据处理链的步骤之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述数据处理链中包括至少一个处理器，通过每个所述处理器中的持久化组件对细化处理数据进行持久化处理，得到新生数据。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述数据格式还包括图片信息和语音信息，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种数据应用装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的数据应用方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-7中任意一项所述的数据应用方法。