CN104881503A

CN104881503A - 一种数据处理方法和装置

Info

Publication number: CN104881503A
Application number: CN201510352985.9A
Authority: CN
Inventors: 彭明明; 张浩鹏; 张丹; 王路; 刘建辉
Original assignee: ZHENGZHOU XIZHI INFORMATION TECHNOLOGY Co Ltd
Current assignee: ZHENGZHOU XIZHI INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-06-24
Filing date: 2015-06-24
Publication date: 2015-09-02

Abstract

本申请实施例提供了一种数据处理方法和装置，该方法包括：获取待存储信息；通过分别对每组待存储字符串序列进行分词，得到至少一组待存储字符串序列分词出的多个待匹配字符串；分别将每组待存储字符串序列以及每个待匹配字符串与信息库中存储的目标信息进行匹配，其中，目标信息包括至少一组目标字符串序列；当信息库中不存在与所述至少一组待存储字符串序列以及多个待匹配字符串匹配的目标信息时，将待存储信息存储至信息库中。该方法和装置可以降低存储的数据之间的重复率。

Description

一种数据处理方法和装置

技术领域

本申请涉及信息处理技术领域，更具体的说是涉及一种数据处理方法和装置。

背景技术

随着大数据时代的到来，网络中每天产生的信息量空前巨大，人们在日常生活以及工作中也经常涉及到大量数据信息的处理。比较常见的数据处理是对数据信息存储，以便对数据进行维护，例如，企业需要存储其对应的客户相关的数据信息，以便根据存储的客户信息，与客户之间更好的进行合作。然而对于一个存储系统而言，由于存储的数据量巨大，很有可能会出现存储的数据之间出现的大量冗余，存储的数据之间的重复率较高，从而影响到后续对存储数据的分析。

发明内容

有鉴于此，本申请提供了一种数据处理方法和装置，以降低存储的数据之间的重复率。

为实现上述目的，本申请提供如下技术方案：一种数据处理方法，包括：

获取待存储信息，其中，所述待存储信息由至少一组待存储字符串序列组成，所述待存储字符串序列中包括至少一个字符；

通过分别对每组所述待存储字符串序列进行分词，得到所述至少一组待存储字符串序列分词出的多个待匹配字符串；

分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配，其中，所述目标信息包括至少一组目标字符串序列；

当所述信息库中不存在与所述至少一组待存储字符串序列以及所述多个待匹配字符串匹配的目标信息时，将所述待存储信息存储至所述信息库中。

优选的，在所述将所述待存储信息存储至所述信息库中的同时，还包括:

将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。

优选的，所述信息库存储有：所述目标信息以及对所述目标信息进行分词得到的目标字符串；

则所述分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配，包括：

分别将每个所述待存储字符串序列和待匹配字符串与信息库中的所述目标信息对应的目标字符串序列和目标字符串进行匹配。

优选的，所述获取待存储信息，包括：

获取待存储客户信息，所述待存储客户信息包括：用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。

优选的，还包括：

当所述信息库中存在与所述待存储字符串序列和/或所述待匹配字符串相匹配的至少一个目标信息时，输出提示信息，所述提示信息用于提示用户检索到与所述待存储信息匹配度满足要求的目标信息。

另一方面，本申请还提供了一种数据处理装置，包括：

信息获取单元，用于获取待存储信息，其中，所述待存储信息由至少一组待存储字符串序列组成，所述待存储字符串序列中包括至少一个字符；

分词单元，用于通过分别对每组所述待存储字符串序列进行分词，得到所述至少一组待存储字符串序列分词出的多个待匹配字符串；

匹配单元，用于分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配，其中，所述目标信息包括至少一组目标字符串序列；

第一存储单元，用于当所述匹配单元确定出所述信息库中不存在与所述至少一组待存储字符串序列以及所述多个待匹配字符串匹配的目标信息时，将所述待存储信息存储至所述信息库中。

优选的，还包括：

第二存储单元，用于在所述第一存储单元将所述待存储信息存储至所述信息库中的同时，将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。

优选的，所述信息库包括：存储的目标信息以及对所述目标信息进行分词得到的目标字符串；

则所述匹配单元，包括：

匹配子单元，用于分别将每个所述待存储字符串序列和待匹配字符串与信息库中的所述目标信息对应的目标字符串序列和目标字符串进行匹配。

优选的，所述信息获取单元，包括：

信息获取子单元，用于获取待存储客户信息，所述待存储客户信息包括：用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。

优选的，还包括：

提示单元，用于当所述匹配单元确定出所述信息库中存在与所述待存储字符串序列和/或待匹配字符串相匹配的至少一个目标信息时，输出提示信息，所述提示信息用于提示用户检索到与所述待存储信息匹配度满足要求的目标信息。

经由上述的技术方案可知，本申请在对待存储信息存储之前，会对该待存储信息所包含的待存储字符串序列进行分词，并将该待存储字符串序列以及由待存储字符串序列分词出的待匹配字符串作为检索关键词，从该信息库中进行检索匹配，从而有利于提高检索精度，有利于准确定位出与该待存储信息相似的目标信息，进而有利于减少重复存储相同信息的情况。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请一种数据处理方法一个实施例的流程示意图；

图2示出了本申请一种数据处理方法另一个实施例的流程示意图；

图3示出了本申请一种数据处理装置一个实施例的结构示意图；

图4示出了本申请一种数据处理装置另一个实施例的结构示意图；

图5示出了本申请一种数据处理装置另一个实施例的结构示意图。

具体实施方式

本申请实施例提供了一种数据处理方法和装置，以降低存储的数据之间的重复率。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，其示出了本申请一种数据处理方法一个实施例的流程示意图，本实施例的方法可以包括：

101，获取待存储信息。

其中，所述待存储信息由至少一组待存储字符串序列组成，字符串序列中包括至少一个字符。

其中，该字符串序列中的字符可以为汉字，字母或者符号等。

待存储信息可以具有表征不同类别的多个信息，如，待存储信息为联系人信息时，该待存储信息可以包括：联系人姓名、联系人电话以及联系人工作电话等一个或多个信息，而其中，联系人姓名、联系人电话以及联系人工作电话则分别对应了不同的字符串序列，例如，联系人姓名可以为张三，该字符串序列张三为由两个汉字字符构成的词组。

102，通过分别对每组该待存储字符串序列进行分词，得到该至少一组字符串序列分词出的多个待匹配字符串。

在本申请实施例在存储待存储信息所包含的待存储字符串序列之前，对待存储字符串序列进行分词，以得到由该待存储字符串分词出的字符串。

其中，为了便于区分和描述，将该待存储字符串分词出的字符串称为待匹配字符串。

103，分别将每组该待存储字符串序列以及每个该待匹配字符串与信息库中存储的目标信息进行匹配。

其中，该目标信息包括由至少一组目标字符串序列。此处是为了便于与待存储字符串序列进行区分，而将信息库中已存储的目标信息所包含的字符串序列称为目标字符串序列。

在存储待存储信息之前，本申请实施例实际上是进行了去重操作，以避免出现重复存储相同的情况。

而在去重时，本申请不仅仅是将该待存储信息整体作为检索关键词，而是将该待存储信息包含的每个待存储字符串以及由该待存储字符串分词出待存储字符串均作为了检索关键词，从而增加了检索匹配的精细度。

例如，待存储信息为ABC时，假设分词得到A、AB、C、BC、AC，则需要从信息库中依次检索是否存在与ABC、A、AB、C、BC以及AC匹配度满足要求的目标信息。

104，当该信息库中不存在与至少一组待存储字符串序列以及多个待匹配字符串匹配的目标信息时，将所述待存储信息存储至所述信息库中。

如果不能从信息库中检索出与任意一个待存储字符串序列以及任意一个待匹配字符串匹配的目标信息时，则可以表明信息库中不存在与该待存储信息存储的信息，此时将该待存储信息存储至信息库中，有利于减少重复存储的情况。

可以理解的是，基于该待存储字符串以及待匹配字符串，从信息库中检索匹配度满足要求的目标信息实际上也是比对该待存储字符串以及该待匹配字符串中的字符与该目标信息的字符串序列中所包含的字符。具体的匹配过程可以采用现有的任意匹配技术，在此不加以限制。

在本申请实施例中，在对待存储信息存储之前，会对该待存储信息所包含的待存储字符串序列进行分词，并将该待存储字符串序列以及由待存储字符串序列分词出的待匹配字符串作为检索关键词，从该信息库中进行检索匹配，从而有利于提高检索精度，有利于准确定位出与该待存储信息相似的目标信息，进而有利于减少重复存储相同信息的情况。

需要说明的是，在本申请实施例中，对每组该待存储字符串序列进行分词可以采用现有的任意分词方式，如字符串匹配、智能分词、最细粒度分词等分词方式。例如，待存储信息为字符串：“张三说的确实在理”，则智能分词结果是“张三|说的|确实|在理”；最细粒度分词的结果是“张三|三|说的|的确|的|确实|实在|在理”。

可选的，在基于现有的分词方式出现歧义时，则可以使用组合遍历的方式进行处理，从分词出的字符串中选取不相交的字符串组成的集合作为待匹配字符串集合。其中，不相交是指匹配出的字符串和词典字符串的词没有共同的部分。例如，待分词的字符串为abcd，abcd是按其在文本中出现的先后位置排序。假如a与b相交，b与c相交，c与d不相交，则将分词结果切成abc和d两个分词。

可以理解的是，在本申请实施例中在进行信息匹配将待存储字符串序列以及分词出的待匹配字符串分别与信息库中存储的目标信息进行匹配，而由于目标信息可能是一个或多个字符串序列，直接将该待匹配字符串以及待存储字符串序列与目标信息的字符串序列进行匹配，则可能会出现目标信息对应的字符串序列的粒度较高，则不利用提高检索匹配精度。

因此，可选的，在信息库中可以在存储目标信息的同时，存储与该目标信息关联的目标字符串，其中，该目标字符串是由该目标信息进行分词得到的字符串。则在进行检索匹配时，可以分别将每个待存储字符串序列以及待匹配字符串与目标信息对应的目标字符串序列以及目标字符串依次进行匹配，以确定是否存在匹配度满足要求的目标信息或者目标字符串。

其中，该目标信息对应的目标字符串可以是存储该目标信息后，对目标信息分词得到的。考虑到本申请在存储信息前，需要对待存储信息进行分词，因此，可选的，将所述待存储信息存储至所述信息库中的同时，还可以将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。这样，信息库中可以维护已经存储的目标信息以及对该目标信息分词出的目标字符串。

参见图2，其示出了本申请一种数据处理方法另一个实施例的流程示意图，本实施例的方法可以包括：

201，获取待存储信息。

202，通过分别对每组该待存储字符串序列进行分词，得到该至少一组字符串序列分词出的多个待匹配字符串。

203，分别将每组该待存储字符串序列以及每个该待匹配字符串与信息库中存储的目标信息进行匹配。

其中，该目标信息包括由至少一组目标字符串序列。

204，当该信息库中不存在与至少一组待存储字符串序列以及多个待匹配字符串匹配的目标信息时，将所述待存储信息存储至所述信息库中。

205，当该信息库中存在与该待存储字符串序列和/或该待匹配字符串匹配的至少一个目标信息时，输出提示信息。

其中，该提示信息用于提示检索到与待存储信息匹配度满足要求的目标信息。

该提示信息可以是对话框的形式输出，也可以直接在信息输入页面进行展示。

其中，当该信息库中存在与至少一组待存储字符串序列中的一个字符串序列，和/或与该多个待匹配字符串中的一个或多个待匹配字符串相匹配的目标信息时，则说明该信息库中已经存储了与该待存储信息所包含内容部分或全部相同的信息，如果继续存储该待存储信息，则有可能出现重复存储的情况。

在本申请实施例中，当检测到信息库存在与该待存储信息相匹配的目标信息时，则会向用户输入提示信息，以便用户根据提示信息来确定是否继续存储该待存储信息，使得该数据处理过程更加人性化。

进一步的，输出该提示信息后，当接收到用户输入的针对该提示信息的取消指令时，取消该提示信息。

当然，在输入该提示信息后，或者在取消该提示信息后，如果接收到用户针对该待存储信息的存储指令，则将该待存储信息存储至该信息库中。

可以理解的是，在以上实施例中基于存储需求，以及待存储系统的不同，本申请实施例中待存储信息也可以有多种情况。如，该待存储信息可以为存储客户信息。其中，该待存储客户信息可以包括：用于表征公司名称、公司行业、公司负责人和联系电话中的一个或多个的待存储字符串序列。其中，公司名称、公司行业、公司负责人均对应这不同的字符串序列。

为了便于理解本申请实施例，以待存储信息为客户信息为例进行介绍。例如，待存储的客户信息包括：公司名称“北京朝阳区第一交易公司”，则对该客户信息进行分词可以得到如下结果：“北京”、“朝阳”、“朝阳区”、“第一”、“交易”、“第一交易”、“公司”以及“交易公司”这六个分词。

在进行检索时，将这六个分词以及“北京朝阳区第一交易公司”作为关键词。在信息库中存储的客户信息以及由客户信息分词出的分词信息中检索与该关键词匹配的信息。

假如从信息库中均未匹配到与这7个词相关的信息，则存户该客户端信息。

假设该信息库中存储有“朝阳区交易公司”以及该“朝阳区交易公司”分词出的“朝阳”、“朝阳区”、“交易”和“交易公司”时，则可以检索出与该“北京朝阳区第一交易公司”以及以上六个分词匹配的“朝阳区交易公司”、“交易公司”“交易”等。

对应本申请的一种数据处理方法，本申请还提供了一种数据处理装置。参见图3，其示出了本申请一种数据处理方法另一个实施例的结构示意图，本实施例的装置包括：信息获取单元301、分词单元302、匹配单元303和第一存储单元304。

其中，信息获取单元301，用于获取待存储信息，其中，所述待存储信息由至少一组待存储字符串序列组成，所述待存储字符串序列中包括至少一个字符；

分词单元302，用于通过分别对每组所述待存储字符串序列进行分词，得到所述至少一组待存储字符串序列分词出的多个待匹配字符串；

匹配单元303，用于分别将每组所述待存储字符串序列以及每个所述待匹配字符串与信息库中存储的目标信息进行匹配，其中，所述目标信息包括至少一组目标字符串序列；

第一存储单元304，用于当所述信息库中不存在与所述至少一组待存储字符串序列以及所述多个待匹配字符串匹配的目标信息时，将所述待存储信息存储至所述信息库中。

参见图4，其示出了本申请一种数据处理装置一个实施例的结构示意图，本实施例的装置与图3所示实施例的装置的不同之处在于：

本实施例的装置除了包括：信息获取单元301、分词单元302、匹配单元303和第一存储单元304之外，还包括：

第二存储单元305，用于在所述第一存储单元将所述待存储信息存储至所述信息库中的同时，将所述待匹配字符串作为所述待存储信息的关联信息存储至所述信息库中。

其中，信息获取单元301、分词单元302、匹配单元303和第一存储单元304可以参见图3实施例的相关介绍，在此不再赘述。

可选的，在本申请以上任意一个装置的实施例中，所述信息库可以包括：存储的目标信息以及对所述目标信息进行分词得到的目标字符串；

则所述匹配单元，包括：

可选的，在以上任意一个装置的实施例中，所述信息获取单元，包括：

参见图5，其示出了本申请一种数据处理装置另一个实施例的结构示意图，本实施例的装置与前面几个实施例的装置的不同之处在于：

本实施例的装置还可以包括：

提示单元306，用于当所述匹配单元确定出所述信息库中存在与所述待存储字符串序列和/或待匹配字符串匹配的至少一个目标信息时，输出提示信息，所述提示信息用于提示检索到与待存储信息匹配度满足要求的目标信息。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述将所述待存储信息存储至所述信息库中的同时，还包括:

3.根据权利要求1或2所述的方法，其特征在于，所述信息库存储有：所述目标信息以及对所述目标信息进行分词得到的目标字符串；

4.根据权利要求1所述的方法，其特征在于，所述获取待存储信息，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种数据处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述信息库包括：存储的目标信息以及对所述目标信息进行分词得到的目标字符串；

则所述匹配单元，包括：

9.根据权利要求6所述的装置，其特征在于，所述信息获取单元，包括：

10.根据权利要求6所述的装置，其特征在于，还包括：