CN105843890B

CN105843890B - 基于知识库面向大数据及普通数据的数据采集方法和系统

Info

Publication number: CN105843890B
Application number: CN201610164712.6A
Authority: CN
Inventors: 朱定局
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2016-03-21
Filing date: 2016-03-21
Publication date: 2020-01-24
Anticipated expiration: 2036-03-21
Also published as: CN105843890A

Abstract

本发明涉及一种数据采集方法和系统，方法包括：获取采集条件，并根据采集条件获取目标数据，其中，采集条件包括采集对象和采集属性；从知识库获取对应目标数据的样本数据；根据目标数据和样本数据判断目标数据是否可信；若是，则采集目标数据存入目标数据库或大数据存储库。如此，可以根据知识库中的样本数据对目标数据进行正确性验证，在判定目标数据可信时才进行采集，避免采集到错误数据，提高数据采集的正确率。

Description

基于知识库面向大数据及普通数据的数据采集方法和系统

技术领域

本发明涉及数据采集技术领域，特别是涉及一种基于知识库面向大数据及普通数据的数据采集方法和系统。

背景技术

对数据进行采集时，例如对大数据进行采集，传统的方法通常只是根据系统或数据库指定需要的数据类型进行采集后，直接将被采集数据存入系统或数据库以备用。例如，存放语言信息的语言数据库需要某个字词的正确释义或发音时，直接采集有这个字词释义或发音的语言信息放入语言数据库，而不会检验被采集的语言信息对该字词的释义或发音是否正确。对于被采集数据的来源可信度不明确的情况，这种传统的数据采集方法不会对数据的正确性进行检验，采集正确率低。

发明内容

基于此，有必要针对上述问题，提供一种采集正确率的数据采集方法和系统。

一种数据采集方法，包括以下步骤：

获取采集条件，并根据所述采集条件获取目标数据，其中，所述采集条件包括采集对象和采集属性；

从知识库获取对应所述目标数据的样本数据；

根据所述目标数据和所述样本数据判断所述目标数据是否可信；

若是，则采集所述目标数据存入目标数据库或大数据存储库。

一种数据采集系统，包括：

目标数据获取模块，用于获取采集条件，并根据所述采集条件获取目标数据，其中，所述采集条件包括采集对象和采集属性；

样本数据获取模块，用于从知识库获取对应所述目标数据的样本数据；

数据分析模块，用于根据所述目标数据和所述样本数据判断所述目标数据是否可信；

数据采集模块，用于在所述目标数据可信时，采集所述目标数据存入目标数据库或大数据存储库。

上述数据采集方法和系统，通过获取采集条件，并根据采集条件获取目标数据，然后从知识库获取对应目标数据的样本数据，根据目标数据和样本数据判断目标数据是否可信，在目标数据可信时采集目标数据存入目标数据库或大数据存储库。如此，可以根据知识库中的样本数据对目标数据进行正确性验证，在判定目标数据可信时才进行采集，避免采集到错误数据，提高数据采集的正确率。

附图说明

图1为一实施例中本发明数据采集方法的流程图；

图2为一实施例中本发明数据采集系统的模块图；

图3为一实施例中数据分析模块的单元图。

具体实施方式

大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，具有数量巨大、难于收集、处理、分析等特点。

本发明所指的普通数据指非大数据。

知识库指采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据、由专家经验得到的启发式知识，如某领域内有关的定义、定理和运算法则以及常识性知识等。样本数据指知识库中存储的标准数据。

参考图1，本发明一实施例中的一种数据采集方法，基于知识库、面向大数据及普通数据实现，包括以下步骤。

S110：获取采集条件，并根据采集条件获取目标数据。

其中，采集条件指用于指定需要采集数据特征的信息，采集条件包括采集对象和采集属性。通过根据采集条件可以获取符合该采集条件的目标数据。目标数据可以是大数据或普通数据。

在其中一实施例中，采集数据为语音数据，以采集条件为某个指定字词的文本信息和/或语音信息为例，语音信息包括普通话发音信息、某种方言发音信息等，针对语音信息的采集条件中，其中采集对象即指需要被获取语音的某个指定字词，采集属性即指语音类别，包括文本信息、普通话发音信息、某种方言发音信息等。对应地，根据该采集条件获取的目标数据包括该指定字词的文本信息和/或语音信息。

S130：从知识库获取对应目标数据的样本数据。

样本数据为标准数据，可以用于检验目标数据的准确度。

S150：根据目标数据和样本数据判断目标数据是否可信。若是，则执行步骤S170。

S170：采集目标数据存入目标数据库或大数据存储库。

其中，目标数据库指用于存储普通数据的传统数据库，例如关系型数据库；大数据存储库指用于存储大数据的存储库。当采集的数据为普通数据时，存入目标数据库，当采集的数据为大数据时，存入大数据存储库。

通过判断目标数据是否可信，在数据采集之前进行正确性验证，提高数据采集的正确率。例如，目标数据为某字词的文本信息和/或语音信息的实施例中，采集目标数据存入语言数据库。

在其中一实施例中，步骤S130包括：从目标数据中选取待对比数据，并从知识库中获取采集条件与待对比数据相同的标准数据作为样本数据。

具体地，步骤S130可以选取多个目标数据中的一部分数据作为待对比数据，也可以选取所有的目标数据作为待对比数据。例如，获取的目标数据为某100个字词的粤语发音信息，则可以选取其中的5个字词作为待对比数据，从知识库中获取该5个字词的标准粤语发音信息作为样本数据；也可以将所有的100个字词作为待对比数据，从知识库中获取该100个字词的标准粤语发音信息作为样本数据。

对应地，本实施例中，步骤S150包括步骤11和步骤12。

步骤11：分别提取待对比数据与样本数据的预设特征。

其中，预设特征可以根据目标数据的采集条件进行选择。例如，本实施例中，预设特征为采集条件中指定字词的文本信息和/或语音信息。

步骤12：判断待对比数据的预设特征与样本数据的预设特征之间的匹配度是否大于或等于预设值。若是，表示目标数据中对应样本数据的数据与样本数据的预设特征很相似，判定目标数据可信。

其中，预设值可以根据需要的数据采集正确率进行具体设置。

通过将目标数据中几个或全部数据与对应的样本数据进行比对，判断目标数据与样本数据预设特征的相似度是否满足要求，从而对目标数据进行正确性验证，提高数据采集的正确率。

在另一实施例中，步骤S130包括：从知识库中获取与目标数据的采集条件中采集对象不同、采集属性相同的标准数据作为样本数据。

例如，获取的目标数据为某100个字词的粤语发音信息，则与该目标数据采集对象不同、采集属性相同的数据为其他字词的粤语发音信息。例如，步骤S130具体为从知识库中获取另外5个字词(不属于目标数据中的100个字词)的标准粤语发音信息作为样本数据。

对应地，本实施例中，步骤S150包括步骤21至步骤23。

步骤21：获取提供目标数据的被采集对象，并获取所述被采集对象提供的采集对象和采集属性均与样本数据相同的数据作为样本采集数据。

例如，样本数据为知识库中某样本字词的标准文本信息和/或标准粤语发音信息时，对应获取被采集对象提供或录制的该样本字词的文本信息和/或粤语发音信息作为样本采集数据。

本实施例中，被采集对象为人，即目标数据由被采集人提供。例如，目标数据为某字词的语音信息，该语音消息由用户A录制，则用户A为该目标数据的被采集人。可以理解，在其他的实施例中，被采集对象也可以是网站等。

步骤22：分别提取样本采集数据和样本数据的预设特征。

步骤23：判断样本采集数据的预设特征与样本数据的预设特征之间的匹配度是否大于或等于预设值。若是，则判定目标数据可信。

通过将样本数据与被采集对象提供的样本采集数据进行预设特征的匹配度比对，匹配度大于预设值表明该采集人可信，从而该采集人对应的目标数据可信，实现对目标数据的正确性验证，提高数据采集的正确率。

上述数据采集方法，通过获取采集条件，并根据采集条件获取目标数据，然后从知识库获取对应目标数据的样本数据，根据目标数据和样本数据判断目标数据是否可信，在目标数据可信时采集目标数据存入目标数据库或大数据存储库。如此，可以根据知识库中的样本数据对目标数据进行正确性验证，在判定目标数据可信时才进行采集，避免采集到错误数据，提高数据采集的正确率。

参考图2，本发明一实施例中的一种数据采集系统，基于知识库、面向大数据及普通数据实现，包括目标数据获取模块110、样本数据获取模块130、数据分析模块150和数据采集模块170。

目标数据获取模块110用于获取采集条件，并根据采集条件获取目标数据。

样本数据获取模块130用于从知识库获取对应目标数据的样本数据。

样本数据为标准数据，可以用于检验目标数据的准确度。

数据分析模块150用于根据目标数据和样本数据判断目标数据是否可信。

数据采集模块170用于在目标数据可信时，采集目标数据存入目标数据库或大数据存储库。

例如，目标数据为某字词的文本信息和/或语音信息的实施例中，数据采集模块170采集目标数据存入语言数据库。通过判断目标数据是否可信，在数据采集之前进行正确性验证，提高数据采集的正确率。

在其中一实施例中，样本数据获取模块130具体用于：从目标数据中选取待对比数据，并从知识库中获取采集条件与待对比数据相同的标准数据作为样本数据。

具体地，样本数据获取模块130可以是选取多个目标数据中的一部分数据作为待对比数据，也可以是选取所有的目标数据作为待对比数据。例如，获取的目标数据为某100个字词的粤语发音信息，则可以选取其中的5个字词作为待对比数据，从知识库中获取该5个字词的标准粤语发音信息作为样本数据；也可以将所有的100个字词作为待对比数据，从知识库中获取该100个字词的标准粤语发音信息作为样本数据。

对应地，本实施例中，数据分析模块150具体用于：分别提取待对比数据与样本数据的预设特征，判断待对比数据的预设特征与样本数据的预设特征之间的匹配度是否大于或等于预设值，并在匹配度大于或等于预设值时，判定目标数据可信。

若待对比数据与样本数据的预设特征之间的匹配度大于或等于预设值，表示待对比数据与样本数据预设特征相似，该目标数据可信。通过将目标数据中几个或全部数据与对应的样本数据进行比对，从而对目标数据进行正确性验证，提高数据采集的正确率。

在另一实施例中，样本数据获取模块130具体用于：从知识库中获取与目标数据的采集条件中采集对象不同、采集属性相同的标准数据作为样本数据。

例如，获取的目标数据为某100个字词的粤语发音信息，则与该目标数据采集对象不同、采集属性相同的数据为其他字词的粤语发音信息。例如，样本数据获取模块130具体为从知识库中获取另外5个字词(不属于目标数据中的100个字词)的标准粤语发音信息作为样本数据。

对应地，本实施例中，参考图3，数据分析模块150包括样本采集数据获取单元151、特征提取单元152和匹配度分析单元153。

样本采集数据获取单元151用于获取提供目标数据的被采集对象，并获取被采集对象提供的采集对象和采集属性均与样本数据相同的数据作为样本采集数据。

例如，样本数据为知识库中某样本字词的标准文本信息和/或标准粤语发音信息时，对应获取被采集对象提供或录制的对应该样本字词的文本信息和/或粤语发音信息作为样本采集数据。

特征提取单元152用于分别提取样本采集数据和样本数据的预设特征。

匹配度分析单元153用于判断样本采集数据的预设特征与样本数据的预设特征之间的匹配度是否大于或等于预设值，并在匹配度大于或等于预设值时，判定目标数据可信。

上述数据采集系统，通过数据获取模块110获取采集条件，并根据采集条件获取目标数据，然后样本数据获取模块130从知识库获取对应目标数据的样本数据，数据分析模块150根据目标数据和样本数据判断目标数据是否可信，数据采集模块170在目标数据可信时采集目标数据存入目标数据库或大数据存储库。如此，可以根据知识库中的样本数据对目标数据进行正确性验证，在判定目标数据可信时才进行采集，避免采集到错误数据，提高数据采集的正确率。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种数据采集方法，其特征在于，包括以下步骤：

从知识库获取对应所述目标数据的样本数据；

若是，则采集所述目标数据存入目标数据库或大数据存储库；

所述从知识库获取对应所述目标数据的样本数据的步骤包括:

从所述知识库中获取与所述目标数据的所述采集条件中采集对象不同、采集属性相同的标准数据作为第一所述样本数据；

所述根据所述目标数据和所述样本数据判断所述目标数据是否可信的步骤包括：

获取提供所述目标数据的被采集对象，并获取所述被采集对象提供的采集对象和采集属性均与第一所述样本数据相同的数据作为样本采集数据；

分别提取所述样本采集数据和第一所述样本数据的预设特征；

判断所述样本采集数据的预设特征与第一所述样本数据的预设特征之间的匹配度是否大于或等于预设值，其中，预设特征可以根据目标数据的采集条件进行选择；

若是，则判定所述目标数据可信，其中，预设值可以根据需要的数据采集正确率进行具体设置。

2.根据权利要求1所述的数据采集方法，其特征在于，所述从知识库获取对应所述目标数据的样本数据的步骤包括：

从所述目标数据中选取待对比数据，并从所述知识库中获取所述采集条件与所述待对比数据相同的标准数据作为第二所述样本数据。

3.根据权利要求2所述的数据采集方法，其特征在于，所述根据所述目标数据和所述样本数据判断所述目标数据是否可信的步骤包括：

分别提取所述待对比数据与第二所述样本数据的预设特征；

判断所述待对比数据的预设特征与第二所述样本数据的预设特征之间的匹配度是否大于或等于预设值；

若是，则判定所述目标数据可信。

4.一种数据采集系统，其特征在于，包括：

数据采集模块，用于在所述目标数据可信时，采集所述目标数据存入目标数据库或大数据存储库；

所述样本数据获取模块具体用于：从所述知识库中获取与所述目标数据的所述采集条件中采集对象不同、采集属性相同的标准数据作为第一所述样本数据；

样本采集数据获取单元，用于获取提供所述目标数据的被采集对象，并获取所述被采集对象提供的采集对象和采集属性均与第一所述样本数据相同的数据作为样本采集数据；

特征提取单元，用于分别提取所述样本采集数据和第一所述样本数据的预设特征，其中，预设特征可以根据目标数据的采集条件进行选择；

匹配度分析单元，用于判断所述样本采集数据的预设特征与第一所述样本数据的预设特征之间的匹配度是否大于或等于预设值，并在所述匹配度大于或等于预设值时，判定所述目标数据可信，其中，预设值可以根据需要的数据采集正确率进行具体设置。

5.根据权利要求4所述的数据采集系统，其特征在于，所述样本数据获取模块具体用于：从所述目标数据中选取待对比数据，并从所述知识库中获取所述采集条件与所述待对比数据相同的标准数据作为第二所述样本数据。

6.根据权利要求5所述的数据采集系统，其特征在于，所述数据分析模块具体用于：分别提取所述待对比数据与第二所述样本数据的预设特征，判断所述待对比数据的预设特征与第二所述样本数据的预设特征之间的匹配度是否大于或等于预设值，并在所述匹配度大于或等于预设值时，判定所述目标数据可信。