CN106326246A

CN106326246A - 一种基于数据支持的应用系统构建方法及装置

Info

Publication number: CN106326246A
Application number: CN201510347762.3A
Authority: CN
Inventors: 张�浩; 陆军; 蒋宏飞
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Beijing Software Services Co Ltd
Priority date: 2015-06-19
Filing date: 2015-06-19
Publication date: 2017-01-11
Anticipated expiration: 2035-06-19
Also published as: CN106326246B

Abstract

本申请涉及计算机技术领域，尤其涉及一种基于数据支持的应用系统构建方法及装置，用以解决当用于构建应用系统的数据的规模较大时，会增加系统资源的占用，降低应用系统的构建效率的问题。本申请实施例提供的应用系统构建方法包括：根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，使该最少数目的样本点的词序列覆盖率高于设定阈值；采用选取的每一个样本点集合中的样本点构建应用系统。采用本申请实施例，可以从大规模海量数据中精选出对应用系统具有价值的小部分数据来构建应用系统，从而减少占用的系统资源，提高应用系统构建效率。

Description

一种基于数据支持的应用系统构建方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于数据支持的应用系统构建方法及装置。

背景技术

在很多应用系统的构建过程中时，往往需要使用大量数据来进行支持，比如针对机器翻译这种应用系统，需要采用数据驱动的思想，基于大量不同语言类型的句子进行机器学习，进而训练、调优翻译系统。

数据的规模直接影响到这些数据支持类应用系统的构建和运行效果。一般情况下，数据规模越大，获取到的信息也就越多，机器学习效果也就更好，但是，数据规模的增大会对应用系统构建的可行性提出挑战：不仅会延长应用系统的构建周期，还会增加占用的系统资源；以机器翻译这种应用系统为例，当数据规模在百万量级时，应用系统的构建周期只有几个小时，占用的系统资源在百兆量级；但是，当数据规模在千万量级时，应用系统的构建周期会达到几天，占用的系统资源将在万兆量级。另外，随着数据规模的增大，引入噪音数据的概率也会增加；噪音数据会严重影响应用系统的实施效果。

因此，当用于构建应用系统的数据的规模较大时，会增加系统资源的占用，降低应用系统的构建效率，影响实施效果。

发明内容

本申请实施例提供一种基于数据支持的应用系统构建方法及装置，用以解决当用于构建应用系统的数据的规模较大时，会增加系统资源的占用，降低应用系统的构建效率，影响实施效果的问题。

本申请实施例提供一种基于数据支持的应用系统构建方法，包括：

根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；其中，每个样本点包含至少一个词序列；

针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，使所述最少数目的样本点的词序列覆盖率高于设定阈值；其中，所述词序列覆盖率为选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例；

采用选取的每一个样本点集合中的样本点构建应用系统。

可选地，所述属性信息包括样本点的聚类特征；

根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合，包括：

根据用于构建应用系统的文本数据中各样本点的聚类特征，将具有相同聚类特征的样本点划分为同一个样本点集合。

可选地，所述属性信息包括样本点的前缀词序列和聚类特征；

根据用于构建应用系统的文本数据中各样本点的前缀词序列，将文本数据划分为多个第一样本点集合，使每个第一样本点集合内的样本点数目小于第一设定阈值、且大于第二设定阈值；

针对划分后的每个第一样本点集合，根据该第一样本点集合内的各样本点的聚类特征，将该第一样本点集合划分为多个第二样本点集合，将划分后的第二样本点集合作为从中选取样本点的样本点集合；其中，每个第二样本点集合中的各样本点具有相同的聚类特征。

可选地，根据用于构建应用系统的文本数据中各样本点的前缀词序列，将文本数据划分为多个第一样本点集合，包括：

按照前缀词序列的词数量由小到大的顺序，对所述文本数据中的各样本点逐次划分，直到划分后的每个第一样本点集合内的样本点数目小于第一设定阈值；

若在第一次划分后，存在至少一个第一样本点集合内的样本点数目小于第二设定阈值，则将所述至少一个第一样本点集合进行合并，或将所述至少一个第一样本点集合与其它第一样本点集合进行合并，以使合并后的第一样本点集合内的样本点数目大于所述第二设定阈值、且小于所述第一设定阈值。

可选地，针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，包括：

从该样本点集合中未被选取的样本点中，选取包含该样本点集合需要覆盖的剩余词序列数目最多的样本点，并将选取的样本点所包含的词序列从该样本点集合需要覆盖的剩余词序列中删除；

重复上述步骤，直到选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例超过设定阈值。

可选地，针对每一个样本点集合，根据以下步骤确定该样本点集合需要覆盖的词序列：

从所述应用系统需要覆盖的词序列中除去已在其它样本点集合中选取的样本点所包含的词序列，得到剩余需要覆盖的词序列；

将该样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列的交集，确定为该样本点集合需要覆盖的词序列。

可选地，针对每一个样本点集合，从该样本点集合中选取所述最少数目的样本点，还包括：

若该样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列的交集为空集，则从该样本点集合中随机选取一个样本点作为从该样本点集合选取的所述最少数目的样本点。

可选地，根据以下步骤确定所述应用系统需要覆盖的词序列：

从用于构建应用系统的文本数据中提取各个不同的词序列；

从提取的词序列中过滤掉满足至少一个预设的过滤条件的词序列，将过滤后的词序列确定为所述应用系统需要覆盖的词序列。

可选地，所述预设的过滤条件包括以下条件中的一种或多种：

在所述文本数据中出现的频次低于设定阈值；

包含的重复词或单字母词大于第一设定数量阈值；

包含的预设的高频词大于第二设定数量阈值。

本申请实施例提供一种基于数据支持的应用系统构建装置，包括：

划分模块，用于根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；其中，每个样本点包含至少一个词序列；

选取模块，用于针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，使所述最少数目的样本点的词序列覆盖率高于设定阈值；其中，所述词序列覆盖率为选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例；

构建模块，用于采用所述选取模块选取的每一个样本点集合中的样本点构建应用系统。

采用本申请实施例，可以从大规模海量数据中精选出对应用系统具有价值的小部分数据来构建应用系统，从而可以减少占用的系统资源，提高应用系统的构建效率，也进而减少了应用系统的构建成本；同时，由于减少了噪音数据，从而可以优化应用系统的实施效果。

附图说明

图1为本申请实施例一提供的基于数据支持的应用系统构建方法流程图；

图2本申请实施例二提供的基于数据支持的应用系统构建方法流程图；

图3为本申请实施例三的样本点选取示意图；

图4为本申请实施例三提供的基于数据支持的应用系统构建方法流程图；

图5为基于前缀词进行文本数据粗分的流程示意图；

图6为在得到聚类后的样本点集合，及获得应用系统需要覆盖的所有词序列U_ng后进行样本点选取的流程示意图；

图7为本申请实施例四提供的基于数据支持的应用系统构建装置结构示意图。

具体实施方式

本申请实施例中，根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；针对每一个样本点集合，从该样本点集合中选取词序列覆盖率高于设定阈值的最少数目的样本点；采用选取的每一个样本点集合中的样本点构建应用系统。采用本申请实施例，可以从大规模海量数据中精选出对应用系统具有价值的小部分数据来构建应用系统，从而可以减少占用的系统资源，提高应用系统的构建效率，也进而减少了应用系统的构建成本；同时，由于减少了噪音数据，从而可以优化应用系统的实施效果。

下面结合说明书附图对本申请实施例的实施作进一步详细描述。

实施例一

如图1所示，为本申请实施例一提供的基于数据支持的应用系统构建方法流程图，包括以下步骤：

S101：根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；其中，每个样本点包含至少一个词序列。

本申请实施例中，所述样本点可以是由一系列词序列组成的句子、短语、段落等。这里的词序列(N-gram)为连续的N个词所构成的序列，N的取值可以预先设定，比如可以取2、3、4、5等，或者也可以取这些数字的组合，即词序列所包含的词的个数可以为一种或多种；一个词所包含的字母或文字个数等也可以预先设定。所述属性信息可以包括聚类特征，该聚类特征即为数据类别特征、比如长句或短句类别、词序列的词频(Termfrequency–inverse documentFrequency，TF)、逆向文件频率(Term Frequency，IDF)等；属性信息还可以包括前缀词序列，即样本点的前M个词，M为正整数。

在具体实施中，可以直接将具有相同聚类特征(同一样本点类别的共有特征)的样本点划分为同一个样本点集合；或者，先采用前缀词序列进行粗分，再进行聚类精分(详见实施例三的介绍)。执行该步骤的目的是为了使选取的样本点更好地刻画文本数据的信息分布，详见下述S103之后的描述。

S102：针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，使所述最少数目的样本点的词序列覆盖率高于设定阈值；其中，所述词序列覆盖率为选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例。

该步骤中，从每个样本点集合中选取样本点，选取的样本点满足：数目最少化、且所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例大于设定阈值。

S103：采用选取的每一个样本点集合中的样本点构建应用系统。

本申请实施例中，将文本数据划分为多个样本点集合后，再从每个样本点集合中选取词序列覆盖率高于设定阈值的最少数目的样本点，可以避免直接在整个文本数据中进行最少数目的样本点选取，而产生数据倾斜的问题。也即，若不进行样本点集合的划分，很有可能导致最终选取的样本点所涵盖的信息不全面，导致构建的应用系统的实施效果较差；比如在翻译系统中，若不进行样本点集合的划分，有可能导致最终选取的句子中绝大多数都为长句，短句很少，而实际上，在翻译系统中只有实现长短句的平衡，才能达到较优的翻译效果。

除此之外，本申请实施例在选取最少数目的样本点时以每个样本点集合作为操作单位，对不同样本点集合进行样本点选取时可以并行执行，从而相比直接在整个文本数据中进行最少数目的样本点选取的方式，可以大大提高选取效率。

下面通过几个具体的实施例，对上述划分样本点集合及选取最少数目的样本点的过程作进一步介绍。

实施例二

在该实施例二中，采用聚类方式进行样本点集合的划分；在选取最少数目的样本点时，将整个文本数据包含的所有不同的词序列作为应用系统需要覆盖的词序列。

如图2所示，为本申请实施例二提供的基于数据支持的应用系统构建方法流程图，包括以下步骤：

S201：根据用于构建应用系统的文本数据中各样本点的聚类特征，将具有相同聚类特征的样本点划分为同一个样本点集合。

在具体实施过程中，可以提取每个样本点的聚类特征，比如该特征包括：样本点所包含的词序列的词频(Termfrequency–inverse document Frequency，TF)、逆向文件频率(Term Frequency，IDF)等计算值，将具有相同聚类特征的样本点划分为同一个样本点集合，具有不同聚类特征的样本点划分到不同的样本点集合。进行聚类划分的理想结果是，每一个样本点集合中的任一样本点可以表征该样本点集合内各样本点的共有信息，只需要在每个样本点集合内随机选取一个样本点就可以完成最少数目的样本点的选取。

S202：针对每一个样本点集合，根据该样本点集合需要覆盖的词序列，以及该样本点集合中每个样本点包含的词序列，从该样本点集合中选取词序列覆盖率高于设定阈值的最少数目的样本点。

S203：采用选取的每一个样本点集合中的样本点构建应用系统。

在具体实施过程中，为了在满足词序列覆盖率的前提下实现数据规模最小化，可以在每次选取样本点时，选取包含剩余有价值词序列数目最多的样本点，这里的剩余有价值词序列也即是在该样本点集合需要覆盖的所有词序列中，除已被选取的样本点所包含的词序列之外的剩余词序列。

具体地，针对任一样本点集合，选取样本点的过程可以为：

从该样本点集合中未被选取的样本点中，选取包含该样本点集合需要覆盖的剩余词序列数目最多的样本点，并将选取的样本点所包含的词序列从该样本点集合需要覆盖的剩余词序列中删除；重复该步骤，直到选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例超过设定阈值。

在S202中，需要确定每一个样本点集合需要覆盖的不同的词序列；具体确定方式如下：

方式一，可以将从该样本点集合中提取出的所有不同的词序列作为该样本点集合需要覆盖的词序列；

方式二，可以在从该样本点集合中提取出的所有不同的词序列中进一步筛选出部分有价值的词序列，作为该样本点集合需要覆盖的词序列；这里的有价值的词序列可以是除以下类型的词序列之外的词序列：

在该样本点集合中出现的频次低于设定阈值的词序列、包含的重复词或单字母词大于第一设定数量阈值的词序列、包含的预设的高频词大于第二设定数量阈值的词序列。

方式三、除去已在其它样本点集合中选取的样本点所包含的词序列；

在这种实施方式下，经过上述步骤S201的聚类划分，不同样本点集合内的各样本点所包含的词序列大部分是不同的，但仍有可能存在小部分词序列是重复的，因此，为了进一步缩小数据规模，可以采用以下优选的方式，每一个样本点集合不需要覆盖已在其它样本点集合中选取的样本点所包含的词序列。具体地，针对每一个样本点集合，根据以下步骤确定该样本点集合需要覆盖的词序列：

这里，应用系统需要覆盖的词序列可以是所述文本数据所包含的所有不同的词序列；也可以是从所述文本数据所包含的所有不同的词序列中筛选出的部分词序列(详见实施例三的描述)。

在具体实施中，可以结合将上述方式二和方式三结合实施。

可选地，若该样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列的交集为空集，则从该样本点集合中随机选取一个样本点作为选取的所述最少数目的样本点。

在具体实施过程中，为了保证文本数据的信息完整性，可以使每一个样本点集合中至少有一个样本点被选取用于构建应用系统。在这种机制下，当该样本点集合包含的各个词序列与所述剩余需要覆盖的词序列之间的交集为空集时，从该样本点集合随机选取一个样本点用于构建应用系统。

实施例三

在该实施例三中，采用前缀词序列以及聚类特征来划分样本点集合；在选取最少数目的样本点时，先过滤掉低价值的词序列，再将剩余的词序列作为应用系统需要覆盖的词序列。如图3所示，为本申请实施例三的样本点选取示意图。

如图4所示，为本申请实施例三提供的基于数据支持的应用系统构建方法流程图，包括以下步骤：

S401：根据用于构建应用系统的文本数据中各样本点的前缀词序列，将文本数据划分为多个第一样本点集合，使每个第一样本点集合内的样本点数目小于第一设定阈值、且大于第二设定阈值(显然，这里的第一设定阈值大于第二设定阈值)。

该步骤中，采用前缀词序列对文本数据进行粗分，得到多个符合预设的数据规模(样本点数目小于第一设定阈值、且大于第二设定阈值)的第一样本点集合。每个第一样本点集合内的样本点可以具有相同的前缀词序列。用于组成不同的第一样本点集合的前缀词序列的词数量可以相同，也可以不同；比如，有的第一样本点集合内的各样本点具有相同的词数量为1的前缀词序列，有的第一样本点集合内的各样本点具有相同的词数量为2的前缀词序列。

可选地，为了保证数据规模在预设的范围内，可以采用以下划分第一样本点集合的方式：

在具体实施中，可以首先采用较少词数量的前缀词序列对文本数据进行划分，若划分后的第一样本点集合内的样本点数量大于第一设定阈值，再增加前缀词序列的词数量，对划分后的第一样本点集合继续进行划分，如此重复，直到划分后的每个第一样本点集合内的样本点数目小于第一设定阈值；在这个过程中，若首次划分的某个第一样本点集合内的样本点数量不仅小于第一设定阈值，还小于第二设定阈值，则说明首次划分的该第一样本点集合的数据规模过小，此时，需要对多个数据规模过小的第一样本点集合进行合并，或者，将数据规模过小的第一样本点集合与其它第一样本点集合集合合并，实现合并后的第一样本点集合内的样本点数目大于所述第二设定阈值、且小于所述第一设定阈值。如图5所示，为基于前缀词进行文本数据粗分的流程示意图，包括：

S5a：将具有相同前缀词序列的样本点划分为同一个第一样本点集合；

S5b：确定每个第一样本点集合内的样本点数目；

S5c：针对划分后的每个第一样本点集合，若该第一样本点集合内的样本点数目大于第一设定阈值，则增加前缀词序列的词数量，针对该第一样本点集合执行S5a；

S5d：针对划分后的每个第一样本点集合，若该第一样本点集合内的样本点数目小于第二设定阈值，则将其与其它第一样本点集合进行合并，使合并后的第一样本点集合内的样本点数目大于所述第二设定阈值、且小于所述第一设定阈值；

S5e：针对划分后的每个第一样本点集合，若该第一样本点集合内的样本点数目大于所述第二设定阈值、且小于所述第一设定阈值，则将该第一样本点集合作为最终粗分后的样本点集合。

S402：针对划分后的每个第一样本点集合，根据该第一样本点集合内的各样本点的聚类特征，将该第一样本点集合划分为多个第二样本点集合；其中，每个第二样本点集合中的各样本点具有相同的聚类特征。

该步骤在S401的基础上进行聚类精分，将每一个第一样本点集合划分为多个第二样本点集合。具体地，将每一个第一样本点集合内具有相同聚类特征的样本点划分为同一个第二样本点集合，将具有不同聚类特征的样本点划分到不同的第二样本点集合。进行聚类划分的理想的结果是，每一个第二样本点集合中的任一样本点可以表征该第二样本点集合内各样本点的共有信息，只需要在每个第二样本点集合内随机选取一个样本点就可以完成最少数目的样本点的选取。

在这种实施方式下，针对不同的第一样本点集合进行聚类精分时可以并行执行，因此，这种先采用前缀词进行数据粗分，再进行聚类精分的实施方式，相比直接进行聚类划分的方式，可以提高划分效率。

S403：从用于构建应用系统的文本数据中提取各个不同的词序列；从提取的词序列中过滤掉满足至少一个预设的过滤条件的词序列，将过滤后的词序列确定为所述应用系统需要覆盖的词序列。

在具体实施过程中，不同的词序列的信息价值是不同的，有的词序列本身可能是没有信息价值或者信息价值很少的词序列，这种词序列的存在有可能会导致无法大规模降低所选取的样本点的规模，因此，在具体实施中，可以首先将这类低价值的词序列过滤掉。

在所述文本数据中出现的频次低于设定阈值；

包含的重复词或单字母词大于第一设定数量阈值；

包含的预设的高频词大于第二设定数量阈值。

在上述过滤条件中，在所述文本数据中出现的频次低于设定阈值(可以根据实际需要设定，比如为2)的词序列一般是应用价值很小的词序列，可以将这类词序列过滤掉。包含的重复词(比如“我我我”)或单字母词(比如“x”、“t”)大于第一设定数量阈值的词序列，以及包含的高频词(比如“的”，在具体实施中可以预先定义哪些词为高频词)大于第二设定数量阈值的词序列，所包含的无价值的数据量过多，可以将这部分词序列过滤掉，以减少数据规模。

S404：针对每一个第二样本点集合，从所述应用系统需要覆盖的词序列中除去已在其它第二样本点集合中选取的样本点所包含的词序列，得到剩余需要覆盖的词序列。

在具体实施过程中，可以在完成一个第二样本点集合的样本点选取后，即更新剩余需要覆盖的不同词序列。详见下述流程图6及相关描述。

S405：判断将该第二样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列的交集是否为空集，若为空集则进入S406，否则进入S407；

S406：从该第二样本点集合中随机选取一个样本点。

这里，为了尽量保证选取的样本点所覆盖信息的全面性，可以保证每个第二样本点集合中至少有一个样本点被选取，以实现每一个聚类后的集合中都至少有一个样本点来体现这一类样本点的共有信息。

S407：将该第二样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列的交集，确定为该第二样本点集合需要覆盖的词序列。

这里，从应用系统需要覆盖的不同词序列中除去已在其它第二样本点集合中选取的样本点所包含的不同词序列后，所剩余的需要覆盖的不同词序列即为未选取样本点的所有第二样本点集合需要覆盖的词序列。任一第二样本点集合包含的各个不同的词序列与所述剩余需要覆盖的不同词序列的交集即为该第二样本点集合需要覆盖的词序列。

S408：针对每一个第二样本点集合，根据该第二样本点集合需要覆盖的词序列，以及该第二样本点集合中每个样本点包含的词序列，从该第二样本点集合中选取词序列覆盖率高于设定阈值的最少数目的样本点。

具体地，可以从每一个样本点集合未被选取的样本点中，选取包含该样本点集合需要覆盖的剩余词序列数目最多的样本点，并将选取的样本点从该样本点集合需要覆盖的剩余词序列中删除；重复该步骤，直到选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例超过设定阈值。

S409：采用选取的每一个第二样本点集合中的样本点构建应用系统。

如图6所示，为在得到聚类后的样本点集合，及获得应用系统需要覆盖的所有词序列U_ng后进行样本点选取的流程示意图；假设选取的所有样本点组成的集合为A，其包含的所有词序列为A_ng，本申请实施例的最终目的是使得词序列覆盖率CoverRate_ng＝|A_ng|/|U_ng|大于设定阈值，且样本点数目|A|最少；其中|A_ng|表示A_ng中的词序列数量，|U_ng|表示U_ng中的词序列数量。选取流程包括：

S6a：选取一个未进行样本点选取的聚类后的样本点集合；

S6b：提取该样本点集合内的所有不同的词序列C_ng；

S6c：将提取的该样本点集合内的词序列，与剩余需要覆盖的词序列U'_ng取交集，得到C'_ng；这里，剩余需要覆盖的词序列U'_ng为应用系统需要覆盖的所有不同的词序列U_ng除去已完成样本点选取的样本点集合所覆盖的词序列后剩余的词序列；

S6d：判断所述交集C'_ng是否为空集；若为空集则进入S6e，否则进入S6f；

S6e：从该样本点集合内随机选取一个样本点，并进入S6j；

S6f：从该样本点集合中未被选取的样本点中，选取包含C'_ng中的词序列数目最多的样本点；

S6g：将选取的样本点所包含的词序列从C'_ng中删除；

S6h：判断选取的样本点的词序列覆盖率(从该样本点集合中选取的样本点所包含的不同词序列的数量/所述交集中的词序列数量|C′_ng|)是否超过设定阈值；若是，则进入S6i，否则，返回S6f；

S6i：更新U'_ng；

S6j：判断所有的样本点集合是否都已完成选取，若是，则结束选取操作，否则返回S6a。

这里，也可以先执行S6j，在确定还有样本点集合未完成选取后，再执行S6i，更新U'_ng，并返回S6a。

基于同一发明构思，本申请实施例中还提供了一种与基于数据支持的应用系统构建方法对应的基于数据支持的应用系统构建装置，由于该装置解决问题的原理与本申请实施例基于数据支持的应用系统构建方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

实施例四

如图7所示，为本申请实施例四提供的基于数据支持的应用系统构建装置结构示意图，包括：

划分模块71，用于根据用于构建应用系统的文本数据中各样本点的属性信息，将文本数据划分为多个样本点集合；其中，每个样本点包含至少一个词序列；

选取模块72，用于针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，使所述最少数目的样本点的词序列覆盖率高于设定阈值；其中，所述词序列覆盖率为选取的样本点所包含的不同词序列的数目与该样本点集合需要覆盖的不同词序列的数目的比例；

构建模块73，用于采用选取模块72选取的每一个样本点集合中的样本点构建应用系统。

可选地，所述属性信息包括样本点的聚类特征；

所述划分模块71具体用于：

根据用于构建应用系统的文本数据中各样本点的前缀词序列，将文本数据划分为多个第一样本点集合，使每个第一样本点集合内的样本点数目小于第一设定阈值、且大于第二设定阈值；针对划分后的每个第一样本点集合，根据该第一样本点集合内的各样本点的聚类特征，将该第一样本点集合划分为多个第二样本点集合，将划分后的第二样本点集合作为从中选取样本点的样本点集合；其中，每个第二样本点集合中的各样本点具有相同的聚类特征。

可选地，所述划分模块71具体用于：

按照前缀词序列的词数量由小到大的顺序，对所述文本数据中的各样本点逐次划分，直到划分后的每个第一样本点集合内的样本点数目小于第一设定阈值；若在第一次划分后，存在至少一个第一样本点集合内的样本点数目小于第二设定阈值，则将所述至少一个第一样本点集合进行合并，或将所述至少一个第一样本点集合与其它第一样本点集合进行合并，以使合并后的第一样本点集合内的样本点数目大于所述第二设定阈值、且小于所述第一设定阈值。

可选地，所述选取模块72具体用于：

根据该样本点集合需要覆盖的词序列，以及该样本点集合中每个样本点包含的词序列，从该样本点集合中选取词序列覆盖率高于设定阈值的最少数目的样本点。

可选地，所述选取模块72具体用于：

可选地，针对每一个样本点集合，所述选取模块具体用于根据以下步骤确定该样本点集合需要覆盖的词序列：

从所述应用系统需要覆盖的词序列中除去已在其它样本点集合中选取的样本点所包含的词序列，得到剩余需要覆盖的词序列；将该样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列的交集，确定为该样本点集合需要覆盖的词序列。

可选地，所述选取模块72还用于，

针对每一个样本点集合，若该样本点集合包含的各个词序列与得到的所述剩余需要覆盖的词序列的交集为空集，则从该样本点集合中随机选取一个样本点作为从该样本点集合选取的所述最少数目的样本点。

可选地，所述选取模块72具体用于根据以下步骤确定所述应用系统需要覆盖的词序列：

从用于构建应用系统的文本数据中提取各个不同的词序列；从提取的词序列中过滤掉满足至少一个预设的过滤条件的词序列，将过滤后的词序列确定为所述应用系统需要覆盖的词序列。

在所述文本数据中出现的频次低于设定阈值；

包含的重复词或单字母词大于第一设定数量阈值；

包含的预设的高频词大于第二设定数量阈值。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于数据支持的应用系统构建方法，其特征在于，该方法包括：

采用选取的每一个样本点集合中的样本点构建应用系统。

2.如权利要求1所述的方法，其特征在于，所述属性信息包括样本点的聚类特征；

3.如权利要求1所述的方法，其特征在于，所述属性信息包括样本点的前缀词序列和聚类特征；

4.如权利要求3所述的方法，其特征在于，根据用于构建应用系统的文本数据中各样本点的前缀词序列，将文本数据划分为多个第一样本点集合，包括：

5.如权利要求1所述的方法，其特征在于，针对每一个样本点集合，从该样本点集合中选取最少数目的样本点，包括：

6.如权利要求1～5任一所述的方法，其特征在于，针对每一个样本点集合，根据以下步骤确定该样本点集合需要覆盖的词序列：

7.如权利要求6所述的方法，其特征在于，针对每一个样本点集合，从该样本点集合中选取所述最少数目的样本点，还包括：

8.如权利要求6所述的方法，其特征在于，根据以下步骤确定所述应用系统需要覆盖的词序列：

从用于构建应用系统的文本数据中提取各个不同的词序列；

9.如权利要求8所述的方法，其特征在于，所述预设的过滤条件包括以下条件中的一种或多种：

在所述文本数据中出现的频次低于设定阈值；

包含的重复词或单字母词大于第一设定数量阈值；

包含的预设的高频词大于第二设定数量阈值。

10.一种基于数据支持的应用系统构建装置，其特征在于，该装置包括：

11.如权利要求10所述的装置，其特征在于，所述属性信息包括样本点的聚类特征；

所述划分模块具体用于：

12.如权利要求10所述的装置，其特征在于，所述属性信息包括样本点的前缀词序列和聚类特征；

所述划分模块具体用于：

13.如权利要求12所述的装置，其特征在于，所述划分模块具体用于：

14.如权利要求10所述的装置，其特征在于，所述选取模块具体用于：

15.如权利要求10～14任一所述的装置，其特征在于，针对每一个样本点集合，所述选取模块具体用于根据以下步骤确定该样本点集合需要覆盖的词序列：

16.如权利要求15所述的装置，其特征在于，所述选取模块还用于，

17.如权利要求15所述的装置，其特征在于，所述选取模块具体用于根据以下步骤确定所述应用系统需要覆盖的词序列：

18.如权利要求17所述的装置，其特征在于，所述预设的过滤条件包括以下条件中的一种或多种：

在所述文本数据中出现的频次低于设定阈值；

包含的重复词或单字母词大于第一设定数量阈值；

包含的预设的高频词大于第二设定数量阈值。