CN101226523A

CN101226523A - 数据概况分析方法和系统

Info

Publication number: CN101226523A
Application number: CNA200710001953XA
Authority: CN
Inventors: 郭宏蕾; 郭志立; 苏中
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2007-01-17
Filing date: 2007-01-17
Publication date: 2008-07-23
Anticipated expiration: 2027-01-17
Also published as: CN101226523B; US20080195589A1; US9183275B2

Abstract

本发明公开了一种数据概况分析方法和系统。其中所述系统包括：数据处理装置，用于读取输入的数据条目，并根据所述数据条目的片段及片段的语义特征，对所述片段进行语义标注；以及数据分析装置，与数据处理装置连接，用于基于已进行语义标注的片段，对输入的数据条目集合进行语义级数据分析，从而得到分析结果。根据本发明的方法和系统，能够更好地对自由文本进行数据分析，并根据语义对自由文本的数据条目集合进行相应的统计和分析。

Description

数据概况分析方法和系统

技术领域

本发明涉及数据分析领域，更具体地，本发明涉及一种用于改善数据概况分析结果的方法和系统。

背景技术

数据概况分析(profiling)涉及对输入的数据条目集合进行关于数据分布统计特性和数据质量等方面的分析。它是任何数据集成处理中的首要的不可缺少的步骤。在数据集成和数据清洗期间需要这种数据概况分析来帮助理解新的数据源。数据概况分析可以提供更多详细信息，诸如关于有效地址和具有丢失信息的字段的数目的报告。数据概况分析报告还可以用于识别例如坏掉的文件的问题，以及可用于识别需要进一步研究并可能包含的新数据值。

数据概况分析通常是一个劳动力密集、资源消耗大、易于出错的处理。近年来，一些数据概况分析系统已经可以将数据概况分析的时间从几个月极大地降低为几周或甚至几天。这些数据概况分析系统为新的企业应用、数据仓库项目等提供了较好的支持。

现有的数据概况分析方法包括：模式分析，用于确定一个或多个字段中的数据值是否与期望的格式或结构匹配；列分析，用于识别有关数据记录的统计特性，例如数据中包含的null值的数目、数据的最大/最小值、均值、标准差等；域分析，用于确定特定的数据值是否是可接受的或是否在可以接受的范围之内，例如关于性别的数据只能为“男”或“女”，而其他数据值是不可接受的。

然而，上述现有的数据概况分析系统仅提供符号级的浅层的数据分析。例如，将输入的数据条目中的地址的某些字、词、数字等进行分析，而不知道所分析的字、词、数字等代表什么含义，即语义。在实际中，还需要在许多数据集成和数据清洗应用中对例如组织名称、客户地址等的各种自由文本的数据进行数据概况分析。特别是，多个自由文本的数据条目包括各种混合的数据类型，例如地址、组织名称、人名、电话号码等的各种类型。

发明内容

本发明提出一种数据概况分析方法，其适合于针对各种数据条目集合特别是自由文本的数据条目集合进行有效的数据概况分析而得到语义结构分布，例如，将地址按照国、省、市、区等具有语义的单独的部分进行分析，得到相应的具有语义特征的统计结果和数据质量分析结果等。

本发明的目的是提出一种数据概况分析方法和系统，用于提供更容易理解和使用的数据分析结果，同时降低了所需成本和资源。

根据本发明的第一方面，提出了一种数据概况分析方法，包括：数据处理步骤，其读取输入的数据条目集合，根据数据条目的片段及片段的语义特征，对片段进行语义标注；以及数据分析步骤，其基于已进行语义标注的片段，对输入的数据条目集合进行语义级数据分析，从而得到分析结果。

根据本发明的第二方面，提出了一种数据概况分析系统，包括：数据处理装置，用于读取输入的数据条目集合，根据数据条目的片段及片段的语义特征，对片段进行语义标注；以及数据分析装置，与数据处理装置连接，用于基于来自于数据处理装置的已进行语义标注的片段，对输入的数据条目集合进行语义级数据分析，从而得到分析结果。

根据本发明的第三方面，提出了一种计算机程序产品，包括用于执行如下的代码：读取输入的数据条目集合，根据数据条目的片段及片段的语义特征，对片段进行语义标注；以及基于已进行语义标注的片段，对输入的数据条目集合进行语义级数据分析，从而得到分析结果。

根据本发明，能够更好地对自由文本进行数据分析，并根据语义对自由文本的数据条目集合进行相应的统计和分析。

附图说明

通过以下结合附图的说明，并且随着对本发明的更全面了解，本发明的其他目的和效果将变得更加清楚和易于理解，其中：

图1示出了根据本发明的实施方式的数据概况分析系统的总体框图；

图2示出了根据本发明的实施方式的数据概况分析系统的数据处理装置的框图；

图3示出了根据本发明的实施方式的数据概况分析方法的流程图；

图4示出了根据本发明的实施方式的输入的数据条目集合的例子；

图5(a)示出了现有的符号级数据概况分析方法应用于图4所示的输入数据条目集合的结果；以及

图5(b)示出了根据本发明的实施方式的数据概况分析方法应用于图4所示的输入数据条目集合的结果。

在所有的上述附图中，相同的标号表示具有相同、相似或相应的特征或功能。

具体实施方式

在开始对本发明的实施方式进行详细描述之前首先介绍本发明所涉及的几个术语：数据概况分析涉及对输入的数据条目集合进行关于数据分布统计特性和数据质量等方面的分析。语义片段(Semantic Fragment)指一个记号(token)序列，其代表独立的语义概念和信息单元。命名实体(Named Entity)指被命名的语义唯一确定的信息单位，如人名、地名、机构名、专有名词、时间表达式、数字表达式等。

以下对本发明的优选实施方式进行详细描述。

图1示出了根据本发明的数据概况分析系统100的总体框图。所述数据概况分析系统对输入的数据条目集合特别是自由文本的数据条目集合进行分析，并最终得到语义数据概况分析报告。如图1所示，该数据概况分析系统100包括数据输入装置101、数据处理装置102、数据分析装置103以及分析结果输出装置104。

数据输入装置101用于输入将要进行概况分析的数据条目集合，该数据条目集合可以是包括各种数据类型及其混合的自由文本，例如地址、组织名称、人名、电话号码或其他混合文本。

数据处理装置102与数据输入装置101连接，用于提取来自于数据输入装置101的输入数据的语义特征，并用基于聚类(clustering-based)的标注机制对数据条目的片段进行语义标注。

在本实施方式中，如图2所示，数据处理装置102进一步包括：语义特征提取装置201，与数据输入装置101连接，用于提取来自于数据输入装置101的输入数据条目的片段及片段的语义特征；评分装置202，与语义特征提取装置201连接，用于对来自于语义特征提取装置201所提取的每个数据条目内部的片段的信息粒度进行评分；以及，片段标注装置203，与评分装置202连接，用于根据评分装置202提供的片段的信息粒度评分对每个数据条目内部的片段进行语义标注。

数据分析装置103，与数据处理装置102中的片段标注装置203连接，按照用户要求，对数据条目及来自于片段标注装置203的已标注的内部语义片段进行数据质量和语义分布等统计分析。

分析结果输出装置104，与数据分析装置103连接，用于输出数据分析装置103的分析结果，提供语义数据概况分析报告，例如预期出现的语义模式、未预测到的语义模式、语义模式频率、无效的语义结构等。

图3示出了根据本发明的数据概况分析方法的流程图。图3所示的方法开始于步骤S300。然后，在步骤S301，从数据输入装置101输入待进行概况分析的数据。在本实施方式中，输入图4所示的数据条目集合，以下以该数据条目集合中的一个数据条目“北京西城区复兴门外大街6号光大大厦10层1012光大银行国际业务部”为例对本发明的方法进行说明。

然后，由数据处理装置102对所述数据条目进行处理：

在步骤S302，语义特征提取装置201将输入的数据条目进行分词，利用现有的成熟的汉语分词技术得到的分词结果是以下多个分词单元：“北京”、“西城区”、“复兴”、“门”、“外”、“大街”、“6”、“号”、“光”、“大”、“大厦”、“10”、“层”、“1012”、“光”、“大”、“银行”、“国际”、“业务部”。在步骤S303，根据以上分词单元，得到数据条目的片段集合，以尽可能多地获取该数据条目的语义信息，在本例中，得到的片段集合包括“北京”、“北京西城区”，“北京西城区复兴门外大街”、“西城区”、“西城区复兴门外大街”、“复兴门外大街”、“大厦”、“光大大厦”、“光大银行”、“光大银行国际”、“光大银行国际业务部”、“银行”、“银行国际”、“银行国际业务部”、“国际”、“国际业务部”等。然后，在步骤S304，提取数据条目的片段集合中的每个片段的语义特征，得到片段特征集合，包括词单元集合、字符集合、短语集合、片段集合、上下文片段集合、命名实体属性等。

评分装置202基于从语义特征提取装置提取的数据条目片段的语义特征，对片段进行评分。首先，在步骤S305，基于相应的数据条目中的外部邻近片段和内部特征，对所有片段进行聚类。然后，在步骤S306，评分装置202基于以上的片段的聚类，对数据条目进一步聚类，其中，如果数据条目的一个或多个片段被分组到相同的聚类中，则将所述数据条目分配到相同的社区中。举例而言，假设任意两个数据条目e1和e2，并且假设从数据条目e1和e2中分别提取片段f(e1)和f(e2)。如果片段f(e1)和f(e2)在相同的聚类中，则数据条目e1和e2将被分组到相同的社区。由于数据条目中的片段描述不同的语义信息，因此这些片段可能被分配到不同的聚类中。然后，评分装置202基于这些片段聚类，根据片段类型和片段的语义特征来多角度标识一个数据条目所涉及的各个数据条目社区，得到多角度数据条目社区。

在本实施方式中，可以将数据条目“北京西城区复兴门外大街6号光大大厦10层1012光大银行国际业务部”分配到多角度数据条目社区，例如，“银行”相关的行业社区，“西城区”相关的区域社区，“复兴门大街”相关的位置社区，“大厦”相关的地点社区，等等。

每个社区通常共享一个主题，如果在同一社区中的大多数数据条目都包含某些共同的词单元，即中心词，则这些中心词可代表该社区的主题。因此，计算社区包含的每个词的分数用以对中心词进行排序。每个中心词的分数定义为该中心词在该社区中每个数据条目中的特征权重分数之和。该分数可以度量每个词对将这些数据条目分配到当前社区的贡献。在社区中可以按照中心词分数高低对中心词进行排序，分数高的中心词可作为该社区的主题标签。

在步骤S307，评分装置202提取所述数据条目社区的中心词排序列表。例如，数据条目“北京西城区复兴门外大街6号光大大厦10层1012光大银行国际业务部”的被分配到的某些社区内的中心词排序列表如下：

第一社区的中心词列表(“复兴门大街”相关的位置社区)：

大街：10.35795332070613

复兴：7.556457078173965

门：3.9872948842147444

第二社区的中心词列表(“银行”相关的行业社区)：

银行：5.957950540781106

支行：3.794889128759025

……

上述第一社区中心词列表即所述多角度数据条目社区中与“复兴门大街”相关的位置社区，其中“大街”、“复兴”“门”均为该第一社区中的中心词，其中中心词“大街”的分数为“10.35795332070613”。

接着，在步骤S308，评分装置202基于相应的数据条目社区的中心词排序列表，对该中心词的信息粒度评分，即对该中心词所包含的信息量评分。例如，假设C(e)是数据条目e所在的数据条目社区集合，社区Ci为C(e)内的一个成员。社区Ci的公共主题词表Headword(Ci)定义为前k个中心词。给定数据条目e中的词单元Wi，则词单元Wi的信息粒度评分Score(Wi，e)计算如下：

Weight (C_{j}, e) = \frac{CommunitySize (C_{j})}{\underset{C_{i} &Element; C (e)}{Σ} CommunitySize (C_{i})} - - - (2)

其中，式(1)中的Weight(Wi，Cj)表示词单元Wi在公共主题词表Headword(Ci)中的权重，Weight(Cj，e)表示社区Cj在C(e)中的权重，CommunitySize(Ci)表示社区Ci的大小(即，该社区中数据条目的数目)，CommunityNum(e)表示包含数据条目e的社区的数目。

然后，在步骤S309，片段标注装置203根据上述评分来标注每个数据条目中的语义片段，提取特有的和普通的语义片段。如果数据条目e中的词单元Wi的评分小于预定的阈值，则词单元Wi为数据条目e中的“特有信息单元”。否则，词单元Wi为数据条目e中的“普通信息单元”。

较大的数据条目社区中排名靠前的中心词通常指示它们是更加常见的语义概念，并更加独立于特定数据条目。所有普通信息单元都经常出现在其他数据条目中，因此他们被标注为独立片段。所有连续的特有信息单元都合并到较大的特有语义片段。例如，在包含组织的数据条目中，普通语义片段描述其一般的语义特征，例如，办公室位置、组织类型等，而特有语义片段描述其特定的唯一语义特征，例如，所处产业、唯一名称等。

然后，在步骤S310，片段标注装置203根据每个片段的语义特征，如地点、组织后缀等线索，对语义片段的类型进行标注，即对所述片段进行语义标注。在本实施方式中，“北京西城区复兴门外大街6号光大大厦10层1012光大银行国际业务部”的语义片段的标注如下：“北京/City”、“西城区/District”、“复兴门外大街/Street”、“6号/StreetNo”、“光大大厦/Building”、“10层1012/RoomNo”、“光大银行/Org”、“国际业务部/Department”。

在步骤S311，数据分析装置103基于标注的语义片段，进行如下分析：分析数据条目集合中的语义特征分布，诸如数据条目集合中的内部语义结构特征，预期的语义模式、语义模式频率、未预测到的语义模式、无效的语义结构等；以及分析数据条目集合的质量，例如期望的数据覆盖率、不期望的数据类型、无效数据值等。

在步骤S312，分析结果输出装置104输出数据分析装置103的结果，得到语义数据概况分析报告。最后，在步骤S313结束本发明的方法。

图5(a)示出了现有的符号级数据概况分析方法应用于图4所示的输入数据条目集合的结果。例如，对于给出的数据条目集合，现有的符号级数据概况分析技术得到的结果有：1)词频统计，例如“市”在所述数据条目集合中出现频率为5；2)数字串统计，例如数字串计数为13(即出现过13次数字串)；3)字符级模式分析，例如纯文本串为5，等等。可见，利用符号级的分析模式，不能得到相关的语义分析信息，例如，不能知道该数据条目集合中街道的数目、电话号码的数目、地点+联系号码之类的混合数据类型的数目等。

图5(b)示出了根据本发明的实施方式的数据概况分析方法应用于图4所示的输入数据条目集合的结果。可见，根据本发明，可以得到语义单元统计结果，例如街道计数为9；数字的单元统计，例如电话号码的计数为1，电话号码的长度为7位数，移动电话的号码计数为3，移动电话的长度为11位数；语义级模式分析，例如地点+联系号码出现次数为3，等等。

由此可知，本发明的语义级数据概况分析更适用于针对自由文本的数据条目集合，并更有利于进一步的数据集成和数据清洗来理解新的数据源。此外，本发明的数据概况分析方法和系统还可以提供更多详细信息，并可用于识别需要进一步研究并可能包含的新数据值。

本发明还涉及一种计算机程序产品，所述计算机程序产品包括用于执行如下的代码：读取输入的数据条目集合，根据数据条目的片段及片段的语义特征，对片段进行语义标注；以及基于已进行语义标注的片段，对输入的数据条目集合进行语义级数据分析，从而得到分析结果。

这样的计算机程序产品可以存储在一个存储载体中。

以上提供的本发明的说明书的目的是为了说明和描述，而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言，许多修改和变更都是显而易见的。

例如，数据处理装置102也可以使用命名实体识别引擎或某些统计的方法来标识语义片段。

因此，选择并描述实施方式是为了更好地解释本发明的原理及其实际应用，并使本领域普通技术人员明白，在不脱离本发明实质的前提下，所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。

Claims

1.一种数据概况分析方法，包括：

数据处理步骤，用于读取输入的数据条目集合，根据所述数据条目的片段及所述片段的语义特征，对所述片段进行语义标注；以及

数据分析步骤，用于基于所述已进行语义标注的片段，对输入的数据条目集合进行语义级数据分析，从而得到分析结果。

2.根据权利要求1所述的方法，其特征在于，其中所述数据处理步骤包括：

语义特征提取步骤，其提取输入的数据条目的片段及所述片段的语义特征；

评分步骤，其根据所述片段的语义特征，对所述片段进行评分；以及

片段标注步骤，其根据片段的评分而对所述片段进行语义标注。

3.根据权利要求2所述的方法，其特征在于，所述语义特征提取步骤进一步包括：

将输入的数据条目进行分词，得到多个分词单元；

根据所述分词单元，得到所述数据条目的片段集合；以及

提取所述片段集合的每个片段的语义特征，得到所述片段集合的语义特征集合。

4.根据权利要求2或3所述的方法，其特征在于，所述评分步骤进一步包括：

基于对片段的聚类，将数据条目聚类为多角度数据条目社区；以及

对多角度数据条目社区的每个数据条目社区的中心词进行评分。

5.根据权利要求2至4中任何一个所述的方法，其特征在于，所述片段标注步骤进一步包括：

根据对所述片段的评分，得到特有的和普通的片段；

将连续的特有的片段合并到较大的特有片段；以及

根据每个片段的语义特征，对所述片段的类型进行语义标注。

6.一种数据概况分析系统，包括：

数据处理装置，用于读取输入的数据条目集合，根据所述数据条目的片段及所述片段的语义特征，对所述片段进行语义标注；以及

数据分析装置，与所述数据处理装置连接，用于基于来自于所述数据处理装置的已进行语义标注的片段，对输入的数据条目集合进行语义级数据分析，从而得到分析结果。

7.根据权利要求6所述的系统，其特征在于，所述数据处理装置包括：

语义特征提取装置，用于提取输入的数据条目的片段及所述片段的语义特征；

评分装置，与所述语义特征提取装置连接，用于根据来自于所述语义特征提取装置的所述片段的语义特征，对所述片段进行评分；以及

片段标注装置，与所述评分装置连接，用于根据来自于所述评分装置的片段的评分而对所述片段进行语义标注。

8.根据权利要求7所述的系统，其特征在于，所述语义特征提取装置进一步包括：

用于将输入的数据条目进行分词以得到多个分词单元的装置；

用于根据所述分词单元而得到所述数据条目的片段集合的装置；以及

用于提取所述片段集合的每个片段的语义特征，得到所述片段集合的语义特征集合的装置。

9.根据权利要求7或8所述的系统，其特征在于，所述评分装置进一步包括：

用于基于对片段的聚类，将数据条目聚类为多角度数据条目社区的装置；以及

用于对多角度数据条目社区的每个数据条目社区的中心词进行评分的装置。

10.根据权利要求7至9中任何一个所述的系统，其特征在于，所述片段标注装置进一步包括：

用于根据对所述片段的评分，得到特有的和普通的片段的装置；

用于将连续的特有的片段合并到较大的特有片段的装置；以及

用于根据每个片段的语义特征而对所述片段的类型进行语义标注的装置。

11.一种计算机程序产品，包括用于执行前述权利要求1-5中任一项方法的步骤的程序代码。