CN106407445B

CN106407445B - 一种基于url的非结构化数据资源标识和定位方法

Info

Publication number: CN106407445B
Application number: CN201610866321.9A
Authority: CN
Inventors: 熊安萍; 李鸿健; 祝清意; 邹洋
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2019-06-07
Anticipated expiration: 2036-09-29
Also published as: CN106407445A

Abstract

本发明涉及一种基于URL的非结构化数据资源标识和定位方法，属于非结构化数据技术领域。该方法对非结构化数据建立包括特征属性、内容属性、基本属性等多个方面的抽象模型，基于该模型采用URL标识表示数据资源，并设计了非结构化数据模型的标识规则。针对用户提交的复杂条件访问，数据标识服务器解析该条件并与存储的非结构化数据标识进行相似度匹配，从而获取相匹配的标识资源地址并返回给用户，用户根据返回的资源地址实现数据资源访问。通过本发明方法将非结构化数据统一抽象为URL标识资源，能够更好支撑细节刻画的非结构化数据访问及应用。

Description

一种基于URL的非结构化数据资源标识和定位方法

技术领域

本发明属于非结构化数据技术领域，涉及一种基于URL的非结构化数据资源标识和定位方法。

背景技术

随着移动互联网与大数据时代的来临，信息化程度不断加深。云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长，近年来，在国内外互联网巨头的推动下，非结构化数据呈几何级数的增长。由于现有的非结构化数据还没有统一的数据模型，数据的处理方式往往基于XML文件，通过属性特征抽取等方式，将非结构化数据转化为结构化的数据并最终转储到传统的数据库系统中。由于非结构化数据的多样性，传统的处理方式可能造成非结构化数据的部分信息缺失，在维持数据完整性方面存在着严重的缺陷，对非结构化数据访问也带来了新的挑战。因此，研究非结构化数据的统一数据模型，实现非结构化数据的便捷访问及应用已成为当前非结构化数据处理领域亟待解决的问题。对于网络环境中存在的大量的非结构化数据资源，一方面，对来自各种数据源的信息及其语义内容需要进行一体化描述，解决存在于各个数据源间的系统异构、结构异构和语义异构问题，这是非结构化数据管理中关键问题之一。另一方面，用户希望能够快速，准确，便捷访问自己所需要的非结构化数据，这对非结构化数据模型提出新的要求。

传统的非结构化数据处理方式存在以下缺点：

1)采用传统的XML处理非结构化数据效率低，且无法实现复杂条件下的资源定位及访问。

2)目前对非结构数据的处理和提取在较大程度破坏了数据信息完整性。将非结构化的数据转化为了结构化的数据并存储在数据库中，用户访问的结果是经过转化后的数据，这些数据能够在一定程度上表现资源本身的一些特征，但资源的完整信息受到不同程度破坏。现有的非结构化数据模型重点关注数据本身的特征，如数据类型，关键字等，而忽略了非结构化数据的一些扩展性质，如文件检索排名，文件时效性，文件对用户贡献度，组类之间相似性，融合度之类等信息，而这些信息也具有重要价值。

3)在复杂条件访问下，现有的数据模型难以准确定位非结构化数据资源。访问非结构化数据时，非结构化数据模型仅能对单一访问条件进行查找定位，定位面对复杂条件的数据访问时，往往需要借助专门的基于内容的数据管理平台。

发明内容

有鉴于此，本发明的目的在于提供一种基于URL的非结构化数据资源标识和定位方法，基于URL的非结构化数据模型，不仅描述了非结构化数据自身的特征，更将数据内容属性和扩展属性等纳入数据属性空间中，从而全面地刻画了非结构化数据，并通过URL标识将非结构化数据资源化，从而满足非结构化数据中复杂条件的数据资源定位需求。

为达到上述目的，本发明提供如下技术方案：

一种基于URL的非结构化数据资源标识和定位方法，该方法包括：

S1：建立非结构化数据模型，该非结构化数据模型包含一个数据对象及三个属性类，所述三个属性类分别为：基本属性类、内容属性类和特征属性类；

S2：基于非结构化数据模型的URL资源标识方法，标识是数据模型转换后得到的URL，将非结构化数据抽象为一个统一的URL资源，以支持用户对非结构化数据的访问，尤其是对于非结构化数据的复杂检索和应用；所述URL标识资源模型结构分域抽象描述为R1,R2,R3,R4域，R1域，即现有的统一资源定位符(Uniform Resource Locator)，是从互联网上得到资源的位置和访问方法，是互联网上的标准资源地址；R2域，是非结构化数据的特征属性标识，即文件的所属类型；R3域，是数据内容属性标识；R4域是基本特征标识；

S3：非结构化数据定位方法：首先获取访问条件,根据查询条件的特点，将查询条件分解为一系列区间属性的集合，得到进行计算的访问条件特征向量为W；不同的区间对访问条件的重要程度不同，因此依据不同的属性给予不同的权重，形成权重向量V；与访问条件空间向量类似，将数据资源标识中的各个属性维度分解建立相应的标识资源的特征向量W_i；与W中对应的属性维度进行相似性对比，由此得出相似度矩阵S，并通过权重向量V得到数据资源相似度结果；根据相似度结果大小顺序返回访问数据资源地址；

进一步，在S2中，非结构化数据资源标识的生成可以设计一个标识生成器来完成，该标识生成器可以作为一个资源服务器工具，根据所提供资源的标识模型描述，按照既定的URL标识规则给出数据对象的资源标识，数据标识生成步骤如下：

1)读取资源描述，获取特征属性；

2)标识生成器依据特征属性中的资源类型，选择相应的内容属性提取方法；对于文档类资源，采用相关工具来提取文档中关键词、并进行分析词频和语义相似度等分析，从而获得关键词和标签；对于视频音频等资源，采用语音识别和字幕内容提取工具来获取一些内容属性；对于图片类资源，采用现有的图像模糊识别工具来获取；

3)获取资源基本属性；

4)生成URL数据资源标识，并返回给标识服务器。

本发明的有益效果在于：

1)本发明基于一种包括特征属性、内容属性、基本属性等多个方面的数据模型，将不同结构，不同类型的非结构化数据资源统一抽象为URL标识。使用户以统一方式进行数据访问；

2)本发明方法支持用户复杂条件的数据资源定位，通过建立非结构化数据的多维度空间向量模型，并依据用户访问条件进行模型的相似匹配度，获取最优匹配的标识资源，该方法能够有效提高数据访问的准确性和有效性；

3)本发明方法通过建立统一的非结构化数据模型，将非结构化数据通过标识模型抽象为资源，更好的支持对细节刻画的非结构化数据的访问；采用空间向量模型处理复杂条件数据访问，确保资源的完整性。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明实施例中的非结构化数据模型图；

图2为本发明实施例中标识生成器工作流程图；

图3为本发明实施例中数据资源匹配流程图；

图4为本发明实施例中维度划分算法流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

非结构化数据的标识模型IDM(identification data model)包括数据对象空间和属性空间。数据对象空间即非结构化数据对象的集合，属性空间即该数据对象的属性集合。在本实施例的标识模型中，一个非结构化数据通过其数据模型转换为一个URL标识。其中数据模型中的三个属性类分别是：数据资源基本属性类、数据资源内容属性类和数据资源特征属性类。每一个数据对象具有唯一标识，而标识则是数据资源抽象后的URL。图1为本发明实施例中的非结构化数据模型图。

标识模型的详细属性构成如表1所示。

表1数据属性表

基本属性BasicAttr代表非结构化数据的一般属性，包括文件属性FileAttr、源属性SourceAttr和权限属性AuthorityAttr，分别表示与文件性质、来源和数据操作权限相关的属性。

内容属性ContentAttr表示非结构化数据与内容相关的信息，包括描述属性DescriptionAttr、语义属性SemanticAttr和KeyWordAttr三组属性，分别表示数据内容描述、语义相关和关键字。

特征属性CharacteristicAttr表示非结构化与数据媒体类型特征相关的属性，包括媒体MediaAttr、文档DocAttr、音频AudioAttr、视频VideoAttr和图像ImageAttr五个属性组，此外还有一个扩展属性ExtendAttr。分别代表特征相关的媒体特征、文档特征、音频特征、视频特征、图像特征和扩展特征。

URL资源标识方法：

基于标识构建数据模型，对于具有不同特征类的非结构化数据，可通过不同方式提取非结构化数据中的属性类，甚至可以人工提取。

将图1的标识模型转化为URL标识的资源模型，从而将抽象的非结构化数据模型转换为一个统一的URL资源，以支持用户对非结构化数据的访问，尤其是对于非结构化数据的复杂检索和应用。

非结构化数据URL资源标识分域抽象描述，分别标记为R1,R2,R3,R4等域。

R1域，即现有的统一资源定位符(Uniform Resource Locator)，是从互联网上得到资源的位置和访问方法，是互联网上的标准资源地址。

R2域，是非结构化数据的特征属性标识，即文件的所属类型。采用/Characteristic标注，说明为特征类，后面用“：”标注该文件类型的取值，如：/Characteristic:type_png，表示文件类型为png；而在属性与属性值之间，用下划线来连接。在特征类下如果有多个属性取值，则多个属性之间用一个连字符连接。

R3域，是将数据的内容抽象为标识。生成规则与特征属性标识类似，用/Content标注。同样属性之间用连字符来连接，属性与属性值之间，用下划线连接。若某个属性没有值，则该属性不参与标识的生成，

R4域，是将基本特征抽象为标识。用/Basic标注。属性之间、属性与属性值之间的生成规则与R2、R2相同。

数据标识流程：

非结构化数据资源标识的生成可以设计一个标识生成器来完成，该标识生成器可以作为一个资源服务器工具，根据所提供资源的标识模型描述，按照既定的URL标识规则给出数据对象的资源标识，标识生成器的工作流程如图2所示。

在本实施例中，以一张宽度为200，高度为200的图片数据为例来描述数据标识的生成流程，具体步骤如下：

(1)获取特征属性，该图片的特征属性为:

Type:jpg,Width:960,Height:617,BitDepth:24。

(2)标识生成器依据特征属性中的资源类型，选择相应的内容属性提取方法。对于文档类资源，可采用相关工具来提取文档中关键词、并进行分析词频和语义相似度等分析，从而获得关键词和标签；而视频音频等资源，可采用语音识别和字幕内容提取工具来获取一些内容属性；对图片类资源，可采用现有的图像模糊识别工具来获取；采用模板匹配模型方法标识示例图片，其内容属性为:

Title:baidu,Language:Chinese,Field:internet,KeyWords:select。

(3)资源基本属性获取。图片的基本属性为：Size:24.5KB，CreateTime:20131119，Author:Administrator，FileName:193103067950，Owners:Administrator，Property:fullControl；

(4)生成URL数据资源标识，并返回给标识服务器。

数据资源定位流程：

在访问非结构化数据资源时，将访问条件与标识资源分别看作为一个整体，而两者之间的相关性则由基于空间向量模型的相似度结果表示，即访问条件和标识资源之间的共性，数据资源匹配流程如图3所示，包括以下步骤：

(1)获取访问条件。将访问条件分解为不同的区间属性，并建立相应的访问条件的特征向量W。

(2)将访问条件与标识服务器中的数据资源标识建立的资源标识的特征向量W_i进行相似度匹配得到相似度矩阵S。

(3)根据设定的区间维度权值，建立权值向量，并与相似度矩阵进行计算，得到最终的相似度结果。

(4)按照相似度大小排列顺序，将相似度结果中对应的资源地址返回。

最后将此流程运用在用户访问非结构化数据的查询中，由此当用户查询时，将按照匹配度大小将标识资源地址返回给用户。

生成维度空间向量：

1)维度分解：

对于计算匹配度而言，维度分解算法是其中很重要的一部分，它不但承接来自上层的访问条件，而且还要连接下层访问的输出结果。维度划分算法则是数据资源访问的核心部分，其流程图如图4所示。

其步骤如下所述：

第一步：特征维度。依据资源标识生成的规则，首先从访问条件中抽取用户所需要资源的类型，即访问条件中的特征类。如PNG，AVI等等；基于标识结构中的特征类，将访问条件的特征类划分为一个维度。

第二步：内容维度。与第一步类似，抽取出访问条件中与内容有关的属性，即标识结构中的内容类，如关键字，title，language，等等。因为在标识模型构建时内容特征分为描述属性，语义属性和关键字属性三个子属性，该维度也对应划分为三个子维度。

第三步：基本维度。基本维度是由访问条件中的基本类抽取，如标识中对应的Size，Author，Owner等条件，因在标识模型中，基本类下共分为文件属性，源属性和权限属性三类，该维度也对应划分为三个子维度。

2)维度权值

将访问条件分解为不同的维度后，不同的维度空间对整个访问条件的贡献度也是不同的。首先，系统可以实现建立一个基于标识模型结构的维度属性库，在维度库中，依据维度对整个维度空间的贡献度和标识模型划分出的维度空间设置权值。

通过预先建立好的维度属性，可以通过标识服务器中的资源标识维度建立标识资源的特征向量，这里给出第i个标识资源的特征向量如下所示：

W_i＝(d_i1，d_i2，…，d_ij) (1)

其中i的取值范围为1到m，说明共有m个访问结果特征向量，j的取值范围为1..r，而r为访问条件中维度的划分数量，即表示属性维度的个数。

W_i表示第i个标识资源的特征向量，而d_ij则为第i个标识资源的特征向量中，第j个属性维度的特征值。

相似度计算：

用户的访问条件也根据维度建立相应的访问条件特征向量，依据访问条件特征向量在一个标识资源的特征向量集合中的相似度来得出查询结果。

运用相似度矩阵来进行访问条件特征向量与标识资源的特征向量之间的相似匹配度的运算，整个标识资源的特征向量与访问条件特征向量做相似度匹配后得到相似度矩阵如下所示：

其中，S为特征空间中的维度的相似度矩阵，m为特征向量的个数，r为特征空间中维度的数目，s_ij表示第i个标识资源的特征向量中第j个维度属性的相似度。

S_ij通过分段函数进行计算，如(3)式所示：

其中，dis_ij为第i个标识资源的特征向量在第j个维度下的相似度，计算方式如下：

假设访问条件的特征向量W＝(w₁，w₂，…，w_j)

标识资源的特征向量W_i＝(d_i1，d_i2，…，d_ij)

运用经典的欧几里德距离来计算访问结果在访问条件下的相似度。计算公式如(4)式所示：

而γ表示为一个非负的阈值。如果第i个访问结果中第j个维度下的相似度dis_ij小于阀值，则在相似度矩阵中对应的特征值相似度为0，认为该资源维度特征不满足访问条件的维度特征。计算得到标识资源的特征向量对于访问条件的相似度矩阵后，还要进一步考虑标识资源中各维度的权值影响，因此，将标识各资源维度的权值与相似度矩阵S相乘，得到标识资源的特征向量相对于访问条件特征向量的相似度，相似度计算如公式(5)所示：

其中，S'为经过计算后标识资源的特征向量在访问条件下得出的相似度值的特征向量，V是属性权值表中描述所有维度属性的权值向量，v_ij表示第i个标识资源的特征向量第j个维度的权值。

最后，在S'中，根据相似度结果的大小，将其对应标识资源的标识地址取出形成结果集返回给用户。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于URL的非结构化数据资源标识和定位方法，其特征在于：该方法包括：

S2：基于非结构化数据模型的URL资源标识方法，标识是数据模型转换后得到的URL，将非结构化数据抽象为一个统一的URL资源，以支持用户对非结构化数据的访问，尤其是对于非结构化数据的复杂检索和应用；URL标识资源模型结构分域抽象描述为R1,R2,R3,R4域，R1域，即现有的统一资源定位符(Uniform Resource Locator)，是从互联网上得到资源的位置和访问方法，是互联网上的标准资源地址；R2域，是非结构化数据的特征属性标识，即文件的所属类型；R3域，是数据内容属性标识；R4域是基本特征标识；

S3：非结构化数据定位方法：首先获取访问条件,根据查询条件的特点，将查询条件分解为一系列区间属性的集合，得到进行计算的访问条件特征向量为W；不同的区间对访问条件的重要程度不同，因此依据不同的属性给予不同的权重，形成权重向量V；与访问条件空间向量类似，将数据资源标识中的各个属性维度分解建立相应的标识资源的特征向量W_i；与W中对应的属性维度进行相似性对比，由此得出相似度矩阵S，并通过权重向量V得到数据资源相似度结果；根据相似度结果大小顺序返回访问数据资源地址。

2.根据权利要求1所述的一种基于URL的非结构化数据资源标识和定位方法，其特征在于：在S2中，非结构化数据资源标识的生成可以设计一个标识生成器来完成，该标识生成器可以作为一个资源服务器工具，根据所提供资源的标识模型描述，按照既定的URL标识规则给出数据对象的资源标识，数据标识生成步骤如下：

1)读取资源描述，获取特征属性；

3)获取资源基本属性；

4)生成URL数据资源标识，并返回给标识服务器。