CN106407445B - 一种基于url的非结构化数据资源标识和定位方法 - Google Patents

一种基于url的非结构化数据资源标识和定位方法 Download PDF

Info

Publication number
CN106407445B
CN106407445B CN201610866321.9A CN201610866321A CN106407445B CN 106407445 B CN106407445 B CN 106407445B CN 201610866321 A CN201610866321 A CN 201610866321A CN 106407445 B CN106407445 B CN 106407445B
Authority
CN
China
Prior art keywords
resource
data
attribute
unstructured data
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610866321.9A
Other languages
English (en)
Other versions
CN106407445A (zh
Inventor
熊安萍
李鸿健
祝清意
邹洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201610866321.9A priority Critical patent/CN106407445B/zh
Publication of CN106407445A publication Critical patent/CN106407445A/zh
Application granted granted Critical
Publication of CN106407445B publication Critical patent/CN106407445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Abstract

本发明涉及一种基于URL的非结构化数据资源标识和定位方法,属于非结构化数据技术领域。该方法对非结构化数据建立包括特征属性、内容属性、基本属性等多个方面的抽象模型,基于该模型采用URL标识表示数据资源,并设计了非结构化数据模型的标识规则。针对用户提交的复杂条件访问,数据标识服务器解析该条件并与存储的非结构化数据标识进行相似度匹配,从而获取相匹配的标识资源地址并返回给用户,用户根据返回的资源地址实现数据资源访问。通过本发明方法将非结构化数据统一抽象为URL标识资源,能够更好支撑细节刻画的非结构化数据访问及应用。

Description

一种基于URL的非结构化数据资源标识和定位方法
技术领域
本发明属于非结构化数据技术领域,涉及一种基于URL的非结构化数据资源标识和定位方法。
背景技术
随着移动互联网与大数据时代的来临,信息化程度不断加深。云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,近年来,在国内外互联网巨头的推动下,非结构化数据呈几何级数的增长。由于现有的非结构化数据还没有统一的数据模型,数据的处理方式往往基于XML文件,通过属性特征抽取等方式,将非结构化数据转化为结构化的数据并最终转储到传统的数据库系统中。由于非结构化数据的多样性,传统的处理方式可能造成非结构化数据的部分信息缺失,在维持数据完整性方面存在着严重的缺陷,对非结构化数据访问也带来了新的挑战。因此,研究非结构化数据的统一数据模型,实现非结构化数据的便捷访问及应用已成为当前非结构化数据处理领域亟待解决的问题。对于网络环境中存在的大量的非结构化数据资源,一方面,对来自各种数据源的信息及其语义内容需要进行一体化描述,解决存在于各个数据源间的系统异构、结构异构和语义异构问题,这是非结构化数据管理中关键问题之一。另一方面,用户希望能够快速,准确,便捷访问自己所需要的非结构化数据,这对非结构化数据模型提出新的要求。
传统的非结构化数据处理方式存在以下缺点:
1)采用传统的XML处理非结构化数据效率低,且无法实现复杂条件下的资源定位及访问。
2)目前对非结构数据的处理和提取在较大程度破坏了数据信息完整性。将非结构化的数据转化为了结构化的数据并存储在数据库中,用户访问的结果是经过转化后的数据,这些数据能够在一定程度上表现资源本身的一些特征,但资源的完整信息受到不同程度破坏。现有的非结构化数据模型重点关注数据本身的特征,如数据类型,关键字等,而忽略了非结构化数据的一些扩展性质,如文件检索排名,文件时效性,文件对用户贡献度,组类之间相似性,融合度之类等信息,而这些信息也具有重要价值。
3)在复杂条件访问下,现有的数据模型难以准确定位非结构化数据资源。访问非结构化数据时,非结构化数据模型仅能对单一访问条件进行查找定位,定位面对复杂条件的数据访问时,往往需要借助专门的基于内容的数据管理平台。
发明内容
有鉴于此,本发明的目的在于提供一种基于URL的非结构化数据资源标识和定位方法,基于URL的非结构化数据模型,不仅描述了非结构化数据自身的特征,更将数据内容属性和扩展属性等纳入数据属性空间中,从而全面地刻画了非结构化数据,并通过URL标识将非结构化数据资源化,从而满足非结构化数据中复杂条件的数据资源定位需求。
为达到上述目的,本发明提供如下技术方案:
一种基于URL的非结构化数据资源标识和定位方法,该方法包括:
S1:建立非结构化数据模型,该非结构化数据模型包含一个数据对象及三个属性类,所述三个属性类分别为:基本属性类、内容属性类和特征属性类;
S2:基于非结构化数据模型的URL资源标识方法,标识是数据模型转换后得到的URL,将非结构化数据抽象为一个统一的URL资源,以支持用户对非结构化数据的访问,尤其是对于非结构化数据的复杂检索和应用;所述URL标识资源模型结构分域抽象描述为R1,R2,R3,R4域,R1域,即现有的统一资源定位符(Uniform Resource Locator),是从互联网上得到资源的位置和访问方法,是互联网上的标准资源地址;R2域,是非结构化数据的特征属性标识,即文件的所属类型;R3域,是数据内容属性标识;R4域是基本特征标识;
S3:非结构化数据定位方法:首先获取访问条件,根据查询条件的特点,将查询条件分解为一系列区间属性的集合,得到进行计算的访问条件特征向量为W;不同的区间对访问条件的重要程度不同,因此依据不同的属性给予不同的权重,形成权重向量V;与访问条件空间向量类似,将数据资源标识中的各个属性维度分解建立相应的标识资源的特征向量Wi;与W中对应的属性维度进行相似性对比,由此得出相似度矩阵S,并通过权重向量V得到数据资源相似度结果;根据相似度结果大小顺序返回访问数据资源地址;
进一步,在S2中,非结构化数据资源标识的生成可以设计一个标识生成器来完成,该标识生成器可以作为一个资源服务器工具,根据所提供资源的标识模型描述,按照既定的URL标识规则给出数据对象的资源标识,数据标识生成步骤如下:
1)读取资源描述,获取特征属性;
2)标识生成器依据特征属性中的资源类型,选择相应的内容属性提取方法;对于文档类资源,采用相关工具来提取文档中关键词、并进行分析词频和语义相似度等分析,从而获得关键词和标签;对于视频音频等资源,采用语音识别和字幕内容提取工具来获取一些内容属性;对于图片类资源,采用现有的图像模糊识别工具来获取;
3)获取资源基本属性;
4)生成URL数据资源标识,并返回给标识服务器。
本发明的有益效果在于:
1)本发明基于一种包括特征属性、内容属性、基本属性等多个方面的数据模型,将不同结构,不同类型的非结构化数据资源统一抽象为URL标识。使用户以统一方式进行数据访问;
2)本发明方法支持用户复杂条件的数据资源定位,通过建立非结构化数据的多维度空间向量模型,并依据用户访问条件进行模型的相似匹配度,获取最优匹配的标识资源,该方法能够有效提高数据访问的准确性和有效性;
3)本发明方法通过建立统一的非结构化数据模型,将非结构化数据通过标识模型抽象为资源,更好的支持对细节刻画的非结构化数据的访问;采用空间向量模型处理复杂条件数据访问,确保资源的完整性。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例中的非结构化数据模型图;
图2为本发明实施例中标识生成器工作流程图;
图3为本发明实施例中数据资源匹配流程图;
图4为本发明实施例中维度划分算法流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
非结构化数据的标识模型IDM(identification data model)包括数据对象空间和属性空间。数据对象空间即非结构化数据对象的集合,属性空间即该数据对象的属性集合。在本实施例的标识模型中,一个非结构化数据通过其数据模型转换为一个URL标识。其中数据模型中的三个属性类分别是:数据资源基本属性类、数据资源内容属性类和数据资源特征属性类。每一个数据对象具有唯一标识,而标识则是数据资源抽象后的URL。图1为本发明实施例中的非结构化数据模型图。
标识模型的详细属性构成如表1所示。
表1数据属性表
基本属性BasicAttr代表非结构化数据的一般属性,包括文件属性FileAttr、源属性SourceAttr和权限属性AuthorityAttr,分别表示与文件性质、来源和数据操作权限相关的属性。
内容属性ContentAttr表示非结构化数据与内容相关的信息,包括描述属性DescriptionAttr、语义属性SemanticAttr和KeyWordAttr三组属性,分别表示数据内容描述、语义相关和关键字。
特征属性CharacteristicAttr表示非结构化与数据媒体类型特征相关的属性,包括媒体MediaAttr、文档DocAttr、音频AudioAttr、视频VideoAttr和图像ImageAttr五个属性组,此外还有一个扩展属性ExtendAttr。分别代表特征相关的媒体特征、文档特征、音频特征、视频特征、图像特征和扩展特征。
URL资源标识方法:
基于标识构建数据模型,对于具有不同特征类的非结构化数据,可通过不同方式提取非结构化数据中的属性类,甚至可以人工提取。
将图1的标识模型转化为URL标识的资源模型,从而将抽象的非结构化数据模型转换为一个统一的URL资源,以支持用户对非结构化数据的访问,尤其是对于非结构化数据的复杂检索和应用。
非结构化数据URL资源标识分域抽象描述,分别标记为R1,R2,R3,R4等域。
R1域,即现有的统一资源定位符(Uniform Resource Locator),是从互联网上得到资源的位置和访问方法,是互联网上的标准资源地址。
R2域,是非结构化数据的特征属性标识,即文件的所属类型。采用/Characteristic标注,说明为特征类,后面用“:”标注该文件类型的取值,如:/Characteristic:type_png,表示文件类型为png;而在属性与属性值之间,用下划线来连接。在特征类下如果有多个属性取值,则多个属性之间用一个连字符连接。
R3域,是将数据的内容抽象为标识。生成规则与特征属性标识类似,用/Content标注。同样属性之间用连字符来连接,属性与属性值之间,用下划线连接。若某个属性没有值,则该属性不参与标识的生成,
R4域,是将基本特征抽象为标识。用/Basic标注。属性之间、属性与属性值之间的生成规则与R2、R2相同。
数据标识流程:
非结构化数据资源标识的生成可以设计一个标识生成器来完成,该标识生成器可以作为一个资源服务器工具,根据所提供资源的标识模型描述,按照既定的URL标识规则给出数据对象的资源标识,标识生成器的工作流程如图2所示。
在本实施例中,以一张宽度为200,高度为200的图片数据为例来描述数据标识的生成流程,具体步骤如下:
(1)获取特征属性,该图片的特征属性为:
Type:jpg,Width:960,Height:617,BitDepth:24。
(2)标识生成器依据特征属性中的资源类型,选择相应的内容属性提取方法。对于文档类资源,可采用相关工具来提取文档中关键词、并进行分析词频和语义相似度等分析,从而获得关键词和标签;而视频音频等资源,可采用语音识别和字幕内容提取工具来获取一些内容属性;对图片类资源,可采用现有的图像模糊识别工具来获取;采用模板匹配模型方法标识示例图片,其内容属性为:
Title:baidu,Language:Chinese,Field:internet,KeyWords:select。
(3)资源基本属性获取。图片的基本属性为:Size:24.5KB,CreateTime:20131119,Author:Administrator,FileName:193103067950,Owners:Administrator,Property:fullControl;
(4)生成URL数据资源标识,并返回给标识服务器。
数据资源定位流程:
在访问非结构化数据资源时,将访问条件与标识资源分别看作为一个整体,而两者之间的相关性则由基于空间向量模型的相似度结果表示,即访问条件和标识资源之间的共性,数据资源匹配流程如图3所示,包括以下步骤:
(1)获取访问条件。将访问条件分解为不同的区间属性,并建立相应的访问条件的特征向量W。
(2)将访问条件与标识服务器中的数据资源标识建立的资源标识的特征向量Wi进行相似度匹配得到相似度矩阵S。
(3)根据设定的区间维度权值,建立权值向量,并与相似度矩阵进行计算,得到最终的相似度结果。
(4)按照相似度大小排列顺序,将相似度结果中对应的资源地址返回。
最后将此流程运用在用户访问非结构化数据的查询中,由此当用户查询时,将按照匹配度大小将标识资源地址返回给用户。
生成维度空间向量:
1)维度分解:
对于计算匹配度而言,维度分解算法是其中很重要的一部分,它不但承接来自上层的访问条件,而且还要连接下层访问的输出结果。维度划分算法则是数据资源访问的核心部分,其流程图如图4所示。
其步骤如下所述:
第一步:特征维度。依据资源标识生成的规则,首先从访问条件中抽取用户所需要资源的类型,即访问条件中的特征类。如PNG,AVI等等;基于标识结构中的特征类,将访问条件的特征类划分为一个维度。
第二步:内容维度。与第一步类似,抽取出访问条件中与内容有关的属性,即标识结构中的内容类,如关键字,title,language,等等。因为在标识模型构建时内容特征分为描述属性,语义属性和关键字属性三个子属性,该维度也对应划分为三个子维度。
第三步:基本维度。基本维度是由访问条件中的基本类抽取,如标识中对应的Size,Author,Owner等条件,因在标识模型中,基本类下共分为文件属性,源属性和权限属性三类,该维度也对应划分为三个子维度。
2)维度权值
将访问条件分解为不同的维度后,不同的维度空间对整个访问条件的贡献度也是不同的。首先,系统可以实现建立一个基于标识模型结构的维度属性库,在维度库中,依据维度对整个维度空间的贡献度和标识模型划分出的维度空间设置权值。
通过预先建立好的维度属性,可以通过标识服务器中的资源标识维度建立标识资源的特征向量,这里给出第i个标识资源的特征向量如下所示:
Wi=(di1,di2,…,dij) (1)
其中i的取值范围为1到m,说明共有m个访问结果特征向量,j的取值范围为1..r,而r为访问条件中维度的划分数量,即表示属性维度的个数。
Wi表示第i个标识资源的特征向量,而dij则为第i个标识资源的特征向量中,第j个属性维度的特征值。
相似度计算:
用户的访问条件也根据维度建立相应的访问条件特征向量,依据访问条件特征向量在一个标识资源的特征向量集合中的相似度来得出查询结果。
运用相似度矩阵来进行访问条件特征向量与标识资源的特征向量之间的相似匹配度的运算,整个标识资源的特征向量与访问条件特征向量做相似度匹配后得到相似度矩阵如下所示:
其中,S为特征空间中的维度的相似度矩阵,m为特征向量的个数,r为特征空间中维度的数目,sij表示第i个标识资源的特征向量中第j个维度属性的相似度。
Sij通过分段函数进行计算,如(3)式所示:
其中,disij为第i个标识资源的特征向量在第j个维度下的相似度,计算方式如下:
假设访问条件的特征向量W=(w1,w2,…,wj)
标识资源的特征向量Wi=(di1,di2,…,dij)
运用经典的欧几里德距离来计算访问结果在访问条件下的相似度。计算公式如(4)式所示:
而γ表示为一个非负的阈值。如果第i个访问结果中第j个维度下的相似度disij小于阀值,则在相似度矩阵中对应的特征值相似度为0,认为该资源维度特征不满足访问条件的维度特征。计算得到标识资源的特征向量对于访问条件的相似度矩阵后,还要进一步考虑标识资源中各维度的权值影响,因此,将标识各资源维度的权值与相似度矩阵S相乘,得到标识资源的特征向量相对于访问条件特征向量的相似度,相似度计算如公式(5)所示:
其中,S'为经过计算后标识资源的特征向量在访问条件下得出的相似度值的特征向量,V是属性权值表中描述所有维度属性的权值向量,vij表示第i个标识资源的特征向量第j个维度的权值。
最后,在S'中,根据相似度结果的大小,将其对应标识资源的标识地址取出形成结果集返回给用户。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (2)

1.一种基于URL的非结构化数据资源标识和定位方法,其特征在于:该方法包括:
S1:建立非结构化数据模型,该非结构化数据模型包含一个数据对象及三个属性类,所述三个属性类分别为:基本属性类、内容属性类和特征属性类;
S2:基于非结构化数据模型的URL资源标识方法,标识是数据模型转换后得到的URL,将非结构化数据抽象为一个统一的URL资源,以支持用户对非结构化数据的访问,尤其是对于非结构化数据的复杂检索和应用;URL标识资源模型结构分域抽象描述为R1,R2,R3,R4域,R1域,即现有的统一资源定位符(Uniform Resource Locator),是从互联网上得到资源的位置和访问方法,是互联网上的标准资源地址;R2域,是非结构化数据的特征属性标识,即文件的所属类型;R3域,是数据内容属性标识;R4域是基本特征标识;
S3:非结构化数据定位方法:首先获取访问条件,根据查询条件的特点,将查询条件分解为一系列区间属性的集合,得到进行计算的访问条件特征向量为W;不同的区间对访问条件的重要程度不同,因此依据不同的属性给予不同的权重,形成权重向量V;与访问条件空间向量类似,将数据资源标识中的各个属性维度分解建立相应的标识资源的特征向量Wi;与W中对应的属性维度进行相似性对比,由此得出相似度矩阵S,并通过权重向量V得到数据资源相似度结果;根据相似度结果大小顺序返回访问数据资源地址。
2.根据权利要求1所述的一种基于URL的非结构化数据资源标识和定位方法,其特征在于:在S2中,非结构化数据资源标识的生成可以设计一个标识生成器来完成,该标识生成器可以作为一个资源服务器工具,根据所提供资源的标识模型描述,按照既定的URL标识规则给出数据对象的资源标识,数据标识生成步骤如下:
1)读取资源描述,获取特征属性;
2)标识生成器依据特征属性中的资源类型,选择相应的内容属性提取方法;对于文档类资源,采用相关工具来提取文档中关键词、并进行分析词频和语义相似度等分析,从而获得关键词和标签;对于视频音频等资源,采用语音识别和字幕内容提取工具来获取一些内容属性;对于图片类资源,采用现有的图像模糊识别工具来获取;
3)获取资源基本属性;
4)生成URL数据资源标识,并返回给标识服务器。
CN201610866321.9A 2016-09-29 2016-09-29 一种基于url的非结构化数据资源标识和定位方法 Active CN106407445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610866321.9A CN106407445B (zh) 2016-09-29 2016-09-29 一种基于url的非结构化数据资源标识和定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610866321.9A CN106407445B (zh) 2016-09-29 2016-09-29 一种基于url的非结构化数据资源标识和定位方法

Publications (2)

Publication Number Publication Date
CN106407445A CN106407445A (zh) 2017-02-15
CN106407445B true CN106407445B (zh) 2019-06-07

Family

ID=59228591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610866321.9A Active CN106407445B (zh) 2016-09-29 2016-09-29 一种基于url的非结构化数据资源标识和定位方法

Country Status (1)

Country Link
CN (1) CN106407445B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228542A (zh) * 2017-12-14 2018-06-29 浪潮软件股份有限公司 一种非结构化文本的处理方法及装置
CN109189818B (zh) * 2018-07-05 2022-06-14 四川省烟草公司成都市公司 一种增值服务环境下的烟草数据粒度划分的方法
CN109657050A (zh) * 2018-12-20 2019-04-19 湖南晖龙集团股份有限公司 一种热度敏感的非结构化数据检索排名优化算法
CN109726178B (zh) * 2018-12-25 2021-03-30 中国南方电网有限责任公司 非结构化文件的交互应用方法、装置、计算机设备和存储介质
CN111611418A (zh) * 2019-02-25 2020-09-01 阿里巴巴集团控股有限公司 数据存储方法及数据查询方法
CN112714033B (zh) * 2019-10-25 2022-07-01 中国移动通信集团河北有限公司 视频集的特征信息确定方法及装置
CN110825987B (zh) * 2019-11-07 2023-06-23 北京博睿宏远数据科技股份有限公司 一种流媒体资源地址获取方法、装置、设备和存储介质
CN111445206A (zh) * 2020-03-26 2020-07-24 深圳壹账通智能科技有限公司 工作流控制方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8051080B2 (en) * 2008-04-16 2011-11-01 Yahoo! Inc. Contextual ranking of keywords using click data
US20110307504A1 (en) * 2010-06-09 2011-12-15 Microsoft Corporation Combining attribute refinements and textual queries
CN103310025A (zh) * 2013-07-08 2013-09-18 北京邮电大学 非结构化数据的描述方法及装置
CN103778206A (zh) * 2014-01-14 2014-05-07 河南科技大学 一种网络服务资源的提供方法

Also Published As

Publication number Publication date
CN106407445A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106407445B (zh) 一种基于url的非结构化数据资源标识和定位方法
CN104239513B (zh) 一种面向领域数据的语义检索方法
KR101017016B1 (ko) 이미지 매칭에 기초한 상품 정보 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US11106719B2 (en) Heuristic dimension reduction in metadata modeling
Ferreira et al. Thesaurus-based 3D object retrieval with part-in-whole matching
US20140006369A1 (en) Processing structured and unstructured data
WO2021196541A1 (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
Lubis et al. A framework of utilizing big data of social media to find out the habits of users using keyword
Sarwar et al. Ontology based image retrieval framework using qualitative semantic image descriptions
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN111581479A (zh) 一站式数据处理的方法、装置、存储介质及电子设备
Nesi et al. Ge (o) Lo (cator): Geographic information extraction from unstructured text data and Web documents
Martinet et al. A relational vector space model using an advanced weighting scheme for image retrieval
CN110569367A (zh) 一种基于知识图谱的空间关键字查询方法、装置及设备
Sun et al. Leverage label and word embedding for semantic sparse web service discovery
Li et al. A probabilistic topic-based ranking framework for location-sensitive domain information retrieval
Liaqat et al. Applying uncertain frequent pattern mining to improve ranking of retrieved images
Zeng et al. CATIRI: An efficient method for content-and-text based image retrieval
US9256672B2 (en) Relevance content searching for knowledge bases
Doulaverakis et al. Ontology-based access to multimedia cultural heritage collections-The REACH project
Pu et al. A vision-based approach for deep web form extraction
Rana et al. Analysis of web mining technology and their impact on semantic web
Khattak et al. Context-aware search in dynamic repositories of digital documents
Hung et al. OGIR: an ontology‐based grid information retrieval framework
Wu et al. Understanding multimedia document semantics for cross-media retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant