CN102012936A - 基于云计算平台的海量数据聚合方法和系统 - Google Patents

基于云计算平台的海量数据聚合方法和系统 Download PDF

Info

Publication number
CN102012936A
CN102012936A CN2010105775268A CN201010577526A CN102012936A CN 102012936 A CN102012936 A CN 102012936A CN 2010105775268 A CN2010105775268 A CN 2010105775268A CN 201010577526 A CN201010577526 A CN 201010577526A CN 102012936 A CN102012936 A CN 102012936A
Authority
CN
China
Prior art keywords
network application
keyword
data
ontology library
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105775268A
Other languages
English (en)
Other versions
CN102012936B (zh
Inventor
顾茜
赵鹏
杨明川
广小明
谭国权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201010577526.8A priority Critical patent/CN102012936B/zh
Publication of CN102012936A publication Critical patent/CN102012936A/zh
Application granted granted Critical
Publication of CN102012936B publication Critical patent/CN102012936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于云计算平台的海量数据聚合方法和系统,该方法包括:从网络应用的数据中提取所述网络应用的关键词;计算网络应用的关键词与本体库中的本体的语义相似度,确定网络应用在本体库的相似本体;通过RDF描述标记与本体库中的本体相似的网络应用的数据;将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。本发明提供的对目前SAAS应用,互联网应用等网络应用海量数据进行聚合的方法,采用语义信息,对抽取的数据进行聚类分析,数据处理更加准确可靠。

Description

基于云计算平台的海量数据聚合方法和系统
技术领域
本发明涉及数据处理技术,尤其涉及一种基于云计算平台的海量数据聚合方法和系统。
背景技术
SaaS(Software-as-a-service,软件即服务)应用和互联网应用等网络应用积累大量托管异构数据,对这些信息的挖掘利用将成为新的应用增长点。如何将网络应用的海量数据聚类梳理,是数据挖掘前一项必备的工作。
目前对于数据的聚合分类更多的是侧重于关键字的比对,方法比较简单,对于网络应用的数据分类无法满足实际应用的需要。
发明内容
本发明要解决的一个技术问题是提供一种数据聚合方法,实现数据的高效聚类。
本发明提供一种基于云计算平台的海量数据聚合方法,包括:
从网络应用的数据中提取网络应用的关键词;
计算网络应用的关键词与本体库中的本体的语义相似度,确定网络应用在本体库的相似本体;
通过RDF描述标记与本体库中的本体相似的网络应用的数据;
将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。
根据本发明的海量数据聚合方法的一个实施例,从网络应用的数据中提取应用关键词包括:
梳理网络应用数据库中关键词信息;
统计关键字的频率,确定网络应用的高频关键词;
根据关键词的频度确定网络应用的关键词。
根据本发明的海量数据聚合方法的一个实施例,计算网络应用的关键词与本体库中的各个本体的语义相似度包括:
通过如下公式计算网络应用的关键词与本体库中各个本体的语义相似度:
Sim ( p 1 , p 2 ) = α d + α
其中,p1和p2表示网络应用的关键词和本体的义原,d表示p1和p2在义原层次体系中的路径长度,α是一个可调节的参数。
根据本发明的海量数据聚合方法的一个实施例,还包括:
根据现有知识建立本体库。
根据本发明的海量数据聚合方法的一个实施例,该方法还包括:
接收用户通过查询系统输入的查询关键字;通过语义计算查询与查询关键字语义相似的本体;将相似的本体之下存储的应用信息库提供用户。
本发明提供的海量数据聚合方法,提取网络应用的关键词,将网络应用的关键词与本体库的本体进行语义相似度比较,从而确定相似本体并存储在对应存储模块中,实现了基于语义的数据聚类方法,实现了网络应用数据的高效聚类。
本发明要解决的另一个技术问题是提供一种数据聚合系统,能够实现数据的高效聚类。
本发明提供一种基于云计算平台的海量数据聚合系统,包括:
关键词提取模块,用于从网络应用的数据中提取网络应用的关键词;
相似本体确定模块,用于计算网络应用的关键词与本体库中的本体的语义相似度,确定网络应用在本体库的相似本体;
描述生成模块,用于通过RDF描述标记与本体库中的本体相似的网络应用的数据;
数据存储模块,用于将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。
根据本发明的海量数据聚合系统的一个实施例,关键词提取模块包括:
关键词梳理单元,用于梳理网络应用数据库中关键词信息;
关键词统计单元,用于统计关键字的频率,确定网络应用的高频关键词;
关键词确定单元,用于根据关键词的频度确定网络应用的关键词。
根据本发明的海量数据聚合系统的一个实施例,相似本体确定模块通过如下公式计算网络应用的关键词与本体库中各个本体的语义相似度:
Sim ( p 1 , p 2 ) = α d + α
其中,p1和p2表示网络应用的关键词和本体的义原,d表示p1和p2在义原层次体系中的路径长度,α是一个可调节的参数。
根据本发明的海量数据聚合系统的一个实施例,还包括:本体库建立模块,用于根据现有知识建立本体库。
根据本发明的海量数据聚合系统的一个实施例,还包括:关键词查询模块,用于接收用户通过查询系统输入的查询关键字;通过语义计算查询与查询关键字语义相似的本体;将相似的本体之下存储的应用信息库提供用户。
本发明提供的海量数据聚合系统,通过关键词提取模块提取网络应用的关键词,相似本体确定模块将网络应用的关键词与本体库的本体进行语义相似度比较确定相似本体,并通过数据存储模块存储在对应存储模块中,实现了基于语义的数据聚类方法,实现了网络应用数据的高效聚类。
附图说明
图1示出本发明的基于云计算平台的海量数据聚合方法的一个实施例的流程图;
图2示出本发明的知识库的一个实施例的系统结构图;
图3示出本发明的应用库中关键语义信息的提取流程图;
图4示出本发明的知识库建立流程的一个实施例的流程图;
图5示出应用本发明的知识库进行查询的示例的流程图;
图6示出本发明基于云计算平台的海量数据聚合系统的一个实施例的结构图;
图7示出本发明基于云计算平台的海量数据聚合系统的另一个实施例的结构图;
图8示出本发明基于云计算平台的海量数据聚合系统的又一个实施例的结构图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
图1示出本发明的基于云计算平台的海量数据聚合方法的一个实施例的流程图。
如图1所示,在步骤102,从网络应用的数据中提取网络应用的关键词。基于网络应用,梳理应用数据库中关键字信息获得网络应用的关键词。
在步骤104,计算网络应用的关键词与本体库中的本体的语义相似度,确定网络应用在本体库的相似本体。可以通过语义距离计算获得语义相似度,语义距离计算在互联网有很多算法,如K均值等。
在步骤106,通过RDF(Resource Description Framework,资源描述框架)描述标记与本体库中的本体相似的网络应用的数据。RDF是用于描述Web上的资源的框架,RDF提供了针对数据的模型以及语法,这样独立团体就可以交换和使用它,RDF被设计为可被计算机阅读和理解,RDF被设计的目的不是为了向人们显示出来,RDF使用XML编写,RDF是W3C语义网络活动的组成部分,RDF是一个W3C推荐标准。
在步骤108,将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。将SAAS应用与互联网应用的提取关键词与本体比对进行语义距离计算,将相似度相近的SAAS应用与互联网应用分类存储在存储模块中。
上述实施例中,提取网络应用的关键词,将网络应用的关键词与本体库的本体进行语义相似度比较,从而确定相似本体并存储在对应存储模块中,实现了基于语义的数据聚类方法,实现了网络应用数据的高效聚类。
下面介绍一种语义距离计算的例子。
“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原(primitive)”。“义原”是用于描述一个“概念”的最小意义单位。
语义相似度:使用词语语义表达式中的第一独立义原,把词语相似度等价于词语的第一独立义原的相似度。
所有的义原根据上下位关系构成了一个树状的义原层次体系,可以采用通过语义距离计算相似度。假设两个义原在这个层次体系中的路径距离为d,根据公式(1),可以得到这两个义原之间的语义距离:
Sim ( p 1 , p 2 ) = α d + α - - - ( 1 )
其中p1和p2表示两个义原,d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数。α的含义是:当相似度为0.5时的词语距离值。
通过计算当语义距离小于0.5时,认为两词的语义是相关的。
上述例子中通过义原的路径距离计算词语的语义距离,计算高效方便。
图2示出本发明的知识库的一个实施例的系统结构图。如图2所示,该知识库包括本体库,本体库下包括多个本体(本体一、本体二、...、本体N等),本体下对应包括RDF描述库,RDF描述库下包括存储网络应用(例如,SAAS应用、互联网应用)的云存储模块。需要指出,虽然在图2中一个本体下示出一个RDF描述库,一个本体下也可以包括多个RDF描述库。
图3示出本发明的应用库中关键语义信息的提取流程图。
如图3所示,在步骤302,梳理网络应用数据库中关键词信息。
在步骤304,统计关键字的频率,确定网络应用的高频关键词。
在步骤306,根据关键词的频度确定网络应用的关键词。例如,选择第一、第二关键词。
上述实施例中,根据关键词的频度确定网络应用的关键词,关键词的确定更加准确可靠。
图4示出本发明的知识库建立流程的一个实施例的流程图。
如图4所示,在步骤402,根据现有的知识建立基本本体库,即基于现有知识建立基本概念库。
在步骤404,通过提取SAAS应用、互联网应用上广泛的数据源,对数据进行简单分类预处理,例如,通过应用关键词简单分类等;通过对领域知识库中的本体提取,计算网络应用数据与各个本体的相似性;
在步骤406,对于与本体相似的网络应用数据资源,用RDF描述。RDF描述此处主要用于标记网络资源。
在步骤408,将与本体相关的网络资源存储平台的各个存储节点。
图5示出应用本发明的知识库进行查询的示例的流程图。
如图5所示,在步骤502,接收用户通过查询系统输入的查询关键字。
在步骤504,该系统通过语义计算查询与关键字语义相似的本体。
在步骤506,将该本体之下存储的应用信息库提供用户。
上述实施例中,基于语义查询应用信息,信息提供更加准确可靠。
图6示出本发明的的基于云计算平台的海量数据聚合系统的一个实施例的结构图。如图6所示,该系统包括关键词提取模块61、相似本体确定模块62、描述生成模块63和数据存储模块64。关键词提取模块61从网络应用的数据中提取网络应用的关键词,将网络应用的关键词发送给相似本体确定模块62;相似本体确定模块62接收网络应用的关键词,计算网络应用的关键词与本体库中的各个本体的语义相似度,确定网络应用在本体库中的相似本体;描述生成模块63通过RDF描述标记与本体库中的本体相似的网络应用的数据;数据存储模块64将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。
上述实施例中,通过关键词提取模块提取网络应用的关键词,相似本体确定模块将网络应用的关键词与本体库的本体进行语义相似度比较确定相似本体,并通过数据存储模块存储在对应存储模块中,实现了基于语义的数据聚类方法,实现了网络应用数据的高效聚类。
根据本发明的一个实施例,相似本体确定模块通过如下公式计算网络应用的关键词与本体库中各个本体的语义相似度:
Sim ( p 1 , p 2 ) = α d + α
其中,p1和p2表示所述网络应用的关键词和所述本体的义原,d表示p1和p2在义原层次体系中的路径长度,α是一个可调节的参数。
图7示出本发明的基于云计算平台的海量数据聚合系统的另一个实施例的结构图。如图7所示,该系统包括关键词提取模块71、相似本体确定模块62、描述生成模块63和数据存储模块64。其中,相似本体确定模块62、描述生成模块63和数据存储模块64的功能可以参见图6中对应模块的描述,为简洁起见在此不再详细描述。关键词提取模块71包括:关键词梳理单元711,用于梳理网络应用数据库中关键词信息;关键词统计单元712用于统计关键字的频率,确定网络应用的高频关键词;关键词确定单元713用于根据关键词的频度确定网络应用的关键词。
图8示出本发明的基于云计算平台的海量数据聚合系统的又一个实施例的结构图。如图8所示,该系统包括本体库建立模块85、关键词提取模块61、相似本体确定模块62、描述生成模块63和数据存储模块64。其中,本体库建立模块85用于根据现有知识建立本体库。该系统还可选地包括关键词查询模块86,用于接收用户通过查询系统输入的查询关键字;通过语义计算查询与查询关键字语义相似的本体;将相似的本体之下存储的应用信息库提供用户。
在本发明的一个应用例中,针对一个网络版ERP应用,梳理其关键字是商品订购、商品管理。针对本体库中的基本本体计算网络版ERP应用与其的语义距离,根据语义归类将网络版ERP应用存储于订购与管理本体之下。
本发明提供的对目前SAAS应用,互联网应用等网络应用海量数据进行聚合的方法,采用语义信息,对抽取的数据进行聚类分析,数据处理更加准确可靠。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种基于云计算平台的海量数据聚合方法,其特征在于,包括:
从网络应用的数据中提取所述网络应用的关键词;
计算所述网络应用的关键词与所述本体库中的本体的语义相似度,确定所述网络应用在所述本体库的相似本体;
通过RDF描述标记与所述本体库中的本体相似的网络应用的数据;
将所述网络应用的数据存储于所述本体库的相似本体下的网络资源存储节点。
2.根据权利要求1所述的海量数据聚合方法,其特征在于,所述从网络应用的数据中提取应用关键词包括:
梳理所述网络应用数据库中关键词信息;
统计所述关键字的频率,确定所述网络应用的高频关键词;
根据所述关键词的频度确定所述网络应用的关键词。
3.根据权利要求1所述的海量数据聚合方法,其特征在于,计算所述网络应用的关键词与所述本体库中的各个本体的语义相似度包括:
通过如下公式计算所述网络应用的关键词与所述本体库中各个本体的语义相似度:
Sim ( p 1 , p 2 ) = α d + α
其中,p1和p2表示所述网络应用的关键词和所述本体的义原,d表示p1和p2在义原层次体系中的路径长度,α是一个可调节的参数。
4.根据权利要求1所述的海量数据聚合方法,其特征在于,还包括:
根据现有知识建立本体库。
5.根据权利要求1所述的海量数据聚合方法,其特征在于,还包括:
接收用户通过查询系统输入的查询关键字;
通过语义计算查询与所述查询关键字语义相似的本体;
将所述相似的本体之下存储的应用信息库提供用户。
6.一种基于云计算平台的海量数据聚合系统,其特征在于,包括:
关键词提取模块,用于从网络应用的数据中提取所述网络应用的关键词;
相似本体确定模块,用于计算所述网络应用的关键词与所述本体库中的本体的语义相似度,确定所述网络应用在所述本体库的相似本体;
描述生成模块,用于通过RDF描述标记与所述本体库中的本体相似的网络应用的数据;
数据存储模块,用于将所述网络应用的数据存储于所述本体库的相似本体下的网络资源存储节点。
7.根据权利要求6所述的海量数据聚合系统,其特征在于,所述关键词提取模块包括:
关键词梳理单元,用于梳理所述网络应用数据库中关键词信息;
关键词统计单元,用于统计所述关键字的频率,确定所述网络应用的高频关键词;
关键词确定单元,用于根据所述关键词的频度确定所述网络应用的关键词。
8.根据权利要求6所述的海量数据聚合系统,其特征在于,所述相似本体确定模块通过如下公式计算所述网络应用的关键词与所述本体库中各个本体的语义相似度:
Sim ( p 1 , p 2 ) = α d + α
其中,p1和p2表示所述网络应用的关键词和所述本体的义原,d表示p1和p2在义原层次体系中的路径长度,α是一个可调节的参数。
9.根据权利要求6所述的海量数据聚合系统,其特征在于,还包括:
本体库建立模块,用于根据现有知识建立本体库。
10.根据权利要求6所述的海量数据聚合系统,其特征在于,还包括:
关键词查询模块,用于接收用户通过查询系统输入的查询关键字;通过语义计算查询与所述查询关键字语义相似的本体;将所述相似的本体之下存储的应用信息库提供用户。
CN201010577526.8A 2010-12-07 2010-12-07 基于云计算平台的海量数据聚合方法和系统 Active CN102012936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010577526.8A CN102012936B (zh) 2010-12-07 2010-12-07 基于云计算平台的海量数据聚合方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010577526.8A CN102012936B (zh) 2010-12-07 2010-12-07 基于云计算平台的海量数据聚合方法和系统

Publications (2)

Publication Number Publication Date
CN102012936A true CN102012936A (zh) 2011-04-13
CN102012936B CN102012936B (zh) 2013-04-17

Family

ID=43843109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010577526.8A Active CN102012936B (zh) 2010-12-07 2010-12-07 基于云计算平台的海量数据聚合方法和系统

Country Status (1)

Country Link
CN (1) CN102012936B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542154A (zh) * 2011-12-02 2012-07-04 麦克奥迪实业集团有限公司 一种基于云存储的病理数字切片的质量控制方法
CN102811234A (zh) * 2011-06-01 2012-12-05 腾讯科技(深圳)有限公司 保存应用的方法及装置
CN103218371A (zh) * 2012-01-20 2013-07-24 华为终端有限公司 信息聚合方法及装置
CN103279505A (zh) * 2013-05-10 2013-09-04 中国南方电网有限责任公司超高压输电公司 一种基于语义的海量数据处理方法
CN104115165A (zh) * 2012-02-15 2014-10-22 阿尔卡特朗讯 使用机器学习来用于映射媒体组件的方法
CN104142953A (zh) * 2013-05-10 2014-11-12 中国电信股份有限公司 元数据动态管理方法及系统
CN105320674A (zh) * 2014-07-03 2016-02-10 腾讯科技(深圳)有限公司 一种领域本体库的建立方法、装置及服务器
CN108268523A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 数据库聚合处理方法及装置
CN108984761A (zh) * 2018-07-19 2018-12-11 南昌工程学院 一种基于模型和领域知识驱动的信息处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101482875A (zh) * 2008-12-24 2009-07-15 中国移动通信集团北京有限公司 信息查询方法及其装置
CN101901247A (zh) * 2010-03-29 2010-12-01 北京师范大学 一种领域本体约束的垂直搜索引擎方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101482875A (zh) * 2008-12-24 2009-07-15 中国移动通信集团北京有限公司 信息查询方法及其装置
CN101901247A (zh) * 2010-03-29 2010-12-01 北京师范大学 一种领域本体约束的垂直搜索引擎方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
葛斌等: "基于知网的词汇语义相似度计算方法研究", 《计算机应用研究》, vol. 27, no. 9, 30 September 2010 (2010-09-30), pages 3329 - 3333 *
许云等: "基于知网的语义相关度计算", 《北京理工大学学报》, vol. 25, no. 5, 31 May 2005 (2005-05-31), pages 411 - 414 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102811234A (zh) * 2011-06-01 2012-12-05 腾讯科技(深圳)有限公司 保存应用的方法及装置
CN102811234B (zh) * 2011-06-01 2015-09-09 腾讯科技(深圳)有限公司 保存应用的方法及装置
CN102542154A (zh) * 2011-12-02 2012-07-04 麦克奥迪实业集团有限公司 一种基于云存储的病理数字切片的质量控制方法
CN103218371A (zh) * 2012-01-20 2013-07-24 华为终端有限公司 信息聚合方法及装置
WO2013107297A1 (zh) * 2012-01-20 2013-07-25 华为终端有限公司 信息聚合方法及装置
CN103218371B (zh) * 2012-01-20 2017-04-26 华为终端有限公司 信息聚合方法及装置
CN104115165B (zh) * 2012-02-15 2016-10-05 阿尔卡特朗讯 使用机器学习来用于映射媒体组件的方法
CN104115165A (zh) * 2012-02-15 2014-10-22 阿尔卡特朗讯 使用机器学习来用于映射媒体组件的方法
US9684706B2 (en) 2012-02-15 2017-06-20 Alcatel Lucent Method for mapping media components employing machine learning
CN103279505A (zh) * 2013-05-10 2013-09-04 中国南方电网有限责任公司超高压输电公司 一种基于语义的海量数据处理方法
CN103279505B (zh) * 2013-05-10 2016-12-07 中国南方电网有限责任公司超高压输电公司 一种基于语义的海量数据处理方法
CN104142953A (zh) * 2013-05-10 2014-11-12 中国电信股份有限公司 元数据动态管理方法及系统
CN104142953B (zh) * 2013-05-10 2017-12-08 中国电信股份有限公司 元数据动态管理方法及系统
CN105320674A (zh) * 2014-07-03 2016-02-10 腾讯科技(深圳)有限公司 一种领域本体库的建立方法、装置及服务器
CN105320674B (zh) * 2014-07-03 2020-05-12 腾讯科技(深圳)有限公司 一种领域本体库的建立方法、装置及服务器
CN108268523A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 数据库聚合处理方法及装置
CN108984761A (zh) * 2018-07-19 2018-12-11 南昌工程学院 一种基于模型和领域知识驱动的信息处理系统
CN108984761B (zh) * 2018-07-19 2021-07-27 南昌工程学院 一种基于模型和领域知识驱动的信息处理系统

Also Published As

Publication number Publication date
CN102012936B (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
CN102012936B (zh) 基于云计算平台的海量数据聚合方法和系统
CN110209808B (zh) 一种基于文本信息的事件生成方法以及相关装置
WO2020147488A1 (zh) 异常群体识别方法及装置
CN104112026A (zh) 一种短信文本分类方法及系统
CN105335403B (zh) 数据库访问方法及装置、数据库系统
US20150154305A1 (en) Method of automated discovery of topics relatedness
US20140280070A1 (en) System and method for providing technology assisted data review with optimizing features
CN105550268A (zh) 大数据流程建模分析引擎
CN103440288A (zh) 一种大数据存储方法及装置
CN102043863B (zh) 一种Web服务聚类的方法
CN102207946B (zh) 一种知识网络的半自动生成方法
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
KR101965277B1 (ko) 하이퍼그래프 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN103400579A (zh) 一种语音识别系统和构建方法
CN110309377B (zh) 语义归一化、提问模式的生成、应答确定方法及装置
CN103699611A (zh) 一种基于动态摘要技术的微博流信息提取方法
CN104137095A (zh) 用于演进分析的系统
CN105183809A (zh) 一种云平台数据查询方法
Wang et al. Design and Application of a Text Clustering Algorithm Based on Parallelized K-Means Clustering.
CN109753596A (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
US20130151519A1 (en) Ranking Programs in a Marketplace System
Kastrati et al. An improved concept vector space model for ontology based classification
Khodaei et al. Temporal-textual retrieval: Time and keyword search in web documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant