CN103984700B - 一种用于科技信息垂直搜索的异构数据分析方法 - Google Patents

一种用于科技信息垂直搜索的异构数据分析方法 Download PDF

Info

Publication number
CN103984700B
CN103984700B CN201410150100.2A CN201410150100A CN103984700B CN 103984700 B CN103984700 B CN 103984700B CN 201410150100 A CN201410150100 A CN 201410150100A CN 103984700 B CN103984700 B CN 103984700B
Authority
CN
China
Prior art keywords
data
keyword
cluster
collection
vertical search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410150100.2A
Other languages
English (en)
Other versions
CN103984700A (zh
Inventor
曾尔曼
洪文兴
朱顺痣
林清怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AMOY INSTITUTE OF TECHNOVATION
Original Assignee
AMOY INSTITUTE OF TECHNOVATION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AMOY INSTITUTE OF TECHNOVATION filed Critical AMOY INSTITUTE OF TECHNOVATION
Priority to CN201410150100.2A priority Critical patent/CN103984700B/zh
Publication of CN103984700A publication Critical patent/CN103984700A/zh
Application granted granted Critical
Publication of CN103984700B publication Critical patent/CN103984700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:预先建立聚类特征集N;获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;以关键词作为基础特征,采用k‑means算法进行聚类,得到聚类集C;根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;对结构化数据集Q进行分析、优化,得到结构化数据Q2;根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W。本发明提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。

Description

一种用于科技信息垂直搜索的异构数据分析方法
技术领域
本发明涉及信息检索技术领域,具体的说是一种用于科技信息垂直搜索的异构数据分析方法。
背景技术
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
对于现有的垂直搜索引擎而言,其呈现给用户的搜索结果,一般是按文档与查询关键词的相关程度、时间、引用次数等单一条件进行排序,而没有充分考虑到文档自身的内容,搜索结果准确的不高,用户需要在搜索结果中进一步查找和选取与自己要搜索的内容实际相关或有用的文档,有时用户需要重复进行多次检索,才能获得期望看到的信息。
另外,随着互联网的迅猛发展,互联网上的信息越来越多,返回给用户的搜索结果通常是成百上千个文档,文档质量、真实性参差不齐的文档罗列在一起,很容易掩盖对用户有用的文档。
发明内容
本发明的目的在于提供一种用于科技信息垂直搜索的异构数据分析方法,其提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
为实现上述目的,本发明采用以下技术方案:
一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:
S1、预先建立聚类特征集N,所述聚类特征集N包括一组命名实体以及与每个命名实体对应的特征信息知识库;
S2、获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;
S3、以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C;
S4、根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;
S5、根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q;
S6、对结构化数据集Q进行分析、优化,得到结构化数据Q2;
S7、根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W,权重集W用于垂直搜索结果的排序。
进一步地,所述步骤S4具体通过以下方法实现:对于聚类集C中的单个聚类,在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果,以该匹配结果对应的命名实体作为归类类型,将原始数据集A中与该个聚类对应的数据划分到该归类类型下,遍历聚类集C中的所有聚类,从而实现对原始数据集A的所有数据进行归类。
进一步地,所述步骤S5具体通过以下方法实现:对于关键词数据集B中的单个关键词,在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集B中的所有关键词,得到结构化数据集Q。
进一步地,所述步骤S6包括以下分步骤:
S61、预先设定相似度阈值;
S62、采用相似度算法分析结构化数据集Q,计算数据相似度值;
S63、对结构化数据集Q进行数据筛选,剔除相似度值小于相似度阈值的数据,得到结构化数据集Q1;
S64、对结构化数据集Q1中的相似数据合并去重,得到结构化数据集Q2。
优选地,所述相似度算法为欧式距离相似度算法或余弦相似度算法。
优选地,所述命名实体具体为人名、地域、工作单位、职称、研究方向等。
优选地,步骤S2中所述中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:本发明通过引入聚类特征的参数,将原始数据集A的异构数据进行结构化处理,实现了对原始数据源A的数据归类和权重标记,从而提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
附图说明
图1为本发明的工作流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1,本发明公开了一种用于科技信息垂直搜索的异构数据分析方法,包括以下步骤:
S1、预先建立聚类特征集N,所述聚类特征集N包括一组命名实体以及与每个命名实体对应的特征信息知识库,该组命名实体具体包括人名、地域、工作单位、职称和研究方向,特征信息知识库收录了与命名实体对应的信息。为了便于理解,举例加以说明,以其中的一个命名实体“工作单位”为例,特征信息知识库收录了“厦门大学、中国科学院、......”等信息;以另外一个命名实体“职称”为例,特征信息知识库收录了“高级工程师、教授、副教授、......”等信息。
S2、获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B。需要说明的是,这里提到的“原始数据集A”指的是垂直搜索引擎系统的网页库中的数据,其存在形式为汉字序列。举例加以说明,原始数据集A中的一条数据为“张三现为厦门大学信息科学与技术学院副教授,主要研究兴趣是数据挖掘、互联网运用与移动商务”,中文分词后得到的关键词数据集B中则包含了“张三/厦门大学/信息科学与技术学院/副教授/数据挖掘/互联网运用/移动商务”的分词结果。
在本实施中,中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。本发明也可采用其他方式进行中文分词,只要能够实现将汉字序列切分成符合要求的单独的词即可,在此不做具体限定。
S3、以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C。由于原始数据集A通常包含了众多数据信息,得到的关键词数据集B也就包含了相应数量的分词结果,如果其中的多个分词结果包含有相同的关键词,则将其作为一个聚类,如有50个分词结果均包含了关键词“厦门大学”,则将其作为一个聚类。采用k-means算法对关键词数据集B进行聚类,就得到了聚类集C。
S4、根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类。该步骤的具体实现过程如下:
对于聚类集C中的单个聚类,在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果,以该匹配结果对应的命名实体作为归类类型,将原始数据集A中与该个聚类对应的数据划分到该归类类型下,遍历聚类集C中的所有聚类,从而实现对原始数据集A的所有数据进行归类。
举例说明,聚类集C中的某个聚类是以“厦门大学”作为基础特征的,则“厦门大学”就是该个聚类的特征关键词,在特征信息知识库搜索与“厦门大学”匹配的词,“厦门大学”在特征信息知识库中对应的命名实体是“工作单位”,以“工作单位”作为归类类型,将将原始数据集A中与该个聚类对应的数据划分到“工作单位”的类型下,对聚类集C中的每个聚类重复上述过程,就可以完成原始数据集A的所有数据归类。
S5、根据聚类特征集N与关键词数据集B的相关性,提取相应的结构化数据集Q。该步骤的具体实现过程如下:
对于关键词数据集B中的单个关键词,在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集B中的所有关键词,得到结构化数据集Q。
举例说明,键词数据集B中的某个关键词为“副教授”,在特征信息知识库搜索与“副教授”匹配的词,“副教授”在特征信息知识库中对应的命名实体是“职称”,则将“职称”作为属性索引项添加到结构化数据表,将“副教授”作为属性值添加到结构化数据表,对键词数据集B中的每个关键词重复上述过程,就得到了结构化数据集Q。
S6、对结构化数据集Q进行分析、优化,得到结构化数据Q2。该步骤具体通过以下分步骤实现:
S61、预先设定相似度阈值,对于单个数据而言,若其相似度值大于相似度阈值,则为相似数据,若其相似度值小于于相似度阈值,则为离散数据。
S62、采用相似度算法分析结构化数据集Q,计算数据相似度值。相似度算法可以采用欧式距离、余弦等可用于计算数据相似度值的算法,在本实施例中采用余弦相似度算法来计算数据相似度值。
S63、对结构化数据集Q进行数据筛选,剔除相似度值小于相似度阈值的数据,即剔除离散数据,得到结构化数据集Q1。
S64、对结构化数据集Q1中的相似数据合并去重,得到结构化数据集Q2。
通过对结构化数据集Q进行离散数据剔除及相似数据合并去重的处理,这样得到的结构化数据集Q2的准确性和真实性大大提高,可在后续步骤中作为基准去衡量原始数据的质量。
S7、根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W,权重集W用于垂直搜索结果的排序,这样可以将权重值较高的搜索结果优先展示给用户。
通过以上描述可以看出,本发明预先引入聚类特征集N,然后对原始数据集A进行中文分词,得到关键词数据集B,通过对关键词数据集B进行聚类得到聚类集C,进行实现了对原始数据集A的归类和关键词数据集B的权重标记,从而提高了垂直搜索的准确度,使得用户更容易获取符合实际需求的信息。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种用于科技信息垂直搜索的异构数据分析方法,其特征在于,包括以下步骤:
S1、预先建立聚类特征集N,所述聚类特征集N包括一组命名实体以及与每个命名实体对应的特征信息知识库;
S2、获得原始数据集A,对原始数据集A进行中文分词并提取关键词,得到关键词数据集B;
S3、以关键词作为基础特征,采用k-means算法进行聚类,得到聚类集C;
S4、根据聚类集C与聚类特征集N的主题相关性,对原始数据集A进行数据源归类;
S5、根据聚类特征集N与关键词数据集B的相关性,对于关键词数据集B中的单个关键词,在特征信息知识库搜索与该关键词对应的匹配结果,将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表,将该关键词作为属性值添加到结构化数据表,遍历关键词数据集B中的所有关键词,得到结构化数据集Q;
S6、对结构化数据集Q进行分析、优化,得到结构化数据Q2;
S7、根据关键词数据集B与结构化数据集Q2的比对结果,进行关键词权重标记,获得权重集W,权重集W用于垂直搜索结果的排序。
2.如权利要求1所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于,所述步骤S4具体通过以下方法实现:对于聚类集C中的单个聚类,在特征信息知识库搜索与该个聚类的特征关键词对应的匹配结果,以该匹配结果对应的命名实体作为归类类型,将原始数据集A中与该个聚类对应的数据划分到该归类类型下,遍历聚类集C中的所有聚类,从而实现对原始数据集A的所有数据进行归类。
3.如权利要求1-2任一项所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于,所述步骤S6包括以下分步骤:
S61、预先设定相似度阈值;
S62、采用相似度算法分析结构化数据集Q,计算数据相似度值;
S63、对结构化数据集Q进行数据筛选,剔除相似度值小于相似度阈值的数据,得到结构化数据集Q1;
S64、对结构化数据集Q1中的相似数据合并去重,得到结构化数据集Q2。
4.如权利要求3所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于:所述相似度算法为欧式距离相似度算法或余弦相似度算法。
5.如权利要求4所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于:所述命名实体具体为人名、地域、工作单位、职称及研究方向。
6.如权利要求4所述的一种用于科技信息垂直搜索的异构数据分析方法,其特征在于:步骤S2中所述中文分词采用字符串匹配、上下文理解及词频统计相结合的方法。
CN201410150100.2A 2014-04-15 2014-04-15 一种用于科技信息垂直搜索的异构数据分析方法 Active CN103984700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410150100.2A CN103984700B (zh) 2014-04-15 2014-04-15 一种用于科技信息垂直搜索的异构数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410150100.2A CN103984700B (zh) 2014-04-15 2014-04-15 一种用于科技信息垂直搜索的异构数据分析方法

Publications (2)

Publication Number Publication Date
CN103984700A CN103984700A (zh) 2014-08-13
CN103984700B true CN103984700B (zh) 2017-09-26

Family

ID=51276673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410150100.2A Active CN103984700B (zh) 2014-04-15 2014-04-15 一种用于科技信息垂直搜索的异构数据分析方法

Country Status (1)

Country Link
CN (1) CN103984700B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636454B (zh) * 2015-02-02 2018-04-17 哈尔滨工程大学 一种面向大规模异构数据的联合聚类方法
CN106844640B (zh) * 2017-01-22 2020-02-21 漳州科技职业学院 一种网页数据分析处理方法
CN110347820A (zh) * 2019-05-22 2019-10-18 贵州电网有限责任公司 一种电网文本信息匹配的方法、系统和存储介质
CN111460046A (zh) * 2020-03-06 2020-07-28 合肥海策科技信息服务有限公司 一种基于大数据的科技信息聚类方法
CN113742450B (zh) * 2021-08-30 2023-05-30 中信百信银行股份有限公司 用户数据等级落标的方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于本体的垂直搜索引擎系统模型;吴柏林 等;《计算机工程与科学》;20081231;第30卷(第10期);5-7,14 *
基于聚类算法的垂直搜索引擎技术研究;苗海 等;《北京信息科技大学学报》;20130228;第28卷(第1期);38-41 *

Also Published As

Publication number Publication date
CN103984700A (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
CN107729336B (zh) 数据处理方法、设备及系统
Dang et al. Text mining: Techniques and its application
CN103984700B (zh) 一种用于科技信息垂直搜索的异构数据分析方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN106033416A (zh) 一种字符串处理方法及装置
WO2017097231A1 (zh) 话题处理方法及装置
CN102081655B (zh) 基于贝叶斯分类算法的信息检索方法
CN104598586B (zh) 大规模文本分类的方法
GB2439843A (en) Relevance ranked faceted metadata search method
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN105593851A (zh) 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置
US10387805B2 (en) System and method for ranking news feeds
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN106156357A (zh) 文本数据定向搜索方法
CN105373546B (zh) 一种用于知识服务的信息处理方法及系统
CN106294358A (zh) 一种信息的检索方法及系统
CN107870935A (zh) 一种搜索方法及装置
Guerrini et al. Lightweight metagenomic classification via eBWT
McConville et al. Vertex clustering of augmented graph streams
CN106970922A (zh) 基于多字段关键词的索引建立方法、检索方法及索引系统
Tian A mathematical indexing method based on the hierarchical features of operators in formulae
Siddique et al. Distributed skyline computation of vertically splitted databases by using mapreduce
Ahmed et al. Clustering technique on search engine dataset using data mining tool
Yu et al. An approach for progressive set similarity join with GPU accelerating
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant