一种基于用户协助的垂直搜索方法和系统
技术领域
本发明涉及网络信息搜索技术领域,尤其涉及一种基于用户协助的垂直搜索方法和系统。
背景技术
目前,常用的行业信息查询方案有两种,一种是使用通用搜索引擎查询,类似百度、谷歌,其缺点在于,信息量太大,用户要浪费很多时间去翻页查看和选择具体的内容;对于每一个搜索到的网页,用户都需要去访问后,再手动处理方式去获取信息;每次网页信息有更新,用户需要手工刷新页面重新去获取数据。另外一种类似于行业的企业头条app,其优点在于,可以根据用户定义的类别查询用户感兴趣的行业的新闻信息,其缺点在于,用户只能够定制到特定类别的信息,不能够再深入进行信息的定制和修改,获取的信息也限制在新闻资讯信息。
通用搜索引擎的性质决定了其不能满足特殊领域、特殊人群的精准化信息需求服务,而市场多元化决定了搜索引擎的服务模式必将出现细分。垂直搜索引擎作为搜索引擎的细分和延伸,又称为专题搜索引擎、专门搜索引擎,是指应用于搜索某一学科领域或某一类信息的专业搜索引擎,是专为查询某一学科或主题的信息而产生的查询工具。
垂直搜索引擎与通用搜索引擎相比,信息服务模式有所不同,垂直搜索引擎更加注重信息的专深性,更体现“以人为本”的理念,二者最大的区别在于垂直搜索引擎对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据。此外,垂直搜索引擎引入了查询扩展技术,通过扩充和组织新的查询词,以便更加准确的描述用户的查询需要,提高检索的查全率和查准率。
查询扩展技术分为自动查询扩展和手动查询扩展两类,自动查询扩展主要使用权重或联合的搜索技术进行扩展,通常与具体的查询过程形成强耦合,难于将方法和内容分离开来。手动查询扩展需要用户的干预,能够避免自动查询扩展的结果相关性难以保证的缺点,但要求用户对所查询领域具有深入的了解。由于垂直搜索系统的目标用户为具备特定领域的专业知识的用户,有别于通用搜索引擎的目标用户,因此,有必要开发一种具有手动查询扩展功能的垂直搜索系统,以追求在某一学科、行业或领域有最佳的检索效率及效果,满足其目标用户对搜索引擎的专业性、准确性、功能性的需求。
发明内容
本发明所要解决的技术问题在于提供一种面向某一学科、行业或领域的专业人员的垂直搜索方法和系统,以获取最佳的检索效率及效果。
为了解决上述技术问题,本发明提供了一种基于用户协助的垂直搜索方法,包括:系统对行业信息进行通用查询,并显示通用查询结果;用户输入查询关键字,系统进行数据处理,在通用查询结果的基础上缩小查询范围;系统生成可扩展关键字列表,用户从所述可扩展关键字列表选择可扩展关键字,进一步缩小查询范围。
进一步地,系统对行业信息进行通用查询包括以下步骤:
爬虫引擎从互联网上抓取网页和文件数据等;
文本内容抽取引擎判断所述网页的内容框架,识别并抽取所述网页的文本内容,同步地,文本内容抽取引擎还识别权威知识网站中的相关知识点的逻辑结构;
语义识别引擎从机器角度理解由关键词和相应的顺序构成的所述文本内容的语义,形成一定的语义环境;
词性识别引擎在所述语义环境中,识别某一句话的词性,进而按照权重推论到某一篇文章或评论的词性。
进一步地,用户输入查询关键字后系统进行数据处理,包括以下步骤:
知识树引擎将所述相关知识点的逻辑结构按照一定的权重补充到行业知识树中;
关键字生成引擎对所述文本内容进行预先处理:结合汉语词库、所述行业知识树和所述文本内容的词汇出现频度计算所述文本内容的预设关键字,并将所述预设关键字保存在数据库中;
结构化引擎按照系统预设的信息抽取规则,或者按照用户自定义的结构化需求抽取有意义的信息,对文本内容进行结构化,保存到数据库中;
在用户输入查询关键字后,系统显示结构化或者非结构化的数据。
进一步地,系统生成可扩展关键字列表,用户从所述可扩展关键字列表选择可扩展关键字,包括以下步骤:
所述系统生成可扩展关键字列表,所述可扩展关键字列表包括按照一定的权重顺序显示的前10个所述预设关键字;
用户通过选择其中的几个可扩展关键字,缩小显示的文本内容或者是文本内容对应的结构化的数据范围;
关联度调整模块使用机器学习的算法,以所述查询关键字、可扩展关键字列表和用户选择的结果作为学习的样本,不断完善关键字的关联度。
本发明还提供了一种基于用户协助的垂直搜索系统,包括基础底层、用户数据处理层和用户交互与系统自我完善层;
所述基础底层包括爬虫引擎、文本内容抽取引擎、语义识别和词性识别引擎,所述用户数据处理层包括知识树引擎、关键字生成引擎和结构化引擎,所述用户交互与系统自我完善层包括用户协助查询模块和采用机器学习算法的关联度调整模块。
进一步地,所述爬虫引擎用于抓取网页资源和文件数据,所述文本内容抽取引擎用于识别和抽取所述网页资源中的文本内容,所述语义识别引擎用于从机器角度理解所述文本内容的语义,所述词性识别引擎用于在一定语义环境下识别某一句话的词性,进而按照权重推论到某一篇文章或评论的词性。
进一步地,所述文本内容抽取引擎还用于识别权威知识网站中的相关知识点的逻辑结构,所述知识树引擎用于将所述相关知识点的逻辑结构按照一定的权重补充到预设的行业知识树中。
进一步地,所述关键字生成引擎结合汉语词库、所述行业知识树和所述文本内容的词汇出现频度计算所述文本内容的预设关键字,所述预设关键字保存在数据库中。
进一步地,所述结构化引擎采用系统预设的结构化语法以及用户的自定义的结构化需求,对文本内容预先进行结构化,再把文本和非文本信息单独或者对比式呈现给用户。
进一步地,所述系统包括用户协助查询模块,用户通过选择所述系统提供的可扩展关键字缩小查询范围,所述可扩展关键字为按照一定的权重顺序显示的前10个所述预设关键字,所述用户查询关键字、所述可扩展关键字列表和用户选择的结果均用作机器学习的样本。
本发明具有以下有益效果:
本发明具有知识点不断自增长、数据信息新、定位快、可扩展性好的特点,其应用于某一领域或行业能够极大的提高专业人士的工作效率,主要体现在:
(一)本发明以预设行业知识树作为系统的专家预设值,按照一定的权重将从权威知识网站获取的相关知识点的逻辑结构不断补充到预设的行业知识树中,从而实现知识点的自增长。
(二)本发明利用互联网的爬虫技术对互联网上的信息实时进行增量的抓取,数据信息随网页信息更新而实时更新,用户无需再手动刷新。
(三)本发明根据用户输入的查询关键字进行通用搜索,在此基础上生成可扩展关键字列表,再由用户结合自身的专业知识自行选择可扩展关键字。该过程有助于缩小查询范围,实现信息的快速定位,帮助专业人士提高搜索效率,且用户选择结果还可以作为所述机器学习算法的学习样本,不断完善关键字的关联度。
(四)本发明除预设的结构化语法外,还允许用户自定义简单的数据处理逻辑,对行业信息进行个性化的整合加工。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的一种基于用户协助的垂直搜索方法的检索流程图;
图2为本发明提供的一种基于用户协助的垂直搜索系统的功能结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本发明提供了一种基于用户协助的垂直搜索方法,包括:系统对行业信息进行通用查询,并显示通用查询结果;用户输入查询关键字,系统进行数据处理,在通用查询结果的基础上缩小查询范围;系统生成可扩展关键字列表,用户从可扩展关键字列表选择可扩展关键字,进一步缩小查询范围。
进一步地,系统对行业信息进行通用查询包括以下步骤:
爬虫引擎从互联网上抓取网页和文件数据等;
文本内容抽取引擎判断网页的内容框架,识别并抽取网页的文本内容,同步地,文本内容抽取引擎识别权威知识网站中的相关知识点的逻辑结构;
语义识别引擎从机器角度理解由关键词和相应的顺序构成的文本内容的语义,形成一定的语义环境;
词性识别引擎在一定的语义环境中,识别某一句话的词性,进而按照权重推论到某一篇文章或评论的词性。
进一步地,用户输入查询关键字后系统进行数据处理,包括以下步骤:
知识树引擎将相关知识点的逻辑结构按照一定的权重补充到行业知识树中;
关键字生成引擎对文本内容进行预先处理:结合汉语词库、行业知识树和文本内容的词汇出现频度计算文本内容的预设关键字,并将预设关键字保存在数据库中;
结构化引擎按照系统预设的信息抽取规则,或者按照用户自定义的结构化需求抽取有意义的信息,对文本内容进行结构化,保存到数据库中;
在用户输入查询关键字后,系统显示结构化或者非结构化的数据。
进一步地,用户从系统生成的可扩展关键字列表中选择可扩展关键字,包括以下步骤:
系统生成可扩展关键字列表,可扩展关键字列表包括按照一定的权重顺序显示的前10个预设关键字;
用户通过选择其中的几个可扩展关键字,缩小显示的文本内容或者是文本内容对应的结构化的数据范围;
关联度调整模块使用机器学习的算法,以查询关键字、可扩展关键字列表和用户选择的结果作为学习的样本,不断完善关键字的关联度。
如图2所示,本发明还提供了一种基于用户协助的垂直搜索系统,包括基础底层、用户数据处理层和用户交互与系统自我完善层。
基础底层包括爬虫引擎、文本内容抽取引擎、语义识别和词性识别引擎。爬虫引擎用于从互联网上抓取互联网的网页资源、文件数据等等;文本内容抽取引擎用于从网页资源判断网页的内容框架,从而识别网页的文本内容,抽取其中的文本内容;语义识别引擎用于从机器角度理解由关键词和相应的顺序构成的语义,从而更好的进行数据的结构化;词性识别引擎主要用于在一定语义环境中,去识别某一句话的词性,进而按照权重推论到某一个文章/评论的词性。
用户数据处理层包括知识树引擎、关键字生成引擎和结构化引擎;知识树引擎主要是在预设的行业知识树基础上,由文本内容抽取引擎识别出权威知识网站中的相关知识点的逻辑结构,再按照一定的权重把该知识点的逻辑结构补充到行业知识树中,从而使得行业知识树不断的成长;关键字生成引擎对文本内容抽取引擎抽取得到文本内容进行预先处理,具体包括结合汉语词库、行业知识树和文本的词汇出现频度计算文本的关键字,得到文本的预设关键字,并保存在数据库中;结构化引擎主要是在文本内容抽取后,结合机器语义理解,按照系统预设的信息抽取规则,或者按照用户自定义的结构化需求抽取有意义的信息,保存到数据库中。
用户交互模块和机器学习自我完善层包括用户协助查询模块和采用机器学习算法的关联度调整模块。该层利用数据库中保存的文本内容的关键字,在用户输入一个关键字后,系统根据用户需要显示结构化或者非结构化的数据;同时,以知识树中关联的关键字和文本库中的关联关键字,按照一定的权重,顺序显示前10个关键字,和用户进行交互范围的缩小限制,用户可以选择其中的几个关键字,来缩小显示的文本内容或者是文本内容对应的结构化的数据范围;
关联度调整模块使用机器学习的算法,以扩展关键字列表及用户选择结果作为学习的样本,不断完善关键字的关联度。
本发明应用于全球疫情信息收集的查询步骤如下:
首先系统进行通用查询,并显示查询结果,该阶段查询结果上方仅显示三个搜索框,分别为“来源标题”、“国家地区”和“疫情名称”;
其次,用户在搜索框内输入查询关键词,系统结合数据库中存在的行业知识树和已经结构化的数据的分类情况,提示新的关键字列表选项或者关键字的列表,例如在“国家地区”搜索框内输入“新加坡”,则查询结果和既有的三个搜索框之间新增加了新的关键字列表“信息来源”;
再次,用户可以从系统生成的可扩展关键字列表中选择可扩展关键字,如在“信息来源”关键字列表中选择“台湾疾管署-民众版”,则查询结果显示关于“新加坡”且信息来源为“台湾疾管署-民众版”的疫情信息。
本发明具有以下有益效果:
本发明具有知识点不断自增长、数据信息新、定位快、可扩展性好的特点,其应用于某一领域或行业能够极大的提高专业人士的工作效率,主要体现在:
(一)本发明以预设行业知识树作为系统的专家预设值,按照一定的权重将从权威知识网站获取的相关知识点的逻辑结构不断补充到预设的行业知识树中,从而实现知识点的自增长。
(二)本发明利用互联网的爬虫技术对互联网上的信息实时进行增量的抓取,数据信息随网页信息更新而实时更新,用户无需再手动刷新。
(三)本发明根据用户输入的查询关键字进行通用搜索,在此基础上生成可扩展关键字列表,再由用户结合自身的专业知识自行选择可扩展关键字。该过程有助于缩小查询范围,从而实现信息的快速定位,且用户选择结果还可以作为机器学习算法的学习样本,不断完善关键字的关联度。
(四)本发明除预设的结构化语法外,还允许用户自定义简单的数据处理逻辑,对行业信息进行个性化的整合加工。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。