CN104063514B - 垂直搜索方法 - Google Patents

垂直搜索方法 Download PDF

Info

Publication number
CN104063514B
CN104063514B CN201410328560.XA CN201410328560A CN104063514B CN 104063514 B CN104063514 B CN 104063514B CN 201410328560 A CN201410328560 A CN 201410328560A CN 104063514 B CN104063514 B CN 104063514B
Authority
CN
China
Prior art keywords
link address
item
classified
entry
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410328560.XA
Other languages
English (en)
Other versions
CN104063514A (zh
Inventor
赵轶
许小东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410328560.XA priority Critical patent/CN104063514B/zh
Priority claimed from CN201110300772.3A external-priority patent/CN102332025B/zh
Publication of CN104063514A publication Critical patent/CN104063514A/zh
Application granted granted Critical
Publication of CN104063514B publication Critical patent/CN104063514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种能垂直搜索方法和系统,涉及网络技术领域。所述的方法包括:根据用户端的查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述该行业已分类的各条目通过以下步骤获得:获取所述行业所有网页的所有条目及相关信息;将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。通过本申请可更精确、更全面、更快捷的展现与用户关注点相关的信息。

Description

垂直搜索方法
本发明专利申请是申请日为2011年09月29日、申请号为201110300772.3、名称为“一种智能垂直搜索方法和系统”的中国发明专利申请的分案申请。
技术领域
本申请涉及网络技术领域,特别是涉及一种智能垂直搜索方法和系统。
背景技术
随着互联网技术的发展,互联网上的信息呈现爆炸性的发展,这导致用户如果想要在网络中寻找到自己需要的信息,必须通过搜索去获取自己需要的信息,搜索是广大网民获取信息,到达指定网站的主要渠道。
现有技术中,一种是通用搜索,通过搜索引擎主动派出“蜘蛛”程序,对整个互联网的网站信息进行检索,蜘蛛爬虫在抓取一个页面后,对该页面进行分析入库,并读取页面的所有连接,然后对这些连接再进行抓取分析。通过上千蜘蛛的周期性不停抓取,实现了对整个互联网的所有网页信息的索引,并直接根据关键词匹配将所有与该关键词相关的信息以相关度排序返回给用户,其优点是搜索范围广,但缺点是用户通过关键词搜索返回的是大而全的结果,没法提供按行业特征进行分类筛选的服务,无法分类显示,然而哪些内容是用户本次搜索中想搜到的则无法进行判断,用户需要花很长时间在结果中找自己需要的信息。
另外一种是垂直搜索,其站内资源的深度搜索,用户在其网站上添加相应数据,系统对该数据进行检查与过滤,搜索引擎将这些数据进行中文分词建立索引,供其他用户查询,是某个网站针对其站内信息的搜索服务,其网站内的信息是由其站内用户直接将各种信息添加入该网站的各个分类中,其优点是分类清晰,但缺点是搜索范围较窄,提供的结果不够全面,用户需通过与其他搜索引擎配合使用才能了解到全面的信息。
发明内容
本申请所要解决的技术问题是提供一种垂直智能垂直搜索方法和系统,解决用户在搜索信息时无法全面、准确、快速的获取相关信息的缺点。
为了解决上述问题,本申请公开了一种智能垂直搜索方法,包括:
获取用户端选择的一行业中输入的查询词;
根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容;
其中,所述该行业已分类的各条目通过以下步骤获得:
获取所述行业所有网页的所有条目及相关信息;
将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;
和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
优选的,所述的查询词包括:
将用户的输入的关键词作为查询词;
或者,将用户选择的根据该用户的输入词返回的建议词中的一个作为查询词;其中,所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
优选的,还包括以下安全检测步骤:
步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;
和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;
和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
优选的,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全的过程通过以下步骤进行:
步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交给安全检查引擎检查其是否在安全等级库中存在;
步骤P2,如果存在并安全,则对所述条目进行分类;
步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据;
步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安全,如果安全,将该链接地址存入安全等级库,并转入步骤P1。
优选的,还包括以下安全检测步骤:
通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行安全检测。
优选的,在获取所述行业所有网页的所有条目及相关信息时包括:
自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息;
补充录入步骤,用于补充录入一网页的条目及相关信息。
优选的,在按类别将各所述类别的条目及相关信息展现给用户端时包括:
将条目相关的用户行为入口直接提供给用户端。
优选的,还包括:
智能纠错步骤,通过智能纠错引擎对于用户错误输入的查询词进行纠错。
优选的,所述条目各关键词i的出现次数比率与已分类条目各关键词i的出现概率的差值,通过对数加权,计算出条目对应的分类c偏差值G(c),偏差值越小则相似度越高,取最低的偏差值所在分类来确定条目所属分类。
相应的本申请还公开了一种智能垂直搜索系统,包括:
搜索引擎,用于获取用户端选择的一行业中输入的查询词;根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容;
分类数据库,用于存储各行业已分类数据;
数据获取模块,用于获取所述行业所有网页的所有条目及相关信息;
分类器,用于将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
优选的,还包括:
安全检查模块,用于对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;
和/或,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;
和/或,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
优选的,还包括:
关键词建议引擎,用于根据用户的输入词返回建议词;所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
优选的,还包括:
智能纠错引擎,用于对于用户错误输入的查询词进行纠错。
优选的,所述的数据获取模块包括:
数据抓取器,用于自动抓取所述行业所有网页的所有条目及相关信息;
补充录入模块,用于补充录入一网页的条目及相关信息。
优选的,还包括:
接口提供模块,用于在按类别将各所述类别的条目及相关信息展现给用户端时将条目相关的用户行为入口直接提供给用户端。
与现有技术相比,本申请包括以下优点:
本申请通过以行业分类为搜索起点,获取网络中各行业的所有网站的条目,并通过将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别和/或根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别;在对一行业的所有条目进行分类后,当用户进行查询时,搜索引擎可以根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;本申请通过建立自动分类系统,实现了数据的自动分类和筛选功能,可以更精确、更全面、更快捷的展现与用户关注点相关的信息。
附图说明
图1是本申请一种智能垂直搜索方法的流程示意图;
图2是本申请一种智能垂直搜索方法的统计学分类法的有效性示意图;
图3是本申请一种智能垂直搜索方法最佳的分类流程示意图;
图4是本申请一种智能垂直搜索方法的建议词有效性示意图;
图5是本申请一种智能垂直搜索方法优选的条目分类前安全检查流程示意图;
图6是本申请一种智能垂直搜索系统的结构示意图;
图7是本申请一种智能垂直搜索系统优选的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种智能垂直搜索方法的流程示意图,包括:
步骤110,获取用户端选择的一行业中输入的查询词。
步骤120,根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容。其中,业务内容不含新闻、广告、问答等非主营业务信息,并且不包含网页上抬头、广告或者icp(Internet ContentProvider,网络内容服务商)备案等左上或下方等区域的信息。
其中,所述该行业已分类的各条目通过以下步骤获得:
步骤210,获取所述行业所有网页的所有条目及相关信息;
步骤220,将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;
和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
本申请可在线下预先通过步骤210和步骤220对各行业进行进一步分类。比如说对于教育行业,可以将其分为少儿教育,中等教育,高等教育,职业教育等大类,在少儿教育中又可以分为幼儿、幼升小、一年级、二年级、三年级、四年级、五年级、六年级、小升初等类,中等教育又可以分为初一、初二、初三、高中预科、高一、高二、高三、大学预科等类,高等教育又可以分为英语四六级、新概念、英语相关、小语种、考研英语、考研数学、考研政治、考研专业课、托福、雅思等类,职业教育又可以分为职业英语、职业小语种、财会、自考、计算机、驾校、建筑工程、经贸/金融、医药、在职研究生、人力资源、公务员等类。其中,每个类都会含有相应的多个关键词,比如说少儿教育类中含有幼儿、幼升小、一年级、二年级、三年级、四年级、五年级、六年级、小升初、初级英语、数学、语文、学前班、特长班等关键词。
又比如说对于游戏行业,可以分为游戏类型、游戏题材和游戏画面等类,游戏类型又可以分为角色扮演、回合制、动作游戏、FPS射击、TPS射击赛、车竞速、体育运动、音乐舞蹈、格斗对战、策略等类;游戏题材又可以分为武侠、玄幻、奇幻、科幻、卡通、历史等类;游戏画面又可以分为3D、2D、2.5D等类。其中每个类都会含有相应的多个关键词。
在分类时,首先通过步骤210按行业获取网络中该行业所有网站的所有条目,所述的条目为电子商务网页中的一项或多项业务内容,其中业务内容的不含新闻、广告、问答等非主营业务信息,并且不包含网页上抬头、广告或者icp备案等左上或下方等区域的信息,比如说教育行业各教育类型网站的课程内容及其名称,比如“考研英语冲刺班”及其内容。
其中,在获取所述行业所有网页的所有条目及相关信息时包括:
自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息。
其中,自动抓取步骤过程可通过以下步骤进行:
步骤m1,自动搜索该行业所有网站的链接地址,生成抓取列表,并记录每次抓取时间以及抓取状态。
步骤m2,采用分布式部署,根据地域分布,对不同网站进行周期性抓取。如果网站数据有变动,网站方可以采用主动通知机制,调用本申请提供的通知接口,实现对该网站数据的实时更新。网站数据有变化时只需访问本申请提供的通知地址,该地址即可触发抓取行为。
步骤m3,对抓取来的数据进行安全检查和有效性检查。安全检查将地址提交给安全检查模块检查该地址是否有木马或病毒存在,从而返回提示是否收录该地址。有效性检查将检查该地址是否能正常打开,如果该地址返回不存在或者其他错误,本次抓取将不会收录该地址。
步骤m4,将数据提交给分类器进行分类处理,抓取程序继续抓取新的数据。当本次抓取结束后,数据抓取器将重新开始抓取,并判断文件是否有更新从而确定是否跳过抓取下一条记录。
补充录入步骤,用于补充录入一网页的条目及相关信息。可用于补充自动抓取步骤未抓取到的内容。
普通的web数据是非结构化数据,如果使用传统的抓取web页面的方式则需要对数据进行结构化分析,在这个过程中,由于系统的智能识别能力有限,必将导致部分信息的丢失。为了解决这一问题,本申请结合问题的特点,与数据源提供方建立了一种合作机制,通过由本申请制定并提供行业数据格式标准,由数据源提供方按照该标准填写数据内容,从而达到了事半功倍的效果。可以通过如下方法建立格式标准:选定需要进行垂直搜索的行业,比如教育、游戏;分析该行业的数据特点,制定格式标准。以游戏为例,当人们提到游戏时会想到游戏名称,游戏类型,游戏简介,游戏地址等相关信息,对这些信息进行归纳整理,最终形成标准接口。形成的游戏接口字段如下:
字段 字段说明
游戏名称 不超过50字
游戏特征 不超过50字
游戏描述 不超过500字
游戏状态 测试或发布
游戏类型 客户端游戏/网页游戏等
游戏运营商 针对网络游戏
游戏开始地址 针对网络游戏
游戏下载地址 提供下载连接地址
如何开始 不超过500字
操作指南 不超过500字
游戏图片 提供图片链接地址
注册地址 提供游戏注册地址
根据数据量的级别不同,本申请制定了全量接口和变量接口,由数据源提供方根据该接口生成相应的接口数据,本申请实现相关的调用。全量结构的特点可以一次性返回所有的数据,而变量接口则是每次返回部分数据。本申请建议使用xml格式的数据进行传递。当一个机构提供的数据比较少时(一般整个xml文件的大小在50Mb以内),可以直接使用全量数据接口;当数据量比较大时,一般需要提供变量接口,从而分批次获取数据。即一个地址以id的形式描述每条数据的变化情况,另外一个地址可以通过id获取相应的数据。形式如下:
<id do=’insert’>1000</id>
<id do=’update’>1001</id>
<id do=’delete’>1002</id>
<id do=’insert’>1003</id>
当do的值为insert时,表明该id对应的记录为新增记录;
当do的值为update时,表明该id对应的记录为修改记录;
当do地值为delete时,表明该id对应的记录为删除记录。
因为从各数据源获取的数据分类信息均不一样,在数据展现时,为了用户能更加方便的进行筛选,本申请需要对各种数据按照统一标准进行重新分类。即进入步骤220,通过规则匹配分类法:将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;
和/或,通过统计学匹配分类法:根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
对于规则匹配分类法:
例如下面标题:
“秋季班初中三年级物理宣丰石体系尖子班”
通过这个标题,本申请可以获取的分类信息是:秋季班、初三、物理等信息。首先,可以看出本申请获取的三个分类信息在标题中都有对应的词语,所以本申请可以建立三个规则来获取这个分类信息。
规则一:如果标题中含有“秋季班”则分类为“秋季班”;
规则二:如果标题中含有“初中三年级”则分类为“初三”;
规则三:如果标题中含有“物理”则分类为“物理”。
通过这种方式,类似下面的标题分类信息都可以获取。
“秋季班初中三年级物理东朝崇体系提高班”
“秋季班高中三年级物理尖子班”
“秋季班初中一年级数学提高班”
“秋季班初中三年级英语提高班”
规则匹配法建立在词法匹配机制上,它根据条目和各类的关键词中共同出现的关键词决定条目属于哪些分类,通过加权分析,最终确定分类标准,其公式如下:
P1=x1r1+x2r2+x3r3+...+xnrn
其中Pi为通过单个规则得出的分类结果,对于某个分类Pi最高,则该条目就属于该类;xi为词法系数;ri为词法匹配结果。词法匹配结果指该词在此次匹配中出现的次数。词法系数指该词法匹配结果在所有词法匹配结果中所站的权重。权重越高则该值越接近1,权重越低则该值越接近0。该值的取值通过手动设置。比如在标题中匹配到结果则词法系数相对较高,在描述或者内容中匹配到结果,则词法系数较低。
表一是匹配英语分类时使用的系数,以“高一英语四级培训班”匹配“英语”分类为例:
词法匹配 词法匹配结果 词法系数
标题中含“英语” 1 0.8
标题中含“四级” 1 0.7
标题中含“雅思” 0 0.7
描述中含“英语” 3 0.3
描述中含“四级” 1 0.2
表一
可以计算出批配上英语分类的分数为:2.6
然后计算出匹配其他分类的分数,最后检查哪个分类的分数最高则该条目属于该分类。
对于统计学分类:
本申请首先整理所有影响分类的相关关键词,然后对已分类的数据进行统计,检查每一个条目中这些关键词存在或是不存在的关系,接下来用这些关键词对那些尚未分类的条目进行分析,检查这些关键词在条目中存在的关系,最后对比已分类的各关键词的概率和未分类条目的各关键词的出现次数比率,如果两个相近,则可以认为该未分类条目属于该类。
根据前面的分析,本申请建立如下公式:
其中,c为分类,G(c)为分类偏差值,1为常数,为确保log值有效,i为关键词,Tci为已统计出的已分类条目关键词出现概率,tci为待分类条目关键词出现次数比率。G(c)越小,说明相似度越高,则判断出该条目属于c分类。其中,已分类条目关键词出现概率等于所有条目的关键词出现次数比率的几何平均数;待分类条目关键词出现次数比率=关键词在条目中出现的次数/所有关键词在条目中出现的次数。
即根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
例如特征值:英语、数学、语文,对事先分类的条目进行特征词出现概率统计,得到如下表二:
表二
下面本申请对四条未分类条目进行特征值统计得到表三:
表三
最后根据前述公式计算得出如表四分类结果:
表四
参照图2,是该统计学分类法随着统计数据的不断增加与分类质量的对应图。可以看出,随着统计数据的不断增加,样本归类法的准确率不断的提高,样本量越大,其分类准确性越接近1,所以本统计学分类方法具有充分的有效性。
在实际应用中,参照图3,为本申请最佳的分类流程示意图。
为了系统的运算的便捷性和减低系统的负荷,本申请首先采用前述的匹配规则分类法即将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;当在阈值时间内,通过匹配规则分类法无法将某个条目进行分类时,则通过统计学分类法即根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
在对网络中各行业的分类完成后,当用户使用本申请的系统时,对于用户的查询词,搜索引擎会根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户。
其中,所述的查询词包括:
将用户的输入的关键词作为查询词。
或者,将用户选择的根据该用户的输入词返回的建议词中的一个作为查询词;其中,所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
对于建议词,因为用户在搜索时,选取的关键词在很大程度上是很泛的词,有很多意思,可以对应各种各样的网页,而实际上用户可能只想找特定的内容。比如用户搜索“英语”,可以匹配上该词的网页有无数的网页,而实际上用户可能想搜索的是“英语培训”或者“英语考试”等内容,所以为了能更好的匹配用户需求,本申请通过智能建议词库对用户输入的关键词进行分析,从而提供一个建议词让用户选择再进行搜索,达到了细化用户需求,从而能更准确的理解用户意图,为用户提供更准确的搜索结果。
进一步的,可以通过如下步骤建立智能建议词库,然后由关键词建议引擎根据用户输入的输入词返回各建议词。
步骤n1,统计用户输入的输入词与对应结果的点击关系。比如用户搜索英语,点击了英语培训的课程,搜索手机点击了购买手机的网页。
步骤n2,根据统计的结果进行排序,把每个输入词对应的热门点击名称都进行分词处理。
步骤n3,根据分词结果,提取与输入词相关的点击词,制作出输入词与点击词的对应关系。比如英语对应英语培训,英语四级,英语考研等等。用户在输入关键词时,给用户进行点击词的提醒,如果用户选择了点击词进行筛选,则很好的细化用户搜索目的,从而更准确地为用户提供了搜索结果。
参照图4,是对有建议词和无建议词的搜索结果点击率连续六天的对比。从图中可以看出,有建议词的结果点击率明显高于无建议词的点击率,证明本申请的建议词构造方案具有有效性。
另外,本申请对于用户输入的查询词可以通过智能纠错引擎进行纠错,比如用户输入“考验英语”,智能纠错引擎可以将其纠正为“考研英语”。
另外,本申请在按类别将各所述类别的条目及相关信息展现给用户端时包括:将条目相关的用户行为入口直接提供给用户端。比如游戏有下载,课程有报名等,在展现时直接将这些接口提供给用户。
优选的,本申请的展现过程为:
步骤q1,获取到用户搜索的查询词。
步骤q2,将查询词置入智能纠错引擎进行查询。该引擎会将用户输入查询词进行模糊化分词,通过已生成的自然分词词库,标准分词词库,拼音纠错词库等方式,产生一个搜索引擎可识别的分词文本。
步骤q3,搜索引擎将该文本置入预先通过分类数据库生成的复合全文索引中进行检索,并对搜索结果进行智能排序,然后通过搜索引擎返回已排序优化好的结果。其中,智能排序方式按照分词文本产生的热度和相关度进行处理。因为预先对行业数据进行了格式化分析,通过定义的接口中直接获取了用户可能用到的地址,在前台展现时,直接将用户行为入口提供给用户(比如游戏有立即下载,课程有报名、视听等),实现用户点击下载,不用再进入对方的网页便可直接进行下载。用户点击报名,不用再进入课程介绍页面便可直接报名,最终实现一键直达想要的页面。
通过上述过程,可以实现对对用户的查询词进行智能纠错,对用用户的查询目标进行精准展现,并且一键直达用户行为入口。
另外,本申请还包括以下安全检测步骤:
步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类。
参照图5,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全的过程通过以下步骤进行:
步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交给安全检查引擎检查其是否在安全等级库中存在;
步骤P2,如果存在并安全,则对所述条目进行分类;
步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据;
步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安全,如果安全,将该链接地址存入安全等级库,并转入步骤P1。
和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除。安全检查引擎的安全等级库会不停的遍历每一个地址;一旦发现链接中有不安全信息,立即将该地址设为不安全,同时通知数据引擎,将该链接相关数据删除。
和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。记录所有给用户展现并点击了的链接地址将这些地址置入安全检查引擎,进行安全检查,如果检查到地址不安全,立即提示用户“检查到该网址不安全,是否继续访问”,同时通知服务端就将该链接相关数据删除。
优选的,本申请同时使用步骤A和步骤B和步骤C,建立网址安全动态检查机制。比如使用360木马云查杀引擎,通过不间断循环检查与点击跟踪检查技术,对所有已获取连接进行即时排查并建立安全等级库。使用三重保障机制,对数据进行检查。第一重保障机制:数据进入待分类库时即对于待分类条目第一次检查网页地址是否安全,并与安全等级库数据关联,一旦发现问题将立即删除该条记录;第二重保障机制:数据被分类后将进行不间断循环检查;第三重保障机制:当用户点击搜索结果的相应网址时,系统将会提交该地址到安全检查机制级判断该地址是否安全。
本申请,还包括以下安全检测步骤:
通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行安全检测。
在实际中,还可能存在一些形式上正常,没有木马及任何其他病毒的但实际上不诚信的网页,比如说一些钓鱼网页。本申请可以通过所述条目所在的链接地址的网站的ICP备案信息可以查询网站的基本情况、网站拥有者的情况等情况并与实际信息进行比较确认所述条目是否安全,也可以通过已近进行实名认证的网站实名认证系统验证所述条目所在的链接地址是否安全,如果安全,则将所述条目及其相关信息存入分类数据库。
通过上述安全检查过程,可以保障用户使用过程中网页的安全。
参照图6,示出了本申请一种智能垂直搜索系统的结构示意图。
搜索引擎310,用于获取用户端选择的一行业中输入的查询词;根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的一项或多项业务内容。
其中,业务内容不含新闻、广告、问答等非主营业务信息的网页,并且不包含网页上抬头、广告或者icp备案等左上或下方等区域的信息。
分类数据库320,用于存储各行业已分类数据。
数据获取模块410,用于获取所述行业所有网页的所有条目及相关信息。
分类器420,用于将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
进一步的还包括:安全检查模块,用于对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;
和/或,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;
和/或,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
进一步的,还包括:关键词建议引擎,用于根据用户的输入词返回建议词;所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
进一步的,还包括:智能纠错引擎,用于对于用户错误输入的查询词进行纠错。其中智能纠错引擎可以包含在搜索引擎中。
进一步的,所述的数据获取模块包括:
数据抓取器,用于自动抓取所述行业所有网页的所有条目及相关信息;
补充录入模块,用于补充录入一网页的条目及相关信息。
进一步的,还包括:接口提供模块,用于在按类别将各所述类别的条目及相关信息展现给用户端时将条目相关的用户行为入口直接提供给用户端。
参照图7,示出了本申请一种智能垂直搜索系统优选的结构示意图。
用户通过浏览器输入相关的输入词;关键词建议引擎可以根据其中的智能建议词库返回与输入词相关的建议词,用户可以选择自己的输入词或者系统给的建议词作为查询词;当用户确认了查询词后,搜索引擎根据查询词结合分类数据库中的已分类条目及相关信息返回给用户与查询词相关的检索结果进行展示,其中展示时按类别将各所述类别的条目及相关信息展现给用户,同时还会将条目相关的用户行为接口直接展现给用户;其中搜索引擎还可通过其智能纠错引擎对用户的查询词进行智能纠错。
其中,通过数据抓取器在网络中抓取web数据,还可通过补充录入模块补充数据抓取器未抓取到的数据;所述数据交由分类器进行各种条目及其相关信息的分类;然后分类器会将已分类的数据存入分类数据库中。
在这同时,安全检查模块会在数据获取时进行第一重安全检查,即在数据抓取器抓取数据的链接地址过程中户补充录入模块补充数据的链接地址过程中进行第一重安全检查,安全的链接地址才会放入分类器进行分类;在分类数据库中进行第二重安全检查,即安全检查模块不断的遍历检查安全数据库中的数据的链接地址,查看其是否安全,安全的数据才会保留;在用户通过浏览器点击某个条目的链接地址时,安全检查引擎会进行第三重安全检查,即对用户点击的网页进行实时安全检查,对于不安全的链接地址,安全检查引擎会提示用户潜在风险,并通知系统将该链接地址的相关数据删除。
本申请通过建立网址安全动态检查机制,降低了用户通过搜索中毒的风险。通过建立抓取录入管理平台,解决了数据来源单一的问题,实现了多渠道获取数据,使数据更加全面与丰富。通过建立自动分类系统,实现了数据的自动分类和筛选功能。通过建立关键词智能建议模型,细化了用户搜索需求,实现了提供给用户更加精准的搜索结果。通过建立行业数据挖掘机制,实现通用功能的一键直达。达到了让用户安全搜索,用户不用担心结果中有有害网址;全面覆盖,一站搜索便可获取全行业信息;精准结果,返回对用户真正有价值的结果,而不是让用户在海量结果中自己选择;快捷直达:给用户提供直接入口,而不用再进入页面选择。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种垂直智能垂直搜索方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (22)

1.一种垂直搜索方法,其包括:
获取用户端选择的一行业中输入的查询词;
根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户,其中,所述的条目为电子商务网页中的一项或多项业务内容;
其中,首先采用将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;当在阈值时间内,通过匹配规则分类法无法将某个条目进行分类时,则根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别;
进一步地,所述根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别,包括:
获取所有影响条目分类的相关关键词,针对已分类的条目,统计所述相关关键词中在该已分类的条目中存在的关键词和不存在的关键词,从而获得已分类的条目的各关键词的出现概率;针对未分类的条目,统计所述相关关键词中在该已分类的条目中存在的关键词和不存在的关键词,获得未分类条目的各关键词的出现次数比率;再对比已分类条目的各关键词的出现概率和未分类条目的各关键词的出现次数比率获得相似度,以所述相似度确认未分类条目所属的分类。
2.根据权利要求1所述的方法,其中,该行业已分类的各条目通过下面步骤获得:
获取所述行业所有网页的所有条目及相关信息;
将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;
和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
3.根据权利要求1至2中任一项所述的方法,其中,所述查询词包括:用户的输入的关键词或者用户选择的根据该用户的输入词返回的建议词中的一个;其中,
所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
4.根据权利要求1至2中任一项所述的方法,还包括安全检测步骤,其包括:
步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;
和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;
和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
5.根据权利要求3所述的方法,还包括安全检测步骤,其包括:
步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;
和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;
和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
6.根据权利要求4所述的方法,其中,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全的过程进一步包括:
步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交给安全检查引擎检查其是否在安全等级库中存在;
步骤P2,如果存在并安全,则对所述条目进行分类;
步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据;
步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安全,如果安全,将该链接地址存入安全等级库,并转入步骤P1。
7.根据权利要求1至2中任一项所述的方法,还包括安全检测步骤:
通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行安全检测。
8.根据权利要求3所述的方法,还包括安全检测步骤:
通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行安全检测。
9.根据权利要求2所述的方法,其中,获取所述行业所有网页的所有条目及相关信息进一步包括:
自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息;
补充录入步骤,用于补充录入一网页的条目及相关信息。
10.根据权利要求1至2中任一项所述的方法,其中,按类别将各所述类别的条目及相关信息展现给用户包括:
将条目相关的用户行为入口直接提供给用户端。
11.根据权利要求1至2中任一项所述的方法,还包括:
智能纠错步骤,通过智能纠错引擎对于用户错误输入的查询词进行纠错。
12.根据权利要求2所述的方法,还包括:
所述条目各关键词i的出现次数比率与已分类条目各关键词i的出现概率的差值,通过对数加权,计算出条目对应的分类c偏差值G(c),偏差值越小则相似度越高,取最低的偏差值所在分类来确定条目所属分类。
13.一种垂直搜索方法,其包括:
获取行业所有网页的所有条目及相关信息,其中,所述条目为电子商务网页中的一项或多项业务内容;
确定各条目所属类别;其中,首先采用将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;当在阈值时间内,通过匹配规则分类法无法将某个条目进行分类时,则根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别;每个类别都含有相应的多个关键词;
进一步地,所述根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别,包括:
获取所有影响条目分类的相关关键词,针对已分类的条目,统计所述相关关键词中在该已分类的条目中存在的关键词和不存在的关键词,从而获得已分类的条目的各关键词的出现概率;针对未分类的条目,统计所述相关关键词中在该已分类的条目中存在的关键词和不存在的关键词,获得未分类条目的各关键词的出现次数比率;再对比已分类条目的各关键词的出现概率和未分类条目的各关键词的出现次数比率获得相似度,以所述相似度确认未分类条目所属的分类;
当获取到用户端选择的一行业中输入的查询词时,根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户。
14.根据权利要求13所述的方法,其中,确定各条目所属类别进一步包括:
将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别。
15.根据权利要求14所述的方法,其中,当在阈值时间内通过词法匹配无法确定某个条目所述类别时,则根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。
16.根据权利要求13至15中任一项所述的方法,其中,所述查询词包括:用户的输入的关键词或者用户选择的根据该用户的输入词返回的建议词中的一个;其中,
所述建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。
17.根据权利要求13至15中任一项所述的方法,还包括安全检测步骤,其包括:
步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类;
和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删除;
和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。
18.根据权利要求17所述的方法,其中,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全的过程进一步包括:
步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交给安全检查引擎检查其是否在安全等级库中存在;
步骤P2,如果存在并安全,则对所述条目进行分类;
步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据;
步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安全,如果安全,将该链接地址存入安全等级库,并转入步骤P1。
19.根据权利要求13至15中任一项所述的方法,还包括安全检测步骤:
通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行安全检测。
20.根据权利要求13所述的方法,其中,获取所述行业所有网页的所有条目及相关信息进一步包括:
自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息;
补充录入步骤,用于补充录入一网页的条目及相关信息。
21.根据权利要求13至15中任一项所述的方法,其中,按类别将各所述类别的条目及相关信息展现给用户包括:
将条目相关的用户行为入口直接提供给用户端。
22.根据权利要求13至15中任一项所述的方法,还包括:
智能纠错步骤,通过智能纠错引擎对于用户错误输入的查询词进行纠错。
CN201410328560.XA 2011-09-29 2011-09-29 垂直搜索方法 Active CN104063514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410328560.XA CN104063514B (zh) 2011-09-29 2011-09-29 垂直搜索方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110300772.3A CN102332025B (zh) 2011-09-29 2011-09-29 一种智能垂直搜索方法和系统
CN201410328560.XA CN104063514B (zh) 2011-09-29 2011-09-29 垂直搜索方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201110300772.3A Division CN102332025B (zh) 2011-09-29 2011-09-29 一种智能垂直搜索方法和系统

Publications (2)

Publication Number Publication Date
CN104063514A CN104063514A (zh) 2014-09-24
CN104063514B true CN104063514B (zh) 2018-06-01

Family

ID=51551228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410328560.XA Active CN104063514B (zh) 2011-09-29 2011-09-29 垂直搜索方法

Country Status (1)

Country Link
CN (1) CN104063514B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794251B (zh) * 2015-05-19 2018-04-27 苏州工讯科技有限公司 基于搜索结果效用分析的工业产品垂直搜索引擎排列方法
CN106650783A (zh) * 2015-10-30 2017-05-10 李静涛 用于移动终端数据分类、生成、匹配的方法、装置及系统
CN106250369B (zh) * 2016-07-28 2019-08-06 海信集团有限公司 语音交互方法、装置和终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983255A (zh) * 2006-05-17 2007-06-20 唐红春 一种互联网搜索方法
CN102332025B (zh) * 2011-09-29 2014-08-27 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7085753B2 (en) * 2001-03-22 2006-08-01 E-Nvent Usa Inc. Method and system for mapping and searching the Internet and displaying the results in a visual form

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983255A (zh) * 2006-05-17 2007-06-20 唐红春 一种互联网搜索方法
CN102332025B (zh) * 2011-09-29 2014-08-27 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统

Also Published As

Publication number Publication date
CN104063514A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
Hamborg et al. Automated identification of media bias in news articles: an interdisciplinary literature review
US11775596B1 (en) Models for classifying documents
Garimella et al. Quantifying controversy on social media
CN102332025B (zh) 一种智能垂直搜索方法和系统
US9535911B2 (en) Processing a content item with regard to an event
US8935197B2 (en) Systems and methods for facilitating open source intelligence gathering
US8290927B2 (en) Method and apparatus for rating user generated content in search results
US9165254B2 (en) Method and system to predict the likelihood of topics
Sharma et al. Nlp and machine learning techniques for detecting insulting comments on social networking platforms
US20120197993A1 (en) Skill ranking system
US20150095320A1 (en) Apparatus, systems and methods for scoring the reliability of online information
US20150317390A1 (en) Computer-implemented systems and methods for taxonomy development
US20180246880A1 (en) System for generating synthetic sentiment using multiple points of reference within a hierarchical head noun structure
CN104063513A (zh) 一种智能垂直搜索方法和系统
US11226946B2 (en) Systems and methods for automatically determining a performance index
CN109033286B (zh) 数据统计方法和装置
US20230010680A1 (en) Business Lines
CN104063514B (zh) 垂直搜索方法
KR101621735B1 (ko) 추천 검색어 제공 방법 및 시스템
JP2015036923A (ja) 評価集計装置、評価順位作成装置、評価集計方法及びプログラム
US10140578B1 (en) System and method for managing social-based questions and answers
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
Du et al. Identifying high-impact opioid products and key sellers in dark net marketplaces: An interpretable text analytics approach
US20220292127A1 (en) Information management system
Zhao et al. State and tendency: an empirical study of deep learning question&answer topics on Stack Overflow

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220711

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co., Ltd

TR01 Transfer of patent right