CN103425714A - 一种搜索方法和系统 - Google Patents
一种搜索方法和系统 Download PDFInfo
- Publication number
- CN103425714A CN103425714A CN2012101677617A CN201210167761A CN103425714A CN 103425714 A CN103425714 A CN 103425714A CN 2012101677617 A CN2012101677617 A CN 2012101677617A CN 201210167761 A CN201210167761 A CN 201210167761A CN 103425714 A CN103425714 A CN 103425714A
- Authority
- CN
- China
- Prior art keywords
- word
- query
- attribute
- entity
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种搜索方法和系统,涉及计算机技术领域。所述的方法包括:接收查询词串,并解析所述查询词串中各词所属的词性;所述词性包括实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值;根据所述查询词串中各词所属的词性,确认查询词串对应匹配的查询结构及该查询结构中的查询对象;针对所述查询结构在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值;将所述对象值在查询词串对应的结果区域中进行单独显示。本申请可得快速查询到用户需要的答案,搜索效率高;本申请避免了现有技术中语义解析不成熟的弊端,可精确进行问题查询和解答,并且对于生僻问题也能很好的进行解答。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种搜索方法和系统。
背景技术
随着网络信息的不断膨胀,越来越多的用户在网络中输入问题,通过搜索引擎寻找答案。
现有技术中,对于用户输入的查询问题,存在两种解决方案:
其一,基于传统搜索引擎的方案,即通过文字的匹配来筛选匹配页面,把筛选出来的文档重新排序后提供给用户,需要用户自己根据标题和摘要来选择文档,之后再逐个点击阅读,之后自己从中找出想要的答案。该种方案,基于文字匹配,导致搜索得到的结果信息可能非常庞大,而与用户问题相关的真实答案可能被隐藏在很靠后的文档中,甚至用户即使阅读了相关文档依然有可能找不到所需的信息,需要用户进行大量的点击搜索过程,延误用户大量的时间,搜索效率低。
其二,基于问答系统的方案:
通常采用的方法是:先给问题分类,再根据类别对问题进行语义解析,再把解析出的结果到检索结果库中文档中匹配,定位答案对应的文本;再解析这些文本得到问题的答案,再将结果按照语义生成自然语言。但按照主语、谓语宾语等语言规则进行的语义解析还相当不成熟,步骤复合且各项操作都没有较理想的解析精度,常常会给出与问题完全不相关的答案,其搜索准确度比较低。
在问答系统中的方案中,基本上是基于问答网站中的匹配过程进行搜索的:当用户输入一个查询后,系统会将问题转化为一段语义编码,再将这段编码放到问答网站问题的索引库中做语义匹配,如果能够匹配上库中的问题,再将匹配到的问题的答案作为搜索结果展示给用户。因此,可回答的问题数量非常有限,对于常见问题可以较好地解决,但对于生僻问题等问题一般都无法解决,搜索范围狭窄。
发明内容
本申请所要解决的技术问题是提供一种搜索方法和系统,解决现有技术中对于问题的解答搜索过程中出现的问答系统中无法解决生僻问题,搜索结果不够精确、便捷的问题。
为了解决上述问题,本申请公开了一种搜索方法,包括:
接收查询词串,并解析所述查询词串中各词所属的词性;所述词性包括实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值;
根据所述查询词串中各词所属的词性,确认查询词串对应匹配的查询结构及该查询结构中的查询对象;
针对所述查询结构在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值;
将所述对象值在查询词串对应的结果区域中进行单独显示。
优选的,针对所述查询结构在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值包括:
将所述查询结构中的实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值中一种或几种在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值。
优选的,解析所述查询词串中各词所属的词性时包括:
针对所述查询词串,遍历实体词表,标注各实体词;
根据各实体词所属类别,遍历相应类别中的属性词表、关系词表和疑问词表和特殊疑问模板表,进而标注查询词串中的各属性词、各关系词、各疑问词;
当所述查询词串中的属性词存在相应的属性值时,对应标注各属性值;当所述查询词串中的关系词存在相应的关系值时,对应标注各关系值。
优选的,还包括:
通过从各网页中提取的实体词、所述实体词对应的属性词和属性值、所述实体词对应的关系词和关系值构建所述结构化知识库。
优选的,所述结构化知识库构建时:
针对抓取的同一知识类别的各知识网站,利用相应知识网站的解析模板解析各知识网站的网页内容,获得实体词及与实体词相应的属性词和属性值、关系词和关系值;
针对同一实体词,以:实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的数据结构存入结构化知识库。
优选的,还包括:
对抓取的同一知识类别各知识网站,利用该类别各种子挖掘各知识网站的内容存放格式,获取各知识网站的解析模板;
针对所述每一知识网站,利用相应知识网站的解析模板,解析出所述知识网站内与种子的种子属性对应的第一属性词,及相应的第一属性值;
选取各种子属性中与实体词相关的种子属性,将相应的第一属性词的第一属性值作为实体词;
选取各种子属性中与属性词相关的种子属性,将相应的第一属性词作为属性词,将相应第一属性值作为属性值;
选取各种子属性中与关系词相关的种子属性,将相应的第一属性词作为关系词,将相应第一属性值作为关系值。
优选的,还包括:
针对所述结构化知识库中各实体的属性值、和/或关系值,根据用户的触发信息进行优化;
和/或,针对所述结构化知识库中各实体的属性值、和/或关系值,根据分析用户的搜索行为日志得到的所述属性值、和/或关系值的可信度,进行优化。
优选的,所述特殊疑问模板表中各特殊疑问模板与属性词对应。
优选的,所述查询结构是实体词、属性词、属性值、关系词、关系值中一种或几种的组合。
优选的,还包括:
针对所述查询词串遍历特殊词表,获得特殊词。
优选的,所述确认查询词串对应匹配的查询结构及该查询结构中的查询对象时包括:
根据复合查询模板,利用特殊词连同实体词、属性词、属性值、关系词、关系值、疑问词中的一种或几种与所述复合查询模板进行匹配,得到查询词串的提问类型;
根据得到查询词串的提问类型,将复合问题分解为相应的简单问题;针对每个简单问题,确认对应匹配的查询结构及该查询结构中的查询对象。
优选的,所述根据得到查询词串的提问类型,将复合问题分解为相应的简单问题包括:
当得到查询词串的提问类型表示所述复合问题为嵌套问题时,按嵌套问题的嵌套顺序逐层分解为简单子问题;
当得到查询词串的提问类型表示所述复合问题为并列问题时,根据复合问题所含特殊词中的并列词,将复合问题分解为简单子问题。
优选的,所述当得到查询词串的提问类型表示所述复合问题为嵌套问题时,还包括:
将嵌套问题分解得到的简单子问题,按嵌套问题的嵌套顺序逐个在结构化知识库中进行查询,从而获取查询对象对应的对象值。
优选的,将所述对象值在查询词串对应的结果区域中进行单独显示时包括:
将匹配得到对象值结合所述查询结构,生成自然语言结果进行单独显示。
优选的,还包括:
当针对同一问题的查询结构,获得至少两个冲突的对象值时,标注每个对象值的数据来源。
相应的,本申请还公开了一种搜索系统,包括:
搜索模块和结构化知识库;
所述搜索模块包括:
接收解析模块,用于接收查询词串,并解析所述查询词串中各词的词性;所述词性包括实体词、属性词、属性词对应的属性值、关系词、与关系词对应的关系值;
查询结果确认模块,用于根据所述查询词串中各词的词性,确认查询词串对应匹配的查询结构及该查询结构中的查询对象;
匹配查询模块,用于针对所述查询词串对应匹配的查询结构在结构化知识库中进行匹配分析,得到查询对象对应的对象值;
结果输出模块,用于将所述对象值在查询词串对应的结果区域中进行单独显示;
结构化知识库,用于以:实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的数据结构进行数据存储。
优选的,还包括:
结构化知识库构建模块,用于通过从各网页中提取的实体词、所述实体词对应的属性词和属性值、所述实体词对应的关系词和关系值进行构建所述结构化知识库。
优选的,所述结构化知识库构建模块包括:
网页内容解析模块,用于针对抓取的同一知识类别的各知识网站,利用相应知识网站的解析模板解析各知识网站的网页内容,获得实体词,及与实体词相应的属性词和属性值、关系词和关系值;
结构化存储模块,用于针对网页内容中的同一实体词,以:实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的结构存入结构化知识库。
与现有技术相比,本申请包括以下优点:
本申请对于每一类知识,将其以实体词、所述实体词对应的属性词和属性值,所述实体词对应的关系词和关系值的结构构建结构化知识库,然后对用户输入的查询词串以实体词、属性词、属性值、关系词、关系值等词性进行分解,然后将其组合在结构实体库中进行匹配查询。因此,本申请存在以下优点:
一,本申请通过实体词、属性词、属性值、关系词、关系值等词性对用户查询词串进行分解,在结构化知识库中进行匹配查询,可得快速查询到用户需要的答案,搜索效率高,并且对于用户来说,搜索结果直观,便捷,精确,无需用户花费大量时间进行信息筛选。
二,本申请通过以实体词、所述实体词对应的属性词和属性值,所述实体词对应的关系词和关系值的结构构建结构化知识库,其语义结构清晰、明确,同时通过实体词、属性词、属性值、关系词、关系值等所属词性对用户查询词串进行分解,在结构化知识库中进行匹配查询,匹配查询过程避免了现有技术中语义解析不成熟的弊端,可精确进行问题查询和解答,并且对于生僻问题也能很好的进行解答。
附图说明
图1是本申请一种搜索方法的流程示意图;
图2本申请优选的构建结构化知识库的流程示意图;
图3是本申请利用种子属性和种子属性值获取网站解析模板的示例图;
图4是本申请利用网站解析模板解析的示例图;
图5是本申请一种搜索系统的结构示意图;
图6是结构化知识库构建模块的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的核心思想之一在于,针对每一类知识,通过构建以实体词、实体词的属性词和属性值、实体词的关系词和关系值结构的结构化知识库;然后针对用户的查询词串,以实体体词、和/或属性词、和/或与属性词对应的属性值、和/或关系词、和/或与关系词对应的关系值为主体对查询词串进行解析,然后将解析结果以一定的查询结构去匹配结构化知识库,从而可精确得到问题的答案,可直观的展示给用户,不用用户花费大量时间去筛选答案,并且可对生僻问题进行正常解答。
参照图1,示出了本申请一种搜索方法的流程示意图。
在本申请中,在搜索过程之前一般需要构建结构化知识库,以便后续查询时使用。
即本申请还包括步骤100,通过从各网页中提取的实体词、所述实体词对应的属性词和属性值、所述实体词对应的关系词和关系值进行构建所述结构化知识库。
本申请的结构化知识库一般根据全网数据中抓取的结构化数据进行分析构建。
结构化知识库的组织结构,从描述结构上来讲,结构化知识库是由实体,属性,属性值,关系,关系值结构化存储而成的:
1、实体:对应的一个具体的个体,在明星类别中,比如刘德华,张柏芝,林青霞等,也包含一些宽泛的代表类别的个体,比如人,电影明星,歌手等。
2、属性:就是实体所包含的特性,除了包含属性名称外,每个属性还有一个反应属性值类型的类型变量,比如[身高:长度],[年龄:整数],[出生日期:日期]等。
3、属性值:与属性对应的值,比如168cm(身高),87kg(体重)等,这部分也就是知识库中的知识。属性值还会记录知识的来源,用于帮助用户判断知识的可靠性。
4、关系:用于描述两个实体间的关系,还包含两个实体的类型。比如配偶[人:人],电影作品[人:电影]。
通过上述组织结构对每类知识进行结构化处理,即可得到精确的结构化知识。
所述结构化知识库从各信息中提取的实体词,所述实体词对应的属性词和属性值,所述实体词对应的关系词和关系值进行构建。
优选的,参照图2,从各信息中提取的实体词,所述实体词对应的属性词和属性值,所述实体词对应的关系词和关系值构建所述结构化知识库的步骤包括:
步骤S110,针对抓取的同一知识类别的各知识网站,利用相应知识网站的解析模板解析各知识网站的网页内容,获得实体词,及与实体词相应的属性词和属性值、关系词和关系值;
针对同一知识类别,其提供该类别知识的各种网站,可能以不同的内容构建其该知识类别的网页;那么可获取各网站该知识类别相应的解析模板,解析各网页内容,获得实体词,及与实体词相应的属性词和属性值、关系词和关系值。
优选的,针对抓取的同一知识类别的各网页内容,利用相应网页的解析模板解析各网页内容,获得实体词,及与实体相应的属性词和属性值、关系词和关系值的步骤包括:
步骤S111,对抓取的同一知识类别各知识网站,利用该类别各种子挖掘各知识网站的内容存放格式,获取各知识网站的解析模板;
为了保证知识的精确性,本申请一般抓取垂直知识网站的网页,比如明星类,那么可选择明星类网站。在实际中,各种网站往往已基于客观类别分类完毕,在一些″网址导航″类的页面中,如:http:∥123.sogou.com,往往将全网中的网站基于其主营内容进行客观分类,如[商城]类别下为:淘宝商城、当当购物、新蛋商城、V+名品、苏宁易购等等。对于每一知识类,一般可选择该知识类领域里具有代表性的,排序靠前的和内容丰富的网站。比如明星类网站,可选取搜狐明星库,新浪明星库,网易明星库,腾讯明星库等网站。
对于一特定知识类别,根据该类别知识的知识描述形式,可人工获取小数据分析出种子的种子属性,用于获取该知识类别各网站的解析模板。以明星类为例,人工选取5个较为知名的明星,如:刘德华,张学友,张柏芝,林青霞,李连杰,人工解析出这5位明星的信息,由种子属性和种子属性值组成的二元组的列表,以此作为获取网页解析模板的“种子”,例如:
姓名:刘德华
年龄:50
身高:174
职业:演员歌手
在分析得到″种子″后,对抓取一网站的一个或几个网页内容,将″种子″即种子属性和种子属性值与网页内容进行匹配,比如上述例子中种子属性为:姓名、年龄、身高、职业等,相应种子属性值为:刘德华、50、174、演员歌手等;当种子属性命中时,则将网页内容被种子属性匹配上的内容标记为″种子属性″,当命中种子属性值时,则将网页内容被种子属性值匹配上的内容标记为″种子属性值″,然后分析所述标记,即可挖掘该知识网站的各页面的内容存放格式,然后基于该内容存放格式即可获得网站解析模板。比如参照图3,在搜狐明星资料库中的刘德华的页面如下,其中线框P50内是命中″种子″的种子属性,线框P60之内的部分是命中的″种子″中的种子属性值,粗框是由种子属性和种子属性值来判断出的页面正文范围,并由此获得搜狐网的页面解析模板。再依此方法获取其余三家网站的解析模板。
在实际中,每个网站的解析模板有相应网站的网址进行标记。当对于抓取的网址,首先根据标记的网址与抓取的网址进行比较,采用匹配上的网址的解析模板对抓取的网址的内容进行解析。
即所述的解析模板包括解析范围,待解析的与种子属性对应的种子属性的位置,相应种子属性值对应的种子属性值的位置。
步骤S112,针对所述每一知识网站,利用相应知识网站的解析模板,解析出所述知识网站内与种子属性对应的第一属性词,及与所述第一属性词相应的第一属性值;
比如前述搜狐明星库网站的解析模板,对搜狐明星资料库的各网页内容进行解析,解析出各网页中与种子的种子属性对应的第一属性词,及该网页内容中与所述第一属性词相应的第一属性值。实际中第一属性词与种子属性是相同的。参照图4,其为利用搜狐明星库网站的解析模板解析的另一个明星的网页。
步骤S113,选取各种子属性中与实体词相关的种子属性,将所述与实体词相关的种子属性相应的第一属性词的第一属性值作为实体词;
比如图4中的姓名对应实体词,解析得到的第一属性词为姓名,那么姓名的对应的第一属性值林志颖即为实体词。
步骤S114,选取各种子属性中与属性词相关的种子属性,将所述与属性词相关的种子属性相应的第一属性词作为属性词,将相应第一属性值作为属性值;
比如图4中,性别对应属性词,解析得到的第一属性词为性别时,将性别作为该实体的属性词,相应的第一属性值男作为属性值。
步骤S115,选取各种子属性中与关系词相关的种子属性,将所述与关系词相关的种子属性相应的第一属性词作为关系词,将相应第一属性值作为关系值。
步骤S111至S115,是为了节省获取成本,以最小的人工成本获得各网页内容的实体词,及与实体词相应的属性词和属性值、关系词和关系值,即先选择领域知识网站,之后利用人工小数据挖掘网站数据模板,再用模板解析网站内全部页面信息,获取原始垂直知识,之后再把原始知识利用类别实体模板(比如人模板,车模板)整理成结构化数据。
在前述步骤S111至S115构建结构化知识库时,可构建实体词表、属性词表、关系词表和疑问词表和特殊疑问模板表等表。其中,对于结构化知识库中存储的第一属性词和第一关系词,所述属性词表中包括所述第一属性词的同义词,所述关系词表中包括所述第一关系词的同义词。
比如,对于前述例子中,结构化知识库中,对于明星类,以第一属性词″年龄″存储属性值即年龄大小,那么在建立属性词表时,可将″年龄″的同义词″年纪″加入属性词表中,并可与年龄进行对应。同理,对于关系词表,当以关系词″配偶″存储属性值时,可将″配偶″的同义词″爱人″加入关系词表,并可与″配偶″对应。
步骤S120,针对网页内容中的同一实体词,以:实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的结构存入结构化知识库。
比如将解析图4中得到[实体词-林志颖],[属性词-性别]-[属性值-男],[属性-生日]-[属性值-1974-10-15]等以实体词、属性词、属性值、关系词、关系值存入结构化知识库。
另外,为了优化结构化知识库,本申请可根据全网用户的用户行为进行更新维护。
优选的,优化步骤包括:
针对所述结构化知识库中每一实体的属性值、和/或关系值,根据用户的触发信息进行优化;
即利用用户的主动触发信息对结构化知识库进行优化和修正,主动触发信息就是本申请在展示的位置让用户可以根据自己的满意程度做反馈,如果有较多的用户反映不满意,则需要关注;特别是对于有多条结果的属性,可以让用户选择认可哪一个答案,由此对结构化知识库的各条信息提供可信度的依据,进而经分析判断后,更新结构化知识库中对应实体的属性值和/或关系值。
和/或,针对所述结构化知识库中各实体属性值、和/或关系值,根据分析用户的搜索行为日志得到的所述属性值、和/或关系值的可信度进行优化。
本申请也可以利用被动信息对结构化知识库进行优化和修正,被动信息就是当用户输入查询后的一系列操作,比如是否点击其他结果,页面停留时间,搜索的后续行为等,以此来挖掘数据的可信度信息,由此对结构化知识库的各条信息提供可信度的依据,进而经分析判断后,更新结构化知识库中对应实体的属性值和/或关系值。
基于结构化知识库,如图1所示,本申请的搜索方法包括:
步骤110,接收查询词串,并解析所述查询词串中各词所属的词性;所述词性包括实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值;
在本申请中,在构建结构化知识库时,标注实体词、属性词、和/或与属性词对应的属性值、关系词、与关系词对应的关系值。本申请可根据用户搜索问题的日志分析并提取疑问词。
优选的,解析所述查询词串中各词所属的词性时包括:
步骤A1,针对所述查询词串,遍历实体词表,获得各实体词;
在本申请中,在解析所述查询词串中各词的词性时,需要首先利用实体词表,标注查询词串中的实体词,利用实体词所属类别确定后续的属性词、疑问词和关系词的范围,提高解析效率。比如解析出实体词为刘德华,则确定查询词串所属类别为明星类,则在明星类范围内标注后续的属性词、疑问词和关系词等。
步骤A2,根据各实体词所属类别,遍历相应类别中的属性词表、关系词表和疑问词表和特殊疑问模板表,标注查询词串中的各属性词、各关系词、各疑问词;
在实体词所属范围内,利用属性词表、关系词表和疑问词表和特殊疑问模板表,获得属性词、和/或关系词、和/或疑问词。另外本申请中还存在停用词表,用于标注停用词。其中停用词为完全没有意思的词或本身有语义,但不会影响问题的主要意思的词,比如:″的″,″目前″,″你知道″,″能否告诉我″,″详细″等。
其中属性词表中包括属性词和其同义词,″身高|高度″,″体重|重量|分量″,″出生日期|生日|出生日″,″职业|工作|职位″等。
另外,还可标注疑问词等,例如″是什么″,″叫什么″,″有哪些″等。
其中,特殊疑问模板表中的各特殊疑问模板与属性词对应:特殊疑问模板用于针对一些属性的提问可能并不会出现属性本身,所以需要保存一些模板来映射到相应的属性上的情况,比如明星类中″XXX多大了″中的″多大了″->年龄,″XXX干什么的″中的″干什么的″->职业等。即所述特殊疑问方式模板表中各特殊疑问方式模板与属性词对应。
那么比如对于比如″刘德华的身高是多少?″,系统会标记为″[实体词|刘德华][停用词|的][属性词|身高][疑问词|是多少?]″。
另外,在接收查询词串之后还包括:针对所述查询词串,遍历特殊词表,获得特殊词。
所述特殊词用于,当所述查询词串是复合查询时,将复合查询分解为简单查询,比如嵌套查询或者并列查询。所述特殊词比如″和″″并″等。其中嵌套查询就是用户在一次查询中包含至少两个有递进关系的简单问题,比如用户查询″刘德华的老婆是干什么的?″,其实这个问题可以分解为两个简单问题,″刘德华的老婆是谁?″和″她是做什么的?″。并列查询就是指用户在一次查询中对同一个实体的两个或两个以上的属性进行查询,或者是用户在一个查询中对两个或两个以上实体的同一个属性进行查询,比如″刘德华的身高体重是多少?″或者″刘德华和张学友的身高是多少?″。
对于得到特殊词后,需要在步骤120中进行进一步的查询结构处理。
步骤A3,当所述查询词串中的属性词存在相应的属性值时,对应标注各属性值;当所述查询词串中的关系词存在相应的关系值时,对应标注各关系值。
即某些问题是通过属性和属性值,或者关系和关系值提问的,标注出属性词或者关系词后,可进一步判断,属性词是否存在相应的属性值,判断关系词是否存在相应的关系值。比如″具有博士学历的明星是谁″,标记出[属性词|学历]后,判断学历对应的属性值为[博士]。
步骤120,根据所述查询词串中各词所属的词性,确认查询词串对应匹配的查询结构及该查询结构中的查询对象;
其中,所述查询结构是实体词、属性词、与属性词对应的属性值、关系词、与关系词对应的关系值中一种或几种的组合。
在实际中,用户的查询方式可归纳为四种查询方式,那么对于用户的查询词串,即根据属性查询实体,根据实体查询属性,根据实体和关系查询属性,根据实体和实体查询关系。一般情况下,结构化知识库中,一实体词是以一个属性词进行存储,一个关系词进行存储,对于步骤110得到属性词和关系词,可根据同义词表将标注得到的属性词和/或关系词对应到结构化知识库中。比如结构化中对于明星类别中″刘德华″的以属性词″身高″进行存储,如果从查询词串中获取的属性词为″高度″,那么″高度″即可对应到″身高″;又比如以″职业″进行存储,那么从查询词串中获取的属性词为″工作″或″职位″,那么可根据同义词表存对应至″职业″。
优选的,确认所述查询词串中各词的词性匹配的查询结构及该查询结构中的查询对象时包括:
1)当得到实体词和属性词时,确认查询结构为根据实体和属性查询属性值;
即根据实体查询属性,也即根据实体词和属性词查询对应的属性值。比如用户查询″刘德华身高″,根据前述步骤得到实体是[刘德华],属于明星类别,相关的属性是[身高],可以明确的把查询结构确认为[刘德华]->[身高]->[?],所查询的目标对象[?]为身高的属性值。然后进入步骤130。
另外,当除得到实体词和属性词外,还得到疑问词时,则查询对象为根据实体词和属性词查询对应的属性值。比如用户查询″刘德华的身高是多少?″,根据前述步骤得到实体是[刘德华],属于明星类别,相关的属性是[身高],句式为[特殊疑问句],根据查询结构对应的模板的匹配,可以明确的把查询结构确认为[刘德华]->[身高]->[?],查询目标对象[?]为身高的属性值。然后进入步骤130。
2)当得到属性词及相应的属性值,确认查询结构为根据属性和属性值查询实体词;
在本步骤中,还需要标注出实体所属的类别,具体可根据实体对应的类别词对查询词串进行标注。
根据属性查询实体,即根据属性词和属性值查询实体。其中,当除得到属性词和相应的属性值外,还得到疑问词时,则加入疑问词进行查询结构的确认。比如用户查询″有博士学位的明星是谁?″,本申请首先会标注出实体[?]根据实体查询词串中的[明星]定位出用户查询的结果是明星类的一个实体[?],这个实体的属性是[学历],属性值是[博士],根据查询结构模板进行匹配,可以明确的把查询解析为[?]->[学历]->[博士]。然后进入步骤130。
3)当得到实体词和关系词,确认查询结构为根据实体词和关系词查询关系值;
根据实体和关系查询属性,即根据实体词和关系词查询关系值。其中,当除得到实体词和关系词外,还得到疑问词时,则加入疑问词进行查询结构的确认。比如用户查询″刘德华的老婆是谁?″,本申请根据前述标注出实体是[刘德华],属于明星类别,相应的关系是[老婆],根据同义词表对应到知识库中实体的属性是[配偶],根据查询结构模板,可以把用户的查询解析为[刘德华]->[配偶]->[?]。然后进入步骤130。
4)当得到实体词、实体词和关系词,确认查询结构为根据实体词和实体词查询关系值。
实体和实体查询关系,即根据实体词、实体词和关系词查关系值。其中,当除得到实体词、实体词和关系词外,还得到疑问词时,则加入疑问词进行查询结构的确认。比如用户查询″刘德华和朱丽倩是什么关系?″,本申请首先标注实体[刘德华]和[朱丽倩],且明确两个实体的类别都为[明星类],进一步类别为[人],之后分别检索两个实体中对应[人]实体的关系,即[刘德华]->关系?[人:人]->[朱丽倩]和[朱丽倩]->关系?[人:人]->[刘德华],然后进入步骤130。
确认所述查询词串对应匹配的查询结构及该查询结构中的查询对象时包括:
根据复合查询模板,利用特殊词连同实体词、属性词、与属性词对应的属性值、关系词、与关系词对应的关系值、疑问词中的一种或几种与所述复合查询模板进行匹配,得到查询词串的提问类型;
如前所述,用户可能使用复合查询,也就是说用户将多个问题整合到一起进行查询,这样就需要先将复合问题进行分解后再做回答。比如前述嵌套查询和并列查询。本申请在通过特殊词表标注得到与复合问题相关的特殊词后,与复合问题查询模板进行匹配,判断是否为复合问题并且该复合问题属于哪一类复合问题。
根据得到查询词串的提问类型,将复合问题分解为相应的简单问题;针对每个简单问题,确认所述查询词串中各词的词性对应匹配的查询结构及该查询结构中的查询对象;再对简单问题对应的标注词性,确认所述查询词串中各词所属的词性所匹配的查询结构及该查询结构中的查询对象。然后转入步骤130。
优选的,根据得到查询词串的提问类型,将复合问题分解为相应的简单问题时包括:
步骤c1,当得到查询词串的提问类型表示所述复合问题为嵌套问题时,将嵌套问题按嵌套问题的嵌套顺序逐层分解为简单子问题;
比如用户查询″刘德华的老婆是干什么的?″,其实这个问题可以分解为两个简单问题,″刘德华的老婆是谁?″和″她是做什么的?″。
在实际中,对于复合问题往往通过复合查询模板结合特殊词进行判断,从而得到查询词串的提问类型的。比如″刘德华的老婆是干什么的?″其标注出[实体词-刘德华]、[特殊词-的]、[关系词-老婆]、[属性词-职业],根据标注的顺序与复合问题模板进行匹配判断,比如[实体词]->[特殊词]->[关系词]->[职业]->[?],则该复合问题模板为嵌套问题模板,并且对应嵌套问题模板及顺序为:1、[实体词]->[关系词]->[?];2、[关系值]->[职业]->[?]。如此,即可判定″刘德华的老婆是干什么的?″是一个嵌套问题,并且按顺序可将嵌套问题按嵌套问题模板的嵌套顺序逐层分解为简单子问题:″刘德华的老婆是谁?″和″她是做什么的?″。
进一步的,针对嵌套问题的各简单问题,在获取查询对象值时包括:
将嵌套问题分解得到的简单子问题,按嵌套问题的嵌套顺序逐个在结构化知识库中进行查询,从而获取查询对象对应的对象值。
即嵌套问题存在一定顺序,需要按顺序进行解答。比如前述″刘德华的老婆是干什么的?″分解得到的″刘德华的老婆是谁?″和″她是做什么的?″,需要回答了第一个问题才能回答第二个问题。
步骤c2,当得到查询词串的提问类型表示所述复合问题为并列问题时,根据复合问题所含特殊词中的并列词,将复合问题分解为各简单子问题。
比如前述比如″刘德华的身高体重是多少?″分解为″刘德华的身高是多少?″和″刘德华的体重是多少?″;对于″刘德华和张学友的身高是多少?″分解为″刘德华的身高是多少?″和″张学友的身高是多少?″。
实际中对于并列问题的判定,也是通过复合查询模板进行判断得到查询词串的提问类型的。比如″刘德华和张学友的身高是多少?″标注为[实体词-刘德华]、[特殊词-和]、[实体词-张学友]、[属性词-身高],而复合问题模板为[实体词]->[特殊词]->[实体词]->[属性词]->[?],那么该模板为并列关系,对应的简单问题模板为[实体词]->[属性词]->[?]和[实体词]->[属性词]->[?],两个实体词分别与属性词匹配构成两个简单问题模板。如此″刘德华和张学友的身高是多少?″可分解为″刘德华的身高是多少?″和″张学友的身高是多少?″。
然后进入步骤130。
步骤130,针对所述查询词串对应匹配的查询结构在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值;
针对所属查询词串对应的查询结构,将所述查询结构中的实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值中一种或几种在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值。
步骤140,将所述对象值在查询词串对应的结果区域中进行单独显示。
比如,将查询对象值在通用的搜索结果的侧边栏进行显示,或者在通用搜索结果最前进行显示。比如用户输入″刘德华身高是多少″,得到的查询对象值为″1.73″,则将答案″1.73″针对问题在侧边栏进行显示,或者直接作为搜索结果的一条记录与其他搜索结果一起排序后,在搜索页面中进行显示。
将所述对象值在查询词串对应的结果区域中进行单独显示时包括:
将匹配得到对象值结合所述查询结构,生成自然语言结果进行单独显示。由于得到的对象值为结构化的结果,比如[刘德华]->[身高]->[1.75],该形式不符合自然语言的规则,一般需要将其生成自然语言进行输出,比如前述[刘德华]->[身高]->1.75]生成″刘德华的身高为1.75米。″
本申请采用模板组合的方法。将匹配得到对象值结合所述查询结构,生成自然语言结果进行单独显示时包括:
结合所述查询结构选择问题语言生成模板生成自然语言结果;
问题语言生成模板根据用户查询词串的查询结构来进行获取。比如对于特殊疑问句的查询,比如用户查询″刘德华的身高是多少?″,在问题语言生成模板中获取特殊疑问句对应的查询结果:[实体]->[属性]->[?]的对应模板″[实体]的[属性]是[属性值]″,则给用户生成自然语言回答″刘德华的身高是1.74m″。比如对于一般疑问句的查询,需要先判断用户给出的查询是正确的还是错误的,之后再给出具体的结果,比如用户查询″刘德华的身高是1米92么?″,在问题语言生成模板中会从中获取一般疑问句的查询结果:[实体]->[属性]->[属性值]的对应肯定模板″[肯定],[实体]的[属性]是[属性值]″和否定模板″[否定],实体]的[属性]是[属性值]″,之后对于获取的[刘德华]->[身高]->[?]的知识库中的属性值,然后与用户输入的属性值相比较,如果一致则输出″是的,刘德华的身高是1米92。″,如果不一致可输出″不是,刘德华的身高是1米74。″
依据所述对象值选择答案语言生成模板生成自然语言结果;
答案语言生成模板按查询对象对应的对象值的个数分为单结果展示,多结果展示和特殊结构展示。如果查询对象对应的对象值为单结果,答案语言生成模板调用单结果展示模板,比如″刘德华的身高是多少?″,本系统会回答″刘德华身高是1米74″。如果查询对象对应的对象值为多结果,则答案语言生成模板调用多结果展示模板,比如″刘德华演过哪些电影?″,本系统会回答″刘德华演过的电影有:《天下无贼》,《赌神》,《赌侠》...″,根据结果的类型使用不同的格式来展示结果。如果查询对象对应的对象值是特殊结构,比如″刘德华是什么人?″,系统会命中[人物]->[简介]属性,这样答案语言生成模板会单独调用用户的多项基本属性,按[人物]->[简介]的展示模板生成最终结果,比如:
刘德华
年龄:51 性别:男 婚姻状况:已婚
电影作品:《天下无贼》,《赌神》,《赌侠》
当针对同一问题的查询结构,获得至少两个对象值,并且所述两个查询对象值互相冲突时,标注每个查询对象值的数据来源。对于获取的对象值有冲突时,即系统无法分辨哪个结果为查询词串对应的正确结果的时候,在对象值的结尾表明数据的出处,比如用户查询词串″刘德华的身高是多少?″,本系统识别需求为[刘德华]->[身高]->[?],到结构化知识库中获取到两个对象值,[1米74]和[1米72],而且系统无法判断哪个是正确的,这种情况下本系统会分别生成两个回答,并在回答后面标明答案的出处,让用户自己根据来源来判断数据的可靠性:
[1米74]来自[新浪明星库][搜狐明星库][网易明星库]
[1米71]来自[腾讯明星库]
如此,用户就可以根据自己的经验来判断对象值了,具体的自然语言生成方法,本申请不对其加以限制。
参照图5,其示出了本申请一种搜索系统的结构示意图,包括:
搜索模块410,所述搜索模块410包括:
接收解析模块411,用于接收查询词串,并解析所述查询词串中各词的词性;所述词性包括实体词、属性词、属性词对应的属性值、关系词、与关系词对应的关系值;
所述接收解析模块包括:
第一解析模块,针对所述查询词串,遍历实体词表,获得各实体词;
第二解析模块,根据各实体词所属类别,遍历相应类别中的属性词表、关系词表和疑问词表和特殊疑问模板表,标注查询词串中的各属性词、各关系词、各疑问词;
第三解析模块,当所述查询词串中的属性词存在相应的属性值时,对应标注各属性值;当所述查询词串中的关系词存在相应的关系值时,对应标注各关系值。
其中,针对结构化知识库中存储的第一属性词和第一关系词,所述属性词表中包括所述第一属性词的同义词,所述关系词表中包括所述第一关系词的同义词。
其中,所述特殊疑问方式模板表中各特殊疑问方式模板与属性词对应。
其中,接收查询词串之后还包括:
针对所述查询词串,遍历特殊词表,获得特殊词。
查询结果确认模块412,用于根据所述查询词串中各词的词性,确认查询词串对应匹配的查询结构及该查询结构中的查询对象;
其中,确认所述查询词串中各词的词性匹配的查询结构及该查询结构中的查询对象时包括:
第一结构确认模块,当得到实体词和属性词时,确认查询结构为根据实体和属性查询属性值;
第二结构确认模块,当得到属性词及相应的属性值时,确认查询结构为根据属性和属性值查询实体词;
第三结构确认模块,当得到实体词和关系词时,确认查询结构为根据实体词和关系词查询关系值;
第四结构确认模块,当得到实体词、实体词和关系词时,确认查询结构为根据实体词和实体词查询关系值。
其中,所述查询结果确认模块包括:
复合匹配模块,根据复合查询模板,利用特殊词连同实体词、属性词、与属性词对应的属性值、关系词、与关系词对应的关系值、疑问词中的一种或几种与所述复合查询模板进行匹配,得到查询词串的提问类型;
分解确认模块,根据得到查询词串的提问类型,将复合问题分解为相应的简单问题;针对每个简单问题,确认所述查询词串中各词的词性对应匹配的查询结构及该查询结构中的查询对象。
进一步的,根据匹配结果,将复合问题分解为相应的简单问题时包括:
第一分解模块,当得到查询词串的提问类型表示所述复合问题为嵌套问题时,将嵌套问题按嵌套问题的嵌套顺序逐层分解为简单子问题;
第二分解模块,当得到查询词串的提问类型表示所述复合问题为并列问题时,根据复合问题所含特殊词中的并列词,将复合问题分解为各简单子问题。
进一步的,在获取查询对象值时包括:
第一解答模块,针对有嵌套问题分解得到的简单问题,按嵌套顺序逐个在结构化知识库中获取查询对象值。
匹配查询模块413,用针对所述查询词串对应匹配的查询结构在结构化知识库中进行匹配分析,得到查询对象对应的对象值;
结果输出模块414,用于将所述对象值在查询词串对应的结果区域中进行单独显示。
所述结果输出模块包括:
自然语言生成模块,用于将匹配得到查询对象值,结合所述查询结构,生成自然语言结果进行单独显示。
所述自然语言生成模块包括:
第一生成模块,结合所述查询结构选择问题语言生成模板生成自然语言结果;
第二生成模块,依据所述查询对象值的类型选择答案语言生成模板生成自然语言结果;
第三生成模块,当针对同一问题的查询结构,获得包括至少两个查询对象值,并且所述两个查询对象值互相冲突时,标注每个查询对象值的数据来源。
其中,参照图6还包括:
结构化知识库构建模块310,用于通过从各网页中提取的实体词、所述实体词对应的属性词和属性值、所述实体词对应的关系词和关系值进行构建所述结构化知识库。
所述结构化知识库构建模块310包括:
网页内容解析模块311,用于针对抓取的同一知识类别的各知识网站,利用相应知识网站的解析模板解析各知识网站的网页内容,获得实体词,及与实体词相应的属性词和属性值、关系词和关系值;
其中,所述网页内容解析模块包括:
解析模块获取子模块,用于对抓取的同一知识类别各知识网站,利用该类别各种子的种子属性及种子属性值挖掘各知识网站的内容存放格式,获取各知识网站的解析模板;
内容解析子模块,用于针对所述每一知识网站,利用相应知识网站的解析模板,解析出所述知识网站内与种子属性对应的第一属性词,及与所述第一属性词相应的第一属性值;
第一选取子模块,用于选取各种子属性中与实体词相关的种子属性,将所述与实体词相关的种子属性相应的第一属性词的第一属性值作为实体词;
第二选取子模块,用于选取各种子属性中与属性词相关的种子属性,将所述与属性词相关的种子属性相应的第一属性词作为属性词,将相应第一属性值作为属性值;
第三选取子模块,用于选取各种子属性中与关系词相关的种子属性,将所述与关系词相关的种子属性相应的第一属性词作为关系词,将相应第一属性值作为关系值。
结构化存储模块312,用于针对网页内容中的同一实体词,以实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的结构存入结构化知识库。
所述结构化知识库,用于以:实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的数据结构进行数据存储。
其中,另外,为了优化结构化知识库,还包括:
第一优化模块,针对所述结构化知识库中各实体的属性值、和/或关系值,根据用户的触发信息进行优化;
和/或,第二优化模块,针对所述结构化知识库中各实体的属性值、和/或关系值,根据分析用户的搜索行为日志得到的所述属性值、和/或关系值的可信度,进行优化。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明优选应用于嵌入式系统中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
以上对本申请所提供的一种搜索方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (19)
1.一种搜索方法,其特征在于,包括:
接收查询词串,并解析所述查询词串中各词所属的词性;所述词性包括实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值;
根据所述查询词串中各词所属的词性,确认查询词串对应匹配的查询结构及该查询结构中的查询对象;
针对所述查询结构在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值;
将所述对象值在查询词串对应的结果区域中进行单独显示。
2.根据权利要求1所述的方法,其特征在于,针对所述查询结构在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值,包括:
将所述查询结构中的实体词、属性词、属性词对应的属性值、关系词、关系词对应的关系值中的一种或几种在结构化知识库中进行匹配分析,得到所述查询结构中的查询对象对应的对象值。
3.根据权利要求1所述的方法,其特征在于,解析所述查询词串中各词所属的词性时包括:
针对所述查询词串,遍历实体词表,标注各实体词;
根据各实体词所属类别,遍历相应类别中的属性词表、关系词表和疑问词表和特殊疑问模板表,进而标注查询词串中的各属性词、各关系词、各疑问词;
当所述查询词串中的属性词存在相应的属性值时,对应标注各属性值;当所述查询词串中的关系词存在相应的关系值时,对应标注各关系值。
4.根据权利要求1或3所述的方法,其特征在于,还包括:
通过从各网页中提取的实体词、所述实体词对应的属性词和属性值、所述实体词对应的关系词和关系值构建所述结构化知识库。
5.根据权利要求4所述的方法,其特征在于,所述结构化知识库构建时:
针对抓取的同一知识类别的各知识网站,利用相应知识网站的解析模板解析各知识网站的网页内容,获得实体词及与实体词相应的属性词和属性值、关系词和关系值;
针对同一实体词,以:实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的数据结构存入结构化知识库。
6.根据权利要求5所述的方法,其特征在于,还包括:
对抓取的同一知识类别各知识网站,利用该类别各种子挖掘各知识网站的内容存放格式,获取各知识网站的解析模板;
针对所述每一知识网站,利用相应知识网站的解析模板,解析出所述知识网站内与种子的种子属性对应的第一属性词,及相应的第一属性值;
选取各种子属性中与实体词相关的种子属性,将相应的第一属性词的第一属性值作为实体词;
选取各种子属性中与属性词相关的种子属性,将相应的第一属性词作为属性词,将相应第一属性值作为属性值;
选取各种子属性中与关系词相关的种子属性,将相应的第一属性词作为关系词,将相应第一属性值作为关系值。
7.根据权利要求4所述的方法,其特征在于,还包括:
针对所述结构化知识库中各实体的属性值、和/或关系值,根据用户的触发信息进行优化;
和/或,针对所述结构化知识库中各实体的属性值、和/或关系值,根据分析用户的搜索行为日志得到的所述属性值、和/或关系值的可信度进行优化。
8.根据权利要求3所述的方法,其特征在于:
所述特殊疑问模板表中各特殊疑问模板与属性词对应。
9.根据权利要求1或2所述的方法,其特征在于:
所述查询结构是实体词、属性词、属性值、关系词、关系值中一种或几种的组合。
10.根据权利要求3所述的方法,其特征在于,还包括:
针对所述查询词串遍历特殊词表,获得特殊词。
11.根据权利要求10所述的方法,其特征在于,所述确认查询词串对应匹配的查询结构及该查询结构中的查询对象时包括:
根据复合查询模板,利用特殊词连同实体词、属性词、属性值、关系词、关系值、疑问词中的一种或几种与所述复合查询模板进行匹配,得到查询词串的提问类型;
根据得到查询词串的提问类型,将复合问题分解为相应的简单问题;针对每个简单问题,确认对应匹配的查询结构及该查询结构中的查询对象。
12.根据权利要求11所述的方法,其特征在于,所述根据得到查询词串的提问类型,将复合问题分解为相应的简单问题包括:
当得到查询词串的提问类型表示所述复合问题为嵌套问题时,按嵌套问题的嵌套顺序逐层分解为简单子问题;
当得到查询词串的提问类型表示所述复合问题为并列问题时,根据复合问题所含特殊词中的并列词,将复合问题分解为简单子问题。
13.根据权利要求12所述的方法,其特征在于,所述当得到查询词串的提问类型表示所述复合问题为嵌套问题时,还包括:
将嵌套问题分解得到的简单子问题,按嵌套问题的嵌套顺序逐个在结构化知识库中进行查询,从而获取查询对象对应的对象值。
14.根据权利要求1所述的方法,其特征在于,将所述对象值在查询词串对应的结果区域中进行单独显示时包括:
将匹配得到的对象值结合所述查询结构,生成自然语言结果进行单独显示。
15.根据权利要求1或14所述的方法,其特征在于,还包括:
当针对同一问题的查询结构,获得至少两个冲突的对象值时,标注每个对象值的数据来源。
16.一种搜索系统,其特征在于,包括:
搜索模块,所述搜索模块包括:
接收解析模块,用于接收查询词串,并解析所述查询词串中各词的词性;所述词性包括实体词、属性词、属性词对应的属性值、关系词、与关系词对应的关系值;
查询结果确认模块,用于根据所述查询词串中各词的词性,确认查询词串对应匹配的查询结构及该查询结构中的查询对象;
匹配查询模块,用于针对所述查询词串对应匹配的查询结构在结构化知识库中进行匹配分析,得到查询对象对应的对象值;
结果输出模块,用于将所述对象值在查询词串对应的结果区域中进行单独显示。
17.根据权利要求16所述的系统,其特征在于,还包括:
结构化知识库构建模块,用于通过从各网页中提取的实体词、所述实体词对应的属性词和属性值、所述实体词对应的关系词和关系值进行构建所述结构化知识库。
18.根据权利要求17所述的系统,其特征在于,所述结构化知识库构建模块包括:
网页内容解析模块,用于针对抓取的同一知识类别的各知识网站,利用相应知识网站的解析模板解析各知识网站的网页内容,获得实体词,及与实体词相应的属性词和属性值、关系词和关系值;
结构化存储模块,用于针对网页内容中的同一实体词,以:实体词、实体词对应的属性词、属性词对应的属性值、实体词对应的关系词、关系词对应的关系值的结构存入结构化知识库。
19.根据权利要求16所述的系统,其特征在于,所述结果输出模块包括:
自然语言生成模块,用于将匹配得到的对象值结合所述查询结构,生成自然语言结果进行单独显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101677617A CN103425714A (zh) | 2012-05-25 | 2012-05-25 | 一种搜索方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101677617A CN103425714A (zh) | 2012-05-25 | 2012-05-25 | 一种搜索方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103425714A true CN103425714A (zh) | 2013-12-04 |
Family
ID=49650469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101677617A Pending CN103425714A (zh) | 2012-05-25 | 2012-05-25 | 一种搜索方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103425714A (zh) |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298658A (zh) * | 2014-10-29 | 2015-01-21 | 百度在线网络技术(北京)有限公司 | 获取搜索结果的方法和装置 |
CN104462507A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于影视歌曲数据构建知识图谱的方法和装置 |
CN104462399A (zh) * | 2014-12-11 | 2015-03-25 | 北京百度网讯科技有限公司 | 搜索结果的处理方法及装置 |
CN104462501A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于结构化数据的知识图谱构建方法和装置 |
CN104516949A (zh) * | 2014-12-10 | 2015-04-15 | 北京百度网讯科技有限公司 | 网页数据处理方法和装置、查询处理方法及问答系统 |
CN104615724A (zh) * | 2015-02-06 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 知识库的建立以及基于知识库的信息搜索方法和装置 |
CN104657440A (zh) * | 2015-01-30 | 2015-05-27 | 欧阳江 | 结构化查询语句生成系统及方法 |
CN104850554A (zh) * | 2014-02-14 | 2015-08-19 | 北京搜狗科技发展有限公司 | 一种搜索方法和系统 |
CN105117387A (zh) * | 2015-09-21 | 2015-12-02 | 上海智臻智能网络科技股份有限公司 | 一种智能机器人交互系统 |
WO2015196987A1 (zh) * | 2014-06-24 | 2015-12-30 | 华为技术有限公司 | 支持自然语言的数据查询方法、开放平台及用户终端 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
CN105589945A (zh) * | 2015-12-17 | 2016-05-18 | 华为技术有限公司 | 一种知识库构建方法、控制器 |
CN105677725A (zh) * | 2015-12-30 | 2016-06-15 | 南京途牛科技有限公司 | 一种用于旅游垂直搜索引擎的前置解析方法 |
CN105787134A (zh) * | 2016-04-07 | 2016-07-20 | 上海智臻智能网络科技股份有限公司 | 智能问答方法、装置及系统 |
CN105930362A (zh) * | 2016-04-12 | 2016-09-07 | 晶赞广告(上海)有限公司 | 搜索目标识别方法、装置及终端 |
CN106095932A (zh) * | 2016-06-13 | 2016-11-09 | 竹间智能科技(上海)有限公司 | 百科知识问句识别方法及装置 |
CN106407377A (zh) * | 2016-09-12 | 2017-02-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN106664450A (zh) * | 2014-07-29 | 2017-05-10 | 三星电子株式会社 | 服务器、服务器的信息提供方法、显示装置、显示装置的控制方法以及信息提供系统 |
CN106682221A (zh) * | 2017-01-04 | 2017-05-17 | 上海智臻智能网络科技股份有限公司 | 问答交互的响应方法、装置及问答系统 |
CN106934012A (zh) * | 2017-03-10 | 2017-07-07 | 上海数眼科技发展有限公司 | 一种基于知识图谱的自然语言问答实现方法和系统 |
WO2017173773A1 (zh) * | 2016-04-07 | 2017-10-12 | 北京百度网讯科技有限公司 | 信息搜索方法和装置 |
CN107480183A (zh) * | 2017-07-06 | 2017-12-15 | 广州索答信息科技有限公司 | 一种厨房领域知识图谱查询方法、装置和存储介质 |
CN107895037A (zh) * | 2017-11-28 | 2018-04-10 | 北京百度网讯科技有限公司 | 一种问答数据处理方法、装置、设备和计算机可读介质 |
CN107944025A (zh) * | 2017-12-12 | 2018-04-20 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
CN108197208A (zh) * | 2017-12-28 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 一种数据可信度的确定方法、装置、设备和介质 |
CN108536818A (zh) * | 2018-04-08 | 2018-09-14 | 中国联合网络通信集团有限公司 | 问答语句的生成方法及装置 |
CN108804525A (zh) * | 2018-04-27 | 2018-11-13 | 出门问问信息科技有限公司 | 一种智能回答方法及装置 |
CN108920554A (zh) * | 2018-06-20 | 2018-11-30 | 大国创新智能科技(东莞)有限公司 | 基于大数据与人工智能的创新方法和创新教育机器人系统 |
CN109033076A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 信息挖掘方法和装置 |
CN109684453A (zh) * | 2018-12-26 | 2019-04-26 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
WO2019101210A1 (zh) * | 2017-11-27 | 2019-05-31 | 中兴通讯股份有限公司 | 智能问答方法及装置 |
CN109933672A (zh) * | 2019-02-12 | 2019-06-25 | 北京百度网讯科技有限公司 | 处理查询的方法、装置、电子设备和计算机可读存储介质 |
CN110727862A (zh) * | 2019-09-24 | 2020-01-24 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
CN110909546A (zh) * | 2019-11-27 | 2020-03-24 | 北京声智科技有限公司 | 一种文本数据的处理方法、装置、设备及介质 |
CN111159381A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 数据搜索方法及装置 |
CN111444316A (zh) * | 2020-03-11 | 2020-07-24 | 浙江大学 | 一种面向知识图谱问答的复合问句解析方法 |
CN111753020A (zh) * | 2019-03-28 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 一种建立关系网络模型的方法及装置 |
CN112632106A (zh) * | 2020-12-29 | 2021-04-09 | 重庆农村商业银行股份有限公司 | 一种知识图谱查询方法、装置、设备及存储介质 |
CN113191145A (zh) * | 2021-05-21 | 2021-07-30 | 百度在线网络技术(北京)有限公司 | 关键词的处理方法、装置、电子设备和介质 |
CN113377934A (zh) * | 2021-05-21 | 2021-09-10 | 海南师范大学 | 一种实现智能客服的系统及方法 |
CN113378539A (zh) * | 2021-06-29 | 2021-09-10 | 华南理工大学 | 一种面向标准文档编写的模板推荐方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7783658B1 (en) * | 2007-06-18 | 2010-08-24 | Seisint, Inc. | Multi-entity ontology weighting systems and methods |
JP2011186855A (ja) * | 2010-03-09 | 2011-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 質問推薦装置及び方法及びプログラム |
-
2012
- 2012-05-25 CN CN2012101677617A patent/CN103425714A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7783658B1 (en) * | 2007-06-18 | 2010-08-24 | Seisint, Inc. | Multi-entity ontology weighting systems and methods |
JP2011186855A (ja) * | 2010-03-09 | 2011-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 質問推薦装置及び方法及びプログラム |
Non-Patent Citations (4)
Title |
---|
ADITYA KALYANPUR等: "Fact-Based Question Decomposition for Candidate Answer Re-Ranking", 《CIKM ’11: PROCEEDINGS OF THE 20TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
刘杰等: "基于本体的受限领域问答系统研究", 《广西师范大学学报:自然科学版》 * |
陈康等: "受限领域问答系统的中文问句分析研究", 《计算机工程》 * |
马莉: "基于动态本体知识库的问答系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850554A (zh) * | 2014-02-14 | 2015-08-19 | 北京搜狗科技发展有限公司 | 一种搜索方法和系统 |
CN104850554B (zh) * | 2014-02-14 | 2020-05-19 | 北京搜狗科技发展有限公司 | 一种搜索方法和系统 |
US10558655B2 (en) | 2014-06-24 | 2020-02-11 | Huawei Technologies Co., Ltd. | Data query method supporting natural language, open platform, and user terminal |
US11494376B2 (en) | 2014-06-24 | 2022-11-08 | Huawei Technologies Co., Ltd. | Data query method supporting natural language, open platform, and user terminal |
WO2015196987A1 (zh) * | 2014-06-24 | 2015-12-30 | 华为技术有限公司 | 支持自然语言的数据查询方法、开放平台及用户终端 |
US11934394B2 (en) | 2014-06-24 | 2024-03-19 | Huawei Technologies Co., Ltd. | Data query method supporting natural language, open platform, and user terminal |
US10242586B2 (en) | 2014-07-29 | 2019-03-26 | Samsung Electronics Co., Ltd. | Server, information providing method of server, display apparatus, controlling method of display apparatus and information providing system |
CN106664450A (zh) * | 2014-07-29 | 2017-05-10 | 三星电子株式会社 | 服务器、服务器的信息提供方法、显示装置、显示装置的控制方法以及信息提供系统 |
CN104298658A (zh) * | 2014-10-29 | 2015-01-21 | 百度在线网络技术(北京)有限公司 | 获取搜索结果的方法和装置 |
CN104298658B (zh) * | 2014-10-29 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 获取搜索结果的方法和装置 |
CN104516949A (zh) * | 2014-12-10 | 2015-04-15 | 北京百度网讯科技有限公司 | 网页数据处理方法和装置、查询处理方法及问答系统 |
CN104462399A (zh) * | 2014-12-11 | 2015-03-25 | 北京百度网讯科技有限公司 | 搜索结果的处理方法及装置 |
CN104462399B (zh) * | 2014-12-11 | 2018-04-20 | 北京百度网讯科技有限公司 | 搜索结果的处理方法及装置 |
CN104462501A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于结构化数据的知识图谱构建方法和装置 |
CN104462507A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于影视歌曲数据构建知识图谱的方法和装置 |
CN104657440A (zh) * | 2015-01-30 | 2015-05-27 | 欧阳江 | 结构化查询语句生成系统及方法 |
CN104615724A (zh) * | 2015-02-06 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 知识库的建立以及基于知识库的信息搜索方法和装置 |
CN104615724B (zh) * | 2015-02-06 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 知识库的建立以及基于知识库的信息搜索方法和装置 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
CN105117387A (zh) * | 2015-09-21 | 2015-12-02 | 上海智臻智能网络科技股份有限公司 | 一种智能机器人交互系统 |
WO2017101591A1 (zh) * | 2015-12-17 | 2017-06-22 | 华为技术有限公司 | 一种知识库构建方法、控制器 |
CN105589945A (zh) * | 2015-12-17 | 2016-05-18 | 华为技术有限公司 | 一种知识库构建方法、控制器 |
CN105677725A (zh) * | 2015-12-30 | 2016-06-15 | 南京途牛科技有限公司 | 一种用于旅游垂直搜索引擎的前置解析方法 |
WO2017173773A1 (zh) * | 2016-04-07 | 2017-10-12 | 北京百度网讯科技有限公司 | 信息搜索方法和装置 |
CN105787134B (zh) * | 2016-04-07 | 2019-09-20 | 上海智臻智能网络科技股份有限公司 | 智能问答方法、装置及系统 |
CN105787134A (zh) * | 2016-04-07 | 2016-07-20 | 上海智臻智能网络科技股份有限公司 | 智能问答方法、装置及系统 |
CN105930362A (zh) * | 2016-04-12 | 2016-09-07 | 晶赞广告(上海)有限公司 | 搜索目标识别方法、装置及终端 |
CN105930362B (zh) * | 2016-04-12 | 2019-03-12 | 晶赞广告(上海)有限公司 | 搜索目标识别方法、装置及终端 |
CN106095932A (zh) * | 2016-06-13 | 2016-11-09 | 竹间智能科技(上海)有限公司 | 百科知识问句识别方法及装置 |
CN106407377B (zh) * | 2016-09-12 | 2020-03-03 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN106407377A (zh) * | 2016-09-12 | 2017-02-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN106682221A (zh) * | 2017-01-04 | 2017-05-17 | 上海智臻智能网络科技股份有限公司 | 问答交互的响应方法、装置及问答系统 |
CN106934012A (zh) * | 2017-03-10 | 2017-07-07 | 上海数眼科技发展有限公司 | 一种基于知识图谱的自然语言问答实现方法和系统 |
CN106934012B (zh) * | 2017-03-10 | 2020-05-08 | 上海数眼科技发展有限公司 | 一种基于知识图谱的自然语言问答实现方法和系统 |
CN107480183A (zh) * | 2017-07-06 | 2017-12-15 | 广州索答信息科技有限公司 | 一种厨房领域知识图谱查询方法、装置和存储介质 |
WO2019101210A1 (zh) * | 2017-11-27 | 2019-05-31 | 中兴通讯股份有限公司 | 智能问答方法及装置 |
CN107895037B (zh) * | 2017-11-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 一种问答数据处理方法、装置、设备和计算机可读介质 |
CN107895037A (zh) * | 2017-11-28 | 2018-04-10 | 北京百度网讯科技有限公司 | 一种问答数据处理方法、装置、设备和计算机可读介质 |
CN107944025A (zh) * | 2017-12-12 | 2018-04-20 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
CN108197208A (zh) * | 2017-12-28 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 一种数据可信度的确定方法、装置、设备和介质 |
CN108536818A (zh) * | 2018-04-08 | 2018-09-14 | 中国联合网络通信集团有限公司 | 问答语句的生成方法及装置 |
CN108804525A (zh) * | 2018-04-27 | 2018-11-13 | 出门问问信息科技有限公司 | 一种智能回答方法及装置 |
CN108804525B (zh) * | 2018-04-27 | 2021-04-13 | 出门问问信息科技有限公司 | 一种智能回答方法及装置 |
CN108920554A (zh) * | 2018-06-20 | 2018-11-30 | 大国创新智能科技(东莞)有限公司 | 基于大数据与人工智能的创新方法和创新教育机器人系统 |
CN108920554B (zh) * | 2018-06-20 | 2020-12-22 | 大国创新智能科技(东莞)有限公司 | 基于大数据与人工智能的创新方法和创新教育机器人系统 |
CN109033076A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 信息挖掘方法和装置 |
CN109684453A (zh) * | 2018-12-26 | 2019-04-26 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN109933672A (zh) * | 2019-02-12 | 2019-06-25 | 北京百度网讯科技有限公司 | 处理查询的方法、装置、电子设备和计算机可读存储介质 |
CN109933672B (zh) * | 2019-02-12 | 2021-09-07 | 北京百度网讯科技有限公司 | 处理查询的方法、装置、电子设备和计算机可读存储介质 |
CN111753020A (zh) * | 2019-03-28 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 一种建立关系网络模型的方法及装置 |
CN110727862A (zh) * | 2019-09-24 | 2020-01-24 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
CN110727862B (zh) * | 2019-09-24 | 2022-11-08 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
CN110909546A (zh) * | 2019-11-27 | 2020-03-24 | 北京声智科技有限公司 | 一种文本数据的处理方法、装置、设备及介质 |
CN111159381B (zh) * | 2019-12-31 | 2023-05-26 | 中国银行股份有限公司 | 数据搜索方法及装置 |
CN111159381A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 数据搜索方法及装置 |
CN111444316B (zh) * | 2020-03-11 | 2023-08-29 | 浙江大学 | 一种面向知识图谱问答的复合问句解析方法 |
CN111444316A (zh) * | 2020-03-11 | 2020-07-24 | 浙江大学 | 一种面向知识图谱问答的复合问句解析方法 |
CN112632106B (zh) * | 2020-12-29 | 2023-05-23 | 重庆农村商业银行股份有限公司 | 一种知识图谱查询方法、装置、设备及存储介质 |
CN112632106A (zh) * | 2020-12-29 | 2021-04-09 | 重庆农村商业银行股份有限公司 | 一种知识图谱查询方法、装置、设备及存储介质 |
CN113377934B (zh) * | 2021-05-21 | 2022-07-05 | 海南师范大学 | 一种实现智能客服的系统及方法 |
CN113377934A (zh) * | 2021-05-21 | 2021-09-10 | 海南师范大学 | 一种实现智能客服的系统及方法 |
CN113191145B (zh) * | 2021-05-21 | 2023-08-11 | 百度在线网络技术(北京)有限公司 | 关键词的处理方法、装置、电子设备和介质 |
CN113191145A (zh) * | 2021-05-21 | 2021-07-30 | 百度在线网络技术(北京)有限公司 | 关键词的处理方法、装置、电子设备和介质 |
CN113378539A (zh) * | 2021-06-29 | 2021-09-10 | 华南理工大学 | 一种面向标准文档编写的模板推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103425714A (zh) | 一种搜索方法和系统 | |
CN102073725B (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
CN101796511B (zh) | 标识间接引语中的语义关系 | |
US20240028607A1 (en) | Facilitating data transformations | |
CN102073726B (zh) | 搜索引擎系统的结构化数据的引入方法和装置 | |
CN102955848B (zh) | 一种基于语义的三维模型检索系统和方法 | |
EP3671526B1 (en) | Dependency graph based natural language processing | |
CN101114294A (zh) | 自助式智能垂直搜索方法 | |
CN101697109A (zh) | 一种获取输入法候选项的方法及系统 | |
CN105956137A (zh) | 一种搜索方法、搜索装置及一种搜索引擎系统 | |
US8515986B2 (en) | Query pattern generation for answers coverage expansion | |
Sheth | Semantic Services, Interoperability and Web Applications: Emerging Concepts: Emerging Concepts | |
Maynard et al. | Ontology-based information extraction for market monitoring and technology watch | |
CN103250129A (zh) | 使用具有受限结构的文本提供具有延迟类型评估的问答 | |
US20120323905A1 (en) | Ranking data utilizing attributes associated with semantic sub-keys | |
EP3077918A1 (en) | Systems and methods for in-memory database search | |
Van Hooland et al. | Evaluating the success of vocabulary reconciliation for cultural heritage collections | |
WO2013071305A2 (en) | Systems and methods for manipulating data using natural language commands | |
CN102360367A (zh) | 一种xbrl数据搜索方法及搜索引擎 | |
US20110119261A1 (en) | Searching using semantic keys | |
US20120317141A1 (en) | System and method for ordering of semantic sub-keys | |
Ferrández et al. | A framework for enriching Data Warehouse analysis with Question Answering systems | |
US20120323904A1 (en) | Automatic generation of a search query | |
Silva et al. | A multi-layer framework for semantic modeling | |
Ajoudanian et al. | Deep web content mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20131204 |