CN104462399A - 搜索结果的处理方法及装置 - Google Patents
搜索结果的处理方法及装置 Download PDFInfo
- Publication number
- CN104462399A CN104462399A CN201410758984.XA CN201410758984A CN104462399A CN 104462399 A CN104462399 A CN 104462399A CN 201410758984 A CN201410758984 A CN 201410758984A CN 104462399 A CN104462399 A CN 104462399A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- knowledge point
- search results
- search
- described search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种搜索结果的处理方法及装置。所述处理方法包括:根据搜索词获取多个搜索结果条目;从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;根据所述相关度值对所述多个搜索结果条目进行排序。本发明实施例的搜索结果的处理方法及装置与现有技术相比更符合用户的需求,提高了搜索结果与用户需求的匹配度。
Description
技术领域
本发明涉及搜索技术,尤其涉及一种搜索结果的处理方法及装置。
背景技术
搜索引擎的首要任务提升搜索相关性。现有技术中,提升搜索相关性主要考虑网页质量、搜索词与网页的相关性等因素。其中,搜索词与网页的相关性,主要依赖于搜索词中使用的术语,例如,术语在当前搜索词中的重要性、术语间的紧密程度以及其在网页中的表现形式(是否紧密出现,术语在该网页中是否相对重要等)。
然而,运用现有技术处理后的搜索结果在某些情况下并不符合用户的需求。图1是示出搜索词为“莱美健身课程有哪些”的搜索结果条目的示例性示意图。如图1所示,前两个搜索结果条目“在哪里学习莱美健身课程”以及“什么是莱美健身课程”都没有给出用户所需求的课程,使得搜索结果与用户需求的匹配度较差。
发明内容
本发明实施例的目的在于,提供一种搜索结果的处理方法及装置,通过对搜索结果与搜索词进行语义相关度计算,使得搜索结果更符合用户的需求,提高搜索结果与用户需求的匹配度。
为实现上述发明目的,本发明的实施例提供了一种搜索结果的处理方法,包括:根据搜索词获取多个搜索结果条目;从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;根据所述相关度值对所述多个搜索结果条目进行排序。
本发明的实施例还提供了一种搜索结果的处理装置,包括:搜索结果条目获取模块,用于根据搜索词获取多个搜索结果条目;知识网络获取模块,用于从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;相关度值计算模块,用于通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;搜索结果条目排序模块,用于根据所述相关度值对所述多个搜索结果条目进行排序。
本发明实施例提供的搜索结果的处理方法及装置通过从内容知识库中分别获取多个搜索结果条目的知识网络,并对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度,提高用户的搜索体验。此外,还可生成反映搜索主题的内容摘要,进一步为用户提供核心内容的信息。
附图说明
图1是示出在现有技术中搜索结果条目的示例性示意图;
图2是示出本发明实施例一的搜索结果的处理方法的流程图;
图3是示出图1中的搜索词的结构分析结果的示例性示意图;
图4是示出图1中第一个搜索结果条目的知识网络结构分析结果的示例性示意图;
图5是示出图1中第二个搜索结果条目的知识网络结构分析结果的示例性示意图;
图6是示出图1中第三个搜索结果条目的知识网络结构分析结果的示例性示意图;
图7是示出本发明实施例二的搜索结果的处理装置的逻辑框图。
具体实施方式
本发明的基本构思是,从内容知识库中分别获取多个搜索结果条目的知识网络,并对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求。
下面结合附图对本发明实施例一种搜索结果的处理方法及装置进行详细描述。
实施例一
图2是示出本发明实施例一的搜索结果的处理方法的流程图。可在例如搜索引擎服务器上执行所述方法。所述搜索结果的处理方法包括如下步骤:
步骤101:根据搜索词获取多个搜索结果条目。
搜索引擎服务器可使用搜索词运用现有的搜索技术(例如,从预先编制的网页索引)获取多个搜索结果条目。
步骤102:从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络包括多个内容知识点数据。
具体的,可在线下对每个搜索结果条目的内容文本进行分句以及词法句法分析,从而提取到多个内容知识点数据,并将这多个内容知识点数据进行合并得到知识网络,并且将多个搜索结果条目的知识网络保存到内容知识库中。本申请人在同日提交的另一件名称为“生成文本摘要的方法及装置”的专利申请中记载了一种用于从内容文本生成内容知识库的技术。需要说明的是,所述内容知识库的生成不仅限于前述专利申请记载的方法,还可运用其它知识点挖掘技术在线下建立内容知识库。
此外,还可以根据常识知识库对搜索词进行语法语义分析得到知识点数据。需要说明的是对搜索词进行语法语义分析,也就是根据常识知识库对搜索词进行重要性和紧密度的分析,具体的,线下分析每个搜索结果条目,并抽取知识点,同时将每个知识点作为一个常识知识单独保存在常识知识库中,对搜索词进行结构分析时,就可以依据常识知识库确认哪些术语非常重要,哪些术语不是很重要,重要性不高的术语再结合上下文情况可以省略掉。
步骤103:通过对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配分别计算搜索词和搜索结果条目之间的相关度值。
如前所述,根据本发明的示例性实施例,可对搜索词分别和每个搜索结果条目的知识网络进行如下的处理:对搜索词进行词法句法分析得到至少一个搜索知识点数据,将搜索知识点数据分别与知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算搜索词和每个搜索结果条目之间的相关度值。
具体地,根据本发明的示例性实施例,对任一搜索结果条目,将搜索知识点数据与知识网络进行结构表示,将搜索知识点数据的结构表示与知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据结构的匹配强度计算搜索词和搜索结果条目的相关度值。
优选地,将搜索知识点数据与知识网络进行结构表示,并将搜索知识点数据的结构表示与知识网络中知识点的结构表示进行匹配得到匹配强度的处理。具体可包括:获取搜索知识点数据的核心结构和非核心结构,根据知识网络中知识点的结构表示与搜索知识点数据的核心结构和非核心结构的匹配确定搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。这里需要说明的是,每个所述匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。以下将对前述五种匹配强度给予具体描述。
首先,将搜索知识点数据的结构表示以及知识网络中知识点的结构表示均表示为(e1,e2,r,p),其中r可以是动词关系、名词属性、非明确关系,p表示r发生时的条件(主要针对动词而言),e1和e2是关系r关联的两个直接实体。可将前述匹配强度定义为:
(1)完全匹配:如果搜索知识点数据和知识网络中知识点的结构的e1,e2,r,p均完全匹配上,则核心结构或非核心结构和知识网络的匹配强度为完全匹配;
(2)核心成分匹配:如果搜索知识点数据和知识网络中知识点的结构的e1,e2,r完全匹配,p没有或部分匹配上,则核心结构或非核心结构和知识网络的匹配强度为核心成分匹配;
(3)限制成分强匹配:如果搜索知识点数据和知识网络中知识点的结构的r均为限定关系,且e1与e2完全匹配上,则核心结构或非核心结构和知识网络的匹配强度为限制成分强匹配,
(4)限制成分弱匹配:如果搜索知识点数据和知识网络中知识点的结构的r均为限定关系,且e1与e2没有匹配上,则核心结构或非核心结构和知识网络的匹配强度为限制成分弱匹配,
(5)无法匹配:如果搜索知识点数据和知识网络中知识点的结构的r没有匹配上或e1与e2没有匹配上,则核心结构或非核心结构和知识网络的匹配强度为无法匹配。
优选地,可通过以下公式执行搜索词和搜索结果条目的相关度值的计算:
其中,(e1,e2,r,p)为搜索知识点的结构表示,其中,r为动词关系或名词属性或限定关系,p为r发生时的条件,e1和e2是与r相关联的两个实体,
其中,query为搜索词,url为根据搜索词进行得到的搜索结果条目,m为核心结构的数量,αj为与核心结构和知识网络中知识点的结构的匹配强度相对应的权重值,n为非核心结构的数量,βj为非核心结构与知识网络中知识点的结构的匹配强度相对应的权重值。
步骤104:根据计算的相关度值对多个搜索结果条目进行排序。
可选地,步骤104可包括,以计算的相关度值作为多个衡量指标之一对所述多个搜索结果条目进行排序。
通过该搜索结果的处理方法,能够对搜索词和从内容知识库中获取的多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度。
在此基础上,为方便用户对长文本内容快速了解,可以为任一搜索结果条目生成简短的具有核心主题的内容摘要。
为此根据本发明优选实施例的搜索结果的处理方法还可以包括:
为任一搜索结果条目,根据搜索结果条目的知识网络生成内容摘要。具体的,可以过滤掉知识网络中与搜索词不相关的知识点数据,然后按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。
下面结合具体的处理示例,来进一步更直观地说明一下本发明实施例的具体应用。
例如,在搜索引擎中键入“莱美健身课程有哪些”的搜索词,如图1所示,获取到多个搜索结果条目,再从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络都包含多个内容知识点数据,然后对搜索词进行结构分析,也就是对搜索词进行词法句法分析得到搜索知识点数据,再将搜索知识点数据进行结构表示。图3是示出图1中搜索词“莱美健身课程有哪些”的结构分析结果的示例性示意图。参照图3,其中莱美是一个实体词,通过查询常识知识库可以得出“莱美”有健身体系、相机商标、药业、健身企业四个义项,且具有课程这一属性的就只有健身体系和健身企业两个义项,由于这两个义项都是与健身相关,则搜索词中的术语“健身”其重要性不再高,且其跟“莱美”和“课程”的紧密度也不再大,最终对该搜索词进行结构分析的结果为图中大方框标记的内容,即莱美、课程、答案。
然后对任一搜索结果条目的知识网络进行结构分析,得到知识网络中知识点的结构表示,图4是示出图1中第一个搜索结果条目的知识网络结构分析结果的的示例性示意图,其中还包含了另一个百度知道的内容。再参照图5,图5是示出图1中第二个搜索结果条目的知识网络结构分析结果的的示例性示意图。在图5示出结构分析结果的的示例性示意图中去除了“新浪博客”等描述网站本身信息的子串。图6是示出图1中第三个搜索结果条目的知识网络结构分析结果的的示例性示意图,其中,通过查询常识知识库得知BodyCombat、BodyPump、BobyBalanc都属于课程名称,它们的上位词就是课程。
此后,依据搜索知识点数据的结构表示与知识网络中知识点的结构表示,对搜索词“莱美健身课程有哪些”和多个搜索结果条目的知识网络中知识点进行知识点的结构匹配。具体的,针对搜索词中搜索知识点数据的结构,可根据搜索词中是否含有问题类型(lexical answer type,LAT)划分为两大类结构,如下:核心结构:含有LAT的词条,例如,“课程”就是该搜索词的LAT,即用户所要答案的类型或是上位词,则含有“课程”的结构都是核心结构;非核心结构:不含有LAT词条,例如,“莱美健身课程45音乐有哪些”,除了“课程、音乐、答案”这个结构外,如“莱美、课程”“45、课程”都是非核心结构。
在进行结构匹配时,就需要从核心结构是否一致以及非核心结构是否一致这两方面进行考虑。这里需要说明的是,如果搜索词结构含有LAT,搜索结果条目的结构对应的是LAT的下位词,例如,图1中的第三个搜索结果条目,BodyCombat的上位词是课程,即LAT课程的下位词BodyCombat,则这两个结构属于完全匹配,即(e1=莱美,e2=课程,r=答案)与(e1=莱美,e2=课程,r=BodyCombat)完全匹配。
然后,根据结构匹配强度进一步计算搜索词和搜索结果条目的相关度值。在得到匹配强度之后,就可以根据前述相关度值计算公式执行搜索词和搜索结果条目的相关度值的计算。这里需要说明的是,在相关度值计算公式中,针对核心结构,每个匹配强度类型都有一个权重(对应αj),同样针对非核心结构,每个匹配强度类型都有一个权重(对应βj),这两个权重的训练可以通过机器学习模型中的逻辑回归模型完成。
实施例二
图7是示出本发明实施例二的搜索结果的处理装置的逻辑框图。参照图7,所述搜索结果的处理装置包括:搜索结果条目获取模块201、知识网络获取模块202、相关度值计算模块203以及搜索结果条目排序模块204。
搜索结果条目获取模块201用于根据搜索词获取多个搜索结果条目。
知识网络获取模块202用于从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网络包括多个内容知识点数据。
相关度值计算模块203用于通过对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配分别计算搜索词和搜索结果条目之间的相关度值。
优选地,相关度值计算模块203包括:搜索词词法句法分析单元,用于对搜索词进行词法句法分析得到至少一个搜索知识点数据;相关度值计算单元,用于将搜索知识点数据分别与知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算搜索词和搜索结果条目之间的相关度值。
优选地,相关度值计算单元用于对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。
优选地,相关度值计算单元用于通过以下步骤执行将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理,具体可包括:获取所述搜索知识点数据的核心结构和非核心结构,根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。
优选地,每个匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。
优选地,相关度值计算单元203用于通过以下公式执行根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理:
其中,(e1,e2,r,p)为所述搜索知识点的结构表示,其中,r为动词关系或名词属性或限定关系,p为r发生时的条件,e1和e2是与r相关联的两个实体,
其中,query为搜索词,url为根据所述搜索词进行得到的搜索结果条目,m为所述核心结构的数量,αj为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的权重值,n为所述非核心结构的数量,βj为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。
搜索结果条目排序模块204用于根据相关度值对多个搜索结果条目进行排序。
优选地,所述处理装置还包括:内容摘要生成模块,用于为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。
进一步地,所述内容摘要生成模块用于过滤掉所述知识网络中与所述搜索词不相关的知识点数据,并且按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。
优选地,所述处理装置还包括:搜索词语法语义分析模块,用于根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。
通过该搜索结果的处理装置,能够对搜索词和从内容知识库中获取的多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜索结果与用户需求的匹配度,提高用户的搜索体验。此外,还可生成反映搜索主题的内容摘要,进一步为用户提供核心内容的信息。
在本发明所提供的几个实施例中,应该理解到,所公开的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种搜索结果的处理方法,其特征在于,所述方法包括:
根据搜索词获取多个搜索结果条目;
从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;
通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;
根据所述相关度值对所述多个搜索结果条目进行排序。
2.根据权利要求1所述的处理方法,其特征在于,所述处理方法还包括:
为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。
3.根据权利要求2所述的处理方法,其特征在于,所述为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要的处理包括:
过滤掉所述知识网络中与所述搜索词不相关的知识点数据,
按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。
4.根据权利要求1~3中任一项所述的处理方法,其特征在于,所述通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值的处理包括:
对所述搜索词进行词法句法分析得到至少一个搜索知识点数据,
将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值。
5.根据权利要求4所述的处理方法,其特征在于,所述将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值的处理包括:
对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。
6.根据权利要求5所述的处理方法,其特征在于,所述将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理:
获取所述搜索知识点数据的核心结构和非核心结构,
根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。
7.根据权利要求6所述的处理方法,其特征在于,每个所述匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。
8.根据权利要求7所述的处理方法,其特征在于,所述根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理,包括:
其中,(e1,e2,r,p)为所述搜索知识点的结构表示,其中,r为动词关系或名词属性或限定关系,p为r发生时的条件,e1和e2是与r相关联的两个实体,
其中,query为搜索词,url为根据所述搜索词进行得到的搜索结果条目,m为所述核心结构的数量,αj为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的权重值,n为所述非核心结构的数量,βj为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。
9.根据权利要求8所述的处理方法,其特征在于,所述处理方法还包括:
根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。
10.一种搜索结果的处理装置,其特征在于,所述装置包括:
搜索结果条目获取模块,用于根据搜索词获取多个搜索结果条目;
知识网络获取模块,用于从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;
相关度值计算模块,用于通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;
搜索结果条目排序模块,用于根据所述相关度值对所述多个搜索结果条目进行排序。
11.根据权利要求10所述的处理装置,其特征在于,所述处理装置还包括:
内容摘要生成模块,用于为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。
12.根据权利要求11所述的处理装置,其特征在于,所述内容摘要生成模块用于:
过滤掉所述知识网络中与所述搜索词不相关的知识点数据,
按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。
13.根据权利要求10~12中任一项所述的处理装置,其特征在于,所述相关度值计算模块包括:
搜索词词法句法分析单元,用于对所述搜索词进行词法句法分析得到至少一个搜索知识点数据,
相关度值计算单元,用于将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值。
14.根据权利要求13所述的处理装置,其特征在于,所述相关度值计算单元用于:
对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度值。
15.根据权利要求14所述的处理装置,其特征在于,所述相关度值计算单元用于通过以下步骤执行将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理:
获取所述搜索知识点数据的核心结构和非核心结构,
根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的多个匹配强度。
16.根据权利要求15所述的处理装置,其特征在于,每个所述匹配强度被确定为完全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。
17.根据权利要求16所述的处理装置,其特征在于,所述相关度值计算单元用于通过以下公式执行根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理:
其中,(e1,e2,r,p)为所述搜索知识点的结构表示,其中,r为动词关系或名词属性或限定关系,p为r发生时的条件,e1和e2是与r相关联的两个实体,
其中,query为搜索词,url为根据所述搜索词进行得到的搜索结果条目,m为所述核心结构的数量,αj为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的权重值,n为所述非核心结构的数量,βj为所述非核心结构与所述知识网络中知识点的结构的匹配强度相对应的权重值。
18.根据权利要求17所述的处理装置,其特征在于,所述处理装置还包括:
搜索词语法语义分析模块,用于根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410758984.XA CN104462399B (zh) | 2014-12-11 | 2014-12-11 | 搜索结果的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410758984.XA CN104462399B (zh) | 2014-12-11 | 2014-12-11 | 搜索结果的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462399A true CN104462399A (zh) | 2015-03-25 |
CN104462399B CN104462399B (zh) | 2018-04-20 |
Family
ID=52908434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410758984.XA Active CN104462399B (zh) | 2014-12-11 | 2014-12-11 | 搜索结果的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462399B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389330A (zh) * | 2015-09-21 | 2016-03-09 | 中国人民解放军国防科学技术大学 | 一种跨社区开源资源匹配关联方法 |
CN105389328A (zh) * | 2015-09-21 | 2016-03-09 | 中国人民解放军国防科学技术大学 | 一种大规模开源软件搜索排序优化方法 |
CN109033286A (zh) * | 2018-07-12 | 2018-12-18 | 北京猫眼文化传媒有限公司 | 数据统计方法和装置 |
CN110309189A (zh) * | 2018-03-13 | 2019-10-08 | 深圳市腾讯计算机系统有限公司 | 实体词的热度获取方法及装置 |
CN110674123A (zh) * | 2019-09-16 | 2020-01-10 | 上海云从企业发展有限公司 | 数据预处理方法、装置、设备及介质 |
CN111052109A (zh) * | 2017-04-18 | 2020-04-21 | 杰弗里·D·布兰德斯泰特 | 专家搜索线程邀请引擎 |
CN111191042A (zh) * | 2019-12-10 | 2020-05-22 | 同济大学 | 一种基于知识图谱路径语义关系的搜索准确性评价方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
CN102279871A (zh) * | 2010-06-08 | 2011-12-14 | 微软公司 | 基于词法和本体概念重排搜索结果 |
US20130262361A1 (en) * | 2012-04-02 | 2013-10-03 | Playence GmBH | System and method for natural language querying |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
CN103577558A (zh) * | 2013-10-21 | 2014-02-12 | 北京奇虎科技有限公司 | 一种优化问答对的搜索排名的装置和方法 |
-
2014
- 2014-12-11 CN CN201410758984.XA patent/CN104462399B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN101692240A (zh) * | 2009-08-14 | 2010-04-07 | 北京中献电子技术开发中心 | 一种基于规则的专利摘要自动抽取和关键词标引方法 |
CN102279871A (zh) * | 2010-06-08 | 2011-12-14 | 微软公司 | 基于词法和本体概念重排搜索结果 |
US20130262361A1 (en) * | 2012-04-02 | 2013-10-03 | Playence GmBH | System and method for natural language querying |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
CN103577558A (zh) * | 2013-10-21 | 2014-02-12 | 北京奇虎科技有限公司 | 一种优化问答对的搜索排名的装置和方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389330A (zh) * | 2015-09-21 | 2016-03-09 | 中国人民解放军国防科学技术大学 | 一种跨社区开源资源匹配关联方法 |
CN105389328A (zh) * | 2015-09-21 | 2016-03-09 | 中国人民解放军国防科学技术大学 | 一种大规模开源软件搜索排序优化方法 |
CN105389330B (zh) * | 2015-09-21 | 2019-02-12 | 中国人民解放军国防科学技术大学 | 一种跨社区开源资源匹配关联方法 |
CN105389328B (zh) * | 2015-09-21 | 2019-07-16 | 中国人民解放军国防科学技术大学 | 一种大规模开源软件搜索排序优化方法 |
CN111052109A (zh) * | 2017-04-18 | 2020-04-21 | 杰弗里·D·布兰德斯泰特 | 专家搜索线程邀请引擎 |
CN111052109B (zh) * | 2017-04-18 | 2024-03-29 | 杰弗里·D·布兰德斯泰特 | 专家搜索线程邀请引擎 |
CN110309189A (zh) * | 2018-03-13 | 2019-10-08 | 深圳市腾讯计算机系统有限公司 | 实体词的热度获取方法及装置 |
CN110309189B (zh) * | 2018-03-13 | 2023-04-18 | 深圳市腾讯计算机系统有限公司 | 实体词的热度获取方法及装置 |
CN109033286A (zh) * | 2018-07-12 | 2018-12-18 | 北京猫眼文化传媒有限公司 | 数据统计方法和装置 |
CN110674123A (zh) * | 2019-09-16 | 2020-01-10 | 上海云从企业发展有限公司 | 数据预处理方法、装置、设备及介质 |
CN111191042A (zh) * | 2019-12-10 | 2020-05-22 | 同济大学 | 一种基于知识图谱路径语义关系的搜索准确性评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104462399B (zh) | 2018-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10102254B2 (en) | Confidence ranking of answers based on temporal semantics | |
Uyar et al. | Evaluating search features of Google Knowledge Graph and Bing Satori: entity types, list searches and query interfaces | |
CN104462399A (zh) | 搜索结果的处理方法及装置 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
Zhou et al. | Query expansion with enriched user profiles for personalized search utilizing folksonomy data | |
US20160041986A1 (en) | Smart Search Engine | |
Yen et al. | Ranking metrics and search guidance for learning object repository | |
US20160171094A1 (en) | Answering Questions Via a Persona-Based Natural Language Processing (NLP) System | |
Nabli et al. | Efficient cloud service discovery approach based on LDA topic modeling | |
Tonon et al. | Contextualized ranking of entity types based on knowledge graphs | |
US9760828B2 (en) | Utilizing temporal indicators to weight semantic values | |
US20120233160A1 (en) | System and method for assisting a user to identify the contexts of search results | |
Zheng et al. | Sogou-qcl: A new dataset with click relevance label | |
US20150324350A1 (en) | Identifying Content Relationship for Content Copied by a Content Identification Mechanism | |
Nakashole et al. | Discovering and exploring relations on the web | |
Gu et al. | Service package recommendation for mashup creation via mashup textual description mining | |
WO2021002998A1 (en) | Extracting key phrase candidates from documents and producing topical authority ranking | |
Nakashole et al. | Discovering semantic relations from the web and organizing them with PATTY | |
Al-Khalifa et al. | Folksonomies versus automatic keyword extraction: An empirical study | |
Dulceanu et al. | PhotoshopQuiA: A corpus of non-factoid questions and answers for why-question answering | |
Cantador et al. | Semantic contextualisation of social tag-based profiles and item recommendations | |
Xu et al. | Measuring semantic relatedness between flickr images: from a social tag based view | |
Perera et al. | The role of linked data in content selection | |
Lee et al. | Mining Stack Overflow for API class recommendation using DOC2VEC and LDA | |
Hamroun et al. | Customer intentions analysis of twitter based on semantic patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |