CN104462327B - 语句相似度的计算、搜索处理方法及装置 - Google Patents

语句相似度的计算、搜索处理方法及装置 Download PDF

Info

Publication number
CN104462327B
CN104462327B CN201410722755.2A CN201410722755A CN104462327B CN 104462327 B CN104462327 B CN 104462327B CN 201410722755 A CN201410722755 A CN 201410722755A CN 104462327 B CN104462327 B CN 104462327B
Authority
CN
China
Prior art keywords
semantic
similarity
sentence
trunk
dependence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410722755.2A
Other languages
English (en)
Other versions
CN104462327A (zh
Inventor
吴先超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410722755.2A priority Critical patent/CN104462327B/zh
Publication of CN104462327A publication Critical patent/CN104462327A/zh
Application granted granted Critical
Publication of CN104462327B publication Critical patent/CN104462327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置,上述计算方法包括:获取第一语句和第二语句;分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树;根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度。上述搜索处理方法包括:接收查询语句;根据所述查询语句获取至少一个搜索结果条目;通过上述通过计算机实现的语句相似度的计算方法,分别计算所述查询语句与所述搜索结果条目的语义相似度;根据计算的语义相似度的值对所述搜索结果条目进行排序;发送经过排序的搜索结果条目。本发明能够根据语句的语义计算出更准确的语句相似度,并提供更准确的搜索结果。

Description

语句相似度的计算、搜索处理方法及装置
技术领域
本发明涉及信息处理技术,尤其涉及一种通过计算机实现的语句相似度的计算、搜索处理方法及装置。
背景技术
用户输入的查询语句和搜索网页的标题的相似度计算是搜索技术的核心问题点。基于上述相似度计算的排名决定了搜索引擎的优劣和用户体验质量。现有技术中相似度计算方法主要是采用基于词袋(bag-of-words)的方法,只是简单地考虑单个或者若干个词的直接匹配,并没有考虑这些词组合起来的真正的语义是怎样的。
然而,现有技术只考虑词的级别的匹配,无法区分开语句之间的语义不匹配的问题。在两句话字面类似、而含义完全不同的情况下,计算的相似度也非常高。例如如图1所示,对于“日本收购的中国企业”这个查询语句,采用现有技术搜索出的前7个结果中,就有6个是字面相似(红色箭头标出,语义含义都是类似于“中国收购日本企业”),而语义完全相反的网页。从而导致提供了错误的搜索结果,严重影响用户体验。
发明内容
本发明的目的在于,提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置,能够根据语句的语义计算出更准确的语句相似度,并提供更准确的搜索结果。
根据本发明的一方面,本发明提供一种通过计算机实现的语句相似度的计算方法,包括:获取第一语句和第二语句;分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树;根据第一依存树以及第二依存树计算第一语句与第二语句的语义相似度。
根据本发明的另一方面,本发明提供一种搜索处理方法,包括:接收查询语句;根据查询语句获取至少一个搜索结果条目;通过上述通过计算机实现的语句相似度的计算方法,分别计算查询语句与搜索结果条目的语义相似度;根据计算的语义相似度的值对搜索结果条目进行排序;发送经过排序的搜索结果条目。
根据本发明的另一方面,本发明提供一种通过计算机实现的语句相似度的计算装置,包括:语句获取单元,用于获取第一语句和第二语句;依存分析单元,用于分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树;第一语义相似度计算单元,用于根据第一依存树以及第二依存树计算第一语句与第二语句的语义相似度。
根据本发明的另一方面,本发明提供一种搜索处理装置,包括:查询语句接收单元,用于接收查询语句;搜索单元,用于根据查询语句获取至少一个搜索结果条目;语义相似度计算单元,用于通过上述通过计算机实现的语句相似度的计算装置,分别计算查询语句与搜索结果条目的语义相似度;排序单元,用于根据计算的语义相似度的值对搜索结果条目进行排序;搜索结果条目发送单元,用于发送经过排序的搜索结果条目。
本发明实施例提供的通过计算机实现的语句相似度的计算、搜索处理方法及装置,通过根据两个语句的依存树计算两个语句的语义相似度,得到更准确的语句相似度数据;通过上述语句相似度的计算方法分别计算查询语句与搜索结果条目的语义相似度,根据计算的语义相似度的值对搜索结果条目进行排序,从而提供更准确的搜索结果。
附图说明
图1为采用现有技术进行搜索的搜索结果示意图;
图2为本发明示例性实施例的通过计算机实现的语句相似度的计算方法的流程图;
图3为本发明优选实施例的通过计算机实现的语句相似度的计算方法的流程图;
图4为本发明优选实施例的两个语句的依存树与语义结构的示意图;
图5为本发明示例性实施例的搜索处理方法的流程图;
图6为本发明示例性实施例的通过计算机实现的语句相似度的计算装置的逻辑框图;
图7为本发明优选实施例的通过计算机实现的语句相似度的计算装置的逻辑框图;
图8为本发明示例性实施例的搜索处理装置的逻辑框图。
具体实施方式
本发明提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置,从计算查询语句和网页标题的相似度这一视角出发,基于依存关系来计算查询语句和网页标题的相似度,从而得到更准确的语句相似度,更好地区分开字面类似而含义完全不同的查询语句和网页标题;另一方面,根据计算的语义相似度的值对搜索结果条目进行排序,从而提供更准确的搜索结果。
进一步地,本发明还在根据依存关系来计算语义相似度的基础上,增加了语义角色关系相似度作为计算语义相似度的元素,更全面地衡量语句之间的语义相似度,从而使计算的语句相似度更加准确。
下面结合附图对本发明实施例提供的通过计算机实现的语句相似度的计算、搜索处理方法及装置进行详细描述。
图2为本发明示例性实施例的通过计算机实现的语句相似度的计算方法的流程图。
参照图2,在步骤S210,获取第一语句和第二语句。
以网页搜索结果与查询词的匹配为例,所述第一语句和第二语句可以分别是查询语句和任一搜索结果条目的网页标题。
在步骤S220,分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树。在本实施例中,在步骤S220,可以通过移进归约算法对第一语句和第二语句进行依存分析。以“我爱中国”这句话为例,经过依存分析后得到的依存树可以表示为:
序号 父节点 关系
1 2 主谓
2 0
3 中国 2 谓宾
即得到2个依存关系弧:“我←sbv爱”和“中国←vob爱”。其中sbv代表的是subject-verb,即“主谓”关系;vob代表的是verb-object,即“谓宾关系”。依存树从语法角度刻画句子的结构信息,通过该依存树就能够得到一个语句的各个词之间的依存依赖关系,即“我”是修饰“爱”的,它们之间是“主谓”关系、“爱”与“中国”之间是“谓宾”关系。
在步骤S230,根据第一依存树以及第二依存树计算第一语句与第二语句的语义相似度。
具体地,根据本发明的示例性实施例,步骤S130可包括:
首先,根据第一依存树以及第二依存树,分别计算两者的语义主干依存关系弧之间的主干语义相似度以及两者的非语义主干依存关系弧之间的非主干语义相似度。在本实施例中,语义主干依存关系弧主要是指““主谓”和“谓宾”关系的依存关系弧,其它关系的依存关系弧都为非语义主干依存关系弧。例如,“国会明天讨论该议案”的主干依存关系孤为:“国会←sbv讨论”和“讨论←vob议案”,其非主干依存关系孤为:“明天←adv讨论”和“该←att议案”,其中adv表示“状语”关系、att表示“定语”关系。如果两个依存关系弧相似(例如:“讨论←vob议案”和“审议←vob议案”),则它们的相似度为1,否则为0。
然后,根据主干语义相似度与非主干语义相似度计算第一语句与第二语句之间的语义相似度。具体地,可以根据主干语义相似度与非主干语义相似度按照各自的权值进行加权求和,得到第一语句与第二语句之间的语义相似度,如式(1)所示:
dependency_sim(x,y)=w1×∑arc.x,arc.yinmainsim(arc.x,arc.y)+w2×∑arc.x,arc.ynotinmainsim(arc.x,arc.y) (1)
式(1)中,dependency_sim(x,y)表示第一语句与第二语句之间的语义相似度;arc.x代表第一依存树的依存关系弧,arc.y代表第二依存树的依存关系弧;∑arc.x, arc.yinmainsim(arc.x,arc.y)表示主干语义相似度,∑arc.x,arc.ynotinmainsim(arc.x,arc.y)表示非主干语义相似度;w1和w2分别是主干语义相似度和非主干语义相似度的权值,这两个权值主要依靠已有开发集上的参数调权来控制,一般情况下可以简单设置为6:4等,例如w1=0.6,w2=0.4。
根据上述实施例的语句相似度的计算方法,通过根据两个语句的依存树计算两个语句的的语义相似度,从而得到了更准确的语句相似度。
图3为本发明优选实施例的通过计算机实现的语句相似度的计算方法的流程图。
参照图3,在步骤S310,获取第一语句和第二语句。
在步骤S320,分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树。步骤S320的处理可参考图1中步骤S220的相关描述,在此不再赘述。
在步骤S330,根据第一依存树以及第二依存树,分别对第一语句和第二语句进行语义角色标注,得到第一语义结构和第二语义结构。在本实施例中,在步骤S330,可以通过已有的语义角色标注系统对第一语句和第二语句进行语义角色标注,为一个句子中的每个谓词找到其所有论元并确定每个论元的语义角色(例如:施事、受事、时间、地点等角色),得到第一语义结构和第二语义结构。
在步骤S340,根据第一依存树以及第二依存树计算第一语句与第二语句的依存关系相似度。
具体地,根据本发明的示例性实施例,步骤S340可包括:
首先,根据第一依存树以及第二依存树,分别计算两者的语义主干依存关系弧之间的主干依存关系相似度以及两者的非语义主干依存关系弧之间的非主干依存关系相似度。
然后,根据主干依存关系相似度与非主干依存关系相似度计算第一语句与第二语句之间的依存关系相似度。例如,可以将主干依存关系相似度与非主干依存关系相似度按照各自的权值进行加权求和,得到第一语句与第二语句之间的依存关系相似度。
步骤S340的依存关系相似度计算可以参考图2中步骤S230关于语义相似度的计算,在此不再赘述。
在步骤S350,根据第一语义结构和第二语义结构计算第一语句与第二语句的语义角色关系相似度。
具体地,根据本发明的示例性实施例,步骤S350可包括:
首先,根据第一语义结构以及第二语义结构,分别计算两者的语义主干之间的主干语义角色关系相似度以及两者的非语义主干之间的非主干语义角色关系相似度。在本实施例中,语义主干主要是指论元的语义角色为“施事”和“受事”的语义关系,其它语义角色的语义关系都为非语义主干。同样以“国会明天讨论该议案”这句话为例,其语义主干为:讨论→A0国会”和“讨论→A1议案”,其非语义主干为:“讨论→TMP明天”,其中A0表示语义角色为“施事”、A1表示语义角色为“受事”、TMP表示语义角色为“时间”。
然后,根据主干语义角色关系相似度与非主干语义角色关系相似度计算第一语句与第二语句之间的语义角色关系相似度。例如,可以将主干语义角色关系相似度与非主干语义角色关系相似度按照各自的权值进行加权求和,得到第一语句与第二语句之间的语义角色关系相似度,如式(2)所示:
srl_sim(x,y)=w3×∑arc.x,arc.yinmainsim(arc.x,arc.y)+w4×∑arc.x, arc.ynotinmainsim(arc.x,arc.y) (2)
式(2)中,srl_sim(x,y)表示第一语句与第二语句之间的语义角色关系相似度;arc.x代表第一语义结构的语义关系,arc.y代表第二语义结构的语义关系;∑arc.x, arc.yinmainsim(arc.x,arc.y)表示主干语义角色关系相似度,∑arc.x,arc.ynotinmainsim(arc.x,arc.y)表示非主干语义角色关系相似度;w3和w4分别是主干语义角色关系相似度和非主干语义角色关系相似度的权值,这两个权值主要依靠已有开发集上的参数调权来控制,一般情况下可以简单设置为6:4等,例如w3=0.6,w4=0.4。
下面举例来说明步骤S350的处理。图4示出了本发明优选实施例的两个语句的依存树与语义结构的示意图。其中,语句上方的弧表示依存关系弧;下方的弧表示语义关系。如图4所示,第一语句为“国会明天讨论该议案”,第二语句为“该议案明天被国会审议”。在通过步骤S330得到的语义结构中,两个语句的语义主干分别是:
第一语句:“讨论→A0国会”,“讨论→A1议案”;
第二语句:“审议→A0国会”,“审议→A1议案”。
因为“讨论”和“审议”是同义词,得到:
sim(“讨论→A0国会”,“审议→A0国会”)=1;
sim(“讨论→A1议案”,“审议→A1议案”)=1。
两个语句的非语义主干分别是:
第一句:“讨论→TMP明天”;
第二句:“审议→TMP明天”。
因为“讨论”和“审议”是同义词,得到:
sim(“讨论→TMP明天”,“审议→TMP明天”)=1。
因此,如果我们人为取w3=0.6、w4=0.4,式(2)中srl_sim(x,y)=0.6×2+0.4×1=1.6。即在步骤S350计算的第一语句与第二语句的语义角色关系相似度为1.6。
在步骤S360,根据依存关系相似度和语义角色关系相似度计算第一语句与第二语句的语义相似度。例如,步骤S360可以具体为:将依存关系相似度和语义角色关系相似度按照各自的权值进行加权就和,得到第一语句与第二语句之间的语义相似度。即如式(3)所示:
Sim(x,y)=w5×dependency_sim(x,y)+w6×srl_sim(x,y) (3)
式(3)中,Sim(x,y)表示第一语句与第二语句的语义相似度;dependency_sim(x,y)表示第一语句与第二语句的依存关系相似度;srl_sim(x,y)表示第一语句与第二语句的语义角色关系相似度;w5和w6分别是依存分析相似度和语义角色标注相似度上的权值。这两个权值主要依靠已有开发集上的参数调权来控制,一般情况下可以简单设置为相等,例如:w1=w2=0.5。
上述优选实施例的语句相似度的计算方法在根据依存关系来计算语义相似度的基础上,增加了语义角色关系相似度作为计算语义相似度的元素,更全面地衡量语句之间的语义相似度,从而使计算的语句相似度更加准确。
图5为本发明示例性实施例的搜索处理方法的流程图。
参照图5,在步骤S510,接收查询语句。
在步骤S520,根据查询语句获取至少一个搜索结果条目。根据本发明的示例性实施例,搜索结果条目可以是网页条目。
在步骤S530,通过上述图2或图3对应的实施例的语句相似度的计算方法,分别计算查询语句与搜索结果条目的语义相似度。在本实施例中,在步骤S530,计算查询语句与网页条目的网页标题的语义相似度。步骤S530的处理可参考对于图1或图2对应的实施例的详细描述,在此不再赘述。
在步骤S540,根据计算的语义相似度的值对搜索结果条目进行排序。可以将语义相似度的值高的搜索结果条目排在前面。
在步骤S550,发送经过排序的搜索结果条目。
通过根据计算的语义相似度的值对搜索结果条目进行排序,使排在前的搜索结果条目都是标题与查询语句语义相似度较高的条目,从而提供更准确的搜索结果。
图6为本发明示例性实施例的通过计算机实现的语句相似度的计算装置的逻辑框图。
参照图6,本发明的通过计算机实现的语句相似度的计算装置包括:语句获取单元610、依存分析单元620以及第一语义相似度计算单元630。
语句获取单元610用于获取第一语句和第二语句。
依存分析单元620用于分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树。依存分析单元620的处理可参考图2中步骤S220的描述,在此不再赘述。
第一语义相似度计算单元630用于根据第一依存树以及第二依存树计算第一语句与第二语句的语义相似度。根据本发明的示例性实施例,第一语义相似度计算单元630可以根据第一依存树以及第二依存树,分别计算两者的语义主干依存关系弧之间的主干语义相似度以及两者的非语义主干依存关系弧之间的非主干语义相似度,然后根据主干语义相似度与非主干语义相似度计算第一语句与第二语句之间的语义相似度。第一语义相似度计算单元630的处理可参考图2中步骤S230的描述,在此不再赘述。
根据上述实施例的语句相似度的计算装置,通过根据两个语句的依存树计算两个语句的的语义相似度,从而得到了更准确的语句相似度。
图7为本发明优选实施例的通过计算机实现的语句相似度的计算装置的逻辑框图。
参照图7,根据本发明的优选实施例,本发明的通过计算机实现的语句相似度的计算装置除了图6中的语句获取单元610、依存分析单元620以及第一语义相似度计算单元630之外,还可以包括语义角色标注单元640,用于根据第一依存树以及第二依存树,分别对第一语句和第二语句进行语义角色标注,得到第一语义结构和第二语义结构,语义角色标注单元640的处理可参考的上述对图3中步骤S330的详细描述,在此不再赘述。
进一步地,第一语义相似度计算单元630可以包括:
依存关系相似度计算单元631,用于根据第一依存树以及第二依存树计算第一语句与第二语句的依存关系相似度。具体地,依存关系相似度计算单元可以根据第一依存树以及第二依存树,分别计算两者的语义主干依存关系弧之间的主干依存关系相似度以及两者的非语义主干依存关系弧之间的非主干依存关系相似度,然后根据主干依存关系相似度与非主干依存关系相似度计算第一语句与第二语句之间的依存关系相似度。依存关系相似度计算单元631的处理可参考的上述对图3中步骤S340的详细描述,在此不再赘述。
语义角色关系相似度计算单元632,用于根据第一语义结构和第二语义结构计算第一语句与第二语句的语义角色关系相似度。具体地,语义角色关系相似度计算单元632可以根据第一语义结构以及第二语义结构,分别计算两者的语义主干之间的主干语义角色关系相似度以及两者的非语义主干之间的非主干语义角色关系相似度,然后根据主干语义角色关系相似度与非主干语义角色关系相似度计算第一语句与第二语句之间的语义角色关系相似度。语义角色关系相似度计算单元632的处理可参考的上述对图3中步骤S350的详细描述,在此不再赘述。
第二语义相似度计算单元633,用于根据依存关系相似度和语义角色关系相似度计算第一语句与第二语句的语义相似度。具体地,第二语义相似度计算单元633可以将依存关系相似度和语义角色关系相似度按照各自的权值进行加权就和,得到第一语句与第二语句之间的语义相似度。第二语义相似度计算单元633的处理可参考的上述对图3中步骤S360的详细描述,在此不再赘述。
上述优选实施例的语句相似度的计算装置在根据依存关系来计算语义相似度的基础上,增加了语义角色关系相似度作为计算语义相似度的元素,更全面地衡量语句之间的语义相似度,从而使计算的语句相似度更加准确。
图8为本发明示例性实施例的搜索处理装置的逻辑框图。
参照图8,本发明的搜索处理装置包括:查询语句接收单元810、搜索单元820、第三语义相似度计算单元830、排序单元840以及搜索结果条目发送单元850。
查询语句接收单元810用于接收查询语句。
搜索单元820用于根据查询语句获取至少一个搜索结果条目。在本
实施例中,搜索结果条目可以是网页条目。
第三语义相似度计算单元830用于通过图4或图5对应的语句相似度的计算装置,分别计算查询语句与搜索结果条目的语义相似度。在本实施例中,第三语义相似度计算单元830可以用于计算查询语句与网页条目的网页标题的语义相似度
排序单元840用于根据计算的语义相似度的值对搜索结果条目进行排序。
搜索结果条目发送单元850用于发送经过排序的搜索结果条目。
通过排序单元840根据第三语义相似度计算单元830计算的语义相似度的值对搜索结果条目进行排序,使排在前的搜索结果条目都是标题与查询语句语义相似度较高的条目,从而提供更准确的搜索结果。
根据上述实施例提供的通过计算机实现的语句相似度的计算、搜索处理方法及装置,通过根据两个语句的依存树计算两个语句的的语义相似度,从而得到更准确的语句相似度;并通过上述语句相似度的计算方法分别计算查询语句与搜索结果条目的语义相似度,根据计算的语义相似度的值对搜索结果条目进行排序,从而提供更准确的搜索结果。
进一步地,在根据依存关系来计算语义相似度的基础上,还增加了语义角色关系相似度作为计算语义相似度的元素,更全面地衡量语句之间的语义相似度,从而使计算的语句相似度更加准确。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种通过计算机实现的语句相似度的计算方法,其特征在于,所述方法包括:
获取第一语句和第二语句;
分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树;
根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度;
所述方法还包括:
根据所述第一依存树以及所述第二依存树,分别对所述第一语句和第二语句进行语义角色标注,得到第一语义结构和第二语义结构;
所述根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度包括:
根据所述第一依存树以及第二依存树,分别计算两者的语义主干依存关系弧之间的主干依存关系相似度以及两者的非语义主干依存关系弧之间的非主干依存关系相似度;
根据所述主干依存关系相似度与所述非主干依存关系相似度计算所述第一语句与所述第二语句之间的依存关系相似度;
根据所述第一语义结构以及第二语义结构,分别计算两者的语义主干之间的主干语义角色关系相似度以及两者的非语义主干之间的非主干语义角色关系相似度;
根据所述主干语义角色关系相似度与所述非主干语义角色关系相似度计算所述第一语句与所述第二语句之间的语义角色关系相似度;
根据所述依存关系相似度和语义角色关系相似度计算所述第一语句与所述第二语句的语义相似度。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句之间的语义相似度的处理包括:
根据所述第一依存树以及第二依存树,分别计算两者的语义主干依存关系弧之间的主干语义相似度以及两者的非语义主干依存关系弧之间的非主干语义相似度;
根据所述主干语义相似度与所述非主干语义相似度计算所述第一语句与所述第二语句之间的语义相似度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述依存关系相似度和所述语义角色关系相似度,计算所述第一语句与所述第二语句之间的语义相似度包括:
将所述依存关系相似度和所述语义角色关系相似度按照各自的权值进行加权就和,得到所述第一语句与所述第二语句之间的语义相似度。
4.一种搜索处理方法,其特征在于,所述方法包括:
接收查询语句;
根据所述查询语句获取至少一个搜索结果条目;
通过权利要求1-3任一项所述的方法,分别计算所述查询语句与所述搜索结果条目的语义相似度;
根据计算的语义相似度的值对所述搜索结果条目进行排序;
发送经过排序的搜索结果条目。
5.根据权利要求4所述的方法,其特征在于,所述搜索结果条目是网页条目,
其中,所述计算所述查询语句与搜索结果条目的语义相似度的处理包括:
计算所述查询语句与所述网页条目的网页标题的语义相似度。
6.一种通过计算机实现的语句相似度的计算装置,其特征在于,所述装置包括:
语句获取单元,用于获取第一语句和第二语句;
依存分析单元,用于分别对第一语句和第二语句进行依存分析,得到第一依存树以及第二依存树;
第一语义相似度计算单元,用于根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度;
所述计算装置还包括:
语义角色标注单元,用于根据所述第一依存树以及所述第二依存树,分别对所述第一语句和第二语句进行语义角色标注,得到第一语义结构和第二语义结构;
其中,所述第一语义相似度计算单元包括:
依存关系相似度计算单元,用于根据所述第一依存树以及第二依存树,分别计算两者的语义主干依存关系弧之间的主干依存关系相似度以及两者的非语义主干依存关系弧之间的非主干依存关系相似度,并且用于根据所述主干依存关系相似度与所述非主干依存关系相似度计算所述第一语句与所述第二语句之间的依存关系相似度;
语义角色关系相似度计算单元,用于根据所述第一语义结构以及第二语义结构,分别计算两者的语义主干之间的主干语义角色关系相似度以及两者的非语义主干之间的非主干语义角色关系相似度,并且用于根据所述主干语义角色关系相似度与所述非主干语义角色关系相似度计算所述第一语句与所述第二语句之间的语义角色关系相似度;
第二语义相似度计算单元,用于根据所述依存关系相似度和语义角色关系相似度计算所述第一语句与所述第二语句的语义相似度。
7.根据权利要求6所述的计算装置,其特征在于,所述第一语义相似度计算单元用于根据所述第一依存树以及第二依存树,分别计算两者的语义主干依存关系弧之间的主干语义相似度以及两者的非语义主干依存关系弧之间的非主干语义相似度,
然后根据所述主干语义相似度与所述非主干语义相似度计算所述第一语句与所述第二语句之间的语义相似度。
8.根据权利要求6所述的计算装置,其特征在于,所述第二语义相似度计算单元用于将所述依存关系相似度和所述语义角色关系相似度按照各自的权值进行加权就和,得到所述第一语句与所述第二语句之间的语义相似度。
9.一种搜索处理装置,其特征在于,所述装置包括:
查询语句接收单元,用于接收查询语句;
搜索单元,用于根据所述查询语句获取至少一个搜索结果条目;
语义相似度计算单元,用于通过权利要求6-8任一项所述的计算装置,分别计算所述查询语句与所述搜索结果条目的语义相似度;
排序单元,用于根据计算的语义相似度的值对所述搜索结果条目进行排序;
搜索结果条目发送单元,用于发送经过排序的搜索结果条目。
10.根据权利要求9所述的装置,其特征在于,所述搜索结果条目是网页条目,
其中,所述语义相似度计算单元用于计算所述查询语句与所述网页条目的网页标题的语义相似度。
CN201410722755.2A 2014-12-02 2014-12-02 语句相似度的计算、搜索处理方法及装置 Active CN104462327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410722755.2A CN104462327B (zh) 2014-12-02 2014-12-02 语句相似度的计算、搜索处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410722755.2A CN104462327B (zh) 2014-12-02 2014-12-02 语句相似度的计算、搜索处理方法及装置

Publications (2)

Publication Number Publication Date
CN104462327A CN104462327A (zh) 2015-03-25
CN104462327B true CN104462327B (zh) 2018-09-11

Family

ID=52908362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410722755.2A Active CN104462327B (zh) 2014-12-02 2014-12-02 语句相似度的计算、搜索处理方法及装置

Country Status (1)

Country Link
CN (1) CN104462327B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021346B (zh) * 2016-05-09 2020-01-07 北京百度网讯科技有限公司 检索处理方法及装置
CN106067302B (zh) * 2016-05-27 2019-06-25 努比亚技术有限公司 降噪装置及方法
CN106547871B (zh) * 2016-10-31 2020-04-07 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置
CN110569494B (zh) * 2018-06-05 2023-04-07 北京百度网讯科技有限公司 用于生成信息的方法、装置、电子设备及可读介质
CN109977294B (zh) * 2019-04-03 2020-04-28 三角兽(北京)科技有限公司 信息/查询处理装置、查询处理/文本查询方法、存储介质
CN110334179B (zh) * 2019-05-22 2020-12-29 深圳追一科技有限公司 问答处理方法、装置、计算机设备和存储介质
CN110309289B (zh) * 2019-08-23 2019-12-06 深圳市优必选科技股份有限公司 一种句子生成方法、句子生成装置及智能设备
CN112507688A (zh) * 2020-12-16 2021-03-16 咪咕数字传媒有限公司 文本相似度分析方法、装置、电子设备及可读存储介质
CN112559713B (zh) * 2020-12-24 2023-12-01 北京百度网讯科技有限公司 文本相关性判断方法及装置、模型、电子设备、可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615208B1 (en) * 2000-09-01 2003-09-02 Telcordia Technologies, Inc. Automatic recommendation of products using latent semantic indexing of content
CN101777042B (zh) * 2010-01-21 2013-01-16 西南科技大学 信息检索领域中基于神经网络和标签库的语句相似度算法
CN103914543B (zh) * 2014-04-03 2017-12-26 北京百度网讯科技有限公司 搜索结果的展现方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"中文问答系统中答案抽取的研究与实现";黄波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100815;第3章 *
"基于浅层语义树核的阅读理解答案句抽取";张志昌 等;《中文信息学报》;20080131;第22卷(第1期);参见第81-84页 *
"语义角色标注及其在句子相似度计算上的应用";张祎挺;《中国优秀硕士学位论文全文数据库 信息科技辑》;20081015;第2.1节、第4章 *

Also Published As

Publication number Publication date
CN104462327A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462327B (zh) 语句相似度的计算、搜索处理方法及装置
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN110175325B (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN104484339B (zh) 一种相关实体推荐方法和系统
CN104199896B (zh) 基于特征分类的视频相似度确定及视频推荐方法
US20180052823A1 (en) Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time
CN104462066B (zh) 语义角色标注方法及装置
US8352473B2 (en) Product synthesis from multiple sources
CN103514255B (zh) 一种基于项目层次类别的协同过滤推荐方法
CN106383894A (zh) 一种企业供需信息匹配方法和装置
KR20200094627A (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
CN106874441A (zh) 智能问答方法和装置
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN103116588A (zh) 一种个性化推荐方法及系统
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
WO2014008139A2 (en) Generating search results
CN107133282B (zh) 一种改进的基于双向传播的评价对象识别方法
CN103425635A (zh) 一种答案推荐方法和装置
CN106663117A (zh) 构造支持提供探索性建议的图
CN103593474A (zh) 基于深度学习的图像检索排序方法
CN108573041A (zh) 基于加权信任关系的概率矩阵分解推荐方法
CN103150667B (zh) 一种基于本体结构的个性化推荐方法
CN103942347A (zh) 一种基于多维度综合词库的分词方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant