CN104462323A - 语义相似度计算方法、搜索结果处理方法和装置 - Google Patents

语义相似度计算方法、搜索结果处理方法和装置 Download PDF

Info

Publication number
CN104462323A
CN104462323A CN201410721307.0A CN201410721307A CN104462323A CN 104462323 A CN104462323 A CN 104462323A CN 201410721307 A CN201410721307 A CN 201410721307A CN 104462323 A CN104462323 A CN 104462323A
Authority
CN
China
Prior art keywords
text string
semantic
tuple
similarity
semantic layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410721307.0A
Other languages
English (en)
Other versions
CN104462323B (zh
Inventor
张军
吴先超
刘占一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410721307.0A priority Critical patent/CN104462323B/zh
Publication of CN104462323A publication Critical patent/CN104462323A/zh
Application granted granted Critical
Publication of CN104462323B publication Critical patent/CN104462323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种语义相似度计算方法、搜索结果处理方法和装置。所述语义相似度计算方法包括:获取第一文本串和第二文本串;分别对所述第一文本串和所述第二文本串进行分词,生成分词结果;根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层;将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值;根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值。通过本发明实施例的语义相似度计算方法、搜索结果处理方法和装置,能够提高文本串之间语义相似度计算的准确性。

Description

语义相似度计算方法、搜索结果处理方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语义相似度计算方法、搜索结果处理方法和装置。
背景技术
在搜索引擎技术中,提供与用户的搜索词相匹配的搜索结果网页是研发设计人员持续研究探索的问题点。可通过对搜索词与搜索结果网页的标题进行相似度计算来判断所述搜索结果网页与用户的搜索词的匹配程度,这里就涉及计算文本串时间的相似度的问题。
在现有技术中,通常考虑两个文本串中完全匹配的词的个数来计算所述两个文本串之间的相似度,而不考虑从语义上相同或相似的词的匹配,由此计算的相似度准确性较低。
例如,对两个文本串“宝宝发烧按穴”和“孩子发烧时穴位按摩图解”,由于在两个文本串中,“发烧”都出现,而“宝宝”和“孩子”却不算为完全匹配,因此无法考虑到“宝宝发烧”和“孩子发烧”以及“按穴”与“穴位按摩”等词与词之间的匹配程度,通过上述方法计算出的相似度准确性较低。
发明内容
本发明实施例的目的在于,提供一种语义相似度计算方法、搜索结果处理方法和装置,以提高文本串之间语义相似度计算的准确性。
为了实现上述发明目的,本发明的实施例提供了一种语义相似度计算方法,包括:获取第一文本串和第二文本串;分别对所述第一文本串和所述第二文本串进行分词,生成分词结果;根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层;将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值;根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值。
本发明实施例还提供了一种搜索结果处理方法,包括:接收用户的搜索词;根据所述搜索词获取多个搜索结果条目;根据所述语义相似度计算方法分别计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;根据所述语义相似度值对所述搜索结果条目进行排序;发送经排序的搜索结果条目。
本发明实施例还提供了一种语义相似度计算装置,包括:文本串获取模块,用于获取第一文本串和第二文本串;文本串分词模块,用于分别对所述第一文本串和所述第二文本串进行分词,生成分词结果;语义层生成模块,用于根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层;依存相似度值计算模块,用于将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值;语义相似度值计算模块,用于根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值。
本发明实施例还提供了一种搜索结果处理装置,包括:搜索结果条目获取单元,用于根据搜索词获取多个搜索结果条目;语义相似度计算单元,用于通过如前所述的语义相似度计算装置分别计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;搜索结果条目排序单元,用于根据所述语义相似度计算单元计算的语义相似度值对所述搜索结果条目进行排序。
本发明实施例还提供了一种搜索引擎,包括:搜索词接收装置,用于接收搜索词;如前所述的搜索结果处理装置,用于根据所述搜索词产生经过排序的搜索结果条目;搜索结果发送装置,用于发送经排序的搜索结果条目。
本发明实施例提供的语义相似度计算方法、搜索结果处理方法和装置,通过将两个文本串分得的分词生成预定多个语义层,对其中一个文本串的每个语义层都分别与另一文本串的所有语义层进行依存相似度计算,结合计算得到的依存相似度值最终得到两文本串之间的语义相似度值,从而提高了文本串之间语义相似度计算的准确性。
附图说明
图1是示出本发明实施例的基本原理框图;
图2是示出本发明实施例一的语义相似度计算方法的流程图;
图3是示出本发明实施例二的搜索结果处理方法的流程图;
图4是示出本发明实施例三的语义相似度计算装置的逻辑框图;
图5是本发明实施例四的搜索结果处理装置的逻辑框图。
具体实施方式
本发明的基本构思是,分别对获取到的两个文本串进行分词,将两个文本串分得的分词生成预定多个语义层,将其中一个文本串的每个语义层都分别与另一文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值,再依据这N×N个依存相似度值计算得到两个文本串之间的语义相似度值,使得文本串之间语义相似度计算的准确性更高。
图1为本发明实施例的基本原理框图。为了更方便的描述本发明的基本原理,可用符号s和w分别表示文本串1和文本串2。
参照图1,首先,对文本串1和文本串2进行分词,根据已有的分词技术,将s和w分别分词为s1,s2,…sm和w1,w2,…wn,其中,m是从s分词得到的分词个数,n是从w分词得到的分词个数,这样便得到了上述框图中所描述的文本串1的分词与文本串2的分词。
然后,根据前述的分词结果分别生成预定多个语义层。举例来说,由单个分词作为一个元组生成包括多个元组的第一语义层,即<s1>,<s2>,<s3>,…<sm>,由相邻两个分词作为一个元组生成包括多个元组的第二语义层,即<s1,s2>,<s2,s3>,…<sm-1,sm>,以此类推,由相邻i个词作为一个元组生成包括多个元组的第i语义层,即<s1,s2…si>,…<sm-i,sm-i+1,…sm>。假设生成n个语义层,那么经过上述分层处理得到图1中所示的文本串1和文本串2的n个语义层。此后,将文本串1的每个语义层都分别与文本串2的所有语义层进行依存相似度计算,得到N×N个依存相似度值。最后,根据这N×N个依存相似度值计算最终得到文本串1和文本串2的语义相似度值,得到准确性更高的文本串之间语义相似度值。
下面结合附图对本发明实施例语义相似度计算方法、搜索结果处理方法和装置进行详细描述。
实施例一
图2为本发明实施例一的语义相似度计算方法的流程图。可在例如搜索引擎服务器上执行所述方法。所述语义相似度计算方法包括如下步骤:
步骤11:获取第一文本串和第二文本串。例如,所述第一文本串和第二文本串可以是用户的搜索词和根据所述搜索词获取的任一搜索结果条目的内容标题。
步骤12:分别对第一文本串和第二文本串进行分词,生成分词结果。
搜索引擎服务器可使用现有的文本串分词技术对两个文本串分别进行分词,得到两个文本串各自的分词结果。
步骤13:根据分词结果分别将第一文本串和第二文本串分得的分词生成预定多个语义层。
如前所述,根据本发明的示例性实施例,可对第一文本串和第二文本串中的任一文本串,进行如下分层处理:由文本串的分词结果中的每单个分词作为一个元组生成包括多个元组的第一语义层;由文本串的分词结果中相邻的每i个分词作为一个元组生成包括多个元组的第i语义层,其中,i≥2且i为正整数。
步骤14:将第一文本串的每个语义层都分别与第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值。
根据本发明的示例性实施例,可对于第一文本串的第i语义层<si1,si2,…sim>和第二文本串的第j语义层<wj1,wj2,…wjn>,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算第i语义层和第j语义层的依存相似度。
优选地,可通过以下公式执行第一文本串的第i语义层和第二文本串的第j语义层的依存相似度的计算:
Similarity ( < si 1 , si 2 , . . . sim > , < wj 1 , wj 2 , . . . wjn > ) = &Sigma; k = 1 m &Sigma; l = 1 n ( 1 - alpha ) * p ( sik | wj 1 ) * ( 1 / | k - 1 + 1 | ) if ( sik ! = wj 1 ) alpha if ( sik = = wj 1 ) ,
其中,si1,si2,…sim为所述第一文本串的第i语义层的m个元组,wj1,wj2,…wjn为所述第二文本串的第个语义层的n个元组,p(sik|wjl)为元组之间相似度的匹配概率表,alpha是预定的常量,1/|k-l+1|为两个元组间距离的惩罚参数。这里需要说明的是,参数alpha是一个可以根据交叉验证优化出来的参数,用来调整当两个词法UNIT是完全一致时的相似度得分。1/|k-l+1|用来根据两个词法UNIT之间的距离进行惩罚,即当两个元组间距离越近时得分越高,反之,两个元组间距离越远时得分越低。
步骤15:根据计算的N×N个依存相似度值计算第一文本串和第二文本串的语义相似度值。
在步骤14计算得到N×N个依存相似度值之后,根据本发明的示例性实施例,可对所述N×N个依存相似度值进行加权融合,得到第一文本串和第二文本串的语义相似度值。
优选地,可以通过以下公式执行第一文本串和第二文本串的语义相似度得分的计算:
Finalscore = &Sigma; i , j = 1,1 i , j = n , n weight < i , j > * Similarity ( i , j ) ,
其中,Finalscore为第一文本串和第二文本串的语义相似度值,weight<i,j>为权重参数,Similarity(i,j)为第一文本串的第i语义层和第二文本串的第j语义层的依存相似度值。weight<i,j>预设的权值,可例如通过线性回归的方法从事先标注了两个文本串之间的相似度的训练数据当中用机器学习的方法学习出来。
这里需要说明的是,还可以通过对N×N个依存相似度值求平均值来计算第一文本串和第二文本串的语义相似度值。
通过该语义相似度计算方法,可以分别对获取到的两个文本串进行分词,将两个文本串分得的分词生成预定多个语义层,将其中一个文本串的每个语义层都分别与另一文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值,再依据这N×N个依存相似度值计算得到两个文本串之间的语义相似度值,从而提高了文本串之间语义相似度计算的准确性。
下面结合具体的处理示例,来进一步更直观地说明一下本发明实施例的具体应用。
例如,获取到两个文本串,分别是文本串1“宝宝发烧按穴”和文本串2“孩子发烧时穴位按摩图解”,分别对文本串1和文本串2进行分词,文本串1得到的分词结果是婴儿、发烧、按、穴,文本串2得到的分词结果是孩子、发烧、时、穴位、按摩、图解,设定语义层的个数为3个,根据前述分词结果分别将文本串1和文本串2分得的分词生成3个语义层,具体如下:
文本串1的语义层:
第一语义层“婴儿发烧按穴”
第二语义层“婴儿发烧发烧按按穴”
第三语义层“婴儿发烧按发烧按穴婴儿发烧按穴”
文本串2的语义层:
第一语义层“孩子发烧时穴位按摩图解”
第二语义层“孩子发烧发烧时时穴位穴位按摩按摩图解”
第三语义层“孩子发烧时发烧时穴位时穴位按摩穴位按摩图解”
将文本串1的每个语义层都分别与文本串2的所有语义层进行语义相似度计算得到9个相似度得分,具体如下:
Similarity(1,1)=Similarity(婴儿,发烧,按,穴,孩子,发烧,时,穴位,按摩,图解)=0.12986049481475892
Similarity(1,2)=Similarity(婴儿,发烧,按,穴,孩子发烧,发烧时,时穴位,穴位按摩,按摩图解)=0.3424741722399167
Similarity(1,3)=Similarity(婴儿,发烧,按,穴,孩子发烧时,发烧时穴位,时穴位按摩,穴位按摩图解)=0.12812063253604022
Similarity(2,1)=Similarity(婴儿发烧,发烧按,按穴,孩子,发烧,时,穴位,按摩,图解)=0.3202719927718366
Similarity(2,2)=Similarity(婴儿发烧,发烧按,按穴,孩子发烧,发烧时,时穴位,穴位按摩,按摩图解)=0.42610513584673215
Similarity(2,3)=Similarity(婴儿发烧,发烧按,按穴,孩子发烧时,发烧时穴位,时穴位按摩,穴位按摩图解)=0.4018645077434244
Similarity(3,1)=Similarity(婴儿发烧按,发烧按穴,婴儿发烧按穴,孩子,发烧,时,穴位,按摩,图解)=0.0927455748090592
Similarity(3,2)=Similarity(婴儿发烧按,发烧按穴,婴儿发烧按穴,孩子发烧,发烧时,时穴位,穴位按摩,按摩图解)=0.9949029098323043
Similarity(3,3)=Similarity(婴儿发烧按,发烧按穴,婴儿发烧按穴,孩子发烧时,发烧时穴位,时穴位按摩,穴位按摩图解)=0.7148867931201495
根据计算得到的9个依存相似度值,最终计算得到文本串1和文本串2的语义相似度值,如下:
Finalscore=(Similarity(1,1)+Similarity(1,2)+Similarity(1,3)
+Similarity(2,1)+Similarity(2,2)+Similarity(2,3)
+Similarity(3,1)+Similarity(3,2)+Similarity(3,3))/9
=0.394581357079358
上述具体处理示例仅作为示例性实施例,此处设定语义层的个数为3个,还可以预定更多个数的语义层,从而获得更多的依存相似度值,根据多个的依存相似度值计算得到更加准确的两个文本串之间的语义相似度值。
实施例二
图3为本发明实施例二的搜索结果处理方法的流程图。可在例如搜索引擎服务器上执行所述方法。所述方法包括如下步骤:
步骤21:接收用户的搜索词。
所述搜索词可以是从客户端发送的搜索词。例如,用户在浏览器搜索引擎界面上输入“宝宝发烧按穴”进行搜索,浏览器应用将所述搜索词发送给搜索引擎服务器。
步骤22:根据搜索词获取多个搜索结果条目。
在步骤21接收用户搜索词之后,就可以根据搜索词获取多个搜索结果条目,具体的,搜索引擎服务器可使用搜索词利用现有的搜索技术(例如,从预先编制的网页索引)获取到多个搜索结果条目。
步骤23:根据前述的所述语义相似度计算方法分别计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值。
在前述的实施例一中已描述了所述语义相似度计算方法。该步骤可利用所述语义相似度计算方法分别计算搜索词与多个搜索结果条目的内容标题的语义相似度值。
步骤24:根据所述语义相似度值对所述搜索结果条目进行排序。
根据步骤23计算得到的搜索词与多个搜索结果条目的内容标题的语义相似度值,对搜索结果条目进行排序,从而得到经过排序的搜索结果条目。
步骤25:发送经排序的搜索结果条目。
通过本实施例的搜索结果处理方法,可以利用所述语义相似度计算方法分别计算搜索词与多个搜索结果条目的内容标题的语义相似度值,再根据该语义相似度值对搜索结果条目进行排序,从而使得最优质的搜索结果条目排在前面,有助于提高搜索结果与用户需求的匹配度。
实施例三
图4为本发明实施例三的语义相似度计算装置的逻辑框图。参照图4,所述语义相似度计算装置包括:
文本串获取模块31,用于获取第一文本串和第二文本串。
文本串分词模块32,用于分别对第一文本串和第二文本串进行分词,生成分词结果。
语义层生成模块33,用于根据分词结果分别将第一文本串和第二文本串分得的分词生成预定多个语义层。
优选地,语义层生成模块33用于对第一文本串和第二文本串中的任一文本串,由所述文本串的分词结果中的每单个分词作为一个元组生成包括多个元组的第一语义层;由所述文本串的分词结果中相邻的每i个分词作为一个元组生成包括多个元组的第i语义层,其中,i≥2且i为正整数。
依存相似度值计算模块34,用于将第一文本串的每个语义层都分别与第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值。进一步地,对于第一文本串的第i语义层<si1,si2,…sim>和第二文本串的第j语义层<wj1,wj2,…wjn>,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算第i语义层和第j语义层的依存相似度。
优选地,依存相似度值计算模块34用于通过以下公式执行所述对于第一文本串的第i语义层<si1,si2,…sim>和第二文本串的第j语义层<wj1,wj2,…wjn>,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算第i语义层和第j语义层的依存相似度的处理:
Similarity ( < si 1 , si 2 , . . . sim > , < wj 1 , wj 2 , . . . wjn > ) = &Sigma; k = 1 m &Sigma; l = 1 n ( 1 - alpha ) * p ( sik | wj 1 ) * ( 1 / | k - 1 + 1 | ) if ( sik ! = wj 1 ) alpha if ( sik = = wj 1 ) ,
其中,si1,si2,…sim为第一文本串的第i语义层的m个元组,wj1,wj2,…wjn为第二文本串的第个语义层的n个元组,p(sik|wjl)为元组之间相似度的匹配概率表,alpha是预定的常量,1/|k-l+1|为两个元组间距离的惩罚参数。
语义相似度值计算模块35,用于根据计算的N×N个依存相似度值计算第一文本串和第二文本串的语义相似度值。
优选地,语义相似度值计算模块35用于对N×N个依存相似度值进行加权融合,得到第一文本串和第二文本串的语义相似度值。
通过该语义相似度计算装置,能够分别对获取到的两个文本串进行分词,将两个文本串分得的分词生成预定多个语义层,将其中一个文本串的每个语义层都分别与另一文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值,再依据这N×N个依存相似度值计算得到两个文本串之间的语义相似度值,从而提高了文本串之间语义相似度计算的准确性。
实施例四
图5是本发明实施例四的搜索结果处理装置的逻辑框图。参照图5,所述搜索结果处理装置包括:
搜索结果条目获取单元41,用于根据搜索词获取多个搜索结果条目;
语义相似度计算单元42,用于通过例如实施例三所述的语义相似度计算装置分别计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;
搜索结果条目排序单元43,用于根据所述语义相似度计算单元计算的语义相似度值对所述搜索结果条目进行排序。
实施例五
本发明的示例性实施例还提供一种搜索引擎。所述搜索引擎包括:
搜索词接收装置,用于接收搜索词;
如实施例四所述的搜索结果处理装置,用于根据所述搜索词产生经过排序的搜索结果条目;
搜索结果发送装置,用于发送经排序的搜索结果条目。
在本发明所提供的几个实施例中,应该理解到,所公开的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种语义相似度计算方法,其特征在于,所述方法包括:
获取第一文本串和第二文本串;
分别对所述第一文本串和所述第二文本串进行分词,生成分词结果;
根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层;
将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值;
根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层的处理包括:
对所述第一文本串和所述第二文本串中的任一文本串,进行如下分层处理:
由所述文本串的分词结果中的每单个分词作为一个元组生成包括多个元组的第一语义层;
由所述文本串的分词结果中相邻的每i个分词作为一个元组生成包括多个元组的第i语义层,其中,i≥2且i为正整数。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值的处理包括:
对于所述第一文本串的第i语义层<si1,si2,…sim>和所述第二文本串的第j语义层<wj1,wj2,…wjn>,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算所述第i语义层和所述第j语义层的依存相似度。
4.根据权利要求3所述的方法,其特征在于,通过以下公式执行所述对于所述第一文本串的第i语义层<si1,si2,...sim>和所述第二文本串的第j语义层<wj1,wj2,…wjn>,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算所述第i语义层和所述第j语义层的依存相似度的处理:
Similarity ( < si 1 , si 2 , . . . sim > , < wj 1 , wj 2 , . . . wjn > ) = &Sigma; k = 1 m &Sigma; l = 1 n ( 1 - alpha ) * p ( sik | wjl ) * ( 1 / | - l + 1 ) if ( sik ! = wjl ) alpha if ( sik = = wjl ) ,
其中,si1,si2,…sim为所述第一文本串的第i语义层的m个元组,wj1,wj2,…wjn为所述第二文本串的第个语义层的n个元组,p(sik wjl)为元组之间相似度的匹配概率表,alpha是预定的常量,1/|k-l+1|为两个元组间距离的惩罚参数。
5.根据权利要求4所述的方法,其特征在于,所述根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值的处理包括:
对所述N×N个依存相似度值进行加权融合,得到所述第一文本串和所述第二文本串的语义相似度值。
6.一种搜索结果处理方法,其特征在于,所述方法包括:
接收用户的搜索词;
根据所述搜索词获取多个搜索结果条目;
根据如权利要求1~5中任一项所述的方法分别计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;
根据所述语义相似度值对所述搜索结果条目进行排序;
发送经排序的搜索结果条目。
7.一种语义相似度计算装置,其特征在于,所述装置包括:
文本串获取模块,用于获取第一文本串和第二文本串;
文本串分词模块,用于分别对所述第一文本串和所述第二文本串进行分词,生成分词结果;
语义层生成模块,用于根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层;
依存相似度值计算模块,用于将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值;
语义相似度值计算模块,用于根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值。
8.根据权利要求7所述的装置,其特征在于,所述语义层生成模块用于对所述第一文本串和所述第二文本串中的任一文本串,由所述文本串的分词结果中的每单个分词作为一个元组生成包括多个元组的第一语义层;由所述文本串的分词结果中相邻的每i个分词作为一个元组生成包括多个元组的第i语义层,其中,i≥2且i为正整数。
9.根据权利要求8所述的装置,其特征在于,对于所述第一文本串的第i语义层<si1,si2,…sim>和所述第二文本串的第j语义层<wj1,wj2,…wjn>,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算所述第i语义层和所述第j语义层的依存相似度。
10.根据权利要求9所述的装置,其特征在于,所述依存相似度值计算模块用于通过以下公式执行所述对于所述第一文本串的第i语义层<si1,si2,…sim>和所述第二文本串的第j语义层<wj1,wj2,…wjn>,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算所述第i语义层和所述第j语义层的依存相似度的处理:
Similarity ( < si 1 , si 2 , . . . sim > , < wj 1 , wj 2 , . . . wjn > ) = &Sigma; k = 1 m &Sigma; l = 1 n ( 1 - alpha ) * p ( sik | wjl ) * ( 1 / | - l + 1 ) if ( sik ! = wjl ) alpha if ( sik = = wjl ) ,
其中,si1,si2,…sim为所述第一文本串的第i语义层的m个元组,wj1,wj2,…wjn为所述第二文本串的第个语义层的n个元组,p(sik wjl)为元组之间相似度的匹配概率表,alpha是预定的常量,1/|k-l+1|为两个元组间距离的惩罚参数。
11.根据权利要求10所述的装置,其特征在于,所述语义相似度值计算模块用于对所述N×N个依存相似度值进行加权融合,得到所述第一文本串和所述第二文本串的语义相似度值。
12.一种搜索结果处理装置,其特征在于,所述装置包括:
搜索结果条目获取单元,用于根据搜索词获取多个搜索结果条目;
语义相似度计算单元,用于通过如权利要求7~11中任一项所述的语义相似度计算装置分别计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;
搜索结果条目排序单元,用于根据所述语义相似度计算单元计算的语义相似度值对所述搜索结果条目进行排序。
13.一种搜索引擎,其特征在于,所述搜索引擎包括:
搜索词接收装置,用于接收搜索词;
如权利要求12所述的搜索结果处理装置,用于根据所述搜索词产生经过排序的搜索结果条目;
搜索结果发送装置,用于发送经排序的搜索结果条目。
CN201410721307.0A 2014-12-02 2014-12-02 语义相似度计算方法、搜索结果处理方法和装置 Active CN104462323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410721307.0A CN104462323B (zh) 2014-12-02 2014-12-02 语义相似度计算方法、搜索结果处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410721307.0A CN104462323B (zh) 2014-12-02 2014-12-02 语义相似度计算方法、搜索结果处理方法和装置

Publications (2)

Publication Number Publication Date
CN104462323A true CN104462323A (zh) 2015-03-25
CN104462323B CN104462323B (zh) 2018-02-27

Family

ID=52908358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410721307.0A Active CN104462323B (zh) 2014-12-02 2014-12-02 语义相似度计算方法、搜索结果处理方法和装置

Country Status (1)

Country Link
CN (1) CN104462323B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528336A (zh) * 2015-12-23 2016-04-27 北京奇虎科技有限公司 多标杆确定文章相关性的方法和装置
CN105528335A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 确定新闻之间相关性的方法和装置
CN105654113A (zh) * 2015-12-23 2016-06-08 北京奇虎科技有限公司 文章指纹特征生成方法和装置
CN107016066A (zh) * 2017-03-17 2017-08-04 南方电网科学研究院有限责任公司 一种电网模型建模过程中测点匹配方法及装置
CN107133202A (zh) * 2017-06-01 2017-09-05 北京百度网讯科技有限公司 基于人工智能的文本校验方法和装置
CN107329946A (zh) * 2016-04-29 2017-11-07 阿里巴巴集团控股有限公司 相似度的计算方法和装置
US10217025B2 (en) 2015-12-22 2019-02-26 Beijing Qihoo Technology Company Limited Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news
CN109409848A (zh) * 2018-11-28 2019-03-01 厦门市美亚柏科信息股份有限公司 开放式流程的节点智能推荐方法、终端设备及存储介质
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6138085A (en) * 1997-07-31 2000-10-24 Microsoft Corporation Inferring semantic relations
US20040039657A1 (en) * 2000-09-01 2004-02-26 Behrens Clifford A. Automatic recommendation of products using latent semantic indexing of content
CN101359331A (zh) * 2008-05-04 2009-02-04 索意互动(北京)信息技术有限公司 对搜索结果重新排序的方法和系统
CN101777042A (zh) * 2010-01-21 2010-07-14 西南科技大学 基于神经网络和标签库的语句相似度算法
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
CN102955772A (zh) * 2011-08-17 2013-03-06 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
CN103914543A (zh) * 2014-04-03 2014-07-09 北京百度网讯科技有限公司 搜索结果的展现方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6138085A (en) * 1997-07-31 2000-10-24 Microsoft Corporation Inferring semantic relations
US20040039657A1 (en) * 2000-09-01 2004-02-26 Behrens Clifford A. Automatic recommendation of products using latent semantic indexing of content
CN101359331A (zh) * 2008-05-04 2009-02-04 索意互动(北京)信息技术有限公司 对搜索结果重新排序的方法和系统
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
CN101777042A (zh) * 2010-01-21 2010-07-14 西南科技大学 基于神经网络和标签库的语句相似度算法
CN102637163A (zh) * 2011-01-09 2012-08-15 华东师范大学 一种基于语义的多层次本体匹配的控制方法及系统
CN102955772A (zh) * 2011-08-17 2013-03-06 北京百度网讯科技有限公司 一种基于语义的相似度计算方法和装置
CN103914543A (zh) * 2014-04-03 2014-07-09 北京百度网讯科技有限公司 搜索结果的展现方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛慧芳: "句子相似度计算理论及应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10217025B2 (en) 2015-12-22 2019-02-26 Beijing Qihoo Technology Company Limited Method and apparatus for determining relevance between news and for calculating relevance among multiple pieces of news
CN105528335A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 确定新闻之间相关性的方法和装置
CN105528335B (zh) * 2015-12-22 2018-10-09 北京奇虎科技有限公司 确定新闻之间相关性的方法和装置
CN105654113A (zh) * 2015-12-23 2016-06-08 北京奇虎科技有限公司 文章指纹特征生成方法和装置
CN105528336A (zh) * 2015-12-23 2016-04-27 北京奇虎科技有限公司 多标杆确定文章相关性的方法和装置
CN105654113B (zh) * 2015-12-23 2020-02-21 北京奇虎科技有限公司 文章指纹特征生成方法和装置
CN105528336B (zh) * 2015-12-23 2018-09-21 北京奇虎科技有限公司 多标杆确定文章相关性的方法和装置
CN107329946A (zh) * 2016-04-29 2017-11-07 阿里巴巴集团控股有限公司 相似度的计算方法和装置
CN107016066A (zh) * 2017-03-17 2017-08-04 南方电网科学研究院有限责任公司 一种电网模型建模过程中测点匹配方法及装置
CN107133202A (zh) * 2017-06-01 2017-09-05 北京百度网讯科技有限公司 基于人工智能的文本校验方法和装置
CN109684629A (zh) * 2018-11-26 2019-04-26 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109684629B (zh) * 2018-11-26 2022-12-16 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109409848A (zh) * 2018-11-28 2019-03-01 厦门市美亚柏科信息股份有限公司 开放式流程的节点智能推荐方法、终端设备及存储介质

Also Published As

Publication number Publication date
CN104462323B (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
CN104462323A (zh) 语义相似度计算方法、搜索结果处理方法和装置
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
US20150161230A1 (en) Generating an Answer from Multiple Pipelines Using Clustering
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN104199965B (zh) 一种语义信息检索方法
CN105320772B (zh) 一种专利查重的关联论文查询方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN107967255A (zh) 一种判定文本相似性的方法和系统
CN104615767A (zh) 搜索排序模型的训练方法、搜索处理方法及装置
US20140358922A1 (en) Routing of Questions to Appropriately Trained Question and Answer System Pipelines Using Clustering
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN106970910A (zh) 一种基于图模型的关键词提取方法及装置
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN103473317A (zh) 提取关键词的方法和设备
CN111382255A (zh) 用于问答处理的方法、装置、设备和介质
CN111524593B (zh) 基于上下文语言模型和知识嵌入的医疗问答方法及系统
Sun et al. Automatic question tagging with deep neural networks
CN105205124A (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN103049470A (zh) 基于情感相关度的观点检索方法
CN109739983A (zh) 识别公安笔录人物关系的方法、装置及计算机可读介质
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
US20160275083A1 (en) Method and generating apparatus latent keyword
CN110851584A (zh) 一种法律条文精准推荐系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant