CN102346777B - 一种对例句检索结果进行排序的方法和装置 - Google Patents

一种对例句检索结果进行排序的方法和装置 Download PDF

Info

Publication number
CN102346777B
CN102346777B CN201110303382.1A CN201110303382A CN102346777B CN 102346777 B CN102346777 B CN 102346777B CN 201110303382 A CN201110303382 A CN 201110303382A CN 102346777 B CN102346777 B CN 102346777B
Authority
CN
China
Prior art keywords
collocation
example sentence
word
query word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110303382.1A
Other languages
English (en)
Other versions
CN102346777A (zh
Inventor
刘占一
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110303382.1A priority Critical patent/CN102346777B/zh
Publication of CN102346777A publication Critical patent/CN102346777A/zh
Application granted granted Critical
Publication of CN102346777B publication Critical patent/CN102346777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种对例句检索结果进行排序的方法和装置,其中所述方法包括:A获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算所述查询词与各个匹配例句之间的搭配强度;D.按照所述查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。通过上述方式,能够更好地满足用户的语言学习的目的和需求,提高用户的浏览效率,同时减少了系统为满足用户需求而增加的响应次数。

Description

一种对例句检索结果进行排序的方法和装置
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种对例句检索结果进行排序的方法和装置。
【背景技术】
随着计算机与互联网技术的深入发展,人们在语言学习中借助计算机强大的计算能力来获取自己需要的信息成为可能,例句检索系统就是一种帮助语言学习的人们获取相关资讯的有力工具,其通过在大规模句库中检索与用户输入相匹配的例句,帮助用户获得相关语言的正确用法。
但是,在现有的例句检索系统中,只能为用户提供包含用户查询词的例句,而没有对这些例句进行组织,以一种更符合用户检索目的的方式提供给用户,例如用户输入“performance”,用户除了希望能获取到包含这个词语的句子,还希望得知句子中“performance”这个词是如何使用的,而词语的使用方式通常是通过其与句子中的其他词的搭配关系来体现的,而现有的例句检索系统,不能对句子中的搭配信息进行识别,这样就导致与用户需求不够相关的例句检索结果出现在用户浏览页靠前的位置,使得用户为了找到想要的信息不得不进行翻页操作,从而降低了用户的浏览效率,也增加了系统的响应次数。
【发明内容】
本发明所要解决的技术问题是提供一种对例句检索结果进行排序的方法和装置,以解决现有的例句检索系统中存在的影响用户浏览效率,增加系统响应次数的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种对例句检索结果进行排序的方法,包括:A.获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;D.按照所述查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
根据本发明之一优选实施例,所述句库包括单语句库或双语句库。
根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与所述匹配例句包含的词语个数的比值。
根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且N小于匹配例句包含的词语个数。
根据本发明之一优选实施例,所述方法进一步包括对排序后的各个匹配例句进行展示。
根据本发明之一优选实施例,如果所述句库为双语句库,则在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。
根据本发明之一优选实施例,所述方法进一步包括在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。
根据本发明之一优选实施例,所述方法进一步包括:E1、确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语;E2、按照预设的分类策略,对步骤E1确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,并在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序并展示。
根据本发明之一优选实施例,所述分类策略包括:将具有相同词性组合的搭配词对分为一个类别;或者,将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别;或者,将所有的搭配词对分为一个类别。
本发明还提供了一种对例句检索结果进行排序的装置,包括:接收单元,用于获取用户的查询词;检索单元,用于从句库中检索包含所述查询词的匹配例句;计算单元,用于计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;排序单元,用于按照所述查询词与所述匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
根据本发明之一优选实施例,所述句库包括单语句库或双语句库。
根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。
根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且小于匹配例句包含的词语个数。
根据本发明之一优选实施例,该装置还包括:展示单元,用于对排序后的各个匹配例句进行展示。
根据本发明之一优选实施例,如果所述句库为双语句库,所述展示单元在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。
根据本发明之一优选实施例,该装置还包括:标识单元,用于在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。
根据本发明之一优选实施例,该装置还包括:分类单元,用于确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语并按照预设的分类策略,对确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序;所述展示单元进一步用于展示各类别下经排序后的各搭配词对。
根据本发明之一优选实施例,所述分类策略包括:将具有相同词性组合的搭配词对分为一个类别;或将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别;或将所有的搭配词对分为一个类别。
由以上技术方案可以看出,通过计算用户的查询词与匹配例句之间的搭配强度,并根据搭配强度对匹配例句进行排序和展示,能够更好地满足用户的语言学习的目的和需求,提高用户的浏览效率,同时减少了系统为满足用户需求而增加的响应次数。
【附图说明】
图1为本发明中对例句检索结果进行排序的方法的实施例的流程示意图;
图2为本发明中例句检索结果的展示界面的实施例一的示意图;
图3为本发明中例句检索结果的展示界面的实施例二的示意图;
图4为本发明中对例句检索结果进行排序的装置的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中对例句检索结果进行排序的方法的实施例的流程示意图。如图1所示,所述方法包括:
步骤101:获取用户的查询词。
步骤102:从句库中检索包含查询词的匹配例句。
步骤103:计算查询词与各个匹配例句之间的搭配强度。
步骤104:按照查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
步骤105:确定各个匹配例句中与查询词之间的搭配概率大于设定阈值的词语,并按照预设的分类策略,对确定的各词语分别与查询词组合形成的各搭配词对进行分类,在各类别下按照搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序。
步骤106:展示排序后的各个匹配例句和各类别下经排序后的各搭配词对。
下面对上述步骤进行具体说明。
用户在进行语言学习时,在查询一个词或多个词时的目的通常是不一样的,在查询一个词的时候,用户希望获得包含该词语的例句,以了解查询词在句子中的用法,而用户在查询多个词时,通常这多个词在使用时是有搭配关系的,用户希望获得包含这几个查询词的例句,同时希望了解这几个查询词之间的搭配关系是如何体现在例句中的。在本发明实施例中将只考虑单个查询词在例句中搭配关系的状况,因此在步骤101中,获取的用户查询词为单个查询词。
在步骤102中,从已有的句库中检索包含查询词的匹配例句,句库可以包括单语句库,或者包括双语句库。单语句库是由一种语言的句子形成的句库,双语句库是由双语句对形成的句库,该句对由两种不同语言的句子构成,并且这两个句子互为对方的译文。句库可以通过现有技术在线下生成,例如单语句库可以从一种语言的大规模语料中得来,而双语句库可以从大规模双语语料中提取得来。如果句库为双语句库,在检索得到源语言的匹配例句时,其对应的目标语言例句也可以相应得到。
步骤103中,查询词与匹配例句之间的搭配强度由查询词与匹配例句中除查询词之外的其他词之间的搭配概率确定。搭配概率是指一种语言的词语之间形成搭配关系的可能性。例如“提高”常和“效率”一起使用,那么“提高”和“效率”之间的搭配概率就较高,而“提高”和“面积”很少会在一起使用,那么“提高”和“面积”之间的搭配概率就很小。搭配概率可以通过现有技术获得,例如通过线下的大规模语料库进行词与词共现概率的统计,就可以得到包含词和词之间的搭配概率的搭配模型。由于在自然语言处理中,计算词和词之间的多元共现概率是非常成熟的技术,因此在本发明中将不再赘述其具体内容。
搭配强度用于衡量查询词与例句中除查询词之外的其他部分之间结合的紧密程度,利用搭配强度更容易发现包含查询词的典型应用的相关例句。如果一个较短的匹配例句中,查询词与例句中的多个词都有很高的搭配概率,那么这个匹配例句与查询词的搭配强度就比较高,而这样的匹配例句显然能够为用户带来更全面的信息,从而有助于用户的语言学习。
搭配强度的计算在考虑搭配概率的基础上可以有多种实施方式,一种实施方式是搭配强度等于查询词与匹配例句中除查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。以公式表达如下:
M ( q , E ) = Σ w j ∈ E , w j ≠ q p ( q , w j ) | E |
其中,M(q,E)表示查询词q与匹配例句E之间的搭配强度,|E|表示匹配例句E包含的词语个数,wj表示匹配例句E中除q之外的词语,q表示查询词,p(q,wj)表示q与wj之间的搭配概率。
由于在一个句子中,一个词通常只与少数几个词构成搭配关系,因此搭配强度也可以等于匹配例句中与查询词之间搭配概率最高的若干个词的平均搭配概率,即搭配强度等于查询词与匹配例句中除查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且N小于所述匹配例句包含的词语个数。
在步骤104中,按照步骤103中计算的搭配强度大小对各个匹配例句进行排序,并在步骤106中,通过展示界面将排序后的各个匹配例句返回给用户。如果前面所说的句库为双语句库时,在展示排序后的各个匹配例句时,还将展示各个匹配例句在双语句库中互为译文的另一语言的例句。
请参考图2,图2为本发明中例句检索结果的展示界面的实施例一的示意图。如图2所示,假设用户输入的查询词(Query)为“广泛”,在例句显示框中,将展示按照搭配强度从大到小排列的包含“广泛”这个词的例句。此外,展示各个匹配例句时,还可以进一步在各个匹配例句中标识与查询词之间的搭配概率大于设定阈值的词语,以供标识的词语在匹配例句中进行突出显示。假设为搭配概率设定的阈值为0.75,而图2所示的例句显示框内的匹配例句中的“兴趣”、“支持”、“涉及”、“领域”与“广泛”之间的搭配概率均高于0.75,则可以在匹配例句中采取加粗的形式标识这些词语,除此之外,标识的策略还可以采用高亮、飘红等形式。
是否在各个匹配例句中标识与查询词的搭配概率较高的词语,也可以由用户来控制,如图2所示,在展示界面上有“关闭搭配词显示”按钮,当获取到用户通过点击这个按钮发送的指令后,匹配例句中搭配概率较高的词语的标识状态可以取消。
图2显示的展示界面是考虑用户单语学习时的实施例,如果用户是为了进行双语学习,则在本发明的步骤102中,检索匹配例句的句库为双语句库,步骤106中进行展示时,在展示与用户的查询词的语言相同的匹配例句的同时,也会展示双语句库中与匹配例句互为译文的另一语言的例句。请参考图3,图3为本发明中例句检索结果的展示界面的实施例二的示意图。如图3所示,在例句显示框中显示的例句以双语句对的形式出现。
请继续参考图1。步骤105中,首先确定各个匹配例句中与查询词的搭配概率大于设定阈值的词语,如步骤103中已描述的,词语之间的搭配概率通过查询线下生成的包含词语之间共现概率的搭配模型即可得到。这些与查询词的搭配概率大于设定阈值的词语,也就是搭配概率较高的词语,与查询词组合后就成为了搭配词对,步骤105中将对这些搭配词对按照预设的分类策略进行分类,并在各个类别下按照搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序,并在步骤106中通过展示界面展示各类别下经排序后的各搭配词对。例如图2或图3中例句显示框中的匹配例句中的“兴趣”+“广泛”、“广泛”+“支持”、“涉及”+“广泛”和“领域”+“广泛”,都构成了搭配词对。
分类策略包括将具有相同词性组合的搭配词对分为一个类别。例如将搭配词对分为下面几种类型:
◆T1:名词+动词
◆T2:形容词+名词
◆T3:副词+动词
……
在如图2或图3所示的例句统计信息显示框中,将按照词性组合的类别对搭配词对进行分类显示,在各个类别下,搭配词对以在所有匹配例句中出现的总次数大小为顺序进行排列。例如在所有匹配例句中与“广泛”形成搭配的形容词与名词的搭配词对共有100个,“兴趣”+“广泛”出现了2次,“广泛”+“联系”出现了1次等等。在本实施例中,例句统计信息显示框中,在每个搭配词对的旁边(图中小括号中)也注明了其在所有匹配例句中出现的总次数。通过这样的方式,用户可以轻易了解与查询词相关的用法,从而提高语言学习的效率。
分类策略还可以包括将所有的搭配词对分为一个类别。如图2或图3所示的例句统计信息显示框中,在“全部”的类别下,包含了所有的搭配词对,并且各搭配词对是以其在所有匹配例句中出现的次数为顺序进行排列的。
分类策略还可以包括将查询词在搭配词对中具有相同词性的搭配词对分为一个类别,这是指仅以查询词的词性作为搭配词对分类的依据,以查询词“广泛”来说,可以分为形容词或副词等等,在形容词的类别下,搭配词对有“广泛”+“联系”、“广泛”+“应用”等等,在副词的类别下,搭配词对有“广泛”+“分布”、“广泛”+“存在”等等。
除此之外,分类策略还可包括将搭配词对在句子结构中的成分组合作为分类的依据,例如分为“主语”+“谓语”、“谓语”+“补语”等类别,或者将读音作为分类的依据,例如将搭配词对首字读音的拼音的首字母相同的分为一类,在此不再穷举其他分类策略。
请参考图4,图4为本发明中对例句检索结果进行排序的装置的实施例的结构示意框图。如图4所示,所述装置包括:接收单元201、检索单元202、计算单元203、排序单元204、展示单元205、标识单元206及分类单元207。
其中接收单元201,用于获取用户的查询词。
用户在进行语言学习时,在查询一个词或多个词时的目的通常是不一样的,在查询一个词的时候,用户希望获得包含该词语的例句,以了解查询词在句子中的用法,而用户在查询多个词时,通常这多个词在使用时是有搭配关系的,用户希望获得包含这几个查询词的例句,同时希望了解这几个查询词之间的搭配关系是如何体现在例句中的。在本发明实施例中将只考虑单个查询词在例句中搭配关系的状况,因此接收单元201获取的用户查询词为单个查询词。
检索单元202,用于从句库中检索包含查询词的匹配例句。
句库是一个已有的数据库,其包括单语句库或双语句库。单语句库是由一种语言的句子形成的句库,双语句库是由双语句对形成的句库,该句对由两种不同语言的句子构成,并且这两个句子互为对方的译文。句库可以通过现有技术在线下生成,例如单语句库可以从一种语言的大规模语料中得来,而双语句库可以从大规模双语语料中提取得来。如果句库为双语句库,在检索得到源语言的匹配例句时,其对应的目标语言例句也可以相应得到。
计算单元203,用于计算查询词与各个匹配例句之间的搭配强度。
查询词与匹配例句之间的搭配强度由查询词与匹配例句中除查询词之外的其他词之间的搭配概率确定。搭配概率是指一种语言的词语之间形成搭配关系的可能性。例如“提高”常和“效率”一起使用,那么“提高”和“效率”之间的搭配概率就较高,而“提高”和“面积”很少会在一起使用,那么“提高”和“面积”之间的搭配概率就很小。搭配概率可以通过现有技术获得,例如通过线下的大规模语料库进行词与词共现概率的统计,就可以得到包含词和词之间的搭配概率的搭配模型。由于在自然语言处理中,计算词和词之间的多元共现概率是非常成熟的技术,因此在本发明中将不再赘述其具体内容。
搭配强度用于衡量查询词与例句中除查询词之外的其他部分之间结合的紧密程度,利用搭配强度更容易发现包含查询词的典型应用的相关例句。如果一个较短的匹配例句中,查询词与例句中的多个词都有很高的搭配概率,那么这个匹配例句与查询词的搭配强度就比较高,而这样的匹配例句显然能够为用户带来更全面的信息,从而有助于用户的语言学习。
搭配强度的计算在考虑搭配概率的基础上可以有多种实施方式,一种实施方式是搭配强度等于查询词与匹配例句中除查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。以公式表达如下:
M = Σ w j ∈ E , w j ≠ q p ( q , w j ) | E |
其中,M(q,E)表示搭配强度,E表示匹配例句,|E|表示匹配例句包含的词语个数,wj表示匹配例句中的一个词语,q表示查询词,p(q,wj)表示查询词q与wj之间的搭配概率。
由于在一个句子中,一个词通常只与少数几个词构成搭配关系,因此搭配强度也可以等于匹配例句中与查询词之间搭配概率最高的若干个词的平均搭配概率,即搭配强度等于查询词与匹配例句中除查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且N小于所述匹配例句包含的词语个数。
排序单元204,用于按照查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。经本发明的装置排序后的各个匹配例句可以进一步地传递给其他的系统或应用。
展示单元205,用于展示经排序单元204排序后的各个匹配例句。如果前面所说的句库为双语句库时,展示单元在展示排序后的各个匹配例句时,还将展示各个匹配例句在双语句库中互为译文的另一语言的例句。
请参考图2,图2为本发明中例句检索结果的展示界面的实施例一的示意图。如图2所示,假设用户输入的查询词(Query)为“广泛”,在例句显示框中,将展示按照搭配强度从大到小排列的包含“广泛”这个词的例句。
标识单元206用于在各个匹配例句中标识与查询词之间的搭配概率大于设定阈值的词语,以供标识的词语在例句中进行突出显示。假设为搭配概率设定的阈值为0.75,而图2所示的例句显示框内的匹配例句中的“兴趣”、“支持”、“涉及”、“领域”与“广泛”之间的搭配概率均高于0.75,则可以在匹配例句中采取加粗的形式标识这些词语,除此之外,标识的策略还可以采用高亮、飘红等形式。
是否在各个匹配例句中标识与查询词的搭配概率较高的词语,也可以由用户来控制,如图2所示,在展示界面上有“关闭搭配词显示”按钮,当获取到用户通过点击这个按钮发送的指令后,标识单元206还可以取消匹配例句中搭配概率较高的词语的标识状态。
图2显示的展示界面是考虑用户单语学习时的实施例,如果用户是为了进行双语学习,则检索单元202检索匹配例句时使用的句库为双语句库,展示单元205在展示排序后的各个匹配例句时,还将展示各个匹配例句在双语句库中互为译文的另一语言的例句。请参考图3,图3为本发明中例句检索结果的展示界面的实施例二的示意图。如图3所示,在例句显示框中显示的例句以双语句对的形式出现。
请继续参考图4。
分类单元207,用于确定各个匹配例句中与查询词之间的搭配概率大于设定阈值的词语,并按照预设的分类策略,对确定的各词语分别与查询词组合形成的各搭配词对进行分类,在各类别下按照搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序。展示单元205进一步用于展示各类别下经排序后的各搭配词对。
词语之间的搭配概率通过查询线下生成的包含词语之间共现概率的搭配模型即可得到。这些与查询词的搭配概率大于设定阈值的词语,也就是搭配概率较高的词语,与查询词组合后就成为了搭配词对。例如图2或图3中例句显示框中的匹配例句中的“兴趣”+“广泛”、“广泛”+“支持”、“涉及”+“广泛”和“领域”+“广泛”,都构成了搭配词对。
分类策略包括将具有相同词性组合的搭配词对分为一个类别。例如将搭配词对分为下面几种类型:
◆T1:名词+动词
◆T2:形容词+名词
◆T3:副词+动词
……
在如图2或图3所示的例句统计信息显示框中,将按照词性组合的类别对搭配词对进行分类显示,在各个类别下,搭配词对以在所有匹配例句中出现的总次数大小为顺序进行排列。例如在所有匹配例句中与“广泛”形成搭配的形容词与名词的搭配词对共有100个,“兴趣”+“广泛”出现了2次,“广泛”+“联系”出现了1次等等。在本实施例中,例句统计信息显示框中,在每个搭配词对的旁边(图中小括号中)也注明了其在所有匹配例句中出现的总次数。通过这样的方式,用户可以轻易了解与查询词相关的用法,从而提高语言学习的效率。
分类策略还可以包括将所有的搭配词对分为一个类别。如图2或图3所示的例句统计信息显示框中,在“全部”的类别下,包含了所有的搭配词对,并且各搭配词对是以其在所有匹配例句中出现的次数为顺序进行排列的。
分类策略还可以包括将查询词在搭配词对中具有相同词性的搭配词对分为一个类别,这是指仅以查询词的词性作为搭配词对分类的依据,以查询词“广泛”来说,可以分为形容词或副词等等,在形容词的类别下,搭配词对有“广泛”+“联系”、“广泛”+“应用”等等,在副词的类别下,搭配词对有“广泛”+“分布”、“广泛”+“存在”等等。
除此之外,分类策略还可包括将搭配词对在句子结构中的成分组合作为分类的依据,例如分为“主语”+“谓语”、“谓语”+“补语”等类别,或者将读音作为分类的依据,例如将搭配词对首字读音的拼音的首字母相同的分为一类,在此不再穷举其他分类策略。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种对例句检索结果进行排序的方法,其特征在于,所述方法包括:
A.获取用户的查询词;
B.从句库中检索包含所述查询词的匹配例句;
C.计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;
D.按照所述查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
2.根据权利要求1所述的方法,其特征在于,所述句库包括单语句库或双语句库。
3.根据权利要求1所述的方法,其特征在于,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与所述匹配例句包含的词语个数的比值。
4.根据权利要求1所述的方法,其特征在于,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且N小于匹配例句包含的词语个数。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括对排序后的各个匹配例句进行展示。
6.根据权利要求5所述的方法,其特征在于,如果所述句库为双语句库,则在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。
7.根据权利要求5所述的方法,其特征在于,所述方法进一步包括在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。
8.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:
E1、确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语;
E2、按照预设的分类策略,对步骤E1确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,并在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序并展示。
9.根据权利要求8所述的方法,其特征在于,所述分类策略包括:
将具有相同词性组合的搭配词对分为一个类别;或者,
将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别;或者,
将所有的搭配词对分为一个类别。
10.一种对例句检索结果进行排序的装置,其特征在于,所述装置包括:
接收单元,用于获取用户的查询词;
检索单元,用于从句库中检索包含所述查询词的匹配例句;
计算单元,用于计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;
排序单元,用于按照所述查询词与所述匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
11.根据权利要求10所述的装置,其特征在于,所述句库包括单语句库或双语句库。
12.根据权利要求10所述的装置,其特征在于,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。
13.根据权利要求10所述的装置,其特征在于,所述查询词与匹配例句之间的搭配强度等于:所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且小于匹配例句包含的词语个数。
14.根据权利要求10所述的装置,其特征在于,该装置还包括:展示单元,用于对排序后的各个匹配例句进行展示。
15.根据权利要求14所述的装置,其特征在于,如果所述句库为双语句库,所述展示单元在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。
16.根据权利要求14所述的装置,其特征在于,该装置还包括:标识单元,用于在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。
17.根据权利要求14所述的装置,其特征在于,该装置还包括:分类单元,用于确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语并按照预设的分类策略,对确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序;
所述展示单元进一步用于展示各类别下经排序后的各搭配词对。
18.根据权利要求17所述的装置,其特征在于,所述分类策略包括:
将具有相同词性组合的搭配词对分为一个类别;或将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别;或将所有的搭配词对分为一个类别。
CN201110303382.1A 2011-10-09 2011-10-09 一种对例句检索结果进行排序的方法和装置 Active CN102346777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110303382.1A CN102346777B (zh) 2011-10-09 2011-10-09 一种对例句检索结果进行排序的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110303382.1A CN102346777B (zh) 2011-10-09 2011-10-09 一种对例句检索结果进行排序的方法和装置

Publications (2)

Publication Number Publication Date
CN102346777A CN102346777A (zh) 2012-02-08
CN102346777B true CN102346777B (zh) 2016-06-01

Family

ID=45545454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110303382.1A Active CN102346777B (zh) 2011-10-09 2011-10-09 一种对例句检索结果进行排序的方法和装置

Country Status (1)

Country Link
CN (1) CN102346777B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890723B (zh) * 2012-10-25 2016-08-31 深圳市宜搜科技发展有限公司 一种例句检索的方法及系统
CN103699672A (zh) * 2013-12-30 2014-04-02 北京百度网讯科技有限公司 例句检索方法和装置
CN110209765B (zh) * 2019-05-23 2021-03-30 武汉绿色网络信息服务有限责任公司 一种按语义搜索关键词的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106474A (ja) * 1994-10-07 1996-04-23 Hitachi Ltd 類似例文検索結果表示方法及び装置
CN1735883A (zh) * 2002-12-27 2006-02-15 卡西欧计算机株式会社 具有例句的电子词典
CN1942875A (zh) * 2004-04-12 2007-04-04 松下电器产业株式会社 对话支援装置
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106474A (ja) * 1994-10-07 1996-04-23 Hitachi Ltd 類似例文検索結果表示方法及び装置
CN1735883A (zh) * 2002-12-27 2006-02-15 卡西欧计算机株式会社 具有例句的电子词典
CN1942875A (zh) * 2004-04-12 2007-04-04 松下电器产业株式会社 对话支援装置
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置

Also Published As

Publication number Publication date
CN102346777A (zh) 2012-02-08

Similar Documents

Publication Publication Date Title
Gupta et al. Abstractive summarization: An overview of the state of the art
Gambhir et al. Recent automatic text summarization techniques: a survey
Liu et al. Opinion target extraction using word-based translation model
Sawyer et al. Shallow knowledge as an aid to deep understanding in early phase requirements engineering
CN100507903C (zh) 检索确认句的方法和系统
US10824816B2 (en) Semantic parsing method and apparatus
Sharma et al. NIRMAL: Automatic identification of software relevant tweets leveraging language model
CN102567306B (zh) 一种不同语言间词汇相似度的获取方法及系统
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
Wang et al. NLP-based query-answering system for information extraction from building information models
Murray et al. Interpretation and transformation for abstracting conversations
CN102646091A (zh) 依存关系标注方法、装置和系统
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
Yan et al. Response selection from unstructured documents for human-computer conversation systems
de Melo et al. OpinionLink: Leveraging user opinions for product catalog enrichment
CN102346777B (zh) 一种对例句检索结果进行排序的方法和装置
KR20210125449A (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
Salas et al. Interoperability by design using the StdTrip tool: an a priori approach
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN106776590A (zh) 一种获取词条译文的方法及系统
KR20180086801A (ko) Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치
WO2023196554A1 (en) Systems and methods for generating codes and code books using cosine proximity
US9305103B2 (en) Method or system for semantic categorization
Alfaro et al. Galaxy populations in haloes in high-density environments
Rao et al. Automatic identification of concepts and conceptual relations from patents using machine learning methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant