CN102982024B - 一种搜索需求识别方法及装置 - Google Patents

一种搜索需求识别方法及装置 Download PDF

Info

Publication number
CN102982024B
CN102982024B CN201110258828.3A CN201110258828A CN102982024B CN 102982024 B CN102982024 B CN 102982024B CN 201110258828 A CN201110258828 A CN 201110258828A CN 102982024 B CN102982024 B CN 102982024B
Authority
CN
China
Prior art keywords
search
language model
translation
requirement
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110258828.3A
Other languages
English (en)
Other versions
CN102982024A (zh
Inventor
蓝翔
柴春光
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110258828.3A priority Critical patent/CN102982024B/zh
Publication of CN102982024A publication Critical patent/CN102982024A/zh
Application granted granted Critical
Publication of CN102982024B publication Critical patent/CN102982024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种搜索需求识别方法及装置。一种搜索需求识别方法包括:预先建立语言模型;接收到搜索请求后,利用所述语言模型得到搜索关键词对应的语言模型概率;根据所述搜索关键词的语言模型概率,判断所述搜索请求是否具有翻译需求。应用本申请实施例所提供的方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。

Description

一种搜索需求识别方法及装置
技术领域
本申请涉及互联网应用技术领域,特别是涉及一种搜索需求识别方法及装置。
背景技术
搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。传统的搜索引擎,在接收到用户的提交的搜索请求(query)后,首先提取该query所包含的关键词,然后基于文本内容匹配操作,将包含有该关键词的网页或文档返回给用户。随着用户对搜索智能化要求的不断提升,搜索需求识别已经成为搜索领域的一个研究热点。
所谓搜索需求识别,就是根据用户所提交的query,分析和预测用户的需求,确定用户的意图或感兴趣的领域,然后再向其提供相应的信息。例如,用户输入“从北京到上海”这样的query,则可以识别出该用户可能具有较强的地图查询需求或票务查询需求,这样就可以在展示搜索结果时,直接向用户提供地图或票务的相关内容,或者将地图或票务的相关内容排在搜索结果的前面,从而方便用户进一步浏览。
搜索需求识别所涉及的关键技术包括语义分析、行为分析、智能人机交互、海量计算处理、信息抽取等等。由于用户query表述方式的多样性,目前一种较为常用的方式是在不同的领域对用户的query进行分析,以实现更有针对性的搜索需求识别。
翻译需求是用户在搜索过程中一种较为常见的需求,根据现有技术,当用户输入“xxx翻译”或“xxx是什么意思”这样的query后,搜索引擎可以根据“翻译”或“是什么意思”等明显具有翻译需求的表述,较好地识别出用户具有针对单词“xxx”的翻译需求。但是在实际应用中,用户的query中可能仅包括一个单词或短语,而不包括“翻译”或“是什么意思”等有翻译需求的表述,在这种情况下,现有的搜索引擎还不能够很好地确定用户当前是否具有翻译需求。
发明内容
为解决上述技术问题,本申请实施例提供种一种搜索需求识别方法及装置,以实现对用户翻译需求的更有效识别,技术方案如下:
本申请实施例提供一种搜索需求识别方法,包括:
预先建立语言模型;
接收到搜索请求后,利用所述语言模型得到搜索关键词对应的语言模型概率;
根据所述搜索关键词的语言模型概率,判断所述搜索请求是否具有翻译需求;
其中,在搜索关键词所包含的单词个数L=1的情况下,所述判断过程包括:所述搜索关键词的语言模型概率是否低于预设的概率阈值,如果是,则确定该搜索请求具有翻译需求。
根据本申请方案的一种实施方式,在搜索关键词所包含的单词个数L≥1的情况下,所述判断过程包括:
计算所述搜索关键词的困惑度;
判断所述搜索关键词的困惑度是否高于预设的困惑度阈值,如果是,则确定该搜索请求具有翻译需求,
其中,p(s)为搜索关键词的语言模型概率。
根据本申请方案的一种实施方式,接收到搜索请求后,还包括:
判断搜索关键词所包含的单词个数是否小于预设的长度阈值,如果是,则进一步利用语言模型得到搜索关键词对应的语言模型概率。
根据本申请方案的一种实施方式,所述利用语言模型得到搜索关键词对应的语言模型概率,包括:
利用语言模型即时计算得到搜索关键词对应的语言模型概率。
根据本申请方案的一种实施方式,所述利用语言模型得到搜索关键词对应的语言模型概率,包括:
根据预置的语言模型概率表,查询得到搜索关键词对应的语言模型概率。
根据本申请方案的一种实施方式,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括:
在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
根据本申请方案的一种实施方式,在接收到搜索请求并生成搜索建议之后,还包括:
判断搜索建议的内容是否具有翻译需求。
根据本申请方案的一种实施方式,在确定搜索建议的内容具有翻译需求后,还包括:
将搜索建议对应的翻译内容展现在搜索建议框中。
本申请实施例还提供一种搜索需求识别装置,包括:
建模单元,用于预先建立语言模型;
语言模型概率计算单元,用于在接收到搜索请求后,利用所述语言模型得到搜索关键词对应的语言模型概率;
翻译需求识别单元,用于根据所述搜索关键词的语言模型概率,判断所述搜索请求是否具有翻译需求;
其中,在搜索关键词所包含的单词个数L=1的情况下,所述翻译需求识别单元的判断过程包括:所述搜索关键词的语言模型概率是否低于预设的概率阈值,如果是,则确定该搜索请求具有翻译需求。
根据本申请方案的一种实施方式,在搜索关键词所包含的单词个数L≥1的情况下,所述翻译需求识别单元的判断过程包括:
计算所述搜索关键词的困惑度;
判断所述搜索关键词的困惑度是否高于预设的困惑度阈值,如果是,则确定该搜索请求具有翻译需求,
其中,p(s)为搜索关键词的语言模型概率。
根据本申请方案的一种实施方式,该装置还包括:
关键词长度判断单元,用于在接收到搜索请求后,判断搜索关键词所包含的单词个数是否小于预设的长度阈值,如果是,则触发所述语言模型概率计算单元进一步利用语言模型得到搜索关键词对应的语言模型概率。
根据本申请方案的一种实施方式,所述语言模型概率计算单元,具体配置为:
用于利用语言模型即时计算得到搜索关键词对应的语言模型概率。
根据本申请方案的一种实施方式,所述语言模型概率计算单元,具体配置为:
用于根据预置的语言模型概率表,查询得到搜索关键词对应的语言模型概率。
根据本申请方案的一种实施方式,还包括:
翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
根据本申请方案的一种实施方式,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。
根据本申请方案的一种实施方式,所述翻译结果展现单元,还用于在所述翻译需求识别单元确定搜索建议的内容具有翻译需求后,将搜索建议对应的翻译内容展现在搜索建议框中。
上述方案利用语言模型概率来判断搜索请求是否具有翻译需求,语言模型概率越低,说明搜索关键词越不常见,相应的翻译需求也就越强。进而,如果用户在搜索过程中,使用的搜索关键词的语言模型概率越低,则可以判断该用户本次的搜索行为具有翻译需求。
应用本申请实施例所提供的方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例搜索需求识别方法的流程图;
图2为本申请实施例所提供的一种翻译结果展现方式示意图;
图3为本申请实施例所提供的第二种翻译结果展现方式示意图;
图4为本申请实施例所提供的第三种翻译结果展现方式示意图;
图5为本申请实施例搜索需求识别装置的第一种结构示意图;
图6为本申请实施例搜索需求识别装置的第二种结构示意图;
图7为本申请实施例搜索需求识别装置的第三种结构示意图。
具体实施方式
在现有的搜索引擎中,当用户在搜索框输入一段文字,特别是输入外文时,用户可能是想得到包含有该文字内容的网页或文档,即普通搜索需求;也可能是想要查看与该文字内容相应的翻译或双语例句,即翻译需求。对于搜索引擎而言,如果可以正确判断出用户当前的需求,则可以构建更为符合用户需求的搜索结果向用户展现,以方便用户浏览。
本申请实施例提供一种搜索需求识别方法,该方法包括以下步骤:
预先建立语言模型;
接收到搜索请求后,利用所述语言模型得到搜索关键词对应的语言模型概率;
根据所述搜索关键词的语言模型概率,判断所述搜索请求是否具有翻译需求;
上述方法利用语言模型概率来判断搜索请求是否具有翻译需求,语言模型概率越低,说明搜索关键词越不常见,相应的翻译需求也就越强。进而,如果用户在搜索过程中,使用的搜索关键词的语言模型概率越低,则可以判断该用户本次的搜索行为具有翻译需求。应用上述方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
图1所示,为本申请实施例一种搜索需求识别方法的流程图,该方法可以包括以下步骤:
S101,预先建立语言模型;
在自然语言处理(NLP)领域,语言模型是用来计算一个词或句子出现概率的模型。根据语言模型概率值,可以决定哪一种词序列出现的可能性更大、或者在已知若干词的前提下,预测下一个词。语言模型一般应用于语音识别、机器翻译、拼写检查等领域,而本申请实施例所提供的方案,是基于语言模型对用户提交的搜索关键词进行打分,作为识别翻译需求的依据。
N-Gram是一种常用的语言模型,该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
即对于一个词序列
s=w1,w1,...,wm
其概率可以表示为:
p ( s ) = p ( w 1 , w 1 , . . . , w m ) = Π i = 1 m p ( w i | w 1 , . . . , w i - 1 )
其中,概率p(wi|w1,...,wi-1)可以通过直接从语料中统计N个词同时出现的次数得到。也就是说,语言模型可以用大量的语料训练得到。
以上仅以N-Gram模型做示意性说明,语言模型还有其他形式,在本申请实施例中,只是利用语言模型概率作为作为识别翻译需求的依据,所采用语言模型的具体形式并不影响本申请实施例方案的实现,其中,语言模型的具体训练方法可以利用现有技术实现,例如使用语言模型训练工具SRILM,本申请实施例不需要对语言模型的具体训练方法做详细介绍。
S102,接收到搜索请求后,利用所述语言模型得到搜索关键词对应的语言模型概率;
在本步骤中,当搜索引擎接收到新的搜索请求后,将根据预先建立的语言模型获得搜索请求中搜索关键词的语言模型概率。
以N-gram模型为例,假如用户输入的搜索关键词为:
s=w1,w1,...,wL
则根据公式
p ( s ) = p ( w 1 , w 2 , . . . , w L ) = Π i = 1 L p ( w i | w 1 , . . . , w i - 1 )
计算得到搜索关键词的语言模型概率p(s),其中概率p(wi|w1,...,wi-1)是在语言模型的训练过程中得到。
在实际应用时,可以在接收到搜索请求之后,即时计算语言模型概率p(s);也可以预先将一些常用词组合的语言模型概率预先计算出来并存储,这样在接收到搜索请求之后,如果搜索关键词是常用词的组合,就可以直接通过查表的方式获得这些常用组合的语言模型概率,从而避免反复计算对系统资源的消耗。
S103,根据所述搜索关键词的语言模型概率,判断所述搜索请求是否具有翻译需求;
最简单的一种情况,是搜索关键词中仅包括一个单词,即在L=1的情况下,可以直接根据语言模型概率值的大小来判断当前的搜索请求是否具有翻译需求。
例如,预设的概率阈值为0.01,对于以下两个单词:“nokia”和“deposit”,在步骤S102通过计算或查表得到,单词“nokia”的语言模型概率为0.02,单词“deposit”的语言模型概率为0.005,则通过与概率阈值进行比较,分别做如下处理:
单词“nokia”的语言模型概率为0.02,大于概率阈值0.01,因此判断该搜索请求没有翻译需求。对应实际情况,该词在各种语料中属于热门词或高频词,用户在使用该词进行搜索时,更大的可能是想查找相关的网页或文档,而不是要得到该词的翻译。
单词“deposit”的语言模型概率为0.005,小于概率阈值0.01,因此判断该搜索请求是有翻译需求的。对应实际情况,该词在各种语料中的出现频率较低,因此用户在使用该词进行搜索时,很有可能是要查找该词的翻译。
对于概率阈值的设置方法,可以根据经验直接设定,也可以按照前述方法选择一批含有翻译需求的query,并同时选择另一批不含有翻译需求的query,两者的数量相近为宜。然后分别进行打分,选择一个使两类数据能够明显区分的数值作为阈值。
当然,本领域技术人员可以理解,根据实际需求,也可以设置多个不同的阈值范围,从而确定当前搜索请求的翻译需求强度。对于具有不同翻译需求强度的搜索请求,可以给予不同的处理方式,例如,对于具有更强翻译需求强度的搜索请求,可以将翻译结果排在搜索结果中更为靠前的位置。
以上介绍了在搜索关键词中仅包括一个单词,判断翻译需求的一种处理方式,在本申请的另一个实施例中,还提供一种针对包括多个单词的搜索关键词的处理方式。
根据语言模型概率公式
p ( s ) = p ( w 1 , w 2 , . . . , w L ) = Π i = 1 L p ( w i | w 1 , . . . , w i - 1 )
可以看出p(s)的值是与s所包含单词个数L相关的,由于概率值都是小于1,因此,L值越大,连乘的概率越多,会造成p(s)值越小,这与实际情况是不相符的,进而会导致翻译需求识别的不准确。为避免发生上述问题,在本申请实施例中,对于L>1的情况,将利用搜索关键词的困惑度来确定搜索请求是否具有翻译需求,其中,搜索关键词的困惑度可用以下公式进行计算:
perplexity = [ p ( s ) ] - 1 L
可以看出,在上面的公式中,将L以负指数的形式对p(s)进行修正,L值越大,困惑度越高,说明s的生僻度也较高,相应的需求翻译需求强度也就越高。
当然,在L=1的情况下,本实施例所提供的方案也依然适用。仍以前面使用过的例子进行说明,一般来说,英文句子的困惑度在[50,1000]的范围内,假设预设的困惑度阈值为100,那么:
单词“nokia”的困惑度为50,小于困惑度阈值100,因此判断该搜索请求没有翻译需求。
单词“deposit”的困惑度为200,大于概率阈值100,因此判断该搜索请求是有翻译需求的。
对于困惑度阈值的设置方法,可以根据经验直接设定,也可以按照前述方法选择一批含有翻译需求的query,并同时选择另一批不含有翻译需求的query,两者的数量相近为宜。然后分别进行打分,选择一个使两类数据能够明显区分的数值作为阈值。
当然,本领域技术人员可以理解,根据实际需求,也可以设置多个不同的阈值范围,从而确定当前搜索请求的翻译需求强度。对于具有不同翻译需求强度的搜索请求,可以给予不同的处理方式,例如,对于具有更强翻译需求强度的搜索请求,可以将翻译结果排在搜索结果中更为靠前的位置。
以上分别提供了仅考虑L=1和考虑L≥1时的两种不同的翻译需求识别方法,在实际应用中,本申请所提供的方案对于较短长度的搜索关键词是否具有翻译需求判断准确率较高,因此,在本申请的一种实现方式中,在接收到搜索请求后,可以首先判断搜索关键词所包含的单词个数L是否小于预设的长度阈值,如果是,则进一步利用语言模型得到搜索关键词对应的语言模型概率,并且执行后续步骤识别翻译需求;如果否,可以停止对翻译需求进行识别,或者选择其他的方案对较长的搜索关键词进行翻译需求识别。
在本申请所提供的一种实施方式中,如果搜索引擎具有实时识别query并反应的功能,则根据上述方案确定搜索请求具有翻译需求后,可以直接在搜索页面对搜索请求对应的翻译结果进行展现,这样,用户就可以在不进入搜索结果页的情况下,得到所需的翻译结果。
图2所示为本申请实施例所提供的一种翻译结果展现方式,在该方式中,翻译结果是在搜索框中进行展现。
图3所示为本申请实施例所提供的另一种翻译结果展现方式,在该方式中,翻译结果是以搜索建议的形式进行展现。
在实际应用中,对于翻译结果的展现,可以使用不同字体、颜色等形式的文字,也可以使用链接、图片等其他媒体方式进行展现。展现的内容不仅可以包括直接翻译结果(如词典释义,自动翻译结果等),也可以包括其他相关内容,例如词性,用法,常用搭配,使用环境,例句,音标,朗读功能等等。
在本申请所提供的一种实施方式中,如果搜索引擎能针对用户当前输入实时生成搜索建议,则在系统资源允许的前提下,搜索引擎还可以进一步判断这些搜索建议是否具有翻译需求。如果有,可以将搜索建议对应的翻译内容展现在搜索建议框中,如图4所示。
相应于上面的方法实施例,本申请还提供一种搜索需求识别装置,参见图5所示,包括:
建模单元501,用于预先建立语言模型;
在自然语言处理(NLP)领域,语言模型是用来计算一个词或句子出现概率的模型。根据语言模型概率值,可以决定哪一种词序列出现的可能性更大、或者在已知若干词的前提下,预测下一个词。语言模型一般应用于语音识别、机器翻译、拼写检查等领域,而本申请实施例所提供的方案,是基于语言模型对用户提交的搜索关键词进行打分,作为识别翻译需求的依据。
N-Gram是一种常用的语言模型,该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
即对于一个词序列
s=w1,w1,...,wm
其概率可以表示为:
p ( s ) = p ( w 1 , w 1 , . . . , w m ) = Π i = 1 m p ( w i | w 1 , . . . , w i - 1 )
其中,概率p(wi|w1,...,wi-1)可以通过直接从语料中统计N个词同时出现的次数得到。也就是说,语言模型可以用大量的语料训练得到。
以上仅以N-Gram模型做示意性说明,语言模型还有其他形式,在本申请实施例中,只是利用语言模型概率作为作为识别翻译需求的依据,所采用语言模型的具体形式并不影响本申请实施例方案的实现,其中,语言模型的具体训练方法可以利用现有技术实现,例如使用语言模型训练工具SRILM,本申请实施例不需要对语言模型的具体训练方法做详细介绍。
语言模型概率计算单元502,用于在接收到搜索请求后,利用所述语言模型得到搜索关键词对应的语言模型概率;
语言模型概率计算单元502接收到新的搜索请求后,将根据预先建立的语言模型获得搜索请求中搜索关键词的语言模型概率。
以N-gram模型为例,假如用户输入的搜索关键词为:
s=w1,w1,...,wL
则根据公式
p ( s ) = p ( w 1 , w 2 , . . . , w L ) = Π i = 1 L p ( w i | w 1 , . . . , w i - 1 )
计算得到搜索关键词的语言模型概率p(s),其中概率p(wi|w1,...,wi-1)是在语言模型的训练过程中得到。
在实际应用时,语言模型概率计算单元502,可以具体配置为:在接收到搜索请求之后,即时计算语言模型概率p(s);
此外,预先将一些常用词组合的语言模型概率预先计算出来并存储,相应地语言模型概率计算单元502,也可以具体配置为:用于根据预置的语言模型概率表,查询得到搜索关键词对应的语言模型概率。这样在接收到搜索请求之后,如果搜索关键词是常用词的组合,就可以直接通过查表的方式获得这些常用组合的语言模型概率,从而避免反复计算对系统资源的消耗。
翻译需求识别单元503,用于根据所述搜索关键词的语言模型概率,判断所述搜索请求是否具有翻译需求;
其中,在搜索关键词所包含的单词个数L=1的情况下,所述翻译需求识别单元503的判断过程包括:所述搜索关键词的语言模型概率是否低于预设的概率阈值,如果是,则确定该搜索请求具有翻译需求。
对于概率阈值的设置方法,可以根据经验直接设定,也可以按照前述方法选择一批含有翻译需求的query,并同时选择另一批不含有翻译需求的query,两者的数量相近为宜。然后分别进行打分,选择一个使两类数据能够明显区分的数值作为阈值。
当然,本领域技术人员可以理解,根据实际需求,也可以设置多个不同的阈值范围,从而确定当前搜索请求的翻译需求强度。对于具有不同翻译需求强度的搜索请求,可以给予不同的处理方式,例如,对于具有更强翻译需求强度的搜索请求,可以将翻译结果排在搜索结果中更为靠前的位置。
在搜索关键词所包含的单词个数L≥1的情况下,所述翻译需求识别单元503的判断过程包括:
计算所述搜索关键词的困惑度;
判断所述搜索关键词的困惑度是否高于预设的困惑度阈值,如果是,则确定该搜索请求具有翻译需求,
根据语言模型概率公式
p ( s ) = p ( w 1 , w 2 , . . . , w L ) = Π i = 1 L p ( w i | w 1 , . . . , w i - 1 )
可以看出p(s)的值是与s所包含单词个数L相关的,由于概率值都是小于1,因此,L值越大,连乘的概率越多,会造成p(s)值越小,这与实际情况是不相符的,进而会导致翻译需求识别的不准确。为避免发生上述问题,在本申请实施例中,对于L>1的情况,将利用搜索关键词的困惑度来确定搜索请求是否具有翻译需求,其中,搜索关键词的困惑度可用以下公式进行计算:
perplexity = [ p ( s ) ] - 1 L
可以看出,在上面的公式中,将L以负指数的形式对p(s)进行修正,L值越大,困惑度越高,说明s的生僻度也较高,相应的需求翻译需求强度也就越高。当然,在L=1的情况下,本实施例所提供的方案也依然适用。
对于困惑度阈值的设置方法,可以根据经验直接设定,也可以按照前述方法选择一批含有翻译需求的query,并同时选择另一批不含有翻译需求的query,两者的数量相近为宜。然后分别进行打分,选择一个使两类数据能够明显区分的数值作为阈值。
当然,本领域技术人员可以理解,根据实际需求,也可以设置多个不同的阈值范围,从而确定当前搜索请求的翻译需求强度。对于具有不同翻译需求强度的搜索请求,可以给予不同的处理方式,例如,对于具有更强翻译需求强度的搜索请求,可以将翻译结果排在搜索结果中更为靠前的位置。
参见图6所示,在本申请的一种实施方式中,上述装置还可以包括:
关键词长度判断单元504,用于在接收到搜索请求后,判断搜索关键词所包含的单词个数是否小于预设的长度阈值,如果是,则触发所述语言模型概率计算单元进一步利用语言模型得到搜索关键词对应的语言模型概率。
在实际应用中,本申请所提供的方案对于较短长度的搜索关键词是否具有翻译需求判断准确率较高,因此,在本申请的一种实现方式中,在接收到搜索请求后,可以首先判断搜索关键词所包含的单词个数L是否小于预设的长度阈值,如果是,则进一步利用语言模型得到搜索关键词对应的语言模型概率,并且执行后续步骤识别翻译需求;如果否,可以停止对翻译需求进行识别,或者选择其他的方案对较长的搜索关键词进行翻译需求识别。
参见图7所示,在本申请的一种实施方式中,上述装置还可以包括:
翻译结果展现单元505,用于在所述翻译需求识别单元503确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现。
如果搜索引擎具有实时识别query并反应的功能,则根据确定搜索请求具有翻译需求后,翻译结果展现单元506可以直接在搜索页面对搜索请求对应的翻译结果进行展现,这样,用户就可以在不进入搜索结果页的情况下,得到所需的翻译结果。
所述翻译结果展现单元具体可以配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;展现结果如图2所示。
所述翻译结果展现单元还可以配置为:
将搜索请求所对应的翻译结果以搜索建议的形式进行展现;展现结果如图3所示。
在实际应用中,对于翻译结果的展现,可以使用不同字体、颜色等形式的文字,也可以使用链接、图片等其他媒体方式进行展现。展现的内容不仅可以包括直接翻译结果(如词典释义,自动翻译结果等),也可以包括其他相关内容,例如词性,用法,常用搭配,使用环境,例句,音标,朗读功能等等。
此外,在在本申请的另一种实施方式中,翻译需求识别单元503还可以用于在搜索引擎接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。如果识别出有翻译需求,则翻译结果展现单元506可以将搜索建议对应的翻译内容展现在搜索建议框中,如图4所示。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种搜索需求识别方法,其特征在于,包括:
预先建立语言模型;
接收到搜索请求后,利用所述语言模型得到搜索关键词对应的语言模型概率;
根据所述搜索关键词的语言模型概率,判断所述搜索请求是否具有翻译需求;
其中,在搜索关键词所包含的单词个数L=1的情况下,所述判断过程包括:所述搜索关键词的语言模型概率是否低于预设的概率阈值,如果是,则确定该搜索请求具有翻译需求;或者,
在搜索关键词所包含的单词个数L≥1的情况下,所述判断过程包括:计算所述搜索关键词的困惑度;判断所述搜索关键词的困惑度是否高于预设的困惑度阈值,如果是,则确定该搜索请求具有翻译需求,其中,搜索 p(s)为搜索关键词的语言模型概率。
2.根据权利要求1所述的方法,其特征在于,接收到搜索请求后,还包括:
判断搜索关键词所包含的单词个数是否小于预设的长度阈值,如果是,则进一步利用语言模型得到搜索关键词对应的语言模型概率。
3.根据权利要求1所述的方法,其特征在于,所述利用语言模型得到搜索关键词对应的语言模型概率,包括:
利用语言模型即时计算得到搜索关键词对应的语言模型概率。
4.根据权利要求1所述的方法,其特征在于,所述利用语言模型得到搜索关键词对应的语言模型概率,包括:
根据预置的语言模型概率表,查询得到搜索关键词对应的语言模型概率。
5.根据权利要求1-4任一项所述的方法,其特征在于,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括:
在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
6.根据权利要求1-4任一项所述的方法,其特征在于,在接收到搜索请求并生成搜索建议之后,还包括:
判断搜索建议的内容是否具有翻译需求。
7.根据权利要求6所述的方法,其特征在于,在确定搜索建议的内容具有翻译需求后,还包括:
将搜索建议对应的翻译内容展现在搜索建议框中。
8.一种搜索需求识别装置,其特征在于,包括:
建模单元,用于预先建立语言模型;
语言模型概率计算单元,用于在接收到搜索请求后,利用所述语言模型得到搜索关键词对应的语言模型概率;
翻译需求识别单元,用于根据所述搜索关键词的语言模型概率,判断所述搜索请求是否具有翻译需求;
其中,在搜索关键词所包含的单词个数L=1的情况下,所述翻译需求识别单元的判断过程包括:所述搜索关键词的语言模型概率是否低于预设的概率阈值,如果是,则确定该搜索请求具有翻译需求;或者,
在搜索关键词所包含的单词个数L≥1的情况下,所述判断过程包括:计算所述搜索关键词的困惑度;判断所述搜索关键词的困惑度是否高于预设的困惑度阈值,如果是,则确定该搜索请求具有翻译需求,其中,搜索关键词的困惑度=p(s)为搜索关键词的语言模型概率。
9.根据权利要求8所述的装置,其特征在于,该装置还包括:
关键词长度判断单元,用于在接收到搜索请求后,判断搜索关键词所包含的单词个数是否小于预设的长度阈值,如果是,则触发所述语言模型概率计算单元进一步利用语言模型得到搜索关键词对应的语言模型概率。
10.根据权利要求8所述的装置,其特征在于,所述语言模型概率计算单元,具体配置为:
用于利用语言模型即时计算得到搜索关键词对应的语言模型概率。
11.根据权利要求8所述的装置,其特征在于,所述语言模型概率计算单元,具体配置为:
用于根据预置的语言模型概率表,查询得到搜索关键词对应的语言模型概率。
12.根据权利要求8-11任一项所述的装置,其特征在于,还包括:
翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
13.根据权利要求8-11任一项所述的装置,其特征在于,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。
14.根据权利要求13所述的装置,其特征在于,所述翻译结果展现单元,还用于在所述翻译需求识别单元确定搜索建议的内容具有翻译需求后,将搜索建议对应的翻译内容展现在搜索建议框中。
CN201110258828.3A 2011-09-02 2011-09-02 一种搜索需求识别方法及装置 Active CN102982024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110258828.3A CN102982024B (zh) 2011-09-02 2011-09-02 一种搜索需求识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110258828.3A CN102982024B (zh) 2011-09-02 2011-09-02 一种搜索需求识别方法及装置

Publications (2)

Publication Number Publication Date
CN102982024A CN102982024A (zh) 2013-03-20
CN102982024B true CN102982024B (zh) 2016-03-23

Family

ID=47856063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110258828.3A Active CN102982024B (zh) 2011-09-02 2011-09-02 一种搜索需求识别方法及装置

Country Status (1)

Country Link
CN (1) CN102982024B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444193B (zh) * 2018-01-31 2021-12-14 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101090461A (zh) * 2006-06-13 2007-12-19 中国科学院计算技术研究所 一种数字视频字幕自动翻译方法
CN102023970A (zh) * 2009-09-14 2011-04-20 株式会社东芝 获得语言模型概率及构建语言模型的方法和装置
CN102023969A (zh) * 2009-09-10 2011-04-20 株式会社东芝 获得加权语言模型概率及构建加权语言模型的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7406416B2 (en) * 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101090461A (zh) * 2006-06-13 2007-12-19 中国科学院计算技术研究所 一种数字视频字幕自动翻译方法
CN102023969A (zh) * 2009-09-10 2011-04-20 株式会社东芝 获得加权语言模型概率及构建加权语言模型的方法和装置
CN102023970A (zh) * 2009-09-14 2011-04-20 株式会社东芝 获得语言模型概率及构建语言模型的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
海量语言模型的研究及其在机器翻译中的应用;张润延;《中国优秀硕士学位论文全文数据库 信息科技辑》;20091215;1-59 *

Also Published As

Publication number Publication date
CN102982024A (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN104899322B (zh) 搜索引擎及其实现方法
US11182435B2 (en) Model generation device, text search device, model generation method, text search method, data structure, and program
US20180341871A1 (en) Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains
US20190057159A1 (en) Method, apparatus, server, and storage medium for recalling for search
US10515147B2 (en) Using statistical language models for contextual lookup
CN102722498B (zh) 搜索引擎及其实现方法
CN102722501B (zh) 搜索引擎及其实现方法
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN102722499B (zh) 搜索引擎及其实现方法
US10824816B2 (en) Semantic parsing method and apparatus
CN106815252A (zh) 一种搜索方法和设备
US20100094845A1 (en) Contents search apparatus and method
CN106951530B (zh) 一种事件类型抽取方法和装置
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
US20150154295A1 (en) Searching method, system and storage medium
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN102760142A (zh) 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN107357777B (zh) 提取标签信息的方法和装置
CN109255022B (zh) 一种用于网络文章的摘要自动提取方法
CN101639857A (zh) 构建知识问答分享平台的方法、装置及系统
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN102214189A (zh) 基于数据挖掘获取词用法知识的系统及方法
CN107480197B (zh) 实体词识别方法及装置
CN108388556A (zh) 同类实体的挖掘方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant