CN102982029A - 一种搜索需求识别方法及装置 - Google Patents
一种搜索需求识别方法及装置 Download PDFInfo
- Publication number
- CN102982029A CN102982029A CN2011102593154A CN201110259315A CN102982029A CN 102982029 A CN102982029 A CN 102982029A CN 2011102593154 A CN2011102593154 A CN 2011102593154A CN 201110259315 A CN201110259315 A CN 201110259315A CN 102982029 A CN102982029 A CN 102982029A
- Authority
- CN
- China
- Prior art keywords
- template
- subelement
- translate requirements
- entry
- translation entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种搜索需求识别方法及装置。一种搜索需求识别方法包括:预先获取翻译需求表述模板;接收到搜索请求后,将搜索关键词与翻译需求表述模板进行匹配,如果匹配成功,则判断所述搜索请求具有翻译需求;本申请方案利用少量的互译词条从网页或其他文档资源中获取翻译需求表述模板,可以有效快捷地得到更多的翻译需求表述模板。此外,通过循环迭代的方式,还可以进一步获取更多的翻译需求表述模板,令所搜集的翻译需求表述模板在理论上趋于全面。当用户输入搜索请求时,通过将搜索请求与翻译需求表述模板进行匹配,可以更有效地识别出用户的翻译需求,方便用户的使用。
Description
技术领域
本申请涉及互联网应用技术领域,特别是涉及一种搜索需求识别方法及装置。
背景技术
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。传统的搜索引擎,在接收到用户的提交的搜索请求(query)后,首先提取该query所包含的关键词,然后基于文本内容匹配操作,将包含有该关键词的网页或文档返回给用户。随着用户对搜索智能化要求的不断提升,搜索需求识别已经成为搜索领域的一个研究热点。
所谓搜索需求识别,就是根据用户所提交的query,分析和预测用户的需求,确定用户的意图或感兴趣的领域,然后再向其提供相应的信息。例如,用户输入“从北京到上海”这样的query,则可以识别出该用户可能具有较强的地图查询需求或票务查询需求,这样就可以在展示搜索结果时,直接向用户提供地图或票务的相关内容,或者将地图或票务的相关内容排在搜索结果的前面,从而方便用户进一步浏览。
搜索需求识别所涉及的关键技术包括语义分析、行为分析、智能人机交互、海量计算处理、信息抽取等等。由于用户query表述方式的多样性,目前一种较为常用的方式是在不同的领域对用户的query进行分析,以实现更有针对性的搜索需求识别。
翻译需求是用户在搜索过程中一种较为常见的需求,根据现有技术,可以在搜索引擎中,预先设定一些特定的表述形式,例如,当用户输入“xxx翻 译”这样的query后,搜索引擎可以根据“翻译”这样明显具有翻译需求的表述,较好地识别出用户具有针对单词“xxx”的翻译需求。但是在实际应用中,用户的query的表达形式是多种多样的,而且很多的表述都隐含有翻译需求,如果仅靠人工搜集这些表述形式并对搜索引擎进行设置,不仅费时费力,而且很难实现全面搜集,从而对翻译需求识别的有效性造成影响。
发明内容
为解决上述技术问题,本申请实施例提供种一种搜索需求识别方法及装置,以实现对用户翻译需求的更有效识别,技术方案如下:
本申请实施例提供一种搜索需求识别方法,包括:
预先获取翻译需求表述模板;
接收到搜索请求后,将搜索关键词与翻译需求表述模板进行匹配,如果匹配成功,则判断所述搜索请求具有翻译需求;
其中,所述获取翻译需求表述模板,包括:
A.选取至少一组已知的双语互译词条;
B.在给定的文档资源中,查找同时包括所述已知双语互译词条的文本段;
C.将所述文本段中的双语词条分别替换为变量,得到翻译需求表述模板。
在本申请方案的一种实施方式中,所述获取翻译需求表述模板,还包括:
D.利用步骤C所得到的翻译需求表述模板,在文档资源中,提取双语互译词条。
在本申请方案的一种实施方式中,所述获取翻译需求表述模板,还包括:
将步骤D所提取的新互译词条作为已知互译词条,重复执行步骤B至步骤C。
在本申请方案的一种实施方式中,所述获取翻译需求表述模板,还包括:
将步骤D所获取的新互译词条作为已知互译词条,循环执行步骤B至步骤D,当步骤D结束后,对提取结果与当前已知的互译词条进行比较,如果新增的互译词条数量小于预设的阈值,则结束循环操作。
在本申请方案的一种实施方式中,在查找同时包括所述已知双语互译词条的文本段之后,还包括:根据预置的过滤规则,对查找到的文本段进行过滤,所述过滤规则包括:
如果在文本段中,双语互译词条之间间隔的词数大于预设的词数阈值,则删除该文本段;
和/或
如果在文本段中,双语互译词条之间包含句子分隔标识,则删除该文本段。
在本申请方案的一种实施方式中,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括:
在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
在本申请方案的一种实施方式中,在接收到搜索请求并生成搜索建议之后,还包括:
判断搜索建议的内容是否具有翻译需求。
在本申请方案的一种实施方式中,在确定搜索建议的内容具有翻译需求后,还包括:
将搜索建议对应的翻译内容展现在搜索建议框中。
本申请实施例还提供一种搜索需求识别装置,包括:
模板获取单元,用于预先获取翻译需求表述模板;
翻译需求识别单元,用于在接收到搜索请求后,将搜索关键词与翻译需求表述模板进行匹配,如果匹配成功,则判断所述搜索请求具有翻译需求;
其中,所述模板获取单元,包括:初始化子单元、文本段查找子单元和模板获取子单元;
初始化子单元,用于选取至少一组已知的双语互译词条,并将选取结果发送至文本段查找子单元;
文本段查找子单元,用于在给定的文档资源中,查找同时包括所述已知双语互译词条的文本段,并将查找结果发送至模板获取子单元;
模板获取子单元,用于将所述文本段中的双语词条分别替换为变量,得到翻译需求表述模板。
在本申请方案的一种实施方式中,所述模板获取单元,还包括:
词条提取子单元,用于利用所述模板获取子单元得到的翻译需求表述模板,在文档资源中,提取双语互译词条。
在本申请方案的一种实施方式中,所述模板获取单元,还包括:
重复获取控制子单元,用于将所述词条提取子单元所提取的新互译词条作为已知互译词条,输入所述文本段查找子单元。
在本申请方案的一种实施方式中,所述模板获取单元,还包括:
循环获取控制子单元,用于对所述词条提取子单元提取结果与当前已知的互译词条进行比较,判断新增的互译词条数量是否小于预设的阈值,如果是,则结束循环操作,否则将所述词条提取子单元所获取的新互译词条作为已知互译词条,输入所述文本段查找子单元。
在本申请方案的一种实施方式中,所述模板获取单元,还包括:
文本段过滤子单元,用于在所述文本段查找子单元查找同时包括所述已知双语互译词条的文本段之后,根据预置的过滤规则,对查找到的文本段进行过滤,并将过滤结果输入所述模板获取子单元;
所述过滤规则包括:
如果在文本段中,双语互译词条之间间隔的词数大于预设的词数阈值,则删除该文本段;
和/或
如果在文本段中,双语互译词条之间包含句子分隔标识,则删除该文本段。
在本申请方案的一种实施方式中,所述装置还包括:
翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
在本申请方案的一种实施方式中,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。
在本申请方案的一种实施方式中,所述翻译结果展现单元,还用于在所述翻译需求识别单元确定搜索建议的内容具有翻译需求后,将搜索建议对应的翻译内容展现在搜索建议框中。
本申请实施例所提供的技术方案,利用少量的互译词条从网页或其他文档资源中获取翻译需求表述模板,由于查找的范围可以涉及整个互联网,因此可以有效快捷地得到更多的翻译需求表述模板。此外,利用所获取的翻译需求表述模板还可以获取更多的互译词条,从而进一步获取更多的翻译需求表述模板,通过循环迭代的方式,可以令所搜集的翻译需求表述模板在理论上趋于全面。当用户输入搜索请求时,通过将搜索请求与翻译需求表述模板进行匹配,可以更有效地识别出用户的翻译需求,方便用户的使用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例搜索需求识别方法的流程图;
图2为本申请实施例所提供的一种获取翻译需求表述模板方法流程图;
图3为本申请实施例所提供的另一种获取翻译需求表述模板方法流程 图;
图4为本申请实施例所提供的第一种翻译结果展现方式示意图;
图5为本申请实施例所提供的第二种翻译结果展现方式示意图;
图6为本申请实施例所提供的第三种翻译结果展现方式示意图;
图7为本申请实施例搜索需求识别装置的第一种结构示意图;
图8为本申请实施例模板获取单元的第一种结构示意图;
图9为本申请实施例模板获取单元的第二种结构示意图;
图10为本申请实施例模板获取单元的第三种结构示意图;
图11为本申请实施例模板获取单元的第四种结构示意图;
图12为本申请实施例搜索需求识别装置的第二种结构示意图。
具体实施方式
在现有的搜索引擎中,当用户在搜索框输入一段文字,特别是输入外文时,用户可能是想得到包含有该文字内容的网页或文档,即普通搜索需求;也可能是想要查看与该文字内容相应的翻译或双语例句,即翻译需求。对于搜索引擎而言,如果可以正确判断出用户当前的需求,则可以构建更为符合用户需求的搜索结果向用户展现,以方便用户浏览。
本申请实施例提供一种搜索需求识别方法,该方法包括以下步骤:
预先获取翻译需求表述模板;
接收到搜索请求后,将搜索关键词与翻译需求表述模板进行匹配,如果匹配成功,则判断所述搜索请求具有翻译需求;
上述方法利用少量的互译词条从网页或其他文档资源中获取翻译需求表述模板,由于查找的范围可以涉及整个互联网,因此可以有效快捷地得到更多的翻译需求表述模板。此外,利用所获取的翻译需求表述模板还可以获取更多的互译词条,从而进一步获取更多的翻译需求表述模板,通过循环迭代的方式,可以令所搜集的翻译需求表述模板在理论上趋于全面。当用户输入搜索请求时,通过将搜索请求与翻译需求表述模板进行匹配,可以更有效地 识别出用户的翻译需求,方便用户的使用。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
图1所示,为本申请实施例一种搜索需求识别方法的流程图,该方法可以包括以下步骤:
S101,预先获取翻译需求表述模板;
参见图2所示,获取翻译需求表述模板具体又可以包括如下的子步骤:
S101a,选取至少一组已知的双语互译词条;
本申请方案是利用已有的各种文档资源,如网页、文本文件等,从中获取各种翻译需求表述模板,首先选取至少一组已知的双语互译词条,已知双语互译词条指的是当前已经明确语义及翻译方式的双语互译词条,其作用是作为初始的检索条件,以获得含有双语内容的文档资源。已知互译词条的选取并没有特别的限制,当然,为了保证一次搜索可以获得数量较多且准确性较高的搜索结果,可以优先选取那些简单、常用、意义明确的互译词条。以中英双语为例,可以选择英文词条“patent”以及其互译中文词条“专利”,则“patent”和“专利”构成一组双语互译词条。
在本步骤中,也可以选取多组互译词条作为检索条件,从而得到更多数量的双语文档资源。本领域技术人员可以根据实际需求灵活选用一组或多组关键词,为描述方便,在以下的实施例中,仅以选取一组互译词条作为搜索关键词进行说明。
S101b,在给定的文档资源中,查找同时包括所述已知双语互译词条的文本段;
这里所说的给定文档资源,可以包括网页、网络或线下的的各种文本文件等,本申请实施例对此并不需要进行限定。通过信息检索的方式,可以从 大量的文档资源中,找出同时包括所述已知双语互译词条的文本段。例如,在文档资源有如下内容:
“patent是专利的意思,从字面上讲,是指专有的利益和权利。一词来源于拉丁语Litterae patentes,意为公开的信件或公共文献,是中世纪的君主用来颁布某种特权的证明,后来指英国国王亲自签署的独占权利证书。英语Patent一词包括了“垄断”和“公开”两个方面的意思,与现代法律意义上的专利基本特征是吻合的。”
通过使用双语互译词条“patent”和“专利”作为检索条件,可以在上述内容中发现有两段内容同时包括了双语互译词条(下划线标注部分)。在检索的过程中,以词条中的一个词为开始(即要么是以“patent”作为开始,要么是以“专利”作为开始,取决于哪个词出现在前面,而在这个例子中,都是“patent”出现在前面),以另一个词(在这个例子中都是“专利”)之后出现的第一个句子分隔标识(,。;等标点符号,多于1个的连续空格等)作为结束,取出整个片段,得到如下两个模板候选:
a1)patent是专利的意思
b1)Patent一词包括了“垄断”和“公开”两个方面的意思,与现代法律意义上的专利基本特征是吻合的
S101c,将所述文本段中的双语词条分别替换为变量,得到翻译需求表述模板。
对于S101b中得到的文本段,将其中的双语互译词条分别替换为变量,从而得到翻译需求表述模板如下:
a2)X是Y的意思
b2)X一词包括了“垄断”和“公开”两个方面的意思,与现代法律意义上的Y基本特征是吻合的
在实际应用中发现,应用上述方法所得到的翻译需求表述模板,有些并不具有实用性,例如上面得到的模板b2),在本申请的另一个实施例中,还可以根据实际需求,设置一些过滤规则,以实现对翻译需求表述模板的优化, 例如,可以在步骤S101b之后,对查找到的文本段进行过滤,其中,设置过滤规则如下:
1)如果在文本段中,双语互译词条之间间隔的词数大于预设的词数阈值,则删除该文本段;根据经验,可将词数阈值设置在1~7,并且可以根据具体情况进行调整。
2)如果在文本段中,双语互译词条之间包含句子分隔标识,则删除该文本段。也就是说,在通常意义翻译需求表述模板中,两个互译词条之间不应该包含句子分隔标志,例如逗号、句号、分号等能够引起句子结束的标点符号,回车符,多于1个的连续空格等。
上述两种规则,可以分别使用,也可以共同使用。当然,除上述两种规则之外,本领域技术人员还可以利用其他的规则进行过滤,以获得质量更高的翻译需求表述模板,本申请对此并不需要进行限制。
这样,在步骤S101b之后,根据上述提供的过滤规则,可以将模板候选b1)滤除掉。
根据上述步骤S101a-S101c得到的模板可能有很多是相似的,比如“X是Y的意思”,“X是Y的意思吗”,“X是Y的意思对不对”。在本申请方案的一种实施方式中,如果对系统模板的规模有限制,可以对这些模板做归一化处理,对相似度(共同出现的字数占总字数的比例)超过一定阈值的模板,只保留他们共同出现的最大片段,比如对“X是Y的意思吗”,“X是Y的意思对不对”这两个模板来讲,最大共现片段是“X是Y的意思”。
S102,接收到搜索请求后,将搜索关键词与翻译需求表述模板进行匹配,如果匹配成功,则判断所述搜索请求具有翻译需求。
经过步骤S101,已经获得了一定数量的翻译需求表述模板,在本步骤中,当搜索引擎接收到新的搜索请求后,会将搜索关键词与这些翻译需求表述模板进行匹配,如果匹配成功则判断当前搜索请求具有翻译需求。
例如,用户输入的搜索请求为:“patent是什么意思”。其中“什么”属于可以抽象为变量的词,这类词数量较少,可以通过人工列举定义。
首先将搜索关键词“patent是什么意思”进行分词并做抽象泛化处理,得到
patent是[变量]意思
然后,通过查询模板库,发现存在模板:
X是Y的意思
其中,模板的非变量部分“是”和“意思”与搜索关键词匹配成功,可判断用户当前搜索请求具有翻译需求。未匹配部分则认为是用户需要翻译的词,其中X=patent,Y=什么,而“什么”又是属于人工定义的已知变量词,因此可知,此时用户的需要翻译的明显是X。
以上仅以一个简单例子对搜索关键词与模板匹配的过程进行说明,本领域技术人与也可以设置更多的匹配策略,或者利用现有其他方式实现匹配过程,这部分并不是本申请方案所关注的重点,因此不做过多说明。
在本申请的另一个实施例中,在步骤S101c之后,还可以进一步执行如下操作:
利用步骤S101c所得到的翻译需求表述模板,在文档资源中,提取双语互译词条。将所提取的新互译词条作为已知互译词条,重复执行步骤B至步骤C。
例如,通过最初的已知互译词条“patent”和“专利”,得到了新的翻译需求表述模板“X是Y的意思”后,又进一步利用模板在其他的文档中发现了复合该模板的文本段“happen是发生的意思”,可以确定“happen”和“发生”构成互译词条,那么后续就可以再以“happen”和“发生”作为已知词条再次进行检索。也就是说,最初只需提供一组已知互译词条,而后续的每次检索都是以之前所得到结果进行检索,通过重复利用之前的结果,最终获得更多的翻译需求表述模板。
在本申请的另一个实施例中,在步骤S101,还可以通过循环迭代的方式, 获取更多的翻译需求表述模板。参见图3所示,获取翻译需求表述模板具体可以如下的方式实现:
S101a,选取至少一组已知的双语互译词条;
S101b,在给定的文档资源中,查找同时包括所述已知双语互译词条的文本段;
S101c,将所述文本段中的双语词条分别替换为变量,得到翻译需求表述模板。
S101d,利用步骤S101c所得到的翻译需求表述模板,在文档资源中,提取双语互译词条。
S101e,对S101d的提取结果与当前已知的互译词条进行比较,判断新增的互译词条数量是否小于预设的阈值,如果是,结束循环,否则执行S101f。
S101f,将S101c所提取的新互译词条作为已知互译词条,执行S101b。
上述方法中,进一步增加了一个判断的步骤S101e,即根据是否能够提取到新的互译词条来决定是否继续提取。当然,在实际应用中,“是否提取到新的互译词条”也可以更广义地理解为“是否提取到足够多的新互译词条”,即设置一个阈值N,如果本次循环得到的新互译词条数量达到了这个阈值N,则继续下一次循环。可以理解的是,当N设置为1时,即相当于判断“是否提取到新的互译词条”。
其中,对于第一次循环而言,“当前已知的互译词条”可以是一个当前已知的互译词条的集合,也可以只是最初输入的已知互译词条。也就是说,由初期少量的已知互译词条开始,可以形成一个封闭的循环,这个循环过程不需人为干预,能够不断地获取新的翻译需求表述模板,并以此不断地产生新的互译词条对,直到某次循环结束时,如果在本次提取过程中没有得到新词条,则退出循环,从而实现对循环步骤的自动控制。
上述方法利用所获取的翻译需求表述模板获取更多的互译词条,从而进一步获取更多的翻译需求表述模板,通过循环迭代的方式,可以令所搜集的翻译需求表述模板在理论上趋于全面。当用户输入搜索请求时,通过将搜索 请求与翻译需求表述模板进行匹配,可以更有效地识别出用户的翻译需求,方便用户的使用。
在本申请所提供的一种实施方式中,如果搜索引擎具有实时识别query并反应的功能,则根据上述方案确定搜索请求具有翻译需求后,可以直接在搜索页面对搜索请求对应的翻译结果进行展现,这样,用户就可以在不进入搜索结果页的情况下,得到所需的翻译结果。
图4所示为本申请实施例所提供的一种翻译结果展现方式,在该方式中,翻译结果是在搜索框中进行展现。
图5所示为本申请实施例所提供的另一种翻译结果展现方式,在该方式中,翻译结果是以搜索建议的形式进行展现。
在实际应用中,对于翻译结果的展现,可以使用不同字体、颜色等形式的文字,也可以使用链接、图片等其他媒体方式进行展现。展现的内容不仅可以包括直接翻译结果(如词典释义,自动翻译结果等),也可以包括其他相关内容,例如词性,用法,常用搭配,使用环境,例句,音标,朗读功能等等。
在本申请所提供的一种实施方式中,如果搜索引擎能针对用户当前输入实时生成搜索建议,则在系统资源允许的前提下,搜索引擎还可以进一步判断这些搜索建议是否具有翻译需求。如果有,可以将搜索建议对应的翻译内容展现在搜索建议框中,如图6所示。
相应于上面的方法实施例,本申请还提供一种搜索需求识别装置,参见图7所示,包括:
模板获取单元710,用于预先获取翻译需求表述模板;
翻译需求识别单元720,用于在接收到搜索请求后,将搜索关键词与翻译需求表述模板进行匹配,如果匹配成功,则判断所述搜索请求具有翻译需求。
图8所示为模板获取单元710的一种结构示意图,可以包括以下组成部 分:初始化子单元711、文本段查找子单元712和模板获取子单元713
初始化子单元711,用于选取至少一组已知的双语互译词条,并将选取结果发送至文本段查找子单元712;
本申请方案是利用已有的各种文档资源,如网页、文本文件等,从中获取各种翻译需求表述模板,首先选取至少一组已知的双语互译词条,已知双语互译词条指的是当前已经明确语义及翻译方式的双语互译词条,其作用是作为初始的检索条件,以获得含有双语内容的文档资源。已知互译词条的选取并没有特别的限制,当然,为了保证一次搜索可以获得数量较多且准确性较高的搜索结果,可以优先选取那些简单、常用、意义明确的互译词条。以中英双语为例,可以选择英文词条“patent”以及其互译中文词条“专利”,则“patent”和“专利”构成一组双语互译词条。
文本段查找子单元712,用于在给定的文档资源中,查找同时包括所述已知双语互译词条的文本段,并将查找结果发送至模板获取子单元713;
这里所说的给定文档资源,可以包括网页、网络或线下的的各种文本文件等,本申请实施例对此并不需要进行限定。通过信息检索的方式,可以从大量的文档资源中,找出同时包括所述已知双语互译词条的文本段。例如,在文档资源有如下内容:
“patent是专利的意思,从字面上讲,是指专有的利益和权利。一词来源于拉丁语Litterae patentes,意为公开的信件或公共文献,是中世纪的君主用来颁布某种特权的证明,后来指英国国王亲自签署的独占权利证书。英语Patent一词包括了“垄断”和“公开”两个方面的意思,与现代法律意义上的专利基本特征是吻合的。”
通过使用双语互译词条“patent”和“专利”作为检索条件,可以在上述内容中发现有两段内容同时包括了双语互译词条(下划线标注部分)。在检索的过程中,以词条中的一个词为开始(即要么是以“patent”作为开始,要么是以“专利”作为开始,取决于哪个词出现在前面,而在这个例子中,都是“patent”出现在前面),以另一个词(在这个例子中都是“专利”)之后 出现的第一个句子分隔标识(,。;等标点符号,多于1个的连续空格等)作为结束,取出整个片段,得到如下两个模板候选:
a1)patent是专利的意思
b1)Patent一词包括了“垄断”和“公开”两个方面的意思,与现代法律意义上的专利基本特征是吻合的
模板获取子单元713,用于将所述文本段中的双语词条分别替换为变量,得到翻译需求表述模板。
对于文本段查找子单元712得到的文本段,将其中的双语互译词条分别替换为变量,从而得到翻译需求表述模板如下:
a2)X是Y的意思
b2)X一词包括了“垄断”和“公开”两个方面的意思,与现代法律意义上的Y基本特征是吻合的
在实际应用中发现,应用上述方案所得到的翻译需求表述模板,有些并不具有实用性,例如上面得到的模板b2),在本申请的另一个实施例中,模板获取单元710还可以包括:
文本段过滤子单元,用于在文本段查找子单元712查找同时包括所述已知双语互译词条的文本段之后,根据预置的过滤规则,对查找到的文本段进行过滤,并将过滤结果输入所述模板获取子单元;
1)如果在文本段中,双语互译词条之间间隔的词数大于预设的词数阈值,则删除该文本段;根据经验,可将词数阈值设置在1~7,并且可以根据具体情况进行调整。
2)如果在文本段中,双语互译词条之间包含句子分隔标识,则删除该文本段。也就是说,在通常意义翻译需求表述模板中,两个互译词条之间不应该包含句子分隔标志,例如逗号、句号、分号等能够引起句子结束的标点符号,回车符,多于1个的连续空格等。
上述两种规则,可以分别使用,也可以共同使用。当然,除上述两种规则之外,本领域技术人员还可以利用其他的规则进行过滤,以获得质量更高 的翻译需求表述模板,本申请对此并不需要进行限制。
参见图9所示,在本申请的另一个实施例中,模板获取单元710还可以包括:
词条提取子单元714,用于利用所述模板获取子单元得到的翻译需求表述模板,在文档资源中,提取双语互译词条。
参见图10所示,在本申请的另一个实施例中,模板获取单元710还可以包括:
重复获取控制子单元715,用于将所述词条提取子单元所提取的新互译词条作为已知互译词条,输入所述文本段查找子单元。
例如,通过最初的已知互译词条“patent”和“专利”,得到了新的翻译需求表述模板“X是Y的意思”后,又进一步利用模板在其他的文档中发现了复合该模板的文本段“happen是发生的意思”,可以确定“happen”和“发生”构成互译词条,那么后续就可以再以“happen”和“发生”作为已知词条再次进行检索。也就是说,最初只需提供一组已知互译词条,而后续的每次检索都是以之前所得到结果进行检索,通过重复利用之前的结果,最终获得更多的翻译需求表述模板。
参见图11所示,在本申请的另一个实施例中,模板获取单元710还可以包括:
循环获取控制子单元716,用于对所述词条提取子单元提取结果与当前已知的互译词条进行比较,判断新增的互译词条数量是否大于预设的阈值,如果是,则结束循环操作,否则将所述词条提取子单元714所获取的新互译词条作为已知互译词条,输入所述文本段查找子单元712。
循环获取控制子单元716根据是否能够提取到新的互译词条来决定是否继续提取。当然,在实际应用中,“是否提取到新的互译词条”也可以更广义地理解为“是否提取到足够多的新互译词条”,即设置一个阈值N,如果本次循环得到的新互译词条数量超过了这个阈值N,如果本次循环得到的新 互译词条数量达到了这个阈值N,则继续下一次循环。可以理解的是,当N设置为1时,即相当于判断“是否提取到新的互译词条”。
其中,对于第一次循环而言,“当前已知的互译词条”可以是一个当前已知的互译词条的集合,也可以只是最初输入的已知互译词条。也就是说,由初期少量的已知互译词条开始,可以形成一个封闭的循环,这个循环过程不需人为干预,能够不断地获取新的翻译需求表述模板,并以此不断地产生新的互译词条对,直到某次循环结束时,如果在本次提取过程中没有得到新词条,则退出循环,从而实现对循环的自动控制。
上述方案利用所获取的翻译需求表述模板获取更多的互译词条,从而进一步获取更多的翻译需求表述模板,通过循环迭代的方式,可以令所搜集的翻译需求表述模板在理论上趋于全面。当用户输入搜索请求时,通过将搜索请求与翻译需求表述模板进行匹配,可以更有效地识别出用户的翻译需求,方便用户的使用。
参见图12所示,在本申请的一种实施方式中,上述需求识别装置还可以包括:
翻译结果展现单元730,用于在所述翻译需求识别单元720确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现。
如果搜索引擎具有实时识别query并反应的功能,则根据确定搜索请求具有翻译需求后,翻译结果展现单元703可以直接在搜索页面对搜索请求对应的翻译结果进行展现,这样,用户就可以在不进入搜索结果页的情况下,得到所需的翻译结果。
所述翻译结果展现单元具体可以配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;展现结果如图4所示。
所述翻译结果展现单元还可以配置为:
将搜索请求所对应的翻译结果以搜索建议的形式进行展现;展现结果如 图5所示。
在实际应用中,对于翻译结果的展现,可以使用不同字体、颜色等形式的文字,也可以使用链接、图片等其他媒体方式进行展现。展现的内容不仅可以包括直接翻译结果(如词典释义,自动翻译结果等),也可以包括其他相关内容,例如词性,用法,常用搭配,使用环境,例句,音标,朗读功能等等。
此外,在在本申请的另一种实施方式中,翻译需求识别单元720还可以用于在搜索引擎接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。如果识别出有翻译需求,则翻译结果展现单元730可以将搜索建议对应的翻译内容展现在搜索建议框中,如图6所示。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。 可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (16)
1.一种搜索需求识别方法,其特征在于,包括:
预先获取翻译需求表述模板;
接收到搜索请求后,将搜索关键词与翻译需求表述模板进行匹配,如果匹配成功,则判断所述搜索请求具有翻译需求;
其中,所述获取翻译需求表述模板,包括:
A.选取至少一组已知的双语互译词条;
B.在给定的文档资源中,查找同时包括所述已知双语互译词条的文本段;
C.将所述文本段中的双语词条分别替换为变量,得到翻译需求表述模板。
2.根据权利要求1所述的方法,其特征在于,所述获取翻译需求表述模板,还包括:
D.利用步骤C所得到的翻译需求表述模板,在文档资源中,提取双语互译词条。
3.根据权利要求2所述的方法,其特征在于,所述获取翻译需求表述模板,还包括:
将步骤D所提取的新互译词条作为已知互译词条,重复执行步骤B至步骤C。
4.根据权利要求2所述的方法,其特征在于,所述获取翻译需求表述模板,还包括:
将步骤D所获取的新互译词条作为已知互译词条,循环执行步骤B至步骤D,当步骤D结束后,对提取结果与当前已知的互译词条进行比较,如果新增的互译词条数量小于预设的阈值,则结束循环操作。
5.根据权利要求1-4任一项所述的方法,其特征在于,在步骤B和步骤C之间,还包括:根据预置的过滤规则,对查找到的文本段进行过滤,所述过滤规则包括:
如果在文本段中,双语互译词条之间间隔的词数大于预设的词数阈值,则删除该文本段;
和/或
如果在文本段中,双语互译词条之间包含句子分隔标识,则删除该文本段。
6.根据权利要求1-4任一项所述的方法,其特征在于,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括:
在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
7.根据权利要求1-4任一项所述的方法,其特征在于,在接收到搜索请求并生成搜索建议之后,还包括:
判断搜索建议的内容是否具有翻译需求。
8.根据权利要求7所述的方法,其特征在于,在确定搜索建议的内容具有翻译需求后,还包括:
将搜索建议对应的翻译内容展现在搜索建议框中。
9.一种搜索需求识别装置,其特征在于,包括:
模板获取单元,用于预先获取翻译需求表述模板;
翻译需求识别单元,用于在接收到搜索请求后,将搜索关键词与翻译需求表述模板进行匹配,如果匹配成功,则判断所述搜索请求具有翻译需求;
其中,所述模板获取单元,包括:初始化子单元、文本段查找子单元和模板获取子单元;
初始化子单元,用于选取至少一组已知的双语互译词条,并将选取结果发送至文本段查找子单元;
文本段查找子单元,用于在给定的文档资源中,查找同时包括所述已知双语互译词条的文本段,并将查找结果发送至模板获取子单元;
模板获取子单元,用于将所述文本段中的双语词条分别替换为变量,得到翻译需求表述模板。
10.根据权利要求9所述的装置,其特征在于,所述模板获取单元,还包括:
词条提取子单元,用于利用所述模板获取子单元得到的翻译需求表述模板,在文档资源中,提取双语互译词条。
11.根据权利要求10所述的装置,其特征在于,所述模板获取单元,还包括:
重复获取控制子单元,用于将所述词条提取子单元所提取的新互译词条作为已知互译词条,输入所述文本段查找子单元。
12.根据权利要求10所述的装置,其特征在于,所述模板获取单元,还包括:
循环获取控制子单元,用于对所述词条提取子单元提取结果与当前已知的互译词条进行比较,判断新增的互译词条数量是否小于预设的阈值,如果是,则结束循环操作,否则将所述词条提取子单元所获取的新互译词条作为已知互译词条,输入所述文本段查找子单元。
13.根据权利要求9-12任一项所述的装置,其特征在于,所述模板获取单元,还包括:
文本段过滤子单元,用于在所述文本段查找子单元查找同时包括所述已知双语互译词条的文本段之后,根据预置的过滤规则,对查找到的文本段进行过滤,并将过滤结果输入所述模板获取子单元;
所述过滤规则包括:
如果在文本段中,双语互译词条之间间隔的词数大于预设的词数阈值,则删除该文本段;
和/或
如果在文本段中,双语互译词条之间包含句子分隔标识,则删除该文本段。
14.根据权利要求9-12任一项所述的装置,其特征在于,还包括:
翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为:
用于在搜索框中,展现搜索请求所对应的翻译结果;或
将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
15.根据权利要求9-12任一项所述的装置,其特征在于,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。
16.根据权利要求15所述的装置,其特征在于,所述翻译结果展现单元,还用于在所述翻译需求识别单元确定搜索建议的内容具有翻译需求后,将搜索建议对应的翻译内容展现在搜索建议框中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110259315.4A CN102982029B (zh) | 2011-09-02 | 2011-09-02 | 一种搜索需求识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110259315.4A CN102982029B (zh) | 2011-09-02 | 2011-09-02 | 一种搜索需求识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102982029A true CN102982029A (zh) | 2013-03-20 |
CN102982029B CN102982029B (zh) | 2016-04-27 |
Family
ID=47856068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110259315.4A Active CN102982029B (zh) | 2011-09-02 | 2011-09-02 | 一种搜索需求识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102982029B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391667A (zh) * | 2017-07-20 | 2017-11-24 | 维沃移动通信有限公司 | 一种词条处理方法及移动终端 |
CN108241614A (zh) * | 2016-12-27 | 2018-07-03 | 北京搜狗科技发展有限公司 | 信息处理方法和装置、用于信息处理的装置 |
CN109582768A (zh) * | 2018-11-23 | 2019-04-05 | 北京搜狗科技发展有限公司 | 一种文本输入方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706777A (zh) * | 2009-11-10 | 2010-05-12 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
US20110029562A1 (en) * | 2009-07-30 | 2011-02-03 | Whitby Laura R | Coordinating user images in an artistic design |
CN102043808A (zh) * | 2009-10-14 | 2011-05-04 | 腾讯科技(深圳)有限公司 | 利用网页结构抽取双语词条的方法及设备 |
-
2011
- 2011-09-02 CN CN201110259315.4A patent/CN102982029B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110029562A1 (en) * | 2009-07-30 | 2011-02-03 | Whitby Laura R | Coordinating user images in an artistic design |
CN102043808A (zh) * | 2009-10-14 | 2011-05-04 | 腾讯科技(深圳)有限公司 | 利用网页结构抽取双语词条的方法及设备 |
CN101706777A (zh) * | 2009-11-10 | 2010-05-12 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
Non-Patent Citations (1)
Title |
---|
樊聪: "利用web抽取双语翻译对的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 05, 15 May 2008 (2008-05-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241614A (zh) * | 2016-12-27 | 2018-07-03 | 北京搜狗科技发展有限公司 | 信息处理方法和装置、用于信息处理的装置 |
CN108241614B (zh) * | 2016-12-27 | 2023-03-24 | 北京搜狗科技发展有限公司 | 信息处理方法和装置、用于信息处理的装置 |
CN107391667A (zh) * | 2017-07-20 | 2017-11-24 | 维沃移动通信有限公司 | 一种词条处理方法及移动终端 |
CN107391667B (zh) * | 2017-07-20 | 2020-02-21 | 维沃移动通信有限公司 | 一种词条处理方法及移动终端 |
CN109582768A (zh) * | 2018-11-23 | 2019-04-05 | 北京搜狗科技发展有限公司 | 一种文本输入方法和装置 |
CN109582768B (zh) * | 2018-11-23 | 2021-08-24 | 北京搜狗科技发展有限公司 | 一种文本输入方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102982029B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104598577B (zh) | 一种网页正文的提取方法 | |
US7937338B2 (en) | System and method for identifying document structure and associated metainformation | |
CN101515272B (zh) | 提取网页内容的方法和装置 | |
US8515731B1 (en) | Synonym verification | |
CN104809142A (zh) | 商标查询系统和方法 | |
WO2010125463A1 (en) | Method and apparatus for identifying synonyms and using synonyms to search | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN102737039A (zh) | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 | |
CN110909531B (zh) | 信息安全的甄别方法、装置、设备及存储介质 | |
CN102298638A (zh) | 使用网页标签聚类提取新闻网页内容的方法和系统 | |
CN104503998A (zh) | 针对用户查询句的类型识别方法及装置 | |
CN103324622A (zh) | 一种自动生成首页摘要的方法及装置 | |
CN109101551B (zh) | 一种问答知识库的构建方法及装置 | |
CN111209753B (zh) | 一种实体命名识别方法及装置 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN103377451A (zh) | 专利质量评估系统及方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN103150331A (zh) | 一种提供搜索引擎标签的方法和装置 | |
CN103631938A (zh) | 一种分词词典自动扩展的方法和装置 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
KR20130093889A (ko) | 한국어 키워드 검색문 해석 장치 및 방법 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
CN106815253A (zh) | 一种基于混合数据类型数据的挖掘方法 | |
CN102982029B (zh) | 一种搜索需求识别方法及装置 | |
CN109885583A (zh) | 基于区块链的数据查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |