CN103092838B

CN103092838B - 一种获取英文词的方法及装置

Info

Publication number: CN103092838B
Application number: CN201110333671.6A
Authority: CN
Inventors: 李超; 宋国龙; 贾自艳
Original assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2011-10-28
Filing date: 2011-10-28
Publication date: 2017-07-21
Anticipated expiration: 2031-10-28
Also published as: CN103092838A

Abstract

本发明公开了一种获取英文词的方法及装置。该方法包括：获取搜索引擎查询日志并进行分词，获取含有字母串的查询词；根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词，统计该候选词的词语特征值；获取候选词中字母串对应的中文词，统计该中文词的词语特征值，获取该中文词的词语特征值与对应候选词的词语特征值的比值，如果该比值小于预先设置的比阈值，则该候选词作为英文词。应用本发明，可以提升获取英文词的效率。

Description

一种获取英文词的方法及装置

技术领域

本发明涉及计算机通信技术，特别涉及一种获取英文词的方法及装置。

背景技术

随着计算机通信技术以及互联网技术的发展，互联网络上传输的信息资源成指数增长，通过互联网络获取相关信息越来越成为人们生活以及工作中不可或缺的一部分。但随着传输的信息资源的指数增长，随之也会相应的产生很多新词以及网络词，其中也包括很多英文词，因而，如何去获取这些新出现的英文词资源也就成为了亟待解决的问题。

现有技术中，对于英文词的获取，主要方法是利用大型的词典资源，包括在线的词典资源以及传统的词典资源，例如，在线的词典资源可以是剑桥线上的英英词典(Cambridge Dictionary)等，传统的词典资源可以是牛津大辞典等。

由上述可见，现有通过大型词典获取英文词的方法，较为简单有效，但是，由于信息资源的增长十分迅速，英文词以及网络新词层出不穷，而无论是在线的词典资源还是传统的词典资源，其维护与更新需要一定的时间周期，因而，利用词典的方法并不能做到很好的覆盖新词，对于一些新出现的英文词以及网络中文词，通过上述词典还无法获取该类新词，使得通过词典获取英文词的效率不高；进一步地，对在线的词典或传统的词典进行维护和更新，也需要首先获取新出现的英文词，而现有技术中，对于如何获取新出现的英文词还没有较好的解决方法。

发明内容

有鉴于此，本发明的主要目的在于提出一种获取英文词的方法，提升获取英文词的效率。

本发明的另一目的在于提出一种获取英文词的装置，提升获取英文词的效率。

为达到上述目的，本发明提供了一种获取英文词的方法，该方法包括：

获取搜索引擎查询日志并进行分词，获取含有字母串的查询词；

根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的特征值对应的含有字母串的查询词作为候选词，统计该候选词的词语特征值；

获取候选词中字母串对应的中文词，统计该中文词的词语特征值，获取该中文词的词语特征值与对应候选词的词语特征值的比值，如果该比值小于预先设置的比阈值，则该候选词作为英文词。

所述含有字母串的查询词包括：含有英文串的查询词以及含有拼音串的查询词。

所述词语特征解析方法包括：词语的搜索次数统计方法以及词语对应的网页点击次数统计方法。

所述根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词包括：

统计获取的各含有字母串的查询词在搜索引擎查询日志中出现的搜索次数；

获取搜索次数大于预先设置的搜索次数阈值对应的含有字母串的查询词，作为初步候选词；

根据初步候选词，统计该初步候选词在搜索引擎查询日志中出现的网页点击次数；

获取网页点击次数大于预先设置的网页点击次数阈值对应的初步候选词，作为候选词输出。

所述在获取网页点击次数大于预先设置的网页点击次数阈值对应的初步候选词之后，作为候选词输出之前，进一步包括：

将获取的网页点击次数大于预先设置的网页点击次数阈值对应的初步候选词作为中间候选词；

统计中间候选词在搜索引擎查询日志中出现的混合查询次数；

获取混合查询次数次数大于预先设置的混合查询次数阈值对应的中间候选词。

所述提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词的步骤之后，获取候选词中字母串对应的中文词的步骤之前，进一步包括：

根据拼音构成规则对候选词进行识别；

如果候选词不符合拼音构成规则，直接将其作为英文词；

如果候选词符合拼音构成规则，执行获取候选词中字母串对应的中文词的步骤。

一种获取英文词的装置，该装置包括：查询词选取模块、词语特征匹配模块以及英文词特征匹配模块，其中，

查询词选取模块，用于根据获取的搜索引擎查询日志，进行分词，获取含有字母串的查询词；

词语特征匹配模块，用于根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词，统计该候选词的词语特征值；

英文词特征匹配模块，用于获取候选词中字母串对应的中文词，统计该中文词的词语特征值，获取该中文词的词语特征值与对应候选词的词语特征值的比值，如果该比值小于预先设置的比阈值，则该候选词作为英文词。

进一步包括：

拼音串过滤模块，用于根据拼音构成规则对词语特征匹配模块输出的候选词进行识别，如果候选词不符合拼音构成规则，直接将其作为英文词；如果候选词符合拼音构成规则，将该候选词输出至英文词特征匹配模块。

所述词语特征匹配模块包括搜索次数统计单元、搜索次数判断单元、网页点击次数统计单元、网页点击次数判断单元以及候选词单元，其中，

搜索次数统计单元，用于统计查询词选取模块获取的各含有字母串的查询词在搜索引擎查询日志中出现的搜索次数；

搜索次数判断单元，用于将搜索次数大于预先设置的搜索次数阈值对应的含有字母串的查询词输出至网页点击次数统计单元；

网页点击次数统计单元，用于根据接收的含有字母串的查询词，统计该含有字母串的查询词在搜索引擎查询日志中出现的网页点击次数；

网页点击次数判断单元，用于将网页点击次数大于预先设置的网页点击次数阈值对应的含有字母串的查询词作为候选词，输出至候选词单元进行存储。

所述词语特征匹配模块进一步包括：

混合查询次数统计单元以及混合查询次数判断单元，其中，

混合查询次数统计单元，用于根据网页点击次数判断单元输出的含有字母串的查询词，统计该含有字母串的查询词在搜索引擎查询日志中出现的混合查询次数；

混合查询次数判断单元，用于将混合查询次数次数大于预先设置的混合查询次数阈值对应的含有字母串的查询词作为候选词，输出至候选词存储单元进行存储。

由上述的技术方案可见，本发明实施例提供的一种获取英文词的方法及装置，获取搜索引擎查询日志并进行分词，获取含有字母串的查询词；根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词，统计该候选词的词语特征值；获取候选词中字母串对应的中文词，统计该中文词的词语特征值，获取该中文词的词语特征值与对应候选词的词语特征值的比值，如果该比值小于预先设置的比阈值，则该候选词作为英文词。这样，基于较为全面地覆盖互联网络中出现新词的搜索引擎查询日志，进行分词处理，获取含有字母串的查询词，基于词语特征解析方法对其正确性进行认证，并基于字母串对应的中文词的词语特征值，将含有字母串的查询词中的含有英文串的查询词以及含有拼音串的查询词进行区分，从而可以获取最新的英文词资源，提升了获取英文词的效率。

附图说明

图1为本发明实施例获取英文词的装置结构示意图。

图2为本发明实施例获取英文词的方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

现有通过大型词典获取英文词的方法，由于不能实时对词典进行更新，因而，对于信息资源中一些新出现的英文词，未能收录在词典中，存在滞后效应。本发明实施例中，考虑到互联网络中搜索引擎所具有的强大搜索能力，在用户输入搜索关键词，使用搜索引擎进行搜索查询时，搜索引擎将记录用户的查询行为，包括输入的搜索关键词以及进行搜索查询的得到的搜索查询结果，生成搜索引擎查询日志并存储，因而，基于搜索引擎查询日志，从搜索引擎查询日志中获取英文词资源，由于用户输入的搜索关键词一般与最近的热点相关，因而，搜索引擎查询日志可以较为全面地覆盖互联网络中新出现的新词，例如，英文词，从而提升获取英文词的效率。

图1为本发明实施例获取英文词的装置结构示意图。参见图1，该装置包括：查询词选取模块、词语特征匹配模块以及英文词特征匹配模块，其中，

本发明实施例中，获取搜索引擎查询日志，对获取的搜索引擎查询日志内容进行切词以及分词处理，形成各查询词，再从各查询词中获取含有字母串的查询词。

实际应用中，由于拼音串也以字母的形式存在，因此，含有字母串的查询词包括含有英文串的查询词以及含有拼音串的查询词。含有英文串的查询词包括：英文查询词以及中英混合查询词，表1为搜索引擎查询日志中包含英文串的查询词或者拼音串的查询词的一些示例。

表1

含有字母串的查询词	类型
		dnf	英文串
huoyingrenzhe	拼音串
		qq网名	中英混合
doupocangqiong最新章节	拼音串与中文混合

表1中，对于含有字母串的查询词dnf，通过后续的处理，可以获知其类型为含有英文串的查询词且为英文查询词，对于含有字母串的查询词huoyingrenzhe，可以获知其类型为含有拼音串的查询词，对于含有字母串的查询词qq网名，可以获知其类型为含有英文串的查询词且为中英混合查询词等。

本发明实施例中，选取搜索引擎查询日志作为获取英文词的数据来源，可以有效地对新出现的网络英文词进行获取，而这部分英文词在传统的英文词典资源或在线的英文词典资源中很难覆盖。

含有英文串的查询词中，包括中英混合查询词，本发明实施例中，将其作为查询词，主要基于如下假设：对于中文与字母结合的情况，字母部分有很大可能是英文词，而不是拼音串，因为实际应用中，将拼音串与中文结合作为查询词的概率一般较低。例如，表2为一些中文与字母结合的候选词(查询词)示例。

表2

中文与字母结合的候选词

qq网名	flash插件
		qq空间	flash播放器
dnf外挂	iphone中文网
		dnf刺客加点	iphone论坛

表2中，例如，qq网名中的qq、dnf外挂中的dnf、iphone论坛中的iphone等，都是中文与字母结合的候选词，经过后续处理，可以确认为中英混合查询词。

本发明实施例中，通过统计用户对于含有字母串的查询词的点击行为的词语特征，用以确定该含有字母串的查询词是否正确。

特征值包括：词语的搜索次数(QV，Query View)和词语对应的网页点击次数(PV，Page View)，当然，还可以包括词语包含在不同混合查询词中的次数。其中，QV是指该词语或包含该词语的混合词语在搜索引擎查询日志被搜索的次数，PV是指该词语经过搜索引擎搜索并获取到合适的网页结果后，对网页结果中的网页进行点击的次数。

本发明实施例中，词语为字母串，词语包含在不同混合查询词中指的是含有字母串的中文。

词语特征解析方法用于根据查询词选取模块获取的含有字母串的查询词，统计查询词选取模块中各含有字母串的查询词的词语特征值，包括：词语的QV值、PV值以及包含在不同混合查询词中的次数。如果词语的QV值以及PV值越大，表明该词语被查询次数以及网页点击次数越多，该词语正确性的概率越高，即词语的QV值以及PV值可以度量词语(查询词)的正确性。

如果计算得到的含有字母串的查询词的QV值、PV值分别大于预先设置的QV阈值以及PV阈值，表明该含有字母串的查询词具有一定的查询次数和点击次数，这样，可以保证含有字母串的查询词的正确性。

对于词语包含在不同混合查询词中的次数，如果一个字母串被不同的查询词所包含，则表明该字母串独立作为一个英文词的概率也较大，例如，如表1所示，字母串“qq”分别包含在“qq网名”和“qq空间”这两个混合查询词中，如果经过统计发现，“qq”还包含在很多其它的混合查询词中，则字母串“qq”独立作为一个英文词的概率就大。

本发明实施例中，如果计算得到的词语包含在不同混合查询词中的次数大于预先设置的混合次数阈值，将该词语作为候选词。

英文词特征匹配模块，用于获取候选词中字母串对应的中文词，统计该中文词的词语特征值，获取该中文词的词语特征值与对应候选词的词语特征值的比值，得到比值小于预先设置的比阈值的候选词作为英文词。

本发明实施例中，通过分析英文串以及拼音串的特点，以将含有英文串的候选词以及含有拼音串的候选词进行区别，解决拼音串对于英文词识别的干扰，最终得到优质的英文词。

如前所述，字母串包括英文串和拼音串，因此，对于满足词语特征阈值的候选词中，可能还包含一些拼音串的情况，表3是满足词语特征阈值的一个拼音串示例。

表3

表3中，对于拼音串“doupocangqiong”，计算得到的QV值和PV值都分别大于预先设置的QV阈值以及PV阈值，且该拼音串包含在不同混合查询词中的次数也大于预先设置的混合次数阈值，如表3所示，该拼音串可能出现在含有拼音串的查询词“doupocangqiong最新章节”中，也可能出现在含有拼音串的查询词“doupocangqiong快眼看书”中，还可能出现在含有拼音串的查询词“doupocangqiong君子堂”中等，可以被很多其它的中文与字母结合的混合词语所包含。在词语特征匹配模块的处理中，将其作为候选词，如果将该词语作为候选词输出，将导致获取的英文词准确性下降。

基于此，本发明实施例中，通过英文词特征匹配模块，对获取的候选词进行再次过滤。即提出一种利用拼音串获取其所对应的中文，并经过中文词语特征值的分析，来对候选词中含有拼音串的查询词进行过滤，也就是说，如果一个获取的候选词是拼音串，按照一般的搜索查询规则(用户更倾向于使用中文词而非中文词对应的拼音进行搜索查询)，则一定存在与其对应的中文词、且通过该中文词进行相关查询搜索的次数要远大于该中文词对应的拼音进行搜索查询的次数，因而，通过统计搜索引擎查询日志，可以得到该中文词的QV值和PV值，如果其值远大于这个字母串的QV值和PV值，则可以确定该字母串为拼音串。表4为一些拼音串和其对应的中文串的QV值和PV值比较。

表4

候选词	QV值	PV值
			doupocangqiong	2810	1624
斗破苍穹	5699591	3687141
			liuxingyu	786	322
流星雨	9296581	6022633
			dianying	40585	17724
电影	41511078	26656043

表4中，对于候选词“doupocangqiong”，经过统计，其QV值和PV值分别为2810和1624，而对应的中文词“斗破苍穹”，其QV值和PV值分别为5699591和3687141，远远大于该候选词“doupocangqiong”的QV值和PV值，其比值也分别远大于预先设置的比阈值，因而，可以认为，该候选词为拼音串。

当然，实际应用中，也可以先对候选词根据拼音构成规则进行识别，对不符合拼音构成规则的候选词进行输出，对于符合拼音构成规则的候选词，再基于上述的利用拼音串所对应的中文进行识别。例如，对于候选词“dnf”，由于其不符合拼音构成规则(声母+韵母)，则可确定该候选词“dnf”为英文词并输出；而对于候选词“china”，由于其符合拼音构成规则，则需要进一步按照上述的利用拼音串所对应的中文来确定该候选词是否为英文词。即该装置还包括拼音串过滤模块(图中未示出)，

这样，通过词语特征匹配模块以及英文词特征匹配模块的处理，最终就得到了优质英文词资源。如表5所示，表5为经过过滤处理得到的英文词资源。

表5

其中，

词语特征匹配模块包括搜索次数统计单元、搜索次数判断单元、网页点击次数统计单元、网页点击次数判断单元以及候选词存储单元(图中未示出)，其中，

本发明实施例中，由于查询词选取模块是对搜索引擎查询日志进行分词处理，因而，统计含有字母串的查询词在搜索引擎查询日志中出现的搜索次数也就是统计该含有字母串的查询词在查询词选取模块中出现的次数。

网页点击次数判断单元，用于将网页点击次数大于预先设置的网页点击次数阈值对应的含有字母串的查询词作为候选词，输出至候选词存储单元进行存储。

所应说明的是，上述依次相连的搜索次数统计单元、搜索次数判断单元、网页点击次数统计单元以及网页点击次数判断单元只是词语特征匹配模块结构的一个实施例，实际应用中，也可以是网页点击次数统计单元、网页点击次数判断单元、搜索次数统计单元以及搜索次数判断单元依次相连。

较佳地，词语特征匹配模块还包括：混合查询次数统计单元以及混合查询次数判断单元，其中，

混合查询次数判断单元，用于将混合查询次数次数大于预先设置的混合查询次数阈值对应的含有字母串的查询词输出至候选词单元。

图2为本发明实施例获取英文词的方法流程示意图。参见图2，该流程包括：

步骤201，获取搜索引擎查询日志并进行分词，获取含有字母串的查询词；

本步骤中，可以通过函数调用来获取搜索引擎查询日志，关于切词及分词处理，具体可参见相关技术文献，在此不再赘述。

含有字母串的查询词包括：含有英文串的查询词以及含有拼音串的查询词。含有英文串的查询词包括：英文查询词以及中英混合查询词。

步骤202，根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词，统计该候选词的词语特征值；

本步骤中，词语特征解析方法包括：词语的QV统计方法以及词语对应的PV统计方法，相对应地，特征值包括：词语的QV和词语对应的PV；特征阈值包括：词语的QV阈值和词语对应的PV阈值。

根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词具体包括：

所应说明的是，也可以先统计获取的各含有字母串的查询词在搜索引擎查询日志中出现的网页点击次数，进行判断后形成初步候选词，再对初步候选词统计其搜索次数，经判断后形成候选词。

在获取网页点击次数大于预先设置的网页点击次数阈值对应的初步候选词之后，作为候选词输出之前，进一步包括：

步骤203，获取候选词中字母串对应的中文词，统计该中文词的词语特征值，获取该中文词的词语特征值与对应候选词的词语特征值的比值，如果该比值小于预先设置的比阈值，则该候选词作为英文词。

本步骤中，获取候选词中字母串对应的中文词，具体可参见相关技术文献，在此不再赘述。

实际应用中，在步骤202之后，步骤203之前，还可以进一步包括：

根据拼音构成规则对候选词进行识别；

如果候选词不符合拼音构成规则，直接将其作为英文词；

在获取英文此后，还可以将获取的英文词作为在线的词典资源或传统的词典资源进行维护、更新的参考。

由上述可见，本发明实施例获取英文词的方法及装置，基于较为全面地覆盖互联网络中出现新词的搜索引擎查询日志，进行分词处理，获取含有字母串的查询词，基于词语特征解析方法对其正确性进行认证，并基于字母串对应的中文词的词语特征值，将含有字母串的查询词中的含有英文串的查询词以及含有拼音串的查询词进行区分，从而获取英文词。这样，可以获取最新的英文词资源，从而提升获取英文词的效率；进一步地，基于获取的英文词资源，还可以对在线的词典或传统的词典进行维护和更新。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.一种获取英文词的方法，其特征在于，该方法包括：

根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词，统计该候选词的词语特征值；

2.如权利要求1所述的方法，其特征在于，所述含有字母串的查询词包括：含有英文串的查询词以及含有拼音串的查询词。

3.如权利要求2所述的方法，其特征在于，所述词语特征解析方法包括：词语的搜索次数统计方法以及词语对应的网页点击次数统计方法。

4.如权利要求3所述的方法，其特征在于，所述根据预先设置的词语特征解析方法获取含有字母串的查询词的特征值，提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词，包括：

5.如权利要求4所述的方法，其特征在于，所述在获取网页点击次数大于预先设置的网页点击次数阈值对应的初步候选词之后，作为候选词输出之前，进一步包括：

获取混合查询次数大于预先设置的混合查询次数阈值对应的中间候选词。

6.如权利要求1至5任一项所述的方法，其特征在于，所述提取查询词的特征值超过预先设置的特征阈值的含有字母串的查询词作为候选词的步骤之后，获取候选词中字母串对应的中文词的步骤之前，进一步包括：

根据拼音构成规则对候选词进行识别；

如果候选词不符合拼音构成规则，直接将其作为英文词；

7.一种获取英文词的装置，其特征在于，该装置包括：查询词选取模块、词语特征匹配模块以及英文词特征匹配模块，其中，

8.如权利要求7所述的装置，其特征在于，进一步包括：

9.如权利要求7或8所述的装置，其特征在于，所述词语特征匹配模块包括搜索次数统计单元、搜索次数判断单元、网页点击次数统计单元、网页点击次数判断单元以及候选词存储单元，其中，

10.如权利要求9所述的装置，其特征在于，所述词语特征匹配模块进一步包括：

混合查询次数统计单元以及混合查询次数判断单元，其中，

混合查询次数判断单元，用于将混合查询次数大于预先设置的混合查询次数阈值对应的含有字母串的查询词作为候选词，输出至候选词存储单元进行存储。