CN1629836A

CN1629836A - 学习中文新词的方法与装置

Info

Publication number: CN1629836A
Application number: CN 200310118454
Authority: CN
Inventors: 龚笔宏; 冯是聪
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2003-12-17
Filing date: 2003-12-17
Publication date: 2005-06-22
Anticipated expiration: 2023-12-17
Also published as: CN100397392C

Abstract

本发明公开了学习中文新词的方法与装置。对通过输入模块输入的搜索引擎日志用分词处理模块进行处理，将单个汉字及含有非汉语成分的查询词删除，并将剩余的查询词按查询次数排序，设置阙值，将查询次数低于阙值的查询词删除；对于余下的查询词，则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词，若包含的汉字个数大于4，则从首字开始，每次取4个字，逐次加一字，直至取完该查询词的最后一个字，然后按上述4字查询词分词方法进行分词；过滤模块对新词按出现的频率排序，设置新阙值，将低于新阙值的新词删除后将剩余的新词通过输出模块输出。本发明学习新词的效率、准确率高；能够及时地学习到最近出现的新词。

Description

学习中文新词的方法与装置

技术领域：

本发明涉及一种学习中文新词的方法与装置。

背景技术：

分词是有效地进行中文信息处理的前提和基础。分词技术在搜索引擎、信息检索等领域都得到了广泛的应用。词典的规模是影响分词准确率的最重要的因素之一。分词使用的词典通常是不完备的，无论是常见的通用词典，还是面向领域的专业词典都不可能把所有的词条都收录进去。而且，中文词汇作为一个动态开放的集合，不断地会有大量的新词涌现。尤其在Web环境下，不时会出现各种时髦的反映时代特征的新词汇。人工维护方式的词典的更新速度往往滞后于新词的产生速度。因此，需要通过快速而且准确地自动学习词典中未登录的新词来不断扩大词典的规模，以此来提高搜索引擎、信息检索等领域的分词准确率，从而可以更好地对中文信息进行处理，可见，词典的规模大小很是重要。

目前，在自动识别或者学习词典未登录新词方面，特别是面向具体技术领域的专业词汇以及人名、地名、机构名等专有名词等方面，已经有了一些方法，但这些方法的共同点是直接从专业语料库中学习新词，这些方法存在有以下问题：

1.学习新词的效率、准确率低。直接从整篇的文章中学习新词需要复杂的词法、句法分析，处理起来比较复杂，新词学习算法的复杂度高，当面对海量的网页信息时，这些方法有时是无能为力的。而且，由于需要复杂的词法、句法分析，而中文语言中存在大量的歧义问题，因此新词学习的准确率也比较低；

2.新词的学习受到领域的局限。这种利用专业语料的学习方法，通常是面向某个技术领域的，当需要应用到其它的领域时需要重新训练新词学习算法。并且当新词的应用环境没有明确的领域特征时，应用专业语料来学习新词就比较困难，因此这种面向领域的新词学习方法的应用面十分有限；

3.主观性因素太多。专业语料库的收集和整理往往需要耗费大量的人力和物力，通常是一件比较费时的工作。整理出来的语料样本还难免受到人为主观因素的影响而出现偏差，最终必然影响新词学习的准确率。

发明内容：

针对上述学习中文新词方法所存在的问题和不足，本发明的目的是提供一种从互联网络的搜索引擎日志中学习中文新词的方法与装置。

本发明是这样实现的：一种学习中文新词的方法，该方法主要是从互联网络的搜索引擎日志中学习新的中文词汇，包括以下步骤：

将互联网络的搜索引擎日志通过输入模块输入；

分词处理模块对输入的日志进行处理，将单个汉字及含有非汉语成分的查询词删除，并将剩余的查询词按查询次数排序，设置阙值，将查询次数低于阙值的查询词删除；对于余下的查询词，则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词，若包含的汉字个数大于4，则从首字开始，每次取4个字，逐次加一字，直至取完该查询词的最后一个字，然后按上述4字查询词分词方法进行分词；

组合提取模块根据上述的分词结果进行处理具体如下：

2字或3字的查询词，若分词结果为一个已有词汇，则直接删除，若为其他，则将该查询词作为一个新词输入到过滤模块；

4字的查询词，若分词结果为一个已有词汇，则直接删除，若分词结果为2部分或4部分，则将其整体作为一个新词输入到过滤模块；若分词结果为3部分，则依次将前两词组合、后两词组合及整个查询词作为新词输入到过滤模块；

多于4字的查询词，按4字查询词进行分词并按前述4字的查询词组合方法输入到过滤模块；

过滤模块对新词按出现的频率排序，设置新阙值，将低于新阙值的新词删除后将剩余的新词通过输出模块输出。

进一步地，该方法还包括，过滤模块针对可分为两新词的新词，并且，若分别用freq(S)、freq(S1)和freq(S2)代表该新词出现频率、该新词前一组合新词出现频率和该新词后一组合新词出现频率，则按下式计算之：

\frac{freq (S_{1}) - freq (S_{2})}{freq (S)}

设置正阙值H，若上式计算结果Diff≥H，则保留所述前一组合新词，将其它两新词删除；

若Diff≤-H，则保留所述后一组合新词，将其它两新词删除；

若-H＜Diff＜H，则保留所述可分为两新词的新词，将其它两组合新词删除。

进一步地，所述查询词按查询次数排序是按所有用户的总查询次数进行排序。

进一步地，所述阙值可根据具体需要设置。

一种学习中文新词的装置，包括有：

输入模块，用于将搜索引擎日志的输入；

分词处理模块，将单个汉字及非汉语成分的查询词删除；统计搜索引擎日志中查询词出现的频率，并设置阙值，将低于阙值的查询词直接删除；并将剩余的查询词以词库中的词汇为基础进行拆分，并保留各部分的查询频率；

组合提取模块，对拆分后的查询词进行处理，处理过程具体如下：

过滤模块，重新统计组合提取模块组合后新词的频率，设置新阙值，将低于阙值的新词删除；过滤模块针对可分为两新词的新词，并且，若分别用freq(S)、freq(S1)和freq(S2)代表该新词出现频率、该新词前一组合新词出现频率和该新词后一组合新词出现频率，则按下式计算之：

\frac{freq (S_{1}) - freq (S_{2})}{freq (S)}

若Diff≤-H，则保留所述后一组合新词，将其它两新词删除；

若-H＜Diff＜H，则保留所述可分为两新词的新词，将其它两组合新词删除；

输出模块，将剩余的新词输出；

互联网络的搜索引擎日志通过输入模块输入后，经分词处理模块处理后，再经组合提取模块重新组合并提取，输入至过滤模块，经过滤模块过滤后，将剩余的新词通过输出模块输出。

本发明通过互联网络的搜索引擎日志作为学习新词的基础，并对查询词首先删除无效的输入和频率较低的查询词，大大降低了学习过程中的计算难度，并将查询词以现有词库进行拆分，进行二次净化，并重新组合成新词，再删除低频新词，并判断剩余新词的真伪，不但保证了学习的新词完整，也降低了学习的难度，具体来讲有以下优点：

1、学习新词的效率、准确率高。搜索引擎日志文件中用户的查询词通常比较简短(92％以上的用户查询词的长度不超过8个汉字；65％以上的查询词的长度不超过4个汉字；在所有查询词中，4个汉字长的查询词最多，占28％以上，2个汉字长的查询词次之，占22％以上)，几乎没有完整的句子，只需做一些的简单处理，即可方便地学习新词，因此新词学习的效率比较高，组合模式提取算法的复杂度维持在常数级，这是使用面向领域的语料库学习新词所不具有可能具有的特性。而且，如果用户查询词在词典内没有收录，很有可能就是潜在的新词。因此，学习新词的准确率也比较高，从搜索引擎日志中学习新词可以取得90％以上的准确率，对于高频词，可达到97％的准确率。

2、能够及时地学习到最近出现的新词，而且这些新词不受领域的局限。搜索引擎日志及时地反映社会时尚和热点，其中包含了大量具有时代特征的新词。而且搜索引擎为大量的Web用户提供服务，不同用户的需求千差万别，这些查询词面向几乎所有领域，不受领域的局限。

3、算法实现简单、易用。本发明中提出的方法，具有实现简单，容易推广使用。

4、专业语料库的收集和整理往往需要耗费大量的人力和物力，通常是一件比较费时的工作，且整理出来的语料样本还难免受到人为主观因素的影响而出现偏差，最终必然影响新词学习的准确率。而通过用户日志的收集过程是自动完成的，无须人工的干预，因而更能客观地反映用户检索行为的特征。

附图说明：

下面结合附图，对本发明作出详细描述。

图1为本发明结构示意图；

图2为搜索引擎日志中查询词按汉字个数的分布示意图；

图3为搜索引擎日志中查询词频度分布示意图；

图4为本发明的流程示意图。

具体实施方式：

如图1所示，本发明包括：

输入模块，用于将搜索引擎日志的输入；

分词处理模块，将单个汉字及非汉语成分的查询词删除；统计搜索引擎日志中查询词出现的频率，并设置阙值，将低于阙值的查询词直接删除：并将剩余的查询词以词库中的词汇为基础进行拆分，并保留各部分的查询频率；

\frac{freq (S_{1}) - freq (S_{2})}{freq (S)}

若Diff≤-H，则保留所述后一组合新词，将其它两新词删除；

输出模块，将剩余的新词输出；

搜索引擎日志记录了用户的访问历史，通过对这些用户检索行为的统计分析，可以从中获取用户查询词的分布特性，然后利用这些特性来尽可能地减少无效的组合模式。为了保证分析得到的分布特性具有普遍性，而不是一种偶然现象，本发明以“天网”(http：//e.pku.edu.cn/)搜索引擎收集的三批日志文件数据为分析对象集合：第一批是从2000年11月20日至2001年9月4日期间的日志数据，共9,256,772条记录；第二批是从2001年12月20日至2002年2月3日期间的日忐数据，共9,394,200条记录；第三批是从2002年7月1日至2002年8月14日期间的日志数据，共6,391,282条记录。如图2所示，为对上述三批数据安字数及对应出现的频率统计结果，其中，横轴为查询词的长度，即汉字个数，纵轴为其所占比例；图中带方框的线为第一批数据的统计结果，带圆圈的线为第二批数据的统计结果，带三角形的线为第三批数据的统计结果；从图2可以看出，这三批数据得到的用户查询词长度分布是完全一致的，它们有这样的共性：用户的查询词通常都是非常简短的，92％以上的用户查询词的长度不超过8个汉字；65％以上的查询词的长度不超过4个汉字。并且，在所有查询词中，4个汉字长的查询词最多，占28％以上；2个汉字长的查询词次之，占22％以上。用户查询词中很少出现完整的句子，因此对其分析处理起来要比普通语料的费用要小的多。而且，这些简短的查询词高度浓缩地反映了用户的查询意图，几乎不包含其它无关的信息，因此从中学习新词也准确的多。

再利用上述的三组数据统计用户查询词的频度分布情况。为了说明问题方便，需要引入一些代号：n表示所有不同的查询词的个数；S表示n个查询词按频率从高到低排列后组成的数列，S＝{S1，S2，...，Sn }，Si表示第i个查询词；Ci表示Si对应的查询次数，C表示由Ci构成的数列，C＝{C1，C2，...，Cn}。把这n个查询词分成20个等份，然后根据公式：

P = Σ_{i = 1}^{k \times n / 20} C_{i} / Σ_{i = 1}^{n} C_{i} - - - (1)

分别计算在前k(1≤k≤20)个不同等份内这些查询词出现的次数占总的查询次数的比例P，这里明仅保留了1≤k≤5的结果，因为这段区间内查询次数比例增长最快，最后得到的结果如图3所示，其中，横轴为排在前面的查询词在整个查询词中所占的比例，纵轴为其P，图中带方框的线为第一批数据的统计结果，带圆圈的线为第二批数据的统计结果，带三角形的线为第三批数据的统计结果；从图3可以看出，搜索引擎日志中用户查询词在频度分布上是高度集中的。前5％的高频词占据了64％以上的总查询次数；前20％的查询词占据了83％以上的总查询次数。以第三批数据为例，在639.1万次的用户查询中，共有447,1万次中文查询，而这些查询词中仅包含了43.4万不同的查询词，频率大于等于5次的仅有11.9万个。这样，在学习时，不需要逐条分析所有查询词，而是预先把所有相同的查询词进行合并即可，而在一篇完整的文档中，很少后出现一段文字多次重复出现。因此，这也是采用搜索引擎日志的特性之一，是普通语料所不能具备的。

从上述可得出通过搜索引擎日志学习新词科学的、高效的。

如图4所示，本发明是这样学习中文新词的：将搜索引擎日志通过输入模块输入到分词处理模块，分词处理模块将单个汉字及含有非汉语成分的查询词删除，这是因为分词处理模块的词典不能登录含有非汉语的混合词，因此，对这类新词的学习没有意义。将剩余的查询词按查询次数排序，并设置阙值，将查询次数低于阙值的查询词删除；并将余下的查询词，则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词，包含的汉字个数大于4，则从首字开始，每次取4个字，逐次加一字，直至取完该查询词的最后一个字，然后按上述4字查询词分词方法进行分词；这里，分词即是以词库中的现有词汇和单字为基础，将上述剩余的查询词进行拆分，并将拆分后的结果输入至组合提取模块；

这里的阙值可以自由设定，当值设置小时，学习的新词量将比较大，但处理速度就慢，若设置较大时，学习的新词量将比较小，但处理速度会比较理想。

组合提取模块处理拆分过的查询词，具体如下：

2字查询词，若拆分为一个词，分词个数为1，即与词库中的现有词汇相同，则直接删除；若拆分为2个汉字，分词个数为2，则整体作为新词，输入到过滤模块中；

3字查询词，若拆分为一个词，分词个数为1，即与词库中的现有词汇相同，则直接删除；若拆分为1个汉字和1个词汇，分词个数为2，则整体作为新词，输入到过滤模块中；若拆分为3个汉字，分词个数为3，则整体作为新词，输入到过滤模块中；

4字查询词，若拆分为一个词，分词个数为1，即与词库中的现有词汇相同，则直接删除；若拆分为1个汉字和1个词汇，分词个数为2，则整体作为新词，输入到过滤模块中；若拆分为2个词汇，即分词个数仍为2，则整体作为新词，输入到过滤模块中；若拆分为2个汉字和1个词汇，分词个数为3，若2个汉字在词汇前，则两汉字组合、后一汉字与词汇组合及整个查询词均作为新词输入到过滤模块中，若2个汉字在词汇前后，则每个汉字与词汇分别顺序组合后作为新词输入到过滤模块中；若拆分为4个汉字，分词个数为4，则整体作为新词输入过滤模块中；

对于大于4个字的查询词处理方法，方法与上述4字查询词处理方法相同。这是因为，汉语中超过4个字的词很少，并且，新词一般的特点就是简洁，并具有时代特征，因此对于多于4字的新词汇，可以不作理会，这也是将多于4字词汇进行拆分处理的原因。

尽管已经充分利用了分词处理模块的先验知识以及用户查询词的分布特性，但是组合提取模块选取算法是建立在统计规则的基础之上，以及由于词库本身的不完备性，因此并不能保证得到的组合模式都是有效的，需要把无效的组合模式下构成的新词过滤掉。本发明把由无效组合模式形成的候选词分成两类：“伪词条”和“伪组合词”。所谓“伪词条”就是不能形成真实词义的候选词，组合提取模块在组合新词时，只是按规则进行组合，难免会有很多并无实际意义的新词。但是这类“伪词条”的频率通常都不高。因此，本发明取所有候选新词词频的平均值作为筛选“伪词条”的阈值。根据这个阈值就可以把“伪词条”过滤掉，但是这种方法同时也会过滤掉一些频率比较低的正确词条，但个数比较少，与大量的新词相比，可忽略之。

“伪组合词”就是在模式提取过程中，把不能构成真实组合词的两个词放在一起作为一个组合词的候选词。例如“电影下载”下被作为一个候选新词，根据规则，“电影下”和“下载”同样被单独作为一个独立的词条，并且，“电影下载”整个词出现的频率比较高，因而“电影下”出现的频率也比较高，设置阕值时并不能将其过滤，因此把“电影下”、“电影下载”作为一个组合词是不合理的。为了筛选掉这类“伪组合词”，本发明还针对4字新词，且是由两部分组合而成的新词，分别计算每个组合词和“整体”的出现频率，分别用S1、S2和S表示前一组合新词、后一组合新词和整体新词，并分别用freq(S1)、freq(S2)和freq(S)表示其出现的总频率，可通过以下公式的计算结果D来评判其真伪：

Diff = \frac{freq (S_{1}) - freq (S_{2})}{freq (S)}

这里，如果freq(S1)＞＞freq(S2)，那么S1最可能是基本词条；如果freq(S1)＜＜freq(S2)，那么S2最可能是基本词条；如果freq(S1)≈freq(S2)，那么S最可能是基本词条。这里可分别为Diff取不同的阈值，而实际操作时，该阈值一般取2，当Diff≥2时，“前半部分”S1为有效词条，删除S2、S；当Diff≤-2时，“后半部分”S2为有效词条，删除S1、S；当-2＜Diff＜2时，“整体”S为有效组合，删除S1、S2。这样，如果“电影下载”作为新词被分析，“电影下”、“电影下载”的出现频率肯定远小于“下载”的出现频率，这样，只有“下载”才会被作为新词输出。

以上述“天网”的三批搜索引擎日志为例，采用本发明后，学习到的部分新词见下表：

下载乱伦寻秦记破解考研走光三级片手机清华偷窥课件大史记黑客天龙八部攻略

五笔动画一夜情周杰伦主页网站屏保刘德华天网美眉美国江泽民专升本舒琪周星驰

北京站中关村封神榜自慰深圳法轮功杀毒物流香港孙燕姿宋祖英网址声卡古龙王菲

网页路由器宽带搜狐十六大西柏坡控件考博短信六合彩中考搞笑任贤齐齐天大圣哈利波特

为说明本发明的优越性，再引入一些记号，对本发明作出分析。假设用户的查询词为一个字符串S，长度为n，中文词条的最大有效长度为k。如果采用所有汉字组合模式的穷举法，也就是把所有可能的汉字组合模式都穷举出来，然后对每一种组合来匹配查询词S，对于6763个一、二级汉字，两个汉字的组合模式有6763×6763种，三个汉字的组合模式有6763³种，依次类推，k个汉字可能产生的组合模式有种。如k取4，那么约有2.1×1015种。很显然，通过匹配如此多的汉字组合模式来学习新词是不现实的。下面分析本发明新词学习算法的复杂度。与上述穷举法不同，本发明不是试图穷举所有的汉字组合模式，而是仅考虑在查询词中可能出现的组合模式。为了尽可能的减少了扫描匹配字符串的次数，本发明采取了以下措施：(1)在预处理的过程中，合并大量重复的查询词，而不是逐条分析查询词；(2)在组合模式提取的过程中，对于n≤4的查询词，首先进行分词处理，然后根据分词结果和查询词的分布特性来尽可能地减少无效的组合模式；对于大于4字的查询词，主要是4＜n≤8的查询词，通过“正向增字”，然后分别调用n＝4的处理方法。这是由汉语的特性而决定的，因为一般的汉语词汇不超过4个字，不会对本发明的新词学习几乎没有影响。而本发明算法的复杂度，可通过下式估算：

O (S) = Σ_{i = 2}^{8} P_{i} (S_{i}) O (S_{i})

上式中：Pi(Si)为不同长度查询词的长度分布；O(Si)为不同长度查询词需要的字符串匹配次数。当i＝2或i＝3时，需要匹配的次数为常数1；当i＝4时，根据分词结果，需要匹配的最大次数为常数3；当4＜i≤8时，根据“正向增字匹配”，可以分别拆分成i≤4时的情况。加上需要再计算组合词的部分与整体出现频率的比较，O(S)≈3.4次。从上面的分析可以看出，本发明算法要远远优于常规算法。

Claims

1.一种学习中文新词的方法，其特征在于，该方法是从互联网络的搜索引擎日志中学习新的中文词汇，包括以下步骤：

将互联网络的搜索引擎日志通过输入模块输入；

组合提取模块根据上述的分词结果进行处理具体如下：

2.如权利要求1所述的学习中文新词的方法，其特征在于，该方法还包括，过滤模块针对可分为两新词的新词，并且，若分别用freq(S)、freq(S1)和freq(S2)代表该新词出现频率、该新词前一组合新词出现频率和该新词后一组合新词出现频率，则按下式计算之：

\frac{freq (S_{1}) - freq (S_{2})}{freq (S)}

若Diff≤-H，则保留所述后一组合新词，将其它两新词删除；

3.如权利要求1或2所述的学习中文新词的方法，其特征在于，所述查询词按查询次数排序是按所有用户的总查询次数进行排序。

4.如权利要求3所述的学习中文新词的方法，其特征在于，所述阙值可根据具体需要设置。

5.一种学习中文新词的装置，其特征在于，该装置包括有：

输入模块，用于将搜索引擎日志的输入；

\frac{freq (S_{1}) - freq (S_{2})}{freq (S)}

若Diff≤-H，则保留所述后一组合新词，将其它两新词删除；

输出模块，将剩余的新词输出；

6.如权利要求5所述的学习中文新词的装置，其特征在于，所述阙值可根据具体需要设置。