CN1936893B

CN1936893B - 基于互联网信息的输入法词频库的生成方法和系统

Info

Publication number: CN1936893B
Application number: CN2006100865774A
Authority: CN
Inventors: 佟子健; 郭奇
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2006-06-02
Filing date: 2006-06-30
Publication date: 2010-05-12
Anticipated expiration: 2026-06-30
Also published as: WO2007143914A1; CN1936893A

Abstract

本发明公开了一种基于互联网信息输入法词频库的生成方法，包括：通过网络爬虫技术获取互联网的网页；对网页信息进行分词处理；对词条进行词频统计，并保存形成互联网词频库。由于本发明以公开的、实时变化的互联网信息为输入法系统的词频统计来源，生成的词频信息是最新和最佳的；并可以通过各种简单方便的方式更新至输入法系统的系统词频库，使得系统词频库中的词频信息能够与互联网上字词的词频信息保持一致，从而提高了使用者的首选词的命中率，提高了输入速度和效率。

Description

基于互联网信息的输入法词频库的生成方法和系统

技术领域

本发明涉及互联网信息处理领域，特别是涉及一种以互联网信息为词频统计来源的输入法词频库的生成方法和系统，以及一种输入法系统。

背景技术

当前的输入法系统(包括中文、日文以及韩文等等)都是基于其词库系统以及词库系统中的词频来为使用者在信息输入过程中提供候选词的排序。候选词的排序是使用者在信息输入过程中首选词命中率高低的一个重要指标。所述首选词命中率是指，当用户输入一定的键盘信息后，排序在前的词汇或字是用户最需要的。当然，以中文输入法为例，从技术上讲，输入法系统本身是无法知悉那个词是用户最需要的；但是在浩如烟海的中文字词中，各个字词的使用和出现频率是不同的，将出现频率较高的字词排序在前就可以大大提高输入法系统的首选词命中率，即可以从概率上提高排序在前的词汇满足用户需要的可能性。

在现有技术中，输入法系统一般包括一系统词库，通过在所述系统词库中记录词频信息提高首选词命中率。所述系统词库通过对众多文档集合(例如，传统新闻、报纸)的分析得到比较通用的词频及排序，从而保证输入法系统的首选词命中率。但是一般现有的输入法系统所依赖的文档集合来源都是封闭的特定的，最初是用人民日报作为训练文档库的，后来进行了有限的补充，基本上是一些有影响力的报纸集合。现有输入法系统通过对特定的封闭的文档集合进行分析，可以得到一些比较通用的词频及排序，从而在一定程度上能够解决一定的首选词命中率问题。

但是，随着社会节奏的加快，文化冲突和融合的不断进行，导致现代社会中许多词汇的使用，采用现有的特定的封闭的文档集合已经远远不能涵盖了，尤其随着互联网的普及，导致信息迅速膨胀，上述问题越来越突出了。由于封闭文档集合的规模较小，内容固定，文档集合形成的时间较早，更新很慢，根据其得来的字词频率不符合互联网使用的活跃性，从而会导致现在使用频率比较低的字词排序在前，而当前实际使用频率高的字词却排序在后。例如：“顶”“网游”“财报”等互联网常用词汇使用的频率相当高，但是在现有技术中，这些词汇的一般的排序都比较靠后，与用户需要频繁使用这样的需求不符。

因此，如何获得合适的文档集合或者如何获取最新、最准的词汇使用频率，对输入法系统的系统词库进行更新，从而提高输入法系统首选词的命中率，成为本领域技术人员迫切需要解决的技术问题之一。

发明内容

本发明所要解决的技术问题是提供一种输入法词频库的生成方法、以公开的、实时变化的互联网信息为输入法系统的词频统计来源，可以获得最佳、最新的词频排序，从而解决现有技术中词频库特定封闭的缺陷，以及可以提高信息输入中首选词命中率。

本发明的另一个目的是提供了一种输入法词频库的生成系统以及输入法系统，以公开的、实时变化的互联网信息为输入法系统的词频统计来源，可以获得最佳、最新的词频排序，并且输入法系统可以通过各种方式简单方便的实现词频库的更新，从而解决现有技术中词频库特定封闭的缺陷，以及可以提高信息输入中首选词命中率.

为解决上述技术问题，本发明提供了一种输入法词频库的生成方法，包括：通过网络爬虫技术获取互联网的网页；对所述获取的网页分别赋予相应的权重值，所述权重值用以表示该网页在所有被分析网页词频统计中的重要性；对网页信息进行中文分词处理；统计、计算得到被所述权重值修正后的词频统计结果，并保存形成互联网词频库。

优选的，所述的输入法词频库的生成方法可以通过以下步骤得到词频统计结果的修正值：对各网页的词条进行词频统计后，根据所述权重值进行修正，得到各网页词频统计结果的修正值。如果被统计网页的权重值低于预置值，则不统计该网页；如果被统计网页的权重值大于或者等于预置值，则对该网页的词条进行词频统计后，根据所述权重值进行修正，得到该网页的词频统计结果。

优选的，所述的输入法词频库的生成方法，还包括重复网页分析步骤：对第一网页进行分析，得到其特征值，保存至网页特征库中；对第二网页进行分析，得到其特征值，与特征库中的信息进行比较；如果达到预定的相似度，则赋予第二网页相应的权重值。所述特征值可以为正文标题用词、正文内容用词、段落数量、长度或者正文词的出现频率等等。

优选的，所述的输入法词频库的生成方法，还包括垃圾网页分析步骤：预置域名规则库，如果被分析网页的域名符合预置规则，则赋予该网页相应的权重值；如果被分析网页中同一关键字出现的次数大于或者等于预置值，则赋予该网页相应的权重值；如果被分析网页的相关链接为循环链接，则赋予该网页相应的权重值。

优选的，所述的输入法词频库的生成方法，还包括黄色网页分析步骤：预置关键词库，如果被分析网页中出现的词与所述关键词库中的词的匹配程度大于或者等于预置值，则赋予该网页相应的权重值。

优选的，所述的输入法词频库的生成方法，还包括：根据网页形成的时间或者网页类型对所述获取的网页分别赋予相应的权重值。

优选的，所述的输入法词频库的生成方法，还包括：利用网页描述语言中的标识符号，解析出网页中的正文标题部分和正文内容部分，并对正文标题部分和正文内容部分分别设定权重值，所述权重值用于评价词条在该部分出现时对该网页词频统计的影响。

优选的，所述的输入法词频库的生成方法，还包括：输入法系统直接调用所述互联网词频库获取词频信息；或者，在输入法系统中设置系统词频库，通过所述互联网词频库更新所述输入法系统中的系统词频库。

优选的，所述输入法系统位于第一计算设备中；获取网页、分词处理以及词频统计步骤由第二计算设备完成；第一计算设备连接所述第二计算设备完成系统词频库的更新。或者，所述输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中；获取网页、分词处理以及词频统计步骤由第二计算设备完成，并且系统词频库或者所述互联网词频库位于所述第二计算设备中，第一计算设备连接所述第二计算设备获取词频信息。

优选的，所述更新的方式为：当输入法系统更新时，同时更新所述系统词频库；或者，由服务器主动推送的方式进行系统词频库的在线更新；或者，由用户发起请求，服务器根据请求返回数据进行系统词频库的更新.

本发明还提供了一种输入法词频库生成系统，包括：

网页获取模块，用于通过网络爬虫技术获取互联网的网页；

权重值赋予模块，对所述获取的网页分别赋予相应的权重值，所述权重值用以表示该网页在所有被分析网页词频统计中的重要性；

分词处理模块，用于对网页信息进行分词处理；

词频统计模块，用于统计、计算得到被所述权重值修正后的词频统计结果，并保存形成互联网词频库。

优选的，所述的词频库生成系统的所述词频统计模块可以通过以下方式得到词频统计结果的修正值：所述词频统计模块对各网页的词条进行词频统计后，根据所述权重值进行修正，得到各网页词频统计结果的修正值；其中，如果被统计网页的权重值低于预置值，则不统计该网页。

优选的，所述权重值赋予模块用于重复网页分析：对第一网页进行分析，得到其特征值，保存至网页特征库中；对第二网页进行分析，得到其特征值，与特征库中的信息进行比较；如果达到预定的相似度，则赋予第二网页相应的权重值。

优选的，所述权重值赋予模块用于垃圾网页分析：预置域名规则库，如果被分析网页的域名符合预置规则，则赋予该网页相应的权重值；如果被分析网页中同一关键字出现的次数大于或者等于预置值，则赋予该网页相应的权重值；如果被分析网页的相关链接为循环链接，则赋予该网页相应的权重值。

优选的，所述权重值赋予模块用于黄色网页分析：预置关键词库，如果被分析网页中出现的词与所述关键词库中的词的匹配程度大于或者等于预置值，则赋予该网页相应的权重值。

其中，所述权重值赋予模块还可以用于根据网页形成的时间或者网页类型对所述获取的网页分别赋予相应的权重值。

其中，所述权重值赋予模块还可以用于：利用网页描述语言中的标识符号，解析出网页中的正文标题部分和正文内容部分，并对正文标题部分和正文内容部分分别设定权重值，所述权重值用于评价词条在该部分出现时对该网页词频统计的影响。

优选的，所述的词频库生成系统，还包括：网络通信模块，用于传送词频库信息，所述词频库信息用于更新用户输入法系统的词频信息。

优选的，所述的词频库生成系统，还包括：识别模块，用于识别接收的用户输入信息，并根据互联网词频库对识别结果进行排序，以及返回排序后的识别结果。

优选的，所述的词频库生成系统，还包括：输入信息接收模块，位于用户计算设备，用于接收用户输入的键盘信息；显示模块，位于用户计算设备，用于根据所述排序后的识别结果显示相应字符。

本发明还公开了一种输入法系统，包括：

系统词频库，用于存储根据互联网信息分词、统计得到的词频信息；所述词频信息通过以下模块得到：网页获取模块，用于通过网络爬虫技术获取互联网的网页；权重值赋予模块，对所述获取的网页分别赋予相应的权重值，所述权重值用以表示该网页在所有被分析网页词频统计中的重要性；分词处理模块，用于对网页信息进行分词处理；词频统计模块，用于对网页的词条进行词频统计后，根据所述权重值进行修正，得到该网页的词频统计结果，并保存形成词频信息；其中，如果被统计网页的权重值低于预置值，则不统计该网页；

输入接口模块，用于接收用户的输入信息；

对比显示模块，用于根据用户的输入信息，以及词频库中的词频信息进行排序显示相应的字符。

优选的，所述输入法系统还可以包括：词频库更新模块，用于接收更新信息，对所述系统词频库进行更新。

与现有技术相比，本发明具有以下优点：

首先，由于本发明以公开的、实时变化的互联网信息为输入法系统的词频统计来源，生成的词频信息是最新和最佳的；并可以通过各种简单方便的方式更新至输入法系统的系统词库，使得系统词库中的词频信息能够与互联网上字词的词频信息保持一致，这样当使用者输入信息时，尤其在基于互联网输入时，互联网上使用频率高的字词信息能够成为使用者输入的首选词或首页候选词，提高了使用者的首选词的命中率，提高了输入速度和效率。

其次，本发明为了提供词频统计的准确性，通过对不同的网页设置不同的权重值，所述权重值用于表示该网页在所有被分析网页词频统计中的重要性。由于对网页采用了权重值的调整，可以在词频统计中去除一些重复、垃圾或者黄色网页等等对词频统计无效的网页信息，避免其对统计结果的影响。优选的，可以对符合以下几种条件的网页赋予较低的权重值，设置排除该网页：与网页特征库中的特征值比较相似度过高；通过域名分析、关键词匹配以及链接分析得知该网页为垃圾网页；通过关键词匹配得知该网页为黄色网页。

再者，为了进一步保证词频统计的准确性，由于网页时间、网页类型等属性的不同导致该网页对词频统计的重要程度是不同的，以及词汇在正文标题出现和在正文内容出现的重要程度是不同的，所以本发明优选的可以根据网页形成的时间或者网页类型对所述获取的网页分别赋予相应的权重值，以及对网页中的正文标题部分和正文内容部分赋予不同的权重值对该网页的词频统计进行调整，以进一步提高针对输入法系统的词频统计的准确性。

附图说明

图1为所述输入法词频库的生成方法的步骤流程图；

图2为所述输入法词频库的生成及更新方法的步骤流程图；

图3为所述输入法词频库的生成及更新方法的信息流程图；

图4为所述输入法词频库的生成系统的结构示意图；

图5为所述输入法系统的结构示意图；

图6为本发明测试结果比对图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的核心思想在于，从互联网中抓取包括网络新闻，论坛，博客，聊天室等网络内容的中文网页(例如40亿)；对所抓取的网页设定相应的权重值，例如，对重复网页、垃圾网页以及黄色网页等赋予较低的权重值，去除权重值较低的网页，从而得到相对质量较高的被分析网页集合(例如10亿)或者通过权重值降低一些网页对词频统计的影响；然后通过网页页面分析技术以及中文分词技术，对该网页集合中的信息进行分词处理，对词条进行词频统计，得到满足互联网信息分布的词频库；用所得到的词频库来更新或者生成使用者的系统词频库。这样使用者的系统词频库的词频能够与互联网上字词的词频信息保持一致，当使用者输入中文信息时，尤其是在互联网上输入时，候选词的排序就能够与互联网上的字词词频信息保持一致，从而提高首选词的命中率。

上面以中文输入法系统为例对本发明的核心思想进行了说明，但是本发明还可以应用于日文、韩文等需要出现候选词排序的输入法系统，例如，对于日文而言，由日文中的平假名、片假名拼成短语的时候就需要出现候选词排序。由于本发明在上述几种输入法系统中的应用都是相似的，所以为了方便说明，下面仅仅对本发明应用在中文的情况进行说明。

参照图1，示出了本发明输入法词频库的生成方法的步骤流程图，包括以下步骤：

步骤101，通过网络爬虫技术获取互联网的网页。例如，通过几十台网络爬虫服务器，按照网站域名列表，实时抓取互联网中近40亿的最新中文网页，这些互联网网页中可以包括网络新闻，论坛，博客，聊天室等等网络内容。当然，现阶段的互联网中大概拥有近40亿的最新中文网页，随着互联网的普及和发展，这个网页数量是个动态增加的，40亿之具体数值仅仅为举例而已，随着互联网中中文网页信息的增加，输入法系统的词频统计结果也将越来越准确。

网络爬虫是一个自动提取网页的程序，它从互联网上下载和获取网页。网络爬虫可以从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件，例如：抓取了所有的互联网的网页。当然，不同的网络爬虫技术会在效率、分析、筛选等方面表现不同的性状，但是本发明的改进之处不在与此，对该部分就不在赘述。

步骤102，对网页信息进行分词处理。

本发明可以利用网页描述语言中的标识符号，解析出网页中的正文标题部分和正文内容部分，但是要对网页标题和正文中的字词进行词频统计，就需要进行中文分词处理。

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am astudent，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词。例如，我是一个学生，分词的结果是：我是一个学生。

下面介绍一些常用的分词方法：

1、基于字符串匹配的分词方法：是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

2、基于特征扫描或标志切分的分词方法：是指优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率；或者将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而提高切分的准确率。

3、基于理解的分词方法：是指通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。

4、基于统计的分词方法：是指，中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度，所以可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典。

步骤102中所述分词处理采用上述方法或者本领域技术人员熟知的其他方法均可。

步骤103，对词条进行词频统计，并保存形成互联网词频库。

以分词后得到的词条对抓取的网页进行词频统计，并保存形成互联网词频库。

优选的，为了保证词频统计的准确性，图1所示方法还可以包括权重设定步骤104：对所述获取的网页分别赋予相应的权重值，所述权重值用以表示该网页在所有被分析网页词频统计中的重要性；对该网页的词条进行词频统计后，根据所述权重值调整后得到该网页的词频统计结果。

优选的，如果被统计网页的权重值低于预置值，则不统计该网页；如果被统计网页的权重值大于或者等于预置值，则对该网页的词条进行词频统计后，根据所述权重值进行修正，得到该网页的词频统计结果。所述修正可以根据经验设定相应的规则进行，例如，乘以所述权重值。一般在学术研究中，可以将根据权重值修正过的词频信息采用“词权”一词表示。

在权重赋予的步骤中，根据网页形成的时间和网页的类型赋予相应的权重值是一个比较重要的情形。因为对于词频统计而言，网页时间对其的影响非常重要，所以网页时间对权重值的影响也就较大，距离词频统计的时间点越远，则权重值就越低，如果时间差大于一定的值，则可以赋予该网页较低的权重值，甚至排除在词频统计之外。其次网页类型对词频统计的影响也很大，所述网页类型一般是指门户网站、论坛或者其他一些已经确定的网页，这些网页的权重值就较高，因为这些网页中参与者较多、信息更新较快、能够较好的反应词频的最新变化趋势。对于网页类型的判定，可以通过设定一个规则库，该库中存储了一些网页的URL地址，从而确定这些URL的网页是对词频统计比较重要的，在这些网页上出现的字词会是优选统计的，则对该网页赋予更大的权重值。

优选的，由于词汇在正文标题出现和在正文内容出现的重要程度是不同的，为了进一步保证词频统计的准确性，图1所示方法还可以包括：利用网页描述语言中的标识符号，解析出网页中的正文标题部分和正文内容部分，并对正文标题部分和正文内容部分分别设定权重值，所述权重值用于评价词条在该部分出现时对该网页词频统计的影响，用以对该网页的词频统计进行调整.

网页页面分析就是根据网页描述语言中的标记去掉一些html标记内的无用文字，并分析出正文，包括正文标题和正文内容。例如，下面的网页：

http://news.sina.com.cn/c/edu/2006-06-06/18429135367s.shtml

标题：<tr><th class＝f24><font color＝#05006C><h1>教育部要求确保高考每个环节万无一失</h1></font></th></tr>

<p>新华网北京6月6日电(记者吕诺)全国高考将在7日如期拉开帷幕，目前各项准备工作基本就绪。教育部副部长赵沁平6日在北京市海淀区检查高考准备工作时强调，从试卷运输、保管、分送到考试实施，整个高考过程每个环节都必须严格按照规定落实，确保万无一失。</p>

将上述特定标记之间的内容提取出来分别进行保存，并可以根据属于正文标题还是属于正文内容，设定不同的权重值。

对不同的网页设定不同的权重值的步骤可以通过以下几种方式实现，当然，本领域技术人员还可以根据相关技术或者需要对网页设定各种各样的权重值，本说明书仅仅是举出以下几种优选的赋予较低权重值的实施例而已，采用其他权重值设定方式也属于本发明的发明构思。

在权重值设定步骤中，本发明可以对重复网页进行分析，包括以下步骤：

对第一网页进行分析，得到其特征值，保存至网页特征库中；

对第二网页进行分析，得到其特征值，与特征库中的信息进行比较；

如果达到预定的相似度，则赋予第二网页相应的权重值。

当然，上述分析步骤完成之后，对第一网页的权重值是没有影响的，如果达到预定的相似度，则仅仅向第二网页赋予较低的权重值即可。如果该权重值低于预定值，则可以在之后的词频统计步骤中去除该网页即可。所述特征值可以包括：正文标题用词、正文内容用词、段落数量、长度以及正文词的出现频率等等。

例如，对于网页A：http://tech.qq.com/a/20050825/000125.htm和网页B：http://it.sohu.com/20050825/n240298921.shtml，对网页A的分析已经完成，将得到的网页A的特征值保存至网页特征库中，所述特征值可以根据需要由本领域技术人员选择即可，本发明并不对此加以限定。

对网页B进行页面分析后，并与网页特征库保存的特征值进行比较，可以得出两个网页中，正文标题都是“百度Q2财报显示净利润同比增长6倍”，正文内容也完全相同。对于这种情况，如果重复统计网页内容中词的出现频率，必定使得最终的统计结果不客观。所以优选的，需要将赋予网页B较低的权重值，甚至为零，从而降低网页B在词频统计中的影响，提高词频统计的准确度。

上述分析过程中，提取特征值的方法可以为：首先抽取网页中的内容信息(包括正文标题和正文的内容)；然后提取正文的长度、段落数量等信息，接着对内容信息进行分词处理，统计正文中出现的词及其出现频率；最后根据正文标题、正文长度、段落数量、正文词的出现频率等网页特征与根据对A网页的分析提取特征值建立的特征库信息进行比较，如果达到预定的相似度，则赋予第二网页相应较低的权重值.

当然，在分析上述两个网页的相似度时，还可以首先对第二个网页的一些冗余的信息进行过滤，比如广告、链接、每个网站特有的内容等等，得到基本内容，再抽取标题的用词，正文的用词，段落的数量等和现有的特征库里保存的第一个网页的信息进行比较，在一定的数值结果以上就算是重复的网页。至于，达到怎样的相似度或者匹配程度，就可以认为是重复的网页，或者应该赋予怎样的权重值，这些具体的数据可以由本领域技术人员根据需要或者根据经验进行选择即可，本发明在此并不加以限定。

在权重值设定步骤中，本发明还可以对垃圾网页进行分析，可以通过以下几种方式进行分析判断：

通过域名分析的方式：预置域名规则库，如果被分析网页的域名符合预置规则，则赋予该网页相应的权重值。因为本领域技术人员根据经验建立了一个域名数据库或者域名规则库，符合这些规则的域名一般都可以认为是垃圾网页，即对词频统计的准确性没有任何意义。一般经验认为，大量数字内容的域名就是一个垃圾网页的域名特征。例如，域名不全、主要部分数字过多、无规律、和现有网页正常网页不相似、网页内容比较杂乱等等特征。

通过关键词匹配方式：如果被分析网页中同一关键字出现的次数大于或者等于预置值，则赋予该网页相应的权重值。因为该网页中同一关键字出现的次数过多，此网页和此网页中的链接的网页都可以看作是垃圾网页则认为该关键字并非正常使用，故该网页中的信息对词频统计的准确性意义不大，可以赋予较低的权重值。

通过链接分析的方式：如果被分析网页的相关链接为循环链接，则赋予该网页相应的权重值。因为，如果网页信息的作用就在于交流互通，如果该网页内的链接都为循环链接，或者在网页链接中的域名信息和此网页的域名具有同等特征的，或者没有前置域名的数字域名的，则该网页中的信息对词频统计的准确性意义不大，此网页和此网页中的链接的网页都可以看作是垃圾网页，可以赋予较低的权重值。

以上三种方式择一进行或者组合进行，都可以达到找出垃圾网页的目的，即达到降低垃圾网页对词频统计的准确性的影响。当然，还可能存在其他的判定垃圾网页的方法，本发明在此不能一一列举。

例如，http://www.rr3721.com/，这个网页就是一个词频统计中的典型的垃圾网页。首先可以先判别域名信息，大量数字内容的域名甄选出来，已经具备了垃圾网站的一项特征；然后再通过分析网页的结构，框架frame或者表格形式都是异常的，每个框架frame里的文字信息很少，而且字体很大，颜色很乱，这些都可以提取出来成为垃圾网页的特征；再通过分析链接，在网页链接中的域名信息和此网页的域名具有同等特征的，或者没有前置域名的数字域名的，此网页和此网页中的链接的网页都可以看作是垃圾网页。对文字信息进行分析的过程中，本网页中的“六合彩”一词在网页下部有上百处出现，重复率超过了一定的设定值，所以上述网页可以认为是垃圾网页。

在权重值设定步骤中，本发明还可以对黄色网页进行分析，包括以下步骤：预置关键词库，如果被分析网页中出现的词与所述关键词库中的词的匹配程度大于或者等于预置值，则赋予该网页相应的权重值，从而减少黄色网页中某些关键词的频繁使用对正常的词频统计带来不好的影响。

所述权重值设定步骤，除了上述几种网页的分析情况之外，本领域技术人员还可以根据需要设定各种不同的标准，用于给不同的网页赋予不同的权重值；但是，只要采用设定权重的方式提高输入法词频库中词频统计的准确性，则都属于本发明的构思之中.

本发明上述的对不同页面设置权重的步骤、以及去除页面的冗余信息、去除或者降权重复网页和垃圾网页的步骤，其目的都是为了获得更为准确的输入法意义上的词频统计。要想得到的结果更准确，就需要统计的词汇尽量都是用户的“输入行为”，但是上述的页面冗余信息、重复页面以及垃圾信息等类别的网页都是机器模板自动生成，或者是复制，粘贴得到的，并不能反应用户的原始输入行为，因此如果不进行这些降权或者去除的操作会导致统计出来的词频不客观，结果不准确。例如，如果不进行上述优选的权重设置等操作，则导致某些广告或者网站标语(banner)里面的词频极大上升，从而导致词频统计结果的不准确。

参照图2，示出了本发明输入法词频库的生成及更新方法的步骤流程图；参照图3，示出了图2所示输入法词频库的生成及更新方法的信息流程图。本实施例是图1所示实施例的一个补充，故本部分未详尽之处可以参见前述图1的相关描述。

步骤201，在输入法系统中设置系统词频库；

步骤202，通过网络爬虫技术获取互联网的网页；

步骤203，对网页信息进行分词处理；

步骤204，对词条进行词频统计，并保存形成互联网词频库。

步骤205，由所述互联网词频库更新所述输入法系统中的系统词频库。

优选的，所述输入法系统可以位于用户第一计算设备中；获取网页、分词处理以及词频统计步骤由第二计算设备完成；用户计算设备连接所述第二计算设备完成系统词频库的更新。优选的，第二计算设备采用服务器实现，由于服务器可以具有更高的数据处理能力、存储能力和稳定性，并且可以建立一个统一的词频平台，有益于用户输入法词频库的更新。

当然，输入法系统中也可以不设置系统词频库，每次使用时，输入法系统直接连接第二计算设备，调用所述互联网词频库获取词频信息即可。

图2所示的实施例中，所述更新的方式可以为：当输入法系统更新时，同时更新所述系统词频库；或者，由服务器主动推送的方式进行系统词频库的在线更新；或者，由用户发起请求，服务器根据请求返回数据进行系统词频库的更新。当然，也可以采用移动存储器更新的方式或者版本更新的方式。总之，可以采用各种数据更新的方式，本发明对此并不加以限定，本领域技术人员可以根据需要选择即可。

图2所示实施例中，也可以优选的增加权重设置步骤，对所述获取的网页分别赋予相应的权重值，如果被统计网页的权重值低于预置值，则不统计该网页；如果被统计网页的权重值大于或者等于预置值，则对该网页的词条进行词频统计后，根据所述权重值进行修正，得到该网页的词频统计结果。由于前面已经对该步骤进行了详细描述，在此就不再赘述。

在图3所示的信息流程图，首先从庞大的互联网的网页中抓取获得了原始的页面数据库301；然后，通过针对不同的网页设定相应的权重值，并且去除一些权重值较低的网页，则得到精选页面数据库302；然后，对该数据库中的页面进行结构分析，得到正文标题和正文内容，形成页面内容数据库303；对页面内容数据库中的信息进行中文分词和统计，得到需要的互联网词频库304；通过各种词频发布的方式将词频更新的信息发送至用户端的输入法系统词频库305中.至此，完成了基于互联网信息资源的输入法词频库的生成和更新.

图2和图3示出的实施例中，完成输入法整体功能的程序块位于用户计算设备中，由服务器或者另一计算设备提供词频库生成和更新服务，但是本发明并不仅仅限于上述情况。下面举例进行说明：

例如，输入法系统除了能够完成输入法整体功能，其自身就可以通过基于互联网信息完成互联网词频库的生成和更新，即输入法系统在现有基础上又集成了互联网词频库的生成功能。

再例如，所述输入法系统中用于接收用户输入信息和显示相应字符的单元位于用户第一计算设备中；获取网页、分词处理以及词频统计步骤由第二计算设备完成，并且系统词频库或者所述互联网词频库位于所述第二计算设备中，用户计算设备连接所述第二计算设备获取词频信息。至于，一个完整的输入法系统还需要的判断识别等其他功能单元即可以位于第一计算设备中，也可以位于第二计算设备中，都属于本发明的应用范围。优选的，第二计算设备采用服务器实现。

总之，本发明提出了一种互联网词频信息的生成方法，无论采用何种架构具体实现所述方法，以及采用何种方式传递该词频信息，都在本发明的构思之内。

参照图4，示出了本发明输入法词频库的生成系统的结构示意图，包括以下部件：

网页获取模块401，用于通过网络爬虫技术获取互联网的网页；

分词处理模块402，用于对网页信息进行中文分词处理；

词频统计模块403，用于对词条进行词频统计，并保存形成互联网词频库。

信息在各模块之间依次传递：网页获取模块--分词处理模块--词频统计模块，从而得到以开放的、变化的互联网信息为文档集合的互联网词频库。

图4所示的词频库生成系统，可以通过服务器的形式存在于网络中，向其他任何需要输入法词频库的客户端程序提供词频库生成服务。当然，图4所示的词频库生成系统，并不需要一定通过固定服务器的形式出现，也可以存在于某个本地计算设备中，通过P2P(点对点)技术向其他终端的任何需要输入法词频库的客户端程序提供词频库生成服务。总之，采用何种形式表现本发明所述的词频库生成系统并不是最重要的，只要具有本发明所述词频库生成系统的相关模块单元，并能够实现相应的功能，则属于本发明的保护范围。

图4所示的词频库生成系统，还可以包括：权重值赋予模块404，对所述获取的网页分别赋予相应的权重值，所述权重值用以表示该网页在所有被分析网页词频统计中的重要性；所述词频统计模块对该网页的词条进行词频统计后，根据所述权重值进行修正，得到该网页的词频统计结果；其中，如果被统计网页的权重值低于预置值，则不统计该网页。所述权重值赋予模块404可以利用网页描述语言中的标识符号，解析出网页中的标题部分和正文部分，并对标题部分和正文部分分别设定权重值，所述权重值用于评价词条在该部分出现时对该网页词频统计的影响。

其中，所述权重值赋予模块404可以用于重复网页分析：对第一网页进行分析，得到其特征值，保存至网页特征库中；对第二网页进行分析，得到其特征值，与特征库中的信息进行比较；如果达到预定的相似度，则赋予第二网页相应的权重值.所述特征值可以包括：标题用词、正文用词、段落数量、长度以及正文词的出现频率等等从网页提取的信息.

其中，所述权重值赋予模块404还可以用于垃圾网页分析：预置域名规则库，如果被分析网页的域名符合预置规则，则赋予该网页相应的权重值；如果被分析网页中同一关键字出现的次数大于或者等于预置值，则赋予该网页相应的权重值；如果被分析网页的相关链接为循环链接，则赋予该网页相应的权重值。

其中，所述权重值赋予模块404还可以用于黄色网页分析：预置关键词库，如果被分析网页中出现的词与所述关键词库中的词的匹配程度大于或者等于预置值，则赋予该网页相应的权重值。

当然，所述权重值赋予模块404还可以用于对其他网页赋予相应的权重值，根据设定的标准进行即可，本发明在此不一一列举了。

图4所示的输入法词频库生成系统，还可以包括：网络通信模块405，用于传送词频库信息，所述词频库信息用于更新用户输入法系统的系统词频库。

图4所示的输入法词频库生成系统，还可以包括：识别模块，用于识别接收的用户输入信息，并根据互联网词频库对识别结果进行排序，以及返回排序后的识别结果。即图4所示的输入法词频库生成系统还可以集成一些输入法相关的其他功能。

在上述基础上，图4所示的输入法词频库生成系统，还可以包括：输入信息接收模块，用于接收用户输入的键盘信息；以及显示模块，用于根据所述排序后的识别结果显示相应字符。此时，即相当于所述输入法词频库生成系统已经成为一个集成了输入法基本功能和基于互联网信息的词频库生成功能的大系统了。优选的，可以将上述集成的系统在拥有通信连接的两个计算设备中实现，例如，将输入信息接收模块和显示模块设置在用户第一计算设备中，其他功能模块设置在第二计算设备中，通过第一计算设备连接第二计算设备共同完成输入过程。

参照图5，示出了本发明输入法系统的结构示意图，包括以下部件：

系统词频库501，用于存储基于互联网信息统计得到的字词及其对应的词频，所述词频库中存储的信息就是某个字词的相应的使用次数，这个次数的数值基本上都是某个字词在文档集合里面的使用的次数，某些高频词的词频信息会有所不同，但绝大部分的字词都是使用的绝对次数。输入法系统是在音字输入匹配完成后调用相应的词频信息，然后根据词频排序列出需要显示的字词给用户。

输入接口模块502，用于接收用户的输入信息，例如，各种键盘信息等。

对比显示模块503，用于根据用户的输入信息，以及词频库中的词频信息进行排序显示相应的中文字符。接收到用户输入的键盘信息后，依据输入法系统的编码规则，将其转换为相应的中文字符，并查询词频库中的词频信息进行排序显示在相应的提示栏上。本发明的核心思想在于词频信息的准确和快速更新，所以无论所述输入法系统采用何种编码方式对本发明而言都是可行的，例如，拼音或者五笔等等。

如果采用移动存储器或者随着系统更新时一同更新系统词频库的方式，则上述三个模块就可以组成完整的输入法系统，例如，每次都采用新的输入法系统覆盖原有的输入法系统，或者下载新的词频库覆盖原有的词频库等方式。

如果采用更为便捷的在线更新，尤其是用于实时在线更新，则图5所示的输入法系统还可以包括：词频库更新模块504，用于接收更新信息，对所述系统词频库进行更新.该模块用于主动发起更新请求，或者响应服务器的请求，完成数据通讯和版本更新.优选的，所述词频库更新模块504还可以用于仅仅请求更新词频信息变化的部分，从而降低通信中的数据传输量.

所述词频库的生成可以在另一服务器中完成或者在本地完成，总之，所述系统词频库的词频信息可以通过以下模块得到：网页获取模块，用于通过网络爬虫技术获取互联网的网页；分词处理模块，用于对网页信息进行中文分词处理；词频统计模块，用于对词条进行词频统计，并保存形成词频信息。

如果词频库的生成在所示输入法系统中完成，则图5所示的输入法系统，还可以包括：权重值赋予模块，对所述获取的网页分别赋予相应的权重值，所述权重值用以表示该网页在所有被分析网页词频统计中的重要性；所述词频统计模块对该网页的词条进行词频统计后，根据所述权重值进行修正，得到该网页的词频统计结果；其中，如果被统计网页的权重值低于预置值，则不统计该网页。

综上所述，使用本发明基于互联网信息的输入法词频库生成方法的技术方案，能够提高用户在计算机输入时首选词的命中率。例如“网游”和“财报”两个词，在其他常见主要输入法系统当中，这两个词的词频并不高，因此在候选词列表中排名很靠后，甚至由于词频过低而不出现在候选词列表中。而在对现在的用户而言，尤其是互联网用户，网游和财报都具有较高的关注度，是经常需要被输入的词汇。在本发明基于互联网信息的输入法词频库生成方法中，这两个词在候选词列表中具有很好的排名，能够满足使用者的需求。

在本发明完成后，对本发明的首选词的准确率进行了测试，并同时对比测试了其他一些常用的输入法系统(测试方法为：使用每种输入法系统输入1万个随机选择的句子，当然，这1万个句子对每种输入法系统都是相同的样本)，具体结果请见图6。在图6中，本发明的首选词准确率为63％，其他常用输入法系统的首选词准确率分别为49％、55％和41％。总之，从图6可以看出，本发明的技术效果还是非常明显的。

以上对本发明所提供的一种基于互联网信息的输入法词频库的生成方法、生成系统以及一种输入法系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种输入法词频库的生成方法，其特征在于，包括：

通过网络爬虫技术获取互联网的网页；

对所述获取的网页分别赋予相应的权重值，所述权重值用以表示该网页在所有被分析网页词频统计中的重要性；

对网页信息进行分词处理；

统计、计算得到被所述权重值修正后的词频统计结果，并保存形成互联网词频库。

2.如权利要求1所述的输入法词频库的生成方法，其特征在于，通过以下步骤得到词频统计结果的修正值：

对各网页的词条进行词频统计后，根据所述权重值进行修正，得到各网页词频统计结果的修正值。

3.如权利要求2所述的输入法词频库的生成方法，其特征在于，还包括：

如果被统计网页的权重值低于预置值，则不统计该网页；

如果被统计网页的权重值大于或者等于预置值，则对该网页的词条进行词频统计后，根据所述权重值进行修正，得到该网页的词频统计结果。

4.如权利要求1所述的输入法词频库的生成方法，其特征在于，还包括重复网页分析步骤：

如果达到预定的相似度，则赋予第二网页相应的权重值。

5.如权利要求4所述的输入法词频库的生成方法，其特征在于，所述特征值包括：正文标题用词、正文内容用词、段落数量、长度以及正文词的出现频率。

6.如权利要求1所述的输入法词频库的生成方法，其特征在于，还包括垃圾网页分析步骤：

预置域名规则库，如果被分析网页的域名符合预置规则，则赋予该网页相应的权重值；

如果被分析网页中同一关键字出现的次数大于或者等于预置值，则赋予该网页相应的权重值；

如果被分析网页的相关链接为循环链接，则赋予该网页相应的权重值。

7.如权利要求1所述的输入法词频库的生成方法，其特征在于，还包括黄色网页分析步骤：

预置关键词库，如果被分析网页中出现的词与所述关键词库中的词的匹配程度大于或者等于预置值，则赋予该网页相应的权重值。

8.如权利要求1所述的输入法词频库的生成方法，其特征在于，还包括：

根据网页形成的时间或者网页类型对所述获取的网页分别赋予相应的权重值。

9.如权利要求1或2所述的输入法词频库的生成方法，其特征在于，还包括：

利用网页描述语言中的标识符号，解析出网页中的正文标题部分和正文内容部分，并对正文标题部分和正文内容部分分别设定权重值，所述权重值用于评价词条在该部分出现时对该网页词频统计的影响。

10.如权利要求1或2所述的输入法词频库的生成方法，其特征在于，还包括：

输入法系统直接调用所述互联网词频库获取词频信息；

或者，在输入法系统中设置系统词频库，通过所述互联网词频库更新所述输入法系统中的系统词频库。

11.如权利要求10所述的输入法词频库的生成方法，其特征在于，所述输入法系统位于第一计算设备中；获取网页、分词处理以及词频统计步骤由第二计算设备完成；第一计算设备连接所述第二计算设备完成系统词频库的更新。

12.如权利要求10所述的输入法词频库的生成方法，其特征在于，所述输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中；获取网页、分词处理以及词频统计步骤由第二计算设备完成，并且系统词频库或者所述互联网词频库位于所述第二计算设备中，第一计算设备连接所述第二计算设备获取词频信息。

13.如权利要求10所述的输入法词频库的生成方法，其特征在于，所述更新的方式为：

当输入法系统更新时，同时更新所述系统词频库；

或者，由服务器主动推送的方式进行系统词频库的在线更新；

或者，由用户发起请求，服务器根据请求返回数据进行系统词频库的更新。

14.一种输入法词频库生成系统，其特征在于，包括：

网页获取模块，用于通过网络爬虫技术获取互联网的网页；

分词处理模块，用于对网页信息进行分词处理；

15.如权利要求14所述的词频库生成系统，其特征在于，所述词频统计模块通过以下方式得到词频统计结果的修正值：

所述词频统计模块对各网页的词条进行词频统计后，根据所述权重值进行修正，得到各网页词频统计结果的修正值；其中，如果被统计网页的权重值低于预置值，则不统计该网页。

16.如权利要求14所述的输入法词频库的生成系统，其特征在于，所述权重值赋予模块用于重复网页分析：

如果达到预定的相似度，则赋予第二网页相应的权重值。

17.如权利要求14所述的输入法词频库的生成系统，其特征在于，所述权重值赋予模块用于垃圾网页分析：

18.如权利要求14所述的输入法词频库的生成系统，其特征在于，所述权重值赋予模块用于黄色网页分析：

19.如权利要求14所述的输入法词频库生成系统，其特征在于：

所述权重值赋予模块用于根据网页形成的时间或者网页类型对所述获取的网页分别赋予相应的权重值。

20.如权利要求14所述的输入法词频库生成系统，其特征在于：

所述权重值赋予模块还用于：利用网页描述语言中的标识符号，解析出网页中的正文标题部分和正文内容部分，并对正文标题部分和正文内容部分分别设定权重值，所述权重值用于评价词条在该部分出现时对该网页词频统计的影响。

21.如权利要求14或15所述的输入法词频库生成系统，其特征在于，还包括：

网络通信模块，用于传送词频库信息，所述词频库信息用于更新用户输入法系统的词频信息。

22.如权利要求14或15所述的输入法词频库生成系统，其特征在于，还包括：

识别模块，用于识别接收的用户输入信息，并根据互联网词频库对识别结果进行排序，以及返回排序后的识别结果。

23.如权利要求22所述的输入法词频库生成系统，其特征在于，还包括：

输入信息接收模块，位于用户计算设备，用于接收用户输入的键盘信息；

显示模块，位于用户计算设备，用于根据所述排序后的识别结果显示相应字符。

24.一种输入法系统，其特征在于，包括：

输入接口模块，用于接收用户的输入信息；

25.如权利要求24所述的输入法系统，其特征在于，还包括：

词频库更新模块，用于接收更新信息，对所述系统词频库进行更新。