CN101706807A

CN101706807A - 一种中文网页新词自动获取方法

Info

Publication number: CN101706807A
Application number: CN200910237979A
Authority: CN
Inventors: 孙立远; 袁睿翕; 卞小丁
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-11-27
Filing date: 2009-11-27
Publication date: 2010-05-12
Anticipated expiration: 2029-11-27
Also published as: CN101706807B

Abstract

本发明涉及中文网页新词自动获取的方法，属于互联网数据挖掘技术领域；该方法包括：从Internet采集不同类型的网页，解析出含有时间信息的网页正文文本，并进行预处理，对得到句子片段进行n-gram分词产生词串并统计词频，连同词串的时间信息一并存入原始数据库；根据词频阈值对原始数据库中的词串进行过滤，词频大于等于词频阈值的词串保留；对保留的词串做相邻串比较和父子串比较后进行再过滤，删除与停用词数据库中相同的词串，对得到初选新词串的时间信息进行时序分析，得到新词；还可再包括将由人工标记得到的过滤词串添加到过滤词数据库中。该方法扩大了获取新词的范围，中文分词方法简便易行，处理效率高，并提高了新词发现的准确率和科学性。

Description

一种中文网页新词自动获取方法

技术领域

本发明属于互联网数据挖掘技术领域，特别是涉及一种获取新词的方法。

背景技术

随着计算机网络技术的快速发展和推广，网络数据急剧膨胀，这些数据具有更新速度快、数据量庞大、数据组织形式不规范等特点，但也蕴藏着极多的有价值信息。另外由于人们相互交流需求的增加，网络成为信息发布、传播的平台。由此产生的一些网络用语、热门词汇，被广泛的运用到了实际生活中，影响着人们的生活，一些新词逐渐被人们所接受，扩充了汉语词汇。这些新出现的词汇呈现出产生速度快、覆盖领域广的特点，往往散落在海量的网络文本中，靠人工去查看和检索是不可想象的，因此亟需一个可以检测网络数据并自动发现新词的方法。

为了能够获取新词，现有技术提供了如下的三种方法：

第一种方法，获取搜索引擎的查询关键词或聊天数据，统计候选新词的频率信息，并结合基于候选新词上下文规则的分析，从候选新词中获取新词；

第二种方法，利用搜索引擎对候选新词进行精确搜索和模糊搜索，获取搜索结果，根据结果从候选新词中获取新词；

第三种方法，将候选新词与已有词典中的词进行比较，确定词典中不存在的候选新词为新词。

但是，现有技术至少存在以下问题：

第一种方法：搜索引擎的查询关键词和聊天记录这样的用户数据并不容易获取，而且使用不当还会有泄露用户隐私的问题；

第二种方法：在搜索引擎中对每一个候选新词进行搜索，算法效率低，适用性差；

第三种方法：存在时效性低以及新词查找范围不全的缺陷。

另外，由于中文自身的特点，词与词之间没有明确的边界，识别中文新词更加困难。目前获取中文新词的方法，都以中文文本的自动分词为基础，大多采用概率词法分析系统ICTCLAS或是类似的基于词典查找的方法切分中文文本内容得到词。

但是这种基于词典查找的方法创建和维护词典困难，对于要识别的新词没有处理能力。

综上所述，上述各种方法均存在新词获取方法效率低、实时性不足、新词查找范围不全或对中文支持性差的缺陷。

发明内容

本发明的目的在于克服已有技术的不足之处，提供一种中文网页新词自动获取的方法，该方法扩大了获取新词的范围，中文分词方法简便易行，处理效率高，并提高了新词发现的准确率和科学性。

为实现上述目的，本发明提供了一种中文网页新词自动获取的方法，其特征在于，首先设置原始数据库和停用词数据库；所述原始数据库初始设为空，用于存放本新词获取方法处理过程中产生的数据；所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词，以及要删除的已用词；设置新词获取周期；

该方法包括以下步骤：

1)当新词获取周期到来时，从Internet采集不同类型的网页，解析出含有时间信息的网页正文文本，并对该正文文本进行预处理得到句子片段；

2)对预处理后的句子片段进行n-gram分词产生词串并统计词频，连同词串的时间信息一并存入原始数据库；

3)根据预先设定的词频阈值对原始数据库中的词串进行过滤，词频大于等于词频阈值的词串保留，否则从原始数据库中删除；词频阈值的取值范围为1-10；

4)对步骤3)保留的词串做相邻串比较和父子串比较后进行再过滤，最后删除与停用词数据库中相同的词串，得到初选新词串；

5)对初选新词串的时间信息进行时序分析，得到新词，并等待下一新词获取周期到来时，转步骤1)；具体包括以下步骤：

51)设定：时序分析的开始日期s，基本时间单位g，基本时间单位数目n，时序分析阈值δ；基本时间单位g取值范围为1-15天，基本时间单位数目n取值范围为5-30个，时序分析阈值δ取值范围为0-30；

52)读出日期s的所有初选新词串，构成词串集合C；对C中每个词串t，查看其在从s开始，g*n天内的词频，得到g*n矩阵的词频数据，对该词频数据每g个为一组进行聚合得到1*n的矩阵词频数据a₁，a₂，...，a_n；

53)设评价函数f(a_i+1，a_i)：

f (a_{i + 1}, a_{i}) = \{\begin{matrix} 1, & if a_{i + 1} > a_{i} \\ 0, & if a_{i + 1} = a_{i} \\ - 1, & if a_{i + 1} < a_{i} \end{matrix}

54)计算n个评价函数总和S的值：

如果S＞δ即判定该初选新词串为新词，否则将该该初选新词串删除，等待下一新词获取周期到来时，转步骤1)。

为进一步提高新词获取的准确率，本发明基于上述方法还提出另一种中文网页新词自动获取的方法，其特征在于，首先设置原始数据库、停用词数据库和过滤词数据库；所述原始数据库和过滤词数据库初始设为空，用于存放本新词获取方法处理过程中产生的数据；所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词，以及要删除的已用词；所述过滤词数据库用于存放在获取过程中标识出要删除的词；设置新词获取周期；

该方法包括以下步骤：

4)对步骤3)保留的词串做相邻串比较和父子串比较后进行再过滤，最后删除与停用词数据库和当前过滤词数据库中相同的词串，得到初选新词串；

5)对初选新词串的时间信息进行时序分析，得到候选新词串；具体包括以下步骤：

53)设评价函数f(a_i+1，a_i)：

f (a_{i + 1}, a_{i}) = \{\begin{matrix} 1, & if a_{i + 1} > a_{i} \\ 0, & if a_{i + 1} = a_{i} \\ - 1, & if a_{i + 1} < a_{i} \end{matrix}

54)计算n个评价函数总和S的值：

如果S＞δ即判定该初选新词串为候选新词串，否则将该该初选新词串删除；，

6)对步骤5)得到的候选新词串再由人工标记为新词或过滤词串，将过滤词串添加到步骤4)的过滤词数据库中，等待下一新词获取周期到来时，转步骤1)。

本发明的中文网页新词自动获取方法与现有的技术相比，具有以下优点：

1、利用易在互联网上获得的不同类型WEB数据寻找新词。

互联网已经渗透到人们日常生活的方方面面，各种网络应用方式如新闻网站、BBS、博客等逐渐成为信息发布、传播的新渠道。这些网络数据中包含大量的新词。

本发明中，使用网络渠道获取大规模中文文本，进行新词的自动获取工作，与从语料库中寻找新词相比具有实时性。获取的是已公布在网络上的新闻网站、BBS和博客的网页，因此不会涉及个人隐私的问题。另外，对BBS和博客网页的获取也扩充了单一新闻网页的获取，扩大了获取新词的范围。

2、采用n-gram方法中文分词。

相比基于词典查找的中文分词方法，n-gram方法简便易行，处理效率高，且不会遗漏任何可能的词，另外也没有创建和维护词典的麻烦。

3、根据汉语语言规则设置停用词数据库来过滤词串，提高过滤的准确率；

4、引入时间序列分析方法

新词的一种定义中认为，被普遍的认可、广泛应用的才是新词。满足这一特征的直接表现就是该词持续了一段时间，词频随时间而变化，是时间的函数。

本发明中引入时间序列分析方法来考察候选新词是否满足广泛应用性。通过对词频变化趋势的分析，获得了更多信息，进一步提高新词发现的准确率和科学性。

5、实现增量学习

停用词数据库可以不断更新添加，使整个新词获取方法成为一个动态积累的过程，使准确率逐步提高。

本发明还可设置过滤词数据库，每次词串过滤的结果用于更新过滤词数据库，形成了反馈，实现增量学习，进一步提高新词获取的准确率。

附图说明

图1为本发明提出的一种中文网页新词自动获取的方法流程图。

图2为本发明提出的另一种中文网页新词自动获取的方法流程图。

具体实施方式

本发明提出的一种中文网页新词自动获取方法，结合附图及实施例详细描述如下：

本发明提出的一种中文网页新词自动获取的方法，首先设置原始数据库和停用词数据库；所述原始数据库初始设为空，用于存放本新词获取方法处理过程中产生的数据；所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词(还可根据需要随时更改)，以及要删除的已用词；设置新词获取周期(周期的长短可以根据实际应用需要而定，若想获得近期内的新词则可设置周期短，否则可设置周期长一些，还可根据具体具体情况作适当调整；一般设为1-30天)，

该方法内容如图1所示，包括以下步骤：

1)当新词获取周期到来时，从Internet采集不同类型的网页，解析出含有时间信息的网页正文文本，并对该正文文本进行预处理得到句子片段；具体包括以下步骤：

11)通过共享的网页爬虫程序或RSS获取软件采集不同类型的网页(例如利用一个共享的网页爬虫程序采集指定新闻网站和BBS的网页，利用一个共享的RSS获取软件采集指定的博客网页)；

12)利用常用的网页解析软件从网页中提取正文的内容和正文的时间信息，获得网页上的中文文本，然后(利用共享的文件存储软件Lemur)将该中文文本存入硬盘；

上述网页的采集和解析也可以利用其他的软件，只要该软件能完成采集网页和解析网页的任务就可以。

13)对该中文文本进行预处理，去除网页标签、替换标识符、切分文本和去除非中文字符(因为获得的网页正文内容往往还包含未清除干净的网页标签、标识符等影响新词识别的字符，所以要进行文本的预处理)；具体包括：

131)扫描整个文本，将找到的所有网页标签(一般为成对出现的尖括号)及其中的内容从文本中去除。

132)扫描步骤131)得到的文本，将找到的网页标识符替换成相应的字符(网页中常使用的标识符包括”&nbsp”、”&#36”、”&amp”和”&quot”，分别用空格、”$”、”&”和双引号替换；其他的网页标识符也可作相应符号替换)；

133)利用文本中的标点符号或回车换行符作为切分文本的标志，把步骤132)处理后的文本切分为句子片段；

134)对切分后的每个句子片段进行扫描，保留在汉字编码范围内的字符，删除其他的字符(字符显示都是按照一定的编码方式，网页中采用较多的是unicode编码.又因为网页中的字符显示较为杂乱，一些不可能是新词的特殊字符会影响新词识别的效果，汉字在unicode中的编码范围是\u4e00-\u9fa5).

2)对预处理后的句子片段进行n-gram分词产生词串并统计词频(即相同词串出现的次数)，连同词串的时间信息一并存入原始数据库；具体包括以下步骤：

21)利用n-gram方法对预处理后的每个句子片段进行划分，顺次将临近的n个汉字聚集在一起形成一个词串(比如一句话”我爱中国”，n取为2时，可以得到如下三个词串：”我爱”、”爱中”、”中国”，n可以取1、2和3，或根据需要取值，一般不超过4)；

22)扫描n-gram分词得到的所有词串，统计每个词串出现的次数，记为词串的词频(例如在n-gram分词产生词串中出现词串”中国”的次数)；

23)将划分出的所有词串、统计的词频，以及步骤12)提取出来的正文的时间信息一起存入原始数据库；本实施例的原始数据库中设有两个表，一个是文档索引表，存放文档信息，另一个表是词串表，按文档存放词串和词频。原始数据库的表结构如下：

文档索引表的结构：

字段名称	字段说明
字段名称	字段说明	TextId	主键，自动递增
URL	网页的URL地址	TextId	主键，自动递增
URL	网页的URL地址	Pubdata	源html的日期
Content	解析出的网页正文内容	Pubdata	源html的日期
Content	解析出的网页正文内容	Type	网页类型，分为新闻网页、BBS和博客

词串表的结构：

字段名称	字段说明
字段名称	字段说明	Word	n-gram方法划分出的词串
Frequency	该词出现的频率	Word	n-gram方法划分出的词串
Frequency	该词出现的频率	Articles	出现该词的文章，对应上表的TextId

3)根据预先设定的词频阈值对原始数据库中的词串进行过滤，词频大于等于词频阈值的词串保留，否则从原始数据库(词串表)中删除；词频阈值可以根据情况调整，一般取值范围为1-10，在实施例中，可设定的词频阈值是1；

具体包括以下步骤：定义：连续的n-1个字或字符相等的，并且词长为n的两个词串称为相邻串(即第一个词串的首(尾)字与第二个词条的首(尾)字不同，其余字全部相同，如词串”我爱”与”爱中”是相邻串，“我爱中华人民共和”与“爱中华人民共和国”是相邻串)，

如果较长的词串中包含另一个较短的词串，则把较长的词串称作父串，较短的词串称作子串(子串是由父串中连续若干个字符组成的，子串是相对父串而言的，如”爱中”是”爱中国”的子串)；

41)如果两个相邻串的词频相同，则两个词都被删除，如果其中一个词串的词频高于另一个，则删除词频低的词串，保留词频高的词串；

42)扫描步骤41)保留的词串，比较每对子串和父串的词频，如果两者的词频完全相同，则删除子串，保留父串；

43)将步骤42)保留的词串用停用词数据库中的词串进行过滤，得到初选新词串；

(停用词数据库的停用词是根据汉语语言规则确定的字，在词串特定位置出现时一定不会构成一个有意义的词，停用词分为前停词、后停词和广义停词。前停词一般出现在词尾，很少出现在词首，如“儿、子、然、于、边、么、们、乎”。后停词典与前停词相反，很少出现在词尾，如“老、阿”。广义停词可以根据需要设定为已有的词或是预设定的要删除的词，如通用词典或专业词典中的词。这些前停词、后停词和广义停词构成了停用词数据库；过滤的方法是；若词串的第一个字为前停词，则删除该词串。若词串的最后一个字为后停词，则删除该词串。如果一个词串是广义停词，则删除该词串)

本实施例的停用词数据库的表结构：

字段名称	字段说明
字段名称	字段说明	StopWord	停用词
Type	该停用词的类型：前停词、后停词或广义停词	StopWord	停用词

5)对初选新词串的时间信息进行时序分析，得到新词；具体包括以下步骤：

51)设定：时序分析的开始日期s，基本时间单位g，基本时间单位数目n，时序分析阈值δ。基本时间单位g一般取值范围为1-15天，基本时间单位数目n一般取值范围为5-30个，时序分析阈值δ一般取值范围为0-30。(本实施例中g设为2天，n设为10个，δ设为5)。

52)读出日期s的所有初选新词串，构成词串集合C；对C中每个词串t，查看其在从s开始，g*n天内的词频，得到g*n矩阵的词频数据，对该词频数据每g个为一组进行聚合(本实施例中采用求算术平均值的方法)得到1*n的矩阵词频数据a₁，a₂，...，a_n；

53)设评价函数f(a_i+1，a_i)：本实施例中设置的评价函数如下：

f (a_{i + 1}, a_{i}) = \{\begin{matrix} 1, & if a_{i + 1} > a_{i} \\ 0, & if a_{i + 1} = a_{i} \\ - 1, & if a_{i + 1} < a_{i} \end{matrix}

54)计算n个评价函数总和S的值：

如果S＞δ即判定该初选新词串为新词，否则将该该初选新词串删除。

本发明还提出另一种方法，该方法在上述方法的基础上还可包括以下内容：

设置过滤词数据库初始为空；

在所述步骤4)中还包括若词串与当前过滤词数据库中的词相同，则删除该词串

6)对步骤5)得到的新词串再由人工标记分为新词和过滤词串，将过滤词串添加到步骤4)的过滤词数据库。(过滤词数据库存放的是本方法每次运行经过人机交互后确定的要过滤的词串。这些词串不是新词，又很难被机器识别。过滤词数据库可以增量添加，可进一步提高获取新词的精度。)

在实施例中过滤词数据库的表结构为：

字段名称	字段说明
字段名称	字段说明	FilterWord	要过滤的词串
Time	添加到过滤词数据库中的时间	FilterWord	要过滤的词串

Claims

1.一种中文网页新词自动获取的方法，其特征在于，首先设置原始数据库和停用词数据库；所述原始数据库初始设为空，用于存放本新词获取方法处理过程中产生的数据；所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词，以及要删除的已用词；设置新词获取周期；

该方法包括以下步骤：

52)读出日期s的所有初选新词串，构成词串集合C；对C中每个词串t，查看其在从s开始，g*n天内的词频，得到g*n矩阵的词频数据，对该词频数据每g个为一组进行聚合得到l*n的矩阵词频数据a₁，a₂，...，a_n；

53)设评价函数f(a_i+1，a_i)：

f (a_{i + 1}, a_{i}) = \{\begin{matrix} 1, & if & a_{i + 1} > a_{i} \\ 0, & if & a_{i + 1} = a_{i} \\ - 1, & if & a_{i + 1} < a_{i} \end{matrix}

54)计算n个评价函数总和S的值：

如果S＞δ即判定该初选新词串为新词，否则将该初选新词串删除，等待下一新词获取周期到来时，转步骤1)。

2.一种中文网页新词自动获取的方法，其特征在于，首先设置原始数据库、停用词数据库和过滤词数据库；所述原始数据库和过滤词数据库初始设为空，用于存放本新词获取方法处理过程中产生的数据；所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词，以及要删除的已用词；所述过滤词数据库用于存放在获取过程中标识出的要删除的词；设置新词获取周期；

该方法包括以下步骤：

53)设评价函数f(a_i+1，a_i)：

f (a_{i + 1}, a_{i}) = \{\begin{matrix} 1, & if & a_{i + 1} > a_{i} \\ 0, & if & a_{i + 1} = a_{i} \\ - 1, & if & a_{i + 1} < a_{i} \end{matrix}

54)计算n个评价函数总和S的值：如果S＞δ即判定该初选新词串为候选新词串，否则将该该初选新词串删除；，

3.如权利要求1或2所述方法，其特征在于，所述步骤1)具体包括以下步骤：

11)通过共享的网页爬虫程序或RSS获取软件采集不同类型的网页；

12)利用常用的网页解析软件从网页中提取正文的内容和正文的时间信息，获得网页上的中文文本，然后将该中文文本存入硬盘；

13)对该中文文本进行预处理，去除网页标签、替换标识符、切分文本和去除非中文字符。

4.如权利要求3所述方法，其特征在于，所述步骤31)具体包括：

131)扫描整个文本，将找到的所有网页标签及其中的内容从文本中去除；

132)扫描步骤131)得到的文本，将找到的网页标识符替换成相应的字符；

134)对切分后的每个句子片段进行扫描，保留在汉字编码范围内的字符，删除其他的字符。

5.如权利要求1或2所述方法，其特征在于，所述步骤2)具体包括以下步骤：

21)利用n-gram方法对预处理后的每个句子片段进行划分，顺次将临近的n个汉字聚集在一起形成一个词串，n为1-4的整数；

22)扫描n-gram分词得到的所有词串，统计每个词串的词频；

23)将划分出的所有词串、统计的词频，以及步骤12)提取出来的正文的时间信息一起存入原始数据库；所述原始数据库中设有存放文档信息的文档索引表和存放词串和词频的词串表.

6.如权利要求1或2所述方法，其特征在于，所述步骤4)具体包括以下步骤：定义：连续的n-1个字或字符相等的，并且词长为n的两个词串称为相邻串，

如果较长的词串中包含另一个较短的词串，则把较长的词串称作父串，较短的词串称作子串；

41)如果两个相邻串的词频相同，则这两个词串都被删除，如果其中一个词串的词频高于另一个，则删除词频低的词串，保留词频高的词串；

43)将步骤42)保留的词串用停用词数据库中的词串进行过滤，得到初选新词串；所述停用词数据库的停用词包括前停词、后停词和广义停词；过滤的方法是；若词串的第一个字为前停词，则删除该词串。若词串的最后一个字为后停词，则删除该词串。如果一个词串是广义停词，则删除该词串。