CN103106227A

CN103106227A - 一种基于网页文本的新词查找系统及方法

Info

Publication number: CN103106227A
Application number: CN2012102764839A
Authority: CN
Inventors: 杨青; 张爱琦; 崔世起
Original assignee: PEOPLE SEARCH NETWORK AG
Current assignee: PEOPLE SEARCH NETWORK AG
Priority date: 2012-08-03
Filing date: 2012-08-03
Publication date: 2013-05-15

Abstract

本发明公开了一种基于网页文本的新词查找系统及方法，包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块；其通过：A、选取网页文本的步骤；B、网页文本预处理的步骤；C、新词发现的实现步骤，包括进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并；D、实现新词过滤和剪枝策略的步骤，对生成的候选新词集合进行过滤，去除垃圾串。采用本发明，能够根据一段时间内词串出现频率的变化情况及词串的共现率，辅以过滤策略，不需构建语料库和特殊规则，即可简便易行地从网页文本中发现新词，以实现增量式新词发现。

Description

一种基于网页文本的新词查找系统及方法

技术领域

本发明涉及互联网信息处理领域，尤其涉及一种基于网页文本的新词查找系统及方法。

背景技术

随着互联网的飞速发展，网络信息的发布和传播越来越快，网络新词语也随之层出不穷。根据中国语言文字工作委员会的专家所做的统计，自改革开放以来20年内平均每年产生800多个新词语，而近年来，网络的发达早已使新词的产生速度远远超过这一数字。新词的产生导致进行互联网信息处理时，对词语的切分、理解和信息检索的能力大大下降。因此如何有效地从海量的网络文本中发现新词，是互联网信息处理领域的一项重要工作。本发明中所称的“新词”，不仅包含传统语言学上的词语，还包括互联网上最新出现的广为传颂的短语。

目前的新词发现方法主要有基于统计和基于规则两类方法。基于统计的方法，首先利用统计模型，根据词语的特征信息获取候选串，再利用词频等信息过滤垃圾串，该方法依赖于语料库的完善，并且倾向于识别较短或高频的新词，识别新短语及低频词的能力较差。基于规则的方法，一般是根据新词的语言构词特征或构词模式特点建立规则库、领域词典或模式库，然后通过模式匹配发现新词，该方法需要专业领域知识及语言学基础，可移植性和可扩展性较差、更新速度较慢。

新词常常是对新事物或新事件的概述，在构成方面没有普遍统一的规律，常常不符合汉字的构词规则，并且新词产生速度快，覆盖范围广，语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足快速、准确地发现新词的需求。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于网页文本的新词查找系统及方法，克服现有技术中基于统计的方法中对语料库的要求较高、容易产生垃圾串，且常常由于数据稀疏导致无法识别出低频新词的不足，以及克服基于规则的方法依赖规则获取的有效性和完备性，无法满足新词快速更新的需求的缺陷。

本发明的目的还在于利用该基于网页文本的新词查找系统及方法，根据一段时间内词串出现频率的变化情况及词串的共现率，辅以过滤策略，不需构建语料库和特殊规则，即可简便易行地从网页文本中发现新词，以实现增量式新词发现，且新词一经发现，立即加入分词词库中，确保新词不被重复发现。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于网页文本的新词查找系统，主要包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块；其中：

网页文本选取模块，用于根据设置的定时新词发现的时间，定期从网页文本集合中获取定时间隔的这一段时间内的网页文本，并按照时间对选取的网页文本集合进行划分；

网页文本预处理模块，用于解析出网页文本的时间信息并保存，定义小说、影视类专名识别规则，识别出文本中的专名信息，并对网页文本进行分词处理。保存每个n-gram串、相应的频次、专名信息及网页时间；

新词发现模块，用于根据网页文本的分词结果和专名信息，通过单页面串频统计和多页面串频统计两个阶段来统计起始时间一致的相同n-gram串的频次；并利用前次和本次定时间隔内相同词串的平均每个页面的词频，计算前后两个定时间隔内该词串出现频次的变化率，选取变化率大的词串作为候选新词；并根据n-gram串中单个词的频次和n-gram串的频次计算候选新词的共现率，筛选掉共现率较低的词串；归并候选新词集合中相近频次的父子串；

新词生成模块，对候选新词集合进行过滤和剪枝，去除候选新词集合中的垃圾串，得到最终的新词集合。

其中，所述新词查找系统的新词生成模块，将最终新词集合导入分词词库中，实现增量式新词发现。

一种基于网页文本的新词查找方法，该方法包括：

A、选取网页文本的步骤；按照时间对网页库进行划分，根据指定的时间段，选择前后连个时间段的网页文本；

B、网页文本预处理的步骤；按设定时间段分类提取每个网页文本的信息，同一时间段的网页文本的时间均置为该时间段的起始时间；解析网页文本，根据专名在文本中的常见特征信息，定义小说、影视类专名识别规则，识别出文本中的专名信息；再使用分词工具对网页文本进行切分；

C、新词发现的实现步骤，包括进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并；

D、实现新词过滤和剪枝策略的步骤，对生成的候选新词集合进行过滤，以去除垃圾串。

其中，步骤B所述使用分词工具对网页文本进行切分，根据数据串进行分词处理后成词的词数，将词串分类为2-gram、3-gram、…、n-gram；词串中的每个词称为token，则n-gram的格式为：[token-1][空格][token-2]…[token-n]；并为专名信息对应的n-gram串设置标志位。

步骤B所述使用分词工具对网页文本进行切分，采用分词的最大粒度结果，以保证词串中任意词的组合都不是已经存在的词。

步骤C所述进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并，具体为：

进行串频统计：分为单页面串频统计和多页面串频统计两个阶段，首先统计同一个页面中相同n-gram词串的频次，再将网页时间一致的多个页面中的相同词串的词频进行累加统计；此处相同词串是指去除网页文本中常见符号及实体引用后相同的n-gram串；在进行串频统计时，专名信息对应的n-gram串会按照类别进行不同程度的词频提权；其输出n-gram、对应的词频及网页时间，表示为<n-gram，tf(n-gram)，date(n-gram)>；其中1-gram的词是已存在的词，不需进入候选新词集合，但在计算词串共现率的步骤中需要使用，因此仍需统计词频并单独保存起来；数据结构采用stl的hash_map，实现快速地串频统计；

计算词串变化率：根据前后两个设定时间段相同词串的平均每个页面的词频，计算前后两个时间段内该词串频率的变化率，选取变化率大的词串为候选新词；

计算词串共现率：使用词串中所有词共同出现的概率来表示其组合成词的可能性，删除候选新词集合中共现率较低的词串；如果组成词串的所有词经常同时出现，且该组合在这些词的所有组合中出现的概率较高，则认为这个词串是一个新词；以及

进行父子串归并：根据n-gram串的定义，高阶gram串会包含低阶gram串，则称高阶gram串为父串，低阶gram串为子串；若两者的频次相同或相近，则舍弃子串，保留父串；遍历获取到的所有n-gram串，如果两个串存在父子包含关系，且两者的出现频率相同或相近，则从候选新词集合中删除子串。

步骤D所述实现新词过滤和剪枝策略，根据语言学构词规则统计和成词模式研究获得垃圾串过滤规则，主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见搭配词过滤规则及叠词模式过滤规则、2-2模式剪枝规则。

本发明所提供的基于网页文本的新词查找系统及方法，具有以下优点：

本发明使用词串频率变化率和词串共现率，辅以过滤策略的基于网页文本的新词发现方法，解决了基于统计方法中由于语料库导致的垃圾串多、低频新词无法识别的问题，及基于规则方法中依赖规则定义而不易扩展、更新较慢的问题。本发明适用于覆盖范围广、更新速度快的网页文本数据集，能够实现快速、准确的从网页文本中发现新词，适用于在分词词典扩充及热词挖掘等方面的应用。

附图说明

图1为本发明的基于网页文本的新词查找（发现）方法流程图；

图2为本发明的新词发现方法流程图；

图3为本发明的基于网页文本的新词查找（发现）系统示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的系统及方法作进一步详细的说明。

新词识别，通常分为基于字和基于词两种方法，一般来讲，基于字的新词识别方法以单个字为基本元素，能获取较高的召回率，而基于词的新词识别方法以每个词为基本元素，具有较高的准确率。由于网页文本中信息量较大，内容较杂，若采用基于字的新词识别方法会导致产生过多垃圾串，从而降低识别效率和准确率。因此本发明采用基于词的方法，即先利用分词工具对网页文本做分词处理，再进行新词的识别。

图1为本发明的基于网页文本的新词查找（发现）方法流程图，该新词发现方法基于图3所示的新词发现系统，所述信息发现系统主要包括四个功能模块，其分别负责执行图1所示的处理步骤。

如图3所示，该基于网页文本的新词查找系统的四个功能模块，分别是网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块。其中：

网页文本选取模块，用于根据设置的定时新词发现的时间，定期从网页文本集合中获取定时间隔的这一段时间内的网页文本，并按照时间对选取的网页文本集合进行划分，以周为单位。每次选取的文本集合要保证数据的可比性，包括网站来源、网页类型和数据规模等。

网页文本预处理模块，用于解析出网页文本的时间信息并保存，定义小说、影视类专名识别规则，识别出文本中的专名信息，并对网页文本进行分词处理。保存每个n-gram串、相应的频次、专名信息及网页时间。

新词发现模块，用于根据网页文本的分词结果和专名信息，通过单页面串频统计和多页面串频统计两个阶段来统计起始时间一致的相同n-gram串的频次；利用前一周和本周相同词串的平均每个页面的词频，计算前后两周内该词串出现频次的变化率，选取变化率比较明显的词串作为候选新词。根据n-gram串中单个词的频次和n-gram串的频次计算候选新词的共现率，并筛选掉共现率较低的词串；归并候选新词集合中相近频次的父子串。

新词生成模块：对候选新词集合进行过滤和剪枝，去除候选新词集合中的垃圾串，得到最终的新词集合。将最终新词集合导入分词词库中，实现增量式新词发现。

如图1所示，该基于网页文本的新词查找（发现）方法，主要包括如下步骤：

步骤101、选取网页文本的步骤；按照时间对网页库进行划分，如，可以以周为单位，根据指定的时间段，选择两周的网页文本。由于后续会计算串频的变化率，因此在选择每周的网页文本集合时要保证数据的可比性，包括网站来源、网页类型和数据规模等。

步骤102、网页文本预处理的步骤；首先按周分类提取每个网页文本的信息，同一周的网页文本的时间均置为该周的起始时间。解析网页文本，根据专名在文本中的常见特征信息，定义小说、影视类专名识别规则，识别出文本中的专名信息。

如，对于小说类专名，定义识别规则：

“(书|读|小说).{0,2}?(<<|\u300a)([^<>\u300a\u300b]{2,50}?)(>>|\u300b)”和“(<<|\u300a)([^<>\u300a\u300b]{2,50}?)(>>|\u300b).{0,2}?(书|小说)”。

再使用分词工具对网页文本进行切分，根据数据串进行分词处理后成词的词数，将词串分类为2-gram、3-gram、…、n-gram；词串中的每个词称为token，则n-gram的格式为：[token-1][空格][token-2]…[token-n]。为专名信息对应的n-gram串设置标志位，以便后续进行特殊处理。本发明采用分词的最大粒度结果，以保证词串中任意词的组合都不是已经存在的词。

步骤103、新词发现的具体实现步骤。如附图2所示，本发明中新词发现方法主要包括如下几个步骤：

步骤201、进行串频统计；分为单页面串频统计和多页面串频统计两个阶段，首先统计同一个页面中相同n-gram词串的频次，再将网页时间一致的多个页面中的相同词串的词频进行累加统计。此处相同词串是指去除网页文本中常见符号及实体引用后相同的n-gram串，如“ ”、“©”等。在进行串频统计时，专名信息对应的n-gram串会按照类别进行不同程度的词频提权。本阶段输出n-gram、对应的词频及网页时间，表示为<n-gram，tf(n-gram)，date(n-gram)>。其中1-gram的词是已存在的词，不需进入候选新词集合，但在计算词串共现率的步骤中需要使用，因此仍需统计词频并单独保存起来。数据结构采用stl的hash_map，实现快速地串频统计。

步骤202、计算词串变化率；根据前一周和本周相同词串的平均每个页面的词频，计算前后两周内该词串频率的变化率，选取变化率比较明显的词串为候选新词。利用时间信息提取出网页文本的候选新词，能够较准确的识别出迅速产生并流行的网络新词。

串频变化率计算公式如下：

其中，n-gram为候选新词串，avg_tf1(n-gram)指上周平均每个页面中n-gram串的词频，avg_tf2(n-gram)指本周平均每个页面中n-gram串的词频。

步骤203、计算词串共现率；使用词串中所有词共同出现的概率来表示其组合成词的可能性，删除候选新词集合中共现率较低的词串。基于假设：如果组成词串的所有词经常同时出现，且该组合在这些词的所有组合中出现的概率较高，则认为这个词串是一个新词。共现率根据每个词的词频和整个词串的词频计算得到，不是单纯使用词频阈值进行新词过滤，解决了基于统计的方法中由于数据稀疏导致的漏识别低频新词的问题。

词串共现率计算公式如下：

其中，n-gram为候选新词串， tf(n-gram)是n-gram串在多个时间相同的网页文本中的总频次，tf(token-k)是第k个词在所有网页文本中的总频次。

步骤204、进行父子串归并；根据n-gram串的定义，高阶gram串会包含低阶gram串，则称高阶gram串为父串，低阶gram串为子串。若两者的频次相同或相近，说明低阶gram串每次都是作为高阶gram串的子串出现，从未或很少单独出现，因此其无法单独作为新词，应舍弃子串，保留父串。遍历获取到的所有n-gram串，如果两个串存在父子包含关系，且两者的出现频率相同或相近，则从候选新词集合中删除子串。

具体实现如下：

步骤2041、遍历n-gram集合，假设当前n-gram的频次是n，则输出其每一个后缀，频次也置为n，但为其置上特殊位，标识其为衍生的n-gram。

步骤2042、按字典序排序包含衍生n-gram的新候选n-gram集合。

步骤2043、遍历排序后的n-gram集合，读取当前行，如果当前n-gram为衍生的n-gram，则从n-gram集合中删除当前词串，读取下一行词串，假设待处理的n-gram为s。

步骤2044、读取后续行对应的词串，直到第一个不是以s为前缀的n-gram结束；根据频次比值，判断以s为前缀的n-gram的频次是否与s相同或相近；如果存在频次相同或相近的父串，从初始n-gram集合中删除s，否则保留s。

步骤2045、转步骤2043处理s的下一行词串，直至处理完所有候选n-gram串。

步骤104、实现新词过滤和剪枝策略的步骤；该步骤对生成的候选新词集合进行过滤，以去除垃圾串。过滤和剪枝策略分为基本语言学构词规则策略和成词模式过滤策略。

根据语言学构词规则，定义了以下几种过滤规则：

(1) 字数过滤规则：由于新词一般都是概括性词语，因此字数不会过长，根据统计得知，新词一般均在10字以内。因此，本发明过滤掉过长的候选新词串。

(2) 纯数字字母串和日期过滤规则：一般不会出现单纯由数字和字母组成的新词或日期与汉字混合组成新词的情况，如“56kv”或“2012年1月1日”，因此将纯数字串或包含日期的词串过滤掉。本发明定义了识别数字、字母和日期的正则表达式进行过滤处理。

(3) 常见辅助词剪枝规则：有些常见辅助词，如“的”、“了”、“是”等，虽然出现频率较高，但是不应作为新词的词首或词尾。使用历史词和网页库数据，统计获得两个词库：词首过滤词库和词尾过滤词库。若当前词串的词首或词尾分别在这两个词库中，则过滤掉当前词串。

(4) 常见搭配词剪枝规则：有些常见搭配词，如“高清”、“全集”、“优酷”等，虽然经常与影视剧搭配使用，但是不应为新词的一部分，而将这些词去除后的串常常为新词。因此对包含这种类型词的串，判断删除该类词后的词串是否存在于候选新词集合中，若不存在，则将做删除操作后的词串添加到新词集合中。

词语模式是指词串中词的组成方式，如“1-1-1模式”是指词语由三个单字词组成、“2-1模式”是指词语由一个两字词和一个单字词组成。根据组成词语的模式分为如下几类剪枝规则：

（1）叠词剪枝：当词串为1-1…1-1模式时，由于共现率的计算方式，导致若词串包含多个相同单字词时，其共现率会较高，然而大部分情况下，由多个相同字重叠组成的串不应作为词语，因此过滤掉满足这种条件的1-1…1-1模式串。

（2）四字词的2-2模式剪枝：当4字词由两个二字词组成，且其中一个二字词为人称代词，如“我们”、“你们”等，应舍弃该词串。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于网页文本的新词查找系统，其特征在于，主要包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块；其中：

网页文本预处理模块，用于解析出网页文本的时间信息并保存，定义小说、影视类专名识别规则，识别出文本中的专名信息，并对网页文本进行分词处理。

2.保存每个n-gram串、相应的频次、专名信息及网页时间；

3.根据权利要求1所述的基于网页文本的新词查找系统，其特征在于，所述新词查找系统的新词生成模块，将最终新词集合导入分词词库中，实现增量式新词发现。

4.一种基于网页文本的新词查找方法，其特征在于，该方法包括：

5.根据权利要求3所述的基于网页文本的新词查找方法，其特征在于，步骤B所述使用分词工具对网页文本进行切分，根据数据串进行分词处理后成词的词数，将词串分类为2-gram、3-gram、…、n-gram；词串中的每个词称为token，则n-gram的格式为：[token-1][空格][token-2]…[token-n]；并为专名信息对应的n-gram串设置标志位。

6.根据权利要求3所述的基于网页文本的新词查找方法，其特征在于，步骤B所述使用分词工具对网页文本进行切分，采用分词的最大粒度结果，以保证词串中任意词的组合都不是已经存在的词。

7.根据权利要求3所述的基于网页文本的新词查找方法，其特征在于，步骤C所述进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并，具体为：

8.根据权利要求3所述的基于网页文本的新词查找方法，其特征在于，步骤D所述实现新词过滤和剪枝策略，根据语言学构词规则统计和成词模式研究获得垃圾串过滤规则，主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见搭配词过滤规则及叠词模式过滤规则、2-2模式剪枝规则。