CN102831194A

CN102831194A - 一种基于查询日志的新词自动查找系统和方法

Info

Publication number: CN102831194A
Application number: CN2012102749010A
Authority: CN
Inventors: 张爱琦; 崔世起; 杨青
Original assignee: PEOPLE SEARCH NETWORK AG
Current assignee: PEOPLE SEARCH NETWORK AG
Priority date: 2012-08-03
Filing date: 2012-08-03
Publication date: 2012-12-19

Abstract

本发明公开了一种基于查询日志的新词自动查找系统及方法，主要包括：查询日志预处理模块，用于根据设置的定时新词发现的时间，定期从查询日志中获取定时间隔的这一段时间内的查询串及查询频次等；新词发现模块，根据所述查询串的分词结果，统计相同n-gram串的频次；计算n-gram词串的共现率；归并候选新词集合中相近频次的父子串；新词生成模块，对候选新词集合应用过滤和剪枝策略，去除候选新词集合中的垃圾串，得到最终的新词集合。采用本发明，解决现有统计方法的语料库难获取和规则方法的不易扩展等问题，通过使用词串共现率，辅以过滤策略，能够简便易行地从查询日志中自动发现新词，将最终新词集合导入分词词库中，从而实现增量式新词发现。

Description

一种基于查询日志的新词自动查找系统和方法

技术领域

本发明涉及互联网信息处理领域，特别涉及一种基于查询日志的新词自动查找系统和方法。

背景技术

随着互联网的飞速发展，网络信息的发布和传播越来越快，网络新词也随之层出不穷。根据中国语言文字工作委员会的专家所做的统计，自改革开放以来20年内平均每年产生800多个新词语，而近年来，网络的发达早已使新词的产生速度远远超过这一数字。新词的产生导致进行互联网信息处理时，对词语的切分、理解和信息检索的能力大大下降。因此如何有效地发现新词，是互联网信息处理领域的一项重要工作。因此，这里所称的“新词”，不仅包含传统语言学上的词语，还包括互联网上最新出现的广为传颂的短语。

目前的新词发现方法主要有基于统计和基于规则两种方法。基于统计的方法，首先利用统计模型，根据词语的特征信息获取候选串，再利用词频等信息过滤垃圾串，该方法依赖于语料库的完善，并且倾向于识别较短或高频的新词，识别新短语及低频词的能力较差。基于规则的方法，一般是根据新词的语言构词特征或构词模式特点建立规则库、领域词典或模式库，然后通过模式匹配发现新词，该方法需要专业领域知识及语言学基础，可移植性和可扩展性较差，更新速度较慢。

新词常常是对新事物或新事件的概述，在构成方面没有普遍统一的规律，常常不符合汉字的构词规则，并且新词产生速度快，覆盖范围广，语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足当前快速、准确发现新词的需求。

但是现有技术采用基于统计的方法，对语料库的要求较高，容易产生垃圾串，且常常由于数据稀疏导致无法识别出低频新词；而基于规则的方法又依赖规则获取的有效性和完备性，无法满足新词快速更新的需求。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于查询日志的新词自动查找系统和方法，以解决现有统计方法的语料库难获取和规则方法的不易扩展等问题，通过使用词串共现率，辅以过滤策略，该新词自动查找系统和方法不需要构建语料库和特殊规则，能够简便易行地从查询日志中自动发现新词。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于查询日志的新词自动查找系统，主要包括查询日志预处理模块、新词发现模块和新词生成模块；其中：

查询日志预处理模块，用于根据设置的定时新词发现的时间，定期的从查询日志中获取定时间隔的这一段时间内的查询串及查询频次，并对查询串进行分词处理，保存每个n-gram串及相应的频次；

新词发现模块，根据所述查询串的分词结果，统计相同n-gram串的频次；根据单个词的频次和n-gram串的频次计算n-gram词串的共现率，并选取共现率较高的词串作为候选新词集合；归并候选新词集合中相近频次的父子串；

新词生成模块，对候选新词集合应用过滤和剪枝策略，去除候选新词集合中的垃圾串，得到最终的新词集合。将最终新词集合导入分词词库中，从而实现增量式新词发现。

其中：所述过滤和剪枝策略包括基本语言学构词规则策略和成词模式过滤策略。

所述基本语言学构词规则策略，包括字数过滤规则，纯数字字母串和日期过滤规则，常见辅助词过滤规则和常见查询搭配词过滤规则。

所述成词模式过滤策略，包括叠词模式过滤和四字词的2-2模式剪枝。

一种基于查询日志的新词自动查找方法，该方法包括：

A、查询串的分词处理步骤：选取一段时间的查询日志，使用查询串及查询频次，删除该查询日志中的其他信息，并使用分词工具对查询串进行切分；

B、新词发现的实现步骤，包括词串频率的统计、词串共现率计算以及父子串归并；

C、新词过滤的步骤，包括对生成的候选新词集合进行过滤，去除垃圾串。

其中：步骤A所述使用分词工具对查询串进行切分，对于一个查询串，分词切分时会返回多个粒度的结果；采用分词的最大粒度结果，以保证词串中任意词的组合均不为已经存在的词。

步骤A进一步包括：按照传统语言学概念，将词语根据成词字数分为单元词、二元词、三元词、四元词和多元词，并通过扩展该语言学概念，根据数据串进行分词处理后成词的词数，将所述词串分为2-gram、3-gram、…、n-gram；词串中的每个词称为token，则n-gram的格式为：[token-1][空格][token-2]…[token-n]。

其中：词串频率统计，具体为：统计1-gram、2-gram、3-gram、4-gram和5-gram的词串的频次，并将相同词串的词频进行累加，输出为n-gram及其词频，表示为<n-gram，tf(n-gram)>；其中，1-gram的词是已存在的词，不需进入候选新词集合，但在计算词串共现率时需要使用，因此仍需统计该类词串的词频并单独保存起来；

词串共现率计算，具体为：使用词串中所有词共同出现的概率来表示其组合成词的可能性，选取共现率较高的词串作为候选新词集合；所述共现率根据每个词的词频和整个词串的词频计算得到，以解决基于统计的方法中单纯根据单个词的词频筛选时，由于数据稀疏而导致的漏识别低频新词的问题；

父子串归并，具体为：遍历获取到的所有n-gram串，如果两个词串存在父子包含关系，且两者的查询频率相同或相近，则从候选新词集合中删除子串。

步骤C所述新词过滤策略，具体为：根据语言学构词规则统计及成词模式研究获得垃圾串过滤规则，主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见查询词过滤枝规则及叠词模式过滤规则、2-2模式剪枝规则。

本发明所提供的基于查询日志的新词自动查找系统和方法，具有以下优点：

该发明使用词串共现率，辅以过滤策略的基于查询日志的新词发现方法，解决了基于统计方法中由于语料库导致的垃圾串多、低频新词无法识别的问题，及基于规则方法中依赖规则定义而不易扩展的问题。本发明还采用了增量式的新词发现技术，新词一经发现，可立即加入分词词库中，能够确保新词不被重复发现。本发明的新词自动查找系统和方法，应用于任意技术领域的查询日志样本数据集中，尤其适用于分词词典扩充及热词挖掘等方面的应用。

附图说明

图1为本发明提供的基于查询日志的新词自动查找方法流程图；

图2为本发明所述的新词发现过程示意图；

图3为本发明提供的基于查询日志的新词自动查找系统示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

本发明的基本思想是：针对统计方法的语料库难获取和规则方法的不易扩展等问题，提出本发明的使用词串共现率，辅以过滤策略的基于查询日志的新词自动发现系统和方法。其目的在于，达到不需构建语料库和特殊规则，能够简便易行地从查询日志中自动发现新词。本发明还实现了增量式新词发现，新词一经发现，可立即加入分词词库中，确保新词不被重复发现。其适用于分词词典扩充及热词挖掘等各方面应用。

新词识别技术，通常分为基于字和基于词两种。一般来说，基于字的新词识别方法以单个字为基本元素，能获取较高的召回率，而基于词的新词识别方法以每个词为基本元素，具有较高的准确率。随着样本集的增大，两者的差距呈先大后小的趋势，当样本集较为巨大时，差距可以忽略不计。然而，样本数据集毕竟有限，因此本发明采用基于词的方法，即先利用分词工具对查询串做分词处理，再进行新词的识别。

图3为本发明提供的基于查询日志的新词自动查找系统示意图，如图3所示，该基于查询日志的新词查找系统主要包括查询日志预处理模块301、新词发现模块302和新词生成模块303。其中：

所述查询日志预处理模块301，用于根据设置的定时新词发现的时间，定期的从查询日志中获取定时间隔的这一段时间内的查询串及查询频次，并对查询串进行分词处理，保存每个n-gram串及相应的频次。

新词发现模块302，根据所述查询串的分词结果，统计相同n-gram串的频次；根据单个词的频次和n-gram串的频次计算n-gram词串的共现率，并选取共现率较高的词串作为候选新词集合；归并候选新词集合中相近频次的父子串。

新词生成模块303，对候选新词集合进行过滤和剪枝，去除候选新词集合中的垃圾串，得到最终的新词集合。将最终新词集合导入分词词库中，实现增量式新词发现。

基于某搜索引擎的查询日志集合，结合附图3所示的查询日志预处理模块301、新词发现模块302和新词生成模块303，对本发明的新词自动查找/发现方法作进一步的详细说明。

图1为本发明提供的基于查询日志的新词自动发现方法流程图，如图1所示，该方法包括如下步骤：

步骤101：查询串的分词处理步骤。首先根据设置的定时新词发现的时间，定期的从查询日志中获取定时间隔的这一段时间内的查询串及查询频次。使用分词工具对查询串进行切分，对于一个查询串，分词切分时会返回多个粒度的结果，本发明采用分词的最大粒度结果，从而保证词串中任意词的组合都不是已经存在的词。按照传统语言学概念，词语根据成词字数分为单元词、二元词、三元词、四元词和多元词等。本发明扩展了该概念，根据数据串进行分词处理后成词的词数，将词串分为2-gram、3-gram、…、n-gram。词串中的每个词称为token，则n-gram的格式为：[token-1][空格][token-2]…[token-n]。

步骤102：新词发现的具体实现步骤。如附图2所示，所述新词发现的具体实现过程，主要包括步骤201～步骤203。

步骤201：串频统计的步骤。虽然从查询日志中获取的查询串是唯一的，但是其切分后的n-gram子串却会有所重复。串频统计阶段，先统计1-gram、2-gram、3-gram、4-gram和5-gram的词串的频次，并将相同词串的词频进行累加，输出为n-gram及其词频，表示为<n-gram，tf(n-gram)>。其中1-gram的词是已存在的词，不需进入候选新词集合，但在计算词串共现率时需要使用，因此仍需统计该类词串的词频并单独保存起来。其数据结构采用stl的hash_map，实现快速地串频统计。

步骤202：词串共现率计算的步骤；使用词串中所有词共同出现的概率来表示其组合成词的可能性，选取共现率较高的词串作为候选新词集合。

基于假设：如果组成词串的所有词经常同时出现，且该组合在这些词的所有组合中出现的概率较高，则认为这个词串是一个新词。共现率根据每个词的词频和整个词串的词频计算得到，不是单纯使用词频阈值进行新词过滤，解决了基于统计的方法中由于数据稀疏导致的漏识别低频新词的问题。

所述词串共现率计算公式如下：

其中，n-gram为候选新词串，tf(n-gram)是n-gram串在查询日志中的查询频次，tf(token-k)是第k个词在查询日志中的查询频次。

步骤203：父子串归并的步骤。根据n-gram串的定义，高阶gram串会包含低阶gram串，则称高阶gram串为父串，低阶gram串为子串。若两者的频次相同或相近，说明低阶gram串每次都是作为高阶gram串的子串出现，从未或很少单独出现，因此其无法单独作为新词，应舍弃子串，保留父串。遍历获取到的所有n-gram串，如果两个串存在父子包含关系，且两者的出现频率相同或相近，则从候选新词集合中删除子串。具体实现如下：

步骤2031，遍历n-gram集合，假设当前n-gram的频次是n，则输出其每一个后缀，频次也置为n，但为其置上特殊位，标识其为衍生的n-gram。

步骤2032，按字典序排序包含衍生n-gram的新候选n-gram集合。

步骤2033，遍历排序后的n-gram集合，读取当前行，如果当前n-gram为衍生的n-gram，则从n-gram集合中删除当前词串，读取下一行词串，假设待处理的n-gram为s。

步骤2034，读取s后续行对应的词串，直到第一个不是以s为前缀的n-gram结束；根据频次比值，判断以s为前缀的n-gram的频次是否与s相同或相近；如果存在频次相同或相近的父串，从初始n-gram集合中删除s，否则保留s。

步骤2035，转步骤2033处理s的下一行词串，直至处理完所有候选n-gram串。

步骤103：新词过滤的步骤。该步骤对生成的候选新词集合进行过滤，去除垃圾串。过滤和剪枝策略分为基本语言学构词规则策略和成词模式过滤策略。根据语言学构词规则，定义了以下几种过滤规则：

1）字数过滤规则：由于新词一般都是概括性词语，因此字数不会过长，根据统计得知，新词一般均在10字以内。因此，本发明过滤掉过长的候选新词串。

2）纯数字字母串和日期过滤规则：一般不会出现单纯由数字和字母组成的新词或日期与汉字混合组成新词的情况，如“56kv”或“2012年1月1日”，因此将纯数字串或包含日期的词串过滤掉。本发明定义了识别数字、字母和日期的正则表达式进行过滤处理。

3）常见辅助词过滤规则：有些常见辅助词，如“的”、“了”、“是”等，虽然出现频率较高，但是不应作为新词的词首或词尾。使用历史查询日志数据，统计获得两个词库：词首过滤词库和词尾过滤词库。若当前词串的词首或词尾分别在这两个词库中，则过滤掉当前词串。

4）常见查询搭配词过滤规则：有些常见查询词，如“高清”、“全集”、“优酷”等，虽然经常与影视剧搭配使用，但是不应为新词的一部分，而将这些词去除后的串常常为新词。因此对包含这种类型词的串，判断删除该类词后的词串是否存在于候选新词集合中，若不存在，则将做删除操作后的词串添加到新词集合中。

词语模式是指词串中词的组成方式，如“1-1-1模式”是指词语由三个单字词组成、“2-1模式”是指词语由一个两字词和一个单字词组成。根据组成词语的模式，即成词模式过滤策略，分为如下几类：

1）叠词模式过滤：当词串为1-1…1-1模式时，由于共现率的计算方式，导致若词串包含多个相同单字词时，其共现率会较高，然而大部分情况下，由多个相同字重叠组成的串不应作为词语，因此过滤掉满足这种条件的1-1…1-1模式串。

2）四字词的2-2模式剪枝：当四字词由两个二字词组成，且其中一个二字词为人称代词，如“我们”、“你们”等，应舍弃该词串。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1. 一种基于查询日志的新词自动查找系统，其特征在于，主要包括查询日志预处理模块、新词发现模块和新词生成模块；其中：

新词生成模块，对候选新词集合应用过滤和剪枝策略，去除候选新词集合中的垃圾串，得到最终的新词集合。

2.将最终新词集合导入分词词库中，从而实现增量式新词发现。

3.根据权利要求1所述的基于查询日志的新词自动查找系统，其特征在于，所述过滤和剪枝策略包括基本语言学构词规则策略和成词模式过滤策略。

4.根据权利要求2所述的基于查询日志的新词自动查找系统，其特征在于，所述基本语言学构词规则策略，包括字数过滤规则，纯数字字母串和日期过滤规则，常见辅助词过滤规则和常见查询搭配词过滤规则。

5.根据权利要求2所述的基于查询日志的新词自动查找系统，其特征在于，所述成词模式过滤策略，包括叠词模式过滤和四字词的2-2模式剪枝。

6.一种基于查询日志的新词自动查找方法，其特征在于，该方法包括：

7.根据权利要求5所述的基于查询日志的新词自动查找方法，其特征在于，步骤A所述使用分词工具对查询串进行切分，对于一个查询串，分词切分时会返回多个粒度的结果；采用分词的最大粒度结果，以保证词串中任意词的组合均不为已经存在的词。

8.根据权利要求6所述的基于查询日志的新词自动查找方法，其特征在于，步骤A进一步包括：按照传统语言学概念，将词语根据成词字数分为单元词、二元词、三元词、四元词和多元词，并通过扩展该语言学概念，根据数据串进行分词处理后成词的词数，将所述词串分为2-gram、3-gram、…、n-gram；词串中的每个词称为token，则n-gram的格式为：[token-1][空格][token-2]…[token-n]。

9.根据权利要求5、6或7所述的基于查询日志的新词自动查找方法，其特征在于：

词串频率统计，具体为：统计1-gram、2-gram、3-gram、4-gram和5-gram的词串的频次，并将相同词串的词频进行累加，输出为n-gram及其词频，表示为<n-gram，tf(n-gram)>；其中，1-gram的词是已存在的词，不需进入候选新词集合，但在计算词串共现率时需要使用，因此仍需统计该类词串的词频并单独保存起来；

10.根据权利要求5所述的基于查询日志的新词自动查找方法，其特征在于，步骤C所述新词过滤策略，具体为：根据语言学构词规则统计及成词模式研究获得垃圾串过滤规则，主要包括字数过滤规则、纯数字字母串和日期过滤规则、常见辅助词过滤规则、常见查询词过滤枝规则及叠词模式过滤规则、2-2模式剪枝规则。