CN103593427A

CN103593427A - 新词搜索方法及系统

Info

Publication number: CN103593427A
Application number: CN201310551747.1A
Authority: CN
Inventors: 霍帅; 张敏; 刘奕群; 马少平; 金奕江
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-11-07
Filing date: 2013-11-07
Publication date: 2014-02-19

Abstract

本发明提出一种新词搜索方法及系统，其中方法包括以下步骤：提供多个语料，并对多个语料分别进行分词以得到多个单词；获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合；根据单词集合中不同单词的数量得到停用词集合；分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词；分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量；如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词，则将对应的候选单词作为新词。根据本发明实施例的方法，通过计算上下文熵以获得候选新词，并根据停用词集合对候选新词进行过滤，因此提高新词搜索的准确性，简化搜索过程提高搜索效率。

Description

新词搜索方法及系统

技术领域

本发明涉及网络技术领域，特别涉及一种新词搜索方法及系统。

背景技术

在中文信息处理过程中，由于中文不像英文等西方语言，词与词之间有固定的分隔符，因此，中文自动分词往往作为中文信息处理任务最开始的一个重要步骤。

随着互联网技术的不断发展，各行各业多随之出现了“新词”例如网上出现的“肿么办”、“神马”、“给力”等新词汇频繁在网络上出现。其中web2.0应用允许用户创造网页内容，使得出现了大量的新词。新词的出现很大程度上影响了自动分词工具的准确性。经研究者研究显示60%的分词错误是由新词导致的。因此，新词发现是中文自然语言处理领域非常重要的意义。

现有的新词搜索方法主要有两种，一种是基于规则的方法，另一种是基于统计的方法。基于规则的方法是利用构词原理，并结合语义、词性等信息构造模板，通过匹配来搜索新词。例如通过计算语料库中分词后词语之间的静态联合率，并提取具有紧密关系的词语，再利用语法规则、领域特征进行过滤，进而得到具有高置信度的领域术语。虽然该方法可以提高小规模数据的新词搜索，而无法适用于大规模数据的处理。另外该方法中对规则的维护比较困难，且该规则与领域相关，因此覆盖面窄，适应性差。基于统计的方法是通过对语料中的词项信息进行统计来搜索新词。例如采用独立词概率、词语在文档中的频率等作为SVM的训练特征，将新词搜索的问题转化为二分类问题，通过使用训练好的SVM进行分类，实现在线新词搜索。例如对文本进行分词，然后统计其中2-gram到8-gram的搭配，以统计出现频率，最终选择频率高的词作为新词。该方法需要以较大规模的语料进行统计和模型训练数据处理量较大，且准确率相对较低。

发明内容

本发明的目的旨在至少解决上述的技术缺陷之一。

为此，本发明一方面提供一种新词搜索方法。该搜索方法可以解决搜索准确性差且搜索复杂、效率低的问题。

本发明另一方面提供一种新词搜索系统。

有鉴于此，本发明一方面的实施例提供一种新词搜索方法，包括以下步骤：A：提供多个语料，并对所述多个语料分别进行分词以得到多个单词；B：获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合；C：根据所述单词集合中不同单词的数量得到停用词集合；D：分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词；E：分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量；以及F：如果所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词，则将所述对应的候选单词作为搜索到的新词。

根据本发明实施例的方法，通过计算上下文熵以获得候选新词，并根据停用词集合对候选新词进行过滤，因此提高了新词搜索的准确性，同时简化了搜索过程提高了搜索效率。

在本发明的一个实施例中，还包括：G：如果所述上下文熵不大于所述第一预设值，则将所述对应的候选单词作为所述第一单词并执行步骤B至步骤F以便进行进一步的新词搜索。

在本发明的一个实施例中，所述根据所述单词集合中不同单词的数量得到停用词集合，进一步包括：如果所述单词集合中不同单词的数量大于第二预设值，则判定所述第一单词为停用词，并将所述停用词添加到所述停用词集合中。

在本发明的一个实施例中，还包括：根据所述新词的特征训练分类器，并根据训练后的分类器对多个语料进行搜索以找到新词。

在本发明的一个实施例中，所述特征包括词频、第一单词的词性和末尾单词的词性。

有鉴于此，本发明另一方面的实施例提供一种新词搜索系统，包括：分词模块，用于获取提供多个语料，并对所述多个语料分别进行分词以得到多个单词；获取模块，用于获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合；获得模块，用于根据所述单词集合中不同单词的数量得到停用词集合；组合模块，用于分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词；判断模块，用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量；以及确定模块，用于将所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词的对应候选单词作为搜索到的新词。

根据本发明实施例的系统，通过计算上下文熵以获得候选新词，并根据停用词集合对候选新词进行过滤，因此提高了新词搜索的准确性，同时简化了搜索过程提高了搜索效率。

在本发明的一个实施例中，还包括：迭代模块，用于对所述上下文熵不大于所述第一预设值的对应候选单词作为所述第一单词并通过所述获取模块、所述获得模块、所述组合模块、所述判断模块和所述确定模块进行迭代处理以进一步搜索新词。

在本发明的一个实施例中，所述获得模块具体包括：计算单元，用于计算所述单词集合中不同单词的数量；获得单元，用于当所述单词集合中不同单词的数量大于第二预设值时，将所述第一单词为停用词，并将所述停用词添加到所述停用词集合中。

在本发明的一个实施例中，还包括：训练搜索模块，用于根据所述新词的特征训练分类器，并根据训练后的分类器对多个语料进行搜索以找到新词。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的新词搜索方法的流程图；以及

图2为根据本发明另一个实施例的新词搜索系统的结构框图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

图1为根据本发明一个实施例的新词搜索方法的流程图。如图1所示，根据本发明实施例的新词搜索方法包括以下步骤：提供多个语料，并对多个语料分别进行分词以得到多个单词（步骤101）。获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合（步骤103）。根据单词集合中不同单词的数量得到停用词集合（步骤105）。分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词（步骤107）。分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量（步骤109）。如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词，则将对应的候选单词作为搜索到的新词（步骤111）。

下面对上述各步骤进行详细说明。

在步骤101和步骤103中，可从互联网网页、微博、搜索引擎查询日志等中提取数据中的中文文本，并将对应的中文文本转化为统一的编码格式以便统一地进行处理。通过分词工具对web中转化所获得的中文文本数据进行分词进而得到多个单词。该分词工具可以是ICTCLAS5.0中文分词系统(http://ictclas.org)，SCWS中文分词(http://www.xunsearch.com/scws/index.php)等工具。对于多个单词中的第一单词，在对应的语料中将与该第一单词相邻的单词添加到该第一单词邻接的单词集合中。该第一单词为分词所获得的多个单词中的任意一个单词。

下面将详细描述步骤105。在步骤105中，对于该第一单词的单词集合统计该单词集合中与该第一单词相邻的不同单词的数量。当单词集合中不同单词的数量大于第二预设值（例如大于整个语料中单词数量的百分之一）时，则判定第一单词为停用词，并将停用词添加到停用词集合中。该停用词集合分为左侧停用词集合和右停用词集合，根据作为停用词的单词是在该第一单词的左边还是右边分别将停用词分为左侧停用词和右停用词，并放入左侧停用词集合和右停用词集合中。例如在ABC、FBK、DBV的语料中，对于单词B而言单词A、C、F、K、D和单词V构成单词B的单词集合。具体而言，根据单词集合的单词与单词B的位置关系可分为左侧邻接单词或右侧邻接单词。左侧停用词和右侧停用词的原理也类似上述方式。

在本发明的一个实施例中，左侧停用词右停用词定义为，

stopword_left={w|w∈S,||{w′|w′∈S,(w′,w)}||＞c}

stopword_ritght={w|w∈S,||{w′|w′∈S,(w,w′)}||＞c}

其中，stopword_left表示左侧停用词，stopword_right表示右侧停用词，S表示语料中所有单词的集合，（w′,w）表示单词w′在单词w左侧并与其相邻，c是常数，表示一个单词左（右）侧与其相邻的不同单词个数超过c时，该单词即为左（右）侧停用词。

下面将详细描述步骤107、步骤109和步骤111。

在本发明的一个实施例中，左侧上下文熵和右侧上下文熵便是表示词语组合的概率。对于一个单词w，假设在语料X中他出现的次数是n，出现在它左侧的词语的集合为α={a₁,a₂,…,a_s}，出现在它右侧的词语的集合为β={b₁,b₂,…,b_t}。那么w的左侧上下文熵和右侧上下文熵可定义为：

LCE (w) = \frac{1}{n} Σ_{i = 1}^{s} C (a_{i}, w) \ln \frac{C (a_{i}, w)}{n}

RCE (w) = \frac{1}{n} Σ_{i = 1}^{t} C (w, b_{i}) \ln \frac{C (w, b_{i})}{n}

其中，LCE(w)表示单词w的左侧上下文熵，RCE(w)表示单词w的右侧上下文熵，s表示单词w左侧相邻的不同单词的个数，t表示单词w右侧相邻的不同单词的个数，C(a_i,w)是a_i与w同时出现的次数，C(w,b_i)是w与b_i同时出现的次数。

从左（右）侧上下文熵的定义式中，如果一个单词的左右侧上下文熵都比较大，那么说明与该单词左右相邻的不同单词个数比较多，并且相邻频率分布较均匀，那么这个单词与左右侧相邻的单词构成新词的概率就很低；相反，如果一个单词的左右侧上下文熵有一个很小（不妨假设左侧上下文熵较小），那么说明该单词左侧相邻的不同单词的频率分布并不均匀，它与左侧相邻频率较高的单词搭配成新词的概率就比较高。

在单词集合中选取与第一单词左侧相邻的单词，且与该第一单词的结合次数大于阈值（例如0.3）的左侧邻接单词，并计算它们之间的上下文熵E_left和该第一单词和左侧邻接单词结合后与该结合单词左侧单词的上下文熵E′_left，当E′_left与E_left的差值大于第一预设值（例如1）时，将该结合有的单词作为候选单词。在单词集合中选取与第一单词右侧相邻的单词，且与该第一单词的结合次数大于阈值（例如0.3）的右侧邻接单词，并计算该第一单词的上下文熵E_right和该第一单词和右侧邻接单词结合后与该结合单词右侧单词的上下文熵E′_right，当E′_left与E_right的差值大于第一预设值（例如1）时，将该结合有的单词作为候选单词。通过对与第一单词相邻单词构成的单词集合进行处理以得到多个候选单词。通过停用词集合对该多个候选单词进行过滤，即如果多个候选单词中出现停用词集合中的单词时，将该候选单词从多个候选单词中剔除，将剩余的多个候选单词作为搜索到的新词。

在本发明的一个实施例中，如果上下文熵不大于第一预设值（例如2）时，则将对应的候选单词作为第一单词，并获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合。再根据单词集合中不同单词的数量得到停用词集合。然后分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词。分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量，如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词，则将对应的候选单词作为搜索到的新词。该上下文熵增量为上下文熵的增加量。通过对候选单词进行迭代处理，进一步提高了新词搜索的准确性和鲁棒性。

在本发明的实施例中，通过上述方式搜索到多个新词后，提取该多个新词的特征，并通过所提取的特征训练分类器。该多个新词为已经确定为新词的单词，且新词的特征包括新词的词频、第一单词的词性和末尾单词的词性。所训练的分类器可以为贝叶斯分类器、决策树和SVM等分类器。通过训练后的分类器对多个语料进行搜索，因此提高了新词搜索的效率，方便了使用。

图2为根据本发明另一个实施例的新词搜索系统的结构框图。如图2所示，根据本发明实施例的新词搜索系统包括分词模块100、获取模块200、获得模块300、组合模块400、判断模块500和确定模块600。

具体地，分词模块100用于获取提供多个语料，并对多个语料分别进行分词以得到多个单词。

获取模块200用于获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合。

获得模块300用于根据单词集合中不同单词的数量得到停用词集合。

组合模块400用于分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词。

判断模块500用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量。

确定模块600用于将上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词的对应候选单词作为搜索到的新词。

下面对上述各个模块进行详细说明。

在本发明的一个实施例中，可从互联网网页、微博、搜索引擎查询日志等中提取数据中的中文文本，并将对应的中文文本转化为统一的编码格式以便统一地进行处理。分词模块100通过分词工具对web中转化所获得的中文文本数据进行分词进而得到多个单词。该分词工具可以是ICTCLAS5.0中文分词系统(http://ictclas.org)，SCWS 中文分词(http://www.xunsearch.com/scws/index.php)等工具。对于分词模块100所获得的多个单词中的第一单词，获取模块200在对应的语料中将与该第一单词相邻的单词添加到该第一单词邻接的单词集合中。该第一单词为分词所获得的多个单词中的任意一个单词。

在本发明的一个实施例中，获得模块300包括计算单元310和获得单元320。

计算单元310用于计算单词集合中不同单词的数量。

获得单元320用于当单词集合中不同单词的数量大于第二预设值时，将第一单词为停用词，并将停用词添加到停用词集合中。

具体地，计算单元310计算对于该第一单词的单词集合统计该单词集合中与该第一单词相邻的不同单词的数量。当单词集合中不同单词的数量大于第二预设值（例如大于整个语料中单词数量的百分之一）时，获取单元320则判定第一单词为停用词，并将停用词添加到停用词集合中。该停用词集合分为左侧停用词集合和右停用词集合，根据作为停用词的单词是在该第一单词的左边还是右边分别将停用词分为左侧停用词和右停用词，并放入左侧停用词集合和右停用词集合中。例如在ABC、FBK、DBV的语料中，对于单词B而言单词A、C、F、K、D和单词V构成单词B的单词集合。具体而言，根据单词集合的单词与单词B的位置关系可分为左侧邻接单词或右侧邻接单词。左侧停用词和右侧停用词的原理也类似上述方式。

在本发明的一个实施例中，左侧停用词右停用词定义为，

stopword_left={w|w∈S,||{w′|w′∈S,(w′,w)}||＞c}

stopword_right={w|w∈S,||{w′|w′∈S,(w,w′)}||＞c}

LCE (w) = \frac{1}{n} Σ_{i = 1}^{s} C (a_{i}, w) \ln \frac{C (a_{i}, w)}{n}

RCE (w) = \frac{1}{n} Σ_{i = 1}^{t} C (w, b_{i}) \ln \frac{C (w, b_{i})}{n}

组合模块400将第一单词与对应单词集合的单词进行组合，并在单词集合中选取与第一单词左侧相邻的单词，且与该第一单词的结合次数大于阈值（例如0.3）的左侧邻接单词。计算它们之间的上下文熵E_left和该第一单词和左侧邻接单词结合后与该结合单词左侧单词的上下文熵E′_left，当判断E′_left与E_left的差值大于第一预设值（例如1）时，确定模块600将该结合有的单词作为候选单词。组合模块400将第一单词与对应单词集合的单词进行组合，并在单词集合中选取与第一单词右侧相邻的单词，且与该第一单词的结合次数大于阈值（例如0.3）的右侧邻接单词。计算该第一单词的上下文熵E_right和该第一单词和右侧邻接单词结合后的上下文熵E′_right，当E′_left与E_right的差值大于第一预设值（例如1）时，确定模块600将该结合有的单词作为候选单词。通过对与第一单词相邻单词构成的单词集合进行处理以得到多个候选单词。通过停用词集合对该多个候选单词进行过滤，即如果多个候选单词中出现停用词集合中的单词时，将该候选单词从多个候选单词中剔除，将剩余的多个候选单词作为搜索到的新词。

在本发明的一个实施例中，还包括：迭代模块700。迭代模块700用于对上下文熵不大于第一预设值（例如2）的对应候选单词作为第一单词，并通过获取模块200、获得模块300、组合模块400、判断模块500和确定模块600进行迭代处理以进一步搜索新词。

具体而言，如果上下文熵不大于第一预设值（例如2）时，则将对应的候选单词作为第一单词，并获取多个单词中第一单词在对应的语料中与第一单词相邻的单词集合。再根据单词集合中不同单词的数量得到停用词集合。然后分别将单词集合中的每个单词与第一单词进行组合以得到组合后的多个候选单词。分别判断组合为每个候选单词中的上下文熵，如果上下文熵增量大于第一预设值且对应的候选单词不包含停用词集合中的停用词，则将对应的候选单词作为搜索到的新词。该上下文熵增量为上下文熵的增加量。通过对候选单词进行迭代处理，进一步提高了新词搜索的准确性和鲁棒性。

在本发明的实施例中，还包括：训练搜索模块800。训练搜索模块800用于根据新词的特征训练分类器，并根据训练后的分类器对多个语料进行搜索以找到新词。特征包括词频、第一单词的词性和末尾单词的词性。

具体地，训练搜索模块800提取多个新词的特征，并通过所提取的特征训练分类器。该多个新词为已经确定为新词的单词，且新词的特征包括新词的词频、第一单词的词性和末尾单词的词性。所训练的分类器可以为贝叶斯分类器、决策树和SVM等分类器。通过训练后的分类器对多个语料进行搜索，因此提高了新词搜索的效率，方便了使用。

为了验证本发明的效果进行了如下试验。我们进行了新词发现的相关试验。在硬件为8核2.33G主频CPU、40G内存的环境下，使用随机抽取的的方式抽取了13,400,000条新浪微博，并采用本发明的方式和人工标定的方式进行了新词搜索。本发明的方式所消耗的时间约为90分钟，比人工方式小于很多。这比采用人工标注的识别方式在速度和规模方面都有很大的提升。结果的统计显示人工方式对1340万条微博数据的搜索其准确率为88.1%。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种新词搜索方法，其特征在于，包括以下步骤：

A：提供多个语料，并对所述多个语料分别进行分词以得到多个单词；

B：获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合；

C：根据所述单词集合中不同单词的数量得到停用词集合；

D：分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词；

E：分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量；以及

F：如果所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词，则将所述对应的候选单词作为搜索到的新词。

2.根据权利要求1所述的新词搜索方法，其特征在于，还包括：

G：如果所述上下文熵不大于所述第一预设值，则将对应的候选单词作为所述第一单词并执行步骤B至步骤F以便进行进一步的新词搜索。

3.如权利要求1所述的新词发现的方法，其特征在于，所述根据所述单词集合中不同单词的数量得到停用词集合，进一步包括：

如果所述单词集合中不同单词的数量大于第二预设值，则判定所述第一单词为停用词，并将所述停用词添加到所述停用词集合中。

4.根据权利要求1或2所述的新词搜索方法，其特征在于，还包括：

根据所述新词的特征训练分类器，并根据训练后的分类器对多个语料进行搜索以找到新词。

5.根据权利要求4所述的新词搜索方法，其特征在于，所述特征包括词频、第一单词的词性和末尾单词的词性。

6.一种新词搜索系统，其特征在于，包括：

分词模块，用于获取提供多个语料，并对所述多个语料分别进行分词以得到多个单词；

获取模块，用于获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合；

获得模块，用于根据所述单词集合中不同单词的数量得到停用词集合；

组合模块，用于分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词；

判断模块，用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量；以及

确定模块，用于将所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词的对应候选单词作为搜索到的新词。

7.根据权利要求6所述的新词搜索系统，其特征在于，还包括：

迭代模块，用于对所述上下文熵不大于所述第一预设值的候选单词作为所述第一单词并通过所述获取模块、所述获得模块、所述组合模块、所述判断模块和所述确定模块进行迭代处理以进一步搜索新词。

8.根据权利要求6所述的新词搜索系统，其特征在于，所述获得模块具体包括：

计算单元，用于计算所述单词集合中不同单词的数量；

获得单元，用于当所述单词集合中不同单词的数量大于第二预设值时，将所述第一单词为停用词，并将所述停用词添加到所述停用词集合中。

9.根据权利要求6或7所述的新词搜索系统，其特征在于，还包括：

训练搜索模块，用于根据所述新词的特征训练分类器，并根据训练后的分类器对多个语料进行搜索以找到新词。

10.根据权利要求9所述的新词搜索系统，其特征在于，所述特征包括词频、第一单词的词性和末尾单词的词性。