CN106484672A

CN106484672A - 词汇识别方法和词汇识别系统

Info

Publication number: CN106484672A
Application number: CN201510536145.8A
Authority: CN
Inventors: 刘克松; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2017-03-08

Abstract

本发明提出了一种词汇识别方法和一种词汇识别系统，其中，所述词汇识别方法包括：根据接收到的词汇识别命令，从待处理文本中获取多个候选关键词，并将多个候选关键词发送至统计单元；通过统计单元接收多个候选关键词，统计多个候选关键词的参数信息，并将多个候选关键词的参数信息发送至识别单元；通过识别单元接收参数信息，并根据多个候选关键词的参数信息，对多个候选关键词进行过滤，以识别目标关键词。通过本发明的技术方案，可以比较全面地获取候选关键词，从而可以从候选关键词中比较全面地识别流行词等新词，进而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。

Description

词汇识别方法和词汇识别系统

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种词汇识别方法和一种词汇识别系统。

背景技术

目前，随着互联网的发展，网络中的流行词或新词不断涌现。一般认为，流行词或新词是因为某种社会现象在网络上出现、流行并融入人们生活的非正式语言。这些流行词或新词与当前的社会现象密切相关，反映了社会大众的心理，甚至可以作为一个时代的缩影。因此，如何发现网络中的流行词或新词是网络信息处理中的一个重要问题，且流行词或新词的发现在信息检索、文本挖掘、词典编纂、中文分词等领域都有重要应用。及时有效地发现网络流行语新词对把握网络舆情、社会发展也具有重要意义。

相关技术中的中文分词方案很难准确地对流行词或新词做出识别；而中文分词作为中文信息处理的前提和基础，流行词或新词的识别成为影响分词性能的重要因素。对于流行词或新词的发现，相关技术中的一个方案是重点研究二字词的提取，通常是基于词性与独立词概率对流行词或新词进行提取，但对流行词或新词的长度有所限制，导致获取的流行词或新词并不全面。相关技术中的另一个方案是具有领域依赖，例如基于规则的方法，由于不同领域的构成规则可能不同，某些规则仅适用于部分领域。对于包括人名、地名、机构名等命名实体的词研究较多，但是对于非命名实体的词，如流行词或新词则缺乏有效的识别方法。

因此，如何比较全面且准确地识别流行词或新词等词，成为亟待解决的问题。

发明内容

本发明正是基于上述问题，提出了一种新的技术方案，可以比较全面地获取候选关键词，从而可以从候选关键词中比较全面且准确地识别流行词或新词等目标关键词，进而可以通过识别出的流行词或新词等目标关键词来发现网络热点和分析舆论走向。

有鉴于此，本发明的一方面提出了一种词汇识别方法，包括：根据接收到的词汇识别命令，从待处理文本中获取多个候选关键词，并将所述多个候选关键词发送至统计单元，通过所述统计单元接收所述多个候选关键词，统计所述多个候选关键词的参数信息，并将所述多个候选关键词的所述参数信息发送至识别单元；通过所述识别单元接收所述参数信息，并根据所述多个候选关键词的所述参数信息，对所述多个候选关键词进行过滤，以识别目标关键词。

在该技术方案中，在待处理文本中获取多个候选关键词，其中，获取到的候选关键词的字数没有限制，而且该候选关键词可以是人名、地名、机构名等命名实体的词，还可以是流行语等非实体的词，这样，在待处理文本中获取到的候选关键词就比较全面，从而根据统计的参数信息识别出的目标关键词就更加全面，例如，可以全面地识别出当前网络中的流行词等新词，从而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。

在上述技术方案中，优选地，所述从待处理文本中获取多个候选关键词，具体包括：通过以下至少之一或其组合的方式对所述待处理文本进行预处理：分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式，以从所述待处理文本中获取所述多个候选关键词。

在该技术方案中，对待处理文本进行预处理的方式包括但不限于以下至少之一或其组合：分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式，由于通过分词处理方式对待处理文本进行分词后，依然很难在候选关键词中识别出流行词、新词等目标关键词，因此，还需要对分词结果进一步地分析，例如，通过排除普通词方式和排除停用词方式排除字典中已有的普通词和停用词，并且，将普通词或停用词中的边界字和与该边界字近邻的至少一个近邻字进行合并，例如，普通词为“上学”，“上学”中的边界字“上”，将该边界字“上”与该边界字左近邻的至少一个近邻字为“高大”进行合并，得到候选关键词“高大上”，从而通过合并近邻单字方式可以获取流行语等非实体的词，这样，在待处理文本中获取到的候选关键词就比较全面，进而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。

在上述技术方案中，优选地，所述根据所述多个候选关键词的所述参数信息，对所述多个候选关键词进行过滤，具体包括：确定所述多个候选关键词中的任一候选关键词的所述参数信息是否处于预定范围；当确定所述任一候选关键词的所述参数信息处于所述预定范围时，将所述任一候选关键词识别为所述目标关键词。

在该技术方案中，当确定多个候选关键词中的任一候选关键词的参数信息处于预定范围时，将任一候选关键词识别为目标关键词，从而可以在多个候选关键词中准确地过滤出流行词或新词等目标关键词，进而可以根据流行词或新词等目标关键词来发现网络热点和分析舆论走向，例如，参数信息为词汇上下文环境，该词汇上下文环境即为与任一候选关键词左右相邻的词，当与任一候选关键词左右相邻的词的数量较少，则说明该任一候选关键词缺乏语言搭配多样性，成为流行词或新词等目标关键词的概率较小，因此，将任一候选关键词过滤掉，再例如，参数信息为词汇结合度，如果任一候选关键词的词汇结合度小于或等于预定范围的话，说明该任一候选关键词是流行词或新词等目标关键词的概率很小，当然，也可以根据词或字的特征来确定目标关键词，例如，“子”一般都出现在词的尾部，如“孩子，儿子，老子”等，如果“子”出现在候选关键词的首部，则该候选关键词成为目标关键词的概率就比较小。

在上述技术方案中，优选地，还包括：根据接收到的设置命令，设置所述参数信息的所述预定范围，以供根据设置的所述预定范围，在所述待处理文本中识别所述目标关键词。

在该技术方案中，如果在预定范围内没有发现目标关键词，或者在预定范围内发现的目标关键词的数量较少时，则可以根据调节后的预定范围在处理文本中识别出目标关键词，从而可以比较全面地识别目标关键词，如果在预定范围内发现的目标关键词的数量较多时，也可以调节预定范围，因为在一定的时间内所出现的流行词或新词等目标关键词的数量是有限的，根据调节后的预定范围在处理文本中识别出目标关键词，从而可以比较准确地识别目标关键词。

在上述技术方案中，优选地，所述参数信息包括以下至少之一或其组合：词频、词频增长率、词汇上下文环境、词汇结合度；其中，所述词汇结合度包括：单字成词率和相邻字成词率。

在该技术方案中，参数信息包括但不限于以下至少之一或其组合：词频、词频增长率、词汇上下文环境、词汇结合度，从而可以根据多个候选词的参数信息在多个候选关键词中准确地过滤出流行词或新词等目标关键词，进而可以根据流行词或新词等目标关键词来发现网络热点和分析舆论走向，例如，可以根据多个候选关键词中的任一候选关键词的词频来确定任一候选关键词是否为目标关键词，因为当任一候选关键词的词频太低时，说明任一候选关键词缺乏流通度，或者可能是偶然单字的结合，还可以根据多个候选关键词中的任一候选关键词的词频增长率来确定任一候选关键词是否为目标关键词，因为流行词或新词等目标关键词的出现，在前期往往伴随词频的突增现象，随后一段时间内其词频下降并趋于平稳。

本发明的另一方面提出了一种词汇识别系统，包括：预处理单元，根据接收到的词汇识别命令，从待处理文本中获取多个候选关键词，并将所述多个候选关键词发送至统计单元；统计单元，通过所述统计单元接收所述多个候选关键词，统计所述多个候选关键词的参数信息，并将所述多个候选关键词的所述参数信息发送至识别单元；识别单元，通过所述识别单元接收所述参数信息，并根据所述多个候选关键词的所述参数信息，对所述多个候选关键词进行过滤，以识别目标关键词。

在上述技术方案中，优选地，所述预处理单元具体用于：通过以下至少之一或其组合的方式对所述待处理文本进行预处理：分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式，以从所述待处理文本中获取所述多个候选关键词。

在上述技术方案中，优选地，所述识别单元用于：确定所述多个候选关键词中的任一候选关键词的所述参数信息是否处于预定范围，当确定所述任一候选关键词的所述参数信息处于所述预定范围时，将所述任一候选关键词识别为所述目标关键词。

在上述技术方案中，优选地，还包括：设置单元，根据接收到的设置命令，设置所述参数信息的所述预定范围，以供根据设置的所述预定范围，在所述待处理文本中识别所述目标关键词。

通过本发明的技术方案，可以比较全面地获取候选关键词，从而可以从候选关键词中比较全面且准确地识别流行词等新词，进而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。

附图说明

图1示出了根据本发明的一个实施例的词汇识别方法的流程示意图；

图2示出了根据本发明的一个实施例的词汇识别系统的结构示意图；

图3示出了根据本发明的一个实施例的词汇识别系统的原理示意图；

图4示出了根据本发明的一个实施例的词汇上下文环境的示意图。

具体实施方式

为了可以更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的一个实施例的词汇识别方法的流程示意图。

如图1所示，根据本发明的一个实施例的词汇识别方法，包括：

步骤102，根据接收到的词汇识别命令，从待处理文本中获取多个候选关键词，并将多个候选关键词发送至统计单元。

步骤104，通过统计单元接收多个候选关键词，统计多个候选关键词的参数信息，并将多个候选关键词的参数信息发送至识别单元。

步骤106，通过识别单元接收参数信息，并根据多个候选关键词的参数信息，对多个候选关键词进行过滤，以识别目标关键词。

在上述技术方案中，优选地，步骤102具体包括：通过以下至少之一或其组合的方式对所述待处理文本进行预处理：分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式，以从所述待处理文本中获取所述多个候选关键词。

在上述技术方案中，优选地，步骤106具体包括：确定多个候选关键词中的任一候选关键词的参数信息是否处于预定范围；当确定任一候选关键词的参数信息处于预定范围时，将任一候选关键词识别为目标关键词。

在上述技术方案中，优选地，还包括：根据接收到的设置命令，设置参数信息的预定范围，以供根据设置的预定范围，在待处理文本中识别目标关键词。

在上述技术方案中，优选地，参数信息包括以下至少之一或其组合：词频、词频增长率、词汇上下文环境、词汇结合度；其中，词汇结合度包括：单字成词率和相邻字成词率。

图2示出了根据本发明的一个实施例的词汇识别系统的结构示意图。

如图2所示，根据本发明的一个实施例的词汇识别系统200，包括：预处理单元202，根据接收到的词汇识别命令，从待处理文本中获取多个候选关键词，并将所述多个候选关键词发送至统计单元204；统计单元204，通过所述统计单元接收所述多个候选关键词，统计所述多个候选关键词的参数信息，并将所述多个候选关键词的所述参数信息发送至识别单元206；识别单元206，通过所述识别单元接收所述参数信息，并根据所述多个候选关键词的所述参数信息，对所述多个候选关键词进行过滤，以识别目标关键词。

在上述技术方案中，优选地，预处理的方式包括以下至少之一或其组合：分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式。

在上述技术方案中，优选地，识别单元206用于：确定多个候选关键词中的任一候选关键词的参数信息是否处于预定范围，当确定任一候选关键词的参数信息处于预定范围时，将任一候选关键词识别为目标关键词。

在上述技术方案中，优选地，还包括：设置单元208，根据接收到的设置命令，设置参数信息的预定范围，以供根据设置的预定范围，在待处理文本中识别目标关键词。

图3示出了根据本发明的一个实施例的词汇识别系统的原理示意图，图4示出了根据本发明的一个实施例的词汇上下文环境的示意图。

下面结合图3和图4详细说明本发明的技术方案：

如图3所示，根据本发明的一个实施例的词汇识别系统300(相当于图2示出的实施例的词汇识别系统200)，包括：候选词生成模块302、统计模块304、过滤模块306，其中：

候选词生成模块302用于对待处理文本进行预处理、分词、排除字典内已有的普通词、去除停用词、合并近邻单字等处理，以形成候选关键词。该模块的主要目的是生成候选关键词以及词汇上下文环境。一般地，使用通用分词工具对待处理文本进行分词时，由于字典的覆盖面有限、或者是统计模型训练集过小、或者是语言模型构词规则有限等原因，很难识别网络流行语和新词。因此，需要对通用分词结果进一步分析。

排除字典内已有的普通词，是因为在对目标关键词进行识别时不需要处理字典中已有的词汇，本发明技术方案中的排除字典内已有的普通词不是简单把普通词从待处理文本中删除，而是在合并近邻单字的时候需要把边界上的普通词也合并进来。

如图4所示，候选关键词和词汇上下文环境可表示为LCR，其中C是候选关键词，L、R分别是候选关键词的左近邻的词汇上下文环境、右近邻的词汇上下文环境。C的左近邻集合{L}是在待处理文本中所有出现在C左侧的词汇构成的集合；C的右近邻集合{R}是在待处理文本中所有出现在C右侧的词汇构成的集合。

统计模块304用于统计候选关键词的词频、候选关键词的上下文环境词汇等，也即候选关键词的左右近邻的普通词分布。如果待处理文本是带有时间戳，则可以统计词频增长率。当前模块的目的是统计候选关键词的词频、词频增长率和上下文环境词汇的数量，当候选关键词的各项属性信息处于预设范围时，即认为构成流行词或新词等目标关键词。候选关键词的各项统计的意义分述如下：

(1)词频：候选关键词在整个文档集中出现的次数。流行语新词在一定时期的网络文本中出现较为频繁；如果候选关键词的词频太低，说明该候选关键词缺乏流通度，更可能是偶然结合。

(2)词频增长率：对于带有时间戳的待处理文本，统计一段时间内候选关键词的词频，以及在时间窗口内的词频的变化情况。流行词或新词等目标关键词的出现，在前期往往伴随词频的突增现象，随后一段时间内其词频下降并趋于平稳。

(3)上下文环境词汇：候选关键词的左近邻集合、右近邻集合。词作为语言的一个基本组成单位，词与词之间多样组合搭配是语言的基本形式。因此，如果候选关键词的左近邻集合、右近邻集合的大小太小，说明该候选关键词缺乏语言搭配多样性，不太可能是新词。

(4)词汇结合度：由于候选关键词来源于合并相邻单字的结果，因就会难免引入相邻两个普通词的情况，候选关键词内部会出现词的边界。因此，如果候选关键词的词汇结合度低于预设范围，也不太可能是流行词或新词等目标关键词。

为了描写词汇结合度，可以统计候选关键词中的每个单字的单字成词率，以及候选关键词中的相邻字之间的相邻字成词率。其中，单字成词率定义为：在待处理文本中的候选关键词中的单字出现在词的特定位置(词首、词中、词尾)的次数与所有包含单字的词出现的次数之比。相邻字成词率定义为：在待处理文本中，候选关键词中的相邻字出现的次数与相邻字出现在分词结果中的次数之比。

过滤模块306用于根据词频、词频增长率、词汇上下文环境、词汇结合度，过滤掉不能成词的候选关键词，得到最终发现的流行词或新词等目标关键词。

下面将结合具体实施例来说明上述技术方案：

对收集到的待处理文本进行预处理，使用通用分词工具分词，去停用词、排除字典内已有的普通词、合并近邻单字形成候选关键词；统计候选关键词在网络文本集中的出现频次，以及随时间的变化情况、出现的上下文环境。假设待处理文本中有如下文本：

1.谁能告诉我怎样能拍出高大上的照片。

2.非常感谢这些高大上的朋友们前来捧场。

3.教你如何做高大上牛排。

4.当我们刚从高大上的革命作品转到伤痕文学。

5.这么高大上的酒好像喝过。

对分词结果合并，可以形成候选关键词“高大上”，候选关键词“高大上”的上下文环境词汇为：左近邻集合L{拍出，这些，做，从，这么}，右近邻集合R{照片，朋友们，牛排，革命作品，酒}。因此，候选关键词的词频是5，左近邻集合L、右近邻集合R的大小都是5。

对于带时间戳的待处理文本，假设第i天的候选关键词的词频为f_i；为避免噪音干扰，利用3天的时间窗口平滑去噪，定义第i天的候选关键词的平均词频为了进一步比较平均词频的随时间的变化，可以对平均词频归一化。假设一段时间内，候选关键词的平均词频最小值为最大值为那么归一化之后词频：

可以使用Δg_i＝g_i-g_i-1来衡量词频增长率。

对于待处理文本，经预处理、分词、去停用词，只保留普通词，然后计算单字成词率、相邻字之间的相邻字成词率。假设候选关键词为c₁c₂c₃，那么它的单字成词率P(c₁c₂c₃)为：

P(c₁c₂c₃)＝p_b(c₁)p_m(c₂)p_e(c₃)

其中p_b(c)表示单字c出现在词的首位和在待处理文本出现的次数之比。p_m(c),p_e(c)分别表示单字c出现在词的中部、尾部和在待处理文本出现的次数之比。

候选关键词为c₁c₂c₃的相邻字成词率为：

p(c₁,c₂)p(c₂,c₃)

其中，p(c₁,c₂)表示相邻单字c₁,c₂的结合度是待处理文本中两个字在同一个词中相邻出现次数与待处理文本中两个字相邻出现的次数之比。

有了以上统计信息之后，需要设定预设范围对候选关键词进行过滤，从而过滤出目标关键词。其中，在设置预定范围时可以参考如下的普通词属性信息和目标关键词的识别结果。

(1)参考普通词的属性信息

将候选关键词的词频、词频增长率、上下文环境词汇和词汇结合度定在待处理文本中的普通词在各项指标上的平均值的量级上，因为目标关键词和普通词都属于语言的词汇层面组成单元。

(2)参考目标关键词的识别结果

虽然网络中的待处理文本的规模较大，但是在一定时期内，网络中出现的流行词或新词的数量是有限的。在参考普通词属性信息设置预设范围之后，采取保持其余不变、逐项下调预设范围的方法，因为流行词或新词的数目有限，可直接观察新增输出是否含有流行词或新词或是无意义的词，根据识别结果对预定范围进行调节。

以上结合附图详细说明了本发明的技术方案，可以比较全面地获取候选关键词，从而可以从候选关键词中比较全面地识别流行词等新词，进而可以通过识别出的流行词等新词来发现网络热点和分析舆论走向。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种词汇识别方法，其特征在于，包括：

根据接收到的词汇识别命令，从待处理文本中获取多个候选关键词，并将所述多个候选关键词发送至统计单元；

通过所述统计单元接收所述多个候选关键词，统计所述多个候选关键词的参数信息，并将所述多个候选关键词的所述参数信息发送至识别单元；

通过所述识别单元接收所述参数信息，并根据所述多个候选关键词的所述参数信息，对所述多个候选关键词进行过滤，以识别目标关键词。

2.根据权利要求1所述的词汇识别方法，其特征在于，所述从待处理文本中获取多个候选关键词，具体包括：

通过以下至少之一或其组合的方式对所述待处理文本进行预处理：分词处理方式、排除普通词方式、排除停用词方式、合并近邻单字方式，以从所述待处理文本中获取所述多个候选关键词。

3.根据权利要求2所述的词汇识别方法，其特征在于，所述根据所述多个候选关键词的所述参数信息，对所述多个候选关键词进行过滤，具体包括：

确定所述多个候选关键词中的任一候选关键词的所述参数信息是否处于预定范围；

当确定所述任一候选关键词的所述参数信息处于所述预定范围时，将所述任一候选关键词识别为所述目标关键词。

4.根据权利要求3所述的词汇识别方法，其特征在于，还包括：

根据接收到的设置命令，设置所述参数信息的所述预定范围，以供根据设置的所述预定范围，在所述待处理文本中识别所述目标关键词。

5.根据权利要求1至4中任一项所述的词汇识别方法，其特征在于，所述参数信息包括以下至少之一或其组合：

词频、词频增长率、词汇上下文环境、词汇结合度；

其中，所述词汇结合度包括：单字成词率和相邻字成词率。

6.一种词汇识别系统，其特征在于，包括：

预处理单元，根据接收到的词汇识别命令，从待处理文本中获取多个候选关键词，并将所述多个候选关键词发送至统计单元；

统计单元，通过所述统计单元接收所述多个候选关键词，统计所述多个候选关键词的参数信息，并将所述多个候选关键词的所述参数信息发送至识别单元；

识别单元，通过所述识别单元接收所述参数信息，并根据所述多个候选关键词的所述参数信息，对所述多个候选关键词进行过滤，以识别目标关键词。

7.根据权利要求6所述的词汇识别系统，其特征在于，所述预处理单元具体用于：

8.根据权利要求7所述的词汇识别系统，其特征在于，所述识别单元用于：

确定所述多个候选关键词中的任一候选关键词的所述参数信息是否处于预定范围，当确定所述任一候选关键词的所述参数信息处于所述预定范围时，将所述任一候选关键词识别为所述目标关键词。

9.根据权利要求8所述的词汇识别系统，其特征在于，还包括：

设置单元，根据接收到的设置命令，设置所述参数信息的所述预定范围，以供根据设置的所述预定范围，在所述待处理文本中识别所述目标关键词。

10.根据权利要求6至9中任一项所述的词汇识别系统，其特征在于，所述参数信息包括以下至少之一或其组合：

词频、词频增长率、词汇上下文环境、词汇结合度；

其中，所述词汇结合度包括：单字成词率和相邻字成词率。