CN105956158B

CN105956158B - 基于海量微博文本和用户信息的网络新词自动提取的方法

Info

Publication number: CN105956158B
Application number: CN201610324541.9A
Authority: CN
Inventors: 黄永峰; 吴方照; 刘佳伟; 袁志刚; 吴思行
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-05-17
Filing date: 2016-05-17
Publication date: 2019-08-09
Anticipated expiration: 2036-05-17
Also published as: CN105956158A

Abstract

本发明提出一种基于海量微博文本和用户信息的网络新词自动提取的方法，包括：获取微博文本及微博对应的作者标识符；建立新词列表；根据汉语分析工具对微博文本进行分词操作，得到分割词段，分别统计各个分割词段基于文本和用户两个维度的词频信息；将新词列表中词语频次小于第一频次阈值的词语从新词列表中删除；统计微博数据中所有的二元组和三元组，并将其作为候选新词；计算候选新词的关联性的得分；将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表：迭代执行以上过程，直至没有新的候选新词产生且新词列表中没有候选新词被删除。本发明能够自动提取网络新词，具有较高的准确性和较低的时间和空间复杂度。

Description

基于海量微博文本和用户信息的网络新词自动提取的方法

技术领域

本发明涉及网络数据挖掘技术领域，特别涉及一种基于海量微博文本和用户信息的网络新词自动提取的方法。

背景技术

新词发现是中文自然语言处理研究领域的一个重要部分。新词指不存在于传统词典中的词。而在互联网中，特别是在社交网络中，新词更是不断地涌现。社交网络用户出于想表达强烈的情感，或是表现个人感情色彩，或是使自己发布的社交网络文本更有趣有活力等原因，会频繁地使用网络新词。这些新词可能是由一些较长词语或句子缩写构成，也可能是传统词的谐音词，甚至可能是完全和传统词语不相关的词语。如今社交网络是互联网重要的组成部分之一，对社交网络媒体数据的分析也是众多数据挖掘方向的专家和学者研究的热点领域。一方面，社交媒体数据更新非常快，因此可以研究的数据量也十分丰富；另一方面由于社交网络的用户非常活跃，更倾向于使用一些不同于传统文本语法规则的新型用语，这也导致了社交网络中新词的大量涌现，给传统的文本分析技术带来了很大的挑战。

不同于英文等语言有天然的空格字符将词与词隔开，中文的文本是由中文字符序列组成的，而且搭载中文文本语义的单元往往是词语而不是单个字符。这些中文词语都具有自己特定的语义和词性。因此大部分的中文自然语言处理任务的第一步就是将中文文本分割成由不同的词语组成的“词段”，这一步骤称为“分词”。分词操作在很大程度上依赖于分词所使用的词典。据统计60％以上的分词错误都是由于不能正确划分新词导致的，这是因为新词不存在于分词工具的词典中，导致了分词工具无法正确的识别这些新词。

传统的新词检测方法，主要有以下几种方式：将新词检测嵌入与分词任务中、基于复杂的语言学规则和知识、将词检测转化为分类问题以及统计学方法。传统的方法不仅难以达到较高的准确率，并且往往由于算法中产生大量候选新词导致其时间或者空间的复杂度较高。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的目的在于提出一种基于海量微博文本和用户信息的网络新词自动提取的方法，该方法在微博文本的基础上，综合考虑了用户信息，同时建立了一种迭代计算算法来自动提取网络新词，产生的结果具有较高的准确性和较低的时间和空间复杂度。

为了实现上述目的，本发明的实施例公开了一种基于海量微博文本和用户信息的网络新词自动提取的方法，包括以下步骤：S1：获取微博数据，其中，微博数据包括微博文本及微博对应的作者标识符；S2：建立新词列表，其中，新词列表初始化为空集；S3：将新词列表加入预设的汉语分析工具中，并根据汉语分析工具对微博文本进行分词操作，以将微博文本映射成分割词段的集合，并分别统计各个分割词段基于文本和用户两个维度的词频信息；S4：根据得到的词频信息更新所述新词列表中对应词语的词频信息，并将词语频次小于第一频次阈值的词语从新词列表中删除；S5：将分词操作中n个连续出现的分割词段定义为n元组，统计微博数据中所有的二元组和三元组，并将二元组和三元组作为候选新词；S6：根据候选新词在文本和用户两个维度的分布，统计候选新词基于文本和用户两个维度的词频信息，并计算候选新词的关联性的得分；S7：将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表；以及S8：迭代执行S2至S7，直至微博数据中没有新的候选新词产生且新词列表中没有候选新词被删除。

根据本发明实施例的基于海量微博文本和用户信息的网络新词自动提取的方法，利用微博数据的特点，在微博文本的基础上，综合考虑了用户信息，同时建立了一种迭代计算算法来自动提取网络新词；并且相对于传统方法的结果，该方法产生的结果具有较高的准确性和较低的时间和空间复杂度，在社交媒体数据的挖掘和分析中具有重要的应用。

另外，根据本发明上述实施例的基于海量微博文本和用户信息的网络新词自动提取的方法还可以具有如下附加的技术特征：

在一些示例中，在所述S4中，在微博文本的基础上，根据微博数据的用户信息进行新词自动提取。

在一些示例中，其中，在所述S8中，通过迭代计算算法迭代式地合并分词结果中的分割词段，其中，在每次迭代过程中仅需查找微博数据中的二元组和三元组。

在一些示例中，在所述S8中，还包括：在每次迭代完成后，将发现的新词加入新词列表，并将新词列表作为预设汉语分析工具的用户自定义词典，以在下一次分词操作中，将上一次迭代过程中发现的新词正确地划分。

在一些示例中，所述S6进一步包括：基于强化互信息EMI理论，计算每个词语基于文本频次的EMI得分，具体为：

其中，和分别表示词语wⁿ和的基于微博文本的频次，T是微博的总数目，n是n元组中的参数n，n＝2或3；

根据词语在用户之间的分布信息计算用户之间的EMI得分，具体为：

其中，和分别表示词语wⁿ和的基于用户使用的频次，T_u是用户的总数目，n是n元组中的参数n，n＝2或3；

根据基于文本频次的EMI得分和用户之间的EMI得分得到候选新词的关联性得分，具体为：

ascore(wⁿ)＝EMI(wⁿ)+usrEMI(wⁿ)，

其中，ascore(wⁿ)为候选新词wⁿ的关联性得分。

在一些示例中，在所述S1中，通过网络爬虫技术获取所述微博数据。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的基于海量微博文本和用户信息的网络新词自动提取的方法的流程图；以及

图2是根据本发明一个实施例的基于海量微博文本和用户信息的网络新词自动提取的方法的整体流程图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

以下结合附图描述根据本发明实施例的基于海量微博文本和用户信息的网络新词自动提取的方法。

图1是根据本发明实施例的基于海量微博文本和用户信息的网络新词自动提取的方法。图2是根据本发明一个实施例的基于海量微博文本和用户信息的网络新词自动提取的方法的整体流程图。结合图1和图2所示，根据本发明实施例的基于海量微博文本和用户信息的网络新词自动提取的方法，包括以下步骤：

步骤S1：获取微博数据，其中，微博数据包括微博文本内容及每条微博对应的作者标识符。在一些示例中，例如通过网络爬虫技术获取大量微博数据。例如，得到微博数据集合为D，其中每一项包括微博文本D_i以及对应的用户标识符符S_i。

步骤S2：建立新词列表，例如记作W，其中，新词列表初始化为空集，即新词列表W初始为空集。

步骤S3：将新词列表作为用户自定义词典加入预设的汉语分析工具中，并根据汉语分析工具对微博数据集合D中的各个微博文本D_i进行分词操作，以将微博文本D_i映射成分割词段的集合，并分别统计各个分割词段基于文本和用户两个维度的词频信息。换言之，即将得到的每一个分割词段作为一个基本单元，记为w_i，分别统计各个基本单元w_i基于微博文本和用户信息两个维度的词语频次信息，例如分别记为和

步骤S4：根据步骤S3中得到的词频信息更新新词列表中对应词语的词频信息并将词语频次小于第一频次阈值的词语从新词列表W中删除。

其中，在步骤S4中，在微博文本的基础上，综合利用了微博数据的用户信息进行新词自动提取，不同于传统方法只考虑新词基于文本内容的分布，该方法根据微博数据的特点，综合考虑了网络新词在文本和用户两个维度的分布信息。

步骤S5：在分词操作得到的分割词段中，将出现的每个单独的分割词段作为一个基本单元，将n个连续出现的分割词段定义为n元组，据此统计微博数据中出现的所有的二元组和三元组，并将二元组和三元组作为候选新词。

步骤S6：根据候选新词在文本和用户两个维度的分布，统计候选新词基于文本和用户两个维度的词频信息，并计算候选新词的关联性得分。

在一些示例中，该步骤具体包括：

首先，基于强化互信息EMI理论，计算每个词语基于文本频次的EMI得分，具体为：

其次，根据词语在用户之间的分布信息计算用户之间的EMI得分，具体为：

最后，根据基于文本频次的EMI得分和用户之间的EMI得分得到候选新词的关联性得分，具体为：

ascore(wⁿ)＝EMI(wⁿ)+usrEMI(wⁿ)，

其中，ascore(wⁿ)为候选新词wⁿ的关联性得分。

步骤S7：将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表。

步骤S8：迭代执行步骤S2至步骤S7，直至微博数据中没有新的候选新词产生且新词列表中没有候选新词被删除。也就是说，在该步骤中，建立了一种迭代计算算法，从而可以迭代式地合并分词结果中的分割词段。这样在每次迭代过程中只需要找到低阶的n元组(例如二元组和三元组)即可，而传统方法为了发现比较长的新词需要找到高阶的n元组，因此候选词的数量随着n的增大呈指数增长。因此本发明实施例的方法相对于传统方法，用迭代的计算算法取代了传统方法中的直接计算算法，极大减小了方法的空间和时间复杂度。

进一步地，在步骤S8中，在每次迭代完成后，将发现的新词加入新词列表，并将新词列表作为预设汉语分析工具的用户自定义词典，以在下一次分词操作中，将上一次迭代过程中发现的新词正确地划分，从而可以不断优化分词结果。并且优化后的分词结果进而可以提高候选新词的质量。

综上，根据本发明实施例的基于海量微博文本和用户信息的网络新词自动提取的方法，利用微博数据的特点，在微博文本的基础上，综合考虑了用户信息，同时建立了一种迭代计算算法来自动提取网络新词；并且相对于传统方法的结果，该方法产生的结果具有较高的准确性和较低的时间和空间复杂度，在社交媒体数据的挖掘和分析中具有重要的应用。

为了便于更好地理解本发明，以下以新浪微博数据为例，结合具体的实施例来对本发明上述实施例的基于海量微博文本和用户信息的网络新词自动提取的方法做进一步详细地描述。

在本实施例中，该方法例如包括以下步骤：

步骤1：利用新浪微博对应的API(新浪微博提供的应用程序编程接口)爬取大量新浪微博用户发布的微博数据，包括所有微博文本及对应用户的标识符符(用户名或者用户ID等能唯一表征用户的属性)，数据集合记为D，其中每一项包括微博文本内容D_i以及用户标识符符S_i；即D＝{(D_i,S_i)|i＝1,2,3…}，为后续的新词检测任务做数据准备。

步骤2：定义一个新词列表W，初始化新词列表W为空集。该方法会对W持续更新，W最终的内容就是整个方法的输出结果，即提取到的网络新词。

步骤3：将新词列表W作为汉语分析工具的用户自定义词典，并利用该汉语分析工具对微博数据集合D中的各个文本内容D_i进行分词操作，从而得到每个微博的分割词段的集合，记为w，w＝{w_i|i＝1,2,3…}，w_i为各个分割词段。新词列表W不断地更新使得新发现的网络新词可以不断优化分词结果。

步骤4：根据步骤3中得到的分词结果中的分割词段，统计各个词段的词频信息。对于每一个分割词段w_i，分别统计其在微博文本和用户两个维度的词频信息。具体为：对于每一个词段w_i，在微博文本内容这个维度上，统计有多少篇微博含有词段w_i，结果记为以及基于用户使用信息的维度上，统计有多少个用户使用了词段w_i，结果记为因此，此步骤最终完成了从微博文本内容以及用户使用信息到词段频次表的映射。最终，将得到的词段频次表记为G，

步骤5：在统计得到各个分割词段的频次信息之后，利用该信息对新词列表W进行更新。对于新词列表W中每一个词，根据词段频次表G中的信息，将对应的微博文本内容词频小于第一频次阈值的词语从W中滤除。而之所以在每一次分词之后对W中的词进行词频统计，之后再进行滤除操作，是因为将新词列表W作为汉语分析工具的用户自定义词典加入了分词操作当中，可以让分词工具根据W中的各个词语找到对微博文本更加合适的划分，从而优化分词结果，并且可以根据优化后的分词结果再滤除之前发现的错误的新词。

步骤6：利用分割词段找到海量微博文本中所有的二元组和三元组。二元组由在微博文本内容中相邻的两个分割词段w_i组成，记为w²＝w₁w₂，而三元组为在微博文本内容中相邻的三个分割词段w_i组成，记为w³＝w₁w₂w₃，将二元组和三元组统一记为wⁿ，这些二元组和三元组即构成了候选新词。

步骤7：对于每一个候选新词wⁿ，利用与之前统计词段频次表相同的方法，分别基于其所在文本内容和对应用户信息两个维度，统计其词频信息，结果记为F，其中，得到的结果F为包含所有可能候选新词的集合。进一步地，基于统计学习的方法，根据其文本词频信息和用户使用情况计算F中的每一个词是否是新词。首先基于强化互信息EMI理论，计算每个词语基于文本频次的EMI得分，公式如下：

其中，和分别代表词语wⁿ和的基于微博文本的频次，T是微博的总数目，n是n元组中的参数n(n＝2或3)。词语wⁿ的EMI得到越高，表示组成这个词语wⁿ的各个分割词段有更强的关联性，则这个词语wⁿ越有可能是网络新词。

然后，利用词语在用户之间的分布信息计算用户之间的EMI得分，公式如下：

其中，和分别代表词语wⁿ和的基于用户使用的频次，T_u是用户的总数目，n是n元组中的参数n(n＝2或3)。词语wⁿ的用户EMI得到越高，表示这个词语wⁿ可能被更多的用户所使用，并且在不同用户之间有更强的关联性，则这个词语wⁿ越有可能是流行的网络新词。

最后，将候选新词wⁿ的关联性得分ascore定义为：

ascore(wⁿ)＝EMI(wⁿ)+usrEMI(wⁿ)，

其中，对于一个候选新词wⁿ，其关联性得分越高，说明组成这个词语的各个分割词段在微博文本和用户使用两个维度上有更强的关联性。同时由于该词语wⁿ没有被分词工具正确地检测到，因此wⁿ很可能就是从微博中发现的用户自定义的流行词汇，即网络新词。

根据先验知识，“新词”是大家能接受的新出现的、有一定语义的、并且不存在于传统词典里的词，因此新词一定是被很多不同用户广泛使用的。词语的频次信息和其关联性得分可以很好的反映上述指标，因此如果词语wⁿ的关联性得分大于关联性得分阈值，并且词语wⁿ的频次也大于频次阈值，则将词语wⁿ加入候选新词列表W。

以上步骤7是该方法的一次迭代，不断重复以上步骤，直到某一次迭代最终没有产生新的词语加入新词列表W，并且也没有新词列表中的词语被删除，则终止迭代过程，此时的新词列表W中的每一项均为本发明的方法提取的网络新词。

综上，在本实施例中该方法具有如下特点：利用了微博用户维度上的词语分布信息。相对于传统的方法，该方法利用统计学方法，基于强化互信息(EMI)理论，不仅对新词在文本内容维度上的分布做了分析，同时利用微博这个网络信息载体的特性，分析了新词在不同用户之间的使用分布情况,这一点可以较明显地提升该方法发现的新词的准确率。另外，本方法建立了一种迭代计算算法进行新词自动提取步骤，而不同于传统方法直接进行计算。首先，这一点能有效地降低该方法的时间和空间复杂度。原始的基于EMI的新词检测算法中，为了一次找到所有的新词，需要找到高阶的n元组，即找到文本中任意不大于n的连续分割词段的组合。然而随着n的增大，候选词的数量呈现指数增长，对内存和时间的消耗也急剧增大。而该方法采用迭代的方式，可以在每次迭代过程中只使用二元组和三元组，之后通过多次的合并操作来发现更长的词语组合，因此该方法能有效降低对内存的需求，具有较低的时间和空间复杂度。另一方面，在每一次迭代的步骤中，可以产生识别到的候选新词，该方法利用该候选新词优化下一次的分词操作，进而利用优化后的分词结果滤除之前发现的新词集合中不合格的项，这一点可以进一步提升该方法发现的新词的准确率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种基于海量微博文本和用户信息的网络新词自动提取的方法，其特征在于，包括以下步骤：

S1：获取微博数据，其中，所述微博数据包括微博文本及微博对应的作者标识符；

S2：建立新词列表，其中，所述新词列表初始化为空集；

S3：将所述新词列表加入预设的汉语分析工具中，并根据所述汉语分析工具对所述微博文本进行分词操作，以将所述微博文本映射成分割词段的集合，并分别统计各个分割词段基于文本和用户两个维度的词频信息；

S4：根据得到的词频信息更新所述新词列表中对应词语的词频信息，并将词语频次小于第一频次阈值的词语从所述新词列表中删除；

S5：将分词操作中n个连续出现的分割词段定义为n元组，统计微博数据中所有的二元组和三元组，并将所述二元组和三元组作为候选新词；

S6：根据所述候选新词在文本和用户两个维度的分布，统计所述候选新词基于文本和用户两个维度的词频信息，并计算所述候选新词的关联性得分；

S7：将所述候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至所述新词列表；以及

S8：迭代执行所述S3至S7，直至所述微博数据中没有新的候选新词产生且所述新词列表中没有候选新词被删除。

2.根据权利要求1所述的基于海量微博文本和用户信息的网络新词自动提取的方法，其特征在于，其中，在迭代执行所述S3至S7的过程中，通过迭代计算算法迭代式地合并分词结果中的分割词段，其中，在每次迭代过程中仅需查找微博数据中的二元组和三元组。

3.根据权利要求2所述的基于海量微博文本和用户信息的网络新词自动提取的方法，其特征在于，在所述S8中，还包括：

在每次迭代完成后，将发现的新词加入所述新词列表，并将所述新词列表作为预设汉语分析工具的用户自定义词典，以在下一次分词操作中，将上一次迭代过程中发现的新词正确地划分。

4.根据权利要求1所述的基于海量微博文本和用户信息的网络新词自动提取的方法，其特征在于，所述S6进一步包括：

基于强化互信息EMI理论，计算每个词语基于文本频次的EMI得分，具体为：

根据所述基于文本频次的EMI得分和用户之间的EMI得分得到候选新词的关联性得分，具体为：

ascore(wⁿ)＝EMI(wⁿ)+usrEMI(wⁿ)，

其中，ascore(wⁿ)为候选新词wⁿ的关联性得分。