CN111460796A

CN111460796A - 一种基于词网络的偶发敏感词发现方法

Info

Publication number: CN111460796A
Application number: CN202010234909.9A
Authority: CN
Inventors: 赵吉昌; 赵怡雯; 杨阳; 盛浩
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beihang University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Anticipated expiration: 2040-03-30
Also published as: CN111460796B

Abstract

一种基于词网络的偶发敏感词发现方法，借助互联网公开文本数据或者其他渠道获取的互联网文本信息，以及对应的文本语言设置和发文具体时间；提取文本，以时间粒度（一般设定为1天）为单位进行时间划分，结合既有的常见敏感词词典筛选特定语言的敏感文本，按照文本中标点符号的位置切割得到若干短文本，对短文本进行分词处理；以短文本为基础构建词网络，计算词网络的最大K‑core值，以及网络中每个单词的K‑core值和核心系数；对选定的核心词，提取该核心词在指定历史时期（一般设定为30天）内处于核心位置的次数，以及在指定历史时期内不处于核心位置的时间段的平均核心系数，最后利用检测公式发现词网络中的偶发敏感词。

Description

一种基于词网络的偶发敏感词发现方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于词网络的偶发敏感词发现方法。

背景技术

网络敏感词是指，实时被网络技术屏蔽或话题追踪的涉及政治敏感倾向，暴力倾向，不健康色彩词或不文明用语等。在当今的网络环境中，长期处于讨论核心的敏感词往往可以通过网络技术进行检测和屏蔽，这些高频敏感词组成了固定的敏感词词典。然而在敏感词管理中，对于偶发性敏感词的研究却比较少。这些偶发性的敏感词从未处于固定的敏感词词典中，但随着部分突发事件或者流行话题的演化，往往会突发性地在一定时间段内与高频敏感词产生密切关联，且在一定时间段之后又突然衰退并不再被继续使用，这给传统的以人工维护更新为主的敏感词词典的实时动态管理带来新的挑战。

在互联网环境中每天都会产生海量文本数据，这些文本通过社交媒体、论坛等平台快速传播。因此，从海量文本中快速检测出互联网敏感词尤其是具有偶发性的敏感词具有重要的实际价值，其中，偶发敏感词在大部分天数中处于敏感话题边缘，没有关注度，却在特定几天处于核心位置，与众多处于核心的敏感词连接，具有特别关注的价值。然而目前对于偶发敏感词却缺乏一套完备、快速的发现方法来对应。

发明内容

为解决上述技术问题，本发明提供了一种基于词网络的偶发敏感词发现方法，通过总结来自互联网的文档构建词网络，并以此为基础通过计算K-core 值等构建一种发现偶发敏感词的方案，该方法可以考虑到不同词汇在具有敏感性议题中的核心、重要程度，也能将不同时间段上的网络文本统一到统一区间内，方便进行不同时间段之间的对比，可以对敏感词的偶发性进行直观、清晰的定义与计算。

一种基于词网络的偶发敏感词发现方法，包括：

步骤一：通过互联网公开文本数据或者其他社交平台的文本信息采集渠道采集互联网文本数据，为建立词网络提供数据基础；

步骤二：针对获取的文本数据，将其进行时间划分以及内容、语言的筛选，得到包含敏感词的文本，提取所述包含敏感词的文本进行切割和分词、去除停用词处理，并进行时间划分，得到以时间粒度划分的敏感性短文本数据组；

步骤三：选定敏感性短文本数据组建立词网络，将步骤二分词后的各个单词记作节点，以天为单位，构建无向加权的词网络结构；

步骤四：以步骤三构建的无向加权词网络结构为基础，选定特定日期的词网络，计算无向加权词网络结构的最大K-core值K_max以及该网络图中每个单词在网络结构中对应的K-core数值K_max以及核心系数α_w，对于任意单词，定义以下单词核心系数α_w来衡量单词在词网络中的核心程度：α_w＝K_w/K_max；通过核心系数α_w可以发现该时段词网络中的核心词；

步骤五：为了进一步在核心词中发现偶发敏感词，对于选定的核心词，需要提取该核心词在历史时期N内不同的词网络结构中处于核心位置的次数，以及在历史时期N内该核心词在不处于核心位置的次数中的平均核心系数；

步骤六：对于选定的核心词，以步骤五中得到的所述次数以及所述平均核心系数为基础，其中所述次数为N_w，所述平均核心系数为α_avg，通过以下两个条件发现词网络中的偶发敏感词：

(2)α_avg＜δ

其中，条件(1)检测单词在历史时期N内属于核心讨论位置的比例是否超过阈值β，若超过阈值β，则代表其频繁处于核心讨论位置，不符合偶发的特征；条件(2)则检测单词在历史时期N内不处于核心讨论位置时的平均核心系数是否超过阈值δ，若小于阈值δ，则反映该单词为偶发敏感词。

进一步，所述步骤一中，所述互联网文本数据包括发文时间、文本语言设置以及文本内容。

进一步，所述步骤二中，以所述时间粒度划分为不同的时间段，以所述文本数据对应的语言设置为基础筛选并保留使用特定语言的文本，针对筛选出的文本利用既有的常见敏感词词典进行进一步筛选，得到包含固定敏感词的文本；针对所述包含固定敏感词的文本，按照文本中标点符号的位置对所述包含固定敏感词的文本进行切割，得到若干短文本；将全部短文本分别进行分词、去除停用词的处理，最终得到以日期划分的敏感性短文本数据组。

进一步，所述步骤三中，构建词网络结构的方法为：对任意单词a、b，若一天中a、b在同一条短文本出现，则当天词网络中两个节点a、b之间记为存在边，a、b在不同短文本中共同出现的次数记为边的权重，以此为基础构建无向加权的词网络结构。

进一步，所述步骤四中，K-core值计算方法如下：设图G中的联通子图G_k， G_k中的所有顶点的度deg(v)≥k，当一个顶点属于G_k，但不属于G_k+1，则这个顶点的K-core值为k，所述单词核心系数α_w数值范围在[0，1]之间，该数值越接近1则说明对应词语越接近议题的讨论核心，反之该数值越接近0，则代表该单词越接近讨论的边缘，α_w大于阈值α_limt的单词属于本时段话题的核心。

进一步，所述阈值α_limt设定为0.8。

进一步，所述步骤五中，核心词在历史时期N内不同的词网络结构中处于核心位置的次数为词W的核心系数α_w大于阈值α_limt的次数，记为N_w，设该词W 在历史时期内不处于核心位置的时间段集合为D_W＝{d1，d2...}，计算在D_w的时间段中该词W的平均核心系数α_avg。

进一步，所述步骤二中时间粒度设定为1天。

进一步，所述步骤五中核心词历史时段N设定为30天。

进一步，所述步骤六中阈值β设定为0.25；阈值δ设定为0.3。

本发明一种基于词网络的偶发敏感词发现方法，本发明的有益效果在于：

本发明中检测偶发敏感词方法是数据驱动型，在智能设备快速发展的背景下，互联网络文本数据收集方便、及时。同时，本方法不需要大量的数据进行复杂模型的训练，发现方法简洁快速、简单直接并且敏感度高，能够在突发话题的背景下迅速发现新的敏感词，对过滤文本提供帮助。本方法基于互联网环境中真实有效的文本数据，通过建立词网络直观地描述敏感性文本中单词之间的结构与关系，从而映射真实网络环境中关于敏感议题讨论的结构与演化，有比较大的实际应用价值和现实意义。本方法是基于单词的历史情况来发现偶发敏感词的，因此随着历史数据的不断更迭，能够具备演变能力，使之更稳定、更真实地发现当前的偶发并具有关注的价值的敏感词。本方法发现的偶发敏感词具有两个特征：第一，不频繁处于核心讨论位置；第二，该单词在特定几天突然处于讨论中心，其他时间都处于敏感话题的边缘；代表该单词会在特定时间段与频繁处于核心讨论位置的敏感词共同出现在大量文本内容中，可以结合实事进一步分析该单词偶发的原因，对突发敏感话题的深入理解也同样具有特别重要的价值。

本发明围绕固定的敏感词词典，利用互联网文本数据构建词网络，通过计算核数的变化来发现偶发词。由于速度快，敏感度高，因此本发明能够在突发话题的背景下迅速发现新敏感词并对过滤相关文本内容提供技术支持。

附图说明

图1为本发明中流程示意图；

图2为本发明检测某敏感词的偶发性示意图；

图3为本发明实施例中某个偶发敏感词H-M核心词结构变化前示意图；

图4为本发明实施例中某个偶发敏感词H-M核心词结构变化后示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

为清楚地说明本发明的设计思想，下面结合实施例对本发明进行说明。

图1为本发明实施例的基于词网络的偶发敏感词发现方法的流程图，如图 1所示，一种基于词网络的偶发敏感词发现方法，包括：

步骤1、借助互联网公开文本数据或者其他社交平台的文本信息采集渠道采集包含发文时间、文本语言设置、文本内容等信息的互联网文本数据，为建立词网络提供数据基础。

步骤2、针对获取的文本数据以及对应的语言设置，按一定时间粒度(天) 将所有数据划分为不同的时间段，针对该数据对应的语言设置为基础筛选并保留使用特定语言的文本，利用既有的常见敏感词词典，针对筛选出的文本进行进一步筛选，得到包含固定敏感词的文本；针对每一条筛选文本，按照文本中标点符号的位置进行切割，得到若干短文本；将全部短文本分别进行分词、去除停用词的处理，最终得到以日期划分的敏感性短文本数据组。

步骤3、选定数据组建立词网络，将步骤2分词后的各个单词记作节点，对任意单词a、b，若一天中a、b在同一条短文本出现，则当天词网络中两个节点a、b之间记为存在边，a、b在不同短文本中共同出现的次数记为边的权重，以此为基础构建无向加权的词网络结构。

步骤4、以步骤3构建的无向加权词网络结构为基础，选定特定日期的词网络，计算该网络图的最大K-core值K_max以及该网络图中每个节点，即每个单词在网络结构中对应的K-core数值K_w，K-core值计算方法如下：设图G中的联通子图G_k，G_k中的所有顶点的度deg(v)≥k，当一个顶点属于G_k，但不属于G_K+1，则这个顶点的K-core值为k。对于任意单词，定义以下单词核心系数α_w来衡量单词在词网络中的核心程度：

该指数数值范围在[0，1]之间，该数值越接近1则说明对应词语越接近议题的讨论核心，反之该数值越接近0，则代表该单词越接近讨论的边缘。通过历史数据统计得知，α_w大于一定阈值α_limt(一般设定为0.8)的单词属于当日话题的核心，因此通过核心系数α_w可以发现当天词网络中的核心词，需要进一步在核心词中发现偶发敏感词。

步骤5、对于选定的核心词，需要提取该核心词历史时期N(一般设定为 30天)内处于核心位置，即词w的核心系数α_w大于α_limt的次数，记为N_w，设该词w在历史时期内不处于核心位置的时间段集合为D_W＝{d1，d2…}，计算在D_W的时间段中该词w的平均核心系数α_avg。

步骤6、对于选定的核心词，以步骤5中得到的N_w，α_avg为基础，通过两个条件发现词网络中的偶发敏感词：

(2)α_avg＜δ

其中，条件1检测单词在历史时期N内属于核心讨论位置的比例是否超过阈值β(一般设定为0.25)，若超过，则代表其频繁处于核心讨论位置，不符合偶发的特征。条件2则检测单词在历史时期N内不处于核心讨论位置时的平均核心系数是否超过阈值δ(一般设定为0.3)，若小于δ，则反映该单词在大部分天数中处于敏感话题边缘，没有关注度，却在特定几天突然处于核心位置，与众多处于核心的敏感词连接，具有特别关注的价值，该单词为偶发敏感词。

在本实施例中，关于数据采集，以推特平台公开的2016年11月用户帖文数据为例，该数据集提供了发帖时间、用户语言设置、帖文内容等相关信息。实际上，如今通过人工设置、大数据、人工智能、算法等手段对社交媒体平台的帖文进行实时跟踪、抓取已经比较容易，进一步确保了本方法的可行性与可用性。

将采集到的数据以天为时间粒度进行划分，将11月的数据集划分为30个数据组。汇总政治敏感词构建政治敏感词词典，遍历30个数据组，筛选并保留语言代码为"zh"，"zh-CN","zh-HK","zh-MO","zh-SG"或者"zh-TW"的推特，并且判断推特中是否包含政治敏感词，若是，则保留该推特，若不是则删除；针对每一条推特按照推特文本中的标点符号位置进行切割，得到若干短文本，并将全部短文本分别进行分词、去除停用词的处理，对最终筛选出的短文本按照原来所属的数据组进行存储，得到30个新数据组，以便于后续构建词网络结构。

遍历30个数据组，针对每个数据组建立无向加权的词网络结构，对任意单词a、b，若单词a、b处于同一条短文本，则在当天词网络结构中添加两个节点a、b，在a、b之间添加边，边权重记为1，若a、b之后又在不同短文本中共同出现，则权重加1，如此a、b两个节点之间边的权重即为a、b两个单词在同一个短文本中出现的次数，按照此方法得到30个无向加权图，分别对应 11月每一天的推特词网络结构。

选定特定日期的词网络结构，计算该网络图的最大K-core值K_max，以及该网络图中每个单词在网络中的K-core值K_w。对于任意单词，计算衡量单词核心程度的单词核心系数α_w，计算方法如下：

α_w＝K_W÷K_max。

例如，2016年11月30日的词网络K_max值为52，单词“人权”的K-core 值为43，则其α_w值为

α_w＝43÷52＝0.83。

“人权”的单词核心系数大于阈值(一般设定为0.8)，说明“人权”这一单词在当天处于政治敏感性话题的讨论核心；在同一词网络结构的单词“宪章”的K-core值为11，则其α_w值为

α_w＝11÷52＝0.21。

“宪章”的单词核心系数小于阈值(一般设定为0.8)，说明“宪章”这一单词在当天处于政治敏感性话题的讨论较为边缘的位置。

对于选定的核心词，提取该核心词过去历史时期N(一般设定为30天)

内核心系数α_w在0.8及以上的次数N_w，记录该单词w在历史时期N内不处于核心位置的天数集合为D_W＝{d1，d2…}，计算在D_W的天数中该单词w的平均核心系数α_avg。举例来说，2016年11月30日的核心词“人权”在过去30 天内的核心系数α_w有9次大于等于0.8，27次小于0.8，在21天内的平均核心系数为0.21，则单词“人权”N_w＝9，α_avg＝0.21。

对于选定的核心词，通过两个条件发现词网络中的偶发敏感词：

(2)α_avg＜δ

β、δ一般分别设定为0.25、0.3，若皆满足，则认为该单词为偶发敏感词。举例来说，2016年11月30日的核心词“新加坡”N_w＝2，α_avg＝0.27，满足条件(1)(2)，判断其具有偶发性，调阅相关推特内容可知，“新加坡”一词的偶发主要是针对2016年11月底c国在香港扣押新加坡装甲车一事，关于是否是在对TW当局施压引发了诸多讨论。

图2为2016年10月24日至11月23日推特平台词网络K-core值变化情况，A曲线代表词网络最大K-core值K_max的变化趋势，B曲线、D曲线分别代表词网络K_max*0.8和K_max*0.3的变化趋势，C曲线则代表某个敏感词在词网络的变化趋势。在11月20日至22日，“某个敏感词成为偶发核心词，与当时的实事相符：“2016年1月19日至23日，c国领导人对沙特、埃及、伊朗进行国事访问。3国在此访期间分别同c国签署了关于某战略的谅解备忘录，c国和沙特还签署了加强‘网上丝绸之路’建设合作的谅解备忘录，引起了广泛讨论，使得某个敏感词与“百姓”、“权利”等长期处于核心位置的词汇相连；通过该检测方法，可以清晰、准确的抓取出不同日期偶发的敏感性词汇。

应用本发明中检测方法可以对偶发敏感词进行多方面的分析，比如，可以进一步检测偶发性敏感词偶发的原因并分类，比如是否为一种政治敏感单词的新隐喻，是否是因为某些突发的政治事件引起的广泛讨论。图3代表2016年 11月份偶发性词汇“H-M”出现之前长期存在的核心词结构，节点代表核心单词，边的粗细代表边的权重；图4代表2016年11月偶发性词汇出现之后与该核心词结构的连接状态；可以分析出2016年11月的数日在H-M地区突发了争议性的社会事件，此结果与事实相符。

上述示例中，本发明中检测偶发敏感词方法是数据驱动型，在智能设备快速发展的背景下，互联网络文本数据收集方便、及时。同时，本方法不需要大量的数据进行复杂模型的训练，发现方法简洁快速、简单直接并且敏感度高，能够在突发话题的背景下迅速发现新的敏感词，对过滤文本提供帮助。本方法基于互联网环境中真实有效文本数据，通过建立词网络直观地描述敏感性文本中单词之间的结构与关系，从而映射真实网络环境中关于敏感议题讨论的结构与演化，有比较大的实际应用价值和现实意义。本方法是基于单词的历史情况来发现偶发敏感词的，因此随着历史数据的不断更迭，能够具备演变能力，使之更稳定、更真实地发现当前的偶发并具有关注的价值的敏感词。本方法发现的偶发敏感词具有两个特征：第一，不频繁处于核心讨论位置；第二，该单词在特定几天突然处于讨论中心，其他时间都处于敏感话题的边缘；代表该单词会在特定时间段与频繁处于核心讨论位置的敏感词共同出现在大量文本内容中，可以结合实事进一步分析该单词偶发的原因，对突发异常话题的深入理解也同样具有特别重要的价值。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于词网络的偶发敏感词发现方法，其特征在于，所述方法包括：

步骤三：选定敏感性短文本数据组建立词网络，将步骤二分词后的各个单词记作节点，以时间粒度为单位，构建无向加权的词网络结构；

步骤四：以步骤三构建的无向加权词网络结构为基础，选定特定时间段的词网络，计算无向加权词网络结构的最大K-core值K_max以及该网络图中每个单词在网络结构中对应的K-core数值K_max以及核心系数α_w，对于任意单词，定义以下单词核心系数α_w来衡量单词在词网络中的核心程度：α_w＝K_w/K_max；通过核心系数αw可以发现该时间段内词网络中的核心词；

步骤五：为了进一步在核心词中发现偶发敏感词，对于选定的核心词，需要提取该核心词在历史天数N内不同的词网络结构中处于核心位置的次数，以及在历史天数N内该核心词在不处于核心位置的天数中的平均核心系数；

(1)

（2)α_avg＜δ

2.根据权利要求1所述的基于词网络的偶发敏感词发现方法，其特征在于，所述步骤一中，所述互联网文本数据包括发文时间、文本语言设置以及文本内容。

3.根据权利要求1所述的基于词网络的偶发敏感词发现方法，其特征在于，所述步骤二中，以所述时间粒度划分为不同的时间段，以所述文本数据对应的语言设置为基础筛选并保留使用特定语言的文本，针对筛选出的文本利用既有的常见敏感词词典进行进一步筛选，得到包含固定敏感词的文本；针对所述包含固定敏感词的文本，按照文本中标点符号的位置对所述包含固定敏感词的文本进行切割，得到若干短文本；将全部短文本分别进行分词、去除停用词的处理，最终得到以时间粒度划分的敏感性短文本数据组。

4.根据权利要求1所述的基于词网络的偶发敏感词发现方法，其特征在于，所述步骤三中，构建词网络结构的方法为：对任意单词a、b，若一天中a、b在同一条短文本出现，则当天词网络中两个节点a、b之间记为存在边，a、b在该时间段内全部短文本中共同出现的次数记为边的权重，以此为基础构建无向加权的词网络结构。

5.根据权利要求1所述的基于词网络的偶发敏感词发现方法，其特征在于，所述步骤四中，K-core值计算方法如下：设图G中的联通子图G_k，G_k中的所有顶点的度deg(v)≥k，当一个顶点属于G_k，但不属于G_k+1，则这个顶点的K-core值为k，所述单词核心系数α_w数值范围在[0,1]之间，该数值越接近1则说明对应词语越接近议题的讨论核心，反之该数值越接近0，则代表该单词越接近讨论的边缘，α_w大于阈值α_limt的单词属于当日话题的核心。

6.根据权利要求5所述的基于词网络的偶发敏感词发现方法，其特征在于，所述阈值α_limt设定为0.8。

7.根据权利要求1所述的基于词网络的偶发敏感词发现方法，其特征在于，所述步骤五中，核心词在历史时期N内的词网络结构中处于核心位置的次数为词w的核心系数α_w大于阈值α_limt的次数，记为N_w，设该词w在历史时段内不处于核心位置的次数集合为D_W＝{d1，d2...}，计算在D_w的天数中该词w的平均核心系数α_avg。

8.根据权利要求1所述的基于词网络的偶发敏感词发现方法，其特征在于，所述步骤二中时间粒度设定为1天。

9.根据权利要求7所述的基于词网络的偶发敏感词发现方法，其特征在于，所述步骤五中核心词历史时期N设定为30天。

10.根据权利要求1所述的基于词网络的偶发敏感词发现方法，其特征在于，所述步骤六中阈值β设定为0.25；阈值δ设定为0.3。