CN111460796A - 一种基于词网络的偶发敏感词发现方法 - Google Patents

一种基于词网络的偶发敏感词发现方法 Download PDF

Info

Publication number
CN111460796A
CN111460796A CN202010234909.9A CN202010234909A CN111460796A CN 111460796 A CN111460796 A CN 111460796A CN 202010234909 A CN202010234909 A CN 202010234909A CN 111460796 A CN111460796 A CN 111460796A
Authority
CN
China
Prior art keywords
word
core
sensitive
network
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010234909.9A
Other languages
English (en)
Other versions
CN111460796B (zh
Inventor
赵吉昌
赵怡雯
杨阳
盛浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing University of Aeronautics and Astronautics
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN202010234909.9A priority Critical patent/CN111460796B/zh
Publication of CN111460796A publication Critical patent/CN111460796A/zh
Application granted granted Critical
Publication of CN111460796B publication Critical patent/CN111460796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于词网络的偶发敏感词发现方法,借助互联网公开文本数据或者其他渠道获取的互联网文本信息,以及对应的文本语言设置和发文具体时间;提取文本,以时间粒度(一般设定为1天)为单位进行时间划分,结合既有的常见敏感词词典筛选特定语言的敏感文本,按照文本中标点符号的位置切割得到若干短文本,对短文本进行分词处理;以短文本为基础构建词网络,计算词网络的最大K‑core值,以及网络中每个单词的K‑core值和核心系数;对选定的核心词,提取该核心词在指定历史时期(一般设定为30天)内处于核心位置的次数,以及在指定历史时期内不处于核心位置的时间段的平均核心系数,最后利用检测公式发现词网络中的偶发敏感词。

Description

一种基于词网络的偶发敏感词发现方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于词网络的偶发敏感词发现方法。
背景技术
网络敏感词是指,实时被网络技术屏蔽或话题追踪的涉及政治敏感倾向,暴力倾向,不健康色彩词或不文明用语等。在当今的网络环境中,长期处于讨论核心的敏感词往往可以通过网络技术进行检测和屏蔽,这些高频敏感词组成了固定的敏感词词典。然而在敏感词管理中,对于偶发性敏感词的研究却比较少。这些偶发性的敏感词从未处于固定的敏感词词典中,但随着部分突发事件或者流行话题的演化,往往会突发性地在一定时间段内与高频敏感词产生密切关联,且在一定时间段之后又突然衰退并不再被继续使用,这给传统的以人工维护更新为主的敏感词词典的实时动态管理带来新的挑战。
在互联网环境中每天都会产生海量文本数据,这些文本通过社交媒体、论坛等平台快速传播。因此,从海量文本中快速检测出互联网敏感词尤其是具有偶发性的敏感词具有重要的实际价值,其中,偶发敏感词在大部分天数中处于敏感话题边缘,没有关注度,却在特定几天处于核心位置,与众多处于核心的敏感词连接,具有特别关注的价值。然而目前对于偶发敏感词却缺乏一套完备、快速的发现方法来对应。
发明内容
为解决上述技术问题,本发明提供了一种基于词网络的偶发敏感词发现方法,通过总结来自互联网的文档构建词网络,并以此为基础通过计算K-core 值等构建一种发现偶发敏感词的方案,该方法可以考虑到不同词汇在具有敏感性议题中的核心、重要程度,也能将不同时间段上的网络文本统一到统一区间内,方便进行不同时间段之间的对比,可以对敏感词的偶发性进行直观、清晰的定义与计算。
一种基于词网络的偶发敏感词发现方法,包括:
步骤一:通过互联网公开文本数据或者其他社交平台的文本信息采集渠道采集互联网文本数据,为建立词网络提供数据基础;
步骤二:针对获取的文本数据,将其进行时间划分以及内容、语言的筛选,得到包含敏感词的文本,提取所述包含敏感词的文本进行切割和分词、去除停用词处理,并进行时间划分,得到以时间粒度划分的敏感性短文本数据组;
步骤三:选定敏感性短文本数据组建立词网络,将步骤二分词后的各个单词记作节点,以天为单位,构建无向加权的词网络结构;
步骤四:以步骤三构建的无向加权词网络结构为基础,选定特定日期的词网络,计算无向加权词网络结构的最大K-core值Kmax以及该网络图中每个单词在网络结构中对应的K-core数值Kmax以及核心系数αw,对于任意单词,定义以下单词核心系数αw来衡量单词在词网络中的核心程度:αw=Kw/Kmax;通过核心系数αw可以发现该时段词网络中的核心词;
步骤五:为了进一步在核心词中发现偶发敏感词,对于选定的核心词,需要提取该核心词在历史时期N内不同的词网络结构中处于核心位置的次数,以及在历史时期N内该核心词在不处于核心位置的次数中的平均核心系数;
步骤六:对于选定的核心词,以步骤五中得到的所述次数以及所述平均核心系数为基础,其中所述次数为Nw,所述平均核心系数为αavg,通过以下两个条件发现词网络中的偶发敏感词:
Figure BDA0002430656320000021
(2)αavg<δ
其中,条件(1)检测单词在历史时期N内属于核心讨论位置的比例是否超过阈值β,若超过阈值β,则代表其频繁处于核心讨论位置,不符合偶发的特征;条件(2)则检测单词在历史时期N内不处于核心讨论位置时的平均核心系数是否超过阈值δ,若小于阈值δ,则反映该单词为偶发敏感词。
进一步,所述步骤一中,所述互联网文本数据包括发文时间、文本语言设置以及文本内容。
进一步,所述步骤二中,以所述时间粒度划分为不同的时间段,以所述文本数据对应的语言设置为基础筛选并保留使用特定语言的文本,针对筛选出的文本利用既有的常见敏感词词典进行进一步筛选,得到包含固定敏感词的文本;针对所述包含固定敏感词的文本,按照文本中标点符号的位置对所述包含固定敏感词的文本进行切割,得到若干短文本;将全部短文本分别进行分词、去除停用词的处理,最终得到以日期划分的敏感性短文本数据组。
进一步,所述步骤三中,构建词网络结构的方法为:对任意单词a、b,若一天中a、b在同一条短文本出现,则当天词网络中两个节点a、b之间记为存在边,a、b在不同短文本中共同出现的次数记为边的权重,以此为基础构建无向加权的词网络结构。
进一步,所述步骤四中,K-core值计算方法如下:设图G中的联通子图Gk, Gk中的所有顶点的度deg(v)≥k,当一个顶点属于Gk,但不属于Gk+1,则这个顶点的K-core值为k,所述单词核心系数αw数值范围在[0,1]之间,该数值越接近1则说明对应词语越接近议题的讨论核心,反之该数值越接近0,则代表该单词越接近讨论的边缘,αw大于阈值αlimt的单词属于本时段话题的核心。
进一步,所述阈值αlimt设定为0.8。
进一步,所述步骤五中,核心词在历史时期N内不同的词网络结构中处于核心位置的次数为词W的核心系数αw大于阈值αlimt的次数,记为Nw,设该词W 在历史时期内不处于核心位置的时间段集合为DW={d1,d2...},计算在Dw的时间段中该词W的平均核心系数αavg
进一步,所述步骤二中时间粒度设定为1天。
进一步,所述步骤五中核心词历史时段N设定为30天。
进一步,所述步骤六中阈值β设定为0.25;阈值δ设定为0.3。
本发明一种基于词网络的偶发敏感词发现方法,本发明的有益效果在于:
本发明中检测偶发敏感词方法是数据驱动型,在智能设备快速发展的背景下,互联网络文本数据收集方便、及时。同时,本方法不需要大量的数据进行复杂模型的训练,发现方法简洁快速、简单直接并且敏感度高,能够在突发话题的背景下迅速发现新的敏感词,对过滤文本提供帮助。本方法基于互联网环境中真实有效的文本数据,通过建立词网络直观地描述敏感性文本中单词之间的结构与关系,从而映射真实网络环境中关于敏感议题讨论的结构与演化,有比较大的实际应用价值和现实意义。本方法是基于单词的历史情况来发现偶发敏感词的,因此随着历史数据的不断更迭,能够具备演变能力,使之更稳定、更真实地发现当前的偶发并具有关注的价值的敏感词。本方法发现的偶发敏感词具有两个特征:第一,不频繁处于核心讨论位置;第二,该单词在特定几天突然处于讨论中心,其他时间都处于敏感话题的边缘;代表该单词会在特定时间段与频繁处于核心讨论位置的敏感词共同出现在大量文本内容中,可以结合实事进一步分析该单词偶发的原因,对突发敏感话题的深入理解也同样具有特别重要的价值。
本发明围绕固定的敏感词词典,利用互联网文本数据构建词网络,通过计算核数的变化来发现偶发词。由于速度快,敏感度高,因此本发明能够在突发话题的背景下迅速发现新敏感词并对过滤相关文本内容提供技术支持。
附图说明
图1为本发明中流程示意图;
图2为本发明检测某敏感词的偶发性示意图;
图3为本发明实施例中某个偶发敏感词H-M核心词结构变化前示意图;
图4为本发明实施例中某个偶发敏感词H-M核心词结构变化后示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
为清楚地说明本发明的设计思想,下面结合实施例对本发明进行说明。
图1为本发明实施例的基于词网络的偶发敏感词发现方法的流程图,如图 1所示,一种基于词网络的偶发敏感词发现方法,包括:
步骤1、借助互联网公开文本数据或者其他社交平台的文本信息采集渠道采集包含发文时间、文本语言设置、文本内容等信息的互联网文本数据,为建立词网络提供数据基础。
步骤2、针对获取的文本数据以及对应的语言设置,按一定时间粒度(天) 将所有数据划分为不同的时间段,针对该数据对应的语言设置为基础筛选并保留使用特定语言的文本,利用既有的常见敏感词词典,针对筛选出的文本进行进一步筛选,得到包含固定敏感词的文本;针对每一条筛选文本,按照文本中标点符号的位置进行切割,得到若干短文本;将全部短文本分别进行分词、去除停用词的处理,最终得到以日期划分的敏感性短文本数据组。
步骤3、选定数据组建立词网络,将步骤2分词后的各个单词记作节点,对任意单词a、b,若一天中a、b在同一条短文本出现,则当天词网络中两个节点a、b之间记为存在边,a、b在不同短文本中共同出现的次数记为边的权重,以此为基础构建无向加权的词网络结构。
步骤4、以步骤3构建的无向加权词网络结构为基础,选定特定日期的词网络,计算该网络图的最大K-core值Kmax以及该网络图中每个节点,即每个单词在网络结构中对应的K-core数值Kw,K-core值计算方法如下:设图G中的联通子图Gk,Gk中的所有顶点的度deg(v)≥k,当一个顶点属于Gk,但不属于GK+1,则这个顶点的K-core值为k。对于任意单词,定义以下单词核心系数αw来衡量单词在词网络中的核心程度:
Figure BDA0002430656320000061
该指数数值范围在[0,1]之间,该数值越接近1则说明对应词语越接近议题的讨论核心,反之该数值越接近0,则代表该单词越接近讨论的边缘。通过历史数据统计得知,αw大于一定阈值αlimt(一般设定为0.8)的单词属于当日话题的核心,因此通过核心系数αw可以发现当天词网络中的核心词,需要进一步在核心词中发现偶发敏感词。
步骤5、对于选定的核心词,需要提取该核心词历史时期N(一般设定为 30天)内处于核心位置,即词w的核心系数αw大于αlimt的次数,记为Nw,设该词w在历史时期内不处于核心位置的时间段集合为DW={d1,d2…},计算在DW的时间段中该词w的平均核心系数αavg
步骤6、对于选定的核心词,以步骤5中得到的Nw,αavg为基础,通过两个条件发现词网络中的偶发敏感词:
Figure BDA0002430656320000062
(2)αavg<δ
其中,条件1检测单词在历史时期N内属于核心讨论位置的比例是否超过阈值β(一般设定为0.25),若超过,则代表其频繁处于核心讨论位置,不符合偶发的特征。条件2则检测单词在历史时期N内不处于核心讨论位置时的平均核心系数是否超过阈值δ(一般设定为0.3),若小于δ,则反映该单词在大部分天数中处于敏感话题边缘,没有关注度,却在特定几天突然处于核心位置,与众多处于核心的敏感词连接,具有特别关注的价值,该单词为偶发敏感词。
在本实施例中,关于数据采集,以推特平台公开的2016年11月用户帖文数据为例,该数据集提供了发帖时间、用户语言设置、帖文内容等相关信息。实际上,如今通过人工设置、大数据、人工智能、算法等手段对社交媒体平台的帖文进行实时跟踪、抓取已经比较容易,进一步确保了本方法的可行性与可用性。
将采集到的数据以天为时间粒度进行划分,将11月的数据集划分为30个数据组。汇总政治敏感词构建政治敏感词词典,遍历30个数据组,筛选并保留语言代码为"zh","zh-CN","zh-HK","zh-MO","zh-SG"或者"zh-TW"的推特,并且判断推特中是否包含政治敏感词,若是,则保留该推特,若不是则删除;针对每一条推特按照推特文本中的标点符号位置进行切割,得到若干短文本,并将全部短文本分别进行分词、去除停用词的处理,对最终筛选出的短文本按照原来所属的数据组进行存储,得到30个新数据组,以便于后续构建词网络结构。
遍历30个数据组,针对每个数据组建立无向加权的词网络结构,对任意单词a、b,若单词a、b处于同一条短文本,则在当天词网络结构中添加两个节点a、b,在a、b之间添加边,边权重记为1,若a、b之后又在不同短文本中共同出现,则权重加1,如此a、b两个节点之间边的权重即为a、b两个单词在同一个短文本中出现的次数,按照此方法得到30个无向加权图,分别对应 11月每一天的推特词网络结构。
选定特定日期的词网络结构,计算该网络图的最大K-core值Kmax,以及该网络图中每个单词在网络中的K-core值Kw。对于任意单词,计算衡量单词核心程度的单词核心系数αw,计算方法如下:
αw=KW÷Kmax
例如,2016年11月30日的词网络Kmax值为52,单词“人权”的K-core 值为43,则其αw值为
αw=43÷52=0.83。
“人权”的单词核心系数大于阈值(一般设定为0.8),说明“人权”这一单词在当天处于政治敏感性话题的讨论核心;在同一词网络结构的单词“宪章”的K-core值为11,则其αw值为
αw=11÷52=0.21。
“宪章”的单词核心系数小于阈值(一般设定为0.8),说明“宪章”这一单词在当天处于政治敏感性话题的讨论较为边缘的位置。
对于选定的核心词,提取该核心词过去历史时期N(一般设定为30天)
内核心系数αw在0.8及以上的次数Nw,记录该单词w在历史时期N内不处于核心位置的天数集合为DW={d1,d2…},计算在DW的天数中该单词w的平均核心系数αavg。举例来说,2016年11月30日的核心词“人权”在过去30 天内的核心系数αw有9次大于等于0.8,27次小于0.8,在21天内的平均核心系数为0.21,则单词“人权”Nw=9,αavg=0.21。
对于选定的核心词,通过两个条件发现词网络中的偶发敏感词:
Figure BDA0002430656320000081
(2)αavg<δ
β、δ一般分别设定为0.25、0.3,若皆满足,则认为该单词为偶发敏感词。举例来说,2016年11月30日的核心词“新加坡”Nw=2,αavg=0.27,满足条件(1)(2),判断其具有偶发性,调阅相关推特内容可知,“新加坡”一词的偶发主要是针对2016年11月底c国在香港扣押新加坡装甲车一事,关于是否是在对TW当局施压引发了诸多讨论。
图2为2016年10月24日至11月23日推特平台词网络K-core值变化情况,A曲线代表词网络最大K-core值Kmax的变化趋势,B曲线、D曲线分别代表词网络Kmax*0.8和Kmax*0.3的变化趋势,C曲线则代表某个敏感词在词网络的变化趋势。在11月20日至22日,“某个敏感词成为偶发核心词,与当时的实事相符:“2016年1月19日至23日,c国领导人对沙特、埃及、伊朗进行国事访问。3国在此访期间分别同c国签署了关于某战略的谅解备忘录,c国和沙特还签署了加强‘网上丝绸之路’建设合作的谅解备忘录,引起了广泛讨论,使得某个敏感词与“百姓”、“权利”等长期处于核心位置的词汇相连;通过该检测方法,可以清晰、准确的抓取出不同日期偶发的敏感性词汇。
应用本发明中检测方法可以对偶发敏感词进行多方面的分析,比如,可以进一步检测偶发性敏感词偶发的原因并分类,比如是否为一种政治敏感单词的新隐喻,是否是因为某些突发的政治事件引起的广泛讨论。图3代表2016年 11月份偶发性词汇“H-M”出现之前长期存在的核心词结构,节点代表核心单词,边的粗细代表边的权重;图4代表2016年11月偶发性词汇出现之后与该核心词结构的连接状态;可以分析出2016年11月的数日在H-M地区突发了争议性的社会事件,此结果与事实相符。
上述示例中,本发明中检测偶发敏感词方法是数据驱动型,在智能设备快速发展的背景下,互联网络文本数据收集方便、及时。同时,本方法不需要大量的数据进行复杂模型的训练,发现方法简洁快速、简单直接并且敏感度高,能够在突发话题的背景下迅速发现新的敏感词,对过滤文本提供帮助。本方法基于互联网环境中真实有效文本数据,通过建立词网络直观地描述敏感性文本中单词之间的结构与关系,从而映射真实网络环境中关于敏感议题讨论的结构与演化,有比较大的实际应用价值和现实意义。本方法是基于单词的历史情况来发现偶发敏感词的,因此随着历史数据的不断更迭,能够具备演变能力,使之更稳定、更真实地发现当前的偶发并具有关注的价值的敏感词。本方法发现的偶发敏感词具有两个特征:第一,不频繁处于核心讨论位置;第二,该单词在特定几天突然处于讨论中心,其他时间都处于敏感话题的边缘;代表该单词会在特定时间段与频繁处于核心讨论位置的敏感词共同出现在大量文本内容中,可以结合实事进一步分析该单词偶发的原因,对突发异常话题的深入理解也同样具有特别重要的价值。
本发明围绕固定的敏感词词典,利用互联网文本数据构建词网络,通过计算核数的变化来发现偶发词。由于速度快,敏感度高,因此本发明能够在突发话题的背景下迅速发现新敏感词并对过滤相关文本内容提供技术支持。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于词网络的偶发敏感词发现方法,其特征在于,所述方法包括:
步骤一:通过互联网公开文本数据或者其他社交平台的文本信息采集渠道采集互联网文本数据,为建立词网络提供数据基础;
步骤二:针对获取的文本数据,将其进行时间划分以及内容、语言的筛选,得到包含敏感词的文本,提取所述包含敏感词的文本进行切割和分词、去除停用词处理,并进行时间划分,得到以时间粒度划分的敏感性短文本数据组;
步骤三:选定敏感性短文本数据组建立词网络,将步骤二分词后的各个单词记作节点,以时间粒度为单位,构建无向加权的词网络结构;
步骤四:以步骤三构建的无向加权词网络结构为基础,选定特定时间段的词网络,计算无向加权词网络结构的最大K-core值Kmax以及该网络图中每个单词在网络结构中对应的K-core数值Kmax以及核心系数αw,对于任意单词,定义以下单词核心系数αw来衡量单词在词网络中的核心程度:αw=Kw/Kmax;通过核心系数αw可以发现该时间段内词网络中的核心词;
步骤五:为了进一步在核心词中发现偶发敏感词,对于选定的核心词,需要提取该核心词在历史天数N内不同的词网络结构中处于核心位置的次数,以及在历史天数N内该核心词在不处于核心位置的天数中的平均核心系数;
步骤六:对于选定的核心词,以步骤五中得到的所述次数以及所述平均核心系数为基础,其中所述次数为Nw,所述平均核心系数为αavg,通过以下两个条件发现词网络中的偶发敏感词:
(1)
Figure FDA0002430656310000011
(2)αavg<δ
其中,条件(1)检测单词在历史时期N内属于核心讨论位置的比例是否超过阈值β,若超过阈值β,则代表其频繁处于核心讨论位置,不符合偶发的特征;条件(2)则检测单词在历史时期N内不处于核心讨论位置时的平均核心系数是否超过阈值δ,若小于阈值δ,则反映该单词为偶发敏感词。
2.根据权利要求1所述的基于词网络的偶发敏感词发现方法,其特征在于,所述步骤一中,所述互联网文本数据包括发文时间、文本语言设置以及文本内容。
3.根据权利要求1所述的基于词网络的偶发敏感词发现方法,其特征在于,所述步骤二中,以所述时间粒度划分为不同的时间段,以所述文本数据对应的语言设置为基础筛选并保留使用特定语言的文本,针对筛选出的文本利用既有的常见敏感词词典进行进一步筛选,得到包含固定敏感词的文本;针对所述包含固定敏感词的文本,按照文本中标点符号的位置对所述包含固定敏感词的文本进行切割,得到若干短文本;将全部短文本分别进行分词、去除停用词的处理,最终得到以时间粒度划分的敏感性短文本数据组。
4.根据权利要求1所述的基于词网络的偶发敏感词发现方法,其特征在于,所述步骤三中,构建词网络结构的方法为:对任意单词a、b,若一天中a、b在同一条短文本出现,则当天词网络中两个节点a、b之间记为存在边,a、b在该时间段内全部短文本中共同出现的次数记为边的权重,以此为基础构建无向加权的词网络结构。
5.根据权利要求1所述的基于词网络的偶发敏感词发现方法,其特征在于,所述步骤四中,K-core值计算方法如下:设图G中的联通子图Gk,Gk中的所有顶点的度deg(v)≥k,当一个顶点属于Gk,但不属于Gk+1,则这个顶点的K-core值为k,所述单词核心系数αw数值范围在[0,1]之间,该数值越接近1则说明对应词语越接近议题的讨论核心,反之该数值越接近0,则代表该单词越接近讨论的边缘,αw大于阈值αlimt的单词属于当日话题的核心。
6.根据权利要求5所述的基于词网络的偶发敏感词发现方法,其特征在于,所述阈值αlimt设定为0.8。
7.根据权利要求1所述的基于词网络的偶发敏感词发现方法,其特征在于,所述步骤五中,核心词在历史时期N内的词网络结构中处于核心位置的次数为词w的核心系数αw大于阈值αlimt的次数,记为Nw,设该词w在历史时段内不处于核心位置的次数集合为DW={d1,d2...},计算在Dw的天数中该词w的平均核心系数αavg
8.根据权利要求1所述的基于词网络的偶发敏感词发现方法,其特征在于,所述步骤二中时间粒度设定为1天。
9.根据权利要求7所述的基于词网络的偶发敏感词发现方法,其特征在于,所述步骤五中核心词历史时期N设定为30天。
10.根据权利要求1所述的基于词网络的偶发敏感词发现方法,其特征在于,所述步骤六中阈值β设定为0.25;阈值δ设定为0.3。
CN202010234909.9A 2020-03-30 2020-03-30 一种基于词网络的偶发敏感词发现方法 Active CN111460796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010234909.9A CN111460796B (zh) 2020-03-30 2020-03-30 一种基于词网络的偶发敏感词发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010234909.9A CN111460796B (zh) 2020-03-30 2020-03-30 一种基于词网络的偶发敏感词发现方法

Publications (2)

Publication Number Publication Date
CN111460796A true CN111460796A (zh) 2020-07-28
CN111460796B CN111460796B (zh) 2022-04-08

Family

ID=71684989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010234909.9A Active CN111460796B (zh) 2020-03-30 2020-03-30 一种基于词网络的偶发敏感词发现方法

Country Status (1)

Country Link
CN (1) CN111460796B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662474A (zh) * 2022-04-13 2022-06-24 马上消费金融股份有限公司 关键词的确定方法、装置、电子设备及存储介质
CN117216217A (zh) * 2023-09-19 2023-12-12 山东汇商脉网络科技有限公司 一种档案智能分类与检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098392A1 (en) * 2014-10-07 2016-04-07 Conversational Logic Ltd. System and method for automated alerts in anticipation of inappropriate communication
CN107784087A (zh) * 2017-10-09 2018-03-09 东软集团股份有限公司 一种热词确定方法、装置及设备
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN109885669A (zh) * 2019-01-30 2019-06-14 中国地质大学(武汉) 一种基于复杂网络的文本关键词获取方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098392A1 (en) * 2014-10-07 2016-04-07 Conversational Logic Ltd. System and method for automated alerts in anticipation of inappropriate communication
CN107784087A (zh) * 2017-10-09 2018-03-09 东软集团股份有限公司 一种热词确定方法、装置及设备
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN109885669A (zh) * 2019-01-30 2019-06-14 中国地质大学(武汉) 一种基于复杂网络的文本关键词获取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAIYAN JIA等: "Concept decompositions for short text clustering by identifying word communities", 《PATTERN RECOGNITION》 *
胡昌平等: "领域知识网络的层次结构与微观形态探证——基于k-core层次划分的共词分析方法——基于k-core层次划分的共词分析方法", 《情报学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662474A (zh) * 2022-04-13 2022-06-24 马上消费金融股份有限公司 关键词的确定方法、装置、电子设备及存储介质
CN117216217A (zh) * 2023-09-19 2023-12-12 山东汇商脉网络科技有限公司 一种档案智能分类与检索方法
CN117216217B (zh) * 2023-09-19 2024-03-22 山东汇商脉网络科技有限公司 一种档案智能分类与检索方法

Also Published As

Publication number Publication date
CN111460796B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
Wu et al. Disaster early warning and damage assessment analysis using social media data and geo-location information
Meng et al. Rating the crisis of online public opinion using a multi-level index system
Cribbie Multiplicity control in structural equation modeling
CN107273496B (zh) 一种微博网络地域突发事件的检测方法
CN108399241B (zh) 一种基于多类特征融合的新兴热点话题检测系统
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN108417274A (zh) 流行病预测方法、系统及设备
CN106897930A (zh) 一种信用评估的方法及装置
CN111460796A (zh) 一种基于词网络的偶发敏感词发现方法
CN114860833A (zh) 应用于数字孪生水利工程的数据中台和数据处理方法
Gu et al. [Retracted] Application of Fuzzy Decision Tree Algorithm Based on Mobile Computing in Sports Fitness Member Management
Wang et al. Urban crisis detection technique: A spatial and data driven approach based on latent Dirichlet allocation (LDA) topic modeling
CN111160959A (zh) 一种用户点击转化预估方法及装置
Cai et al. Tropical cyclone risk assessment for China at the provincial level based on clustering analysis
Çakıt et al. Application of soft computing techniques for estimating emotional states expressed in Twitter® time series data
CN109885797B (zh) 一种基于多身份空间映射的关系网络构建方法
Li et al. Entropy-based dynamic graph embedding for anomaly detection on multiple climate time series
CN109344643B (zh) 一种面向图中三角形数据发布的隐私保护方法及系统
Zhang A vulnerability assessment of storm surge in Guangdong Province, China
Cheng et al. Toward quantitative measures for the semantic quality of polygon generalization
Wu et al. A new approach to quantifying spatial contiguity using graph theory and spatial interaction
Dao et al. Exploring spatio-temporal-theme correlation between physical and social streaming data for event detection and pattern interpretation from heterogeneous sensors
CN110399382A (zh) 基于云模型及粗糙集的民航主数据识别方法及系统
CN114741515A (zh) 基于图生成的社交网络用户属性预测方法及系统
Al-Dharhani et al. Fuzzy-based shapelets for mining climate change time series patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant