CN107168943B - 话题预警的方法和装置 - Google Patents

话题预警的方法和装置 Download PDF

Info

Publication number
CN107168943B
CN107168943B CN201710225685.3A CN201710225685A CN107168943B CN 107168943 B CN107168943 B CN 107168943B CN 201710225685 A CN201710225685 A CN 201710225685A CN 107168943 B CN107168943 B CN 107168943B
Authority
CN
China
Prior art keywords
keyword
self
target
similarity
early warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710225685.3A
Other languages
English (en)
Other versions
CN107168943A (zh
Inventor
王健宗
黄章成
吴天博
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710225685.3A priority Critical patent/CN107168943B/zh
Priority to SG11201809697YA priority patent/SG11201809697YA/en
Priority to PCT/CN2017/090579 priority patent/WO2018184306A1/zh
Priority to US16/090,351 priority patent/US11205046B2/en
Publication of CN107168943A publication Critical patent/CN107168943A/zh
Priority to TW106141314A priority patent/TWI663520B/zh
Application granted granted Critical
Publication of CN107168943B publication Critical patent/CN107168943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种话题预警的方法,所述方法包括:获取自定义关键词;计算所述自定义关键词与语料库中每个词语之间的相似度,根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词;根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词,加入目标关键词列表;根据所述目标关键词列表中的目标关键词进行实时监听;当监听到目标关键词所对应的话题量达到预设阈值时,进行话题预警。该方法不仅能够实时进行监听预警,而且满足了个性化的监听预警需求。此外,还提出了一种话题预警的装置。

Description

话题预警的方法和装置
技术领域
本发明涉及计算机处理领域,特别是涉及一种话题预警的方法和装置。
背景技术
随着社交媒体的发展,社交网站、在线社区、微博等已逐渐成为人们生活中不可或缺的一部分,也是当今时代信息传播的主要渠道,与此同时,社交媒体也是舆情传播的重要途径。通过对社交媒体的话题监听预警,能够为决策者提供科学化的信息支持。传统的对社交媒体话题监听预警是通过对获取到的历史数据进行分析,然后针对不同的话题进行标签分级。由于话题更新速度非常快,仅仅针对历史数据进行分析得出的结果显然不够准确,且传统的话题监听是针对所有的话题进行监听,没有考虑到用户的个性化需求。
发明内容
基于此,有必要针对上述问题,提出一种可以实现实时监听且能够满足用户个性化需求的话题预警的方法和装置。
一种话题预警的方法,所述方法包括:获取自定义关键词;计算所述自定义关键词与语料库中每个词语之间的相似度,根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词;根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词,加入目标关键词列表;根据所述目标关键词列表中的目标关键词进行实时监听;当监听到目标关键词所对应的话题量达到预设阈值时,进行话题预警。
在其中一个实施例中,所述根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词,加入目标关键词列表的步骤包括:将所述扩展关键词按照预设的类型进行分类;从每一类的扩展关键词中筛选出与所述自定义关键词相似度最高的前h个扩展关键词作为目标关键词,其中,h为大于0的正整数;将每一类筛选出来的目标关键词进行聚合,生成用于监听的目标关键词列表。
在其中一个实施例中,在获取自定义关键词的步骤之后还包括:计算所述自定义关键词对应的词向量;所述计算所述自定义关键词与语料库中每个词语之间的相似度,根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词的步骤包括:计算自定义关键词的词向量与所述语料库中每个词语的词向量之间的相似度;根据词向量之间的相似度从语料库中获取与所述自定义关键词相关的扩展关键词。
在其中一个实施例中,所述计算所述自定义关键词与语料库中每个词语之间的相似度,根据相似度从语料库中获取与所述自定义关键词相关的扩展关键词的步骤包括:采用皮尔森相关系数方法计算所述自定义关键词与语料库中每个词语之间的相似度;获取与所述自定义关键词相似度最高的前K个词语作为所述自定义关键词的扩展关键词,其中,K为大于0的正整数。
在其中一个实施例中,所述根据所述目标关键词列表中的目标关键词进行实时监听的步骤包括:采用滑动窗口的形式对所述目标关键词列表中的每一个目标关键词进行实时监听。
一种话题预警的装置,所述装置包括:自定义关键词获取模块,用于获取自定义关键词;扩展关键词获取模块,用于计算所述自定义关键词与语料库中每个词语之间的相似度,根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词;目标关键词筛选模块,用于根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词,加入目标关键词列表;监听模块,用于根据所述目标关键词列表中的目标关键词进行实时监听;预警模块,用于当监听所述目标关键词所对应的话题量达到预设阈值时,进行话题预警。
在其中一个实施例中,所述目标关键词筛选模块包括:分类模块,用于将所述扩展关键词按照预设的类型进行分类;筛选模块,用于从每一类的扩展关键词中筛选出与所述自定义关键词相似度最高的前h个扩展关键词作为目标关键词,其中,h为大于0的正整数;聚合模块,用于将每一类筛选出来的目标关键词进行聚合,生成用于监听的目标关键词列表。
在其中一个实施例中,所述装置还包括:计算模块,用于计算所述自定义关键词对应的词向量;扩展关键词获取模块还用于计算自定义关键词的词向量与所述语料库中每个词语的词向量之间的相似度,根据词向量之间的相似度从语料库中获取与所述自定义关键词相关的扩展关键词。
在其中一个实施例中,所述扩展词获取模块还用于采用皮尔森相关系数方法计算所述自定义关键词与语料库中每个词语之间的相似度,获取与所述自定义关键词相似度最高的前K个词语作为所述自定义关键词的扩展关键词,其中,K为大于0的正整数。
在其中一个实施例中,所述预警模块还用于采用滑动窗口的形式对所述目标关键词列表中的每一个目标关键词进行实时监听。
上述话题预警的方法和装置,通过获取用户自定义关键词,然后在语料库中根据相似度对该自定义关键词进行扩展,获取相关的扩展关键词,再根据扩展关键词的类型和相似度进行筛选,筛选出最终用于监听的目标关键词,之后在社交媒体上根据该目标关键词进行实时监听,当监听到目标关键词的话题量达到预设阈值时,进行话题预警。该方法和装置不仅能够实时对话题进行监听,而且可以基于用户自定义的关键词有针对性的进行监控,满足了用户的个性化监听预警的需求。通过对用户所要监控的自定义关键词进行扩展和筛选,保证了监听的多样性和全面性。
附图说明
图1为一个实施例中终端的内部结构框图;
图2为一个实施例中服务器的内部结构框图;
图3为一个实施例中话题预警的方法流程图;
图4为一个实施例中根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词的方法流程图;
图5为另一个实施例中话题预警的方法流程图;
图6为一个实施例中计算自定义关键词与语料库中每个词语之间的相似度,根据相似度从语料库中获取扩展关键词的方法流程图;
图7为一个实施例中话题预警的装置结构框图;
图8为一个实施例中目标关键词筛选模块的结构框图;
图9为另一个实施例中话题预警的装置结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,终端102的内部结构如图1所示,包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口、显示屏和输入装置。其中,终端102的处理器用于提供计算和控制能力,支撑整个终端102的运行。非易失性存储介质存储有操作系统,还包括一种话题预警的装置,该话题预警的装置用于实现一种话题预警的方法。终端102中的内存储器为非易失性存储介质中的话题预警的装置的运行提供环境,该内存储器中存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种话题预警的方法。网络接口用于连接到网络进行通信。终端102的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。该终端102可以是平板电脑、笔记本电脑、台式计算机等。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图2所示,在一个实施例中,服务器104的内部结构如图2所示,包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该服务器104的处理器用于提供计算和控制能力,支撑整个服务器的运行。该非易失存储介质包括操作系统和话题预警的装置。该话题预警的装置用于实现一种话题预警的方法,该服务器104的内存储器为非易失性存储介质中的话题预警的装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种话题预警的方法。该服务器的网络接口用于与外部的服务器和终端通过网络连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提出了一种话题预警的方法,该方法可应用于终端或服务器中,具体包括以下步骤:
步骤302,获取自定义关键词。
在本实施例中,自定义关键词是指用户给出的符合用户监听需求的关键词。为了能够满足用户的个性化的监听需求,监听关键词的设定是根据用户自定义关键词来设定的。由于大数据时代的社交媒体信息错综复杂,主体多种多样,而不同的用户所关注的话题不尽相同,自定义关键词不仅能带来友好的用户交互,更多的是能够实现用户监听需求的个性化以及多元化。
步骤304,计算自定义关键词与语料库中每个词语之间的相似度,根据相似度从语料库中获取与自定义关键词相关的扩展关键词。
在本实施例中,由于用户给定的自定义关键词往往不够完整和全面,因此有必要对该自定义关键词进行一定的扩展。获取与该自定义关键词相关的扩展关键词,有利于保证用户对所需要监听的话题更加全面和完整,从而保证监听结果的完整性和多样性。通过计算自定义关键词与语料库中每个词语之间的相似度,从语料库中选取与自定义关键词相似度比较大的词语作为扩展关键词。相似度越大,说明该词语与自定义关键词的语义越相近。词语相似度的计算方法有多种,比如,可以采用同义词词林的方式计算词语之间的相似度,也采用皮尔森相关系数来计算词语之间的相似度。这里并不对词语相似度的计算方法进行限定。
在一个实施例中,相似度的计算是通过计算词向量之间的相似度得到的。首先,采用word2vec模型计算自定义关键词对应的词向量,其中,word2vec是一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。具体地,将自定义关键词作为word2vec模型的输入,输出该自定义关键词的词向量表示。获取到自定义关键词的词向量表示之后,通过计算词向量之间的相似度从语料库中筛选出自定义关键词的扩展关键词。为了能够更快的获取到与自定义关键词相关的扩展关键词,可以将语料库中的词语均以词向量的形式存储。在一个实施例中,采用皮尔森相关系数(Pearson Correlation Coefficient)来计算词向量之间的相似度。假设自定义关键词的向量表示为W=(w1,w2,…,wn),语料库中任一词语的向量表示为X=(x1,x2,…,xn),那么它们之间的相似度s(W,X)为:
其中,n表示词向量的第n个词向量特征,i表示词向量中的第i个词向量特征。通过计算自定义关键词与语料库中每个词语的相似度筛选出与自定义关键词相关的扩展关键词。具体地,可以将相似度按照从高到低的顺序进行排列,选出出相似度最高的前k个词语作为自定义关键词的扩展关键词。将自定义关键词进行扩展,使得关键词更具多样性,保证了话题监听结果具有与相似关键词的对比性,便于为决策者提供更丰富的信息。
步骤306,根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词,加入目标关键词列表。
在本实施例中,如果对步骤204得到的扩展关键词全部监听,将会使得信息错杂冗乱。所以为了保证信息的清楚,需要对获取到的扩展关键词进行进一步的筛选。根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词的方法有多种。在一个实施例中,首先,将获取到的全部扩展关键词进行分类,然后从每一类中选取出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词,其中,h为大于0的正整数,将每一类筛选出来的目标关键词进行聚合,生成用于监听的目标关键词列表。在另一个实施例中,首先,获取全部扩展词对应的类型,然后将相同类型的关键词分为一组。分别获取每一类扩展关键词对应的扩展词数目,以扩展词数目最少的类型为基准,假设扩展词数目最少的类型对应的数目为X个,那么分别从其他每一类型中也筛选出X个扩展关键词作为目标关键词,其中,从其他每一类型中筛选出X个扩展关键词是根据相似度的大小进行筛选的,分别筛选出其他每一类扩展关键词中相似度最高的前X个扩展关键词作为目标关键词,加入目标关键词列表。
步骤308,根据目标关键词列表中的目标关键词进行实时监听。
在本实施例中,当确定了目标关键词列表后,根据目标关键词列表中的目标关键词进行实时监听。由于社交媒体数据每时每刻都在产生,迅速而规模庞大,形成了庞大的网络数据流。为了更好的对话题进行监听,可以采用基于滑动窗口的时序管理框架。基于滑动窗口的时序管理框架的主要思想是:对于目标监听列表中的每一个目标关键词,以滑动窗口的形式对话题数据流进行管理,每个目标关键词维护一个一定大小的缓存,每过一个时间片(为了实时监听,时间片的设置通常很小,比如5分钟),数据窗口进行滑动,然后对缓存中的数据进行处理。
步骤310,当监听到目标关键词所对应的话题量达到预设阈值时,进行话题预警。
在本实施例中,良好的监听必定需要预警,通过监听目标关键词所对应的话题量是否达到预设阈值,对话题进行预警。预警可以从两个方面来进行考虑,第一,对预设的时间片内的话题量进行监听预警。由于时间片是一个较短的时间,所以通过对短时间内的话题监听,能够对短时间内的突发事件进行预警。第二,对于一段时间段的话题进行预警,很多时候事件的发生或舆情的走势并不一定是急剧的,因此,考察一段时间内话题的热点能够帮助决策者发现事件的兴起或舆情的逐渐走势。具体地,采用两种评价策略进行关键词的实时预警,一种是采用话题热度进行预警,通过分析大量的关键词的热度变化趋势及其生命周期,以经验的方式确定热度临界阈值,当监听的目标关键词在一个滑动窗口的时间片内出现的频率大于该热度临界阈值时,进行预警响应。一种是采用情感极性比率进行预警,对监听的目标关键词列表相关的社会网络文本进行情感极性分析,主要包括正面、中性和负面三个方面的情感极性,当负面情感在所有该目标关键词对应的话题量中占的比率大于情感极性阈值时,进行预警。该话题预警的方法可以应用于很多领域,尤其是可以应用于金融领域。以应用于金融产品为例,说明一下该话题预警的益处。首先,互联网与金融产业息息相关,根据对互联网数据的监控可以为金融产品避免诸多损失。其次,与金融相关的关键词比较有规律,而且相对比较固定,通过对金融产品相关的话题进行监听预警,可以实现快速响应而不失准确率。
在本实施例中,通过获取用户自定义关键词,然后在语料库中根据相似度对该自定义关键词进行扩展,获取相关的扩展关键词,再根据扩展关键词的类型和相似度进行筛选,筛选出最终用于监听的目标关键词,之后在社交媒体上根据该目标关键词进行实时监听,当监听到目标关键词的话题量达到预设阈值时,进行话题预警。该方法不仅能够实时对话题进行监听,而且可以基于用户自定义的关键词有针对性的进行监控,满足了用户的个性化监听预警的需求。通过对用户所要监控的自定义关键词进行扩展和筛选,保证了监听的多样性和全面性。
如图4所示,在一个实施例中,根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词,加入目标关键词列表的步骤包括:
步骤306A,将扩展关键词按照预设的类型进行分类。
在本实施例中,为了对基于自定义关键词的监听能够监听的更加全面和平衡化。首先,需要对扩展关键词按照预设的类型进行分类,比如,将扩展关键词按照“品牌”、“产品”、“竞品”分为三类。这样,便于后续针对每一类挑选出相同个数的目标关键词进行监听,有利于保证监听信息的清楚和平衡。
步骤306B,从每一类的扩展关键词中筛选出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词,其中,h为大于0的正整数。
在本实施例中,将扩展关键词按照预设的类型进行分类后,采用众包策略从每一类的扩展关键词中筛选出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词。例如,从每一类中挑选出与自定义关键词相似度最高的前5个词语,最后将挑选出的每一类的目标关键词进行聚合。
步骤306C,将每一类筛选出来的目标关键词进行聚合,生成用于监听的目标关键词列表。
在本实施例中,通过从每一类的扩展关键词中筛选出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词后,将每一类筛选出来的目标关键词聚集起来,放在同一张列表中,即生成目标关键词列表,后续便于根据该目标关键词列表中的目标关键词进行实时监听。比如,若将扩展关键词按照“品牌”、“产品”、“竞品”分为三类。若每一类都挑选出5个目标关键词,那么将总共挑选出15个目标关键词进行监听。通过将扩展关键词进行分类,然后再针对每一类进行筛选有利于监听的内容更加清晰和全面,不会出现偏激化的结果。
如图5所示,在一个实施例中,提出了一种话题预警的方法,该方法包括:
步骤502,获取自定义关键词。
步骤504,计算自定义关键词对应的词向量。
步骤506,计算自定义关键词的词向量与语料库中每个词语的词向量之间的相似度,根据词向量之间的相似度从语料库中获取与自定义关键词相关的扩展关键词。
步骤508,根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词,加入目标关键词列表。
步骤510,根据目标关键词列表中的目标关键词进行实时监听。
步骤512,当监听到目标关键词所对应的话题量达到预设阈值时,进行话题预警。
在本实施例中,当获取到自定义关键词后,为了后续计算词向量之间的相似度,首先需要计算该自定义关键词对应的词向量,通过将自定义关键词作为word2vec模型的输入,生成与该自定义关键词对应的词向量并输出。为了监听的更加全面,需要对自定义关键词进行扩展,即找出相关的与该自定义关键词语义相近的词语表示。通过计算自定义关键词与语料库中的每个词语之间的相似度来获取与自定义关键词相关的扩展关键词,其中,相似度越高,说明与自定义关键词的语义越相近。具体地,可以采用皮尔森相关系数(Pearson Correlation Coefficient)方法计算自定义关键词的词向量与语料库中每个词语的词向量之间的相似度,从中挑选出与自定义关键词相似度最高的前K个(比如,设K=50)词语作为扩展关键词。如果对挑选出来的扩展关键词全部进行监听,将会使得信息显得冗杂,为了解决这一问题,还需要对挑选出来的扩展关键词进行进一步的筛选。基于众包策略对扩展关键词进行进一步的筛选,首先对挑选出来的扩展关键词进行分类,比如,按照“品牌”、“产品”、“竞品”分为三类。分类完成后,针对每一类,根据之前计算得到的每个扩展关键词与自定义关键词之间的相似度,每一类选出与自定义关键词相似度最高的前h个词语作为目标关键词,然后将每一类筛选出来的目标关键词进行汇总,放在同一个列表中,即都加入目标关键词列表。之后根据该目标关键词列表进行监听,并进行相应的预警。该方法通过对用户自定义关键词进行扩展,保证了监听的多样性和全面性,结合众包技术对扩展关键词进行进一步甄选保证了监听结果不具有偏激化。
如图6所示,在一个实施例中,计算自定义关键词与语料库中每个词语之间的相似度,根据相似度从语料库中获取与自定义关键词相关的扩展关键词的步骤包括:
步骤304A,采用皮尔森相关系数方法计算自定义关键词与语料库中每个词语之间的相似度。
在本实施例中,为了对自定义关键词进行扩展,找出与自定义关键词语义相近的扩展关键词,通过采用皮尔森相关系数方法来计算自定义关键词与语料库中每个词语之间的相似度。相似度越大,语义越相近。具体地,首先,获取自定义关键词的词向量表示,可以通过word2vec方法计算得到。然后计算自定义关键词的词向量与语料库中词语的词向量之间的相似度。为了能够更加快捷的计算自定义关键词与语料库中词语之间的相似度,在语料库中,词语是以词向量的形式存在的。假设自定义关键词的词向量表示为W=(w1,w2,…,wn),语料库中任一词语的词向量表示为X=(x1,x2,…,xn),那么它们之间的相似度s(W,X)为:
步骤304B,获取与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展关键词,其中,K为大于0的正整数。
在本实施例中,显然,对自定义关键词进行无限扩展是不切实际的,所以需要从语料库中筛选出相似度比较大的词语作为扩展关键词。具体地,采用贪心策略选择与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展,设扩展关键词集合为ES(W),那么ES(W)={X|s(W,X)≥s(W,Xk)},其中,W表示自定义关键词,Xk表示与自定义关键词相似度第K大的词汇,比如,可以设置K=50,即选取与自定义关键词相似度最高的前50个词汇作为其扩展关键词集合。
在一个实施例中,根据目标关键词列表中的目标关键词进行实时监听的步骤包括:采用滑动窗口的形式对目标关键词列表中的每一个目标关键词进行实时监听。
在本实施例中由于社交媒体数据每时每刻都在产生,且迅速而规模庞大,为了达到对话题进行实时监听,需要解决如何在数据流的环境下进行话题的实时监听。在该实施例中,通过采用基于滑动窗口的形式对目标关键词列中的每一个目标关键词进行实时监听。即以滑动窗口的形式对话题数据流进行管理,每个目标关键词维护一个一定大小的缓存,每过一个时间片,数据窗口进行滑动,然后对缓存中的数据进行处理,从而实现了对每个目标关键词进行实时监听。
如图7所示,在一个实施例中,提出了一种话题预警的装置700,该装置包括:
自定义关键词获取模块702,用于获取自定义关键词。
扩展关键词获取模块704,用于计算自定义关键词与语料库中每个词语之间的相似度,根据相似度从语料库中获取与自定义关键词相关的扩展关键词。
目标关键词筛选模块706,用于根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词,加入目标关键词列表。
监听模块708,用于根据目标关键词列表中的目标关键词进行实时监听。
预警模块710,用于当监听目标关键词所对应的话题量达到预设阈值时,进行话题预警。
如图8所示,在一个实施例中,目标关键词筛选模块706包括:
分类模块706A,用于将扩展关键词按照预设的类型进行分类。
筛选模块706B,用于从每一类的扩展关键词中筛选出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词,其中,h为大于0的正整数。
聚合模块706C,用于将每一类筛选出来的目标关键词进行聚合,生成用于监听的目标关键词列表。
如图9所示,在一个实施例中,提出了一种话题预警的装置900,除了包括上述模块702-710,还包括:
计算模块703,用于计算自定义关键词对应的词向量。
扩展关键词获取模块704还用于计算自定义关键词的词向量与语料库中每个词语的词向量之间的相似度,根据词向量之间的相似度从语料库中获取与自定义关键词相关的扩展关键词。
在一个实施例中,扩展词获取模块还用于采用皮尔森相关系数方法计算自定义关键词与语料库中每个词语之间的相似度,获取与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展关键词,其中,K为大于0的正整数。
在一个实施例中,预警模块还用于采用滑动窗口的形式对目标关键词列表中的每一个目标关键词进行实时监听。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种话题预警的方法,所述方法包括:
获取自定义关键词;
计算所述自定义关键词与语料库中每个词语之间的相似度,根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词,具体地,采用皮尔森相关系数方法计算所述自定义关键词与语料库中每个词语之间的相似度;采用贪心策略选择与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展关键词,设扩展关键词集合为ES(W),那么,ES(W)={X|s(W,X)≥s(W,XK)},其中,s(W,X)表示相似度,W表示自定义关键词,XK表示与自定义关键词相似度第K大的词汇,K=50;
根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词,加入目标关键词列表,包括:将所述扩展关键词按照预设的品牌、产品、竞品类型进行分类,所述分类用于针对每一类挑选出相同个数的目标关键词进行监听;从每一类的扩展关键词中筛选出与所述自定义关键词相似度最高的前h个扩展关键词作为目标关键词,其中,h为大于0的正整数,将每一类筛选出来的目标关键词进行聚合,生成用于监听的目标关键词列表;
根据所述目标关键词列表中的目标关键词进行实时监听,包括:采用滑动窗口的形式对所述目标关键词列表中的每一个目标关键词进行实时监听,其中,每个目标关键词维护一个缓存,每过一个时间片,数据窗口进行滑动,对缓存中的数据进行处理;
当监听到目标关键词所对应的话题量达到预设阈值时,进行话题预警,包括:两个方面的预警,第一,对预设时间片内的话题量进行监听预警;第二,对一个时间段的话题进行预警,具体地,采用两种评价策略进行关键词的实时预警,一种是采用话题热度进行预警,当监听的目标关键词在一个滑动窗口的时间片内出现的频率大于预设热度临界阈值时,进行预警,一种是采用情感极性比率进行预警,对监听的目标关键词列表相关的社会网络文本进行情感极性分析,情感极性包括正面、中性和负面情感,当负面情感在所有所述目标关键词对应的话题量中占的比率大于情感极性阈值时,进行预警。
2.根据权利要求1所述的话题预警的方法,其特征在于,在获取自定义关键词的步骤之后还包括:
计算所述自定义关键词对应的词向量;
所述计算所述自定义关键词与语料库中每个词语之间的相似度,根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词的步骤包括:
计算自定义关键词的词向量与所述语料库中每个词语的词向量之间的相似度;
根据词向量之间的相似度从语料库中获取与所述自定义关键词相关的扩展关键词。
3.一种话题预警的装置,其特征在于,所述装置包括:
自定义关键词获取模块,用于获取自定义关键词;
扩展关键词获取模块,用于计算所述自定义关键词与语料库中每个词语之间的相似度,根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词,具体地,采用皮尔森相关系数方法计算所述自定义关键词与语料库中每个词语之间的相似度;采用贪心策略选择与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展关键词,设扩展关键词集合为ES(W),那么,ES(W)={X|s(W,X)≥s(W,XK)},其中,s(W,X)表示相似度,W表示自定义关键词,XK表示与自定义关键词相似度第K大的词汇,K=50;
目标关键词筛选模块,用于根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词,加入目标关键词列表;
监听模块,用于根据所述目标关键词列表中的目标关键词进行实时监听,包括:采用滑动窗口的形式对所述目标关键词列表中的每一个目标关键词进行实时监听,包括:每个目标关键词维护一个缓存,每过一个时间片,数据窗口进行滑动,对缓存中的数据进行处理;
预警模块,用于当监听所述目标关键词所对应的话题量达到预设阈值时,进行话题预警,包括:两个方面的预警,第一,对预设时间片内的话题量进行监听预警;第二,对一个时间段的话题进行预警,具体地,采用两种评价策略进行关键词的实时预警,一种是采用话题热度进行预警,当监听的目标关键词在一个滑动窗口的时间片内出现的频率大于预设热度临界阈值时,进行预警,一种是采用情感极性比率进行预警,对监听的目标关键词列表相关的社会网络文本进行情感极性分析,所述情感包括正面、中性和负面情感,当负面情感在所有所述目标关键词对应的话题量中占的比率大于情感极性阈值时,进行预警;
所述目标关键词筛选模块包括:
分类模块,用于将所述扩展关键词按照预设的品牌、产品、竞品类型进行分类,所述分类用于针对每一类挑选出相同个数的目标关键词进行监听;
筛选模块,用于从每一类的扩展关键词中筛选出与所述自定义关键词相似度最高的前h个扩展关键词作为目标关键词,其中,h为大于0的正整数;
聚合模块,用于将每一类筛选出来的目标关键词进行聚合,生成用于监听的目标关键词列表。
4.根据权利要求3所述的话题预警的装置,其特征在于,所述装置还包括:
计算模块,用于计算所述自定义关键词对应的词向量;
扩展关键词获取模块还用于计算自定义关键词的词向量与所述语料库中每个词语的词向量之间的相似度,根据词向量之间的相似度从语料库中获取与所述自定义关键词相关的扩展关键词。
CN201710225685.3A 2017-04-07 2017-04-07 话题预警的方法和装置 Active CN107168943B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201710225685.3A CN107168943B (zh) 2017-04-07 2017-04-07 话题预警的方法和装置
SG11201809697YA SG11201809697YA (en) 2017-04-07 2017-06-28 Topic alarm method, device, computer apparatus, and storage medium
PCT/CN2017/090579 WO2018184306A1 (zh) 2017-04-07 2017-06-28 话题预警的方法、装置、计算机设备及存储介质
US16/090,351 US11205046B2 (en) 2017-04-07 2017-06-28 Topic monitoring for early warning with extended keyword similarity
TW106141314A TWI663520B (zh) 2017-04-07 2017-11-28 話題預警的方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710225685.3A CN107168943B (zh) 2017-04-07 2017-04-07 话题预警的方法和装置

Publications (2)

Publication Number Publication Date
CN107168943A CN107168943A (zh) 2017-09-15
CN107168943B true CN107168943B (zh) 2018-07-03

Family

ID=59849735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710225685.3A Active CN107168943B (zh) 2017-04-07 2017-04-07 话题预警的方法和装置

Country Status (5)

Country Link
US (1) US11205046B2 (zh)
CN (1) CN107168943B (zh)
SG (1) SG11201809697YA (zh)
TW (1) TWI663520B (zh)
WO (1) WO2018184306A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862015A (zh) * 2017-10-30 2018-03-30 北京奇艺世纪科技有限公司 一种关键词关联扩展方法和装置
TWI716761B (zh) * 2018-11-08 2021-01-21 鯨動智能科技股份有限公司 智能會計帳務系統與會計憑證的辨識入帳方法
CN109635286B (zh) * 2018-11-26 2022-04-12 平安科技(深圳)有限公司 政策热点分析的方法、装置、计算机设备和存储介质
CN109684483A (zh) * 2018-12-11 2019-04-26 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质
CN110457672B (zh) * 2019-06-25 2023-01-17 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN110427492B (zh) * 2019-07-10 2023-08-15 创新先进技术有限公司 生成关键词库的方法、装置和电子设备
CN111859013A (zh) * 2020-07-17 2020-10-30 腾讯音乐娱乐科技(深圳)有限公司 数据处理方法、装置、终端和存储介质
CN112650791B (zh) * 2020-12-29 2023-12-26 招联消费金融有限公司 字段处理方法、装置、计算机设备和存储介质
CN116681086B (zh) * 2023-07-31 2024-04-02 深圳市傲天科技股份有限公司 数据分级方法、系统、设备及存储介质

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346492B2 (en) * 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
US20050102278A1 (en) * 2003-11-12 2005-05-12 Microsoft Corporation Expanded search keywords
WO2006099621A2 (en) * 2005-03-17 2006-09-21 University Of Southern California Topic specific language models built from large numbers of documents
US8898134B2 (en) * 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
CA2615659A1 (en) 2005-07-22 2007-05-10 Yogesh Chunilal Rathod Universal knowledge management and desktop search system
US7627561B2 (en) * 2005-09-12 2009-12-01 Microsoft Corporation Search and find using expanded search scope
TWI317488B (en) 2005-11-04 2009-11-21 Webgenie Information Ltd Method for automatically detecting similar documents
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
CN101295319B (zh) * 2008-06-24 2010-06-02 北京搜狗科技发展有限公司 一种扩展查询的方法、装置及搜索引擎系统
US9892103B2 (en) * 2008-08-18 2018-02-13 Microsoft Technology Licensing, Llc Social media guided authoring
US7974983B2 (en) 2008-11-13 2011-07-05 Buzzient, Inc. Website network and advertisement analysis using analytic measurement of online social media content
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
US20110004465A1 (en) * 2009-07-02 2011-01-06 Battelle Memorial Institute Computation and Analysis of Significant Themes
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN102195899B (zh) * 2011-05-30 2014-05-07 中国人民解放军总参谋部第五十四研究所 通信网络的信息挖掘方法与系统
US8909643B2 (en) * 2011-12-09 2014-12-09 International Business Machines Corporation Inferring emerging and evolving topics in streaming text
TW201324199A (zh) 2011-12-13 2013-06-16 Chunghwa Telecom Co Ltd 一種基於相似度比對的內容分析方法
CN103853720B (zh) 2012-11-28 2017-04-26 苏州信颐系统集成有限公司 基于用户关注度的网络敏感信息监控系统及方法
CN103853722B (zh) * 2012-11-29 2017-09-22 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和系统
CN103268350B (zh) * 2013-05-29 2017-02-08 安徽雷越网络科技有限公司 一种互联网舆情信息监测系统及监测方法
CN104281607A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 微博热点话题分析方法
CN104516903A (zh) 2013-09-29 2015-04-15 北大方正集团有限公司 关键词扩展方法及系统、及分类语料标注方法及系统
US20150213002A1 (en) * 2014-01-24 2015-07-30 International Business Machines Corporation Personal emotion state monitoring from social media
US20150286627A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis
US10409912B2 (en) * 2014-07-31 2019-09-10 Oracle International Corporation Method and system for implementing semantic technology
US20160062967A1 (en) * 2014-08-27 2016-03-03 Tll, Llc System and method for measuring sentiment of text in context
WO2016036345A1 (en) * 2014-09-02 2016-03-10 Hewlett-Packard Development Company, L. P. External resource identification
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
WO2016099422A2 (en) * 2014-12-17 2016-06-23 Bogazici Universitesi Content sensitive document ranking method by analyzing the citation contexts
CN104573008B (zh) 2015-01-08 2017-11-21 广东小天才科技有限公司 一种网络信息的监控方法及装置
CN104915405B (zh) * 2015-06-02 2018-10-23 华东师范大学 一种基于多层次的微博查询扩展方法
US9880999B2 (en) * 2015-07-03 2018-01-30 The University Of North Carolina At Charlotte Natural language relatedness tool using mined semantic analysis
CN104933183B (zh) * 2015-07-03 2018-02-06 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
US10394953B2 (en) * 2015-07-17 2019-08-27 Facebook, Inc. Meme detection in digital chatter analysis
CN105045875B (zh) * 2015-07-17 2018-06-12 北京林业大学 个性化信息检索方法及装置
US11068926B2 (en) * 2016-09-26 2021-07-20 Emm Patents Ltd. System and method for analyzing and predicting emotion reaction
CN105631037B (zh) * 2015-12-31 2019-02-22 北京恒冠网络数据处理有限公司 一种图像检索方法
US20170213138A1 (en) * 2016-01-27 2017-07-27 Machine Zone, Inc. Determining user sentiment in chat data
US9864743B2 (en) * 2016-04-29 2018-01-09 Fujitsu Limited Textual emotion detection
US10558740B1 (en) * 2017-03-13 2020-02-11 Intuit Inc. Serving different versions of a user interface in response to user emotional state

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
一种基于分类和语义查询扩展的信息检索方法;孟祥娜 等;《信息技术》;20101231(第9期);31-33 *
基于分类模型的查询扩展方法;李维银 等;《计算机科学》;20150630;第42卷(第6期);18-22 *
基于查询扩展和分类的信息检索算法;岳文 等;《系统仿真学报》;20060731;第18卷(第7期);1926-1929、1934 *
基于查询扩展的信息抽取技术研究及应用;王力;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20120615;第2012年卷(第6期);正文第28-29页 *
面向互联网舆情分析的海量数据检索模型关键技术研究;王静;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20140215;第2014年卷(第2期);摘要,正文第5、48页 *
面向网络舆情分析系统的本体应用;李勇 等;《西安石油大学学报( 自然科学版)》;20140131;第29卷(第1期);94-97 *

Also Published As

Publication number Publication date
CN107168943A (zh) 2017-09-15
TW201837755A (zh) 2018-10-16
SG11201809697YA (en) 2018-11-29
US20210224481A1 (en) 2021-07-22
TWI663520B (zh) 2019-06-21
WO2018184306A1 (zh) 2018-10-11
US11205046B2 (en) 2021-12-21

Similar Documents

Publication Publication Date Title
CN107168943B (zh) 话题预警的方法和装置
CN106126558B (zh) 一种舆情监控方法及装置
Mei et al. A probabilistic approach to spatiotemporal theme pattern mining on weblogs
Gu et al. Cascaded convolutional neural networks for aspect-based opinion summary
US11556572B2 (en) Systems and methods for coverage analysis of textual queries
Šilić et al. Visualization of text streams: A survey
US20060136451A1 (en) Methods and systems for applying attention strength, activation scores and co-occurrence statistics in information management
CN104239373B (zh) 为文档添加标签的方法及装置
CN104077415A (zh) 搜索方法及装置
Zhou et al. Predicting high-risk students using Internet access logs
Santosh et al. Opinion mining of online product reviews from traditional LDA Topic Clusters using Feature Ontology Tree and Sentiwordnet
CN107704621A (zh) 一种互联网舆情地图可视化展示方法
Shaw et al. Using association rules to solve the cold-start problem in recommender systems
CN110472115A (zh) 一种基于深度学习的社交网络文本情感细粒度分类方法
Yang et al. Prediction of phishing susceptibility based on a combination of static and dynamic features
Shaojun et al. The capability analysis on the characteristic selection algorithm of text categorization based on F1 measure value
Padmaja et al. Probabilistic topic modeling and its variants: a survey
Zhang et al. A refined method for detecting interpretable and real-time bursty topic in microblog stream
Du et al. DBWE-Corbat: Background network traffic generation using dynamic word embedding and contrastive learning for cyber range
Slaninová et al. Analysis of social networks extracted from log files
Kumar et al. Distant Concept Connectivity in Network-Based and Spatial Word Representations.
Yang et al. Topic Audiolization: A Model for Rumor Detection Inspired by Lie Detection Technology
Zareapoor et al. Highly discriminative features for phishing email classification by SVD
Yu et al. Low-Level Activity Patterns as Indicators of User Familiarity with Websites
Xiea et al. Modeling Sentiment and Aspect Using Syntax: A Topic Model Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1238358

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1238358

Country of ref document: HK