CN107038193A - 一种文本信息的处理方法和装置 - Google Patents

一种文本信息的处理方法和装置 Download PDF

Info

Publication number
CN107038193A
CN107038193A CN201611027271.1A CN201611027271A CN107038193A CN 107038193 A CN107038193 A CN 107038193A CN 201611027271 A CN201611027271 A CN 201611027271A CN 107038193 A CN107038193 A CN 107038193A
Authority
CN
China
Prior art keywords
text message
similarity
event
filtering
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611027271.1A
Other languages
English (en)
Other versions
CN107038193B (zh
Inventor
任望
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201611027271.1A priority Critical patent/CN107038193B/zh
Publication of CN107038193A publication Critical patent/CN107038193A/zh
Application granted granted Critical
Publication of CN107038193B publication Critical patent/CN107038193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本信息的处理方法和装置,包括:获取文本信息,对所述文本信息进行过滤;计算过滤后的文本信息的相似度,根据所述相似度将过滤后的文本信息归类至不同的事件;根据事件中的文本信息,计算每个事件的重要度指标;判断每个事件对应的所述重要度指标数值是否超过预设重要度阈值,如果超过预设重要度阈值,则对该超过预设重要度阈值的事件进行标记。通过使用本申请中公开的方法和装置,能够自动化的将文本信息过滤和归类至不同事件,并监视各个事件,在某个事件指标超过阈值时标记该事件,以方便寻找有用信息。

Description

一种文本信息的处理方法和装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种使用计算机处理文本信息的方法和装置。
背景技术
随着信息化浪潮的到来和互联网的普及,越来越多的用户在互联网上发表、交换各种文本信息,并生成越来越多的用户生成内容(User Generated Content,简称UGC)。常见的UGC有用户发表的微博、论坛帖子、新闻消息等。每时每刻,都有大量的新的UGC出现,这些新的UGC中包含各种信息,有的是旧信息的重复,有的却是全新的、尚未被公众所熟知的信息。无论新旧,这些信息中都有可能包含符合预定条件的信息,比如包含受到高度关注的信息,这些符合预定条件的信息具有重大价值,同时也是非常重要的。
一直以来,人们都希望从这些或旧或新的信息中,找到具有重大价值的信息。然而,由于UGC的数量极其巨大,更新极其迅速,内容千差万别,至今尚未有有效的办法从UGC中找到有用的信息。
发明内容
有鉴于此,本发明提供了一种使用计算机处理文本信息的方法和装置,其能够实现自动化的将文本信息过滤和归类至不同事件,并监视各个事件,从而可以将数量巨大的文本信息自动分成不同事件,并在某个事件指标超过阈值时标记该事件,例如,对该事件进行报警。报警的事件比不报警的事件更有可能包含有重要的信息,从而,本方法可以更方便寻找有用信息。
本申请实施例提供一种文本信息的处理方法,包括:
获取文本信息,对所述文本信息进行过滤;
计算过滤后的文本信息的相似度,根据所述相似度将过滤后的文本信息归类至不同的事件;
根据事件中的文本信息,计算每个事件的重要度指标;
判断每个事件对应的所述重要度指标数值是否超过预设重要度阈值,如果超过预设重要度阈值,则对该超过预设重要度阈值的事件进行标记。
优选的,所述对所述文本信息进行过滤,包括以下步骤中的任一步骤:
使用业务模型判断所述文本信息是否为指定业务,如否,则将判断为否的文本信息过滤掉;
使用广告模型判断所述文本信息是否为广告,如是,则将判断为是的文本信息过滤掉;
使用情感模型判断所述文本信息负面情感值是否超过预设情感值阈值,如超过,则将该超过预设情感阈值的文本信息过滤掉,或者,如果不超过,则将该不超过预设情感阈值的文本信息过滤掉。
优选的,所述计算过滤后的文本信息的相似度,包括计算文本信息和文本信息的相似度和/或计算文本信息和事件的相似度。
优选的,所述根据所述相似度将过滤后的文本信息归类至不同的事件,包括:
当过滤后的文本信息和事件的相似度大于预设值时,将该过滤后的文本信息归类至该事件;当过滤后的文本信息和任意事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件;
或者,
当过滤后的文本信息和另一文本信息的相似度大于预设值时,将该过滤后的文本信息归类至所述另一文本信息所在的事件;当过滤后的文本信息和任意另一文本信息事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件;
或者,
当过滤后的文本信息和另一文本信息的相似度大于预设值,且该过滤后的文本信息和所述另一文本信息所在的事件的相似度大于预设值时,将该过滤后的文本信息归类至所述另一文本信息所在的事件;当过滤后的文本信息和任意事件的相似度均不大于预设值,且和任意另一文本信息事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件。
优选的,计算过滤后的文本信息的相似度,包括:
计算过滤后的文本信息对应的文本向量的相似度,将该文本向量的相似度作为该过滤后的文本信息的相似度。
优选的,计算过滤后的文本信息的相似度,包括:
计算过滤后的文本信息对应的计数最小表的相似度,将该计数最小表的相似度作为该过滤后的文本信息的相似度。
优选的,所述每个事件的重要度指标,至少包括以下重要度指标之任一:
文本信息的转发数;
文本信息的点赞数;
文本信息的阅读数;
文本信息的评论数;
文本信息的转发速度;
文本信息的评论速度。
本申请实施例还提供一种文本信息的处理装置,包括:
文本信息过滤装置,获取文本信息,对所述文本信息进行过滤;
文本信息归类装置,计算过滤后的文本信息的相似度,根据所述相似度将过滤后的文本信息归类至不同的事件;
重要度指标计算装置,计算每个事件的重要度指标;
标记装置,判断每个事件对应的所述重要度指标数值是否超过预设重要度阈值,如果超过预设重要度阈值,则对该超过预设重要度阈值的事件进行标记。
优选的,文本信息归类装置,包括:
文本向量相似度计算装置,计算过滤后的文本信息对应的文本向量的相似度,并将该文本向量的相似度作为该过滤后的文本信息的相似度。
优选的,文本信息归类装置,包括:
计数最小表相似度计算装置,计算过滤后的文本信息对应的文本向量的计数最小表的相似度,并将该文本向量的计数最小表的相似度作为该过滤后的文本信息的相似度。
通过将文本信息自动过滤、归类,可以及时、迅捷的将极其大量的新文本信息归类到不同的事件中。监视每个事件的指标,如果指标超过阈值,则认为该事件是有重要度的,标记该事件并报警。这样,就从大量的新文本信息中,找到了有重要度的信息。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请第一实施例流程示意图;
图2为第二实施例文本信息处理流程示意图;
图3为第二实施例使用场景示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
图1是本实施例方法的流程图,如图1所示,该方法包括:
S1:获取文本信息,对所述文本信息进行过滤。
获取文本信息,包括获取来自用户生成内容中的文本信息,优选的,包括获取来自新闻渠道、微博渠道和论坛渠道的文本信息,将这些渠道中的文本内容作为文本信息。其中,新闻渠道包含新浪、网易、搜狐、腾讯和《今日头条》;微博渠道包含新浪微博;论坛渠道包含天涯,百度贴吧,知乎。对于新闻渠道,用新闻的标题文本作为文本信息;对于论坛渠道,把帖子的文本内容作为文本信息。对于微博渠道,将微博帖子的文本内容作为文本信息。通过如上方法获取的文本信息,能很好的获得新的文本信息。
在获取文本信息后,对所述文本信息进行过滤。对所述文本信息进行过滤,可以是过滤清除无效或无用的文本信息,保留有效有用的文本信息。具体的,包括:
过滤规则一:使用业务模型判断所述文本信息是否为指定业务,如否,则将判断为否的文本信息过滤掉。
业务模型包含业务关键词,业务关键词可以根据需求设定。比如,如果需要获得借贷的相关文本信息,则可以设定业务关键词包括“贷”“贷款”“抵押”等。如果文本信息中包含业务关键词,则认为该文本信息是指定业务,反之,则认为不是指定业务。
过滤规则二:使用广告模型判断所述文本信息是否为广告,如是,则将判断为是的文本信息过滤掉。
广告模型包含广告关键词,广告关键词可以根据经验设定。比如,“假一赔十”就是常见的广告词语,可以作为广告关键词。如果文本信息中包含广告关键词,则认为该文本信息是广告,反之,则认为不是广告
过滤规则三:使用情感模型判断所述文本信息负面情感值是否超过预设情感值阈值,如超过,则将该超过预设情感阈值的文本信息过滤掉。
情感模型包含正面情感关键词和负面情感关键词。当文本信息中的负面情感关键词多于正面情感关键词的数量时,则认为该文本信息负面情感值是超过预设情感值阈值的,反之,则认为不是。
可以采用基于半监督学习的方法来确定正面情感关键词和负面情感关键词。首先,确定一个简单的正面情感关键词词库和负面情感关键词词库;其次,确定一个词与正面情感关键词词库中所有词的点互信息(Pointwise mutual information,简称PMI)的值的和,和该词与负面情感关键词词库中所有词的点互信息的值的和;将前者减去后者,如果大于指定的阈值,则该词为正面情感关键词,否则该词为负面情感关键词。
通过设置上述的情感模型过滤规则,可以将本实施例主要关注的包含负面情感的文本信息保留下来。也可以根据需要,将包含正面情感的文本信息保留下来,只需要对应的更改过滤规则三为:“使用情感模型判断所述文本信息负面情感值是否超过预设情感值阈值,如果不超过,则将该不超过预设情感阈值的文本信息过滤掉。”
S2:计算过滤后的文本信息的相似度,根据所述相似度将过滤后的文本信息归类至不同的事件。
计算过滤后的文本信息的相似度,包括计算过滤后的文本信息与文本信息的相似度和/或计算过滤后的文本信息与事件的相似度。
使用文本向量I表征文本信息,文本向量I是一个向量,包含了文本特征(ContentFeature)和节点特征(Context Feature),其中文本特征包含了文本中出现的词的特征,节点特征包含了该文本所处环境的特征,例如,创造该文本的用户关注的好友有哪些,该文本位于哪个网站,该文本的上下文有哪些,等。
在本实施例中,文本信息与文本信息的相似度的计算方式如下:
不同的文本信息对应于不同的文本向量I,不妨设两个不同的文本信息分别对应于文本向量Ia,文本向量Ib。在本实施例中,定义所述两个不同的文本信息的相似度为:
即Ia与Ib的内积除以Ia的模,再除以Ib的模。
这一定义可以与向量的相似度定义是一致的,也就是说,认为文本信息对应的文本向量I之间的相似度代表文本信息之间的相似度。
事件是文本信息的集合,每一个事件都包含有一定数量的文本信息,文本信息与事件的相似度的计算方式如下:
定义文本信息与事件的相似度为文本信息与事件中的所有文本信息的相似度的最大值。
在本实施例中,通过以上定义,将文本信息的相似度计算转化为了对应的文本向量的相似度的计算。计算文本信息的相似度时,只需要计算其对应的文本向量的相似度即可。
根据所述相似度将过滤后的文本信息归类至不同的事件,包括:
当过滤后的文本信息和事件的相似度大于预设值时,将该过滤后的文本信息归类至该事件;
当过滤后的文本信息和任意事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件。
通过以上步骤,就可以将获取的文本信息归类到某个事件中,这一事件中的文本信息与该获取的文本信息相似度较高。
另一种根据相似度将过滤后的文本信息归类至不同的事件的方法包括:
当过滤后的文本信息和另一文本信息的相似度大于预设值时,将该过滤后的文本信息归类至后者所在的事件。
当过滤后的文本信息和任意文本信息事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件。
再一种根据相似度将过滤后的文本信息归类至不同的事件的方法包括:
当过滤后的文本信息和另一文本信息的相似度大于预设值,且该过滤后的文本信息和后者所在的事件的相似度大于预设值时,将该过滤后的文本信息归类至后者所在的事件;
当过滤后的文本信息和任意事件的相似度均不大于预设值,且和任意另一文本信息事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件。
S3:根据事件中的文本信息,计算每个事件的重要度指标;
一般来说,每个事件由一个或多个文本信息所组成。对每个事件,一般来说,有如下指标描述:
开始时间,指的是事件被生成的时间,即第一条被归入该事件中文本信息的产生时间;
微博转发总数,指的是该事件中每一条文本信息被微博转发的次数的总和,例如,该事件中共有两条文本信息,其中一条被微博转发了五次,另一条被微博转发了八次,则微博转发总数为十三(=5+8);类似的还有微博点赞总数,指的是该事件中每一条文本信息被微博点赞的次数的总和;新闻阅读总数,指的是该事件中每一条来自新闻渠道的文本信息被阅读的次数的总和;新闻点赞总数,指的是该事件中每一条来自新闻渠道的文本信息被点赞的次数的总和;新闻评论总数,指的是该事件中每一条来自新闻渠道的文本信息被评论的次数的总和;
一小时微博转发数,指的是该事件中每一条文本信息最近一小时内被微博转发的次数的总和;类似的还有一小时微博点赞数,指的是该事件中每一条文本信息最近一小时被微博点赞的次数的总和;一小时新闻转发数,指的是该事件中每一条来自新闻渠道的文本信息最近一小时被转发的次数的总和;一小时新闻评论数,指的是该事件中每一条来自新闻渠道的文本信息最近一小时被评论的次数的总和;
文本信息的转发速度,指的是单位时间内该事件中每一条文本信息被转发的次数的总和,类似的还有文本信息的评论速度,指的是单位时间内该事件中每一条文本信息被评论的次数的总和。
这些指标,和其余反映了文本信息的重要度的指标,可以被称为重要度指标。其中,微博转发总数、一小时微博转发数、一小时新闻转发数可以被归类为文本信息的转发数;微博点赞总数、新闻点赞总数,一小时微博点赞数可以被归类为文本信息的点赞数;新闻阅读总数可以被归类为文本信息的阅读数;新闻评论总数、一小时新闻评论数可以被归类为文本信息的评论数。
S4:判断每个事件对应的所述重要度指标数值是否超过预设重要度阈值,如果超过预设重要度阈值,则对该超过预设重要度阈值的事件进行标记。
对于这些指标,可以分别设置阈值,当指标超过阈值时标记该事件。可以根据需要选择重要度指标。一般来说,每当一个获取的文本信息被归类到某一事件中,该事件的各项指标都会改变,监视这些改变的指标,当指标超过阈值时标记该事件。对于被标记的事件可以进行报警。
当某一件事在互联网上流行起来时,会生成大量的与这件事相关的UGC,其中包含了大量以文本形式存在的UGC。显然,这些文本中大多包含相同或相似的关键词,从而其对应的文本向量中的文本特征部分相同或相似,从而其相似度会较高;由于互联网传播的特性,这些文本的产生环境也往往相同或相似,比如都是在论坛的同一个帖子下,或者是转发同一个微博好友的微博,从而其对应的文本向量中的节点特征部分也是相同或相似的,这进一步提高了相似度。因此,与这件事相关的文本信息,会因为相似度较高而归类到同一事件中。
当这一事件的某个重要度指标超过阈值时,例如,微博点赞数指标超过了阈值,这表明这一事件对应的事在互联网上获得了大量的关注,此时就可以针对这件事进行后续处理。如果这一事件的任何指标都没有超过阈值,则认为这一事件没有重要度,无需关注。
对于某个指标超过阈值的事件,可以根据单文本词频-逆文本频率指数(termfrequency–inverse document frequency,简称tf-idf)来确定该已标记事件的总结性观点。可以将事件中tf-idf排名前三的单词作为这一事件的总结性观点。
通过使用本实施例中提出的方法,可以及时、迅捷的将极其大量的新文本信息归类到不同的事件中,并且可以监视每个事件的指标。从而,当互联网上出现一种新的观点和反映该新观点的新文本信息时,可以及时建立起反映该新观点的新文本信息所对应的事件,并监视该事件的指标,当指标超过阈值时标记该事件;或者当某种互联网上的旧观点突然大量流行时,可以在反映该旧观点的文本信息对应的事件的指标超过阈值时,及时发现该大量流行的观点。在发现这些指标超过阈值的事件所对应的观点之后,可以进一步跟踪处理,例如,提交给公关部门或其他相关部门。这样,就从大量的新文本信息中,找到了有重要度的信息。
实施例2
在实施例1中,计算文本信息与文本信息之间的相似度,是通过计算文本信息对应的文本向量I之间的相似度来完成的。然而,由于文本向量I是一个包含了文本特征和节点特征的向量,其维度往往高达数十万维,从而在对相似度计算中,需要计算数十万个数相乘和相加,运算负荷非常大。另一方面,如此高维数的文本向量I的储存也会占用相当多的空间。
在本实施例中,计算文本信息与文本信息之间的相似度,采用的是如下的方法:
计算文本信息对应的文本向量I的计数最小表(Count-Min Sketch);
计算不同的文本信息对应的文本向量I的计数最小表之间的相似度,将该相似度作为所述不同的文本信息之间的相似度。
计数最小表是一个二维数组,即矩阵,其相似度的计算可以采用普遍的做法,即两个矩阵相互内积再除以两个矩阵的模。矩阵的内积指的是矩阵对应元素的乘积之和,矩阵的模指的是矩阵中每个元素的平方和再开方。
也就是说,在本实施例中,认为文本信息对应的文本向量I的计数最小表之间的相似度就代表了文本信息之间的相似度。
在本实施例中,文本信息与事件的相似度仍然定义为文本信息与事件中的所有文本信息的相似度的最大值。值得注意的是,虽然这一定义文字上与实施例1中的定义完全一致,但由于文本信息与文本信息之间的相似度计算方法与实施例1并不同,所以在本实施例中,文本信息与事件的相似度的具体计算是与实施例1中的具体计算方法不同的,所获得的相似度的值在一般情况下也会不同。
在本实施例中,通过以上计算方法,将文本信息的相似度计算转化为了对应的文本向量的计数最小表的相似度的计算。计算文本信息的相似度时,只需要计算其对应的文本向量的计数最小表的相似度即可。由于计数最小表中的元素的个数往往远少于文本向量I的个数,计算计数最小表的相似度所需花费的资源要远少于计算其对应的文本向量的相似度。这样就节约了大量的运算资源,提升了运算速度。
值得注意的是,在本领域中,计数最小表通常只用来存储信息,并不会直接用来计算相似度。一个典型的计数最小表的应用是将一个向量转化为计数最小表并储存,在需要使用该向量的时候,再由该计数最小表生成该向量的一个近似。而在本方法中,不再由该计数最小表生成该向量的一个近似,再计算该向量的近似的相似度,而是直接计算计数最小表的相似度。
在本实施例中,采用如图2所示的流程来处理文本信息。
首先,是根据业务模型、广告模型、情感模型进行信息过滤,不满足条件则将该文本信息过滤并放入丢弃池。这一部分内容和实施例1中的步骤S1相似,这里不再赘述。
根据每一条过滤后的文本信息,可以得到包含了文本特征和节点特征的文本向量I,计算该文本向量的计数最小表,该计数最小表代表了该条过滤后的文本信息。
其次,是将文本信息归类至不同的事件中。这一步骤中的相似度计算是计算计数最小表的相似度,并作为文本信息的相似度。根据相似度进行归类的内容在实施例1中的步骤S2中已经有过详细阐述,这里不再赘述。
经过上述流程处理文本信息后,某一事件的指标会得到更新。监视更新后的指标,在指标超过预定阈值时标记该事件。
本实施例示意图如图3所示。从网页中获取文本信息,将文本信息归类至事件,监视事件指标,超过阈值时标记该事件。在标记该事件后,可以通知相关人员介入处理。
实施例3
本发明实施方式还提出了一种文本信息的处理装置,该装置包括:
文本信息过滤装置,获取文本信息,并对所述文本信息进行过滤;
文本信息归类装置,计算过滤后的文本信息的相似度,并根据所述相似度将过滤后的文本信息归类至不同的事件;
标记装置,计算每个事件的指标,当指标超过阈值时标记该事件。
本实施例使用文本信息过滤装置获取并过滤文本信息,可以获取来自网页的文本信息,并根据文本信息归类装置计算得出的相似度将文本信息归类至不同的事件,标记装置计算各个事件的指标,当指标超过阈值时标记该事件。本发明将具有较高相似度的信息聚集在同一事件中,当该事件所对应的事情在互联网上较为流行时,该事件指标会超过阈值,这时就可以报警并跟进。从而,本发明能自动的从互联网大量信息中获得值得跟进的信息。
在一个实施方式中,所述文本信息归类装置,包括:
高相似度归类装置,当过滤后的文本信息和事件的相似度大于预设值时,将该过滤后的文本信息归类至该事件;
新事件生成装置,当过滤后的文本信息和任意事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件。
通过设置高相似度归类装置和新事件生成装置,不仅可以将信息归类至已存在的事件中,也可以建立新的事件,并将信息归类至该新事件。
在一个实施方式中,所述文本信息归类装置,包括:
文本向量相似度计算装置,计算过滤后的文本信息对应的文本向量的相似度,并将该文本向量的相似度作为该过滤后的文本信息的相似度。
由于文本向量包含了文本特征和节点特征,文本向量的相似度能很好的反应文本之间的相似度。
在一个实施方式中,所述文本信息归类装置,包括:
计数最小表相似度计算装置,计算过滤后的文本信息对应的文本向量的计数最小表的相似度,并将该文本向量的计数最小表的相似度作为该过滤后的文本信息的相似度。
本实施例使用场景示意图如图3所示。文本信息过滤装置从互联网上的论坛、新闻门户网站网页中获取文本信息,过滤后经文本信息归类装置归类后进入各个事件。监视事件的指标,当指标超过阈值时将该事件标记并报警通知相关人员。可以以发送邮件的方式报警。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入操作/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且包括没有明确列出的其他要素,或者是包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (15)

1.一种文本信息的处理方法,其特征在于,该方法包括:
获取文本信息,对所述文本信息进行过滤;
计算过滤后的文本信息的相似度,根据所述相似度将过滤后的文本信息归类至不同的事件;
根据事件中的文本信息,计算每个事件的重要度指标;
判断每个事件对应的所述重要度指标数值是否超过预设重要度阈值,如果超过预设重要度阈值,则对该超过预设重要度阈值的事件进行标记。
2.如权利要求1所述的方法,其特征在于,所述对所述文本信息进行过滤,包括以下步骤中的任一步骤:
使用业务模型判断所述文本信息是否为指定业务,如否,则将判断为否的文本信息过滤掉;
使用广告模型判断所述文本信息是否为广告,如是,则将判断为是的文本信息过滤掉;
使用情感模型判断所述文本信息负面情感值是否超过预设情感值阈值,如超过,则将该超过预设情感阈值的文本信息过滤掉,或者,如果不超过,则将该不超过预设情感阈值的文本信息过滤掉。
3.如权利要求1所述的方法,其特征在于,所述计算过滤后的文本信息的相似度包括:
计算文本信息和文本信息的相似度和/或计算文本信息和事件的相似度。
4.如权利要求3所述的方法,其特征在于,根据所述相似度将过滤后的文本信息归类至不同的事件,包括:
当过滤后的文本信息和事件的相似度大于预设值时,将该过滤后的文本信息归类至该事件;当过滤后的文本信息和任意事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件;
或者,
当过滤后的文本信息和另一文本信息的相似度大于预设值时,将该过滤后的文本信息归类至所述另一文本信息所在的事件;当过滤后的文本信息和任意另一文本信息事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件;
或者,
当过滤后的文本信息和另一文本信息的相似度大于预设值,且该过滤后的文本信息和所述另一文本信息所在的事件的相似度大于预设值时,将该过滤后的文本信息归类至所述另一文本信息所在的事件;当过滤后的文本信息和任意事件的相似度均不大于预设值,且和任意另一文本信息事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件。
5.如权利要求1至4之任一所述的方法,其特征在于,计算过滤后的文本信息的相似度,包括:
计算过滤后的文本信息对应的文本向量的相似度,将该文本向量的相似度作为该过滤后的文本信息的相似度。
6.如权利要求1至4之任一所述的方法,其特征在于,计算过滤后的文本信息的相似度,包括:
计算过滤后的文本信息对应的计数最小表Count-Min Sketch的相似度,将该计数最小表Count-Min Sketch的相似度作为该过滤后的文本信息的相似度。
7.如权利要求1所述的方法,其特征在于,所述每个事件的重要度指标,至少包括以下重要度指标之任一:
文本信息的转发数;
文本信息的点赞数;
文本信息的阅读数;
文本信息的评论数;
文本信息的转发速度;
文本信息的评论速度。
8.如权利要求1所述的方法,其特征在于,所述获取文本信息包括:
获取来自用户生成内容的文本信息。
9.如权利要求1所述的方法,其特征在于,所述获取文本信息包括:
获取来自新闻渠道、微博渠道、论坛渠道的文本信息。
10.如权利要求9所述的方法,其特征在于,所述来自新闻渠道的文本信息包括新闻标题文本,所述来自论坛渠道的文本信息包括论坛帖子文本。
11.如权利要求1所述的方法,其特征在于,还包括:
根据已标记事件中单文本词频-逆文本频率指数,确定该已标记事件的总结性观点。
12.一种文本信息的处理装置,其特征在于,该装置包括:
文本信息过滤装置,获取文本信息,对所述文本信息进行过滤;
文本信息归类装置,计算过滤后的文本信息的相似度,根据所述相似度将过滤后的文本信息归类至不同的事件;
重要度指标计算装置,计算每个事件的重要度指标;
标记装置,判断每个事件对应的所述重要度指标数值是否超过预设重要度阈值,如果超过预设重要度阈值,则对该超过预设重要度阈值的事件进行标记。
13.如权利要求12所述的装置,其特征在于,所述文本信息归类装置,包括:
高相似度归类装置,当过滤后的文本信息和事件的相似度大于预设值时,将该过滤后的文本信息归类至该事件;
新事件生成装置,当过滤后的文本信息和任意事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件。
14.如权利要求12或13所述的装置,其特征在于,所述文本信息归类装置,包括:
文本向量相似度计算装置,计算过滤后的文本信息对应的文本向量的相似度,并将该文本向量的相似度作为该过滤后的文本信息的相似度。
15.如权利要求12或13所述的装置,其特征在于,所述文本信息归类装置,包括:
计数最小表相似度计算装置,计算过滤后的文本信息对应的计数最小表Count-MinSketch的相似度,并将该文本向量的计数最小表Count-Min Sketch的相似度作为该过滤后的文本信息的相似度。
CN201611027271.1A 2016-11-17 2016-11-17 一种文本信息的处理方法和装置 Active CN107038193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611027271.1A CN107038193B (zh) 2016-11-17 2016-11-17 一种文本信息的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611027271.1A CN107038193B (zh) 2016-11-17 2016-11-17 一种文本信息的处理方法和装置

Publications (2)

Publication Number Publication Date
CN107038193A true CN107038193A (zh) 2017-08-11
CN107038193B CN107038193B (zh) 2020-11-27

Family

ID=59530336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611027271.1A Active CN107038193B (zh) 2016-11-17 2016-11-17 一种文本信息的处理方法和装置

Country Status (1)

Country Link
CN (1) CN107038193B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992473A (zh) * 2017-11-24 2018-05-04 国家计算机网络与信息安全管理中心 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN108319978A (zh) * 2018-02-01 2018-07-24 北京捷通华声科技股份有限公司 一种语义相似度计算方法及装置
CN108446296A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种信息处理方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102428467A (zh) * 2009-04-08 2012-04-25 谷歌公司 用于分类的基于相似度的特征集补充
CN103514168A (zh) * 2012-06-15 2014-01-15 富士通株式会社 数据处理方法和设备
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
US20150378986A1 (en) * 2014-06-30 2015-12-31 Linkedln Corporation Context-aware approach to detection of short irrelevant texts
US20160162576A1 (en) * 2014-12-05 2016-06-09 Lightning Source Inc. Automated content classification/filtering
CN106126558A (zh) * 2016-06-16 2016-11-16 东软集团股份有限公司 一种舆情监控方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN102428467A (zh) * 2009-04-08 2012-04-25 谷歌公司 用于分类的基于相似度的特征集补充
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN103514168A (zh) * 2012-06-15 2014-01-15 富士通株式会社 数据处理方法和设备
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法
US20150378986A1 (en) * 2014-06-30 2015-12-31 Linkedln Corporation Context-aware approach to detection of short irrelevant texts
US20160162576A1 (en) * 2014-12-05 2016-06-09 Lightning Source Inc. Automated content classification/filtering
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
CN106126558A (zh) * 2016-06-16 2016-11-16 东软集团股份有限公司 一种舆情监控方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MELETHADATHIL, NIDHEESH等: "Classification and Clustering for Neuroinformatics: Assessing the Efficacy on Reverse-Mapped NeuroNLP Data using Standard ML Techniques", 《2015 INTERNATIONAL CONFERENCE ON ADVANCES IN COMPUTING, COMMUNICATIONS AND INFORMATICS (ICACCI)》 *
田野: "基于微博平台的事件趋势分析及预测研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992473A (zh) * 2017-11-24 2018-05-04 国家计算机网络与信息安全管理中心 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN107992473B (zh) * 2017-11-24 2021-04-27 国家计算机网络与信息安全管理中心 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN108446296A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN108319978A (zh) * 2018-02-01 2018-07-24 北京捷通华声科技股份有限公司 一种语义相似度计算方法及装置

Also Published As

Publication number Publication date
CN107038193B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN106126558B (zh) 一种舆情监控方法及装置
JP5879260B2 (ja) マイクロブログメッセージの内容を分析する方法及び装置
CN102902775B (zh) 互联网实时计算的方法和系统
US20160337401A1 (en) Identifying phishing communications using templates
TWI501097B (zh) 文字串流訊息分析系統和方法
US20130212111A1 (en) System and method for text categorization based on ontologies
US20120284340A1 (en) Social media analysis system
US20130041962A1 (en) Information Filtering
CN106557558A (zh) 一种数据分析方法及装置
CN105975459A (zh) 一种词项的权重标注方法和装置
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN107038193A (zh) 一种文本信息的处理方法和装置
Sun et al. Efficient event detection in social media data streams
CN113836128A (zh) 一种异常数据识别方法、系统、设备及存储介质
Demirbaga HTwitt: a hadoop-based platform for analysis and visualization of streaming Twitter data
Al-Hajjar et al. Framework for social media big data quality analysis
Khun et al. Visualization of Twitter sentiment during the period of US banned huawei
CN107247789A (zh) 基于互联网的用户兴趣采集方法
Krokos et al. A look into twitter hashtag discovery and generation
CN107729206A (zh) 告警日志的实时分析方法、系统和计算机处理设备
Prakashbhai et al. Inference patterns from Big Data using aggregation, filtering and tagging-A survey
Saravanan et al. Probing of geospatial stream data to report disorientation
CN114265883A (zh) 一种实时数据治理的方法、设备、存储介质
CN112434126A (zh) 一种信息处理方法、装置、设备和存储介质
CN110309312B (zh) 一种关联事件获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant