CN104572646B - 异常信息确定装置和方法以及电子设备 - Google Patents
异常信息确定装置和方法以及电子设备 Download PDFInfo
- Publication number
- CN104572646B CN104572646B CN201310473243.2A CN201310473243A CN104572646B CN 104572646 B CN104572646 B CN 104572646B CN 201310473243 A CN201310473243 A CN 201310473243A CN 104572646 B CN104572646 B CN 104572646B
- Authority
- CN
- China
- Prior art keywords
- abnormal
- signed
- returned
- sender
- abnormal information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
本公开提供一种异常信息确定装置和方法以及电子设备。该异常信息确定装置包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。根据本公开的异常信息确定装置和方法以及电子设备能够更准确、可靠地确定诸如网络的信息源中的异常信息。
Description
技术领域
本公开涉及文本信息处理领域,更具体地涉及一种异常信息确定装置、异常信息确定方法以及电子设备。
背景技术
随着网络的普及,用户越来越多地利用网络获取资讯。热门新闻的线上评论、以及热门专业论坛都是发言非常活跃的地方;用户对于消费的商品、热门事件等等的评价也会在网上发表,这些言论影响了后来者对于商品或者事情走向的判断。由于背后的巨大商业利益,以操控舆论谋取商业利益的水军就诞生了,他们会集体的发帖,讨论,制造热门事件,从而迷惑普通用户,导致舆论走向朝他们希望的方向走。如果不加以甄别例如水军信息的异常信息,将不能区别何为真假的网络民意,从而不能更好地进行舆情监控。
因此,当前亟需一种能够准确、可靠地识别异常信息的异常信息确定装置以及异常信息确定方法。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不意图确定本公开的关键或重要部分,也不意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本公开的目的之一是提供一种异常信息获确定装置、方法和电子设备,以至少克服现有技术中的上述问题。
根据本公开的一个方面,提供了一种异常信息确定装置,包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。
根据本公开的又一个方面,还提供一种异常信息确定方法,包括:搜索步骤,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定步骤,用于根据异常信息的传播规律,确定搜索步骤搜索到的信息中的异常信息候选;以及异常信息确定步骤,用于基于异常信息候选构建异常信息分类器,并使用该异常信息分类器在异常信息候选中确定异常信息。
根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的异常信息确定装置。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的异常信息确定装置的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述异常信息确定方法。
上述根据本公开实施例的异常信息确定装置和方法以及电子设备,至少能够获得以下益处之一:能够更准确、可靠地确定诸如网络等的信息源中的异常信息,有利于提高甄别异常用户的准确率,并且能够大大提高异常信息监控的效率。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的异常信息确定装置的一种示例结构的框图。
图2是示意性地示出图1中的异常信息候选确定单元的一种可能的示例结构的框图。
图3是示意性地示出图2中的异常帖子候选确定子单元的一种可能的示例结构的框图。
图4是示意性地示出图1中的异常信息确定单元的一种可能的示例结构的框图。
图5是示意性示出根据本公开实施例的异常信息确定方法的流程图。
图6示意性示出根据本公开实施例的异常信息确定方法的异常信息候选确定步骤的一种示例性处理。
图7是示出了可用来实现根据本公开实施例的异常信息确定装置和方法的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本公开实施例的理解。
具体实施方式
在下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的装置结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
图1是示意性地示出根据本公开实施例的异常信息确定装置的一种示例结构的框图。
根据本公开实施例的异常信息确定装置1包括:搜索单元10,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元20,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元30,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。
搜索单元10可以在例如网络的预定信息源中搜索与特定关键词相关的信息。预定信息源例如可以是各个网站中的一个或更多个门户或者专业论坛等。根据本公开的实施例,特定关键词可以由用户指定,例如用户可以指定某个或者某些论坛中重复出现的事件的例如名称等作为特定关键词。例如,用户可以指定“A公司B公司”作为特定关键词。
根据特定关键词,搜索单元10可以例如使用门户或者专业的论坛搜索引擎搜索与特定关键词相关的信息。在例如门户或者专业论坛的预定信息源中搜索的与特定关键词相关的信息例如是诸如水军等异常用户发布的帖子。例如,在以“A公司B公司”作为特定关键词的上述示例中,根据该关键词在诸如网址为“http://www.qihoo.com”的专业论坛中搜索与该关键词相关的信息,结果可以得到以“A公司B公司竞购C公司?”、“【翻译求助】B公司A公司网盘容量大战传到外国去了求翻译”、以及“A公司B公司金山,回家看看用户吧”为标题的多个与特定关键词“A公司B公司”相关的帖子。
发明人发现网络中的异常信息、尤其是水军发布的帖子通常具有一定的传播规律。因此,根据本公开的实施例,针对搜索单元10搜索到的与特定关键词相关的信息,异常信息候选确定单元20可以利用异常信息的传播规律来确定搜索单元搜索到的信息中潜在的异常信息作为异常信息候选。
本领域技术人员可以理解,异常信息候选确定单元20确定异常信息候选的方式可以由本领域技术人员根据实际需要来设定。例如,可以将异常信息候选确定单元设置为将满足异常信息的传播规律的信息作为异常信息候选,也可以将异常信息候选确定单元设置为根据异常信息的传播规律,排除正常信息,而将其余信息确定为异常信息候选。
图2是示意性地示出图1中的异常信息候选确定单元的一种可能的示例结构的框图。如图所示,异常信息候选确定单元20被配置为:针对水军在各个论坛发布的企图操控社会舆论的异常帖子的情况,根据异常帖子的传播规律,确定搜索单元10搜索到的帖子中的异常帖子。
如图2所示,异长信息候选确定单元20包括:标题查询子单元201,用于针对搜索单元10搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值;回帖提取子单元202,用于在标题查询子单元201确定帖子数量大于第一阈值的情况下,确定所有帖子中主帖的作者,并提取每个作者的回帖;以及异常帖子候选确定子单元203,用于基于每个作者的主帖与回帖之间的关系,确定作为异常信息候选的异常帖子候选。
由于为了影响事件走向以达到操控舆论谋取商业利益的目的,水军等异常用户通常会在特定的时间段内发布大量的具有相同或类似标题的帖子,形成突发热点,因此,根据本公开的实施例,标题查询子单元201利用帖子标题判定搜索单元搜索到的信息是否为突发热点。
更具体地,标题查询子单元201针对搜索单元10搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值。例如,如果在诸如24小时之内的时间范围内,以该帖子的标题为标题的所有帖子的数量大于第一阈值,则将该标题表达的事件作为突发热点。第一阈值可以根据例如水军的异常用户运作热点事件时通常发布帖子的数量来确定,例如可以将第一阈值取为1000,10000等。仍以“A公司B公司”作为特定关键词在诸如网址为“http://www.qihoo.com”的专业论坛中搜索为例,根据各个标题下所有帖子的数量,标题查询子单元201可以确定标题为“A公司B公司D公司,回家看看用户吧”的帖子的数量大于第一阈值,为突发热点。
在标题查询子单元201确定帖子数量大于第一阈值的情况下,回帖提取子单元202确定所有帖子中主帖的作者,并提取每个作者的回帖,以由异常帖子候选确定子单元203基于每个作者的主帖与回帖之间的关系,确定异常帖子候选。
诸如水军的异常用户发布异常信息的特点之一是在一个或多个论坛中发布大量帖子、但是很少进行回帖。因此,异常帖子候选确定子单元203可以根据这一规律,利用每个作者的主帖和回帖之间的关系,确定异常帖子候选。
例如,针对每个作者,当该作者的主帖与回帖之比小于预定阈值时,则可以确定该作者为异常用户(例如水军),并且可以将搜索单元10搜索到的信息中以该异常用户为作者的帖子作为异常帖子。该预定阈值可以基于异常用户的发帖行为,根据实际情况任意设置和/或修改。
除了主帖回帖比之外,发明人还发现异常用户的回帖通常具有很高的文本相似度。根据本公开的优选实施例,还可以将发帖回帖比与回帖相似度结合在一起,来判断异常帖子候选。
图3是示意性地示出图2中的异常帖子候选确定子单元的一种可能的示例结构的框图。
如图3所示,异常帖子候选确定子单元203包括:主帖回帖比计算模块2031,用于针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定主帖回帖比是否大于等于第二阈值;回帖相似度确定模块2032,用于在主帖回帖比计算模块确定主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;以及异常帖子候选确定模块2033,用于在主帖回帖比计算模块确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选,并且在主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
更具体地,主帖回帖比计算模块2031针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定主帖回帖比是否大于等于第二阈值。
根据本公开的实施例,在主帖回帖比计算模块2031针对一个作者,确定该作者的主帖回帖比大于第二阈值时,异常帖子候选确定模块2033将该作者在搜索单元10搜索到的帖子中的所有主帖确定为异常帖子候选。第二阈值可以基于一般异常用户的发帖行为,根据实际情况任意设置和/或修改。
根据本公开的实施例,针对主帖回帖比计算模块2031针对一个作者,确定该作者的主帖与回帖之比小于第二阈值时,回帖相似度确定模块2032可以确定该作者的回帖之间的回帖相似度,例如但不限于回帖内容的文本相似度。
回帖内容的文本相似度的确定可以利用本领域技术人员公知的文本相似度确定方法来确定,在此不再赘述。
异常帖子候选确定模块2033在主帖回帖比小于所述第二阈值的情况下,基于回帖相似度确定模块2032确定的回帖相似度来确定异常帖子候选。
根据本公开的优选实施例,异常帖子候选确定模块2033可以被配置为在主帖回帖比计算模块2031确定主帖回帖比小于所述第二阈值的情况下,将其回帖之间的回帖相似度大于第三阈值、且其回帖相似度大于第三阈值的回帖数量大于第四阈值的作者在搜索单元搜索到的帖子中所有主帖确定为异常帖子候选。本领域技术人员可以理解,与第二阈值类似,第三阈值和第四阈值可以基于一般异常用户的发帖行为,根据实际情况任意设置和/或修改。
仍以“A公司B公司”作为特定关键词、在诸如网址为“http://www.qihoo.com”的专业论坛中搜索为例,对异常信息候选单元确定异常信息候选进行描述。由于标题查询子单元201确定标题为“百度A公司B公司D公司,回家看看用户吧”的帖子的数量大于第一阈值,因此可以确定标题为百度A公司B公司D公司,回家看看用户吧”的帖子中主帖的作者,例如为luciferlqy等等,并提取作者为例如luciferlqy的回帖。
当作者为例如luciferlqy的主帖回帖比大于第二阈值时,异常信息候选确定单元20中的异常帖子候选确定子单元203可以将luciferlqy在搜索单元10搜索到的帖子中的所有主帖确定为异常帖子候选。如果作者为例如luciferlqy的主帖回帖比小于第二阈值,则可以进一步利用结合图3描述的回帖相似度单元202以及异常帖子候选确定子单元203进行进一步确定。由于本领域技术人员可以根据如上结合图3对回帖相似度单元202和异常帖子候选确定子单元203的描述,对搜索单元10搜索到的作者为“luciferlqy”的帖子是否为异常帖子候选进行判断,在此省略了对其的详细描述。
通过上面结合图2和图3描述的处理,异常信息候选确定单元20可以确定搜索单元10搜索到的信息中的异常信息候选。
回到图1,在异常信息候选确定单元20确定了异常信息候选之后,异常信息确定单元30可以基于所确定的异常信息候选来构建异常信息分类器,并使用异常信息分类器在异常信息候选中的异常信息。
图4是示意性地示出图1中的异常信息确定单元的一种可能的示例结构的框图。
如图4所示,异常信息确定单元30包括:特征提取子单元301,用于将异常帖子候选的作者作为异常用户,将搜索单元10搜索到的所有主帖的作者中、除异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征;分类器构建子单元302,用于基于异常用户和正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建异常信息分类器;以及异常帖子确定子单元303,用于使用异常信息分类器,在异常帖子候选中确定异常帖子。
根据本公开的优选实施例,在提取用户文本特征和用户行为特征之前,特征提取子单元301也可以对异常帖子候选进行过滤,例如过滤掉无意义的字或者词、过滤掉匿名的作者、和/或过滤掉发帖数小于预定阈值的作者。针对过滤后的异常帖子候选,特征提取子单元301分别针对异常用户和正常用户的主帖,提取用户文本特征和用户行为特征。
本领域技术人员可以理解,特征提取子单元301对异常帖子候选进行过滤的配置不是实现特征提取子单元301所必须的,特征提取子单元301也可以直接对异常信息候选确定单元20确定的异常信息候选的用户文本特征和用户行为特征进行提取。
根据本公开的实施例,用户文本特征包括但不限于:异常帖子候选中的情感词数量、是否含有URL链接、该异常帖子候选的作者在不同帖子下相似内容的数量、在同一主题中是否有重复内容。用户行为特征包括但不限于:回帖占新发帖的比例、发帖间隔、活跃时间、评论不同帖子的数量。
在特征提取子单元301提取了用户文本特征和用户行为特征之后,分类器构建子单元302基于异常用户和正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建异常信息分类器。在构建了异常信息分类器之后,异常信息确定单元利用该异常信息分类器对异常帖子候选进行分类,即在异常帖子候选中确定异常帖子和正常帖子。
利用正例-未标注样本分类方法构建分类器的方法以及利用分类器进行分类的方法是本领域公知的,在此不再赘述。
根据本公开的一个实施例,还提供了一种异常信息确定方法。下面结合图5来描述异常信息确定方法的一种示例性处理。
如图5所示,根据本公开的实施例的异常信息确定方法的处理流程500开始于S510,然后执行S520的处理。
在搜索步骤S520中,在预定信息源中搜索与特定关键词相关的信息。根据本公开的一个实施例,搜索步骤520可以用于在网络中搜索与特定关键词相关的帖子。例如,可以通过执行例如参照图1描述的搜索单元10的处理来实现搜索步骤S520,在此省略其描述。然后执行S530。
在异常信息候选确定步骤S530中,根据异常信息的传播规律,确定所述搜索步骤搜索到的信息中的异常信息候选。异常信息候选确定步骤S530例如可以通过执行例如参照图1-3描述的异常信息候选确定单元20的处理来实现,在此省略其描述。然后执行S540。
根据本公开的一个实施例,异常信息候选确定步骤S530用于根据异常帖子的传播规律,确定搜索步骤520搜索到的帖子中的异常帖子候选。
图6示出了实现图5中的异常信息候选确定步骤S530的一个示例性处理。
如图6所示,在标题查询子步骤S5301,针对搜索步骤S520搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值。标题查询子步骤S5301可以例如参照图2描述的标题查询子单元201的处理来实现,在此省略对其的详细描述。
在所述标题查询子步骤确定所述帖子数量大于第一阈值的情况下执行步骤S5302。
在回帖提取子步骤S5302,,确定该所有帖子中主帖的作者,并提取每个作者的回帖。回帖提取子步骤S5302可以例如参照图2描述的回帖提取子单元202的处理来实现,在此省略对其的详细描述。
接着,在异常信息候选确定子步骤S5303,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选。
根据本公开的一个实施例,异常信息候选确定子步骤S5303可以包括:针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定所述主帖回帖比是否大于等于第二阈值;在确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;在确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索步骤S520搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
根据本公开的优选实施例,可以在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索步骤S520搜索到的帖子中的所有主帖确定为异常帖子候选。
例如,可以通过执行例如参照图2-图3描述的标题查询子单元201、回帖提取子单元202以及异常帖子候选确定子单元203的处理来实现异常信息确定步骤S5301、S5302、S5303,在此省略其描述。
回到图5,在异常信息确定步骤S540中,基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。
根据本公开的一个实施例,异常信息确定步骤S540可以包括:将所述异常帖子候选的作者作为异常用户,将所述搜索步骤S520搜索到的所有主帖的作者中、除所述异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征;基于所述异常用户和所述正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建所述异常信息分类器;以及使用所述异常信息分类器,在所述异常帖子候选中确定异常帖子。
例如,可以通过执行例如参照图1和图4描述的异常信息确定单元30的处理来实现异常信息确定步骤S540,在此省略其描述。然后执行S550。
处理流程500结束于S550。
与现有技术中相比,根据本公开的异常信息确定装置和异常信息确定方法具有至少以下一个优点:利用了异常信息的传播规律来确定异常信息候选,从而能够更准确、可靠地确定异常信息,有利于提高甄别异常用户的准确率,并且能够大大提高异常信息监控的效率。
此外,本公开的实施例还提供了一种电子设备,该电子设备被配置包括如上所述的异常信息确定装置1。该电子设备例如可以是以下设备中的任意一种:手机;计算机;平板电脑;以及个人数字助理等。相应地,该电子设备能够拥有如上所述的异常信息确定装置的有益效果和优点。
上述根据本公开的实施例的异常信息确定装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图7是示出了可用来实现根据本公开的实施例的是异常信息确定装置和方法的一种可能的信息处理设备的硬件配置的结构简图。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM703中,还根据需要存储当CPU701执行各种处理等等时所需的数据。CPU701、ROM702和RAM703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件也连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由网络例如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序可根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开的实施例的异常信息确定方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
方案1、一种异常信息确定装置,包括:
搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;
异常信息候选确定单元,用于根据异常信息的传播规律,确定所述搜索单元搜索到的信息中的异常信息候选;以及
异常信息确定单元,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息。
方案2、根据方案1所述的异常信息确定装置,其中所述搜索单元被配置为在网络中搜索与特定关键词相关的帖子。
方案3、根据方案2所述的异常信息确定装置,其中所述异常信息候选确定单元用于根据异常帖子的传播规律,确定所述搜索单元搜索到的帖子中的异常帖子候选,所述异常信息候选确定单元包括:
标题查询子单元,用于针对搜索单元搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值;
回帖提取子单元,用于在所述标题查询子单元确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及
异常帖子候选确定子单元,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选。
方案4、根据方案3所述的异常信息确定装置,其中所述异常帖子候选确定子单元包括:
主帖回帖比计算模块,用于针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定所述主帖回帖比是否大于等于第二阈值;
回帖相似度确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;以及
异常帖子候选确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
方案5、根据方案4所述的异常信息确定装置,其中所述异常帖子候选确定模块被配置为在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选。
方案6、根据方案3-5中任一项所述的异常信息确定装置,其中所述异常信息确定单元包括:
特征提取子单元,用于将所述异常帖子候选的作者作为异常用户,将所述搜索单元搜索到的所有主帖的作者中、除所述异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征;
分类器构建子单元,用于基于所述异常用户和所述正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建所述异常信息分类器;以及
异常帖子确定子单元,用于使用所述异常信息分类器,在所述异常帖子候选中确定异常帖子。
方案7、一种异常信息确定方法,包括:
搜索步骤,用于在预定信息源中搜索与特定关键词相关的信息;
异常信息候选确定步骤,用于根据异常信息的传播规律,确定所述搜索步骤搜索到的信息中的异常信息候选;以及
异常信息确定步骤,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息。
方案8、根据方案7所述的异常信息确定方法,其中所述搜索步骤用于在网络中搜索与特定关键词相关的帖子。
方案9、根据方案8所述的异常信息确定方法,其中所述异常信息候选确定步骤用于根据异常帖子的传播规律,确定所述搜索步骤搜索到的帖子中的异常帖子候选,所述异常信息候选确定步骤包括:
标题查询子步骤,用于针对搜索步骤搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值;
回帖提取子步骤,用于在所述标题查询子步骤确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及
异常信息候选确定子步骤,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选。
方案10、根据方案9所述的异常信息确定方法,其中所述异常信息候选确定子步骤包括:
针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定所述主帖回帖比是否大于等于第二阈值;
在确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;
在确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索步骤搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
方案11、根据权利要求10所述的异常信息确定方法,其中确定异常帖子候选包括在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索步骤搜索到的帖子中的所有主帖确定为异常帖子候选。
方案12、根据权利要求9-11中任一项所述的异常信息确定方法,其中所述异常信息确定步骤包括:
特征提取子步骤,用于将所述异常帖子候选的作者作为异常用户,将所述搜索步骤搜索到的所有主帖的作者中、除所述异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征;
分类器构建子步骤,用于基于所述异常用户和所述正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建所述异常信息分类器;以及
异常信息确定子步骤,用于使用所述异常信息分类器,在所述异常帖子候选中确定异常帖子。
方案13、一种电子设备,包括根据方案1-6中任一项所述的异常信息确定装置。
方案14、根据方案13所述的电子设备,其中电子设备是手机、计算机、平板电脑、或个人数字助理。
方案15、一种使得计算机用作如方案1-6中任一项所述的异常信息确定装置的程序。
方案16、一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,该程序使得计算机用作如方案1-6中任一项所述的异常信息确定装置。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。
Claims (5)
1.一种异常信息确定装置,包括:
搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;
异常信息候选确定单元,用于根据异常信息的传播规律,确定所述搜索单元搜索到的信息中的异常信息候选;以及
异常信息确定单元,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息;
其中所述搜索单元被配置为在网络中搜索与特定关键词相关的帖子;
其中所述异常信息候选确定单元用于根据异常帖子的传播规律,确定所述搜索单元搜索到的帖子中的异常帖子候选,所述异常信息候选确定单元包括:
标题查询子单元,用于针对搜索单元搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值;
回帖提取子单元,用于在所述标题查询子单元确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及
异常帖子候选确定子单元,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选;
其中所述异常帖子候选确定子单元包括:
主帖回帖比计算模块,用于针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定所述主帖回帖比是否大于等于第二阈值;
回帖相似度确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;以及
异常帖子候选确定模块,用于在所述主帖回帖比计算模块确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
2.根据权利要求1所述的异常信息确定装置,其中所述异常帖子候选确定模块被配置为在所述主帖回帖比小于所述第二阈值、但该作者的回帖之间的回帖相似度大于第三阈值且其回帖相似度大于第三阈值的回帖数量大于第四阈值的情况下,将该作者在所述搜索单元搜索到的帖子中的所有主帖确定为异常帖子候选。
3.根据权利要求1或2所述的异常信息确定装置,其中所述异常信息确定单元包括:
特征提取子单元,用于将所述异常帖子候选的作者作为异常用户,将所述搜索单元搜索到的所有主帖的作者中、除所述异常用户之外的其他作者作为正常用户,并且分别针对所述异常用户和所述正常用户的主帖,提取用户文本特征和用户行为特征;
分类器构建子单元,用于基于所述异常用户和所述正常用户的用户文本特征和用户行为特征,利用正例-未标注样本分类方法,构建所述异常信息分类器;以及
异常帖子确定子单元,用于使用所述异常信息分类器,在所述异常帖子候选中确定异常帖子。
4.一种异常信息确定方法,包括:
搜索步骤,用于在预定信息源中搜索与特定关键词相关的信息;
异常信息候选确定步骤,用于根据异常信息的传播规律,确定所述搜索步骤搜索到的信息中的异常信息候选;以及
异常信息确定步骤,用于基于所述异常信息候选构建异常信息分类器,并使用所述异常信息分类器在所述异常信息候选中确定异常信息;
其中所述搜索步骤用于在网络中搜索与特定关键词相关的帖子;
其中所述异常信息候选确定步骤用于根据异常帖子的传播规律,确定所述搜索步骤搜索到的帖子中的异常帖子候选,所述异常信息候选确定步骤包括:
标题查询子步骤,用于针对搜索步骤搜索到的每个帖子,查询在预定时间段内、以该帖子的标题为标题的所有帖子,并确定该所有帖子的帖子数量是否大于第一阈值;
回帖提取子步骤,用于在所述标题查询子步骤确定所述帖子数量大于第一阈值的情况下,确定该所有帖子中主帖的作者,并提取每个作者的回帖;以及
异常信息候选确定子步骤,用于基于所述每个作者的主帖与回帖之间的关系,确定作为所述异常信息候选的异常帖子候选;
其中所述异常信息候选确定子步骤包括:
针对每个作者,计算该作者的主帖与回帖之间的主帖回帖比,并且确定所述主帖回帖比是否大于等于第二阈值;
在确定所述主帖回帖比小于第二阈值的情况下,确定该作者的回帖之间的回帖相似度;
在确定所述主帖回帖比大于等于所述第二阈值的情况下,将该作者在所述搜索步骤搜索到的帖子中的所有主帖确定为异常帖子候选,并且在所述主帖回帖比小于所述第二阈值的情况下,基于所述回帖相似度来确定所述异常帖子候选。
5.一种电子设备,包括根据权利要求1-3中任一项所述的异常信息确定装置,所述电子设备包括手机、计算机、平板电脑、以及个人数字助理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310473243.2A CN104572646B (zh) | 2013-10-11 | 2013-10-11 | 异常信息确定装置和方法以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310473243.2A CN104572646B (zh) | 2013-10-11 | 2013-10-11 | 异常信息确定装置和方法以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572646A CN104572646A (zh) | 2015-04-29 |
CN104572646B true CN104572646B (zh) | 2017-10-17 |
Family
ID=53088748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310473243.2A Expired - Fee Related CN104572646B (zh) | 2013-10-11 | 2013-10-11 | 异常信息确定装置和方法以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572646B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255024A (zh) * | 2017-07-12 | 2019-01-22 | 车伯乐(北京)信息科技有限公司 | 一种异常用户同党的搜索方法,装置,及系统 |
CN107332931A (zh) * | 2017-08-07 | 2017-11-07 | 合肥工业大学 | 机器型论坛水军的识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102315952A (zh) * | 2010-06-29 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于社区网络中检测垃圾帖子的方法与设备 |
CN102315953A (zh) * | 2010-06-29 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 基于帖子的出现规律来检测垃圾帖子的方法及设备 |
CN102929918A (zh) * | 2012-09-20 | 2013-02-13 | 西北工业大学 | 虚假网络舆情识别方法 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060168032A1 (en) * | 2004-12-21 | 2006-07-27 | Lucent Technologies, Inc. | Unwanted message (spam) detection based on message content |
-
2013
- 2013-10-11 CN CN201310473243.2A patent/CN104572646B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102315952A (zh) * | 2010-06-29 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于社区网络中检测垃圾帖子的方法与设备 |
CN102315953A (zh) * | 2010-06-29 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 基于帖子的出现规律来检测垃圾帖子的方法及设备 |
CN102929918A (zh) * | 2012-09-20 | 2013-02-13 | 西北工业大学 | 虚假网络舆情识别方法 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104572646A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rout et al. | Deceptive review detection using labeled and unlabeled data | |
Heydari et al. | Detection of fake opinions using time series | |
Li et al. | Identifying and profiling key sellers in cyber carding community: AZSecure text mining system | |
Dewang et al. | State-of-art approaches for review spammer detection: a survey | |
Ren et al. | Learning to detect deceptive opinion spam: A survey | |
Saumya et al. | Spam review detection using LSTM autoencoder: an unsupervised approach | |
Minnich et al. | Trueview: Harnessing the power of multiple review sites | |
CN104156490A (zh) | 基于文字识别检测可疑钓鱼网页的方法及装置 | |
CN105512180A (zh) | 一种搜索推荐方法及装置 | |
Hosseinia et al. | Detecting sockpuppets in deceptive opinion spam | |
Tayal et al. | Fast retrieval approach of sentimental analysis with implementation of bloom filter on Hadoop | |
CN116109373A (zh) | 金融产品的推荐方法、装置、电子设备和介质 | |
CN110826315B (zh) | 使用神经网络系统识别短文本时效性的方法 | |
CN111967503A (zh) | 多类型异常网页分类模型的构建方法、异常网页检测方法 | |
CN115618024A (zh) | 多媒体推荐方法、装置及电子设备 | |
CN104572646B (zh) | 异常信息确定装置和方法以及电子设备 | |
CN111177719A (zh) | 地址类别判定方法、装置、计算机可读存储介质及设备 | |
Aljabri et al. | Fake news detection using machine learning models | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
Crijns et al. | Topic modelling applied on innovation studies of Flemish companies | |
CN111159399A (zh) | 一种汽车垂直网站水军甄别方法 | |
WO2019242453A1 (zh) | 信息处理方法及装置、存储介质、电子装置 | |
Korovesis et al. | Leveraging aspect-based sentiment prediction with textual features and document metadata | |
CN113052647B (zh) | 一种用于冷启动的推荐方法、装置及计算机可读存储介质 | |
Biswas | Sentiment analysis on national education policy change 2020 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171017 Termination date: 20181011 |