CN105630801A - 用于检测偏离用户的方法和装置 - Google Patents

用于检测偏离用户的方法和装置 Download PDF

Info

Publication number
CN105630801A
CN105630801A CN201410599092.XA CN201410599092A CN105630801A CN 105630801 A CN105630801 A CN 105630801A CN 201410599092 A CN201410599092 A CN 201410599092A CN 105630801 A CN105630801 A CN 105630801A
Authority
CN
China
Prior art keywords
user
detected
comment
standard
given theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410599092.XA
Other languages
English (en)
Inventor
张超
严骏驰
丁建栋
龚旻
张亚楠
王瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201410599092.XA priority Critical patent/CN105630801A/zh
Priority to US14/886,426 priority patent/US20160124965A1/en
Publication of CN105630801A publication Critical patent/CN105630801A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads

Abstract

本发明公开了一种用于检测偏离用户的方法及相应装置,该方法包括:获取标准用户和待检测用户针对给定主题的评论;根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由反映给定主题的多个方面的多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;以及根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。

Description

用于检测偏离用户的方法和装置
技术领域
本发明涉及计算机及互联网技术领域,具体涉及一种用于检测偏离用户的方法和装置。
背景技术
随着互联网技术的发展,门户网站、论坛、微博、微信等社交网络平台已成为人们获取和分享信息和资源的越来越重要的途径,且已发展成为一种虚拟的社会形态。在各种社交网络平台上,人们会针对各种主题(例如,某种产品等)发表各种评论,这些评论对于全面了解和评估该主题的各方面具有重要意义。然而,在网络上也存在许多偏离用户评论,这些偏离用户评论或者是对某个主题的某个方面有着偏离主流的想法,因而不顾及该主题的其他方面;或者属于网络“水军”,他们通常受雇于人,出于营销或不正当竞争等特定目的,发表大量非正常评论来控制舆论。因此,如何从网络上的大量评论中排除偏离用户的评论,获得更为理性和客观的用户评论,以有助于获得对特定主题的更理性和客观的了解,是一个需要解决的问题。
发明内容
在本发明的一个方面,提供了一种用于检测偏离用户的方法,包括:获取标准用户和待检测用户针对给定主题的评论;根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
在本发明的另一个方面,提供了一种用于检测偏离用户的装置,包括:获取模块,被配置为获取标准用户和待检测用户针对给定主题的评论;评分计算模块,被配置为根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间,其中属性维度反映给定主题的方面;判断模块,被配置为根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
本发明的技术方案可以有效地检测和识别来自互联网的用户评论中的偏离用户及其评论,从而有助获得关于特定主题的排除了偏离评论的更为理性和客观的评论。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明的实施例的用于检测偏离用户的方法;
图2示意性地示出了根据本发明的实施例的用于检测偏离用户的方法的原理;
图3示出了根据本发明的实施例的用于检测偏离用户的装置;以及
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
现参照图1,其示出了根据本发明的实施例的用于检测偏离用户的方法。如图所示,该方法包括如下步骤:
在步骤101,获取针对给定主题的标准用户评论以及待检测的用户评论。所述给定主题例如可以是某一类产品,例如汽车等,也可以是人们感兴趣的任何其他话题。所述标准用户评论和待检测的用户评论均可以来自于互联网,例如门户网站、网上论坛、微博、微信等。
所述标准用户评论例如可以是已被证明排除了网络水军评论等非正常评论的正常的用户评论。所述标准用户评论可以来自于针对该给定主题的用户评论的历史数据,例如来自采用实名制的网站的用户评论数据、得到广泛认可的专家论坛中的评论数据、或者论坛中级别较高和获得广泛好评的用户的评论数据等。
所述标准用户评论以及待检测的用户评论都是与用户相关联的,都具有用户ID。该用户ID例如可以是用户在网站上注册的用户ID,或者是用户的上网设备的IP地址等。一个用户ID可以对应于一条或多条评论。因此,所述标准用户评论以及所述待检测的用户评论都可以被划分到不同用户ID。
所述获取的标准用户评论可以被存储在一标准用户评论数据库中。
在步骤102,对于该给定主题,建立反映该主题的不同方面的多个属性维度。例如,对于汽车主题,可以建立小型、低价等属性维度。这样,由这些属性维度可以构成一个多维空间。
在步骤103,根据标准用户评论中每一个用户ID的一条或多条评论,计算该用户对于给定主题的各属性维度的评分,并且同样,对于待检测的用户评论所属的每一个用户ID,根据该用户ID的待检测的一个或多条评论计算该用户对于给定主题的各属性维度的评分。
这样,就可以获得一个评分矩阵,该矩阵的每一列可代表一个用户ID,每一行可代表一个属性维度,而每一个矩阵元素可代表其所属列所代表的用户ID针对其所属行所代表的属性维度的评分。
可以采用现有的评分方法中的一个来计算一用户ID的评论对于一属性维度的评分,例如可以采用如下过程来计算一用户ID的评论对于一属性维度的评分:
在子步骤1031,创建评价词数据库,所述评价词例如可包括“赞”、“好极了”、“好”、“不错”、“极差”等等。所述评价词可以由本发明的装置的使用者根据其经验、专家意见以及用户评论的历史数据等创建,也可以由本发明的装置根据用户评论的历史数据自动创建。
在子步骤1032,针对评价词数据库中的每一评价词,根据该评价词所反映的使用者的态度是正面还是负面以及其强烈程度,给予该评价词一个分数。例如,对于“好极了”可给予最高分数,“好”稍低分数,“不错”更低分数,“极差”最低分数。该步骤可以由本发明的装置的使用者根据其经验或专家意见等执行。
在子步骤1033,对于一用户ID的每一条评论,首先判断该评论涉及给定主题的哪一个属性维度,然后对该条评论进行评价词切分,从而获得构成该条评论的一个或多个评价词。
在子步骤1034,对于构成该条评论的评价词赋予不同权重,以使该条评论的最终得分归一化(例如,位于0和1之间)。该步骤可以由本发明的装置的使用者根据其经验或专家意见等执行。
在子步骤1035,将该条评论的所有评价词的评分乘以各自权重后相加,从而获得该条评论所属的用户ID针对该条评论涉及的主题维度的评分。该评分例如位于0和1之间,且分数越高,表示评价越高。
这样,就获得了每个用户ID针对给定主题的每个属性维度的评分,从而获得所述评分矩阵。
对于该评分矩阵中缺失的元素,即特定用户ID可能没有针对特定属性的评论,可以使用现有的矩阵填充技术进行填充。所述矩阵填充技术例如可以是常用于推荐系统的协同过滤技术(collaborativefiltering)、矩阵分解算法等。
这样,可以由各属性维度构成的多维属性空间中的一个点来代表一个用户ID,该点的坐标值表示该用户ID针对每个属性维度的评分数据集。也就是说,可以将所述标准用户以及待检测用户可以映射到所述多维属性空间,由多维属性空间中的一些点来表示。
返回图1,在步骤104,根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。也就是说,如果待检测用户在多维属性空间中较为接近标准用户分布,则可判断待检测用户不属于偏离用户,而如果待检测用户在多维属性空间中较为远离标准用户分布,则可判断待检测用户属于偏离用户。
图2示意性地示出了根据本发明的实施例的用于检测偏离用户的方法的原理。如图2所示,根据各用户评论针对特定主题的三个属性维度属性A、属性B、属性C的评分,将待检测用户用户1-用户6以及标准用户用户A-用户F都映射到由属性A、属性B和属性C构成的三维空间中。标准用户用户A-用户F在该三维空间中具有特定的分布区域。待检测用户用户4、用户5和用户6较接近标准用户的分布区域,因此可判断待检测用户用户4、用户5和用户6为非偏离用户。而待检测用户用户1、用户2和用户3较远离标准用户的分布区域,而集中于原点附近,因此可判断待检测用户用户1、用户2和用户3为偏离用户。
存在多种方法可用来判断待检测用户与标准用户在多维空间中分布的相似性。例如,可以使用基于分类超平面的相似度判断方法等来判断待检测用户与标准用户在多维空间中分布的相似性。根据本发明的一些实施例,通过以下过程来判断待检测用户与标准用户在多维空间中分布的相似性:
在子步骤1041,在所述多维属性空间中对表示标准用户的所有点以及表示待检测用户的所有点进行聚类,从而将全部标准用户聚类到若干类,例如聚类到A、B、C三个聚类,并且也将全部待检测用户聚类到若干类,例如聚类到1、2、3类。对用户进行聚类的物理意义在于,不同的用户可能注重于不同的属性维度,例如,有些用户注重于产品的外观,因此倾向于给予特定外观属性更高的评分;有些用户注重于产品的性价比,因此倾向于给予低价属性更高的评分;而有些用户注意于品牌,因此倾向于给予特定品牌属性更高或更低的评分,等等。
可以使用现有的聚类方法中的一个进行聚类。例如,可以使用K-均值、基于网格的聚类等方法进行聚类。
然后,可计算每个聚类的聚类中心。
在子步骤1042,在所述多维属性空间中,对于每个待检测用户的聚类,计算其聚类中心到每个标准用户聚类的聚类中心的距离。
在子步骤1043,响应于计算一待检测用户聚类的聚类中心距每个标准用户聚类的聚类中心的距离均大于指定阈值,可判断该待检测用户聚类属于偏离用户聚类。
反之,如果该待检测用户聚类的聚类中心到某个标准用户聚类的聚类中心的距离小于或等于一指定阈值,则可判断该待检测用户聚类属于该标准用户聚类,从而不属于偏离用户聚类。
例如,对于待检测用户聚类1,依次计算其聚类中心到标准用户聚类A、B、C的聚类中心的距离为Dis(1,A)、Dis(1,B)、Dis(1,C)。如果Dis(1,A)、Dis(1,B)、Dis(1,C)均大于一指定阈值,则可判断待检测用户聚类1可能为偏离用户聚类。
进一步地,可根据所述距离中的一个或多个计算该待检测用户为偏离用户的概率。例如,距离越大,则为偏离用户的概率越大。
此后,可以对所判断的非偏离用户和偏离用户进行相应处理,例如将非偏离用户的评论纳入评论集合,以得出对给定主题的较为客户有效的评价,而将偏离用户的评论排除。再例如,可将所判断的非偏离用户的评论存入标准用户评论数据库,以用于以后的偏离用户评论检测,等等。此外,对于所判断的偏离用户可以进一步由本发明的装置的使用者根据经验或专家意见等进行行为分析,以进一步进行确认或其他处理。
以上参照附图描述了根据本发明的实施例的用于检测偏离用户的方法,应指出的是,以上描述仅为示例,而不是对本发明的限制,在本发明的其他实施例中,该方法可具有更多、更少或不同的步骤,且各步骤之间的顺序、包含、功能等关系可以与所描述和图示的不同。
现参照图3描述根据本发明的实施例的用于检测偏离用户的装置。该装置中的各模块可用来执行如上所述的根据本发明的实施例的方法的相应步骤,为简明起见,在以下描述中省略了与以上描述重复的部分细节。因此,可参照以上描述获得对该装置的更详细的了解。
如图3所示,该装置300包括如下模块:
获取模块301,被配置为获取标准用户和待检测用户针对给定主题的评论;
评分计算模块302,被配置为根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;以及
判断模块303,被配置为根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
根据本发明的实施例,所述判断模块303包括如下子模块:聚类子模块,被配置为在所述多维空间中分别将标准用户和待检测用户进行聚类;距离计算子模块,被配置为对于每一个待检测用户聚类,计算其聚类中心距每个标准用户聚类的聚类中心的距离;以及判断子模块,被配置为响应于计算一待检测用户聚类的聚类中心距每个标准用户聚类的聚类中心的距离均大于指定阈值,判断该待检测用户聚类属于偏离用户聚类。
根据本发明的实施例,所述判断子模块还被配置为:响应于计算一待检测用户聚类的聚类中心距一标准用户聚类的聚类中心的距离小于指定阈值,判断该待检测用户聚类属于该标准用户聚类。
根据本发明的实施例,所述评分计算模块302包括:数据库建立子模块,被配置为建立评价词数据库,并赋予数据库中的评价词以分数;属性维度确定子模块,被配置为确定用户评论涉及的给定主题的属性维度;切分子模块,被配置为将用户评论进行评价词切分,从而获得构成该评论的一个或多个评价词;权重赋予子模块,被配置为对于构成该评论的一个或多个评价词分别赋予不同权重;评分获得子模块,被配置为将属性相同属性维度的所述一个或多个评价词的分数乘以其权重后相加,从而获得该用户评论针对给定主题的该属性维度的评分。
根据本发明的实施例,所述评分计算模块302还包括:矩阵构成子模块,被配置为构成矩阵,该矩阵的每一列代表一个用户,每一行代表一个属性维度,每个元素代表相应用户针对给定主题的相应属性维度的评分;矩阵填充子模块,被配置为针对该矩阵中的缺失元素,使用矩阵填充方法进行填充。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(articleofmanufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图4显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种用于检测偏离用户的方法,包括:
获取标准用户和待检测用户针对给定主题的评论;
根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;以及
根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
2.根据权利要求1的方法,其中,所述根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户包括:
在所述多维空间中分别将标准用户和待检测用户进行聚类;
对于每一个待检测用户聚类,计算其聚类中心距每个标准用户聚类的聚类中心的距离;以及
响应于计算一待检测用户聚类的聚类中心距每个标准用户聚类的聚类中心的距离均大于指定阈值,判断该待检测用户聚类属于偏离用户聚类。
3.根据权利要求2的方法,还包括:
响应于计算一待检测用户聚类的聚类中心距一标准用户聚类的聚类中心的距离小于指定阈值,判断该待检测用户聚类属于该标准用户聚类。
4.根据权利要求1的方法,其中,所述根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射为由反映给定主题的多个方面的多个属性维度构成的多维空间中包括:
建立评价词数据库,并赋予数据库中的评价词以分数;
确定用户评论涉及的给定主题的属性维度;
将用户评论进行评价词切分,从而获得构成该评论的一个或多个评价词;
对于构成该评论的一个或多个评价词分别赋予不同权重;
将属于相同属性维度的所述一个或多个评价词的分数乘以其权重后相加,从而获得该用户评论针对给定主题的该属性维度的评分。
5.根据权利要求4的方法,其中,所述根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射为由反映给定主题的多个方面的多个属性维度构成的多维空间中还包括:
构成矩阵,该矩阵的每一列代表一个用户,每一行代表一个属性维度,每个元素代表相应用户针对给定主题的相应属性维度的评分;
针对该矩阵中的缺失元素,使用矩阵填充方法进行填充。
6.一种用于检测偏离用户的装置,包括:
获取模块,被配置为获取标准用户和待检测用户针对给定主题的评论;
评分计算模块,被配置为根据标准用户和待检测用户针对给定主题的评论分别计算标准用户和待检测用户对于给定主题的各属性维度的评分,从而分别将标准用户和待检测用户映射到由多个属性维度构成的多维空间中,其中属性维度反映给定主题的方面;以及
判断模块,被配置为根据待检测用户与标准用户在多维空间中分布的相似性来判断待检测用户是否是偏离用户。
7.根据权利要求6的装置,其中,所述判断模块包括:
聚类子模块,被配置为在所述多维空间中分别将标准用户和待检测用户进行聚类;
距离计算子模块,被配置为对于每一个待检测用户聚类,计算其聚类中心距每个标准用户聚类的聚类中心的距离;以及
判断子模块,被配置为响应于计算一待检测用户聚类的聚类中心距每个标准用户聚类的聚类中心的距离均大于指定阈值,判断该待检测用户聚类属于偏离用户聚类。
8.根据权利要求7的装置,其中,所述判断子模块还被配置为:
响应于计算一待检测用户聚类的聚类中心距一标准用户聚类的聚类中心的距离小于指定阈值,判断该待检测用户聚类属于该标准用户聚类。
9.根据权利要求6的装置,其中,所述评分计算模块包括:
数据库建立子模块,被配置为建立评价词数据库,并赋予数据库中的评价词以分数;
属性维度确定子模块,被配置为确定用户评论涉及的给定主题的属性维度;
切分子模块,被配置为将用户评论进行评价词切分,从而获得构成该评论的一个或多个评价词;
权重赋予子模块,被配置为对于构成该评论的一个或多个评价词分别赋予不同权重;
评分获得子模块,被配置为将属于相同属性维度的所述一个或多个评价词的分数乘以其权重后相加,从而获得该用户评论针对给定主题的该属性维度的评分。
10.根据权利要求9的装置,其中,所述评分计算模块还包括:
矩阵构成子模块,被配置为构成矩阵,该矩阵的每一列代表一个用户,每一行代表一个属性维度,每个元素代表相应用户针对给定主题的相应属性维度的评分;
矩阵填充子模块,被配置为针对该矩阵中的缺失元素,使用矩阵填充方法进行填充。
CN201410599092.XA 2014-10-30 2014-10-30 用于检测偏离用户的方法和装置 Pending CN105630801A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410599092.XA CN105630801A (zh) 2014-10-30 2014-10-30 用于检测偏离用户的方法和装置
US14/886,426 US20160124965A1 (en) 2014-10-30 2015-10-19 Biased Users Detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410599092.XA CN105630801A (zh) 2014-10-30 2014-10-30 用于检测偏离用户的方法和装置

Publications (1)

Publication Number Publication Date
CN105630801A true CN105630801A (zh) 2016-06-01

Family

ID=55852863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410599092.XA Pending CN105630801A (zh) 2014-10-30 2014-10-30 用于检测偏离用户的方法和装置

Country Status (2)

Country Link
US (1) US20160124965A1 (zh)
CN (1) CN105630801A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150817A (zh) * 2017-11-24 2019-01-04 新华三信息安全技术有限公司 一种网页请求识别方法及装置
CN110706026A (zh) * 2019-09-25 2020-01-17 精硕科技(北京)股份有限公司 一种异常用户的识别方法、识别装置及可读存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10459950B2 (en) * 2015-12-28 2019-10-29 Facebook, Inc. Aggregated broad topics
CN106548301B (zh) * 2016-11-30 2020-11-03 南方电网科学研究院有限责任公司 电力用户聚类方法及装置
CN108427669B (zh) * 2018-02-27 2021-06-11 华青融天(北京)软件股份有限公司 异常行为监控方法和系统
CN109636510A (zh) * 2018-11-28 2019-04-16 阿里巴巴集团控股有限公司 一种确定用户风险偏好、理财产品的推荐方法和装置
CN111275526B (zh) * 2020-01-20 2021-04-13 南京财经大学 一种基于极差的电商水军识别方法
CN111966978A (zh) * 2020-08-20 2020-11-20 咪咕文化科技有限公司 异常用户的确定方法、电子设备和存储介质
CN115022917B (zh) * 2022-05-30 2023-08-18 中国电信股份有限公司 异常小区检测方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234955A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Clustering based text classification
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103064971A (zh) * 2013-01-05 2013-04-24 南京邮电大学 一种基于评分和中文情感分析的垃圾评论检测方法
WO2013059487A1 (en) * 2011-10-19 2013-04-25 Cornell University System and methods for automatically detecting deceptive content
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备
CN103377262A (zh) * 2012-04-28 2013-10-30 国际商业机器公司 对用户进行分组的方法和装置
US9298935B1 (en) * 2013-09-20 2016-03-29 Piyush Kumar Distributed privacy framework system and method of implementation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234955A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Clustering based text classification
WO2013059487A1 (en) * 2011-10-19 2013-04-25 Cornell University System and methods for automatically detecting deceptive content
CN103377262A (zh) * 2012-04-28 2013-10-30 国际商业机器公司 对用户进行分组的方法和装置
CN102890702A (zh) * 2012-07-19 2013-01-23 中国人民解放军国防科学技术大学 一种面向网络论坛的意见领袖挖掘方法
CN103064971A (zh) * 2013-01-05 2013-04-24 南京邮电大学 一种基于评分和中文情感分析的垃圾评论检测方法
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备
US9298935B1 (en) * 2013-09-20 2016-03-29 Piyush Kumar Distributed privacy framework system and method of implementation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋海霞 等: "基于自适应聚类的虚假评论检测", 《南京大学学报》 *
庞海杰: "面向文本情感分析的商品评价信息检测", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150817A (zh) * 2017-11-24 2019-01-04 新华三信息安全技术有限公司 一种网页请求识别方法及装置
CN109150817B (zh) * 2017-11-24 2020-11-27 新华三信息安全技术有限公司 一种网页请求识别方法及装置
CN110706026A (zh) * 2019-09-25 2020-01-17 精硕科技(北京)股份有限公司 一种异常用户的识别方法、识别装置及可读存储介质

Also Published As

Publication number Publication date
US20160124965A1 (en) 2016-05-05

Similar Documents

Publication Publication Date Title
CN105630801A (zh) 用于检测偏离用户的方法和装置
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
US9514417B2 (en) Cloud-based plagiarism detection system performing predicting based on classified feature vectors
CN107832432A (zh) 一种搜索结果排序方法、装置、服务器和存储介质
CN104679769B (zh) 对产品的使用场景进行分类的方法及装置
CN106027577A (zh) 一种异常访问行为检测方法及装置
JP6756079B2 (ja) 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム
CN108269122B (zh) 广告的相似度处理方法和装置
CN107704485A (zh) 一种职位推荐方法及计算设备
CN107193962A (zh) 一种互联网推广信息的智能配图方法及装置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN109783631A (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN109241403A (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
CN108563655A (zh) 基于文本的事件识别方法和装置
CN109214417A (zh) 用户意图的挖掘方法及装置、计算机设备及可读介质
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
CN107133263A (zh) Poi推荐方法、装置、设备及计算机可读存储介质
CA3059929A1 (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
US11403550B2 (en) Classifier
CN104735045A (zh) 使用弹性映射对去往社交网络节点的通信的指引
CN110334720A (zh) 业务数据的特征提取方法、装置、服务器和存储介质
CN104750762A (zh) 一种信息检索方法及装置
US20210271637A1 (en) Creating descriptors for business analytics applications
CN103377381A (zh) 识别图像的内容属性的方法和装置
US20160292282A1 (en) Detecting and responding to single entity intent queries

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160601

WD01 Invention patent application deemed withdrawn after publication