CN108108348A - 信息的处理方法、服务器、存储介质和电子装置 - Google Patents

信息的处理方法、服务器、存储介质和电子装置 Download PDF

Info

Publication number
CN108108348A
CN108108348A CN201711144387.8A CN201711144387A CN108108348A CN 108108348 A CN108108348 A CN 108108348A CN 201711144387 A CN201711144387 A CN 201711144387A CN 108108348 A CN108108348 A CN 108108348A
Authority
CN
China
Prior art keywords
information
index
probability
server
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711144387.8A
Other languages
English (en)
Inventor
冯锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Chengdu Co Ltd
Original Assignee
Tencent Technology Chengdu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Chengdu Co Ltd filed Critical Tencent Technology Chengdu Co Ltd
Priority to CN201711144387.8A priority Critical patent/CN108108348A/zh
Publication of CN108108348A publication Critical patent/CN108108348A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息的处理方法、服务器、存储介质和电子装置。其中,该方法包括:服务器获取客户端上报的一段信息中的目标信息;服务器获取目标信息在客户端上报的历史信息中被划分为第一类信息的第一次数,以及目标信息在历史信息中被划分为第二类信息的第二次数;服务器获取预定的第一指数第一指数和第二指;服务器根据第一次数、第二次数、第一指数和第二指数确定一段信息是否为第一类信息。本发明解决了处理信息时容易出错的技术问题。

Description

信息的处理方法、服务器、存储介质和电子装置
技术领域
本发明涉及信息处理领域,具体而言,涉及一种信息的处理方法、服务器、存储介质和电子装置。
背景技术
网络技术的发展和网络应用的丰富使得网络言论具有多样化的特点。网络言论包括社区应用中用户发表的评论以及对评论的回复,包括社交应用上用户发表的文章、状态和相应的回复和评论等。
然而,在网络公共空间发布的这些公开言论信息涉及的内容很多,例如,有一部分会涉及到不良信息。对于这些内容,用户可以通过举报来告知运营团队,运营团队的成员会辨别被举报的内容是否为不良信息,并对不良信息其进行处理。另一方面,某些用户会利用举报机制来进行恶意举报,这些恶意举报的行为会增加运营团队的成员的工作量,从而导致运营团队的人力成本增加,整体团队效率低下。
现有技术在进行不良信息的判别时采用阈值判别的方式。这种阈值判别的方式,可以采用图1所示的服务器架构,该服务器架构包括举报服务器、分词数据库和举报数据库。具体流程如图2所示,用户在客户端对评论内容进行举报。举报服务器接收请求,把评论内容提交到分词数据库进行分词处理。分词数据库根据本地词库,对评论内容进行分词,并返回结果。举报服务器针对每个单词,到数据库查询其过去被举报过的次数。举报数据库返回每个单词的被举报次数。举报服务器汇总举报次数,假如超过了配置的阈值,则认为评论内容存在不良信息。举报服务器返回举报处理结果。
但是,采用阈值的方案判断言论信息是否不良,存在一定的局限性,容易被用户利用而造成恶意举报,影响其他正常的评论,导致举报服务器处理有误。
为针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种信息的处理方法、服务器、存储介质和电子装置,以至少解决处理信息时容易出错的技术问题。
根据本发明实施例的一个方面,提供了一种信息的处理方法,包括:服务器获取客户端上报的一段信息中的目标信息,其中,所述一段信息为第一类信息或者第二类信息,所述第一类信息与所述第二类信息为不同类别的信息;所述服务器获取目标信息在所述客户端上报的历史信息中被划分为第一类信息的第一次数,以及所述目标信息在所述历史信息中被划分为第二类信息的第二次数;所述服务器获取第一指数和第二指数,其中,所述第一指数用于指示所述一段信息为所述第一类信息的先验概率,所述第二指数用于指示所述一段信息为所述第二类信息的先验概率;所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息。
根据本发明实施例的另一方面,还提供了一种服务器,包括:第一获取单元,用于获取客户端上报的一段信息中的目标信息,其中,所述一段信息为第一类信息或者第二类信息,所述第一类信息与所述第二类信息为不同类别的信息;第二获取单元,用于获取目标信息在所述客户端上报的历史信息中被划分为第一类信息的第一次数,以及所述目标信息在所述历史信息中被划分为第二类信息的第二次数;第三获取单元,用于获取第一指数和第二指数,其中,所述第一指数用于指示所述一段信息为所述第一类信息的先验概率,所述第二指数用于指示所述一段信息为所述第二类信息的先验概率;确定单元,用于根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息。
根据本发明实施例的又一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述的方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器通过所述计算机程序执行上述的方法。
在本发明实施例中,目标信息在历史信息中被划分为第一类信息的第一次数和被划分为第二类信息的第二次数,以及一段信息为第一类信息的第一指数和一段信息为第二类信息的第二指数,可以反映一段信息为第一类信息的可能性,因此,根据上述第一次数、第二次数、第一指数和第二指数可以确定一段信息是否为第一类信息,解决了现有技术处理客户端上报的信息容易出错的技术问题,达到了准确判断一段信息是否为第一类信息的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术的一种服务器硬件环境的示意图;
图2是根据现有技术的信息处理方法的交互图;
图3是根据本发明实施例的硬件环境系统的示意图;
图4是根据本发明实施例的信息的处理方法的交互图;
图5是根据本发明实施例的信息的处理方法的流程图;
图6是根据本发明实施例的举报界面的示意图;
图7是根据本发明实施例的显示举报结果界面的示意图;
图8是是根据本发明实施例的服务器的示意图;以及
图9是根据本发明实施例的电子装置的架构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种信息的处理方法。
可选地,在本实施例中,上述信息的处理方法可以应用于如图3所示的硬件环境中。该硬件环境包括客户端302,举报服务器303,算法服务器304,分词数据库305和词频数据库306。如图3所示,客户端302通过网络与举报服务器302进行连接,举报服务器303通过网络与算法服务器304进行连接,上述网络包括但不限于:广域网、城域网或局域网。
图3所示的硬件环境系统的主要工作原理如图4所示:
下面以判断用户举报的评论是否为不良信息为例,并结合图4对本实施例的信息的处理方法进行说明。
举报服务器接收到客户端发送的举报评论,并将举报评论发送给算法服务器,由算法服务器鉴别评论内容。算法服务器将待鉴别的评论内容发送给分词数据库进行分词,得到分词结果,然后根据分词结果向词频数据库进行词频查询,并获得词频查询结果。算法服务器根据在词频数据库查询的词频计算该评论内容为不良信息的概率,根据计算出的概率确定该评论内容是否为不良信息,并将最终的鉴别结果发送给举报服务器,由举报服务器将鉴别结果返回给客户端。在鉴别结果为该评论信息为不良信息的情况下,在客户端上隐藏该不良信息,并且显示提示:该信息为不良信息已隐藏。同时,可对发布该不良信息的帐号做标记,以便后续分析该帐号是否经常发布不良信息,若该用户经常发布不良信息,则注销该帐号。在鉴别结果为该评论信息为正常信息的情况下,正常显示该评论信息。在本实施例中,举报服务器和算法服务器可以为同一个服务器,也可以是两个服务器。
图5是根据本发明实施例的信息的处理方法的流程图。如图5所示,执行该信息的处理方法的服务器可以是图3所示的算法服务器,该信息的处理方法包括如下步骤:
步骤S502,服务器获取客户端上报的一段信息中的目标信息,其中,一段信息为第一类信息或者第二类信息,第一类信息与第二类信息为不同类别的信息。
客户端上报的一段信息可以是用户的评论信息、用户发表的话题、观点、状态等信息。第一类信息可以是不良信息,第二类信息可以是正常信息。
一段信息包括一个或者多个词汇,以及符号等信息。服务器需要获取客户端上报的一段信息中的一个或者多个词汇,并从中确定目标信息,具体地,服务器获取客户端上报的一段信息中的目标信息包括:服务器获取对一段信息进行划分后得到的一个或者多个子信息;在得到一个子信息的情况下,服务器将一个子信息作为目标信息;在得到多个子信息的情况下,服务器将多个子信息与预先存储的历史子信息进行比较;若多个子信息与历史子信息中任意一个或者多个子信息相同,则服务器将相同的子信息作为一个或者多个目标信息。
此处的服务器可以是图3和图4所示的算法服务器,服务器获取子信息数据库对一段信息进行划分得到的划分结果。如果划分结果包括一个子信息,则将这个子信息作为目标信息。如果划分结果包括多个子信息,将多个子信息发送给词频数据库来确定目标信息。其中,词频数据库中具有预先存储的历史子信息。如果多个子信息中包括与历史子信息相同的词汇,则将相同的词汇作为目标信息。例如,一段信息为“向AA银行转账10元享受畅读”。对上述信息进行划分后得到的多个子信息包括:向、AA银行、转账、享受、畅读等。其中,AA银行、转账、享受和畅读与存储在分词服务器中的历史子信息相同,则将AA银行、转账、享受和畅读作为目标信息,得到多个目标信息。
词频数据库中存储的历史子信息可以采用下表1所示的形式。
表1
词频数据库中词频统计数据可以使用键-值型数据库存储。主键是子信息,值是出现次数。
按照上述表1,上述例子中多个目标信息的存储形式如表2所示。
表2
目标信息 在正常信息中出现次数 在不良信息中出现次数
AA银行 60 240
转账 15 294
享受 195 130
畅读 270 30
步骤S504,服务器获取目标信息在客户端上报的历史信息中被划分为第一类信息的第一次数,以及目标信息在历史信息中被划分为第二类信息的第二次数。
第一类信息为不良信息,第二类信息为正常信息。每次服务器接收到客户端上报的信息之后,将上报的信息以及该信息的处理结果存储在词频数据库中,服务器从词频数据库中获取词频信息。例如,客户端上报的一段信息中包括“转账”这个子信息,若包含“转账”的一段信息为不良信息,则“转账”对应的在不良信息中出现次数加上1次;若包含“转账”的一段信息为正常信息,则“转账”对应的在正常信息中出现次数加上1次。从而得到表1所示的子信息的存储结构。此处以“转账”这个子信息为例进行说明,应该理解到,一段信息中所包含的其他子信息也按照“转账”这个子信息的形式进行存储。
如表2所示,上述三个目标信息AA银行、转账和享受在历史信息中被划分为第一类信息的次数依次为240、294和130。即,在客户端历史上报的信息中,包含子信息“AA银行”的一段信息在历史上报的信息中,有240次被划分为不良信息,有60次被划分为正常信息;同理,在客户端历史上报的信息中,包含子信息“转账”的一段信息在历史上报的信息中,有294次被划分为不良信息,有15次被划分为正常信息;在客户端历史上报的信息中,包含子信息“享受”的一段信息在历史上报的信息中,有130次被划分为不良信息,有195次被划分为正常信息。可见,历史信息可以反映出包含目标信息的信息为不良信息的可能性。在客户端历史上报的信息中,包含子信息“畅读”的一段信息在历史上报的信息中,有30次被划分为不良信息,有270次被划分为正常信息。可见,历史信息中词频信息可以反映出包含目标信息的信息为不良信息的可能性。例如,包含“转账”的信息有294次被划分为不良信息,包含“畅读”的信息只有30次被划分为不良信息,那么,包含“转账”的一段信息被不良信息的可能性高于包含“畅读”的一段信息。
步骤S506,服务器获取第一指数和第二指数,其中,第一指数用于指示一段信息为第一类信息的先验概率,第二指数用于指示一段信息为第二类信息的先验概率。
先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。在贝叶斯统计推断中,不确定数量的先验概率分布是在考虑一些因素之前表达对这一数量的置信程度的概率分布。例如,先验概率分布可能代表在将来的选举中投票给特定政治家的选民相对比例的概率分布。
第一指数和第二指数为初始化的指数,有在上报的一段信息为不良信息的概率为第一指数,上报的一段信息为正常信息的概率为第二指数。例如,服务器接收到的历史信息中,经分析后有40%为不良信息,60%为正常信息。由于接收到的历史信息数量较多,历史信息中不良信息的概率可以表示再接收到的一段信息为不良信息的概率。当再次接收到一段信息后,有40%的可能为不良信息。即,上述第一指数可以为40%,第二指数可以为60%。
步骤S508,服务器根据第一次数、第二次数、第一指数和第二指数确定一段信息是否为第一类信息。
第一次数和第二次数可以表示一段信息为不良信息的概率,第一指数和第二指数也可以反映一段信息为不良信息的概率,因此,根据以上第一次数、第二次数、第一指数和第二指数可以判断出一段信息是否为第一类信息。
通过本实施例,目标信息在历史信息中被划分为第一类信息的第一次数和被划分为第二类信息的第二次数,以及一段信息为第一类信息的第一指数和一段信息为第二类信息的第二指数,可以反映一段信息为第一类信息的可能性,因此,根据上述第一次数、第二次数、第一指数和第二指数可以确定一段信息是否为第一类信息。相比现有技术简单的根据阈值来判断一段信息是否为第一类信息更加准确,解决了现有技术处理客户端上报的信息容易出错的技术问题,达到了准确判断一段信息是否为第一类信息的技术效果。同时,这种方式对包括恶意举报的上报信息进行处理时可以提高处理效率。
可选地,服务器根据第一次数、第二次数、所预定的述第一指数和第二指数确定一段信息是否为第一类信息包括:服务器根据第一次数、第二次数、第一指数和第二指数确定一段信息为第一类信息的概率;在服务器判断概率大于或者等于预设概率时,确定一段信息为第一类信息。
通常情况下,可以将预设概率设置为50%,当服务器计算出的概率大于或者等于50%时,判定该一段信息为第一类信息。预设概率也可以根据该一段信息所在的应用环境进行调整。例如,在恶意举报比较多的游戏应用的环境下,可以将预设概率设置为50%;在恶意举报比较少的社交应用的环境下,可以将预设概率设置为60%。该预设概率也可以根据一段信息所在的应用历史上报的信息中被判定为第一类信息的概率的作为预设概率。
可选地,一段信息包括多个目标信息,服务器根据第一次数、第二次数、第一指数和第二指数确定一段信息为第一类信息的概率包括:服务器根据每个目标信息的第一次数、第二次数、第一指数和第二指数确定一段信息为第一类信息的概率,得到多个概率;在服务器判断概率大于或者等于预设概率时,确定一段信息为第一类信息包括:服务器判断多个概率的平均值大于或者等于预设概率时,确定一段信息为第一类信息;或者服务器判断多个概率的最大值大于或者等于预设概率时,确定一段信息为第一类信息。
客户端上报的一段信息可以是一个字,也可以是多个字构成的句子。一段信息为一个字时,得到一个子信息;一段信息为多个字时,可以得到多个子信息。多个子信息可能包括一个目标信息或者多个目标信息。目标信息的获取方式见上述内容,此处不再重复赘述。在一段信息包括多个目标信息的情况下,可以对每个目标信息计算一次该目标信息所对应的一段信息的概率,得到多个概率。在利用多个概率确定一段信息是否为第一类信息时,包括两种判定方式:
第一种:将多个概率取平均值,利用平均值与预设概率进行比较,若平均值大于或者等于预设概率,则确定一段信息为第一类信息。这种方式适用于对举报的判定比较宽松的应用环境中。例如:对客户端上报的娱乐社区内的一段信息的判定比较宽松。
第二种:将多个概率中的最大值与预设概率进行比较。若最大值大于或者等于预设概率,则确定一段信息为第一类信息。这种方式适用于对举报的判定比较严格的应用环境中。例如:对客户端上报的学术交流社区内的一段信息的判定比较严格。
可选地,服务器根据第一次数、第二次数、第一指数和第二指数确定一段信息为第一类信息的概率包括:服务器根据第一次数和第二次数确定目标信息被划分为第一类信息的第一概率和目标信息被划分为第二类信息的第二概率;服务器根据第一概率、第二概率、第一指数和第二指数确定一段信息为第一类信息的概率。
第一概率可以是第一次数和目标信息出现的总次数的比值,总次数为目标信息被划分为第一类信息的次数与目标信息被划分为第二类信息的次数的总和。例如表2所示的“转账”,第一次数为294次,第二次数为15次,总次数为300次,则第二概率为5%,第一概率为95%。
可选地,服务器根据第一概率、第二概率、第一指数和第二指数确定一段信息为第一类信息的概率包括:服务器获取第一概率与第一指数的乘积,得到第一结果;服务器获取第二概率与第二指数的乘积,得到第二结果;服务器将第一结果占第一结果与第二结果之和的比重作为一段信息为第一类信息的概率。
以S标识不良信息,N标识正常信息。先验概率P(S)和P(N)分别标识不良信息和正常信息的概率。初始化假设不良信息的占比为40%,则有P(S)=40%,P(N)=60%。
若一段信息中存在W这个词,根据贝叶斯定理,这篇评论为不良信息的概率为P(S|W)=P(W|S)P(S)/P(W),展开公式得到
P(S|W)=P(W|S)P(S)/(P(W|S)P(S)+P(W|N)P(N))。
其中P(W|S)为W在不良信息中出现的概率,P(W|N)为W在正常信息中出现的概率,由此就可以计算出该评论为不良信息的概率P(S|W)。
在上述表2所示的“转账”的第一概率P(W|S)为95%,第二概率P(W|N)为5%。第一指数P(S)为40%,第二指数P(N)为60%,则一段信息的概率为:
P(S|W)=95%*40%/(95%*40%+5%*60%)=92.68%。
即,“转账”这个词对应的一段信息的概率为92.68%。同理,可得到“AA银行”这个词对应的一段信息的概率为72.7%,“享受”这个词对应的一段信息的概率为55.3%,畅读这个词对应的一段信息的概率为6.89%。假设预设概率为50%,则在利用最大概率与预设概率比较时,该一段信息为不良信息;在利用平均概率(56.89%)与预设概率比较时,该一段信息为不良信息。
可选地,在服务器根据第一次数、第二次数、第一指数和第二指数确定一段信息是否为第一类信息之后,方法还包括:在一段信息为第一类信息的情况下,服务器向客户端发送用于指示一段信息为第一类信息的指示信息;在一段信息不是第一类信息的情况下,服务器向客户端发送用于指示一段信息为第二类信息的指示信息,其中,第一类信息与第二类信息为对立事件。
对立事件是指,一段信息不是第一类信息就是第二类信息,在本实施例中,一段信息不是不良信息就是正常信息。服务器判定该一段信息为第一类信息的情况下,向客户端发送指示信息。
如图6所示,客户端弹出提示信息,以提示用户是否举报该一段信息。在用户点击举报后,客户端上报该一段信息。在服务器判定出该一段信息为第一类信息的情况下,在客户端上不显示该段信息,如图7所示。
在本实施例中,通过机器自动化实现用户举报的鉴别,节省了人力成本。同时结算概率算法,在一定程度上提升了机器鉴别的能力,防止了恶意举报的行为。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例,还提供了一种用于实施上述信息的处理方法的服务器,如图8所示,该装置包括:第一获取单元80、第二获取单元82、第三获取单元84和确定单元86。
第一获取单元80,用于获取客户端上报的一段信息中的目标信息,其中,所述一段信息为第一类信息或者第二类信息,所述第一类信息与所述第二类信息为不同类别的信息;
第二获取单元82,用于获取目标信息在所述客户端上报的历史信息中被划分为第一类信息的第一次数,以及所述目标信息在所述历史信息中被划分为第二类信息的第二次数;
第三获取单元84,用于获取第一指数和第二指数,其中,所述第一指数用于指示所述一段信息为所述第一类信息的先验概率,所述第二指数用于指示所述一段信息为所述第二类信息的先验概率;
确定单元86,用于根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息。
可选地,所述确定单元86包括:第一确定子单元,用于根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率;第二确定子单元,用于在判断所述概率大于或者等于预设概率时,确定所述一段信息为所述第一类信息。
可选地,所述第一确定子单元包括:第一确定模块,用于根据所述第一次数和所述第二次数确定所述目标信息被划分为所述第一类信息的第一概率和所述目标信息被划分为所述第二类信息的第二概率;第二确定模块,用于根据所述第一概率、所述第二概率、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率。
可选地,所述第二确定模块包括:第一乘积子模块,用于获取所述第一概率与所述第一指数的乘积,得到第一结果;第二乘积子模块,用于获取所述第二概率与所述第二指数的乘积,得到第二结果;占比子模块,用于将所述第一结果占所述第一结果与所述第二结果之和的比重作为所述一段信息为所述第一类信息的概率。
可选地,所述第一获取单元80包括:第一划分单元,用于获取对所述一段信息进行划分得到的一个或者多个子信息;第二划分单元,用于在得到一个子信息的情况下,将所述一个子信息作为所述目标信息;比较单元,用于在得到多个子信息的情况下,将所述多个子信息与预先存储的历史子信息进行比较;第三划分单元,用于在所述多个子信息与历史子信息中任意一个或者多个子信息相同时,将相同的子信息作为一个或者多个所述目标信息。
可选地,所述服务器还包括:发送单元,用于在根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息之后,在所述一段信息为所述第一类信息的情况下,向所述客户端发送用于指示所述一段信息为所述第一类信息的指示信息;在所述一段信息不是所述第一类信息的情况下,向所述客户端发送用于指示所述一段信息为所述第二类信息的指示信息,其中,所述第一类信息与所述第二类信息为对立事件。
根据本发明实施例,还提供了一种用于实施上述信息的处理方法的电子装置,如图9所示,该电子装置包括:
1)处理器
2)存储器
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,图9是根据本发明实施例的一种电子装置的结构框图。如图9所示,该电子装置可以包括:一个或多个(图中仅示出一个)处理器91、至少一个通信总线92、用户接口93、至少一个传输装置94和存储器95。其中,通信总线92用于实现这些组件之间的连接通信。其中,用户接口93可以包括显示器96和键盘97。传输装置94可选的可以包括标准的有线接口和无线接口。
其中,存储器95可用于存储软件程序以及模块,如本发明实施例中的信息的处理方法和服务器对应的程序指令/模块,处理器91通过运行存储在存储器95内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的信息的处理方法。存储器95可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器95可进一步包括相对于处理器91远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置94用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置94包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置94为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器95用于存储历史信息。
在本实施例中,上述电子装置可以执行信息的处理方法中以下步骤的程序代码:服务器获取客户端上报的一段信息中的目标信息,其中,所述一段信息为第一类信息或者第二类信息,所述第一类信息与所述第二类信息为不同类别的信息;所述服务器获取目标信息在所述客户端上报的历史信息中被划分为第一类信息的第一次数,以及所述目标信息在所述历史信息中被划分为第二类信息的第二次数;所述服务器获取第一指数和第二指数,其中,所述第一指数用于指示所述一段信息为所述第一类信息的先验概率,所述第二指数用于指示所述一段信息为所述第二类信息的先验概率;所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息。
上述电子装置还可以执行信息的处理方法中以下步骤的程序代码:所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率;在所述服务器判断所述概率大于或者等于预设概率时,确定所述一段信息为所述第一类信息。
上述电子装置还可以执行信息的处理方法中以下步骤的程序代码:所述一段信息包括多个所述目标信息,所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率包括:所述服务器根据每个所述目标信息的所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率,得到多个概率;在所述服务器判断所述概率大于或者等于预设概率时,确定所述一段信息为所述第一类信息包括:所述服务器判断所述多个概率的平均值大于或者等于预设概率时,确定所述一段信息为所述第一类信息;或者所述服务器判断所述多个概率的最大值大于或者等于预设概率时,确定所述一段信息为所述第一类信息。
上述电子装置还可以执行信息的处理方法中以下步骤的程序代码:所述服务器根据所述第一次数和所述第二次数确定所述目标信息被划分为所述第一类信息的第一概率和所述目标信息被划分为所述第二类信息的第二概率;所述服务器根据所述第一概率、所述第二概率、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率。
上述电子装置还可以执行信息的处理方法中以下步骤的程序代码:所述服务器获取所述第一概率与所述第一指数的乘积,得到第一结果;所述服务器获取所述第二概率与所述第二指数的乘积,得到第二结果;所述服务器将所述第一结果占所述第一结果与所述第二结果之和的比重作为所述一段信息为所述第一类信息的概率。
上述电子装置还可以执行信息的处理方法中以下步骤的程序代码:所述服务器获取对所述一段信息进行划分得到的一个或者多个子信息;在得到一个子信息的情况下,所述服务器将所述一个子信息作为所述目标信息;在得到多个子信息的情况下,所述服务器将所述多个子信息与预先存储的历史子信息进行比较;若所述多个子信息与历史子信息中任意一个或者多个子信息相同,则所述服务器将相同的子信息作为一个或者多个所述目标信息。
上述电子装置还可以执行信息的处理方法中以下步骤的程序代码:在所述一段信息为所述第一类信息的情况下,所述服务器向所述客户端发送用于指示所述一段信息为所述第一类信息的指示信息;在所述一段信息不是所述第一类信息的情况下,所述服务器向所述客户端发送用于指示所述一段信息为所述第二类信息的指示信息,其中,所述第一类信息与所述第二类信息为对立事件。
本领域普通技术人员可以理解,图9所示的结构仅为示意,电子装置还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,服务器获取客户端上报的一段信息中的目标信息,其中,所述一段信息为第一类信息或者第二类信息,所述第一类信息与所述第二类信息为不同类别的信息;
S2,所述服务器获取目标信息在所述客户端上报的历史信息中被划分为第一类信息的第一次数,以及所述目标信息在所述历史信息中被划分为第二类信息的第二次数;
S3,所述服务器获取第一指数和第二指数,其中,所述第一指数用于指示所述一段信息为所述第一类信息的先验概率,所述第二指数用于指示所述一段信息为所述第二类信息的先验概率;
S4,所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息。
可选地,存储介质还被设置为存储用于执行上述实施例的方法中所包括的步骤的程序代码,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种信息的处理方法,其特征在于,包括:
服务器获取客户端上报的一段信息中的目标信息,其中,所述一段信息为第一类信息或者第二类信息,所述第一类信息与所述第二类信息为不同类别的信息;
所述服务器获取目标信息在所述客户端上报的历史信息中被划分为第一类信息的第一次数,以及所述目标信息在所述历史信息中被划分为第二类信息的第二次数;
所述服务器获取第一指数和第二指数,其中,所述第一指数用于指示所述一段信息为所述第一类信息的先验概率,所述第二指数用于指示所述一段信息为所述第二类信息的先验概率;
所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息。
2.根据权利要求1所述的方法,其特征在于,所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息包括:
所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率;
在所述服务器判断所述概率大于或者等于预设概率时,确定所述一段信息为所述第一类信息。
3.根据权利要求2所述的方法,其特征在于,所述一段信息包括多个所述目标信息,
所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率包括:所述服务器根据每个所述目标信息的所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率,得到多个概率;
在所述服务器判断所述概率大于或者等于预设概率时,确定所述一段信息为所述第一类信息包括:所述服务器判断所述多个概率的平均值大于或者等于预设概率时,确定所述一段信息为所述第一类信息;或者所述服务器判断所述多个概率的最大值大于或者等于预设概率时,确定所述一段信息为所述第一类信息。
4.根据权利要求2或3所述的方法,其特征在于,所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率包括:
所述服务器根据所述第一次数和所述第二次数确定所述目标信息被划分为所述第一类信息的第一概率和所述目标信息被划分为所述第二类信息的第二概率;
所述服务器根据所述第一概率、所述第二概率、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率。
5.根据权利要求4所述的方法,其特征在于,所述服务器根据所述第一概率、所述第二概率、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率包括:
所述服务器获取所述第一概率与所述第一指数的乘积,得到第一结果;
所述服务器获取所述第二概率与所述第二指数的乘积,得到第二结果;
所述服务器将所述第一结果占所述第一结果与所述第二结果之和的比重作为所述一段信息为所述第一类信息的概率。
6.根据权利要求1所述的方法,其特征在于,所述服务器获取客户端上报的一段信息中的目标信息包括:
所述服务器获取对所述一段信息进行划分得到的一个或者多个子信息;
在得到一个子信息的情况下,所述服务器将所述一个子信息作为所述目标信息;
在得到多个子信息的情况下,所述服务器将所述多个子信息与预先存储的历史子信息进行比较;
若所述多个子信息与历史子信息中任意一个或者多个子信息相同,则所述服务器将相同的子信息作为一个或者多个所述目标信息。
7.根据权利要求1所述的方法,其特征在于,在所述服务器根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息之后,所述方法还包括:
在所述一段信息为所述第一类信息的情况下,所述服务器向所述客户端发送用于指示所述一段信息为所述第一类信息的指示信息;
在所述一段信息不是所述第一类信息的情况下,所述服务器向所述客户端发送用于指示所述一段信息为所述第二类信息的指示信息,
其中,所述第一类信息与所述第二类信息为对立事件。
8.一种服务器,其特征在于,包括:
第一获取单元,用于获取客户端上报的一段信息中的目标信息,其中,所述一段信息为第一类信息或者第二类信息,所述第一类信息与所述第二类信息为不同类别的信息;
第二获取单元,用于获取目标信息在所述客户端上报的历史信息中被划分为第一类信息的第一次数,以及所述目标信息在所述历史信息中被划分为第二类信息的第二次数;
第三获取单元,用于获取第一指数和第二指数,其中,所述第一指数用于指示所述一段信息为所述第一类信息的先验概率,所述第二指数用于指示所述一段信息为所述第二类信息的先验概率;
确定单元,用于根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息。
9.根据权利要求8所述的服务器,其特征在于,所述确定单元包括:
第一确定子单元,用于根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率;
第二确定子单元,用于在判断所述概率大于或者等于预设概率时,确定所述一段信息为所述第一类信息。
10.根据权利要求9所述的服务器,其特征在于,所述第一确定子单元包括:
第一确定模块,用于根据所述第一次数和所述第二次数确定所述目标信息被划分为所述第一类信息的第一概率和所述目标信息被划分为所述第二类信息的第二概率;
第二确定模块,用于根据所述第一概率、所述第二概率、所述第一指数和所述第二指数确定所述一段信息为所述第一类信息的概率。
11.根据权利要求10所述的服务器,其特征在于,所述第二确定模块包括:
第一乘积子模块,用于获取所述第一概率与所述第一指数的乘积,得到第一结果;
第二乘积子模块,用于获取所述第二概率与所述第二指数的乘积,得到第二结果;
占比子模块,用于将所述第一结果占所述第一结果与所述第二结果之和的比重作为所述一段信息为所述第一类信息的概率。
12.根据权利要求8所述的服务器,其特征在于,所述第一获取单元80包括:
第一划分单元,用于获取对所述一段信息进行子信息得到的一个或者多个子信息;
第二划分单元,用于在得到一个子信息的情况下,将所述一个子信息作为所述目标信息;
比较单元,用于在得到多个子信息的情况下,将所述多个子信息与预先存储的历史子信息进行比较;
第三划分单元,用于在所述多个子信息与历史子信息中任意一个或者多个子信息相同时,将相同的子信息作为一个或者多个所述目标信息。
13.根据权利要求8所述的服务器,其特征在于,所述服务器还包括:
发送单元,用于在根据所述第一次数、所述第二次数、所述第一指数和所述第二指数确定所述一段信息是否为所述第一类信息之后,在所述一段信息为所述第一类信息的情况下,向所述客户端发送用于指示所述一段信息为所述第一类信息的指示信息;在所述一段信息不是所述第一类信息的情况下,向所述客户端发送用于指示所述一段信息为所述第二类信息的指示信息,
其中,所述第一类信息与所述第二类信息为对立事件。
14.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至7任一项中所述的方法。
15.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
CN201711144387.8A 2017-11-17 2017-11-17 信息的处理方法、服务器、存储介质和电子装置 Pending CN108108348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711144387.8A CN108108348A (zh) 2017-11-17 2017-11-17 信息的处理方法、服务器、存储介质和电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711144387.8A CN108108348A (zh) 2017-11-17 2017-11-17 信息的处理方法、服务器、存储介质和电子装置

Publications (1)

Publication Number Publication Date
CN108108348A true CN108108348A (zh) 2018-06-01

Family

ID=62207354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711144387.8A Pending CN108108348A (zh) 2017-11-17 2017-11-17 信息的处理方法、服务器、存储介质和电子装置

Country Status (1)

Country Link
CN (1) CN108108348A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460140A (zh) * 2020-03-05 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
US20110184817A1 (en) * 2010-01-28 2011-07-28 Yahoo!, Inc. Sensitivity Categorization of Web Pages
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN104142997A (zh) * 2014-08-01 2014-11-12 浪潮电子信息产业股份有限公司 基于逆向词频的贝叶斯文本分类器
CN105589845A (zh) * 2015-12-18 2016-05-18 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184817A1 (en) * 2010-01-28 2011-07-28 Yahoo!, Inc. Sensitivity Categorization of Web Pages
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN104142997A (zh) * 2014-08-01 2014-11-12 浪潮电子信息产业股份有限公司 基于逆向词频的贝叶斯文本分类器
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN105589845A (zh) * 2015-12-18 2016-05-18 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘炯朗: "《数学的魔法 生活中无处不在的数学智慧》", 30 April 2017, 团结出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460140A (zh) * 2020-03-05 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN103780453B (zh) 多层聊天检测和分类
Chen et al. A novel anti-collision algorithm in RFID systems for identifying passive tags
CN112446025A (zh) 联邦学习防御方法、装置、电子设备及存储介质
CN110009174A (zh) 风险识别模型训练方法、装置及服务器
Zhu et al. Predicting user activity level in social networks
CN107947951A (zh) 用户群组推荐方法、装置及存储介质和服务器
CN108282450A (zh) 异常域名的检测方法及装置
CN109472305A (zh) 答案质量确定模型训练方法、答案质量确定方法及装置
CN107767172A (zh) 信息推送方法、装置、服务器及介质
CN108769026A (zh) 用户账号检测系统和方法
CN108304428A (zh) 信息推荐方法及装置
CN111309940A (zh) 一种信息展示方法、系统、装置、电子设备及存储介质
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN108985048B (zh) 模拟器识别方法及相关装置
CN108319974A (zh) 数据处理方法、装置、存储介质和电子装置
CN108452526A (zh) 游戏故障原因的查询方法和装置、存储介质、电子装置
CN106294406A (zh) 一种用于处理应用访问数据的方法与设备
CN108108348A (zh) 信息的处理方法、服务器、存储介质和电子装置
CN112559692B (zh) 题目抽取方法、装置、电子设备及存储介质
CN110457601A (zh) 社交账号的识别方法和装置、存储介质及电子装置
CN101997868A (zh) 网络系统
CN116910373B (zh) 房源推荐方法、装置、电子设备及存储介质
CN109684198A (zh) 待测试数据获取方法、装置、介质、电子设备
CN104025086A (zh) 触发社交页面
CN109195154A (zh) 物联网窜卡用户识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180601