CN108287823B - 消息数据处理方法、装置、计算机设备和存储介质 - Google Patents

消息数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108287823B
CN108287823B CN201810124547.0A CN201810124547A CN108287823B CN 108287823 B CN108287823 B CN 108287823B CN 201810124547 A CN201810124547 A CN 201810124547A CN 108287823 B CN108287823 B CN 108287823B
Authority
CN
China
Prior art keywords
data
word segmentation
target word
preset
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810124547.0A
Other languages
English (en)
Other versions
CN108287823A (zh
Inventor
张澍滋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810124547.0A priority Critical patent/CN108287823B/zh
Priority to PCT/CN2018/089068 priority patent/WO2019153589A1/zh
Publication of CN108287823A publication Critical patent/CN108287823A/zh
Application granted granted Critical
Publication of CN108287823B publication Critical patent/CN108287823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种消息数据处理方法、装置、计算机设备和存储介质。所述方法包括:在主线程中接收服务器发送的消息数据,消息数据上携带有来源数据。将消息数据按照分词逻辑进行拆分得到目标分词数据。将目标分词数据与目标分词数据对应的来源数据进行关联存储,目标分词数据对应的来源数据与目标分词数据对应消息数据上携带的来源数据相同。在识别线程中查询目标分词数据中是否存在风险等级大于预设等级的目标分词数据。获取查询到的风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的来源数据添加风险标签。采用本方法能够无需人工进行监控分析,即可在不同线程中处理大量的消息数据,提高处理效率,提高准确率。

Description

消息数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种消息数据处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网科技的发展,在生活中,用户可以从网络上获取到越来越多的信息,而一些高危信息是由群聊等的方式进行传播的,例如对某网站举行的活动,一些不法分子会以群聊等的方式进行交流,从而以低额的付出获取高额的活动奖励等,因此,对群聊的消息监控是非常重要的。
传统地,需要人工实时监控聊天软件中的群聊等消息,进而人工分析接收到的群聊消息中是否存在有风险等级大于预设等级的聊天消息,当有大量群聊消息时,则人工分析效率低且可能不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够分析效率高且准确的消息数据处理方法、装置、计算机设备和存储介质。
一种消息数据处理方法,所述方法包括:
在主线程中接收服务器发送的消息数据,所述消息数据上携带有来源数据;
将所述消息数据按照分词逻辑进行拆分得到目标分词数据;
将所述目标分词数据与所述目标分词数据对应的来源数据进行关联存储,所述目标分词数据对应的来源数据与所述目标分词数据对应消息数据上携带的来源数据相同;
在识别线程中查询所述目标分词数据中是否存在风险等级大于预设等级的目标分词数据;
获取查询到的所述风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的所述来源数据添加风险标签。
在其中一个实施例中,所述将所述消息数据按照预设分词逻辑进行拆分得到目标分词数据的步骤,包括:
获取预设的多个分词逻辑,根据所述预设的多个分词逻辑对所述消息数据进行拆分得到分词序列;
计算每一个所述分词序列对应的拆分正确率;
获取与最大的所述拆分正确率对应的所述分词序列作为所述目标分词数据。
在其中一个实施例中,所述将所述消息数据按照分词逻辑进行拆分得到目标分词数据的步骤,还包括:
将所述消息数据按照分词逻辑进行拆分得到初始分词数据;
将所述初始分词数据与基础滤镜库中的过滤数据进行匹配;
当所述初始分词数据与所述过滤数据匹配成功时,则提取所述匹配成功的所述初始分词数据对应的所述来源数据中的时间数据;
当所述初始分词数据对应的来源数据中的时间数据相同时,则获取所述时间数据对应的消息数据;
接收针对所述消息数据的分词逻辑的添加指令,并根据所述添加指令添加新的分词逻辑;
采用所述新的分词逻辑将所述消息数据进行拆分得到目标分词数据。
在其中一个实施例中,所述在识别线程中从所述目标分词数据中查询风险等级大于预设等级的目标分词数据的步骤,包括:
将所述目标分词数据与预存的风险等级大于预设等级的数据进行匹配;
当至少一个所述目标分词数据匹配成功时,则获取匹配成功的所述风险等级大于预设等级的数据的存储类别;
获取匹配成功的所述目标分词数据对应的来源数据中的时间数据,根据所述时间数据提取在预设的消息数据获取时间段内的未进行匹配的所述目标分词数据;
将未进行匹配的所述目标分词数据与所述存储类别下预存的风险等级大于预设等级的数据进行匹配;
当所述未进行匹配的目标分词数据与所述存储类别下预存的风险等级大于预设等级的数据匹配成功时,则所述未进行匹配的目标分词数据为所述风险等级大于预设等级的目标分词数据。
在其中一个实施例中,所述将所述风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签的步骤之后,包括:
获取所述风险等级大于预设等级的目标分词数据的关联词组;
当所述关联词组的风险等级大于预设等级时,则查询与未添加风险标签的来源数据对应的目标分词数据中是否存在所述关联词组;
当与未添加风险标签的来源数据对应的目标分词数据中存在所述关联词组时,则将所述未添加风险标签的来源数据添加所述风险标签。
在其中一个实施例中,所述将所述风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签的步骤之后,还包括:
提取所述添加风险标签的来源数据对应的身份标识;
统计预设时间段内所述身份标识对应的相同的风险等级大于预设等级的目标分词数据的数量;
当所述数量超过预设值时,则对所述身份标识对应的消息数据进行监控。
在其中一个实施例中,所述当所述数量超过预设值时,则对所述身份标识对应的消息数据进行监控的步骤之后,还包括:
根据所述身份标识获取所述身份标识对应的网络地址;
查询所述网络地址在预设的注册时间段内注册的身份标识的数量;
当所注册的身份标识的数量超过预设值时,则将所述网络地址标记为风险等级大于预设等级的网络地址。
一种消息数据处理装置,所述装置包括:
接收模块,用于在主线程中接收服务器发送的消息数据,所述消息数据上携带有来源数据;
拆分模块,用于将所述消息数据按照分词逻辑进行拆分得到目标分词数据;
关联存储模块,用于将所述目标分词数据与所述目标分词数据对应的来源数据进行关联存储,所述目标分词数据对应的来源数据与所述目标分词数据对应消息数据上携带的来源数据相同;
查询模块,用于在识别线程中查询所述目标分词数据中是否存在风险等级大于预设等级的目标分词数据;
获取模块,用于获取查询到的所述风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的所述来源数据添加风险标签。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述消息数据处理方法、装置、计算机设备和存储介质,在主线程中接收服务器发送的消息数据,进而将消息数据按照分词逻辑进行拆分得到目标分词数据,将目标分词数据与目标分词数据对应的来源数据进行存储,进而在识别线程中从目标分词数据中查询风险等级大于预设等级的目标分词数据,采用主线程获取消息数据并进行消息数据的拆分,采用识别线程对目标分词数据中查询风险等级大于预设等级的目标分词数据,无需人工进行监控分析,即可在不同线程中处理大量的消息数据,提高处理效率,进而将风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签,提高准确率。
附图说明
图1为一个实施例中消息数据处理方法的应用场景图;
图2为一个实施例中消息数据处理方法的流程示意图;
图3为一个实施例中消息数据处理装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的消息数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102在主线程中接收服务器104发送的消息数据,该消息数据上携带有来源数据,进而终端102将接收到的消息数据按照分词逻辑进行拆分得到目标分词数据,终端102将拆分得到的目标分词数据与目标分词数据对应的来源数据进行关联存储,进而终端102启动识别线程,在识别线程中查询目标分词数据中是否存在风险等级大于预设等级的目标分词数据,进而当查询到存在有风险等级大于预设等级的目标分词数据时,则获取该目标分词数据对应的来源数据,并将该目标分词数据对应的来源数据添加风险标签。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器104可以用独立的服务器104或者是多个服务器104组成的服务器104集群来实现。
在一个实施例中,如图2所示,提供了一种消息数据处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S202:在主线程中接收服务器发送的消息数据,消息数据上携带有来源数据。
具体地,主线程是指在终端工作时,创建的可以执行各种任务的线程,在主线程中终端可以执行等待任务,在主线程终端可以执行接收任务,在主线程中终端可以执行处理消息数据的任务,例如,在主线程中终端可以执行接收消息数据的任务,在主线程中终端可以执行对消息数据拆分的任务。消息数据是指服务器中存储的不同身份信息交互的聊天数据,消息数据可以是文字数据,可以是图片数据,也可以是数字数据等,例如,消息数据可以存储在服务器上的不同账号之间的聊天记录等。来源数据是指对应的消息数据来源的标识,来源数据可以是文字数据,可以是文字数据,可以是图片数据等,例如来源数据为消息数据的发送者的账号信息,发送消息数据的发送时间,消息数据的来源群组的基本信息等。进一步地,启动当前主线程,在主线程中接收到服务器发送的消息数据,该消息数据上携带有消息数据对应的来源。可以是,向服务器对应的聊天发送接口发送获取聊天消息的获取请求,接收服务器发送的身份验证请求,进而根据接收到服务器发送的身份验证请求向服务器发送身份验证信息,当身份验证信息通过服务器验证成功时,则可以服务器进行数据传输,从而接收服务器发送的消息数据,该消息数据可以是该身份验证信息对应的聊天数据,接收到的消息数据上携带有来源数据。例如,终端向服务器对应的聊天发送接口发送获取聊天信息的获取请求,终端接收服务器根据聊天消息的获取请求发送的身份验证请求,进而终端向服务器发送与身份验证请求对应的身份验证信息,如对应的用户名和登录密码,当用户名和密码经过服务器验证成功时,则终端可以与服务器进行数据传输,进而接收服务器发送的聊天数据,该聊天数据上可以携带有发送每一条聊天数据的发送者的账号、发送者发送的时间,当是群组聊天时,则携带有群组对应的群名称或群号码等群组基本信息。
S204:将消息数据按照分词逻辑进行拆分得到目标分词数据。
具体地,分词逻辑是将消息数据拆分成数个标准术语,该标准术语是指具有独立语义的术语,其不受其之后或之前的文字的影响,仅通过术语内容的文字即可以确定完整的计算机专业概念,例如对消息数据“平安银行活动”按照使每个拆分数据具有独立的语义,且每个拆分数据为最短的进行拆分,得到“平安银行”和“活动”两个个拆分数据。目标分词数据是指经过拆分后得到的具有独立语义的术语。进一步地,当接收到服务器发送的消息数据时,则获取相应的分词逻辑,进而,采用分词逻辑将消息数据进行拆分,得到目标分词数据。具体地,当消息数据为文字数据时,当终端接收到服务器发送的消息数据时,则获取相应的分词逻辑,进而将消息数据中的字符逐一与分词逻辑进行匹配,匹配成功的字符作为目标分词数据。例如,当终端接收到服务器发送的消息数据为“平安银行今天活动”,进而获取到分词逻辑,将消息数据拆分成“平安银行”、“今天”、“活动”三个目标分词词组数据。
S206:将目标分词数据与目标分词数据对应的来源数据进行关联存储,目标分词数据对应的来源数据与目标分词数据对应消息数据上携带的来源数据相同。
具体地,将拆分得到的目标分词数据进行存储,同时,将目标分词数据对应的来源数据同时与目标分词数据进行存储,目标分词数据对应的来源数据为拆分得到目标分词数据的消息数据上携带的来源数据。可以是,终端将目标分词数据与目标分词数据对应的来源数据同时存储至数据库中,目标分词数据对应的来源数据可以是消息数据携带的发送者的账号信息,发送消息数据的发送时间,消息数据的来源群组的基本信息等。例如,终端将得到的消息数据“平安银行今天活动”拆分得到目标分词数据为“平安银行”、“今天”和“活动”,进而将三个目标分词数据都存储至数据库中,且目标分词数据对应的来源数据为该条聊天数据对应的每一条聊天数据的发送者的账号、发送者发送的时间,当时群组聊天是,则携带有群组对应的群名称或群号码等群组基本信息。
S208:在识别线程中查询目标分词数据中是否存在风险等级大于预设等级的目标分词数据。
具体地,识别线程是指终端在工作时,创建的可以执行识别任务的另一个线程,识别线程与主线程为异步关系,也即识别线程是指与主线程异步的工作线程,例如,在识别线程中可以执行识别目标分词数据中是否存在风险等级大于预设等级的目标分词数据,在主线程中可以继续接受服务器发送的消息数据,从而将消息数据按照分词逻辑进行拆分得到目标分词数据。风险等级大于预设等级的目标分词数据是指存风险等级高的目标分词数据,当有风险等级高的目标分词数据时,则该目标分词数据为可疑目标分词数据,进而拆分得到可疑目标分词数据的消息数据为可疑消息数据。具体地,当在主线程中将得到的目标分词数据与目标分词数据对应的来源数据进行关联存储时,则在创建的识别线程中查询未存在有识别任务时,则在识别线程中,终端预设有风险等级大于预设等级的数据,对已存储的目标分词数据与预设的风险等级大于预设等级的数据进行匹配,从而查询目标分词数据中是否存在风险等级大于预设等级的目标分词数据,当目标分词数据存在有风险等级大于预设等级的目标分词数据时,则该目标分词数据为可疑目标分词数据,进而该消息数据为可疑消息数据,该可疑消息数据对应的来源数据为具有高风险的来源数据。例如,设置有风险等级大于预设等级的目标分词数据为“平安银行”,终端在主线程中将得到的目标分词数据“平安银行”、“今天”和“活动”,进而将目标分词数据对应的来源数据进行关联存储,终端在创建的识别线程中查询未存在有识别任务时,则在识别线程中,对已存储的“平安银行”、“今天”和“活动”进行查询是否存在风险等级大于预设等级的目标分词数据,当查询到“平安银行”时,则得到的三个目标分词数据存在有风险等级大于预设等级的目标分词数据为“平安银行”,进而得到该目标分词数据的消息数据为消息数据。
S210:获取查询到的风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的来源数据添加风险标签。
具体地,风险标签是指对应的风险提示信息,可以是,风险标签是相应的风险标识,例如,当对来源数据添加了风险标签,则该来源数据是具有高风险等级的来源数据,且需要进一步监控添加了风险标签的来源数据,也可以进一步监控来源数据对应的消息数据。进一步地,获取查询到的风险等级大于预设等级的目标分词数据对应的来源数据,并对获取到的来源数据添加有风险标签。例如,终端获取查询到拆分得到的目标分词数据“平安银行”、“今天”和“活动”中有风险等级大于预设等级的目标分词数据“平安银行”,进而获取到“平安银行”对应的来源数据,如为群聊时,则获取群名称或群号码等群组基本信息,进而将群组基本信息添加上风险标签,则需进一步监控添加了风险标签的群组,从而进一步监控该群组中对应的其他消息数据。
本实施例中,可在不同的线程中执行不同的任务,在主线程中对服务器发送的消息数据进行接收,进而将消息数据按照分词逻辑进行拆分得到目标分词数据,并将得到的目标分词数据与对应的来源数据进行存储,在识别线程中从目标分词数据中查询风险等级大于预设等级的目标分词数据,无需人工进行监控分析,即可在不同线程中处理大量的消息数据,提高处理效率,进而将风险等级大于预设等级高的目标分词数据对应的来源数据添加风险标签,可以进一步监控,提高准确率。
在其中一个实施例中,将消息数据按照预设分词逻辑进行拆分得到目标分词数据的步骤,可以包括:获取预设的多个分词逻辑,根据预设的多个分词逻辑对消息数据进行拆分得到分词序列;计算每一个分词序列对应的拆分正确率;获取与最大的拆分正确率对应的分词序列作为目标分词数据。
具体地,分词序列是指对消息数据进行拆分得到的不同的候选字段,也即得到不同的标准术语,例如,获取到的消息数据为“平安银行今天活动”,则可以得到不同的分词序列有第一分词序列“平安”“银行”“今天”“活动”,得到的第二分词序列为“平安银行”“今天”“活动”。拆分正确率是指经过将消息数据进行拆分得到的候选字段的正确程度,也即将消息数据进行拆分得到的不同的标准术语的正确程度,当拆分正确率越高则表示将消息数据进行拆分得到的候选字段正确率越高。
进一步地,获取多个预存储的分词逻辑,进而根据预设的分词逻辑,将获取到的消息数据逐条进行拆分,每条消息数据都得到对应的不同的分词序列,进而计算每条消息的每一个分词序列对应的拆分正确率,将拆分正确率最大的分词序列中的分词词组作为目标分词数据。其中,计算拆分正确率可以是当获取到不同的分词序列时,则获取预设的每个分词序列中的不同的分词词组的正确率,进而计算不同的分词词组的正确率乘积,从而得出每一个分词序列对应的拆分正确率,
例如,终端接收到服务器发送的消息数据为“平安银行今天活动”,进而获取不同的分词逻辑,根据不同的分词逻辑,将获取到的消息数据拆分为不同的分词序列,可以拆分为第一分词序列“平安”“银行”“今天”“活动”,拆分的第二分词序列为“平安银行”“今天”“活动”,进而获取第一分词序列中的不同的分词词组的正确率,如获取到“平安”的正确率为0.8,“银行”的正确率为“0.8”,“今天”的正确率为1,“活动”的正确率为1,获取第二分词序列中不同的分词词组的正确率,如获取“平安银行”的正确率为1,“今天”的正确率为1,“活动”的正确率为1,进而计算得到第一序列中的分词词组的正确率的乘积为0.64,则第一分词序列对应的拆分正确率为0.64,进而计算得到第二序列中的分词词组的正确率的乘积为1,则第二分词序列对应的拆分正确率为1,则第二分词序列的拆分正确率为最大的拆分正确率,进而将第二分词序列中的分词词组“平安银行”、“今天”和“活动”作为目标分词数据。需要说明的是,不同的分词词组的概率为预设的概率,该预设概率根据可以预设为不同的值。
本实施例中,终端可以将消息数据根据多个分词逻辑拆分为多个分词序列,进而选取拆分正确率最大的分词序列作为目标分词数据,保证可以得到准确的目标分词数据,进而可以提高识别的准确率。
在其中一个实施例中,将消息数据按照分词逻辑进行拆分得到目标分词数据的步骤,可以包括:将消息数据按照分词逻辑进行拆分得到初始分词数据;将初始分词数据与基础滤镜库中的过滤数据进行匹配;当初始分词数据与过滤数据匹配成功时,则提取匹配成功的初始分词数据对应的来源数据中的时间数据;当初始分词数据对应的来源数据中的时间数据相同时,则获取时间数据对应的消息数据;接收针对消息数据的分词逻辑的添加指令,并根据添加指令添加新的分词逻辑;采用新的分词逻辑将消息数据进行拆分得到目标分词数据。
具体地,初始分词数据是指按照分词逻辑进行拆分得到的待验证的具有独立语义的术语,经过验证即拆分正确得到的初始分词数据即作为最终目标分词数据;基础滤镜库是指存储有简单字符的数据库,基础数据库中可以存储有单个单词或词组,例如存储有“平安”、“银行”、“星期”等,且基础滤镜率存储的简单字符为拆分出的可能不正确的简单词组,进而需要进一步识别验证得到的初始分词数据的正确性;过滤数据是指存储在基础滤镜库中的简单字符,如一些单个的单词或者词组;时间数据是指来源数据中存储的接收到消息数据的接收时间,例如,时间数据可以是具体的年月日及时刻,如时间数据为2018年1月1日13点30分等。。
具体地,将消息数据按照分词逻辑进行拆分得到初始分词数据,进而将初始分词数据与基础滤镜库中存储的过滤数据逐一进行匹配,当初始分词数据中至少两个数据与基础滤镜库中存储的过滤数据匹配成功时,则该初始分词数据可能为消息数据对应的不正确的拆分结果,则需要对该拆分结果进行进一步确认,则提取匹配成功的初始分词数据对应的来源数据中的时间数据,进而当匹配成功的初始分词数据对应的时间数据相同时,则匹配成功的初始分词数据来源于同一条消息数据,进而该条消息数据采用当前预存储的分词逻辑进行拆分得到的初始分词数据不正确,无法作为目标分词数据,进而获取时间数据对应的消息数据,根据获取到的消息数据,在显示界面上显示相应的提示信息,进而用户根据提示信息进行选择,当选择添加新的分词逻辑时,则根据该选择生成对应的添加指令,当接收到该添加指令时,则根据该添加指令添加消息数据对应的分词逻辑,进而采用新的分词逻辑对初始分词数据对应的消息数据重新拆分,得到目标分词数据。
例如,终端将消息数据“平安银行今天活动”按照分词逻辑进行拆分得到的初始分词数据分别为“平安”“银行”“今天”“活动”,进而终端与基础滤镜库中存储的过滤数据逐一进行匹配,当初始分词数据“平安”与初始分词数据“银行”与基础滤镜库中存储的过滤数据匹配成功时,则该条消息数据可能出现拆分不正确的结果,即需要将该消息数据拆分为高级词组,进而终端提取每个匹配成功的初始分词数据对应的来源数据中的时间数据,该来源数据也即为消息数据对应的来源数据,如提取到的匹配成功的初始分词数据对应的时间数据为2018年1月1日14点整,则匹配成功的初始分词数据来源于同一条消息数据,进而该条消息数据采用的当前预存储的分词逻辑拆分得到的“平安”“银行”“今天”“活动”的初始分词数据不正确,也即该消息数据需要被进行重新拆分得到相应的高级词组作为目标分词数据,进而终端获取该2018年1月14日对应的消息数据“平安银行今天活动”,根据将获取到的消息数据,在终端的显示界面上显示相应的提示信息,例如提示信息可以是“是否添加新的分词逻辑”,进而用户选择“是”,则将生成对应的添加指令,终端接收到该添加指令时,则根据该添加指令将该消息数据对应的分词逻辑进行添加,从而采用新添加的分词逻辑对该“平安银行今天活动”进行拆分,得到目标分词数据,新的分词逻辑拆分得到的目标分词数据可以为“平安银行”“今天”“活动”。
本实施例中,对初始分词数据与基础滤镜库中的存储的数据进行匹配,进而获取匹配成功的初始分词数据对应的来源数据中的时间数据,从而判断是否存在有拆分不准确的情况,当出现拆分不准确时,则添加新的分词逻辑,对消息数据重新拆分,对消息数据的拆分进行进一步验证,避免分析消息数据时出现不准确,增强适用性。
在其中一个实施例中,在识别线程中从目标分词数据中查询风险等级大于预设等级的目标分词数据的步骤,可以包括:将目标分词数据与预存的风险等级大于预设等级的数据进行匹配;当至少一个目标分词数据匹配成功时,则获取匹配成功的风险等级大于预设等级的数据的存储类别;获取匹配成功的目标分词数据对应的来源数据中的时间数据,根据时间数据提取在预设的消息数据获取时间段内的未进行匹配的目标分词数据;将未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据进行匹配;当未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据匹配成功时,则未进行匹配的目标分词数据为风险等级大于预设等级的目标分词数据。
具体地,存储类别是指预设的存储种类,对应的存储类别存储有相应的数据。在识别线程中,将获取到的消息数据采用分词逻辑拆分为目标分词数据时,则将目标分词数据逐一与预存的风险等级大于预设等级的数据进行匹配,当至少一个分词数据与预存的风险等级大于预设等级的数据匹配成功时,则获取当前的风险等级大于预设等级的数据的存储类别,进而获取匹配成功的目标分词数据对应的来源数据中的时间数据,进而获取预设的消息数据获取时间段,根据匹配成功的目标分词数据对应的时间数据与消息数据获取时间段,提取从匹配成功的目标分词数对应的时间数据至与消息数据获取时间段内的时间数据对应的未进行匹配的目标分词数据,进而将在消息数据获取时间段内的未进行匹配的目标分词数据与存储类别下存储的风险等级大于预设等级的数据进行匹配,当匹配成功时,则未进行匹配的目标分词数据为风险等级大于预设等级的目标分词数据,当未进行匹配的的目标分词数据与存储类别下预存的风险等级大于预设等级的数据未匹配成功时,则再与其他存储类别进行匹配。
例如,终端将得到的目标分词数据“平安银行”、“今天”“有活动”分别与风险等级大于预设等级的数据进行匹配,如“平安银行”匹配成功时,则获取与“平安银行”匹配成功的风险等级大于预设等级的数据的存储类别为银行类别,进而获取匹配成功的“平安银行”对应的来源数据中的时间数据,如为2018年1月1日14时,进而提取在该时间数据起预设的消息数据获取时间段为5分中内的未进行匹配的目标分词数据,也即提取2018年1月1日14时至2018年1月1日14时05分的未进行匹配的目标分词数据,进而将未进行匹配的目标分词数据与银行类别下预存的风险等级大于预设等级的数据进行匹配,当匹配成功时,则该未进行匹配的目标分词数据为风险等级大于预设等级的目标分词数据,当未匹配成功时,再与其他非银行存储类别的其他存储类别下预存的风险等级大于预设等级的数据进行匹配。需要说明的是,预设的消息数据获取时间段还可以是3分钟、7分钟、10分钟、20分钟等。
本实施例中,当终端将目标分次数据与预存的风险等级大于预设等级的数据进行匹配时,当至少有一个目标分次数据匹配成功时,则在预设的消息数据获取时间段内都可能进行相同的话题的讨论,则在预设时间段内的不同的消息数据可能存在与匹配成功的目标分词数据对应的风险等级大于预设等级的数据的存储类别中相同的数据,则先将在预设时间段内的未进行匹配的分词数据优先与该匹配成功的存储类别下预存的风险等级大于预设等级的数据进行匹配,当未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据匹配成功时,则未进行匹配的目标分词数据为风险等级大于预设等级的目标分词数据,节省查询时间,从而提高处理效率。
在其中一个实施例中,将风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签的步骤之后,包括:获取风险等级大于预设等级的目标分词词组的关联词组;当关联词组的风险等级大于预设等级时,则查询与未添加风险标签的来源数据对应的目标分词数据中是否存在关联词组;当与未添加风险标签的来源数据对应的目标分词数据中存在关联词组时,则将未添加风险标签的来源数据添加风险标签。
具体地,关联词组是指与风险等级大于预设等级的目标分词词组的相近或相同语义的词组,例如,当“平安银行”为风险等级大于预设等级的目标分词词组时,则“平安银行”对应的关联词组可以为“平安金融机构”。具体地,当对风险等级大于预设等级的目标分词数据对应的来源数据添加了风险标签时,获取风险等级大于预设等级的目标分词词组的关联词组,进而将获取到的关联词组与预设的风险等级大于预设等级的数据进行匹配,当匹配成功时,则该关联词组也为风险等级大于预设等级的数据,进而将未添加风险标签的来源数据对应的目标分词数据与该关联数据进行匹配,当匹配成功时,也即未添加风险标签的来源数据对应的目标分词数据中存在关联词组,则未添加风险标签的来源数据对应的目标分词数据对应的未拆分的消息数据为可疑消息数据,则该未添加风险标签的来源数据也为需要进一步监控消息数据,则将未添加风险标签的来源数据添加风险标签。
例如,当风险等级大于预设等级的目标分词数据对应的来源数据添加了风险标签时,则终端获取风险等级大于预设等级的目标分词词组的关联词组,如获取“平安银行”的关联词组为“平安金融机构”,进而,将获取到的“平安金融机构”与预设的风险等级大于预设年登记的数据进行匹配,当匹配成功时,则该关联词组“平安金融机构”也为风险等级大于预设等级的数据,进而将未添加有风险标签的来源数据对应的目标分词数据与该关联数据“平安金融机构”进行匹配,当匹配成功时,也即未添加风险标签的来源数据对应的目标分词数据中存在关联词组,则未添加风险标签的来源数据对应的目标分词数据对应的未拆分的消息数据为可疑消息数据,也即该目标分词数据对回购则该未添加风险标签的来源数据也为需要进一步监控消息数据,则将未添加风险标签的来源数据添加风险标签。
本实施例中,将未添加风险标签的来源数据对应的目标分词数据与关联词组进行匹配,查询是否为风险等级大于预设等级的目标分词数据,从而与目标分词数据对应的来源数据是否也需要进一步监控消息数据,防止当消息数据中出现更换的词组从而查询风险等级大于预设等级的目标分词数据有遗漏,进而提高对消息数据查询的准确率。
在其中一个实施例中,将风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签的步骤之后,还可以包括:提取添加风险标签的来源数据对应的身份标识;统计预设时间段内身份标识对应的相同的风险等级大于预设等级的目标分词数据的数量;当数量超过预设值时,则对身份标识对应的消息数据进行监控。
具体地,身份标识是指消息数据对应的发送来源的身份信息;身份标识可以是文字标识,可以是图片标识,可以是数字标识等;例如,身份标识可以是消息数据对应的发送用户的账号、可以是消息数据对应的发送用户的用户名,可以是消息数据对应的发送用户的头像等。具体地,设置有目标分词数据出现的预设值,提取添加了风险标签的来源数据对应的身份标识,进而,统计在预设时间段内该身份标识对应的具有相同的风险等级大于预设等级的目标分词数据的数量,当目标分词数据的数量超过预设值时,则该身份标识对应的用户可能交流相应的高危信息,从而以低额的付出获取高额的互动奖励等,进而对身份标识对应的消息数据进行进一步监控。
例如,设置有目标分词数据出现的预设值为10次,提取添加了风险标签的来源数据对应的身份标识,如提取相应消息数据对应的发送用户的账号,进而统计在预设时间段内如五分钟内该消息数据对应的发送用户对应的风险高等级大于预设等级的目标分词数据,如风险等级大于预设等级的目标分词数据“平安银行”对应的数量,当“平安银行”对应的数量超过10次时,则该用户可能交流相关平安银行的信息,从而获取相应的奖励等,进而该发送用户发送的其他信息数据需要进一步监控,从而可以获取其他的消息数据,查询其他消息数据是否为风险等级大于预设等级的消息数据。
本实施例中,通过获取相应的身份标识,查询预设时间段内的身份标识对应的相同的风险等级大于预设等级的目标分词数据的数量,当数量超过预设值时,则对身份标识对应的消息数据进行监控,从而获取到其他的可疑消息数据,根据风险等级大于预设等级的目标分词数据对应的身份标识查询关联的消息数据,提高处理效率,增强适用性。
在其中一个实施种,当数量超过预设值时,则对身份标识对应的消息数据进行监控的步骤之后,还可以包括:根据身份标识获取身份标识对应的网络地址;查询网络地址在预设的注册时间段内注册的身份标识的数量;当所注册的身份标识的数量超过预设值时,则将网络地址标记为风险等级大于预设等级的网络地址。
具体地,网络地址是指可以唯一地标识网络中的该计算机设备,该计算机与其他计算机进行通信时可以采用网络地址作为通信标识,例如,网络地址可以是IP(InternetProtocol,互联网协议)地址等。具体地,设置有身份标识注册数量的预设值,当对身份标识对应的消息数据进行监控,根据身份标识从网络地址存储库中获取到与身份标识对应的网络地址,进而查询该网络地址在预设的注册时间段内注册的身份标识的数量,当注册的身份标识的数量超过预设值时,则将网络地址标记为风险等级大于预设等级的网络地址,进而该风险等级大于预设等级的网络地址对应的终端可能为风险等级大于预设等级的终端,进而该终端为可疑终端,则对该网络地址进行监控,进一步避免风险,需要说明的是,网络地址存储库是存储有相应的待匹配身份标识以及与待匹配身份标识关联的网络地址,将来源数据中的身份标识与网络地址存储库中存储的待匹配身份标识进行匹配,当匹配成功时,将获取待匹配身份标识对应的网络地址作为来源数据中的身份标识对应的网络地址。
例如,设置有身份注册数量的预设值,例如预设值为100,根据身份标识从网络地址存储库中获取到与身份标识对应的网络地址,查询该网络地址在预设的时间段内如5分钟内注册的其他身份标识的数量,例如查询注册的其他用户账号的数量,当超过100时,则该网络地址为可疑网络地址,进而该终端为可疑终端,且该终端可能会存在恶意领取奖励的等行为,则对该网络地址进行监控。需要说明的是,预设时间段可以是3分钟,可以是10分钟等。预设的账号申请数量可以是200,可以是500等。
本实施例中,根据身份标识获取到相应的网络地址,从而查询网络地址是否为可疑网络地址,当为可疑网络地址时,则将该网络地址标记为风险等级大于预设等级的网络地址,根据消息数据,还可以关联查询到风险等级大于预设等级的网络地址,进一步避免风险,提高安全性,增强适用性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种消息数据处理装置300,包括:接收模块310、拆分模块320、关联存储模块330、查询模块340和获取模块350,其中:
接收模块310,用于在主线程中接收服务器发送的消息数据,消息数据上携带有来源数据。
拆分模块320,用于将消息数据按照分词逻辑进行拆分得到目标分词数据。
关联存储模块330,用于将目标分词数据与目标分词数据对应的来源数据进行关联存储,目标分词数据对应的来源数据与目标分词数据对应消息数据上携带的来源数据相同。
查询模块340,用于在识别线程中查询目标分词数据中是否存在风险等级大于预设等级的目标分词数据。
获取模块350,用于获取查询到的风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的来源数据添加风险标签。
在其中一个实施例中,拆分模块320,可以包括:
第一拆分单元,用于获取预设的多个分词逻辑,根据预设的多个分词逻辑对消息数据进行拆分得到分词序列。
计算单元,用于计算每一个分词序列对应的拆分正确率。
获取单元,用于获取与最大的拆分正确率对应的分词序列作为目标分词数据。
在其中一个实施例中,拆分模块320,还可以包括:
第二拆分单元,用于将消息数据按照分词逻辑进行拆分得到初始分词数据。
第一匹配单元,用于将初始分词数据与基础滤镜库中的过滤数据进行匹配。
第一提取单元,用于当初始分词数据与过滤数据匹配成功时,则提取匹配成功的初始分词数据对应的来源数据中的时间数据。
消息数据获取单元,用于当初始分词数据对应的来源数据中的时间数据相同时,则获取时间数据对应的消息数据。
添加单元,用于接收针对消息数据的分词逻辑的添加指令,并根据添加指令添加新的分词逻辑。
第三拆分单元,用于采用新的分词逻辑将消息数据进行拆分得到目标分词数据。
在其中一个实施例中,查询模块340,可以包括:
第二匹配单元,用于将目标分词数据与预存的风险等级大于预设等级的数据进行匹配。
存储类别获取单元,用于当至少一个目标分词数据匹配成功时,则获取匹配成功的风险等级大于预设等级的数据的存储类别。
第二提取单元,用于获取匹配成功的目标分词数据对应的来源数据中的时间数据,根据时间数据提取在预设的消息数据获取时间段内的未进行匹配的目标分词数据。
第三匹配单元,用于将未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据进行匹配。
目标分词数据获取单元,用于当未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据匹配成功时,则未进行匹配的目标分词数据为风险等级大于预设等级的目标分词数据。
在其中一个实施例中,消息数据处理装置300,可以包括:
关联词组获取模块,用于获取风险等级大于预设等级的目标分词数据的关联词组。
关联词组查询模块,用于当关联词组的风险等级大于预设等级时,则查询与未添加风险标签的来源数据对应的目标分词数据中是否存在关联词组。
风险标签添加模块,用于当与未添加风险标签的来源数据对应的目标分词数据中存在关联词组时,则将未添加风险标签的来源数据添加风险标签。
在其中一个实施例中,消息数据处理装置300,还可以包括:
身份标识提取模块,用于提取添加风险标签的来源数据对应的身份标识。
数量统计模块,用于统计预设时间段内身份标识对应的相同的风险等级大于预设等级的目标分词数据的数量。
监控模块,用于当数量超过预设值时,则对身份标识对应的消息数据进行监控。
在其中一个实施例种,消息数据处理装置300,还可以包括:
网络地址获取模块,用于根据身份标识获取身份标识对应的网络地址。
身份标识数量查询模块,用于查询网络地址在预设的注册时间段内注册的身份标识的数量。
标记模块,用于当所注册的身份标识的数量超过预设值时,则将网络地址标记为风险等级大于预设等级的网络地址。
关于消息数据处理装置的具体限定可以参见上文中对于消息数据处理方法的限定,在此不再赘述。上述消息数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种消息数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:在主线程中接收服务器发送的消息数据,消息数据上携带有来源数据。将消息数据按照分词逻辑进行拆分得到目标分词数据。将目标分词数据与目标分词数据对应的来源数据进行关联存储,目标分词数据对应的来源数据与目标分词数据对应消息数据上携带的来源数据相同。在识别线程中查询目标分词数据中是否存在风险等级大于预设等级的目标分词数据。获取查询到的风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的来源数据添加风险标签。
在其中一个实施例中,处理器执行计算机程序时实现将消息数据按照预设分词逻辑进行拆分得到目标分词数据的步骤,可以包括:获取预设的多个分词逻辑,根据预设的多个分词逻辑对消息数据进行拆分得到分词序列。计算每一个分词序列对应的拆分正确率。获取与最大的拆分正确率对应的分词序列作为目标分词数据。
在其中一个实施例中,处理器执行计算机程序时实现将消息数据按照分词逻辑进行拆分得到目标分词数据的步骤,还可以包括:将消息数据按照分词逻辑进行拆分得到初始分词数据。初始分词数据与基础滤镜库中的过滤数据进行匹配。当初始分词数据与过滤数据匹配成功时,则提取匹配成功的初始分词数据对应的来源数据中的时间数据。当初始分词数据对应的来源数据中的时间数据相同时,则获取时间数据对应的消息数据。接收针对消息数据的分词逻辑的添加指令,并根据添加指令添加新的分词逻辑。采用新的分词逻辑将消息数据进行拆分得到目标分词数据。
在其中一个实施例中,处理器执行计算机程序时实现在识别线程中从目标分词数据中查询风险等级大于预设等级的目标分词数据的步骤,可以包括:将目标分词数据与预存的风险等级大于预设等级的数据进行匹配。当至少一个目标分词数据匹配成功时,则获取匹配成功的风险等级大于预设等级的数据的存储类别。获取匹配成功的目标分词数据对应的来源数据中的时间数据,根据时间数据提取在预设的消息数据获取时间段内的未进行匹配的目标分词数据。将未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据进行匹配。当未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据匹配成功时,则未进行匹配的目标分词数据为风险等级大于预设等级的目标分词数据。
在其中一个实施例中,处理器执行计算机程序时实现将风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签的步骤之后,可以包括:获取风险等级大于预设等级的目标分词数据的关联词组。当关联词组的风险等级大于预设等级时,则查询与未添加风险标签的来源数据对应的目标分词数据中是否存在关联词组。当与未添加风险标签的来源数据对应的目标分词数据中存在关联词组时,则将未添加风险标签的来源数据添加风险标签。
在其中一个实施例中,处理器执行计算机程序时实现将风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签的步骤之后,还包括:提取添加风险标签的来源数据对应的身份标识。统计预设时间段内身份标识对应的相同的风险等级大于预设等级的目标分词数据的数量。当数量超过预设值时,则对身份标识对应的消息数据进行监控。
在其中一个实施例中,处理器执行计算机程序时实现当数量超过预设值时,则对身份标识对应的消息数据进行监控的步骤之后,还包括:根据身份标识获取身份标识对应的网络地址。查询网络地址在预设的注册时间段内注册的身份标识的数量。当所注册的身份标识的数量超过预设值时,则将网络地址标记为风险等级大于预设等级的网络地址。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:在主线程中接收服务器发送的消息数据,消息数据上携带有来源数据。将消息数据按照分词逻辑进行拆分得到目标分词数据。将目标分词数据与目标分词数据对应的来源数据进行关联存储,目标分词数据对应的来源数据与目标分词数据对应消息数据上携带的来源数据相同。在识别线程中查询目标分词数据中是否存在风险等级大于预设等级的目标分词数据。获取查询到的风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的来源数据添加风险标签。
在其中一个实施例中,计算机程序被处理器执行时实现将消息数据按照预设分词逻辑进行拆分得到目标分词数据的步骤,可以包括:获取预设的多个分词逻辑,根据预设的多个分词逻辑对消息数据进行拆分得到分词序列。计算每一个分词序列对应的拆分正确率。获取与最大的拆分正确率对应的分词序列作为目标分词数据。
在其中一个实施例中,计算机程序被处理器执行时实现将消息数据按照分词逻辑进行拆分得到目标分词数据的步骤,还可以包括:将消息数据按照分词逻辑进行拆分得到初始分词数据。初始分词数据与基础滤镜库中的过滤数据进行匹配。当初始分词数据与过滤数据匹配成功时,则提取匹配成功的初始分词数据对应的来源数据中的时间数据。当初始分词数据对应的来源数据中的时间数据相同时,则获取时间数据对应的消息数据。接收针对消息数据的分词逻辑的添加指令,并根据添加指令添加新的分词逻辑。采用新的分词逻辑将消息数据进行拆分得到目标分词数据。
在其中一个实施例中,计算机程序被处理器执行时实现在识别线程中从目标分词数据中查询风险等级大于预设等级的目标分词数据的步骤,可以包括:将目标分词数据与预存的风险等级大于预设等级的数据进行匹配。当至少一个目标分词数据匹配成功时,则获取匹配成功的风险等级大于预设等级的数据的存储类别。获取匹配成功的目标分词数据对应的来源数据中的时间数据,根据时间数据提取在预设的消息数据获取时间段内的未进行匹配的目标分词数据。将未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据进行匹配。当未进行匹配的目标分词数据与存储类别下预存的风险等级大于预设等级的数据匹配成功时,则未进行匹配的目标分词数据为风险等级大于预设等级的目标分词数据。
在其中一个实施例中,计算机程序被处理器执行时实现将风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签的步骤之后,可以包括:获取风险等级大于预设等级的目标分词数据的关联词组。当关联词组的风险等级大于预设等级时,则查询与未添加风险标签的来源数据对应的目标分词数据中是否存在关联词组。当与未添加风险标签的来源数据对应的目标分词数据中存在关联词组时,则将未添加风险标签的来源数据添加风险标签。
在其中一个实施例中,计算机程序被处理器执行时实现将风险等级大于预设等级的目标分词数据对应的来源数据添加风险标签的步骤之后,还包括:提取添加风险标签的来源数据对应的身份标识。统计预设时间段内身份标识对应的相同的风险等级大于预设等级的目标分词数据的数量。当数量超过预设值时,则对身份标识对应的消息数据进行监控。
在其中一个实施例中,计算机程序被处理器执行时实现当数量超过预设值时,则对身份标识对应的消息数据进行监控的步骤之后,还包括:根据身份标识获取身份标识对应的网络地址。查询网络地址在预设的注册时间段内注册的身份标识的数量。当所注册的身份标识的数量超过预设值时,则将网络地址标记为风险等级大于预设等级的网络地址。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种消息数据处理方法,所述方法包括:
在主线程中向服务器对应的聊天发送接口发送获取聊天消息的获取请求,接收所述服务器发送的身份验证请求,根据接收到所述服务器发送的所述身份验证请求向所述服务器发送身份验证信息,当所述身份验证信息通过所述服务器验证时,则接收所述服务器发送的消息数据,所述消息数据上携带有来源数据,所述来源数据是对应的所述消息数据的来源标识;
在主线程中获取预设的多个分词逻辑,将所述消息数据按照预设的多个所述分词逻辑进行拆分得到分词序列,获取每一个所述分词序列中的不同的分词词组的正确率,计算不同的所述分词词组的正确率乘积得到每一个所述分词序列对应的拆分正确率,获取与最大的所述拆分正确率对应的所述分词序列作为目标分词数据,所述分词逻辑是将所述消息数据拆分为多个标准术语的逻辑,所述分词序列以及所述目标分词数据是指经过拆分后得到的具有独立语义的所述标准术语;
在主线程中将所述目标分词数据与所述目标分词数据对应的来源数据进行关联存储,所述目标分词数据对应的来源数据与所述目标分词数据对应消息数据上携带的来源数据相同;
在识别线程中查询所述目标分词数据中是否存在风险等级大于预设等级的目标分词数据;其中,所述主线程与所述识别线程是异步关系;
在识别线程中获取查询到的所述风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的所述来源数据添加风险标签。
2.根据权利要求1所述的方法,其特征在于,所述在识别线程中查询所述目标分词数据中是否存在风险等级大于预设等级的目标分词数据,包括:
将所述目标分词数据与预存的风险等级大于预设等级的数据进行匹配;
当至少一个所述目标分词数据匹配成功时,则获取匹配成功的所述风险等级大于预设等级的数据的存储类别;
获取匹配成功的所述目标分词数据对应的来源数据中的时间数据,根据所述时间数据提取在预设的消息数据获取时间段内的未进行匹配的所述目标分词数据;
将未进行匹配的所述目标分词数据与所述存储类别下预存的风险等级大于预设等级的数据进行匹配;
当所述未进行匹配的目标分词数据与所述存储类别下预存的风险等级大于预设等级的数据匹配成功时,则所述未进行匹配的目标分词数据为所述风险等级大于预设等级的目标分词数据。
3.根据权利要求1所述的方法,其特征在于,所述在识别线程中获取查询到的所述风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的所述来源数据添加风险标签,包括:
获取所述风险等级大于预设等级的目标分词数据的关联词组;
当所述关联词组的风险等级大于预设等级时,则查询与未添加风险标签的来源数据对应的目标分词数据中是否存在所述关联词组;
当与未添加风险标签的来源数据对应的目标分词数据中存在所述关联词组时,则将所述未添加风险标签的来源数据添加所述风险标签。
4.根据权利要求1所述的方法,其特征在于,所述在识别线程中获取查询到的所述风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的所述来源数据添加风险标签之后,还包括:
提取所述添加风险标签的来源数据对应的身份标识;
统计预设时间段内所述身份标识对应的相同的风险等级大于预设等级的目标分词数据的数量;
当所述数量超过预设值时,则对所述身份标识对应的消息数据进行监控。
5.根据权利要求4所述的方法,其特征在于,所述当所述数量超过预设值时,则对所述身份标识对应的消息数据进行监控的步骤之后,还包括:
根据所述身份标识获取所述身份标识对应的网络地址;
查询所述网络地址在预设的注册时间段内注册的身份标识的数量;
当所注册的身份标识的数量超过预设值时,则将所述网络地址标记为风险等级大于预设等级的网络地址。
6.一种消息数据处理装置,其特征在于,所述装置包括:
接收模块,用于在主线程中向服务器对应的聊天发送接口发送获取聊天消息的获取请求,接收所述服务器发送的身份验证请求,根据接收到所述服务器发送的所述身份验证请求向所述服务器发送身份验证信息,当所述身份验证信息通过所述服务器验证时,则接收所述服务器发送的消息数据,所述消息数据上携带有来源数据,所述来源数据是对应的所述消息数据的来源标识;
拆分模块,用于在主线程中获取预设的多个分词逻辑,将所述消息数据按照预设的多个所述分词逻辑进行拆分得到分词序列,获取每一个所述分词序列中的不同的分词词组的正确率,计算不同的所述分词词组的正确率乘积得到每一个所述分词序列对应的拆分正确率,获取与最大的所述拆分正确率对应的所述分词序列作为目标分词数据,所述分词逻辑是将所述消息数据拆分为多个标准术语的逻辑,所述分词序列以及所述目标分词数据是指经过拆分后得到的具有独立语义的所述标准术语;
关联存储模块,用于在主线程中将所述目标分词数据与所述目标分词数据对应的来源数据进行关联存储,所述目标分词数据对应的来源数据与所述目标分词数据对应消息数据上携带的来源数据相同;
查询模块,用于在识别线程中查询所述目标分词数据中是否存在风险等级大于预设等级的目标分词数据;其中,所述主线程与所述识别线程是异步关系;
获取模块,用于在识别线程中获取查询到的所述风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的所述来源数据添加风险标签。
7.根据权利要求6所述的装置,其特征在于,所述查询模块,包括:
第二匹配单元,用于将所述目标分词数据与预存的风险等级大于预设等级的数据进行匹配;
存储类别获取单元,用于当至少一个所述目标分词数据匹配成功时,则获取匹配成功的所述风险等级大于预设等级的数据的存储类别;
第二提取单元,用于获取匹配成功的所述目标分词数据对应的来源数据中的时间数据,根据所述时间数据提取在预设的消息数据获取时间段内的未进行匹配的所述目标分词数据;
第三匹配单元,用于将未进行匹配的所述目标分词数据与所述存储类别下预存的风险等级大于预设等级的数据进行匹配;
目标分词数据获取单元,用于当所述未进行匹配的目标分词数据与所述存储类别下预存的风险等级大于预设等级的数据匹配成功时,则所述未进行匹配的目标分词数据为所述风险等级大于预设等级的目标分词数据。
8.根据权利要求6所述的装置,其特征在于,所述获取模块用于获取所述风险等级大于预设等级的目标分词数据的关联词组;当所述关联词组的风险等级大于预设等级时,则查询与未添加风险标签的来源数据对应的目标分词数据中是否存在所述关联词组;当与未添加风险标签的来源数据对应的目标分词数据中存在所述关联词组时,则将所述未添加风险标签的来源数据添加所述风险标签。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201810124547.0A 2018-02-07 2018-02-07 消息数据处理方法、装置、计算机设备和存储介质 Active CN108287823B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810124547.0A CN108287823B (zh) 2018-02-07 2018-02-07 消息数据处理方法、装置、计算机设备和存储介质
PCT/CN2018/089068 WO2019153589A1 (zh) 2018-02-07 2018-05-30 消息数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810124547.0A CN108287823B (zh) 2018-02-07 2018-02-07 消息数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108287823A CN108287823A (zh) 2018-07-17
CN108287823B true CN108287823B (zh) 2021-06-29

Family

ID=62832600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810124547.0A Active CN108287823B (zh) 2018-02-07 2018-02-07 消息数据处理方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN108287823B (zh)
WO (1) WO2019153589A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192258B (zh) * 2018-08-14 2023-06-20 深圳平安医疗健康科技服务有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN109408532B (zh) * 2018-09-26 2023-12-19 平安科技(深圳)有限公司 数据获取方法、装置、计算机设备和存储介质
CN109543177B (zh) * 2018-10-19 2022-04-12 中国平安人寿保险股份有限公司 消息数据处理方法、装置、计算机设备和存储介质
CN111062193B (zh) * 2019-12-16 2023-04-25 医渡云(北京)技术有限公司 医疗数据标注方法及装置、存储介质、电子设备
CN114500123B (zh) * 2022-04-18 2022-08-02 远江盛邦(北京)网络安全科技股份有限公司 网络情报分析方法及装置
CN116390167A (zh) * 2023-04-24 2023-07-04 零束科技有限公司 车联网消息处理方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401835A (zh) * 2013-07-01 2013-11-20 北京奇虎科技有限公司 一种展现微博页面的安全检测结果的方法及装置
CN106339375B (zh) * 2015-07-06 2019-10-01 阿里巴巴集团控股有限公司 网页上项目的评价信息展示方法和装置
CN106600275B (zh) * 2015-10-14 2020-08-21 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
US20170243125A1 (en) * 2016-02-24 2017-08-24 Sprinklr, Inc. Bayesian classification algorithm modification for sentiment estimation
CN106095988A (zh) * 2016-06-21 2016-11-09 上海智臻智能网络科技股份有限公司 自动问答方法及装置
CN106055541B (zh) * 2016-06-29 2018-12-28 清华大学 一种新闻内容敏感词过滤方法及系统
CN106685797A (zh) * 2016-07-09 2017-05-17 东莞市华睿电子科技有限公司 一种基于即时通信的身份认证方法
CN107257314A (zh) * 2017-06-05 2017-10-17 成都知道创宇信息技术有限公司 一种基于微信群的消息统计分析方法
CN107395488A (zh) * 2017-06-08 2017-11-24 深圳市金立通信设备有限公司 一种识别风险账户的方法及终端

Also Published As

Publication number Publication date
WO2019153589A1 (zh) 2019-08-15
CN108287823A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN108287823B (zh) 消息数据处理方法、装置、计算机设备和存储介质
CN109672741B (zh) 微服务监控方法、装置、计算机设备和存储介质
CN108156237B (zh) 产品信息推送方法、装置、存储介质和计算机设备
CN108846676B (zh) 生物特征辅助支付方法、装置、计算机设备及存储介质
CN109766534B (zh) 报表生成方法、装置、计算机设备及可读存储介质
US20180294966A1 (en) Blockchain-based digital identity management method
CN109740137B (zh) 名片生成方法、装置、计算机设备和存储介质
CN110659298B (zh) 财务数据处理方法、装置、计算机设备和存储介质
CN109547426B (zh) 业务响应方法及服务器
CN108334625B (zh) 用户信息的处理方法、装置、计算机设备和存储介质
CN109766072B (zh) 信息校验输入方法、装置、计算机设备和存储介质
CN109684873B (zh) 数据访问控制方法、装置、计算机设备和存储介质
CN109766483B (zh) 正则表达式生成方法、装置、计算机设备和存储介质
EP3396558A1 (en) Method for user identifier processing, terminal and nonvolatile computer readable storage medium thereof
CN110636106A (zh) 信息推送方法、装置、计算机设备和存储介质
CN110717156A (zh) 身份验证方法、系统、计算机设备和存储介质
CN115840964A (zh) 数据处理方法、装置、电子设备及计算机存储介质
WO2021169305A1 (zh) 声纹数据处理方法、装置、计算机设备和存储介质
US11899770B2 (en) Verification method and apparatus, and computer readable storage medium
CN108418809B (zh) 聊天数据处理方法、装置、计算机设备及存储介质
CN109785867B (zh) 双录流程配置方法、装置、计算机设备和存储介质
CN111125748A (zh) 越权查询的判断方法、装置、计算机设备和存储介质
CN111339317A (zh) 用户注册识别方法、装置、计算机设备和存储介质
CN109445758B (zh) 数据处理方法、装置、计算机设备和存储介质
CN109660676B (zh) 异常对象的识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant