CN111861379A - 一种聊天数据的检测方法和装置 - Google Patents
一种聊天数据的检测方法和装置 Download PDFInfo
- Publication number
- CN111861379A CN111861379A CN202010583301.7A CN202010583301A CN111861379A CN 111861379 A CN111861379 A CN 111861379A CN 202010583301 A CN202010583301 A CN 202010583301A CN 111861379 A CN111861379 A CN 111861379A
- Authority
- CN
- China
- Prior art keywords
- target
- chat data
- user
- generating
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000002159 abnormal effect Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 25
- 238000005295 random walk Methods 0.000 claims description 9
- 238000002910 structure generation Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000003973 irrigation Methods 0.000 description 3
- 230000002262 irrigation Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种聊天数据的检测方法及装置,在获取相应的权限之后,可以获取目标用户的目标聊天数据,然后根据目标聊天数据,生成针对目标用户的用户特征向量,并将该用户特征向量输入预设的目标聊天数据检测模型中,生成针对目标聊天数据的预测值,若该预测值大于或等于预设阈值时,则可以确定目标用户的目标聊天数据为异常聊天数据,通过对用户的聊天数据进行特征提取,并将提取的特征向量输入数据检测模型中进行异常概率预测,可以有效、快速地对用户聊天数据进行检测,并且通过模型预测的方式,大大降低了人工检测的成本。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种聊天数据的检测方法和一种聊天数据的检测装置。
背景技术
随着互联网技术快速发展,网络通信技术也得到飞速的发展,具有即时通信功能的应用程序能够给用户带来较好的用户体验。然而,出于对用户隐私的保护,在通常情况下无法对用户的聊天记录进行审核,则容易出现一些不良言论,且只有当有用户进行举报之后,应用程序管理方的工作人员才能对所涉及的聊天数据进行人工审核。在对用户聊天记录进行人工审核的过程中,审核效率低下,无法快速高效地对不良言论进行处理。因此,在网络通信技术发展的环境下,需要一种能够更好识别异常聊天数据,优化网络通信环境方式。
发明内容
本发明实施例是提供一种聊天数据的检测方法,以解决现有技术中在对聊天数据进行异常识别时,识别效率低下以及成本高的问题。
相应的,本发明实施例还提供了一种聊天数据的检测装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种聊天数据的检测方法,包括:
获取目标用户的目标聊天数据;
根据所述目标聊天数据,生成针对所述目标用户的用户特征向量;
将所述用户特征向量输入预设的目标聊天数据检测模型中,生成针对所述目标聊天数据的预测值;
当所述预测值大于或等于预设阈值时,则确定所述目标聊天数据为异常聊天数据。
可选地,所述根据所述目标聊天数据,生成针对所述目标用户的用户特征向量,包括:
采用所述目标聊天数据,生成第一图网络结构,所述第一图网络结构中包括多个节点;
按照预设序列长度,对所述多个节点进行随机游走,获得第一节点序列;
将所述第一节点序列输入预设的目标关系表示预测模型中,生成针对所述目标用户的用户特征向量。
可选地,所述目标聊天数据包括所述目标用户的若干条聊天记录,所述采用所述目标聊天数据,生成第一图网络结构,包括:
对所述聊天记录进行分词,生成若干个单词;
将各个所述单词作为节点,建立针对所述目标用户的第一图网络结构。
可选地,所述目标关系表示预测模型通过如下方式生成:
获取历史聊天数据;
采用所述历史聊天数据,生成第二图网络结构;
根据所述第二图网络结构,生成所述目标关系表示预测模型。
可选地,所述第二图网络结构包括多个节点,所述根据所述第二图网络结构,生成所述目标关系表示预测模型,包括:
按照预设序列长度,对所述多个节点进行随机游走,获得第二节点序列;
将所述第二节点序列输入所述初始关系表示预测模型中,生成第一预测值;
将所述第一预测值与第一预设参考值进行比对,并根据比对结构对所述初始关系表示预测模型进行迭代,生成所述目标关系表示预测模型。
可选地,所述目标聊天数据检测模型通过如下方式生成:
根据所述历史聊天数据,生成训练特征向量;
将预设的标签样本与所述训练特征向量输入预设的初始聊天数据检测模型,生成第二预测值;
将所述第二预测值与第二参考值进行比对,并根据比对结果对所述初始聊天数据检测模型进行迭代,生成所述目标聊天数据检测模型。
本发明实施例还公开了一种聊天数据的检测装置,包括:
目标聊天数据获取模块,用于获取目标用户的目标聊天数据;
用户特征向量生成模块,用于根据所述目标聊天数据,生成针对所述目标用户的用户特征向量;
预测值生成模块,用于将所述用户特征向量输入预设的目标聊天数据检测模型中,生成针对所述目标聊天数据的预测值;
聊天数据检测模块,用于当所述预测值大于或等于预设阈值时,则确定所述目标聊天数据为异常聊天数据。
可选地,所述用户特征向量生成模块包括:
第一网络结构生成子模块,用于采用所述目标聊天数据,生成第一图网络结构,所述第一图网络结构中包括多个节点;
第一节点序列获得模块,用于按照预设序列长度,对所述多个节点进行随机游走,获得第一节点序列;
用户特征向量生成子模块,用于将所述第一节点序列输入预设的目标关系表示预测模型中,生成针对所述目标用户的用户特征向量。
可选地,所述目标聊天数据包括所述目标用户的若干条聊天记录,所述第一网络结构生成子模块具体用于:
对所述聊天记录进行分词,生成若干个单词;
将各个所述单词作为节点,建立针对所述目标用户的第一图网络结构。
可选地,所述目标关系表示预测模型通过如下模块生成:
历史聊天数据获取模块,用于获取历史聊天数据;
第二网络结构生成模块,用于采用所述历史聊天数据,生成第二图网络结构;
关系表示预测模型生成模块,用于根据所述第二图网络结构,生成所述目标关系表示预测模型。
可选地,所述第二图网络结构包括多个节点,所述第二网络结构生成模块具体用于:
按照预设序列长度,对所述多个节点进行随机游走,获得第二节点序列;
将所述第二节点序列输入所述初始关系表示预测模型中,生成第一预测值;
将所述第一预测值与第一预设参考值进行比对,并根据比对结构对所述初始关系表示预测模型进行迭代,生成所述目标关系表示预测模型。
可选地,所述目标聊天数据检测模型通过如下模块生成:
训练特征向量生成模块,用于根据所述历史聊天数据,生成训练特征向量;
预测值生成模块,用于将预设的标签样本与所述训练特征向量输入预设的初始聊天数据检测模型,生成第二预测值;
聊天数据检测模型训练模块,用于将所述第二预测值与第二参考值进行比对,并根据比对结果对所述初始聊天数据检测模型进行迭代,生成所述目标聊天数据检测模型。
本发明实施例还公开了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如上任一项所述的方法。
本发明实施例还公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如上项所述的方法。
本发明实施例包括以下优点:
在本发明实施例中,在获取相应的权限之后,可以获取目标用户的目标聊天数据,然后根据目标聊天数据,生成针对目标用户的用户特征向量,并将该用户特征向量输入预设的目标聊天数据检测模型中,生成针对目标聊天数据的预测值,若该预测值大于或等于预设阈值时,则可以确定目标用户的目标聊天数据为异常聊天数据,通过对用户的聊天数据进行特征提取,并将提取的特征向量输入数据检测模型中进行异常概率预测,可以有效、快速地对用户聊天数据进行检测,并且通过模型预测的方式,大大降低了人工检测的成本。
附图说明
图1是本发明的一种聊天数据的检测方法实施例的步骤流程图;
图2是本发明实施例中聊天数据检测的示意图;
图3是本发明的一种聊天数据的检测装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图是一种基础且常用的结构,在现实中许多场景可以抽象为一种图结构,例如社交网络、交通网络、电商网络中用户与物品之间的关系等等。图表示学习属于表示学习的范畴,也可以成为网络嵌入、图嵌入、网络表示学习等等。
图表示学习可以包括两个层次的含义:一是将图中的节点表示为低维、实值、稠密的向量形式,使得得到的向量形式可以在向量空间中具有表示以及推理的能力,并且这样的向量还可以用于下游的具体任务中,例如用户社交网络得到的节点表示,即每个用户的表示向量,然后再用于节点分类等;二是将整个图表示低维、实值、稠密的向量形式,用来对整个图结构进行分类等等。其中,图表示学习可以还包括矩阵分解、DeepWalk以及图神经网络等方式。
在网络社交中,用户之间的聊天对话存在多种风险类型,包括消息违规、吸粉、涉黄以及灌水等等,不同的风险类型有不同的人工审核规则和定义。然而,通过人工检测的方式不仅检测的效率低下,而且检测效果差。
因此,本发明实施例的核心构思之一在于基于关系表示学习对用户的聊天数据进行图表示学习,得到针对用户的用户特征向量,然后通过基于用户特征向量的数据检测模型对用户的聊天数据进行灌水概率的预测,从而能够快速、高效地检测出用户聊天数据的异常情况,且降低漏检的概率,提高检测效果。
具体的,参照图1,示出了本发明的一种聊天数据的检测方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,获取目标用户的目标聊天数据;
作为一种示例,聊天数据可以为网络中不同用户之间聊天对话后产生,例如,在生活类应用程序中,其可以提供找房、找工作等业务,同时支持在线交流,则业务提供方与业务需求方可以通过应用程序进行聊天对话。在该过程中,存在部分用户进行吸粉、涉黄以及聊天灌水等行为,因此需要对应用程序中的聊天会话数据进行检测,以便规范网络社交环境。
需要说明的是,对于用户的聊天数据,可以在得到用户授予的权限后进行获取,也可以是相关用户对目标用户进行举报之后,对目标用户所涉及的聊天数据进行获取。
步骤102,根据所述目标聊天数据,生成针对所述目标用户的用户特征向量;
在本发明实施例中,目标聊天数据可以为目标用户当前的聊天数据,或目标用户中可能异常的聊天数据(例如被其他用户举报的聊天数据)。用户特征向量可以为对目标用户聊天数据进行图表示学习后,获得的针对目标用户的特征向量。
在具体实现中,可以采用目标聊天数据,生成第一图网络结构,第一图网络结构中包括多个节点,接着按照预设序列长度,对多个节点进行随机游走,获得第一节点序列,然后将第一节点序列输入预设的目标关系表示预测模型中,生成针对目标用户的用户特征向量。
具体的,目标聊天数据可以包括目标用户的若干条聊天记录,则可以对每条聊天记录进行分词,得到若干个单词,然后以单词为节点,建立针对目标用户的第一图网络结构。接着可以按照预设的序列长度,对第一图网络结构中的节点进行随机游走,获得第一节点序列,其中,每个节点为一个单词,则节点序列可以为对应的句子。然后通过所获取的节点序列输入关系表示预测模型,从而生成针对目标用户的用户特征向量,通过对用户的聊天数据进行图表示学习,可以得到用户的特征信息,有利于后续对聊天数据进行异常检测。
在本发明的一种可选实施例中,目标关系表示预测模型可以通过如下方式生成:获取历史聊天数据,采用历史聊天数据,生成第二图网络结构,根据第二图网络结构,生成目标关系表示预测模型。
在具体实现中,历史聊天记录可以为数据库中存储的在先经过用户授权后得到的聊天数据,通过历史聊天数据,可以对目标关系表示预测模型进行训练。具体的,可以对历史聊天数据中的每条聊天记录进行分词,并根据分词后的单词建立第二图网络结构,然后按照预设序列长度,对第二图网络结构中各个节点进行随机游走,获得第二节点序列,然后将第二节点序列输入初始关系表示预测模型中,生成第一预测值,并将该第一预测值与预设的第一参考值进行比对,根据比对结果对初始关系表示预测模型进行反向训练,直到比对结果符合预设条件时,结束模型训练,得到目标关系表示预测模型。
其中,对于关系表示预测模型的训练过程可以采用梯度下降原则,通过计算训练过程中的损失函数,当损失函数达到最小或满足设定值时,即可视为训练结束。
在一种示例中,可以通过DeepWalk进行图表示学习,将用户的聊天数据作为句子语料,用一个词预测周围词组成无监督训练的样本对,接着用这些样本来训练一个2层的Word2Vec网络,然后抽出隐层权重作为用户特征向量Embedding,用户特征向量中可以自带节点的相似度信息,从而得到训练特征向量。
具体的,当得到历史聊天数据之后,进行分词,然后根据分词后的各个单词组成图网络结构。在图网络结构中,可以按照节点的连接关系生成节点序列,但如果任意生成序列,则容易导致序列的意义被破坏,得到无法用于后续特征预测的语料,因此,可以以中心词预测周围次的方式,生成样本对,接着以样本训练Node2Vec网络,最终从隐层权重中抽取出Embedding,自带一定的相似度信息。
当得到训练完毕后的目标关系表示预测模型之后,可以将获取的目标用户的目标聊天数据进行处理,得到图网络结构,然后对图网络结构中的节点进行随机游走得到节点序列,并输入目标关系表示预测模型,从而得到针对目标用户的用户特征向量,通过图表示学习不仅能够学习到用户的Embedding表示,有利于后续对聊天数据进行异常检测,而且可以存储至用户的特征数据库中,丰富了特征维度,便于后续进行模型的提升。
需要说明的是,本发明实施例包括但不限于上述示例,可以理解的是,在本发明实施例的思想指导下,本领域技术人员可以根据实际情况进行设置,本发明对此不作限制。
步骤103,将所述用户特征向量输入预设的目标聊天数据检测模型中,生成针对所述目标聊天数据的预测值;
在本发明实施例中,通过图表示学习得到的目标用户的用户特征向量之后,可以将用户特征向量输入目标聊天数据检测模型中,对目标用户的目标聊天数据进行异常预测,进而根据预测值判断目标聊天数据是否为异常数据。
在本发明的一种可选实施例中,目标聊天数据检测模型可以通过如下方式生成:根据历史聊天数据,生成训练特征向量,将预设的标签样本与训练特征向量输入预设的初始聊天数据检测模型,生成第二预测值,接着将第二预测值与第二参考值进行比对,并根据比对结果对初始数据检测模型进行迭代,生成目标聊天数据检测模型。
在具体实现中,标签样本可以为异常聊天数据的聊天类型所对应的样本,例如标签可以包括违规信息、涉黄、灌水等,则不同标签可以对应不同的样本,从而通过标签样本与训练特征向量对初始聊天数据检测模型进行训练,得到目标聊天数据检测模型。
其中,对于聊天数据检测模型的训练过程可以采用梯度下降原则,通过计算训练过程中的损失函数,当损失函数达到最小或满足设定值时,即可视为训练结束。
步骤104,当所述预测值大于或等于预设阈值时,则确定所述目标聊天数据为异常聊天数据。
在具体实现中,通过将用户特征向量输入目标聊天数据检测模型,可以得到针对目标用户的目标聊天数据的预测值,该预测值可以用于表示目标聊天数据的异常概率,若该异常概率大于或等于预设阈值时,即表示目标用户的聊天数据涉嫌违规,可以对其进行处理,例如禁言、账户下线等,从而通过对用户的聊天数据进行特征提取,并将提取的特征向量输入数据检测模型中进行异常概率预测,可以有效、快速地对用户聊天数据进行检测,并且通过模型预测的方式,大大降低了人工检测的成本。
在一种示例中,如图2所示,示出了本发明实施例中聊天数据检测的示意图,在模型训练过程中,通过获取历史聊天关系数据,然后建立graph进行图表示学习,得到用户Embedding,将用户Embedding与标签样本输入到分类器中进行训练,从而得到训练后的分类器。
在聊天数据检测过程中,得到用户的每天聊天关系数据后,建立graph进行图表示学习,得到用户Embedding,将用户Embedding输入到分类器中进行预测,从得到用户聊天数据的灌水概率,进而确定用户的聊天数据是否为异常数据,实现了通过对用户的聊天数据进行特征提取,并将提取的特征向量输入数据检测模型中进行异常概率预测,可以有效、快速地对用户聊天数据进行检测,并且通过模型预测的方式,大大降低了人工检测的成本。
在本发明实施例中,在获取相应的权限之后,可以获取目标用户的目标聊天数据,然后根据目标聊天数据,生成针对目标用户的用户特征向量,并将该用户特征向量输入预设的目标聊天数据检测模型中,生成针对目标聊天数据的预测值,若该预测值大于或等于预设阈值时,则可以确定目标用户的目标聊天数据为异常聊天数据,通过对用户的聊天数据进行特征提取,并将提取的特征向量输入数据检测模型中进行异常概率预测,可以有效、快速地对用户聊天数据进行检测,并且通过模型预测的方式,大大降低了人工检测的成本。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的一种聊天数据的检测装置实施例的结构框图,具体可以包括如下模块:
目标聊天数据获取模块301,用于获取目标用户的目标聊天数据;
用户特征向量生成模块302,用于根据所述目标聊天数据,生成针对所述目标用户的用户特征向量;
预测值生成模块303,用于将所述用户特征向量输入预设的目标聊天数据检测模型中,生成针对所述目标聊天数据的预测值;
聊天数据检测模块304,用于当所述预测值大于或等于预设阈值时,则确定所述目标聊天数据为异常聊天数据。
在本发明的一种可选实施例中,所述用户特征向量生成模块302包括:
第一网络结构生成子模块,用于采用所述目标聊天数据,生成第一图网络结构,所述第一图网络结构中包括多个节点;
第一节点序列获得模块,用于按照预设序列长度,对所述多个节点进行随机游走,获得第一节点序列;
用户特征向量生成子模块,用于将所述第一节点序列输入预设的目标关系表示预测模型中,生成针对所述目标用户的用户特征向量。
在本发明的一种可选实施例中,所述目标聊天数据包括所述目标用户的若干条聊天记录,所述第一网络结构生成子模块具体用于:
对所述聊天记录进行分词,生成若干个单词;
将各个所述单词作为节点,建立针对所述目标用户的第一图网络结构。
在本发明的一种可选实施例中,所述目标关系表示预测模型通过如下模块生成:
历史聊天数据获取模块,用于获取历史聊天数据;
第二网络结构生成模块,用于采用所述历史聊天数据,生成第二图网络结构;
关系表示预测模型生成模块,用于根据所述第二图网络结构,生成所述目标关系表示预测模型。
在本发明的一种可选实施例中,所述第二图网络结构包括多个节点,所述第二网络结构生成模块具体用于:
按照预设序列长度,对所述多个节点进行随机游走,获得第二节点序列;
将所述第二节点序列输入所述初始关系表示预测模型中,生成第一预测值;
将所述第一预测值与第一预设参考值进行比对,并根据比对结构对所述初始关系表示预测模型进行迭代,生成所述目标关系表示预测模型。
在本发明的一种可选实施例中,所述目标聊天数据检测模型通过如下模块生成:
训练特征向量生成模块,用于根据所述历史聊天数据,生成训练特征向量;
预测值生成模块,用于将预设的标签样本与所述训练特征向量输入预设的初始聊天数据检测模型,生成第二预测值;
聊天数据检测模型训练模块,用于将所述第二预测值与第二参考值进行比对,并根据比对结果对所述初始聊天数据检测模型进行迭代,生成所述目标聊天数据检测模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行本发明实施例所述的方法。
本发明实施例还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行本发明实施例所述的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种聊天数据的检测方法和一种聊天数据的检测装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种聊天数据的检测方法,其特征在于,包括:
获取目标用户的目标聊天数据;
根据所述目标聊天数据,生成针对所述目标用户的用户特征向量;
将所述用户特征向量输入预设的目标聊天数据检测模型中,生成针对所述目标聊天数据的预测值;
当所述预测值大于或等于预设阈值时,则确定所述目标聊天数据为异常聊天数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标聊天数据,生成针对所述目标用户的用户特征向量,包括:
采用所述目标聊天数据,生成第一图网络结构,所述第一图网络结构中包括多个节点;
按照预设序列长度,对所述多个节点进行随机游走,获得第一节点序列;
将所述第一节点序列输入预设的目标关系表示预测模型中,生成针对所述目标用户的用户特征向量。
3.根据权利要求2所述的方法,其特征在于,所述目标聊天数据包括所述目标用户的若干条聊天记录,所述采用所述目标聊天数据,生成第一图网络结构,包括:
对所述聊天记录进行分词,生成若干个单词;
将各个所述单词作为节点,建立针对所述目标用户的第一图网络结构。
4.根据权利要求2所述的方法,其特征在于,所述目标关系表示预测模型通过如下方式生成:
获取历史聊天数据;
采用所述历史聊天数据,生成第二图网络结构;
根据所述第二图网络结构,生成所述目标关系表示预测模型。
5.根据权利要求4所述的方法,其特征在于,所述第二图网络结构包括多个节点,所述根据所述第二图网络结构,生成所述目标关系表示预测模型,包括:
按照预设序列长度,对所述多个节点进行随机游走,获得第二节点序列;
将所述第二节点序列输入所述初始关系表示预测模型中,生成第一预测值;
将所述第一预测值与第一预设参考值进行比对,并根据比对结构对所述初始关系表示预测模型进行迭代,生成所述目标关系表示预测模型。
6.根据权利要求5所述的方法,其特征在于,所述目标聊天数据检测模型通过如下方式生成:
根据所述历史聊天数据,生成训练特征向量;
将预设的标签样本与所述训练特征向量输入预设的初始聊天数据检测模型,生成第二预测值;
将所述第二预测值与第二参考值进行比对,并根据比对结果对所述初始聊天数据检测模型进行迭代,生成所述目标聊天数据检测模型。
7.一种聊天数据的检测装置,其特征在于,包括:
目标聊天数据获取模块,用于获取目标用户的目标聊天数据;
用户特征向量生成模块,用于根据所述目标聊天数据,生成针对所述目标用户的用户特征向量;
预测值生成模块,用于将所述用户特征向量输入预设的目标聊天数据检测模型中,生成针对所述目标聊天数据的预测值;
聊天数据检测模块,用于当所述预测值大于或等于预设阈值时,则确定所述目标聊天数据为异常聊天数据。
8.根据权利要求7所述的装置,其特征在于,所述用户特征向量生成模块包括:
第一网络结构生成子模块,用于采用所述目标聊天数据,生成第一图网络结构,所述第一图网络结构中包括多个节点;
第一节点序列获得模块,用于按照预设序列长度,对所述多个节点进行随机游走,获得第一节点序列;
用户特征向量生成子模块,用于将所述第一节点序列输入预设的目标关系表示预测模型中,生成针对所述目标用户的用户特征向量。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1-6任一项所述的方法。
10.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583301.7A CN111861379A (zh) | 2020-06-23 | 2020-06-23 | 一种聊天数据的检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583301.7A CN111861379A (zh) | 2020-06-23 | 2020-06-23 | 一种聊天数据的检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111861379A true CN111861379A (zh) | 2020-10-30 |
Family
ID=72989643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010583301.7A Pending CN111861379A (zh) | 2020-06-23 | 2020-06-23 | 一种聊天数据的检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111861379A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
US20140222528A1 (en) * | 2013-02-05 | 2014-08-07 | 24/7 Customer, Inc. | Segregation of chat sessions based on user query |
US20160162600A1 (en) * | 2014-09-30 | 2016-06-09 | International Business Machines Corporation | Characterizing success pathways in networked graphs |
US20180270325A1 (en) * | 2017-03-17 | 2018-09-20 | International Business Machines Corporation | Cleaning chat history based on relevancy |
CN109800410A (zh) * | 2017-11-17 | 2019-05-24 | 百度在线网络技术(北京)有限公司 | 一种基于在线聊天记录的表单生成方法和系统 |
-
2020
- 2020-06-23 CN CN202010583301.7A patent/CN111861379A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140222528A1 (en) * | 2013-02-05 | 2014-08-07 | 24/7 Customer, Inc. | Segregation of chat sessions based on user query |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
US20160162600A1 (en) * | 2014-09-30 | 2016-06-09 | International Business Machines Corporation | Characterizing success pathways in networked graphs |
US20180270325A1 (en) * | 2017-03-17 | 2018-09-20 | International Business Machines Corporation | Cleaning chat history based on relevancy |
CN109800410A (zh) * | 2017-11-17 | 2019-05-24 | 百度在线网络技术(北京)有限公司 | 一种基于在线聊天记录的表单生成方法和系统 |
Non-Patent Citations (1)
Title |
---|
高鹏等: "基于社会网络的聊天数据噪声过滤", 计算机工程, vol. 34, no. 05, pages 166 - 168 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN105426356B (zh) | 一种目标信息识别方法和装置 | |
CN109978060B (zh) | 一种自然语言要素抽取模型的训练方法及装置 | |
CN111783016B (zh) | 一种网站分类方法、装置及设备 | |
CN110175851B (zh) | 一种作弊行为检测方法及装置 | |
CN111522916B (zh) | 一种语音服务质量检测方法、模型训练方法及装置 | |
CN112052451A (zh) | 一种webshell检测方法和装置 | |
Kim et al. | SMS spam filterinig using keyword frequency ratio | |
CN114357204B (zh) | 媒体信息的处理方法及相关设备 | |
CN110674370A (zh) | 域名识别方法及装置、存储介质及电子设备 | |
KR20200063067A (ko) | 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법 | |
CN116402630B (zh) | 一种基于表征学习的财务风险预测方法及系统 | |
Pekar et al. | Selecting classification features for detection of mass emergency events on social media | |
CN115314268B (zh) | 基于流量指纹和行为的恶意加密流量检测方法和系统 | |
Briciu et al. | AutoAt: A deep autoencoder-based classification model for supervised authorship attribution | |
CN114297390B (zh) | 一种长尾分布场景下的方面类别识别方法及系统 | |
CN111861379A (zh) | 一种聊天数据的检测方法和装置 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN115391674A (zh) | 网络社区虚假信息高效抑制方法及装置、设备、存储介质 | |
CN115618297A (zh) | 识别异常企业的方法及其装置 | |
CN114363664A (zh) | 生成视频合集标题的方法及装置 | |
CN114036283A (zh) | 一种文本匹配的方法、装置、设备和可读存储介质 | |
CN113934833A (zh) | 训练数据的获取方法、装置、系统及存储介质 | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN113065348B (zh) | 基于Bert模型的互联网负面信息监控方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |