CN108090193B - 异常文本的识别方法和装置 - Google Patents

异常文本的识别方法和装置 Download PDF

Info

Publication number
CN108090193B
CN108090193B CN201711394800.6A CN201711394800A CN108090193B CN 108090193 B CN108090193 B CN 108090193B CN 201711394800 A CN201711394800 A CN 201711394800A CN 108090193 B CN108090193 B CN 108090193B
Authority
CN
China
Prior art keywords
text
target
abnormal
user
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711394800.6A
Other languages
English (en)
Other versions
CN108090193A (zh
Inventor
司书强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201711394800.6A priority Critical patent/CN108090193B/zh
Publication of CN108090193A publication Critical patent/CN108090193A/zh
Application granted granted Critical
Publication of CN108090193B publication Critical patent/CN108090193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

说明书披露一种异常文本的识别方法和装置。该方法包括:将目标文本转换为文本特征向量;根据所述文本特征向量对所述目标文本进行聚类,得到所述目标文本的文本类别;根据所述目标文本的文本类别,为文本发布用户构建用户特征向量;根据所述用户特征向量对所述文本发布用户进行聚类,得到所述文本发布用户的用户类别;将指定用户类别的文本发布用户所发布的目标文本确定为异常文本。

Description

异常文本的识别方法和装置
技术领域
本说明书涉及互联网技术领域,尤其涉及一种异常文本的识别方法和装置。
背景技术
随着互联网技术的飞速发展,在线信息交流变得越来越便捷,同时线上垃圾信息也越来越多,例如,谣言、违禁广告、欺诈信息、色情信息等。如何对垃圾信息进行有效的识别,对网络舆论监管、互联网健康发展起着至关重要的作用。
发明内容
有鉴于此,本说明书提供一种异常文本的识别方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种异常文本的识别方法,包括:
将目标文本转换为文本特征向量;
根据所述文本特征向量对所述目标文本进行聚类,得到所述目标文本的文本类别;
根据所述目标文本的文本类别,为文本发布用户构建用户特征向量;
根据所述用户特征向量对所述文本发布用户进行聚类,得到所述文本发布用户的用户类别;
将指定用户类别的文本发布用户所发布的目标文本确定为异常文本。
一种异常文本的识别装置,包括:
文本转换单元,将目标文本转换为文本特征向量;
文本分类单元,根据所述文本特征向量对所述目标文本进行聚类,得到所述目标文本的文本类别;
向量构建单元,根据所述目标文本的文本类别,为文本发布用户构建用户特征向量;
用户分类单元,根据所述用户特征向量对所述文本发布用户进行聚类,得到所述文本发布用户的用户类别;
文本识别单元,将指定用户类别的文本发布用户所发布的目标文本确定为异常文本。
一种异常文本的识别装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与异常文本的识别逻辑对应的机器可执行指令,所述处理器被促使:
将目标文本转换为文本特征向量;
根据所述文本特征向量对所述目标文本进行聚类,得到所述目标文本的文本类别;
根据所述目标文本的文本类别,为文本发布用户构建用户特征向量;
根据所述用户特征向量对所述文本发布用户进行聚类,得到所述文本发布用户的用户类别;
将指定用户类别的文本发布用户所发布的目标文本确定为异常文本。
本说明书可根据目标文本的文本类别对文本发布用户进行用户分类,并可将指定用户类别的文本发布用户发布的目标文本确定为异常文本,从而实现对异常文本的识别。整个过程无需提前得知异常文本的特征即可实现对异常文本的识别,更无需根据已知的异常文本对有监督模型进行训练,可以更好的适应异常文本的快速变种,实现对异常文本的快速、有效识别。
附图说明
图1是本说明书一示例性实施例示出的一种异常文本的识别方法的流程示意图。
图2是本说明书一示例性实施例示出的一种用于异常文本的识别装置的一结构示意图。
图3是本说明书一示例性实施例示出的一种异常文本的识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书提供一种异常文本的识别方法,针对识别周期内获取到的目标文本,可将其转换为文本特征向量,并基于文本特征向量对目标文本进行聚类,以得到目标文本的文本类别。然后,还可根据目标文本的文本类别,为文本发布用户构建用户特征向量,从而根据用户特征向量对文本发布用户进行聚类,进而识别出异常的文本发布用户,并将异常文本发布用户所发布的目标文本确定为异常文本。
本说明书可根据目标文本的文本类别对文本发布用户进行用户分类,并可将指定用户类别的文本发布用户发布的目标文本确定为异常文本,从而实现对异常文本的识别。整个过程无需提前得知异常文本的特征即可实现对异常文本的识别,更无需根据已知的异常文本对有监督模型进行训练,可以更好的适应异常文本的快速变种,实现对异常文本的快速、有效识别。
图1是本说明书一示例性实施例示出的一种异常文本的识别方法的流程示意图。
请参考图1,所述异常文本的识别方法可以应用在服务器或者服务器集群中,包括有以下步骤:
步骤102,将目标文本转换为文本特征向量。
在本实施例中,针对互联网中传播的各种文本信息,例如,论坛言论、即时通信会话消息等,可以根据预定的识别周期进行异常文本的识别。
其中,所述识别周期可以由管理人员进行设置,例如,针对较为活跃的论坛,可以以10分钟为识别周期;针对活跃性较差的论坛,可以以30分钟为识别周期。
当然,也可以不设置固定的识别周期,可由管理员触发,以进行异常文本的识别,例如,管理员根据论坛的实际活跃情况,人工触发异常文本的识别等,本说明书对此不作特殊限制。
在本实施例中,当触发异常文本的识别时,可以获取当前识别周期内所发布的文本,作为目标文本。
在获取到目标文本后,可以将目标文本转换为文本特征向量,以便于后续处理。
在本实施例中,针对获取到的目标文本,可先对其进行清洗,例如,删除没有实际意义的标点符号、表情符号、没有意义的介词、连词等。这部分处理与实现可以参照相关技术,本说明书在此不再一一赘述。
在本实施例中,针对清洗后的目标文本,可以采用k-shingle算法对目标文本进行切分,以将目标文本划分为一个或者多个目标文本分段。
其中,k-shingle算法中k的取值可以由开发人员进行设置。一般而言,由于中文和非中文(例如,英文)的信息含量差异较大,可以分别设置对应的k值。
例如,针对中文文本,可以将k的取值设置为1。
再例如,针对英文等非中文文本,可以不设置固定的k值,以空格作为划分基准等,本说明书对此不作特殊限制。
在本实施例中,在将目标文本划分为一个或多个目标文本分段后,可根据所述目标文本分段在第一预设维度的特征参数,构建所述目标文本的文本特征向量。
例如,针对目标文本的每个目标文本分段,可构建一个1×N的矩阵,其中N的取值等于上述第一预设维度的特征参数的数量。若所述目标文本包括M个目标文本分段,则可以构建N×M的矩阵,作为所述目标文本的文本特征向量。
上述第一预设维度通常可以包括:历史维度、当前识别周期维度、与当前识别周期内缺省信息的比对维度中的一种或多种,具体可以由开发人员进行设置,本说明书对此不作特殊限制。
其中,历史维度的特征参数可以包括以下一种或多种:历史上被发布的次数、历史上最早发布时间距今的时长、历史上发布过所述目标文本分段的用户数量、历史上发布过所述目标文本分段的用户中正常用户的数量、历史上发布过所述目标文本分段的用户中异常用户的数量、所述正常用户历史上发布过所述目标文本分段的数量、所述异常用户历史上发布过所述目标文本分段的数量等。
以目标文本的某一个目标文本分段为例,该目标文本分段通常是一个字符或多个字符组成的字符串。假设该目标文本分段是字符串“借呗”,该目标文本分段在上述历史维度的特征参数如表1所示。
历史维度的特征参数 取值
历史上“借呗”被发布的次数 465026
历史上最早发布时间距今的时长,单位:天 1238
历史上发布过“借呗”的用户数量 1486
历史上发布过“借呗”的用户中正常用户的数量 1203
历史上发布过“借呗”的用户中异常用户的数量 283
所述正常用户历史上发布过“借呗”的数量 139507
所述异常用户历史上发布过“借呗”的数量 325519
表1
请参考表1,目标文本分段“借呗”在历史维度的特征参数可以构建特征向量{465026,1238,1486,1203,283,139507,325519},该特征向量有7个元素。
当前识别周期维度的特征参数可以包括以下一种或多种:当前识别周期内被发布的次数、当前识别周期内文本发布用户平均发布所述目标文本分段的次数、当前识别周期内所述目标文本分段的最长发布时长、当前识别周期内所述目标文本分段的最短发布时长等。
其中,所述最长发布时长可以为当前识别周期内,所述目标文本分段被发布的最早时间点距今的时长,也可以为所述目标文本分段被发布的最早时间点距离当前识别周期结束时间点的时长,所述最短发布时长与所述最长发布时长相对应,本说明书对此不作特殊限制。
仍假设该目标文本分段是字符串“借呗”,该目标文本分段在上述当前识别周期维度的特征参数如表2所示。
当前识别周期维度的特征参数 取值
当前识别周期内“借呗”被发布的次数 29
当前识别周期内文本发布用户平均发布“借呗”的次数 3.6
当前识别周期内“借呗”的最长发布时长,单位:分钟 9
当前识别周期内“借呗”的最短发布时长,单位:分钟 2
表2
请参考表2,目标文本分段“借呗”在当前识别周期维度的特征参数可以构建特征向量{29,3.6,9,2},该特征向量有4个元素。
值得注意的是,表1和表2仅为示例性的说明,在实际应用中,若采用时间维度进行特征参数的统计,通常需要将时间维度特征参数的单位统一,例如,统一为秒、分钟、或者小时等。
与当前识别周期内缺省信息的比对维度的特征参数可以包括以下一种或多种:当前识别周期内所述目标文本分段被发布的次数与缺省信息被发布的次数的比对参数、当前识别周期内发布所述目标文本分段的文本发布用户数量与发布所述缺省信息的文本发布用户数量的比对参数等。
所述当前识别周期内缺省信息通常为当前识别周期内文本发布用户所普遍发布的信息,例如,字符“我”、“你”、“的”等。
仍假设该目标文本分段是字符串“借呗”,“借呗”被发布的次数与缺省信息被发布的次数的比对参数可以为“借呗”被发布的次数与各缺省信息被发布的平均次数的比值、“借呗”被发布的次数分别与各个缺省信息被发布的次数的比值等。
当前识别周期内发布“借呗”的文本发布用户数量与发布所述缺省信息的文本发布用户数量的比对参数,可以参照前述次数比对参数,本说明书在此不再一一赘述。
当然,除比值之外,所述比对参数还可以为百分比等其他参数,本说明书对此不作特殊限制。
假设目标文本分段“借呗”在与当前识别周期内缺省信息的比对维度的特征参数可以构建特征向量{1.8,0.6},该特征向量有2个元素。
综合前述三个维度的特征参数,目标文本分段“借呗”可构建文本特征向量{465026,1238,1486,1203,283,139507,325519,29,3.6,9,2,1.8,0.6},该文本特征向量有13个元素(7+4+2=13)。
类似的,可构建目标文本中的每个目标文本分段的对应的特征向量,进而得到目标文本的文本特征向量
值得注意的是,在构建目标文本的文本特征向量时,还可以接合其他维度的特征参数,本说明书对此不作特殊限制。
步骤104,根据所述文本特征向量对所述目标文本进行聚类,得到所述目标文本的文本类别。
在本实施例中,根据目标文本的文本特征向量,可以对目标文本进行聚类,以得到各个目标文本的文本类别。
其中,聚类算法可以包括:K-Means(K-均值)算法、GMM(Gaussian Mixture Model,高斯混合模型)算法等,本说明书对此不作特殊限制。
根据聚类结果,聚类簇中的各点对应的目标文本的文本类别通常为正常文本,而离散点对应的目标文本的文本类别通常为异常文本。
基于前述步骤102和104,可将当前识别周期内各个目标文本划分为正常文本和异常文本两大文本类别。
步骤106,根据所述目标文本的文本类别,为文本发布用户构建用户特征向量。
在本实施例中,针对当前识别周期内的每个文本发布用户,可先根据前述步骤104中目标文本的文本类别,获取该文本发布用户所发布的目标文本的文本类别,然后根据获取到的文本类别统计第二预设维度的特征参数,以该为文本发布用户构建用户特征向量。
所述第二预设维度的特征参数包括以下一种或多种:所述文本发布用户所发布的目标文本中正常文本数量、所述文本发布用户所发布的目标文本中异常文本数量、所述文本发布用户所发布的目标文本数量、所述文本发布用户所发布的目标文本中异常文本比例、文本发布用户人均发布的异常文本比例等。
举例来说,假设文本发布用户A在当前识别周期内共发布10条目标文本,其中,有9条目标文本的文本类别是异常文本,1条文本的文本类别是正常文本。
文本发布用户A在第二预设维度的特征参数 取值
文本发布用户A所发布的目标文本中正常文本数量 1
文本发布用户A所发布的目标文本中异常文本数量 9
文本发布用户A所发布的目标文本数量 10
文本发布用户A所发布的目标文本中异常文本比例 0.9
当前识别周期内文本发布用户人均发布异常文本的比例 0.2
表3
请参考表3,文本发布用户A在第二预设维度的特征参数可以构建用户特征向量{1,9,10,0.9,0.2},该用户特征向量有5个元素。
当然,在实际应用中,还可以采用其他维度的特征参数进行用户特征向量的构建,本说明书对此不作特殊限制。
步骤108,根据所述用户特征向量对所述文本发布用户进行聚类,得到所述文本发布用户的用户类别。
在本实施例中,根据当前识别周期内文本发布用户的用户特征向量,可以对文本发布用户进行聚类,以得到各个文本发布用户的用户类别。
与前述步骤104类似,聚类算法可以包括:K-Means(K-均值)算法、GMM(GaussianMixture Model,高斯混合模型)算法等,本说明书对此不作特殊限制。
根据聚类结果,聚类簇中的各点对应的文本发布用户的用户类别通常为正常用户,而离散点对应的文本发布用户的用户类别通常为异常用户。
至此,可将当前识别周期内各个文本发布用户划分为正常用户和异常用户两大用户类别。
步骤110,将指定用户类别的文本发布用户所发布的目标文本确定为异常文本。
基于前述步骤108的聚类结果,在本步骤中,可将异常用户类别的文本发布用户所发布的目标文本确定为异常文本,进而实现对当前识别周期内异常文本的识别。
在一个例子中,为了提高异常文本识别的准确率,针对前述步骤108中识别出的异常用户,还可计算所述异常用户与聚类中心点的距离,然后判断该距离是否大于距离阈值。其中,所述距离阈值可以由开发人员根据聚类簇的情况进行设置。
若所述距离大于所述距离阈值,则可以将所述异常用户所发布的目标文本确定为异常文本。
若所述距离小于等于所述距离阈值,则无需将所述异常用户所发布的目标文本确定为异常文本,可将其发布的目标文本视为正常文本。
在另一个例子中,为了提高异常文本识别的准确率,针对前述步骤108中识别出的异常用户,还可以将距离阈值与比例阈值结合,以对其进行进一步识别。
具体而言,当异常用户与聚类中心点的距离大于所述距离阈值时,还可以计算所述异常用户所发布的异常文本的比例是否大于比例阈值。其中,所述比例阈值也可以由开发人员预先进行设置,例如,20%、40%等,本说明书对此不作特殊限制。
若所述异常文本的比例大于所述比例阈值,可以将所述异常用户所发布的目标文本确定为异常文本。
若所述异常文本的比例小于等于所述比例阈值,则无需将所述异常用户所发布的目标文本确定为异常文本,可将其发布的目标文本视为正常文本。
当然,针对用户类别是异常类别的文本发布用户,还可以采用其他方式对其进行进一步判断,以进行后续异常文本的识别,本说明书对此不作特殊限制。
由以上描述可以看出,本说明书可根据目标文本的文本类别对文本发布用户进行用户分类,并可将指定用户类别的文本发布用户发布的目标文本确定为异常文本,从而实现对异常文本的识别。整个过程无需提前得知异常文本的特征即可实现对异常文本的识别,更无需根据已知的异常文本对有监督模型进行训练,可以更好的适应异常文本的快速变种,实现对异常文本的快速、有效识别。
与前述异常文本的识别方法的实施例相对应,本说明书还提供了异常文本的识别装置的实施例。
本说明书异常文本的识别装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本说明书异常文本的识别装置所在服务器的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图3是本说明书一示例性实施例示出的一种异常文本的识别装置的框图。
请参考图3,所述异常文本的识别装置200可以应用在前述图2所示的服务器中,包括有:文本转换单元201、文本分类单元202、向量构建单元203、用户分类单元204以及文本识别单元205。
其中,文本转换单元201,将目标文本转换为文本特征向量;
文本分类单元202,根据所述文本特征向量对所述目标文本进行聚类,得到所述目标文本的文本类别;
向量构建单元203,根据所述目标文本的文本类别,为文本发布用户构建用户特征向量;
用户分类单元204,根据所述用户特征向量对所述文本发布用户进行聚类,得到所述文本发布用户的用户类别;
文本识别单元205,将指定用户类别的文本发布用户所发布的目标文本确定为异常文本。
可选的,所述文本转换单元201,采用k-shingle算法对目标文本进行切分,得到所述目标文本对应的一个或多个目标文本分段;根据所述目标文本分段在第一预设维度的特征参数,构建所述目标文本的文本特征向量。
可选的,所述第一预设维度包括:历史维度、当前识别周期维度、与当前识别周期内缺省信息的比对维度中的一种或多种。
可选的,历史维度的特征参数包括以下一种或多种:
历史上被发布的次数、历史上最早发布时间距今的时长、历史上发布过所述目标文本分段的用户数量、历史上发布过所述目标文本分段的用户中正常用户的数量、历史上发布过所述目标文本分段的用户中异常用户的数量、所述正常用户历史上发布过所述目标文本分段的数量、所述异常用户历史上发布过所述目标文本分段的数量。
可选的,当前识别周期维度的特征参数包括以下一种或多种:
当前识别周期内被发布的次数、当前识别周期内文本发布用户平均发布所述目标文本分段的次数、当前识别周期内所述目标文本分段的最长发布时长、当前识别周期内所述目标文本分段的最短发布时长。
可选的,与当前识别周期内缺省信息的比对维度的特征参数包括以下一种或多种:
当前识别周期内所述目标文本分段被发布的次数与缺省信息被发布的次数的比对参数、当前识别周期内发布所述目标文本分段的文本发布用户数量与发布所述缺省信息的文本发布用户数量的比对参数。
可选的,所述向量构建单元203,获取文本发布用户所发布的目标文本的文本类别;根据所述文本类别统计第二预设维度的特征参数,以为文本发布用户构建用户特征向量。
可选的,所述文本类别包括:正常文本、异常文本;
所述第二预设维度的特征参数包括以下一种或多种:
所述文本发布用户所发布的目标文本中正常文本数量、所述文本发布用户所发布的目标文本中异常文本数量、所述文本发布用户所发布的目标文本数量、所述文本发布用户所发布的目标文本中异常文本比例、文本发布用户人均发布的异常文本比例。
可选的,所述文本识别单元205,
针对指定用户类别的文本发布用户,分别计算所述文本发布用户与聚类中心点的距离;
判断所述距离是否大于距离阈值;
当所述距离大于所述距离阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
可选的,当所述距离大于所述距离阈值时,所述文本识别单元205,还计算所述文本发布用户所发布的异常文本的比例是否大于比例阈值;当所述异常文本的比例大于所述比例阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述异常文本的识别方法的实施例相对应,本说明书还提供一种异常文本的识别装置,该异常文本的识别装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与异常文本的识别逻辑对应的机器可执行指令,所述处理器被促使:
将目标文本转换为文本特征向量;
根据所述文本特征向量对所述目标文本进行聚类,得到所述目标文本的文本类别;
根据所述目标文本的文本类别,为文本发布用户构建用户特征向量;
根据所述用户特征向量对所述文本发布用户进行聚类,得到所述文本发布用户的用户类别;
将指定用户类别的文本发布用户所发布的目标文本确定为异常文本。
可选的,在将目标文本转换为文本特征向量时,所述处理器被促使:
采用k-shingle算法对目标文本进行切分,得到所述目标文本对应的一个或多个目标文本分段;
根据所述目标文本分段在第一预设维度的特征参数,构建所述目标文本的文本特征向量。
可选的,所述第一预设维度包括:历史维度、当前识别周期维度、与当前识别周期内缺省信息的比对维度中的一种或多种。
可选的,历史维度的特征参数包括以下一种或多种:
历史上被发布的次数、历史上最早发布时间距今的时长、历史上发布过所述目标文本分段的用户数量、历史上发布过所述目标文本分段的用户中正常用户的数量、历史上发布过所述目标文本分段的用户中异常用户的数量、所述正常用户历史上发布过所述目标文本分段的数量、所述异常用户历史上发布过所述目标文本分段的数量。
可选的,当前识别周期维度的特征参数包括以下一种或多种:
当前识别周期内被发布的次数、当前识别周期内文本发布用户平均发布所述目标文本分段的次数、当前识别周期内所述目标文本分段的最长发布时长、当前识别周期内所述目标文本分段的最短发布时长。
可选的,与当前识别周期内缺省信息的比对维度的特征参数包括以下一种或多种:
当前识别周期内所述目标文本分段被发布的次数与缺省信息被发布的次数的比对参数、当前识别周期内发布所述目标文本分段的文本发布用户数量与发布所述缺省信息的文本发布用户数量的比对参数。
可选的,在根据所述目标文本的文本类别,为文本发布用户构建用户特征向量时,所述处理器被促使:
获取文本发布用户所发布的目标文本的文本类别;
根据所述文本类别统计第二预设维度的特征参数,以为文本发布用户构建用户特征向量。
可选的,所述文本类别包括:正常文本、异常文本;
所述第二预设维度的特征参数包括以下一种或多种:
所述文本发布用户所发布的目标文本中正常文本数量、所述文本发布用户所发布的目标文本中异常文本数量、所述文本发布用户所发布的目标文本数量、所述文本发布用户所发布的目标文本中异常文本比例、文本发布用户人均发布的异常文本比例。
可选的,在将指定用户类别的文本发布用户所发布的目标文本确定为异常文本时,所述处理器被促使:
针对指定用户类别的文本发布用户,分别计算所述文本发布用户与聚类中心点的距离;
判断所述距离是否大于距离阈值;
当所述距离大于所述距离阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
可选的,当所述距离大于所述距离阈值时,所述处理器还被促使:
计算所述文本发布用户所发布的异常文本的比例是否大于比例阈值;
当所述异常文本的比例大于所述比例阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
与前述异常文本的识别方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
将目标文本转换为文本特征向量;
根据所述文本特征向量对所述目标文本进行聚类,得到所述目标文本的文本类别;
根据所述目标文本的文本类别,为文本发布用户构建用户特征向量;
根据所述用户特征向量对所述文本发布用户进行聚类,得到所述文本发布用户的用户类别;
将指定用户类别的文本发布用户所发布的目标文本确定为异常文本。
可选的,所述将目标文本转换为文本特征向量,包括:
采用k-shingle算法对目标文本进行切分,得到所述目标文本对应的一个或多个目标文本分段;
根据所述目标文本分段在第一预设维度的特征参数,构建所述目标文本的文本特征向量。
可选的,所述第一预设维度包括:历史维度、当前识别周期维度、与当前识别周期内缺省信息的比对维度中的一种或多种。
可选的,历史维度的特征参数包括以下一种或多种:
历史上被发布的次数、历史上最早发布时间距今的时长、历史上发布过所述目标文本分段的用户数量、历史上发布过所述目标文本分段的用户中正常用户的数量、历史上发布过所述目标文本分段的用户中异常用户的数量、所述正常用户历史上发布过所述目标文本分段的数量、所述异常用户历史上发布过所述目标文本分段的数量。
可选的,当前识别周期维度的特征参数包括以下一种或多种:
当前识别周期内被发布的次数、当前识别周期内文本发布用户平均发布所述目标文本分段的次数、当前识别周期内所述目标文本分段的最长发布时长、当前识别周期内所述目标文本分段的最短发布时长。
可选的,与当前识别周期内缺省信息的比对维度的特征参数包括以下一种或多种:
当前识别周期内所述目标文本分段被发布的次数与缺省信息被发布的次数的比对参数、当前识别周期内发布所述目标文本分段的文本发布用户数量与发布所述缺省信息的文本发布用户数量的比对参数。
可选的,所述根据所述目标文本的文本类别,为文本发布用户构建用户特征向量,包括:
获取文本发布用户所发布的目标文本的文本类别;
根据所述文本类别统计第二预设维度的特征参数,以为文本发布用户构建用户特征向量。
可选的,所述文本类别包括:正常文本、异常文本;
所述第二预设维度的特征参数包括以下一种或多种:
所述文本发布用户所发布的目标文本中正常文本数量、所述文本发布用户所发布的目标文本中异常文本数量、所述文本发布用户所发布的目标文本数量、所述文本发布用户所发布的目标文本中异常文本比例、文本发布用户人均发布的异常文本比例。
可选的,将指定用户类别的文本发布用户所发布的目标文本确定为异常文本,包括:
针对指定用户类别的文本发布用户,分别计算所述文本发布用户与聚类中心点的距离;
判断所述距离是否大于距离阈值;
当所述距离大于所述距离阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
可选的,当所述距离大于所述距离阈值时,还包括:
计算所述文本发布用户所发布的异常文本的比例是否大于比例阈值;
当所述异常文本的比例大于所述比例阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (21)

1.一种异常文本的识别方法,包括:
将目标文本转换为文本特征向量;
根据所述文本特征向量对所述目标文本进行聚类,根据聚类结果,确定聚类簇中的各点对应的目标文本的文本类别为正常文本,确定离散点对应的目标文本的文本类别为异常文本;
基于文本发布用户所发布的目标文本中的正常文本和异常文本,为文本发布用户构建用户特征向量;
根据所述用户特征向量对所述文本发布用户进行聚类,根据聚类结果,确定聚类簇中的各点对应的文本发布用户的用户类别为正常用户,确定离散点对应的文本发布用户的用户类别为异常用户;
将用户类别为异常用户的文本发布用户所发布的目标文本确定为异常文本。
2.根据权利要求1所述的方法,所述将目标文本转换为文本特征向量,包括:
采用k-shingle算法对目标文本进行切分,得到所述目标文本对应的一个或多个目标文本分段;
根据所述目标文本分段在第一预设维度的特征参数,构建所述目标文本的文本特征向量。
3.根据权利要求2所述的方法,
所述第一预设维度包括:历史维度、当前识别周期维度、与当前识别周期内缺省信息的比对维度中的一种或多种。
4.根据权利要求3所述的方法,历史维度的特征参数包括以下一种或多种:
历史上被发布的次数、历史上最早发布时间距今的时长、历史上发布过所述目标文本分段的用户数量、历史上发布过所述目标文本分段的用户中正常用户的数量、历史上发布过所述目标文本分段的用户中异常用户的数量、所述正常用户历史上发布过所述目标文本分段的数量、所述异常用户历史上发布过所述目标文本分段的数量。
5.根据权利要求3所述的方法,当前识别周期维度的特征参数包括以下一种或多种:
当前识别周期内被发布的次数、当前识别周期内文本发布用户平均发布所述目标文本分段的次数、当前识别周期内所述目标文本分段的最长发布时长、当前识别周期内所述目标文本分段的最短发布时长。
6.根据权利要求3所述的方法,与当前识别周期内缺省信息的比对维度的特征参数包括以下一种或多种:
当前识别周期内所述目标文本分段被发布的次数与缺省信息被发布的次数的比对参数、当前识别周期内发布所述目标文本分段的文本发布用户数量与发布所述缺省信息的文本发布用户数量的比对参数。
7.根据权利要求1所述的方法,所述基于文本发布用户所发布的目标文本中的正常文本和异常文本,为文本发布用户构建用户特征向量,包括:
获取文本发布用户所发布的目标文本的文本类别;
根据所述文本类别统计第二预设维度的特征参数,以为文本发布用户构建用户特征向量。
8.根据权利要求7所述的方法,
所述文本类别包括:正常文本、异常文本;
所述第二预设维度的特征参数包括以下一种或多种:
所述文本发布用户所发布的目标文本中正常文本数量、所述文本发布用户所发布的目标文本中异常文本数量、所述文本发布用户所发布的目标文本数量、所述文本发布用户所发布的目标文本中异常文本比例、文本发布用户人均发布的异常文本比例。
9.根据权利要求1所述的方法,将用户类别为异常用户的文本发布用户所发布的目标文本确定为异常文本,包括:
针对用户类别为异常用户的文本发布用户,分别计算所述文本发布用户与聚类中心点的距离;
判断所述距离是否大于距离阈值;
当所述距离大于所述距离阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
10.根据权利要求9所述的方法,当所述距离大于所述距离阈值时,还包括:
计算所述文本发布用户所发布的异常文本的比例是否大于比例阈值;
当所述异常文本的比例大于所述比例阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
11.一种异常文本的识别装置,包括:
文本转换单元,将目标文本转换为文本特征向量;
文本分类单元,根据所述文本特征向量对所述目标文本进行聚类,根据聚类结果,确定聚类簇中的各点对应的目标文本的文本类别为正常文本,确定离散点对应的目标文本的文本类别为异常文本;
向量构建单元,基于文本发布用户所发布的目标文本中的正常文本和异常文本,为文本发布用户构建用户特征向量;
用户分类单元,根据所述用户特征向量对所述文本发布用户进行聚类,根据聚类结果,确定聚类簇中的各点对应的文本发布用户的用户类别为正常用户,确定离散点对应的文本发布用户的用户类别为异常用户;
文本识别单元,将用户类别为异常用户的文本发布用户所发布的目标文本确定为异常文本。
12.根据权利要求11所述的装置,
所述文本转换单元,采用k-shingle算法对目标文本进行切分,得到所述目标文本对应的一个或多个目标文本分段;根据所述目标文本分段在第一预设维度的特征参数,构建所述目标文本的文本特征向量。
13.根据权利要求12所述的装置,
所述第一预设维度包括:历史维度、当前识别周期维度、与当前识别周期内缺省信息的比对维度中的一种或多种。
14.根据权利要求13所述的装置,历史维度的特征参数包括以下一种或多种:
历史上被发布的次数、历史上最早发布时间距今的时长、历史上发布过所述目标文本分段的用户数量、历史上发布过所述目标文本分段的用户中正常用户的数量、历史上发布过所述目标文本分段的用户中异常用户的数量、所述正常用户历史上发布过所述目标文本分段的数量、所述异常用户历史上发布过所述目标文本分段的数量。
15.根据权利要求13所述的装置,当前识别周期维度的特征参数包括以下一种或多种:
当前识别周期内被发布的次数、当前识别周期内文本发布用户平均发布所述目标文本分段的次数、当前识别周期内所述目标文本分段的最长发布时长、当前识别周期内所述目标文本分段的最短发布时长。
16.根据权利要求13所述的装置,与当前识别周期内缺省信息的比对维度的特征参数包括以下一种或多种:
当前识别周期内所述目标文本分段被发布的次数与缺省信息被发布的次数的比对参数、当前识别周期内发布所述目标文本分段的文本发布用户数量与发布所述缺省信息的文本发布用户数量的比对参数。
17.根据权利要求11所述的装置,
所述向量构建单元,获取文本发布用户所发布的目标文本的文本类别;根据所述文本类别统计第二预设维度的特征参数,以为文本发布用户构建用户特征向量。
18.根据权利要求17所述的装置,
所述文本类别包括:正常文本、异常文本;
所述第二预设维度的特征参数包括以下一种或多种:
所述文本发布用户所发布的目标文本中正常文本数量、所述文本发布用户所发布的目标文本中异常文本数量、所述文本发布用户所发布的目标文本数量、所述文本发布用户所发布的目标文本中异常文本比例、文本发布用户人均发布的异常文本比例。
19.根据权利要求11所述的装置,所述文本识别单元,
针对用户类别为异常用户的文本发布用户,分别计算所述文本发布用户与聚类中心点的距离;
判断所述距离是否大于距离阈值;
当所述距离大于所述距离阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
20.根据权利要求19所述的装置,当所述距离大于所述距离阈值时,所述文本识别单元,还计算所述文本发布用户所发布的异常文本的比例是否大于比例阈值;当所述异常文本的比例大于所述比例阈值时,将所述文本发布用户所发布的目标文本确定为异常文本。
21.一种异常文本的识别装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与异常文本的识别逻辑对应的机器可执行指令,所述处理器被促使:
将目标文本转换为文本特征向量;
根据所述文本特征向量对所述目标文本进行聚类,根据聚类结果,确定聚类簇中的各点对应的目标文本的文本类别为正常文本,确定离散点对应的目标文本的文本类别为异常文本;基于文本发布用户所发布的目标文本中的正常文本和异常文本,为文本发布用户构建用户特征向量;
根据所述用户特征向量对所述文本发布用户进行聚类,根据聚类结果,确定聚类簇中的各点对应的文本发布用户的用户类别为正常用户,确定离散点对应的文本发布用户的用户类别为异常用户;
将用户类别为异常用户的文本发布用户所发布的目标文本确定为异常文本。
CN201711394800.6A 2017-12-21 2017-12-21 异常文本的识别方法和装置 Active CN108090193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711394800.6A CN108090193B (zh) 2017-12-21 2017-12-21 异常文本的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711394800.6A CN108090193B (zh) 2017-12-21 2017-12-21 异常文本的识别方法和装置

Publications (2)

Publication Number Publication Date
CN108090193A CN108090193A (zh) 2018-05-29
CN108090193B true CN108090193B (zh) 2022-04-22

Family

ID=62178003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711394800.6A Active CN108090193B (zh) 2017-12-21 2017-12-21 异常文本的识别方法和装置

Country Status (1)

Country Link
CN (1) CN108090193B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887562B (zh) * 2019-02-20 2021-10-29 广州天鹏计算机科技有限公司 电子病历的相似度确定方法、装置、设备和存储介质
CN110516066B (zh) * 2019-07-23 2022-04-15 同盾控股有限公司 一种文本内容安全防护方法和装置
CN111125362B (zh) * 2019-12-23 2023-06-16 百度国际科技(深圳)有限公司 一种异常文本确定方法、装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN105786734A (zh) * 2016-02-25 2016-07-20 广州视源电子科技股份有限公司 数据传输的方法、扩展装置、外围设备及系统
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置
CN107391545A (zh) * 2017-05-25 2017-11-24 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN106294346A (zh) * 2015-05-13 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子识别方法及装置
CN105786734A (zh) * 2016-02-25 2016-07-20 广州视源电子科技股份有限公司 数据传输的方法、扩展装置、外围设备及系统
CN107391545A (zh) * 2017-05-25 2017-11-24 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置

Also Published As

Publication number Publication date
CN108090193A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN105427129B (zh) 一种信息的投放方法及系统
CN110210899B (zh) 基于广告相似性的广告推送方法、装置和设备
CN110033302B (zh) 恶意账户识别方法及装置
CN111078742B (zh) 用户分类模型训练方法、用户分类方法及装置
CN106874314B (zh) 信息推荐的方法和装置
CN106530015A (zh) 信息投放控制方法及装置
US20060195534A1 (en) Information processing system, storage medium, and information processing method
CN108090193B (zh) 异常文本的识别方法和装置
CN105574538A (zh) 分类模型训练方法及装置
CN112818224B (zh) 信息推荐方法、装置、电子设备及可读存储介质
US20210073669A1 (en) Generating training data for machine-learning models
US11010687B2 (en) Detecting abusive language using character N-gram features
CN109919656A (zh) 广告投放方法、装置、计算机设备及存储介质
CN111597821B (zh) 一种确定应答概率的方法及装置
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN107403311A (zh) 账户用途的识别方法及装置
CN106933878B (zh) 一种信息处理方法及装置
CN114444619A (zh) 样本生成方法、训练方法、数据处理方法以及电子设备
CN114244795B (zh) 一种信息的推送方法、装置、设备及介质
US11321375B2 (en) Text object management system
CN113076450A (zh) 一种目标推荐列表的确定方法和装置
CN110837843B (zh) 信息分类方法、装置、计算机设备及存储介质
CN114254650A (zh) 一种信息处理方法、装置、设备及介质
CN112995018A (zh) 消息处理方法、装置、设备及存储介质
CN113901316A (zh) 一种信息推送方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1254046

Country of ref document: HK

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant