CN108460049B - 一种确定信息类别的方法和系统 - Google Patents

一种确定信息类别的方法和系统 Download PDF

Info

Publication number
CN108460049B
CN108460049B CN201710093479.1A CN201710093479A CN108460049B CN 108460049 B CN108460049 B CN 108460049B CN 201710093479 A CN201710093479 A CN 201710093479A CN 108460049 B CN108460049 B CN 108460049B
Authority
CN
China
Prior art keywords
information
information set
category
determining
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710093479.1A
Other languages
English (en)
Other versions
CN108460049A (zh
Inventor
梁桉洋
汤佳宇
孙丽
钟齐炜
陈力
倪剑莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710093479.1A priority Critical patent/CN108460049B/zh
Publication of CN108460049A publication Critical patent/CN108460049A/zh
Application granted granted Critical
Publication of CN108460049B publication Critical patent/CN108460049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及互联网技术领域,特别涉及一种确定信息类别的方法和系统,用以解决现有技术中存在的识别非正常信息的方式需要不定时对语料模型进行训练与更新,实时性比较差的问题。本申请实施例根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。由于本申请实施例不需要采用语料模型就可以确定信息的类别,从而避免不定时对语料模型进行训练与更新,保证了确定信息的实时性。

Description

一种确定信息类别的方法和系统
技术领域
本申请涉及互联网技术领域,特别涉及一种确定信息类别的方法和系统。
背景技术
随着互联网的快速发展,互联网已经成为人们生活中的一部分。人们已经习惯通过互联网浏览新闻、看电影、购物等。
对于有产品交互行为发生的互联网场景(比如购物等),交互行为双方在发生交互行为之前可能需要发送一些询问信息对交互的产品等进行了解,这种方式称为询盘。
询盘也叫咨询,是指交易的一方准备购买或出售某种商品的人向潜在的供货人或买主探寻该商品的成交条件或交易的可能性的业务行为。询盘的内容可涉及:价格、规格、品质、数量、包装、装运以及索取样品等。
通常构成询盘中的词或词组的总个数在200以内,属于短信息内容,常见的短信息还有:评论、留言、短信、Twitter(推特)等。
这类短信息根据具体内容不同有些是正常信息,有些是非正常信息。以询盘为例,非正常询盘可以进一步包括:垃圾询盘、钓鱼询盘、广告询盘等。
垃圾询盘是指买家向卖家发送的无意义的询盘;
钓鱼询盘是指经过伪装的询盘,其目的是欺骗收件人将账号、密码等信息回复给制定的接收者,或引导收件人连接到特制的网页,这些网页通常会伪装成和真实网站一样,如银行或理财的网页,使得登录者信以为真,当登陆者在这些网页上登陆时,其账号密码就会被盗取;
广告询盘是指发送的内容中含有广告。
对于这些非正常的信息,如果可以进行识别,则可以拦截这些非正常信息,从而避免对接收方造成干扰。
目前识别这些非正常信息的方式一般是通过预先设置的语料模型判断是否是正常信息。
由于语料模型的特性,使得这种方式需要经常对语料模型进行训练与更新,实时性比较差。
发明内容
本申请提供一种确定信息类别的方法和系统,用以解决现有技术中存在的识别非正常信息的方式需要不定时对语料模型进行训练与更新,实时性比较差的问题。
本申请实施例提供的一种确定信息类别的方法,该方法包括:
根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;
根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;
根据所述信息集合的特征参数确定所述信息集合的类别;
将所述信息集合的类别作为所述目标信息的类别。
本申请实施例提供的一种确定信息类别的系统,该系统包括:
处理模块,用于根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;
参数确定模块,用于根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;
集合类别确定模块,用于根据所述信息集合的特征参数确定所述信息集合的类别;
信息类别确定模块,用于将所述信息集合的类别作为所述目标信息的类别。
本申请实施例根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。由于本申请实施例不需要采用语料模型就可以确定信息的类别,从而避免不定时对语料模型进行训练与更新,保证了确定信息的实时性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例确定信息类别的方法流程示意图;
图2为本申请实施例进行模型训练以及确定信息类别的示意图;
图3为本申请实施例进行模型训练的完整方法流程示意图;
图4为本申请实施例确定信息类别的完整方法流程示意图;
图5为本申请实施例确定信息类别的系统结构示意图。
具体实施方式
其中,本申请实施例中的信息可以是任何含有文字的信息,比如询盘、短消息等。
本申请实施例中的信息类别可以根据不同的信息类型划分,比如信息类型是询盘,信息类别可以划分成正常询盘和非正常询盘;进一步的,非正常询盘还可以进一步划分为钓鱼询盘、广告询盘、垃圾询盘等。
比如信息类型是短消息,信息类别可以划分成正常短消息和垃圾短消息。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部份实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
如图1所示,本申请实施例确定信息类别的方法包括:
步骤100、根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;
步骤101、根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数,其中所述信息集合中的信息包括通过离线训练聚类的信息和所述目标信息;
步骤102、根据所述信息集合的特征参数确定所述信息集合的类别;
步骤103、将所述信息集合的类别作为所述目标信息的类别。
本申请实施例根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。由于本申请实施例不需要采用语料模型就可以确定信息的类别,从而避免不定时对语料模型进行训练与更新,保证了确定信息的实时性。
本申请实施例根据所述信息集合的特征参数确定所述信息集合的类别时可以通过分类模型实现。
这里的分类模型是可进行分类的有监督的机器学习算法模型,比如评分卡模型、LR模型、SVM模型等。
具体的,将所述信息集合的特征参数输入到分类模型中;
将所述分类模型输出的数值与类别阈值进行比较;
根据比较结果确定所述信息集合的类别。
在需要使用模型之前都需要对模型进行训练,本申请实施例在完成模练训练后就可以使用,后续不需要经常进行训练。
下面先介绍下模型训练的具体过程。
先取一段时间离线的信息,以及与信息相关的数据。
其中,与信息相关的数据包括但不限于下列数据中的部分或全部:
信息ID(标识),发送信息的用户ID,信息的发送时间,信息中包括的对象所属的对象类别。
任何能够进行交易的对象都可以作为本申请实施例的对象,比如商品、服务等。
对象类别可以是商品类别,比如电子产品、服装等。
对获取的每个信息进行预处理。这里的预处理是对信息中的内容进行处理。
包括但不限于下列处理方式中的部分或全部:
1、剔除格式错误的数据。这里可以设置不同语言对应的错误格式,比如中文对应的错误格式,英文对应的错误格式等。
在设置错误格式时,错误格式可以是具体格式,也可以是错误条件的描述信息,比如没有实际意义的数据。
如果错误格式是具体格式,在确定格式错误的数据时,根据信息中的根据信息中不同的语言,确定预设的错误格式,将信息中的数据与错误格式进行匹配,如果匹配成功就确定对应的数据是错误格式需要剔除。
如果是不符合条件的描述信息,在确定错误格式时,可以查看信息中的数据是否符合错误条件,如果符合,则确定数据是错误格式数据需要剔除。比如错误条件是没有实际意义的数据,如果发现信息中包含asfddds、ssd、sssssssddddd、ssssss、sss等没有实际意义的数据,就确定这些数据是错误数据,需要剔除这些数据。
2、剔除内容过短的信息。这里可以针对不同的语言设置不同的门限,也可以设置同一个门限,如果获取的信息中的文字数量小于门限,就确定获取的信息内容过短,需要剔除。
如果信息中包括多种文字,可以分别确定每种文字的数量,然后根据预设的每种文字的权值和每种文字的数量,得到获取的信息的总文字数量,并与预设的多种语言的门限进行比较,判断是否是内容过短的信息。
3、将信息中的标点、符号、数字去除。
可选的,如果本申请实施例应用的场景只需要英文,则可以将获取的信息中除英文以外的文字剔除;如果本申请实施例应用的场景只需要中文,则可以将获取的信息中除中文以外的文字剔除。
4、对获取的信息中的语句进行分词。
不同的语言,划分的方式也不同,比如英文可以每个单词作为一个分词,用空格划分。
在对获取的信息进行预处理之后就需要对获取的信息进行聚类。
可选的,确定所述获取的信息中的词在所述获取的信息中的重要程度值;
根据所述重要程度值将所述词组成字符串,并确定所述字符串的聚类值;
将聚类值相同的信息划分为一类。
本发明实施例在确定重要程度值时使用的是能够将单词从一种顺序映射成另一种稳定顺序的的算法,比如使用的算法是tf(Term Frequency,词频)-idf(InverseDocument Frequency逆向文件频率)算法,相应的重要程度值为tf-idf值。
在实施中,采用tf-idf算法确定使用tf-idf值时可以使用MapReduce计算框架。
可选的,所述字符串中包括重要程度值最小的N个词,在根据所述重要程度值将所述词组成字符串时,可以将所述目标信息中的词按照重要程度值从大到小排列,将排在最后的N个词组成字符串;比如N为2,获取的信息的内容为interested in making a largepurchase,按照重要程度值从大到小排列后为making interested in a large purchase,排在最后的2个词为large和purchase。
还可以将所述目标信息中的词按照重要程度值从小到大排列,将排在最前的N个词组成字符串。比如N为2,获取的信息的内容为interested in making a largepurchase,按照重要程度值从小到大排列后为purchase large a in interested making,排在前面的2个词为large和purchase。
可选的,确定所述字符串的聚类值时可以使用Hash算法,其中Hash算法可以具体是BKDRHash、APHash、DJBHash等。
如果使用Hash算法,则聚类值就是Hash值。
将聚类值相同的信息划分到一个类中,从而完成信息聚类。
在聚类处理完成后,可以通过人工标注的方式对聚类的信息标注对应的类型。如果类型为正常信息和非正常信息,则可以为聚类标注为正常类(即正样本)和垃圾类(即负样本)。
根据之前获取的与信息相关的数据,就可以确定与聚类相关的数据。
其中,与聚类相关的数据包括但不限于下列中的部分或全部:
信息集合中各个类的信息数量,发送信息集合中的信息的用户数量,信息中包括的对象所属的对象类别的数量,设定时长内发送信息集合中的信息的最大数量,信息集合中已标记类别的信息数量,发送信息集合中已标记类别的信息的用户数量。
这里一个信息集合就代表一个聚类。
1、信息集合中信息的数量。
2、发送信息集合中的信息的用户数量,是指一共有多少不同的用户发送信息集合中的信息。
3、信息中包括的对象所属的对象类别的数量中,如果信息的内容中涉及至少一个对象,则确定涉及的对象中一共有多个不同的对象类别。
4、设定时长内发送信息集合中的信息的最大数量,这里设定时长可以有一个也可以有多个,比如可以确定30分钟时间窗口内发送信息集合中的信息的最大数量,以及10分钟时间窗口内发送信息集合中的信息的最大数量。
针对一个信息,这个时间窗口每统计一次发送数量就移动设定步长(比如1秒)再次统计,从统计的所有数量中确定最大值。
5、信息集合中已标记类别的信息数量中,已标记类别的信息是指之前已经由非本申请实施例的方式标注过类别的信息,还有可能是之前已经由用户标注过类别的信息(比如邮件用户拖入到垃圾邮件中)。
6、发送信息集合中已标记类别的信息的用户数量,是指一共有多少不同的用户发送信息集合中已标记类别的信息。
在得到这些数据后,就可以通过这些数据对分类模型进行训练。
本申请实施例的分类模型可以是评分卡模型、LR模型、SVM模型等。
下面以评分卡模型为例进行说明,其他模型方式与评分卡模型类似在此不再赘述。
评分卡模型是一种机器学习预测方法,其原理是将数据集按照分布特征离散化后再通过logistic回归对原始数据进行分类。其主要过程分为:1.按照特征区间进行分桶;2.计算各个特征上的Woe值;3.通过打标数据训练模型,得到各个桶的权重,使用Woe值与权重的乘积计算每个桶上的得分,最终将各个特征的分数加权得到总分。
具体训练分为下列几个步骤:
1.特征分桶:使用单特征跑决策树的方式,得到决策树的分裂节点,将上面提到的几个与聚类相关的数据的特征离散化。
2.计算每个桶上的Woe值,使用该桶上的Woe值取代原始的特征值,作为该特征的值。这里的原始的特征值是上面提到的与聚类相关的数据。
分桶指的是将全体训练样本按照某个特征维度进行拆分,比如等频、等宽等。
3.将计算出的各个特征值合成为新的训练数据,使用logistic回归模型训练分类模型,得到各个特征值的权重。
4.通过特征值的权重与样本在该特征值上对应的桶的Woe值的乘积得出特征f对应的分数。
5.计算样本在各个特征对应的分数的和,作为该样本的总分数。
6.计算出训练数据在各个分段的准确率与召回率,得到分数基线。
比如有10个聚类样本: 1 2 3 4 5 6 7 8 9 10
每个聚类样本中信息的数目分别为: 1 1 2 2 1 3 3 3 9 10
对应类别标签(1指垃圾,0指正常):
样本编号 1 2 3 4 5 6 7 8 9 10
特征一 1 1 2 2 1 3 3 3 9 10
特征二 1 1 2 1 1 2 2 3 2 3
类别标签 0 1 0 0 1 0 1 1 1 1
步骤1:
假设按照等宽(2个值一个桶)分桶:
对于特征一,那么得到的就是:
1号桶 信息数目:[1,2] 聚类样本编号 1 2 3 4 5
2号桶 信息数目:[3,4] 聚类样本编号 6 7 8
3号桶 信息数目:[9,10] 聚类样本编号 9 10
woe计算的就是一个桶上的正负差异,即ln(正样本占全体正样本比例/负样本占全体负样本比例)。
如1号桶为 ln((3/4)/(2/6))
2号桶为 ln((1/4)/(2/6))
3号桶为 ln((0/4)/(2/6))
由于ln不为0对上面分子分母均+1处理
WOE1=ln((3/4+1)/(2/6+1))=0.27
WOE2=ln((1/4+1)/(2/6+1))=-0.064
WOE3=ln((0/4+1)/(2/6+1))=-0.28
对于特征二,得到:
a桶 发送者数目[1] 聚类样本编号1 2 4 5
b桶 发送者数目[2] 聚类样本编号3 6 7 9
c桶 发送者数目[3] 聚类样本编号8 10
同样计算woe:
WOEa 桶为ln((2/4+1)/(2/6+1))=0.11
WOEb 桶为ln((2/4+1)/(2/6+1))=0.11
WOEc 桶为ln((0/4+1)/(2/6+1))=-0.28
步骤2:
用WOE值代替对应特征值,例如3号样本特征一在桶1中与特征二在桶b中。
则3号样本特征一取值为WOE1,即0.27;特征二取值为WOEb即0.11.
聚类样本做替换对应特征数值,结果如下:
样本编号 1 2 3 4 5 6 7 8 9 10
特征一 0.27 0.27 0.27 0.27 0.27 -0.1 -0.06 -0.06 -0.28 -0.28
特征二 0.11 0.11 0.11 0.11 0.11 0.11 0.11 -0.28 0.11 -0.28
类别标签 0 1 0 0 1 0 1 1 1 1
步骤3:
使用LR模型训练特征权重(LR模型是常用的机器学习算法模型),得到2个特征对应的权重分别为u,v和常数项c
步骤4和步骤5:
通过加权计算样本总分
Score样本1=u*0.27+v*0.11+c
Score样本2=u*0.27+v*0.11+c
Score样本10=u*(-0.28)+v*(-0.28)+c
比如模型计算出的u=1,v=2,c=0
则得到
Figure BDA0001229635620000101
Figure BDA0001229635620000111
步骤6:
计算阈值,比如按照0分划线,认为大于等于0分为正常询盘,小于0为垃圾询盘。
那么有:
样本编号 1 2 3 4 5 6 7 8 9 10
特征一 0.27 0.27 0.27 0.27 0.27 -0.1 -0.06 -0.06 -0.28 -0.28
特征二 0.11 0.11 0.11 0.11 0.11 0.11 0.11 -0.28 0.11 -0.28
分数 0.49 0.49 0.49 0.49 0.49 0.16 0.156 -0.62 -0.06 -0.84
模型结论 0 0 0 0 0 0 0 1 1 1
类别标签 0 1 0 0 1 0 1 1 1 1
准确率为:正确预测的样本个数占比(深色部分占比)7/10=0.7
召回率为:正确预测且模型结论为垃圾的个数/样本类别为垃圾比例3/6=0.5
可以看到,每划定一个分数阈值,就可以得到一组准确率和召回率,再结合实际情况选择侧重准确率还是召回率,就可以确定最终的分数阈值。
其中,如果总分数大于分数基线的样本为非正常信息。
这里是以类型为正常信息和非正常信息两种进行训练,如果有多种类型,分数基线可以有更多,从而区分不同的类型。
在训练好分类模型后,可以将分类模型导出为PMML格式的文件,供实时调用使用。
在实施中,本申请实施例在确定每个聚类的特征值时可以使用Jstorm流式计算框架,或可以达到实时统计目的其它的流式计算方法。
下面详细介绍下使用已训练好的分类模型确定信息的类型。
在获取到一个目标信息后,确定所述目标信息中的词在所述目标信息中的重要程度值;
根据所述重要程度值将所述词组成字符串,并确定所述字符串的聚类值;
判断所述信息集合对应的聚类值中是否有与所述字符串的聚类值相同的;
如果有,则将所述目标信息置于相同的聚类值对应的信息集合中;
否则,将所述目标信息置于新的信息集合中。
其中,对获取的目标信息要进行预处理。这里的预处理是对信息中的内容进行处理。具体预处理过程可以参照上面的内容,在此不再赘述。
在进行预处理后,就可以确定目标信息的聚类值。具体确定目标信息的聚类值的过程可以参照上面的内容,在此不再赘述。
在确定目标信息的聚类值后,就可以查看已经有的信息集合中是否有相同的聚类值的信息集合,如果有,则将该目标信息置于该信息集合中;如果没有,将所述目标信息置于新的信息集合中。
比如信息集合A的聚类值为1234567,信息集合A的聚类值为2245894,信息集合C的聚类值为3568425。
假设目标信息的聚类值为1234567,则将目标信息置于信息集合A中;
假设目标信息的聚类值为7654321,则将目标信息置于信息集合D(即新的信息集合)中。
由于信息集合中加入新的目标信息,所以信息集合的特征参数就会发生变化.
信息集合的特征参数与上面提到的与聚类相关的数据相同,信息集合的特征参数包括但不限于下列中的部分或全部:
信息集合中各个类的信息数量,发送信息集合中的信息的用户数量,信息中包括的对象所属的对象类别的数量,设定时长内发送信息集合中的信息的最大数量,信息集合中已标记类别的信息数量,发送信息集合中已标记类别的信息的用户数量。
将包含有目标信息的信息集合的特征参数输入到分类模型中;
将所述分类模型输出的数值与类别阈值进行比较;
根据比较结果确定所述信息集合的类别。
这里的类别阈值是在训练分类模型时得到的,即上面提到的分数基线。
在实施中,训练分类模型后就会得到类别阈值和类别的绑定关系,即每种类别对应哪个区间。
在将包含有目标信息的信息集合的特征参数输入到分类模型中后,确定分类模型输出的数值;
根据绑定关系,确定所述数值所属的区间对应的类别,该类别就是信息集合中所有信息的类别。
如图2所示,本申请实施例进行模型训练以及确定信息类别的示意图中可以看出整个方案分为离线训练和实时监测两部分。
离线训练是对分类模型进行训练。具体包括:
1、获取用于训练分类模型的信息;
2、对获取的信息进行聚类;
3、确定每个聚类的特征参数;
4、根据每个聚类的特征参数对分类模型进行训练。
对训练好的分类模型通过PMML方式部署到服务器中。
实时监测是检测获取的目标信息的类型。具体包括:
1、获取目标信息。
2、确定目标信息对应的信息集合,并将目标信息置于对应的信息集合中。
3、更新包含目标信息的信息集合的特征参数。
4、将特征参数输入分配模型。
5、根据特征模型输出的数值确定目标信息的类型。
下面分别介绍下训练模型和确定信息类别的完整流程。
如图3所示,本申请实施例进行模型训练的完整方法包括:
步骤300、获取一段时间离线的信息,以及与信息相关的数据。
步骤301、对获取的每个信息进行预处理。
步骤302、确定所述获取的信息中每个词在所述获取的信息中的重要程度值。
步骤303、将重要程度值最小的N个词组成字符串。
步骤304、确定N个词组成字符串的聚类值。
步骤305、将聚类值相同的信息划分为一类。
步骤306、根据获取的与信息相关的数据,确定聚类的特征参数。
步骤307、根据聚类的特征参数和获取的信息对分类模型进行训练。
如图4所示,本申请实施例确定信息类别的完整方法包括:
步骤400、获取目标信息,并对获取的目标信息进行预处理。
步骤401、确定所述目标信息中每个词在所述目标信息中的重要程度值。
步骤402、将重要程度值最小的N个词组成字符串,并确定所述字符串的聚类值。
步骤403、判断每个信息集合对应的聚类值中是否有与所述字符串的聚类值相同的信息集合,如果是,则执行步骤404;否则,执行步骤405。
步骤404、将所述目标信息置于相同的聚类值对应的信息集合中,并执行步骤406。
步骤405、将所述目标信息置于新的信息集合中,并执行步骤406。
步骤406、确定包含有目标信息的信息集合的特征参数。
步骤407、将包含有目标信息的信息集合的特征参数输入到分类模型中;
步骤408、将所述分类模型输出的数值与类别阈值进行比较;
步骤409、根据比较结果确定所述信息集合的类别。
基于同一发明构思,本发明实施例中还提供了一种确定信息类别的系统,由于该系统解决问题的原理与本发明实施例确定信息类别的方法相似,因此该系统的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,本申请实施例确定信息类别的系统包括:
处理模块500,用于根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;
参数确定模块501,用于根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数,其中所述信息集合中的信息包括通过离线训练聚类的信息和所述目标信息;
集合类别确定模块502,用于根据所述信息集合的特征参数确定所述信息集合的类别;
信息类别确定模块503,用于将所述信息集合的类别作为所述目标信息的类别。
本申请实施例根据所述信息集合的特征参数确定所述信息集合的类别时可以通过分类模型实现。
这里的分类模型是可进行分类的有监督的机器学习算法模型,比如评分卡模型、LR模型、SVM模型等。
可选的,所述集合类别确定模块502具体用于:
将所述信息集合的特征参数输入到分类模型中;
将所述分类模型输出的数值与类别阈值进行比较;
根据比较结果确定所述信息集合的类别。
在需要使用模型之前都需要对模型进行训练,本申请实施例在完成模练训练后就可以使用,后续不需要经常进行训练。
具体模型训练过程可以参照上述方法中的内容,在此不再赘述。
可选的,所述处理模块500具体用于:
确定所述目标信息中的词在所述目标信息中的重要程度值;
根据所述重要程度值将所述词组成字符串,并确定所述字符串的聚类值;
判断所述信息集合对应的聚类值中是否有与所述字符串的聚类值相同的;
如果有,则将所述目标信息置于相同的聚类值对应的信息集合中;
否则,将所述目标信息置于新的信息集合中。
可选的,所述处理模块500可以根据所述重要程度值将所述词组成字符串时,可以将所述目标信息中的词按照重要程度值从大到小排列,将排在最后的N个词组成字符串;比如N为2,获取的信息的内容为interested in making a large purchase,按照重要程度值从大到小排列后为making interested in a large purchase,排在最后的2个词为large和purchase。
还可以将所述目标信息中的词按照重要程度值从小到大排列,将排在最前的N个词组成字符串。比如N为2,获取的信息的内容为interested in making a largepurchase,按照重要程度值从小到大排列后为purchase large a in interested making,排在前面的2个词为large和purchase。
可选的,确定所述字符串的聚类值时可以使用Hash算法,其中Hash算法可以具体是BKDRHash、APHash、DJBHash等。
如果使用Hash算法,则聚类值就是Hash值。
可选的,所述信息集合的特征参数包括下列信息中的部分或全部:
信息集合中各个类的信息数量,发送信息集合中的信息的用户数量,信息中包括的对象所属的对象类别的数量,设定时长内发送信息集合中的信息的最大数量,信息集合中已标记类别的信息数量,发送信息集合中已标记类别的信息的用户数量。
从上述内容可以看出:本申请实施例根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数;根据所述信息集合的特征参数确定所述信息集合的类别;将所述信息集合的类别作为所述目标信息的类别。由于本申请实施例不需要采用语料模型就可以确定信息的类别,从而避免不定时对语料模型进行训练与更新,保证了确定信息的实时性。
本申请实施例在识别信息类型过程中,会将待检测样本进行实时的聚类,每当有新的待检测信息输入,该信息对应的信息集合的特征参数会进行实时的更新,之后通过分类模型对更新后的各个特征进行加权评分,并通过设定的阈值确定信息的类型。由于本申请实施例的信息集合的特征参数会进行实时的更新,因而本申请实施例进一步提高了实时性。
以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解,可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置,以产生机器,使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。
相应地,还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地,本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式,其具有在介质中实现的计算机可使用或计算机可读程序代码,以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中,计算机可使用或计算机可读介质可以是任意介质,其可以包含、存储、通信、传输、或传送程序,以由指令执行系统、装置或设备使用,或结合指令执行系统、装置或设备使用。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种确定信息类别的方法,其特征在于,该方法包括:
根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;
根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数,其中所述信息集合中的信息包括通过离线训练聚类的信息和所述目标信息;
根据所述信息集合的特征参数确定所述信息集合的类别;
将所述信息集合的类别作为所述目标信息的类别。
2.如权利要求1所述的方法,其特征在于,所述根据目标信息的聚类值,将所述目标信息置于对应的信息集合中,包括:
确定所述目标信息中的词在所述目标信息中的重要程度值;
根据所述重要程度值将所述词组成字符串,并确定所述字符串的聚类值;
判断所述信息集合对应的聚类值中是否有与所述字符串的聚类值相同的;
如果有,则将所述目标信息置于相同的聚类值对应的信息集合中;
否则,将所述目标信息置于新的信息集合中。
3.如权利要求2所述的方法,其特征在于,所述字符串中包括重要程度值最小的N个词,所述根据所述重要程度值将所述词组成字符串,包括:
将所述目标信息中的词按照重要程度值从大到小排列,将排在最后的N个词组成字符串;或
将所述目标信息中的词按照重要程度值从大小到小排列,将排在最前的N个词组成字符串。
4.如权利要求1所述的方法,其特征在于,所述信息集合的特征参数包括下列信息中的部分或全部:
信息集合中各个类的信息数量,发送信息集合中的信息的用户数量,信息中包括的对象所属的对象类别的数量,设定时长内发送信息集合中的信息的最大数量,信息集合中已标记类别的信息数量,发送信息集合中已标记类别的信息的用户数量。
5.如权利要求1所述的方法,其特征在于,所述根据所述信息集合的特征参数确定所述信息集合的类别,包括:
将所述信息集合的特征参数输入到分类模型中;
将所述分类模型输出的数值与类别阈值进行比较;
根据比较结果确定所述信息集合的类别。
6.一种确定信息类别的系统,其特征在于,该系统包括:
处理模块,用于根据目标信息的聚类值,将所述目标信息置于对应的信息集合中;
参数确定模块,用于根据包含所述目标信息的所述信息集合中的信息,确定所述信息集合的特征参数,其中所述信息集合中的信息包括通过离线训练聚类的信息和所述目标信息;
集合类别确定模块,用于根据所述信息集合的特征参数确定所述信息集合的类别;
信息类别确定模块,用于将所述信息集合的类别作为所述目标信息的类别。
7.如权利要求6所述的系统,其特征在于,所述处理模块具体用于:
确定所述目标信息中的词在所述目标信息中的重要程度值;
根据所述重要程度值将所述词组成字符串,并确定所述字符串的聚类值;
判断所述信息集合对应的聚类值中是否有与所述字符串的聚类值相同的;
如果有,则将所述目标信息置于相同的聚类值对应的信息集合中;
否则,将所述目标信息置于新的信息集合中。
8.如权利要求7所述的系统,其特征在于,所述字符串中包括重要程度值最小的N个词,所述处理模块具体用于:
将所述目标信息中的词按照重要程度值从大到小排列,将排在最后的N个词组成字符串;或
将所述目标信息中的词按照重要程度值从大小到小排列,将排在最前的N个词组成字符串。
9.如权利要求6所述的系统,其特征在于,所述信息集合的特征参数包括下列信息中的部分或全部:
信息集合中各个类的信息数量,发送信息集合中的信息的用户数量,信息中包括的对象所属的对象类别的数量,设定时长内发送信息集合中的信息的最大数量,信息集合中已标记类别的信息数量,发送信息集合中已标记类别的信息的用户数量。
10.如权利要求6所述的系统,其特征在于,所述集合类别确定模块具体用于:
将所述信息集合的特征参数输入到分类模型中;
将所述分类模型输出的数值与类别阈值进行比较;
根据比较结果确定所述信息集合的类别。
CN201710093479.1A 2017-02-21 2017-02-21 一种确定信息类别的方法和系统 Active CN108460049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710093479.1A CN108460049B (zh) 2017-02-21 2017-02-21 一种确定信息类别的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710093479.1A CN108460049B (zh) 2017-02-21 2017-02-21 一种确定信息类别的方法和系统

Publications (2)

Publication Number Publication Date
CN108460049A CN108460049A (zh) 2018-08-28
CN108460049B true CN108460049B (zh) 2021-10-19

Family

ID=63228878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710093479.1A Active CN108460049B (zh) 2017-02-21 2017-02-21 一种确定信息类别的方法和系统

Country Status (1)

Country Link
CN (1) CN108460049B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597901B (zh) * 2018-11-15 2021-11-16 韶关学院 一种基于生物数据的数据分析方法
CN112184279A (zh) * 2019-07-05 2021-01-05 上海哔哩哔哩科技有限公司 Auc指标快速计算方法、装置以及计算机设备
CN110533190B (zh) * 2019-07-18 2023-09-05 武汉烽火众智数字技术有限责任公司 一种基于机器学习的数据对象分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021896A1 (en) * 2004-01-26 2008-01-24 Microsoft Corporation Automatic query clustering
CN105095382A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 样本分布式聚类计算方法及装置
CN105868243A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置
CN105955951A (zh) * 2016-04-29 2016-09-21 中山大学 一种消息过滤的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8635402B2 (en) * 2009-03-31 2014-01-21 Nec Corporation Storage system and storage access method and program
CN102799647B (zh) * 2012-06-30 2015-01-21 华为技术有限公司 网页去重方法和设备
US9773039B2 (en) * 2012-09-14 2017-09-26 Fti Consulting, Inc. Computer-implemented system and method for identifying near duplicate documents
CN103312887B (zh) * 2012-12-28 2016-09-28 武汉安天信息技术有限责任公司 一种手机应用篡改识别系统、方法及装置
EP2994846A4 (en) * 2013-05-09 2017-01-25 Moodwire, Inc. Hybrid human machine learning system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021896A1 (en) * 2004-01-26 2008-01-24 Microsoft Corporation Automatic query clustering
CN105095382A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 样本分布式聚类计算方法及装置
CN105868243A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置
CN105955951A (zh) * 2016-04-29 2016-09-21 中山大学 一种消息过滤的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多元词组和数据流聚类的热点话题动态发现;黄贵懿;《重庆文理学院学报》;20160331;全文 *

Also Published As

Publication number Publication date
CN108460049A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US11475143B2 (en) Sensitive data classification
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
US20190108184A1 (en) System and method for providing technology assisted data review with optimizing features
Bhardwaj et al. Sentiment analysis for Indian stock market prediction using Sensex and nifty
US11281860B2 (en) Method, apparatus and device for recognizing text type
US11531987B2 (en) User profiling based on transaction data associated with a user
US9064212B2 (en) Automatic event categorization for event ticket network systems
CN106934254B (zh) 一种开源许可证的分析方法及装置
WO2019043379A1 (en) CONTROL OF FACTS
US11756059B2 (en) Discovery of new business openings using web content analysis
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
JP6976910B2 (ja) データ分類システム、データ分類方法、および、データ分類装置
CN110276065B (zh) 一种处理物品评论的方法和装置
US20230214679A1 (en) Extracting and classifying entities from digital content items
CN108269122B (zh) 广告的相似度处理方法和装置
US20160314398A1 (en) Attitude Detection
CN108460049B (zh) 一种确定信息类别的方法和系统
CN111782793A (zh) 智能客服处理方法和系统及设备
US20210240928A1 (en) Mapping feedback to a process
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
JP7330691B2 (ja) 語彙抽出支援システムおよび語彙抽出支援方法
Mol et al. A trustworthy model in E-commerce by mining feedback comments
CN109426978A (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant