CN104252465B - 一种利用代表向量过滤信息的方法和装置 - Google Patents
一种利用代表向量过滤信息的方法和装置 Download PDFInfo
- Publication number
- CN104252465B CN104252465B CN201310259175.XA CN201310259175A CN104252465B CN 104252465 B CN104252465 B CN 104252465B CN 201310259175 A CN201310259175 A CN 201310259175A CN 104252465 B CN104252465 B CN 104252465B
- Authority
- CN
- China
- Prior art keywords
- information
- vector
- representation
- representation vector
- short message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息分析技术领域,具体而言,本发明涉及一种利用代表向量过滤信息的方法和装置。其中信息过滤方法包括将信息转换为信息向量;将所述信息向量中相似的信息向量置于同一信息向量组中;找出信息向量组中的代表向量;将待分析信息转换为信息向量,与所述代表向量相比较,如果与所述代表向量匹配则滤除所述待分析信息。通过上述本发明实施例的方法及装置,可以减少信息过滤中匹配的次数,缩小匹配数据库的规模,并且过滤信息准确率很高。
Description
技术领域
本发明涉及信息分析技术领域,具体而言,本发明涉及一种利用代表向量过滤信息的方法和装置。
背景技术
短信,微信,微博,电子邮件,可以利用一个发送账号向一个或多个接受账号发送文本信息,这类通讯方式,在成为一种流行的沟通方式的同时,也为垃圾信息的传播提供了渠道。
以现有技术中的短信息为例,垃圾短消息的问题日益泛滥。垃圾短消息中的广告短消息不但影响了客户感知、损害客户利益,而且部分违法的垃圾信息还影响了社会稳定和国家安全。因此对垃圾短消息智能识别分类和拦截的研究成了目前移动运营商重要的课题。
目前对垃圾信息的识别和治理方式是可以分为以下几种:
(1)黑名单过滤,如中国专利申请201110182348.3、201010561642.0和201010184392.3。即判断是否短信发送号码是否在已知的黑名单列表中。建立黑名单可以由行为分析,如是否群发短信等完成。
(2)内容过滤,使用预设关键字,如中国专利申请201210580601.5和201210498100.2。即判断是否短信中包含预设关键字/组,然后加上一定的行为分析。
或使用文本分类模型,对短信语义内容加以判断。如中国专利申请201110003289.9和201010225273.8。
目前短信过滤的主要缺点是误判率高。例如,垃圾短信发送人员利用植入木马的方式盗用用户号码发送短信,可能造成黑名单过滤误判大量短信。另外,大量诈骗短信使用的都是正常关键字。例如短信“你想有.张能听:对#方#谈#话,收,到,对#方,信#息,的咔.吗”,很难找出合适的误判率低的关键字/组。
即使找出,也可以轻易修改关键字逃避监管。例如,对发票短信“如↓正需↓规各↓税类↓据→→×××××××××”,运营商花费了大量人力物力,
在几年的时间内,对该条发票短信设置了上千个关键字/组,但该条短信的变种还是每天都出现在短信网上。使用机器学习中的文本分类方法,在已分类短信上训练分类模型,
再使用模型对短信内容进行自动分类是目前研究的重点。但是,由于文本分类中训练和过滤数据分布不一致造成的概念漂移,以及类不平衡问题,常常造成误判,使得实际应用时误判率无法达到要求。
为解决高误判率问题,系统中常常需要大量客服人员解决误判带来的一系列问题,或需要人工座席判断是否垃圾短信等。
由于现有短信过滤系统的高误判率问题,造成运营商由于担心影响生产或高昂的系统使用费用,常常不敢启用过滤系统,使得许多垃圾短信系统形同虚设。
运营商急需一套误判率小于万分之一,系统的使用无需专人管理的自动化的过滤系统,以实现在不影响短信正常使用,以较低的费用,达到治理垃圾短信的目的。
发明内容
为了解决现有技术中信息分析中的问题,提出了一种利用代表向量过滤信息的方法和装置。在本发明中,我们使用垃圾短信作为发明的一个实施说明和举例,但本发明的所有技术均适用于其他类似通讯手段,包括但不限于短信,微信,微博,电子邮件等。
本发明实施例提供了一种利用代表向量过滤信息的方法,包括,
将信息转换为信息向量;
将所述信息向量中相似的信息向量置于同一信息向量组中;
找出信息向量组中的代表向量;
将待分析信息转换为信息向量,与所述代表向量相比较,如果与所述代表向量匹配则滤除所述待分析信息。
本发明实施例还提供了一种利用代表向量过滤信息的装置,包括,
转换单元,用于将信息转换为信息向量;
分组单元,用于将所述信息向量中相似的信息向量置于同一信息向量组中;
代表向量单元,用于找出信息向量组中的代表向量;
所述转换单元将待分析信息转换为信息向量后发送给匹配单元,所述匹配单元将所述待分析的信息向量与所述代表向量相比较,如果与所述代表向量匹配则滤除所述待分析信息。
通过上述本发明实施例的方法及装置,可以减少信息过滤中匹配的次数,缩小匹配数据库的规模,并且过滤信息准确率很高。
附图说明
结合以下附图阅读对实施例的详细描述,本发明的上述特征和优点,以及额外的特征和优点,将会更加清楚。
图1所示为发明实施例一种信息过滤方法的流程图;
图2所示为本发明实施例一种信息过滤装置的结构示意图;
图3所示为本发明实施例一种完善代表向量方法的流程图;
图4所示为本发明实施例一种完善代表向量装置的结构示意图;
图5所示为本发明实施例一种短信息过滤的方法流程图;
图6所示为本发明实施例一种完善代表向量方法的流程图。
具体实施方式
下面的描述可以使任何本领域技术人员利用本发明。具体实施例和应用中所提供的描述信息仅为示例。这里所描述的实施例的各种延伸和组合对于本领域的技术人员是显而易见的,在不脱离本发明的实质和范围的情况下,本发明定义的一般原则可以应用到其他实施例和应用中。因此,本发明不只限于所示的实施例,本发明涵盖与本文所示原理和特征相一致的最大范围。
下面的详细说明以流程图、逻辑模块和其他的符号操作表达的形式给出,可以在计算机系统上执行。一个程序、计算机执行步、逻辑块,过程等,在这里被设想为得到所希望的结果的一个或多个步骤或指令的自洽序列。这些步骤是对物理量的物理操作。这些物理量包括电、磁或者无线电信号,它们在计算机系统中被存储、传输、组合、比较以及其他操作。这些信号可是比特、数值、元素、符号、字符、条件、数字等。每个步骤都可以通过硬件、软件、固件或它们的组合执行。
如图1所示为发明实施例一种利用代表向量过滤信息的方法的流程图。
包括步骤101,将信息转换为信息向量。
步骤102,将所述信息向量中相似的信息向量置于同一信息向量组中。
步骤103,找出信息向量组中的代表向量。
步骤104,将待分析信息转换为信息向量,与所述代表向量相比较,如果与所述代表向量匹配则滤除所述待分析信息。
在所述步骤101中,所述信息向量为该信息中滤除重复字、词和数字之后的文本信息;或者所述信息向量还可以不经过滤除重复信息而包括信息中的全部内容。
所述信息包括文本信息、语音信息和/或视频信息,只要是能够将该信息转换为文本格式即可,本发明实施例只是以短信息作为举例描述发明流程和数据处理过程,并不意味着只限于文本类型的短信息,还可以包括例如电子邮件等,其中将语音信息和/或视频信息转换为文本信息可以采用现有技术中的方式进行处理,并不限制采用何种方式将信息转换为文本信息。
还可以进一步,在预设的单位时间窗口内将接收到的信息转换为信息向量,这是由于在通常情况下,垃圾短信息发送都是在很短时间内向不同电话号码发送相同短信息,从而在单位时间窗口内进行垃圾短信息的判断准确率会有很大提成。
在步骤102中的相似信息向量包括文本信息中字符相同,其中所述字符应理解为广义上的字符,即至少包括文字、字母、数字、特殊字符、标点符号、不可见字符等。
在上述步骤102之后还可以包括,对所述信息的行为进行分析,去除不符合预定条件的信息向量组,以便于减少监控的信息向量组,加快信息过滤的流程。
上述不符合预定条件包括,所述信息向量组中信息发送方账号的数量和接收所述信息的账号数量的比值超过第一预定阀值;
所述信息向量组中信息发送方账号数量和接收所述信息的账号数量的比值接近于1或者第二预定阀值;
所述信息向量组中信息发送方账号数量和接收所述信息的账号数量的比值小于第三预定阀值。
在上述步骤102之后还包括,如果所述信息向量组中的信息向量数量小于一预定阀值,则去除所述信息向量组,这是因为一个信息向量组中相似的信息向量的数量较少时,这种信息为垃圾信息的可能性较小,因此在此步骤中滤除信息向量组可以进一步加快垃圾信息过滤。
所述步骤103中,所述代表向量例如可以采用如下方式获得,但本发明并不限制获得代表向量的方法。
计算所述信息向量组的平均长度I;
统计该信息向量组中信息向量的出现频次;
选择出现频次最高的I个信息向量作为所述信息向量组的代表向量。
在另一个实施例中,上述获得代表向量的方法还可以包括随机选择一个信息向量作为该信息向量组的代表向量。
所述代表向量的数量远小于所述信息向量组中信息向量的数量,例如在一个信息向量组中只具有一个代表向量。
在所述步骤103之后还包括,对所述代表向量进行分类,以便于识别该代表向量属于“广告信息”或者“垃圾信息”等类型。
在对代表向量进行分类后还包括对代表向量所属分类标记信心度,所述信心度代表该代表向量属于某个分类的可能性,其中同一个代表向量可能隶属于不同的分类,每个分类均具有一个信心度,可以根据信心度低对代表向量进行删除。其中,在本步骤中也可以不根据分类后的代表向量信心度删除信息向量组或者代表向量,而只是等待后面的信息过滤中作为滤除信息的参考值。
在所述步骤104中还可以包括,所述待分析信息对应的信息向量匹配到某个信息向量组的代表向量,根据该信息向量组所属的分类对所述待分析信息进行相应处理,例如待分析信息为“广告信息”则可以发送给信息接收者,待分析信息为“垃圾信息”则滤除所述待分析信息,如果为“安全威胁”类型的信息则向相关管理人员的计算机或者计算机系统发送报警。
在所述步骤104中还可以包括,所述待分析信息对应的信息向量匹配到某个信息向量组的代表向量,根据该信息向量组所属的分类和该分类的信心度对所述待分析信息进行相应处理,例如待分析信息为“广告信息”,其信心度为40%,则可以发送给信息接收者,待分析信息为“垃圾信息”,其信心度为30%,则将该待分析信息发送给接收者,如果为待分析信息为“安全威胁”类型的信息,其信心度为90%,则向相关管理人员的计算机或者计算机系统发送报警。
通过上述实施例中的方法,可以减少信息过滤中匹配的次数,缩小匹配数据库的规模,并且过滤信息准确率很高,极大的降低了运营商的投入。
如图2所示为本发明实施例一种利用代表向量过滤信息的装置的结构示意图。
包括转换单元201,用于将信息转换为信息向量。
分组单元202,用于将所述信息向量中相似的信息向量置于同一信息向量组中。
代表向量单元203,用于找出信息向量组中的代表向量。
所述转换单元201将待分析信息转换为信息向量后发送给匹配单元204,所述匹配单元204将所述待分析的信息向量与所述代表向量相比较,如果与所述代表向量匹配则滤除所述待分析信息。
所述转换单元201转换形成的信息向量为该信息中滤除重复字、词和数字之后的文本信息。其中,所述信息包括文本信息、语音信息和/或视频信息。
还包括时间窗口单元205,用于计算一单位时间窗口,所述转换单元201获取该单位时间窗口,在该单位时间窗口内所述转换单元201将接收到的信息转换为信息向量。
所述分组单元202将文本信息中字符相同或者字义相类似的信息向量分为同一组。
还包括与所述分组单元202相连接的行为分析单元206,对所述信息的行为进行分析,去除不符合预定条件的信息向量组,以便于减少监控的信息向量组,加快信息过滤的流程。
上述不符合预定条件包括,所述信息向量组中信息发送方账号的数量和接收所述信息的账号数量的比值超过第一预定阀值;
所述信息向量组中信息发送方账号数量和接收所述信息的账号数量的比值接近于1或者第二预定阀值;
所述信息向量组中信息发送方账号数量和接收所述信息的账号数量的比值小于第三预定阀值。
还包括信息向量组筛选单元207,与所述分组单元202相连接,当所述信息向量组中的信息向量数量小于一预定阀值,则去除所述信息向量组。
所述代表向量单元203进一步包括计算模块2031,计算所述信息向量组的平均长度I;
统计模块2032,统计该信息向量组中信息向量的出现频次;
选择模块2033,选择出现频次最高的I个信息向量作为所述信息向量组的代表向量。
所述代表向量的数量远小于所述信息向量组中信息向量的数量,例如在一个信息向量组中只具有一个代表向量。
还包括分类单元208,与所述代表向量单元203相连接,对所述代表向量进行分类。
还包括信心度单元209,与所述分类单元208相连接,对代表向量所属分类标记信心度,所述信心度代表该代表向量属于某个分类的可能性。
所述匹配单元204找出与所述待分析信息匹配的代表向量,根据该代表向量所属的分类对所述待分析信息进行相应处理。
所述匹配单元204找出与所述待分析信息匹配的代表向量,根据该代表向量所属的分类和该分类的信心度对所述待分析信息进行相应处理。
通过上述实施例中的方法,可以减少信息过滤中匹配的次数,缩小匹配数据库的规模,并且过滤信息准确率很高,极大的降低了运营商的投入。
如图3所示为本发明实施例一种完善代表向量方法的流程图。
包括步骤301,将信息转换为信息向量。
步骤302,将所述信息向量中相似的信息向量置于同一信息向量组中。
步骤303,找出信息向量组中的代表向量。
步骤304,对所述代表向量进行分类。
步骤305,根据所述分类建立代表向量的分类模型。
步骤306,利用所述代表向量的分类模型对新的代表向量进行分类。
所述步骤304中可以采用人工审核标记的方式对所述代表向量进行分类,例如分为“广告”和“诈骗”等类别;或者还可以采用现有技术中计算机文本处理的分类技术。
在步骤305中例如可以采用贝叶斯网、支持向量机、决策树等方式根据所述分类建立分类模型,上述建立分类模型的现有技术中的算法为机器学习算法,即可以自动的将新的代表向量进行分类,将新的代表向量及其分类信息和信心度(可以在分类模型中加入信心度的评价,其中信心度的评价可以参考图1中实施例获得信心度的方法)等内容存储于代表向量数据库中,进一步完善代表向量的数据库,以便于在对信息进行处理时可以更加的准确。
如图4所示为本发明实施例一种完善代表向量装置的结构示意图。
包括转换单元401,用于将信息转换为信息向量;
分组单元402,用于将所述信息向量中相似的信息向量置于同一信息向量组中;
代表向量单元403,用于找出信息向量组中的代表向量;
分类单元404,用于对所述代表向量进行分类;
分类模型单元405,用于根据所述分类建立代表向量的分类模型;
执行单元406,用于利用所述代表向量的分类模型对新的代表向量进行分类。
在一个实施例中,如图5所示为本发明实施例一种短信息过滤的方法流程图。
包括步骤501,在本实施例中以短信息为例对信息过滤方法进行描述,但不排除其它例如邮件内容、语音信息、视频信息等信息的过滤应用。
在本步骤中接收来自短信息网关服务器的短信息,将该短信息转换为短信息向量。
在本实施例中,短信息为:“请到窗口交费,请到窗口交费,1890222040221?”。
在该短信息中包括重复的信息“请到窗口交费”,滤除重复的文字后得到短信息向量为:[请,到,窗口,交费,1890222040221]。
步骤502,将相同的短信息向量置于同一短信向量组中。
例如,给定短信向量池P,从任意一条短信向量p_i开始,将p_i从短信向量池P中删除;
将p_i和短信向量池P的其他短信向量p_j做对比,如果发现p_i和p_j内容相似度大于一预定阀值,则把p_j作为p_i的相似短信向量;
将p_j从短信向量池P中删除;
如果p_i及其下所有的相似短信数量大于一预定阀值,则放入相似短信向量组S中作为一组相似短信向量s_i。
重复以上步骤,直到短信向量池P为空。
在上述判断p_i和p_j内容相似度的过程中,可以使用多种现有的文本相似度判断函数,一个优选实施例是使用文本分类中常用的cosine函数。例如:给定如下两个短信向量:
[请,到,窗口,交费,1890222040221]
[请,窗口,交费,1890222040221]
其计算方法为两个短信向量的共同出现的字、词数为4,除以两条短信向量中元素个数平方和的总和的平方根,即这两条短信向量的相似度为:
4/sqrt(5*5+4*4)=0.62
步骤503,对短信向量组S中的每条相似短信向量s_i,对其中的发送和接收账号进行行为分析。按照监控的需求,忽略不符合需求的相似短信向量组,缩小监控范围。
上述的短信向量的行为分析可以采取如下方式进行:
如果该短信向量组中出现的发送账号的数量和接收所述短信息账号的数量的比值大于第一设定阀值,则该短信向量组可被分为可疑群发短信,此种情况中例如为诈骗,票据等短信息。对于运营商,大部分需要过滤的短信属于该类别。
如果该短信向量组中出现的发送账号数量和接收该短信息的账号数量比值接近于一或等于第二设定阀值,则该短信向量组为被分为可疑传播短信,此种情况中例如为谣言,非法集会等短信息。
如果该短信向量组中出现的发送账号数量和接收该短信息的账号的数量比值小于第三设定阀值,则该短信向量组为可疑骚扰短信,此种情况中类似“呼死你”的短信。
步骤504,对相似短信向量组S中的多条短信向量生成一个或者几个代表向量。
其中代表向量的数量远小于所述相似短信向量组S中的短信向量数量,例如,相似短信向量组中有10000条短信向量,只生成1条代表向量即可。
其中,可以随机选择相似短信向量组中的一条短信向量作为该相似短信向量组的代表向量,同样也可以采用例如如下方式获得代表向量。
计算该短信向量组的平均长度I;
统计该短信向量组中短信向量的字,词数字出现的频次;
选择频次最高的l个字,词,数字组成代表短信向量。
具体的例如,给定一短信向量组中相似短信如下三条短信向量:
[a,e请,到,窗口,交费,1890222040221]
[a,c,到,窗口,处,交费,1890222040221]
[b,c请,到,窗口,交费,1890222040221]
该短信向量组的平均长度为7,选择频次最高的l个字,词,数字组成代表向量即为:
[a,c,请,到,窗口,交费,1890222040221]
注意以上代表向量可能不同于原有的任何一条短信向量。
步骤505,对所述代表向量生成分类信息。
标记所述代表向量的类型,例如可以为“广告”或者“诈骗”等预设的类别,对所述代表向量分类可以采用人工审核标记的方式,也可以采用机器自动审核标记的方式,例如可以采用现有技术中的文本分类方式等,在此不限定机器分类的具体方法。
在一个优选的实施例中,还可以标记某个代表向量分类的信心度,例如某个代表向量分类为“正常”的信心度为90%,分类为“广告”的信心度为30%等。
在一个优选的实施例中,可以使用短信息向量库T中的已标记类型的代表向量,训练文本分类模型C。文本分类可以使用贝叶斯网,支持向量机,决策树等传统的机器学习算法。
使用文本分类模型C对相似短信向量组S中的未审核代表向量进行自动分类,并产生分类信心度。例如,“90%属于诈骗短信”,把标记“诈骗”和标记信心度90%存入短信息向量库T。
对短信息向量库T中由文本分类模型C自动标识的最不确定的代表向量行人工审核。例如,可以仅仅针对分类信心度在40%~60%的代表向量进行人工审核。
通过上述步骤可以建立短信息向量库,以备对待分析短信息进行过滤或者筛选等处理。
步骤506,将待分析短信息转换为短信息向量。
步骤507,将所述待分析的短信息向量参照短信息向量库中的代表向量进行过滤等处理。
作为一个实施例,在短信息过滤时,利用过滤模块对一条待分析短信p_i,把一条待分析短信p_i转化为短信向量,利用短信向量库T中的全部代表向量判断是否应该将该短信过滤。
作为优选的实施例可以采用如下方式进行短信息的处理:
将待分析短信息转换为短信向量后与短信向量库T的已标记类型和信心度的代表向量逐条对比,例如可以使用cosine函数计算内容相似度
在短信向量库T中找到和待分析短信p_i内容相似度最大的一条代表向量t_i,如果代表向量t_i的标记为需要被过滤的类别,并且p_i和t_i的内容相似度大于一定阀值,则过滤该未知短信p_i。
在上述步骤中还可以结合信心度进行处理,例如,在短信向量库T中找到和待分析短信p_i内容相似度最大的一条代表向量t_i,如果代表向量t_i的标记为需要被过滤的类别,并且p_i和t_i的内容相似度大于一定阀值,而且该代表向量的为过滤类别的信心度超过一定阀值,则过滤该待分析短信p_i。
如图6所示为本发明实施例一种完善代表向量方法的流程图。
包括步骤601,将信息转换为信息向量。
步骤602,将所述信息向量中相似的信息向量置于同一信息向量组中。
步骤603,找出信息向量组中的代表向量。
步骤604,对所述代表向量进行分类。
步骤605,根据所述分类建立代表向量的分类模型。
步骤606,利用所述代表向量的分类模型对新的代表向量进行分类。
上述步骤601-605均可以采用图5中相应步骤的实施方式,在此不再赘述。
其中步骤606中利用所述代表向量的分类模型对新的代表向量进行分类是指对待分析的信息转换为信息向量,生成新的代表向量,利用分类模型分析该新的代表向量自动将新的代表向量进行分类,在信息向量数据库中记录下该新的代表向量及其相应的分类和信心度。通过上述步骤能够实现进一步完善信息向量数据库,提高自动化程度减少人工参与,降低运营商的实施成本。
通过本发明实施例的方法及装置,可以减少信息过滤中匹配的次数,缩小匹配数据库的规模,并且过滤信息准确率很高,还可以进一步完善信息向量数据库,提高自动化程度减少人工参与,降低运营商的实施成本。
本发明可以以任何适当的形式实现,包括硬件、软件、固件或它们的任意组合。本发明可以根据情况有选择的部分实现,比如计算机软件执行于一个或多个数据处理器以及数字信号处理器。本文的每个实施例的元素和组件可以在物理上、功能上、逻辑上以任何适当的方式实现。事实上,一个功能可以在独立单元中、在一组单元中、或作为其他功能单元的一部分来实现。因此,该系统和方法既可以在独立单元中实现,也可以在物理上和功能上分布于不同的单元和处理器之间。
在相关领域中的技术人员将会认识到,本发明的实施例有许多可能的修改和组合,虽然形式略有不同,仍采用相同的基本机制和方法。为了解释的目的,前述描述参考了几个特定的实施例。然而,上述的说明性讨论不旨在穷举或限制本文所发明的精确形式。前文所示,许多修改和变化是可能的。所选和所描述的实施例,用以解释本发明的原理及其实际应用,用以使本领域技术人员能够最好地利用本发明和各个实施例的针对特定应用的修改、变形。
Claims (12)
1.一种利用代表向量过滤信息的方法,其特征在于包括,
将信息转换为信息向量;
将所述信息向量中相似的信息向量置于同一信息向量组中;
找出信息向量组中的代表向量;
采用人工方式和/或自动文本处理方式标记所述代表向量的类型;
将待分析信息转换为信息向量,与所述代表向量相比较,所述待分析信息对应的信息向量匹配到某个信息向量组的代表向量,根据该代表向量所属的类型对所述待分析信息进行相应处理。
2.根据权利要求1所述的一种利用代表向量过滤信息的方法,其特征在于,所述信息向量为该信息中滤除重复字、词和数字之后的文本信息。
3.根据权利要求1所述的一种利用代表向量过滤信息的方法,其特征在于,所述信息包括文本信息、语音信息和/或视频信息。
4.根据权利要求1所述的一种利用代表向量过滤信息的方法,其特征在于,在将信息转换为信息向量中还包括,在预设的单位时间窗口内将接收到的信息转换为信息向量。
5.根据权利要求1所述的一种利用代表向量过滤信息的方法,其特征在于,在将所述信息向量中相似的信息向量置于同一信息向量组中进一步包括,所述相似信息向量包括文本信息中字符相同。
6.根据权利要求1所述的一种利用代表向量过滤信息的方法,其特征在于,在将所述信息向量中相似的信息向量置于同一信息向量组中进一步包括,对所述信息的行为进行分析,去除不符合预定条件的信息向量组。
7.根据权利要求6所述的一种利用代表向量过滤信息的方法,其特征在于,上述不符合预定条件包括,所述信息向量组中信息发送方账号的数量和接收所述信息的账号数量的比值超过第一预定阀值;
所述信息向量组中信息发送方账号数量和接收所述信息的账号数量的比值接近于1或者第二预定阀值;
所述信息向量组中信息发送方账号数量和接收所述信息的账号数量的比值小于第三预定阀值。
8.根据权利要求1所述的一种利用代表向量过滤信息的方法,其特征在于,在将所述信息向量中相似的信息向量置于同一信息向量组后还包括,如果所述信息向量组中的信息向量数量小于一预定阀值,则去除所述信息向量组。
9.根据权利要求1所述的一种利用代表向量过滤信息的方法,其特征在于,在找出信息向量组中的代表向量中进一步包括,计算所述信息向量组的平均长度I;
统计该信息向量组中信息向量的出现频次;
选择出现频次最高的I个信息向量作为所述信息向量组的代表向量。
10.根据权利要求1所述的一种利用代表向量过滤信息的方法,其特征在于,在对代表向量进行分类后还包括对代表向量所属分类标记信心度,所述信心度代表该代表向量属于某个分类的可能性。
11.根据权利要求10所述的一种利用代表向量过滤信息的方法,其特征在于,在将待分析信息转换为信息向量,与所述代表向量相比较,如果与所述代表向量匹配则滤除所述待分析信息中进一步包括,所述待分析信息对应的信息向量匹配到某个信息向量组的代表向量,根据该代表向量所属的分类和该分类的信心度对所述待分析信息进行相应处理。
12.一种利用代表向量过滤信息的装置,其特征在于包括,
转换单元,用于将信息转换为信息向量;
分组单元,用于将所述信息向量中相似的信息向量置于同一信息向量组中;
代表向量单元,用于找出信息向量组中的代表向量;
分类模块,用于采用人工方式和/或自动文本处理方式标记所述代表向量的类型;
所述转换单元将待分析信息转换为信息向量后发送给匹配单元,所述匹配单元将所述待分析的信息向量与所述代表向量相比较,如果与所述代表向量匹配则滤除所述待分析信息;
所述匹配单元将所述待分析的信息向量与所述代表向量相比较,所述待分析信息对应的信息向量匹配到某个信息向量组的代表向量,根据该代表向量所属的类型对所述待分析信息进行相应处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310259175.XA CN104252465B (zh) | 2013-06-26 | 2013-06-26 | 一种利用代表向量过滤信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310259175.XA CN104252465B (zh) | 2013-06-26 | 2013-06-26 | 一种利用代表向量过滤信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104252465A CN104252465A (zh) | 2014-12-31 |
CN104252465B true CN104252465B (zh) | 2018-10-12 |
Family
ID=52187371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310259175.XA Active CN104252465B (zh) | 2013-06-26 | 2013-06-26 | 一种利用代表向量过滤信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104252465B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
CN101159704A (zh) * | 2007-10-23 | 2008-04-09 | 浙江大学 | 基于微内容相似度的反垃圾方法 |
CN102129568A (zh) * | 2011-04-29 | 2011-07-20 | 南京邮电大学 | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 |
CN102609523A (zh) * | 2012-02-10 | 2012-07-25 | 上海视畅信息科技有限公司 | 基于物品分类和用户分类的协同过滤推荐算法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026B (zh) * | 2007-07-02 | 2011-01-26 | 蒙圣光 | 文本相似度、词义相似度计算方法和系统及应用系统 |
CN102929906B (zh) * | 2012-08-10 | 2015-07-22 | 北京邮电大学 | 基于内容特征和主题特征的文本分组聚类方法 |
-
2013
- 2013-06-26 CN CN201310259175.XA patent/CN104252465B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
CN101159704A (zh) * | 2007-10-23 | 2008-04-09 | 浙江大学 | 基于微内容相似度的反垃圾方法 |
CN102129568A (zh) * | 2011-04-29 | 2011-07-20 | 南京邮电大学 | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 |
CN102609523A (zh) * | 2012-02-10 | 2012-07-25 | 上海视畅信息科技有限公司 | 基于物品分类和用户分类的协同过滤推荐算法 |
Also Published As
Publication number | Publication date |
---|---|
CN104252465A (zh) | 2014-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101937445B (zh) | 一种文件自动分类系统 | |
CN107093431A (zh) | 一种对服务质量进行质检的方法及装置 | |
CN108874777A (zh) | 一种文本反垃圾的方法及装置 | |
CN101784022A (zh) | 短信过滤、分类方法及系统 | |
CN105302911B (zh) | 一种数据筛选引擎建立方法及数据筛选引擎 | |
CN107153789A (zh) | 利用随机森林分类器实时检测安卓恶意软件的方法 | |
CN105184315A (zh) | 一种质检处理方法及系统 | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN109872162A (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN101516071B (zh) | 垃圾短消息的分类方法 | |
CN109766956B (zh) | 基于快递大数据的异常检测方法 | |
US9563770B2 (en) | Spammer group extraction apparatus and method | |
CN107038449B (zh) | 一种欺诈用户的识别方法及装置 | |
CN107169106A (zh) | 视频检索方法、装置、存储介质及处理器 | |
CN112559771A (zh) | 基于知识图谱的资金交易智能监测方法及监测系统 | |
CN106709370A (zh) | 一种基于文本内容的长词识别方法及系统 | |
CN102945246A (zh) | 网络信息数据的处理方法及装置 | |
CN110287311A (zh) | 文本分类方法及装置、存储介质、计算机设备 | |
CN116865994A (zh) | 一种基于大数据的网络数据安全预测方法 | |
CN106681980A (zh) | 一种垃圾短信分析方法和装置 | |
CN110059189B (zh) | 一种游戏平台消息的分类系统及方法 | |
CN108650145A (zh) | 一种家庭宽带WiFi下手机号码特征自动提取方法 | |
CN105930430B (zh) | 一种基于非累积属性的实时欺诈检测方法及装置 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN107506407A (zh) | 一种文件分类、调用的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |