CN108319582A - 文本消息的处理方法、装置和服务器 - Google Patents

文本消息的处理方法、装置和服务器 Download PDF

Info

Publication number
CN108319582A
CN108319582A CN201711478585.8A CN201711478585A CN108319582A CN 108319582 A CN108319582 A CN 108319582A CN 201711478585 A CN201711478585 A CN 201711478585A CN 108319582 A CN108319582 A CN 108319582A
Authority
CN
China
Prior art keywords
word
text message
potential
new dictionary
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711478585.8A
Other languages
English (en)
Inventor
毛丁辉
张鹏
张阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Urban Network Neighbor Information Technology Co Ltd
Beijing City Network Neighbor Technology Co Ltd
Original Assignee
Beijing City Network Neighbor Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing City Network Neighbor Technology Co Ltd filed Critical Beijing City Network Neighbor Technology Co Ltd
Priority to CN201711478585.8A priority Critical patent/CN108319582A/zh
Publication of CN108319582A publication Critical patent/CN108319582A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • H04L51/063Content adaptation, e.g. replacement of unsuitable content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • H04L51/066Format adaptation, e.g. format conversion or compression

Abstract

本发明实施例提供一种文本消息的处理方法、装置和服务器,该方法包括:通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词,将所述至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库,其中,所述新词库条件为:词的使用频次、凝固度以及自由度均大于对应的阈值,对新词库中的所有潜在词进行筛选得到垃圾信息的关键词,可在短时间内将海量文本消息中使用频率较高的新发现词自动筛选出,不需要人为从大量文本消息中筛选词汇,提高文本消息的处理效率。

Description

文本消息的处理方法、装置和服务器
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本消息的处理方法、装置和服务器。
背景技术
即时通讯(Instant Messaging,IM)软件是一种通过网络来实现实时通讯的软件,允许两人或多人间即时传递文字、图片、视频等信息。在58微聊等一些用户量较大的IM软件中,会出现恶意用户发送大量垃圾文本消息(含骚扰、欺诈、涉黄等内容)的情况,既影响了正常用户的使用体验,也给用户的财产安全带来隐患。目前针对不断变形的垃圾文本消息,主要的识别方案主要依靠传统匹配关键词方法和人工鉴别。
然而,垃圾消息识别是一个对抗过程,传统匹配关键词方法只能识别已出现过并被加入词库的关键词,而恶意用户发送的垃圾消息一直在改变形式,依靠人工添加词库的匹配关键词方法或者采用人工鉴别的方法,存在严重滞后的缺陷,难以实现垃圾消息实时治理清除,效率较低。
发明内容
本发明实施例提供一种文本消息的处理方法、装置和服务器,用于解决上述依靠人工添加词库的匹配关键词方法或者采用人工鉴别的方法,存在严重滞后的缺陷,难以实现垃圾消息实时治理清除,效率较低的问题。
本发明实施例第一方面提供一种文本消息的处理方法,包括:
通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词;
将所述至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库;其中,所述新词库条件为:词的使用频次、凝固度以及自由度均大于对应的阈值;
对新词库中的所有潜在词进行筛选得到垃圾信息的关键词。
在一种具体的实施方式中,所述将所述至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库,包括:
遍历判断每个潜在词的使用频次是否大于预设阈值,凝固度是否大于预设阈值,自由度是否大于预设阈值;
当存在第一潜在词的使用频次、凝固度以及自由度均大于对应的阈值时,则将所述第一潜在词将入所述新词库。
在一种具体的实施方式中,所述通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词,包括:
采用文本分析技术将海量文本消息中的长度小于设定阈值的子串建立索引,并从所述索引中提取出潜在词。
在一种具体的实施方式中,所述对新词库中的所有潜在词进行筛选得到垃圾信息的关键词之前,所述方法还包括:
对新词库中的潜在词按照使用频次进行排序。
在一种具体的实施方式中,所述方法还包括:
将得到的关键词加入关键词库;
在一种具体的实施方式中,所述方法还包括:
采用所述关键词库对接收到的文本消息进行识别处理。
本发明实施例第二方面还提供一种文本消息的处理装置,包括:
第一处理模块,用于通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词;
第二处理模块,用于将所述至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库;其中,所述新词库条件为:词的使用频次、凝固度以及自由度均大于对应的阈值;
第三处理模块,用于对新词库中的所有潜在词进行筛选得到垃圾信息的关键词。
可选的,所述第二处理模块包括:
判断子模块,用于遍历判断每个潜在词的使用频次是否大于预设阈值,凝固度是否大于预设阈值,自由度是否大于预设阈值;
处理子模块,用于当存在第一潜在词的使用频次、凝固度以及自由度均大于对应的阈值时,则将所述第一潜在词将入所述新词库。
可选的,所述第一处理模块具体用于采用文本分析技术将海量文本消息中的长度小于设定阈值的子串建立索引,并从所述索引中提取出潜在词。
可选的,所述对新词库中的所有潜在词进行筛选得到垃圾信息的关键词之前,所述第三处理模块还用于对新词库中的潜在词按照使用频次进行排序。
可选的,所述装置还包括,第四处理模块,用于:
将得到的关键词加入关键词库。
采用所述关键词库对接收到的文本消息进行识别处理。
本发明实施例第三方面提供一种服务器,包括:存储器和处理器;
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现第一方面任一实施方式提供的文本消息的处理方法。
本发明实施例第四方面提供一种存储介质,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现第一方面任一实施方式提供的文本消息的处理方法。
本发明实施例第五方面提供一种程序产品,该程序产品包括计算机指令(即计算机程序),该计算机指令存储在可读存储介质中。服务器或者终端的至少一个处理器可以从可读存储介质读取该计算机指令,至少一个处理器执行该计算机指令使得服务器或者终端实施前述文本消息的处理方法。
本发明实施例提供的文本消息的处理方法、装置和服务器,通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词,将至少一个潜在词中使用频次、凝固度以及自由度均大于对应的阈值的多个第一潜在词加入新词库,对新词库中的所有潜在词进行筛选得到垃圾信息的关键词,可在短时间内将海量文本消息中使用频率较高的新发现词自动筛选出,不需要人为从大量文本消息中筛选词汇,提高文本消息的处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的文本消息的处理方法实施例一的流程图;
图2为本发明实施例提供的文本消息的处理方法实施例二的流程图;
图3为本发明实施例提供的文本消息的处理方法实施例三的流程图;
图4为本发明实施例提供的文本消息的处理方法实施例四的流程图;
图5为本发明实施例提供的文本消息的处理方法实施例五的流程图;
图6为本发明实施例提供的文本消息的处理装置实施例一的结构示意图;
图7为本发明实施例提供的文本消息的处理装置实施例二的结构示意图;
图8为本发明实施例提供的文本消息的处理装置实施例三的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
目前的对于垃圾文本消息的处理方式主要是采用关键词匹配或者人工鉴别的方式,然而,垃圾消息识别是一个对抗过程,传统匹配关键词方法只能识别已出现过并被加入词库的关键词,而恶意用户发送的垃圾消息一直在改变形式,如关键字“微信”的变形有“薇信”、“徽信”、“V信”、“溦芯”等等。且依靠人工添加词库的关键词,然后在用词库中的关键词进行匹配的方法存在严重滞后的缺陷,难以实现垃圾消息实时治理清除;人工鉴别的方法更是需要投入大量的人力,鉴别任务相当枯燥繁琐,而且效率低下,对垃圾消息大量爆发的情况力不从心。
基于上述存在的问题,本申请提供一种文本消息的处理方法,能够在短时间内将海量文本消息中使用频率较高的新发现词筛选出来,不需要人为从大量文本消息中筛选,对词库进行更新以便后续对文本消息进行处理。
本发明实施例提供的文本消息的处理方法可应用在具有文本处理功能服务器、云端服务器等服务器中,也可以应用在网络设备、手机、电脑以及其他用户设备等终端中,对此本方案不做限制。
图1为本发明实施例提供的文本消息的处理方法实施例一的流程图,如图1所示,该文本消息的处理方法的具体步骤包括:
S101:通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词。
在本步骤中,对于接收到的海量文本消息进行分析,具体可采用目前的文本分析算法进行实现,具体实现本方案不做限制。一种具体的实现方式中,可以对文本消息进行预处理断句、分段、分词等预处理,然后按照实际的要求进行加权,为避免分词后的词串中将同一词语分开,需要考虑上下文的含义,从文本消息中提取出所有的词语,以及组合词语等作为潜在词,即作为新词的备选词。
S102:将至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库;其中,新词库条件为:词的使用频次、凝固度以及自由度均大于对应的阈值。
在本步骤中,服务器或者终端中海量文本消息中提取出了大量的潜在词,为了从中筛选出能够加入新词库的词,需要预先设置可加入新词库的条件,本方案提供实现方案中可对词的使用频次、凝固度以及自由度进行设置。在本方案中,应理解,凝固度用于衡量字符串内字与字之间的紧密程度,自由度用于衡量字符串能独立自由运用的程度。
根据实际情况,设置词的使用频率的阈值、凝固度的阈值以及自由度的阈值,在具体实现中,服务器或者终端设备对得到的每一个潜在词按照使用频次、自由度和凝固度参数与设置的阈值进行比较,将多个潜在词中的满足新词库条件的第一潜在词筛选出来,然后加入新词库
在上述方案中,应理解,在对潜在词再次按照新词库条件进行筛选时,并不是必须要考虑频次、自由度和凝固度三个参数,也可以只考虑其中任一个或者任两个参数,对其中至少一个参数设置相应的阈值,对此本方案不做限制。
S103:对新词库中的所有潜在词进行筛选得到垃圾信息的关键词。
在本步骤中,对筛选后的新词库中的新词再次进行筛选,筛选出其中的恶意词汇作为垃圾信息的关键词,以便对文本消息按照更新后的关键词进行匹配处理,根据该些关键词找出恶意消息以及恶意用户。
本实施例提供的文本消息的处理方法,通过文本分析技术获取接收到的海量文本消息中的潜在词,将至少一个潜在词中使用频次、凝固度以及自由度均大于对应的阈值的多个第一潜在词加入新词库,对新词库中的所有潜在词进行筛选得到垃圾信息的关键词,可在短时间内将海量文本消息中使用频率较高的新发现词自动筛选出,不需要人为从大量文本消息中筛选词汇,提高文本消息的处理效率。
图2为本发明实施例提供的文本消息的处理方法实施例二的流程图,在上述实施例的基础上,如图2所示,S102的具体实现步骤包括:
S1021:遍历判断每个潜在词的使用频次是否大于预设阈值,凝固度是否大于预设阈值,自由度是否大于预设阈值。
S1022:当存在第一潜在词的使用频次、凝固度以及自由度均大于对应的阈值时,则将所述第一潜在词将入所述新词库。
在上述步骤中,对于潜在词的筛选的具体方式为:判断每个潜在词的使用频次是否大于预设的阈值,凝固度是否大于预设阈值,自由度是否大于预设阈值,在每个参数均大于阈值时候将该潜在词加入新词库。该方案中,不限定先判断哪个参数是否大于阈值,可根据实际应用进行调整。
本实施例提供的文本消息的处理方法,对潜在词的筛选方式主要是通过频次、凝固度和自由度三个参数筛选能够加入新词库的第一潜在词,提高了筛选到的作为备选关键词的精确度。
图3为本发明实施例提供的文本消息的处理方法实施例三的流程图,在上述两个实施例的基础上,如图3所示,上述方案中S101的具体实现为:
S1011:采用文本分析技术将海量文本消息中的长度小于设定阈值的子串建立索引,并从所述索引中提取出潜在词。
在本步骤中,服务器或者终端在接收到海量文本消息时,可将文本消息中的长度小于阈值的子串建立索引,然后按照一定的规则进行过滤,或者结合上下文的含义,或者考虑上下文的含义从中提取出所有的潜在词,以便后续进行筛选得到关键词。
图4为本发明实施例提供的文本消息的处理方法实施例四的流程图,如图4所示,在上述任一实施例的基础上,在S103之前,该文本消息的处理方法还包括:
S1031:对新词库中的潜在词按照使用频次进行排序。
本步骤的含义为,服务器或者终端在将筛选后的潜在词加入到新词库之后,可对新词库中的所有词进行排序,一般情况下课按照每个词的使用频次由高到低或者由低到高的顺序进行排序,以便后续工作人员在筛选的时候能够按照词的使用频率按照顺序快速筛选,优先确定出其中出现频率较高的恶意词语加入关键词库中,对文本消息进行匹配处理,进一步提高对文本消息的处理效率。
在上述任一实施例的基础上,本发明实施例提供的文本消息的处理方法使用新词发现的方案,可应用在即时通讯软件中对垃圾文本消息进行治理的方案中,在短时间周期内(例如:15分钟、30分钟或者1小时等)内即时给出海量文本消息中使用量激增的新词,并按照上述方案加入新词库后,按照频次进行排序,经过人工简单筛选得到关键词,然后根据关键词匹配找到恶意用户,一种具体的实现方案中,在从海量文本消息中取出潜在词之后,优先判断每个潜在词的出现频次是否大于阈值,若否则对下一个潜在词进行判断;若是,则继续判断该潜在词的凝固度是否大于设定阈值;若该潜在词的凝固度小于阈值,则对下一个潜在词进行频次的判断。若该潜在词的凝固度也大于阈值,则继续判断该潜在词的自由度是否大于阈值,若该潜在词的自由度也大于阈值,则将其加入新词库,否则继续对下一个潜在词按照频次、凝固度以及自由度的顺序进行判断。加入新词库之后,对新词库中的词按照使用频次进行排序,然后进行人工筛选出关键词加入关键词库,以便后续能够根据关键词匹配找到恶意用户。
图5为本发明实施例提供的文本消息的处理方法实施例五的流程图,如图5所示,在上述任一实施例的基础上,本发明实施例提供的文本消息的处理方法还包括:
S104:将得到的关键词加入关键词库。
S105:采用所述关键词库对接收到的文本消息进行识别处理。
上述步骤中,在筛选出关键词之后,可将筛选出的关键词加入关键词库中,然后根据关键词库中的关键词对接收到的文本消息进行识别处理,查找出其中的恶意用户以及恶意消息。
本发明实施例提供的文本消息的处理方法,大幅度提升传统匹配关键词法的词库更新频率,减少对人工审核的依赖,能够在端周期内快速响应“大规模”灌水等即时通讯的线上问题,且能较好的使用垃圾消息的各种变形,配合少量审核的工作量即可在垃圾消息泛滥前提供治理能力。
图6为本发明实施例提供的文本消息的处理装置实施例一的结构示意图,如图6所示,该文本消息的处理装置10包括:
第一处理模块11,用于通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词;
第二处理模块12,用于将所述至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库;其中,所述新词库条件为:词的使用频次、凝固度以及自由度均大于对应的阈值;
第三处理模块13,用于对新词库中的所有潜在词进行筛选得到垃圾信息的关键词。
本实施例提供的文本消息的处理装置,用于执行前述方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
图7为本发明实施例提供的文本消息的处理装置实施例二的结构示意图,如图7所示,在上述实施例一的基础上,所述第二处理模块12包括:
判断子模块121,用于遍历判断每个潜在词的使用频次是否大于预设阈值,凝固度是否大于预设阈值,自由度是否大于预设阈值;
处理子模块122,用于当存在第一潜在词的使用频次、凝固度以及自由度均大于对应的阈值时,则将所述第一潜在词将入所述新词库。
在上述文本消息的处理装置10的具体实现中,所述第一处理模块11具体用于采用文本分析技术将海量文本消息中的长度小于设定阈值的子串建立索引,并从所述索引中提取出潜在词。
可选的,所述对新词库中的所有潜在词进行筛选得到垃圾信息的关键词之前,所述第三处理模块13还用于对新词库中的潜在词按照使用频次进行排序。
本实施例提供的文本消息的处理装置,用于执行前述方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
图8为本发明实施例提供的文本消息的处理装置实施例三的结构示意图,如图8所示,在上述两个实施例的基础上,该文本消息的处理装置10还包括:
第四处理模块14,用于将得到的关键词加入关键词库。
可选的,第四处理模块14还用于采用所述关键词库对接收到的文本消息进行识别处理。
本实施例提供的文本消息的处理装置,用于执行前述方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
本发明实施例还提供一种服务器或者终端,一般情况下对于网页或者海量文本消息中的垃圾文本进行处理均由服务器或者云端服务器等来实现,但是随着终端的飞速发展,该文本消息的处理方案在终端侧也可以进行实现。该服务器或者终端包括:存储器和处理器;处理器的数量为至少一个。
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现前述任一实施例提供的文本消息的处理方法。可选的,存储器还可以集成在处理器内部。
本发明实施例还提供一种存储介质,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现前述任一实施例提供的文本消息的处理方法。
本发明实施例还提供一种程序产品,该程序产品包括计算机指令(即计算机程序),该计算机指令存储在可读存储介质中。服务器或者终端的至少一个处理器可以从可读存储介质读取该计算机指令,至少一个处理器执行该计算机指令使得服务器或者终端实施前述任一实施例提供的文本消息的处理方法。
在上述服务器的具体实现中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetictape)、软盘(英文:floppy disk)、光盘(英文:optical disc)及其任意组合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种文本消息的处理方法,其特征在于,包括:
通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词;
将所述至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库;其中,所述新词库条件为:词的使用频次、凝固度以及自由度均大于对应的阈值;
对新词库中的所有潜在词进行筛选得到垃圾信息的关键词。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库,包括:
遍历判断每个潜在词的使用频次是否大于预设阈值,凝固度是否大于预设阈值,自由度是否大于预设阈值;
当存在第一潜在词的使用频次、凝固度以及自由度均大于对应的阈值时,则将所述第一潜在词将入所述新词库。
3.根据权利要求1所述的方法,其特征在于,所述通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词,包括:
采用文本分析技术将海量文本消息中的长度小于设定阈值的子串建立索引,并从所述索引中提取出潜在词。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述对新词库中的所有潜在词进行筛选得到垃圾信息的关键词之前,所述方法还包括:
对新词库中的潜在词按照使用频次进行排序。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
将得到的关键词加入关键词库;
采用所述关键词库对接收到的文本消息进行识别处理。
6.一种文本消息的处理装置,其特征在于,包括:
第一处理模块,用于通过文本分析技术获取接收到的海量文本消息中的至少一个潜在词;
第二处理模块,用于将所述至少一个潜在词中满足预设的新词库条件的至少一个第一潜在词加入新词库;其中,所述新词库条件为:词的使用频次、凝固度以及自由度均大于对应的阈值;
第三处理模块,用于对新词库中的所有潜在词进行筛选得到垃圾信息的关键词。
7.根据权利要求6所述的装置,其特征在于,所述第二处理模块包括:
判断子模块,用于遍历判断每个潜在词的使用频次是否大于预设阈值,凝固度是否大于预设阈值,自由度是否大于预设阈值;
处理子模块,用于当存在第一潜在词的使用频次、凝固度以及自由度均大于对应的阈值时,则将所述第一潜在词将入所述新词库。
8.根据权利要求6所述的装置,其特征在于,所述第一处理模块具体用于采用文本分析技术将海量文本消息中的长度小于设定阈值的子串建立索引,并从所述索引中提取出潜在词。
9.根据权利要求6至8任一项所述的装置,其特征在于,所述对新词库中的所有潜在词进行筛选得到垃圾信息的关键词之前,所述第三处理模块还用于对新词库中的潜在词按照使用频次进行排序。
10.根据权利要求6至8任一项所述的装置,其特征在于,所述装置还包括:第四处理模块,用于:
将得到的关键词加入关键词库;
采用所述关键词库对接收到的文本消息进行识别处理。
11.一种服务器,其特征在于,包括:存储器和处理器;
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现权利要求1至5任一项所述的文本消息的处理方法。
12.一种存储介质,其特征在于,包括:可读存储介质和计算机指令,所述计算机指令存储在所述可读存储介质中;所述计算机指令用于实现权利要求1至5任一项所述的文本消息的处理方法。
CN201711478585.8A 2017-12-29 2017-12-29 文本消息的处理方法、装置和服务器 Pending CN108319582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711478585.8A CN108319582A (zh) 2017-12-29 2017-12-29 文本消息的处理方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711478585.8A CN108319582A (zh) 2017-12-29 2017-12-29 文本消息的处理方法、装置和服务器

Publications (1)

Publication Number Publication Date
CN108319582A true CN108319582A (zh) 2018-07-24

Family

ID=62893486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711478585.8A Pending CN108319582A (zh) 2017-12-29 2017-12-29 文本消息的处理方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN108319582A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020422A (zh) * 2018-11-26 2019-07-16 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN111309898A (zh) * 2018-11-26 2020-06-19 中移(杭州)信息技术有限公司 一种用于新词发现的文本挖掘方法及装置
CN112329458A (zh) * 2020-05-21 2021-02-05 北京明亿科技有限公司 新组织描述词识别方法与装置、电子设备及存储介质
CN113537944A (zh) * 2021-08-02 2021-10-22 北京明略软件系统有限公司 用于生成业务指令的方法及装置、电子设备、可读存储介质
CN116306621A (zh) * 2023-05-24 2023-06-23 北京拓普丰联信息科技股份有限公司 一种招标文本的违规检测方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216564A1 (en) * 2004-03-11 2005-09-29 Myers Gregory K Method and apparatus for analysis of electronic communications containing imagery
CN102096703A (zh) * 2010-12-29 2011-06-15 北京新媒传信科技有限公司 短消息的过滤方法和设备
CN104038412A (zh) * 2014-06-27 2014-09-10 小米科技有限责任公司 过滤垃圾消息的方法及装置
CN104484330A (zh) * 2014-10-31 2015-04-01 浙江工商大学 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
CN105630890A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216564A1 (en) * 2004-03-11 2005-09-29 Myers Gregory K Method and apparatus for analysis of electronic communications containing imagery
CN102096703A (zh) * 2010-12-29 2011-06-15 北京新媒传信科技有限公司 短消息的过滤方法和设备
CN104038412A (zh) * 2014-06-27 2014-09-10 小米科技有限责任公司 过滤垃圾消息的方法及装置
CN104484330A (zh) * 2014-10-31 2015-04-01 浙江工商大学 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
CN105630890A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN106909669A (zh) * 2017-02-28 2017-06-30 北京时间股份有限公司 一种推广信息的检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴宁宁等: "垃圾短信实时监控过滤系统", 《科技通报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020422A (zh) * 2018-11-26 2019-07-16 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN111309898A (zh) * 2018-11-26 2020-06-19 中移(杭州)信息技术有限公司 一种用于新词发现的文本挖掘方法及装置
US11544459B2 (en) 2018-11-26 2023-01-03 Advanced New Technologies Co., Ltd. Method and apparatus for determining feature words and server
CN112329458A (zh) * 2020-05-21 2021-02-05 北京明亿科技有限公司 新组织描述词识别方法与装置、电子设备及存储介质
CN113537944A (zh) * 2021-08-02 2021-10-22 北京明略软件系统有限公司 用于生成业务指令的方法及装置、电子设备、可读存储介质
CN116306621A (zh) * 2023-05-24 2023-06-23 北京拓普丰联信息科技股份有限公司 一种招标文本的违规检测方法、装置及电子设备
CN116306621B (zh) * 2023-05-24 2023-08-04 北京拓普丰联信息科技股份有限公司 一种招标文本的违规检测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN108319582A (zh) 文本消息的处理方法、装置和服务器
CN105574098B (zh) 知识图谱的生成方法及装置、实体对比方法及装置
CN104717124B (zh) 一种好友推荐方法、装置及服务器
CN109065051B (zh) 一种语音识别处理方法及装置
CN108833720B (zh) 诈骗电话号码识别方法与系统
CN108897732B (zh) 语句类型识别方法和装置、存储介质及电子装置
CN109600336A (zh) 存储设备、验证码应用方法和装置
CN106302534B (zh) 一种检测和处理非法用户的方法及系统
CN110287688A (zh) 关联账号分析方法、装置和计算机可读存储介质
CN109949830B (zh) 用户意图识别方法及设备
CN110046297B (zh) 运维违规操作的识别方法、装置和存储介质
CN109634994A (zh) 一种简历与职位的匹配推送方法及计算机设备和存储介质
CN110445939B (zh) 容量资源的预测方法及装置
CN113707173B (zh) 基于音频切分的语音分离方法、装置、设备及存储介质
CN105991593A (zh) 一种识别用户风险的方法及装置
CN112667750A (zh) 一种报文类别的确定、识别方法及装置
CN107612730A (zh) 一种日志采集分析方法、装置以及系统
CN109003600B (zh) 消息处理方法及装置
CN109993044A (zh) 电信诈骗识别系统、方法、装置、电子设备及存储介质
CN113705535A (zh) 帮助老年人使用atm交易方法、相关装置及存储介质
CN104883705B (zh) 一种数据业务投诉的问题定位方法及装置
CN111738078A (zh) 一种人脸识别方法和装置
CN109376224A (zh) 语料过滤方法与装置
CN109788365A (zh) 一种页面弹幕的过滤方法及系统
CN111325422A (zh) 一种工单派发方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180724

RJ01 Rejection of invention patent application after publication