CN104376304B - 一种文本广告图像的识别方法及装置 - Google Patents

一种文本广告图像的识别方法及装置 Download PDF

Info

Publication number
CN104376304B
CN104376304B CN201410658664.7A CN201410658664A CN104376304B CN 104376304 B CN104376304 B CN 104376304B CN 201410658664 A CN201410658664 A CN 201410658664A CN 104376304 B CN104376304 B CN 104376304B
Authority
CN
China
Prior art keywords
string
character
image
contact details
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410658664.7A
Other languages
English (en)
Other versions
CN104376304A (zh
Inventor
刘洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201410658664.7A priority Critical patent/CN104376304B/zh
Publication of CN104376304A publication Critical patent/CN104376304A/zh
Application granted granted Critical
Publication of CN104376304B publication Critical patent/CN104376304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本申请公开了一种文本广告图像的识别方法,以解决按照现有技术难以有效识别文本广告图像的问题。方法包括:确定图像中的包含联系信息的字符串;根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像。本申请还公开一种文本广告图像的识别装置。

Description

一种文本广告图像的识别方法及装置
技术领域
本申请涉及信息过滤技术,尤其涉及一种文本广告图像的识别方法及装置。
背景技术
近年来,针对垃圾邮件数量的急剧增长,研究人员已经提出了众多垃圾邮件检测方法。这些方法大多是基于文本内容的检测方法,如语义分析、文本聚类以及贝叶斯分类等方法。
为了逃避基于文本内容的反垃圾邮件系统的检测,垃圾邮件制造者采用了一种新的技术,即,将广告信息嵌入图像形成文本广告图像,从而传播带有文本广告图像的图像型垃圾邮件。
相比文本型垃圾邮件,图像型垃圾邮件会消耗更多带宽和存储资源,因此,图像型垃圾邮件爆发,给邮件系统带来了极大的负面影响。
由于文本广告图像的特点是图像中嵌入有大量的文字信息,因此,有研究人员提出利用光学字符识别(Optical Character Recognition,OCR)识别图像中的关键词,如“发票”或“开票”等;然后,若识别出的关键词在该图像中的出现频率高于一定阈值时,则确定该图像是文本广告图像,进而确定包含该图像的邮件是垃圾邮件。
上述识别方式存在的缺陷在于:
文本广告图像的制造者为了避免图像被识别出是文本广告图像,往往会对一些关键词进行处理,比如故意将关键词中的某个字写成错别字。针对这样的文本广告图像,采用OCR很难有效识别出文本广告图像。
发明内容
本申请实施例提供一种文本广告图像的识别方法,用于解决按照现有技术难以有效识别文本广告图像的问题。
本申请实施例还提供一种文本广告图像的识别装置,用于解决按照现有技术难以有效识别文本广告图像的问题。
一种文本广告图像的识别方法,包括:
确定图像中包含联系信息的字符串;根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像。
一种文本广告图像的识别装置,包括:确定单元,用于确定图像中包含联系信息的字符串;判断单元,用于根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像。
本申请实施例提供的上述至少一个方案能达到下述效果:
由于文本广告图像中往往会包含联系信息,而联系信息一般不会被文本广告图像制造者更改,或者仅会按照已知方式更改,因此以图像中包含联系信息的字符串的总数量作为判定图像是否为文本广告图像的依据,可以实现对文本广告图像的有效识别。
附图说明
图1为本申请实施例提供的文本广告图像的识别方法流程图;
图2为本申请实施例提供的文本广告图像的识别方法的实际应用流程图;
图3为本申请实施例提供的一种文本广告图像的识别装置结构示意图;
图4为本申请实施例提供的另一种文本广告图像的识别设备结构示意图。
具体实施方式
为了解决按照现有技术难以有效识别文本广告图像的问题,本申请实施例首先提供一种文本广告图像的识别方法,该方法的具体实现流程图如图1所示,包括下述步骤:
步骤S101、确定图像中包含联系信息的字符串。
这里所说的联系信息可以包括但不限于:手机号、电子邮箱地址、社交工具账号(如QQ号码或MSN账号等)等等。
步骤S102、根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像。
在一种实施方式中,若图像中包含联系信息的字符串的总数量处于设定的数量范围,则判定图像为文本广告图像;否则,判定图像不是文本广告图像。
由于文本广告图像中通常包含联系信息,且为了便于获得该文本广告图像的人能够联系到该图像的制造者,该联系方式往往不会被更改,或者仅会按照一些特定的方式更改(比如往电话号码包含的不同数字之间插入一些字符),因此,本申请实施例提供的该方法考虑可以利用这一特点,实现对文本广告图像的有效识别。
以下进一步对上述方法包含的各步骤进行详细说明:
针对步骤S101而言,在一种实施方式中,确定图像中包含联系信息的字符串,可以通过如下方法进行:
确定图像中的每个字符所属类别;
根据每个字符所属类别和字符在图像中的排列顺序,确定归属于同一包含联系信息的第一个字符和最后一个字符;
根据确定出的归属于同一包含联系信息的字符串的第一个字符和最后一个字符,确定图像中包含联系信息的字符串。
具体的,在确定图像中的每个字符所属类别时,可以逐个判断图像中的每个字符是否为联系信息(比如可以判断字符是否为数字),如果是,则获取该字符,否则,继续判断下一字符。
本申请实施例中所说的类别可以有“联系信息”和“非联系信息”这两种。举例来说,数字和字母所属类别一般为“联系信息”;而汉字所属类别则一般为“非联系信息”。
在一种实施方式中,可以采用OCR技术来进行字符识别。基于识别出的字符,可以进一步确定出其所属类别。
为了较好的区分不同类别的字符串,避免文本广告图像制作者在包含联系信息的字符串中增加的属于“非联系信息”的字符构成识别干扰,进而提高文本广告图像的识别准确度,在一种实施方式中,根据每个字符所属类别和字符在图像中的排列顺序,确定归属于同一包含联系信息的第一个字符和最后一个字符的具体实现方式包括:
对于每个字符,若确定该字符属于“联系信息”(为便于描述,下文也直接将属于“联系信息”这一类别的字符称为联系信息),则在确定该字符为图像中的第一个联系信息,或者为前一字符串的最后一个字符后的第一个联系信息时,确定该字符为单个包含联系信息的字符串的第一个字符。进一步地,在确定该字符后特定个数的字符中包括联系信息时,确定该字符不是当前包含联系信息的字符串的最后一个字符,否则,确定该字符是当前包含联系信息的字符串的最后一个字符。
例如,若特定个数为3,则两个联系信息中间间隔的其它类别字符个数小于3个时,确定这两个联系信息属于同一包含联系信息的字符串;否则,确定这两个联系信息不属于同一包含联系信息的字符串。
在一种实施方式中,为了避免利用本申请实施例提供的方法对非文本广告图像进行判定而浪费处理资源,还可以在进行文本广告图像识别之前,先对图像进行筛选。也就是说,在步骤S101“确定图像中包含联系信息的字符串”之前,该方法还需包括“判定图像大小小于设定的字节数阈值”的步骤。具体而言,由于通常文本广告图像只包含文字,且需要快速传播,其大小比较小,一般为几十或者上百Kb。所以可以通过图像大小来进行筛选,即:可以仅对图像大小小于设定的字节数阈值的图像执行本申请提供的上述方法;而对于图像大小大于设定的字节数阈值的图像,则可以直接确定其不是文本广告图像。
该设定的字节数阈值可以由本领域技术人员根据经验特定,通常可以处于300K~1M这一范围。
由于通常文本广告图像中所携带的联系方式中,数字的形式比较常见,所以包含联系信息的字符串可以具体为:数字串,即由数字字符构成的字符串。
对于手机号、社交工具账号等数字串,其长度、非零数字的比例均有一定的规律,如果长度过长或过短,则很可能不是手机号或社交工具账号,如果非零数字的比例比较小,也就是数字串中的0比较多,则也很可能不是手机号或社交工具账号。
基于作为联系信息的数字串的上述特点,在一种实施方式中,步骤S102的具体实现方式可以包括:
确定图像中的所有数字串作为候选数字串;
根据各候选数字串的长度和/或各候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中选取有效的数字串作为包含联系信息的字符串。
在一种实施方式中,根据各候选数字串的长度和/或各候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中选取有效的数字串作为包含联系信息的字符串,可以包括:
根据各候选数字串的长度,从确定出的候选数字串中,选取字符串长度在设定的长度范围内的候选字符串作为包含联系信息的字符串;或
根据候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中,选取该占比大于占比阈值的候选字符串作为包含联系信息的字符串;或
根据各候选数字串的长度,以及候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中,选取字符串长度在设定的长度范围内,且该占比大于占比阈值的候选字符串作为包含联系信息的字符串。
本申请实施例中,设定的长度范围和占比阈值可以根据经验值来设置。比如,设定的长度范围可以但不限于为[2,10]、[2,15]、[5、20]等,而占比阈值可以为[0.3,0.7]这一范围内的任何值。
以下结合实际,说明本申请实施例提供的文本广告图像的识别方法的具体应用流程。
请参见说明书附图2,其为本申请实施例提供的文本广告图像的识别方法的实际应用流程示意图,该流程包括:
步骤S201、判断图像大小是否小于设定的字节数阈值;若是,则执行步骤S202,否则结束流程;
步骤S202、判断当前图像中识别出的字符(简称当前字符)是否为数字,如果否,执行步骤S207,如果是,则执行步骤S203;
步骤S203、判断紧邻当前字符且排列在当前字符之后的3个字符中,是否有数字,如果是,执行步骤S204,否则执行步骤S205;
步骤S204、保存当前字符,并在获取到下一数字字符后,以该下一数字字符作为当前字符,执行步骤S203;
步骤S205、保存当前字符并将当前字符确定为其所属的字符串中的最后一个字符;
步骤S206、判断当前字符是否为图像中的最后一个字符,如果是,执行步骤S208,否则,继续执行步骤S207;
步骤S207、获取下一字符作为当前字符,并执行步骤S202;
步骤S208、筛选出长度在[6,15]范围内,且非零数字比例大于0.5的数字串为有效的数字串;
步骤S209、当有效的数字串的数量为1~4个时,确定该图像为文本广告图像。
本申请实施例还相应提供一种文本广告图像的识别装置,用于解决按照现有技术难以有效识别文本广告图像的问题。如图3所示,该装置包括:
确定单元301,用于确定图像中包含联系信息的字符串;
判断单元302,用于根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像。
由本申请实施例提供的上述装置可知,由于文本广告图像中往往会包含联系信息,而联系信息一般不会被文本广告图像制造者更改,或者仅会按照已知方式,因此以图像中包含联系信息的字符串的总数量作为判定图像是否为文本广告图像的依据,可以实现对文本广告图像的有效识别。
在一种实施方式中,确定单元301可以用于:
确定图像中的每个字符所属类别;
根据每个字符所属类别和字符在图像中的排列顺序,确定归属于同一包含联系信息的字符串的第一个字符和最后一个字符;
根据归属于同一包含联系信息的字符串的第一个字符和最后一个字符,以及位于第一个字符和最后一个字符之间的其他字符,确定包含联系信息的字符串。
在一种实施方式中,确定单元301还用于:确定图像中包含联系信息的字符串前,确定图像大小小于设定的字节数阈值。
在一种实施方式中,判断单元302具体可以用于:当图像中包含联系信息的字符串的总数量处于设定的数量范围内时,判断图像为文本广告图像;当该总数量处于设定的数量范围外时,判断图像不是文本广告图像。
在一种实施方式中,当包含联系信息的字符串为有效的数字串时,确定单元301可以用于:
确定图像中的所有数字串作为候选数字串;
根据各候选数字串的长度和/或各候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中选取有效的数字串作为包含联系信息的字符串。
在一种实施方式中,确定单元301具体可以用于:
根据各候选数字串的长度,从确定出的候选数字串中,选取字符串长度在设定的长度范围内的候选字符串作为包含联系信息的字符串;或者
根据各候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中,选取该占比大于占比阈值的候选字符串作为包含联系信息的字符串;或者
根据各候选数字串的长度,以及各候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中,选取字符串长度在设定的长度范围内,且该占比大于占比阈值的候选字符串作为包含联系信息的字符串。
如图4所示,本申请实施例还提供一种文本广告图像的识别设备,包括:
存储器401,用于存储图像;
处理器402,用于确定图像中包含联系信息的字符串,根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像。
其中,处理器402还可以用于实现本申请实施例提供的文本广告图像的识别方法中的其它功能,此处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种文本广告图像的识别方法,其特征在于,包括:
确定图像中包含联系信息的字符串;所述联系信息包括:手机号、电子邮箱地址和社交工具账号中的一种或多种;
根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像;
其中,所述根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像,具体包括:
当所述总数量处于设定的数量范围内时,判断图像为文本广告图像;
当所述总数量处于设定的数量范围外时,判断图像不是文本广告图像。
2.如权利要求1所述的方法,其特征在于,确定图像中包含联系信息的字符串,包括:
确定图像中的每个字符所属类别;
根据每个字符所属类别和字符在图像中的排列顺序,确定归属于同一包含联系信息的字符串的第一个字符和最后一个字符;
根据归属于同一包含联系信息的字符串的第一个字符和最后一个字符,确定图像中包含联系信息的字符串。
3.如权利要求1~2任一权项所述的方法,其特征在于,所述包含联系信息的字符串为有效的数字串,以及所述确定图像中包含联系信息的字符串,具体包括:
确定图像中的所有数字串作为候选数字串;
根据各候选数字串的长度和/或各候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中选取有效的数字串作为包含联系信息的字符串。
4.如权利要求3所述的方法,其特征在于,所述根据各候选数字串的长度和/或各候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中选取有效的数字串作为包含联系信息的字符串,具体包括:
根据各候选数字串的长度,从确定出的候选数字串中,选取字符串长度在设定的长度范围内的候选字符串作为包含联系信息的字符串;或者
根据所述占比,从确定出的候选数字串中,选取所述占比大于占比阈值的候选字符串作为包含联系信息的字符串;或者
根据各候选数字串的长度以及所述占比,从确定出的候选数字串中,选取字符串长度在设定的长度范围内,且所述占比大于占比阈值的候选字符串作为包含联系信息的字符串。
5.一种文本广告图像的识别装置,其特征在于,包括:
确定单元,用于确定图像中包含联系信息的字符串;
判断单元,用于根据图像中包含联系信息的字符串的总数量,判断图像是否为文本广告图像;
其中,所述判断单元,具体用于:
当所述总数量处于设定的数量范围内时,判断图像为文本广告图像;
当所述总数量处于设定的数量范围外时,判断图像不是文本广告图像。
6.如权利要求5所述的装置,其特征在于,所述确定单元具体用于:
确定图像中的每个字符所属类别;
根据每个字符所属类别和字符在图像中的排列顺序,确定归属于同一包含联系信息的字符串的第一个字符和最后一个字符;
根据归属于同一包含联系信息的字符串的第一个字符和最后一个字符,以及位于第一个字符和最后一个字符之间的其他字符,确定包含联系信息的字符串。
7.如权利要求5~6任一权项所述的装置,其特征在于,所述包含联系信息的字符串为有效的数字串,以及所述确定单元具体用于:
确定图像中的所有数字串作为候选数字串;
根据各候选数字串的长度和/或各候选数字串中非零数字在相应的候选数字串包含的所有数字中的占比,从确定出的候选数字串中选取有效的数字串作为包含联系信息的字符串。
8.如权利要求7所述的装置,其特征在于,所述确定单元具体用于:
根据各候选数字串的长度,从确定出的候选数字串中,选取字符串长度在设定的长度范围内的候选字符串作为包含联系信息的字符串;或者
根据所述占比,从确定出的候选数字串中,选取所述占比大于占比阈值的候选字符串作为包含联系信息的字符串;或者
根据各候选数字串的长度以及所述占比,从确定出的候选数字串中,选取字符串长度在设定的长度范围内,且所述占比大于占比阈值的候选字符串作为包含联系信息的字符串。
CN201410658664.7A 2014-11-18 2014-11-18 一种文本广告图像的识别方法及装置 Active CN104376304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410658664.7A CN104376304B (zh) 2014-11-18 2014-11-18 一种文本广告图像的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410658664.7A CN104376304B (zh) 2014-11-18 2014-11-18 一种文本广告图像的识别方法及装置

Publications (2)

Publication Number Publication Date
CN104376304A CN104376304A (zh) 2015-02-25
CN104376304B true CN104376304B (zh) 2018-07-17

Family

ID=52555202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410658664.7A Active CN104376304B (zh) 2014-11-18 2014-11-18 一种文本广告图像的识别方法及装置

Country Status (1)

Country Link
CN (1) CN104376304B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384111B (zh) * 2016-08-30 2020-03-31 五八同城信息技术有限公司 图片检测方法和装置
CN108399161A (zh) * 2018-03-06 2018-08-14 平安科技(深圳)有限公司 广告图片鉴定方法、电子装置及可读存储介质
CN110266888B (zh) * 2019-06-25 2021-08-03 努比亚技术有限公司 利用图像识别获取角标数目的方法、移动设备和存储介质
CN111291794A (zh) * 2020-01-21 2020-06-16 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101282310A (zh) * 2008-05-23 2008-10-08 华东师范大学 一种反图片垃圾邮件的方法及装置
CN101887523A (zh) * 2010-06-21 2010-11-17 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法
CN103078984A (zh) * 2011-10-25 2013-05-01 上海博路信息技术有限公司 一种基于ocr的拨号方法
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140030361A (ko) * 2012-08-27 2014-03-12 삼성전자주식회사 휴대단말기의 문자 인식장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101282310A (zh) * 2008-05-23 2008-10-08 华东师范大学 一种反图片垃圾邮件的方法及装置
CN101887523A (zh) * 2010-06-21 2010-11-17 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN103078984A (zh) * 2011-10-25 2013-05-01 上海博路信息技术有限公司 一种基于ocr的拨号方法
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备

Also Published As

Publication number Publication date
CN104376304A (zh) 2015-02-25

Similar Documents

Publication Publication Date Title
US10516638B2 (en) Techniques to select and prioritize application of junk email filtering rules
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
US8688690B2 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
JP6991163B2 (ja) 情報をプッシュする方法及びデバイス
CN102592210B (zh) 信息提示的方法、装置和终端设备
US9323839B2 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
CN104714938B (zh) 一种信息处理的方法及电子设备
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
CN104376304B (zh) 一种文本广告图像的识别方法及装置
CN108509569A (zh) 企业画像的生成方法、装置、电子设备以及存储介质
CN103218363B (zh) 信息处理方法及装置
CN112487149B (zh) 一种文本审核方法、模型、设备及存储介质
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN103617146B (zh) 一种基于硬件资源消耗的机器学习方法及装置
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN106095747A (zh) 一种垃圾短信的识别方法和系统
US11010687B2 (en) Detecting abusive language using character N-gram features
CN112905753A (zh) 一种判别文本信息的方法和装置
CN106126496B (zh) 一种信息分词方法及装置
CN107992473B (zh) 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN113904943A (zh) 账号检测方法、装置、电子设备和存储介质
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN106358220A (zh) 异常联系人信息的检测方法、装置及系统
CN113051396B (zh) 文档的分类识别方法、装置和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230309

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.

TR01 Transfer of patent right