CN108399161A - 广告图片鉴定方法、电子装置及可读存储介质 - Google Patents

广告图片鉴定方法、电子装置及可读存储介质 Download PDF

Info

Publication number
CN108399161A
CN108399161A CN201810183371.6A CN201810183371A CN108399161A CN 108399161 A CN108399161 A CN 108399161A CN 201810183371 A CN201810183371 A CN 201810183371A CN 108399161 A CN108399161 A CN 108399161A
Authority
CN
China
Prior art keywords
picture
analyzed
font
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810183371.6A
Other languages
English (en)
Inventor
宋杰
郑佳
赵骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810183371.6A priority Critical patent/CN108399161A/zh
Priority to PCT/CN2018/089720 priority patent/WO2019169769A1/zh
Publication of CN108399161A publication Critical patent/CN108399161A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Multimedia (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种广告图片鉴定方法、电子装置及可读存储介质,该方法包括:对待分析图片进行光学字符识别,识别出文字;对识别出的文字进行分词;将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与广告关键词库中广告关键词相匹配的分词;根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;识别出待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;根据关键字匹配评分、字体评分,利用预设规则判断待分析图片是否为广告图片。本发明能准确有效地判断待分析图片是否为广告图片。而且,无需人工进行检测,能自动进行广告图片的鉴定,有效提高检测效率。

Description

广告图片鉴定方法、电子装置及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种广告图片鉴定方法、电子装置及可读存储介质。
背景技术
目前,对于大型互联网金融企业,在各种业务流程中会涉及到大量业务图片,而业务图片中有可能会夹杂各种广告图片,这些广告图片中包含各种广告信息、垃圾信息等,会干扰正常的业务处理,必须有效鉴定并剔除。传统的鉴定广告图片的方式是由人工对大量业务图片进行逐一审核以筛选出其中的广告图片,这种人工检测成本高,且比较耗时,效率较低。
发明内容
本发明的目的在于提供一种广告图片鉴定方法、电子装置及可读存储介质,旨在提高鉴定广告图片的效率。
为实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的广告图片鉴定系统,所述广告图片鉴定系统被所述处理器执行时实现如下步骤:
在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字;
对识别出的文字进行分词处理;
将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;
识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;
根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。
优选地,所述识别出所述待分析图片中各个文字的不同字体大小包括:
对所述待分析图片进行高斯模糊处理,画出经高斯模糊处理后的待分析图片的峰值分布图,按阶梯分布抽取不同层级的峰值分布图;将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体;
所述预设字体评分规则包括:
为所述待分析图片中的各个字符按字体大小设置对应的字体评分,其中,较大字体的字符对应的字体评分大于较小字体的字符对应的字体评分。
优选地,所述处理器还用于执行所述广告图片鉴定系统,以实现以下步骤:
对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;
将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;
为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。
优选地,所述预设匹配评分规则包括:
若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词为预设高危级别广告词,则直接判断所述待分析图片是广告图片;
若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词不是预设高危级别广告词,则:
若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;
若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇;
若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分;
其中,所述第一关键字匹配评分大于所述第二关键字匹配评分,所述第二关键字匹配评分大于所述第三关键字匹配评分。
此外,为实现上述目的,本发明还提供一种广告图片鉴定方法,所述广告图片鉴定方法包括:
在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字;
对识别出的文字进行分词处理;
将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;
识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;
根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。
优选地,所述识别出所述待分析图片中各个文字的不同字体大小包括:
对所述待分析图片进行高斯模糊处理,画出经高斯模糊处理后的待分析图片的峰值分布图,按阶梯分布抽取不同层级的峰值分布图;将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体;
所述预设字体评分规则包括:
为所述待分析图片中的各个字符按字体大小设置对应的字体评分,其中,较大字体的字符对应的字体评分大于较小字体的字符对应的字体评分。
优选地,该方法还包括:
对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;
将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;
为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。
优选地,所述预设匹配评分规则包括:
若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词为预设高危级别广告词,则直接判断所述待分析图片是广告图片;
若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词不是预设高危级别广告词,则:
若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;
若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇;
若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分;
其中,所述第一关键字匹配评分大于所述第二关键字匹配评分,所述第二关键字匹配评分大于所述第三关键字匹配评分。
优选地,所述利用预设规则判断所述待分析图片是否为广告图片包括:
按照如下公式计算得到P值:
P=a1*P1+a2*P2+a3*P3
其中,P1为所述待分析图片中相匹配的分词的字体大小对应的字体评分,P2为所述待分析图片中相匹配的分词的字体色彩显著度对应的色彩显著度评分,P3为所述待分析图片中相匹配的分词对应的关键字匹配评分;a1、a2、a3为预先为字体评分P1,色彩显著度评分P2,以及关键字匹配评分P3设置的参数权重;
将计算得到的P值与预先设定的阈值进行比较,若P值大于预先设定的阈值,则判断所述待分析图片是广告图片。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有广告图片鉴定系统,所述广告图片鉴定系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的广告图片鉴定方法的步骤。
本发明提出的广告图片鉴定方法、系统及可读存储介质,通过对待分析图片进行光学字符识别出文字;对识别出的文字进行分词;将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;识别出各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。由于一般在图片中出现广告信息时,广告字体与其他正常文字会有所不同,本发明能将待分析图片中的各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,根据匹配情况分配对应的关键字匹配评分,并根据相匹配的分词的字体大小分配对应的字体评分,结合关键字匹配评分以及字体评分来进行综合鉴定,能更加准确有效地判断出所述待分析图片是否为包含广告信息的广告图片。而且,无需人工进行检测,能自动进行广告图片的鉴定,有效提高检测效率。
附图说明
图1为本发明广告图片鉴定系统10较佳实施例的运行环境示意图;
图2为本发明广告图片鉴定方法一实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种广告图片鉴定系统。请参阅图1,是本发明广告图片鉴定系统10较佳实施例的运行环境示意图。
在本实施例中,所述的广告图片鉴定系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11为至少一种类型的可读计算机存储介质,所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述广告图片鉴定系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述广告图片鉴定系统10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如待分析图片光学字符识别出的文字、对识别出文字的分词结果、待分析图片中与广告关键词库中广告关键词相匹配的分词(标记)、待分析图片是否为广告图片的最终鉴定结果等。所述电子装置1的部件11-13通过系统总线相互通信。
广告图片鉴定系统10包括至少一个存储在所述存储器11中的计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以实现本申请各实施例。
其中,上述广告图片鉴定系统10被所述处理器12执行时实现如下步骤:
步骤S1,在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字。
本实施例中,广告图片鉴定系统接收用户发出的包含待分析图片的广告图片鉴定请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的广告图片鉴定请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的广告图片鉴定请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的广告图片鉴定请求。
广告图片鉴定系统在收到用户发出的广告图片鉴定请求后,对广告图片鉴定请求中的待分析图片进行光学字符识别(Optical Character Recognition,简称OCR),即针对印刷体字符,采用光学的方式将文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式。
利用OCR对待分析图片进行字符识别,以识别出待分析图片中的文字。其中,本实施例在OCR识别过程中可实施生僻字匹配策略,由于广告信息中为了简单易懂便于宣传,一般较少会出现生僻字,因此,在对待分析图片的OCR识别过程中,若对其中一个文字进行字符识别时出现识别出的与该文字匹配的某生僻字匹配度高,但与该文字匹配的一些常见通用字匹配度低的情况,则判断为OCR识别出错,则将该文字与其周围字符组成词组进入OCR识别匹配的词库检测,当与某词组完成高匹配时,则识别该文字为匹配的词组中相应位置的常见通用字。这样,能提高后续对待分析图片中广告信息的识别精度。
还可对待分析图片中识别出的生僻字进行畸变检测,由于广告信息中有时会对文字进行一些特殊处理,导致该文字畸变,例如,在文字上面画圈、打叉、由广告字库拼装组成等等,可进行检测后去除这些特殊符合,还原文字本身,以便后续进行广告信息的匹配、识别操作。
在一种可选的实施方式中,还可对待分析图片进行二维码检测,一旦检测到待分析图片中含有二维码信息,则直接判定该待分析图片为广告图片,鉴定结束,无需进行后续操作。
步骤S2,对识别出的文字进行分词处理。
本实施例中,对OCR识别提取的文字进行预处理,如对于初步识别的特殊字符做剔除处理,对于字体大小一致且距离较近的字符进行去除换行符处理。对预处理后的文字进行分词。包括:a,从左向右取待切分语句的m个字符作为匹配字段,m为预设的机器词典中最长词条个数。b,将取出的m个字符在机器词典中查找并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。c,从右向左操作a和b进行分词处理。
进一步地,分词后还可进行二次处理,对连续的大写数字或英文做整体分词,并进行翻译处理,以便识别出利用连续数字或英文进行宣传的广告信息。
本实施例中分词时还可采用N元文法统计模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)来进行分词,分词算法可包括:正向最大匹配,反向最大匹配,双向最大匹配,最短路径算法。
步骤S3,将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分。
本实施例中,预先可建立广告关键词库,如:可按不同广告类别进行分类建立广告关键词库,如按照产品广告、品牌广告、观念广告、公益广告等分类建立关键词库。还可按不同级别对广告进行定级,如对于网络上流行的黄赌毒、诈骗类非法广告设定为高危级别,必须剔除;对于本业务系统相关的竞品和品牌广告设定为危险级别,对于普通商品广告等设定为普通级别。
利用建立的广告关键词库对待分析图片中的分词进行关键字匹配,并根据待分析图片中的分词与广告关键词库的匹配结果给予评分p3,具体定义的预设匹配评分规则包括:
a,精确包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;即匹配条件是待匹配词完全包含广告关键字库中的关键词时认为精确命中,p3记10分。
b,同义包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇。即匹配条件相比精确包含可以适当进行延伸,可扩展至关键词的同义词,近义词,相关词,以及包含关键词的短语,或包含部分字面顺序颠倒或有间隔,等。即匹配条件是待匹配词完全包含广告关键字库中关键词的变形形态(插入、颠倒、同义词、近义词、相关词),p3记8分。
c,核心包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分。即匹配条件是待匹配词包含广告关键字库中关键词的核心部分、关键词核心部分的变形(插入、颠倒、同义词、近义词、相关词),p3记6分。
在完成关键字匹配后,若待分析图片中的分词与广告关键字库中的关键字匹配(无论是精确包含、同义包含或核心包含),且匹配的关键字属于高危级别广告的字库,则直接认定该待分析图片中包含高危级别广告,需进行剔除,鉴定结束,无需进行后续操作。
若匹配的关键字不属于高危级别广告的字库,即属于危险级别和普通级别广告的字库,则可继续进行进一步语义分析。例如,可根据匹配的关键字的上下文意思、或多个关键字的组合判断待分析图片中是否包含广告信息或其广告类别、等级等。还可检测待分析图片中是否包含qq、微信、邮箱、网址、手机等直接联络方式信息,若包含有,则可直接认定待分析图片中包含广告信息,如非业务系统相关广告。具体地,检测是否包含直接联络方式信息的方法如下:当待分析图片中的字符包含连串数字时,检测后面是否有货币单位信息、计量单位信息等,若无则检测是否为电话号码形式。
步骤S4,识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分。
在对所述待分析图片利用光学字符识别OCR识别出所述待分析图片中的各个文字时,还可对识别出的各个文字进行字体大小分析,具体地,可对待分析图片先进行高斯模糊处理,如f'(x,y)=f(x,y)*g(x,y),其中g(x,y)=exp(-(x2+y2)/9),对f'(x,y)画出峰值分布图,按阶梯分布抽取不同层级的峰值分布图。即对待分析图片中各个字符的大体轮廓进行分析,区分出待分析图片中各个字符的不同字体大小。如可将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体。由于在实际应用中,若业务图片中夹杂有广告信息,则为了引人注目,广告信息一般会采用较大字体来展示。因此,本实施例中针对待分析图片中的字符字体给予字体评分p1,其中,较大字体的字符分配的字体评分高于较小字体的字符的字体评分。例如,较大字体的字符的p1=2,较小字体的字符的p1=1。
进一步地,在一种可选的实施方式中,还可对识别出的各个文字进行字体颜色分析,如对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。具体地,对于OCR检测出的字体,计算字体的色彩显著度,例如,当字体的drgb=([rgb(x,y-[rgb(s,t))^2大于某一特定阈值时认定该字体的色彩显著度高。在实际应用中,广告信息可能会通过提高色彩显著度来获得更好的宣传效果。因此,本实施例中针对待分析图片中的字符字体颜色给予色彩显著度评分p2,其中,色彩显著度高的字符分配的色彩显著度评分高于色彩显著度低的字符的色彩显著度评分。例如,色彩显著度高的字符的p2=1,色彩显著度低的字符的p1=0.5。
步骤S5,根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。
本实施例中,在利用预设规则判断所述待分析图片是否为广告图片时,可按照如下公式计算得到P值:
P=a1*P1+a2*P2+a3*P3
其中,P1为所述待分析图片中相匹配的分词的字体大小对应的字体评分,P2为所述待分析图片中相匹配的分词的字体色彩显著度对应的色彩显著度评分,P3为所述待分析图片中相匹配的分词对应的关键字匹配评分;a1、a2、a3为预先为字体评分P1,色彩显著度评分P2,以及关键字匹配评分P3设置的参数权重,例如,可设置a1=0.2,a2=0.1,a3=0.7。
预先设定一阈值,当计算得到的P值达到该阈值时,则判定待分析图片为包含广告信息的广告图片,并进行预警。此外,还可结合所述待分析图片中相匹配的分词的字体、颜色、关键字级别、关键字个数等来综合评估广告信息,并通过制定广告分类及广告级别可以对不同广告采取不同措施。
与现有技术相比,本实施例通过对待分析图片进行光学字符识别出文字;对识别出的文字进行分词;将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;识别出各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。由于一般在图片中出现广告信息时,广告字体与其他正常文字会有所不同,如字体大小或字体色彩显著度不同。本实施例能将待分析图片中的各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,根据匹配情况分配对应的关键字匹配评分,并根据相匹配的分词的字体大小分配对应的字体评分,根据相匹配的分词的字体色彩显著度设置对应的色彩显著度评分,最后,结合关键字匹配评分以及字体评分、色彩显著度评分来进行综合鉴定,能更加准确有效地判断出所述待分析图片是否为包含广告信息的广告图片。而且,无需人工进行检测,能自动进行广告图片的鉴定,有效提高检测效率。
如图2所示,图2为本发明广告图片鉴定方法一实施例的流程示意图,该广告图片鉴定方法包括以下步骤:
步骤S10,在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字。
本实施例中,广告图片鉴定系统接收用户发出的包含待分析图片的广告图片鉴定请求,例如,接收用户通过手机、平板电脑、自助终端设备等终端发送的广告图片鉴定请求,如接收用户在手机、平板电脑、自助终端设备等终端中预先安装的客户端上发送来的广告图片鉴定请求,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的广告图片鉴定请求。
广告图片鉴定系统在收到用户发出的广告图片鉴定请求后,对广告图片鉴定请求中的待分析图片进行光学字符识别(Optical Character Recognition,简称OCR),即针对印刷体字符,采用光学的方式将文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式。
利用OCR对待分析图片进行字符识别,以识别出待分析图片中的文字。其中,本实施例在OCR识别过程中可实施生僻字匹配策略,由于广告信息中为了简单易懂便于宣传,一般较少会出现生僻字,因此,在对待分析图片的OCR识别过程中,若对其中一个文字进行字符识别时出现识别出的与该文字匹配的某生僻字匹配度高,但与该文字匹配的一些常见通用字匹配度低的情况,则判断为OCR识别出错,则将该文字与其周围字符组成词组进入OCR识别匹配的词库检测,当与某词组完成高匹配时,则识别该文字为匹配的词组中相应位置的常见通用字。这样,能提高后续对待分析图片中广告信息的识别精度。
还可对待分析图片中识别出的生僻字进行畸变检测,由于广告信息中有时会对文字进行一些特殊处理,导致该文字畸变,例如,在文字上面画圈、打叉、由广告字库拼装组成等等,可进行检测后去除这些特殊符合,还原文字本身,以便后续进行广告信息的匹配、识别操作。
在一种可选的实施方式中,还可对待分析图片进行二维码检测,一旦检测到待分析图片中含有二维码信息,则直接判定该待分析图片为广告图片,鉴定结束,无需进行后续操作。
步骤S20,对识别出的文字进行分词处理。
本实施例中,对OCR识别提取的文字进行预处理,如对于初步识别的特殊字符做剔除处理,对于字体大小一致且距离较近的字符进行去除换行符处理。对预处理后的文字进行分词。包括:a,从左向右取待切分语句的m个字符作为匹配字段,m为预设的机器词典中最长词条个数。b,将取出的m个字符在机器词典中查找并进行匹配,若匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。c,从右向左操作a和b进行分词处理。
进一步地,分词后还可进行二次处理,对连续的大写数字或英文做整体分词,并进行翻译处理,以便识别出利用连续数字或英文进行宣传的广告信息。
本实施例中分词时还可采用N元文法统计模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)来进行分词,分词算法可包括:正向最大匹配,反向最大匹配,双向最大匹配,最短路径算法。
步骤S30,将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分。
本实施例中,预先可建立广告关键词库,如:可按不同广告类别进行分类建立广告关键词库,如按照产品广告、品牌广告、观念广告、公益广告等分类建立关键词库。还可按不同级别对广告进行定级,如对于网络上流行的黄赌毒、诈骗类非法广告设定为高危级别,必须剔除;对于本业务系统相关的竞品和品牌广告设定为危险级别,对于普通商品广告等设定为普通级别。
利用建立的广告关键词库对待分析图片中的分词进行关键字匹配,并根据待分析图片中的分词与广告关键词库的匹配结果给予评分p3,具体定义的预设匹配评分规则包括:
a,精确包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;即匹配条件是待匹配词完全包含广告关键字库中的关键词时认为精确命中,p3记10分。
b,同义包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇。即匹配条件相比精确包含可以适当进行延伸,可扩展至关键词的同义词,近义词,相关词,以及包含关键词的短语,或包含部分字面顺序颠倒或有间隔,等。即匹配条件是待匹配词完全包含广告关键字库中关键词的变形形态(插入、颠倒、同义词、近义词、相关词),p3记8分。
c,核心包含的情况:若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分。即匹配条件是待匹配词包含广告关键字库中关键词的核心部分、关键词核心部分的变形(插入、颠倒、同义词、近义词、相关词),p3记6分。
在完成关键字匹配后,若待分析图片中的分词与广告关键字库中的关键字匹配(无论是精确包含、同义包含或核心包含),且匹配的关键字属于高危级别广告的字库,则直接认定该待分析图片中包含高危级别广告,需进行剔除,鉴定结束,无需进行后续操作。
若匹配的关键字不属于高危级别广告的字库,即属于危险级别和普通级别广告的字库,则可继续进行进一步语义分析。例如,可根据匹配的关键字的上下文意思、或多个关键字的组合判断待分析图片中是否包含广告信息或其广告类别、等级等。还可检测待分析图片中是否包含qq、微信、邮箱、网址、手机等直接联络方式信息,若包含有,则可直接认定待分析图片中包含广告信息,如非业务系统相关广告。具体地,检测是否包含直接联络方式信息的方法如下:当待分析图片中的字符包含连串数字时,检测后面是否有货币单位信息、计量单位信息等,若无则检测是否为电话号码形式。
步骤S40,识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分。
在对所述待分析图片利用光学字符识别OCR识别出所述待分析图片中的各个文字时,还可对识别出的各个文字进行字体大小分析,具体地,可对待分析图片先进行高斯模糊处理,如f'(x,y)=f(x,y)*g(x,y),其中g(x,y)=exp(-(x2+y2)/9),对f'(x,y)画出峰值分布图,按阶梯分布抽取不同层级的峰值分布图。即对待分析图片中各个字符的大体轮廓进行分析,区分出待分析图片中各个字符的不同字体大小。如可将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体。由于在实际应用中,若业务图片中夹杂有广告信息,则为了引人注目,广告信息一般会采用较大字体来展示。因此,本实施例中针对待分析图片中的字符字体给予字体评分p1,其中,较大字体的字符分配的字体评分高于较小字体的字符的字体评分。例如,较大字体的字符的p1=2,较小字体的字符的p1=1。
进一步地,在一种可选的实施方式中,还可对识别出的各个文字进行字体颜色分析,如对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。具体地,对于OCR检测出的字体,计算字体的色彩显著度,例如,当字体的drgb=([rgb(x,y-[rgb(s,t))^2大于某一特定阈值时认定该字体的色彩显著度高。在实际应用中,广告信息可能会通过提高色彩显著度来获得更好的宣传效果。因此,本实施例中针对待分析图片中的字符字体颜色给予色彩显著度评分p2,其中,色彩显著度高的字符分配的色彩显著度评分高于色彩显著度低的字符的色彩显著度评分。例如,色彩显著度高的字符的p2=1,色彩显著度低的字符的p1=0.5。
步骤S50,根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。
本实施例中,在利用预设规则判断所述待分析图片是否为广告图片时,可按照如下公式计算得到P值:
P=a1*P1+a2*P2+a3*P3
其中,P1为所述待分析图片中相匹配的分词的字体大小对应的字体评分,P2为所述待分析图片中相匹配的分词的字体色彩显著度对应的色彩显著度评分,P3为所述待分析图片中相匹配的分词对应的关键字匹配评分;a1、a2、a3为预先为字体评分P1,色彩显著度评分P2,以及关键字匹配评分P3设置的参数权重,例如,可设置a1=0.2,a2=0.1,a3=0.7。
预先设定一阈值,当计算得到的P值达到该阈值时,则判定待分析图片为包含广告信息的广告图片,并进行预警。此外,还可结合所述待分析图片中相匹配的分词的字体、颜色、关键字级别、关键字个数等来综合评估广告信息,并通过制定广告分类及广告级别可以对不同广告采取不同措施。
与现有技术相比,本实施例通过对待分析图片进行光学字符识别出文字;对识别出的文字进行分词;将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;识别出各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。由于一般在图片中出现广告信息时,广告字体与其他正常文字会有所不同,如字体大小或字体色彩显著度不同。本实施例能将待分析图片中的各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,根据匹配情况分配对应的关键字匹配评分,并根据相匹配的分词的字体大小分配对应的字体评分,根据相匹配的分词的字体色彩显著度设置对应的色彩显著度评分,最后,结合关键字匹配评分以及字体评分、色彩显著度评分来进行综合鉴定,能更加准确有效地判断出所述待分析图片是否为包含广告信息的广告图片。而且,无需人工进行检测,能自动进行广告图片的鉴定,有效提高检测效率。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有广告图片鉴定系统,所述广告图片鉴定系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的广告图片鉴定方法的步骤,该广告图片鉴定方法的步骤S10、S20、S30等具体实施过程如上文所述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (10)

1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的广告图片鉴定系统,所述广告图片鉴定系统被所述处理器执行时实现如下步骤:
在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字;
对识别出的文字进行分词处理;
将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;
识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;
根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。
2.如权利要求1所述的电子装置,其特征在于,所述识别出所述待分析图片中各个文字的不同字体大小包括:
对所述待分析图片进行高斯模糊处理,画出经高斯模糊处理后的待分析图片的峰值分布图,按阶梯分布抽取不同层级的峰值分布图;将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体;
所述预设字体评分规则包括:
为所述待分析图片中的各个字符按字体大小设置对应的字体评分,其中,较大字体的字符对应的字体评分大于较小字体的字符对应的字体评分。
3.如权利要求1或2所述的电子装置,其特征在于,所述处理器还用于执行所述广告图片鉴定系统,以实现以下步骤:
对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;
将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;
为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。
4.如权利要求3所述的电子装置,其特征在于,所述预设匹配评分规则包括:
若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词为预设高危级别广告词,则直接判断所述待分析图片是广告图片;
若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词不是预设高危级别广告词,则:
若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;
若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇;
若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分;
其中,所述第一关键字匹配评分大于所述第二关键字匹配评分,所述第二关键字匹配评分大于所述第三关键字匹配评分。
5.一种广告图片鉴定方法,其特征在于,所述广告图片鉴定方法包括:
在收到待分析图片后,对所述待分析图片进行光学字符识别,识别出所述待分析图片中的文字;
对识别出的文字进行分词处理;
将各个分词与预先建立的广告关键词库中的各个广告关键词进行匹配,得到与预先建立的广告关键词库中广告关键词相匹配的分词;并根据匹配结果按预设匹配评分规则分配对应的关键字匹配评分;
识别出所述待分析图片中各个文字的不同字体大小,并根据相匹配的分词的字体大小按预设字体评分规则分配对应的字体评分;
根据所述关键字匹配评分、字体评分,利用预设规则判断所述待分析图片是否为广告图片。
6.如权利要求5所述的广告图片鉴定方法,其特征在于,所述识别出所述待分析图片中各个文字的不同字体大小包括:
对所述待分析图片进行高斯模糊处理,画出经高斯模糊处理后的待分析图片的峰值分布图,按阶梯分布抽取不同层级的峰值分布图;将预设层级的峰值分布图中的字符识别为较大字体,所述待分析图片中的其余字符识别为较小字体;
所述预设字体评分规则包括:
为所述待分析图片中的各个字符按字体大小设置对应的字体评分,其中,较大字体的字符对应的字体评分大于较小字体的字符对应的字体评分。
7.如权利要求5或6所述的广告图片鉴定方法,其特征在于,该方法还包括:
对所述待分析图片中进行光学字符识别出的文字,计算每个文字的字体色彩显著度;
将字体色彩显著度大于预设色彩显著度阈值的文字识别为高色彩显著度的文字,将字体色彩显著度小于或等于预设色彩显著度阈值的文字识别为低色彩显著度的文字;
为所述待分析图片中的各个文字按字体色彩显著度设置对应的色彩显著度评分,其中,高色彩显著度的文字对应的色彩显著度评分大于低色彩显著度的文字对应的色彩显著度评分。
8.如权利要求7所述的广告图片鉴定方法,其特征在于,所述预设匹配评分规则包括:
若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词为预设高危级别广告词,则直接判断所述待分析图片是广告图片;
若所述待分析图片的各个分词与预先建立的广告关键词库中相匹配的广告关键词不是预设高危级别广告词,则:
若所述待分析图片的各个分词与预先建立的广告关键词库中的广告关键词相匹配,则分配对应的第一关键字匹配评分;
若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的预设相关词相匹配,则分配对应的第二关键字匹配评分;其中,广告关键词的预设相关词包括广告关键词的同义词、近义词、与该广告关键词相关的短语和/或该广告关键词字面产生颠倒或间隔后的变形形态词汇;
若所述待分析图片的各个分词与预先建立的广告关键词库中广告关键词的核心部分或该核心部分的预设相关词相匹配,则分配对应的第三关键字匹配评分;
其中,所述第一关键字匹配评分大于所述第二关键字匹配评分,所述第二关键字匹配评分大于所述第三关键字匹配评分。
9.如权利要求8所述的广告图片鉴定方法,其特征在于,所述利用预设规则判断所述待分析图片是否为广告图片包括:
按照如下公式计算得到P值:
P=a1*P1+a2*P2+a3*P3
其中,P1为所述待分析图片中相匹配的分词的字体大小对应的字体评分,P2为所述待分析图片中相匹配的分词的字体色彩显著度对应的色彩显著度评分,P3为所述待分析图片中相匹配的分词对应的关键字匹配评分;a1、a2、a3为预先为字体评分P1,色彩显著度评分P2,以及关键字匹配评分P3设置的参数权重;
将计算得到的P值与预先设定的阈值进行比较,若P值大于预先设定的阈值,则判断所述待分析图片是广告图片。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有广告图片鉴定系统,所述广告图片鉴定系统被处理器执行时实现如权利要求5至9中任一项所述的广告图片鉴定方法的步骤。
CN201810183371.6A 2018-03-06 2018-03-06 广告图片鉴定方法、电子装置及可读存储介质 Pending CN108399161A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810183371.6A CN108399161A (zh) 2018-03-06 2018-03-06 广告图片鉴定方法、电子装置及可读存储介质
PCT/CN2018/089720 WO2019169769A1 (zh) 2018-03-06 2018-06-03 广告图片鉴定方法、电子装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810183371.6A CN108399161A (zh) 2018-03-06 2018-03-06 广告图片鉴定方法、电子装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN108399161A true CN108399161A (zh) 2018-08-14

Family

ID=63091969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810183371.6A Pending CN108399161A (zh) 2018-03-06 2018-03-06 广告图片鉴定方法、电子装置及可读存储介质

Country Status (2)

Country Link
CN (1) CN108399161A (zh)
WO (1) WO2019169769A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063076A (zh) * 2018-07-24 2018-12-21 维沃移动通信有限公司 一种图片生成方法及移动终端
CN109241437A (zh) * 2018-09-19 2019-01-18 麒麟合盛网络技术股份有限公司 一种广告识别模型的生成方法、广告识别方法及系统
CN109246465A (zh) * 2018-08-30 2019-01-18 维沃移动通信有限公司 一种界面显示方法及终端设备
CN109583443A (zh) * 2018-11-15 2019-04-05 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法
CN110163203A (zh) * 2019-04-09 2019-08-23 浙江口碑网络技术有限公司 字符识别方法、装置、存储介质及计算机设备
CN110598211A (zh) * 2019-09-02 2019-12-20 腾讯科技(深圳)有限公司 文章的识别方法和装置、存储介质及电子装置
CN110705364A (zh) * 2019-09-06 2020-01-17 武汉美格科技股份有限公司 恶意广告消除方法及系统
CN114444504A (zh) * 2022-04-11 2022-05-06 西南交通大学 一种企业业务分类编码方法、装置、设备及可读存储介质
CN116841424A (zh) * 2023-08-28 2023-10-03 华能信息技术有限公司 一种屏幕截图监控方法及系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561549A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 广告生成方法、投放方法、广告生成装置及投放装置
CN111191430B (zh) * 2019-12-27 2023-02-14 中国平安财产保险股份有限公司 自动建表方法、装置、计算机设备和存储介质
CN114758216B (zh) * 2022-05-05 2023-01-13 北京容联易通信息技术有限公司 一种基于机器视觉的非法广告检测方法及系统
CN116996840B (zh) * 2023-09-26 2023-12-29 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330008A1 (en) * 2011-09-24 2013-12-12 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN103605692A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于问答社区中屏蔽广告内容的装置和方法
CN104376304A (zh) * 2014-11-18 2015-02-25 新浪网技术(中国)有限公司 一种文本广告图像的识别方法及装置
CN104715248A (zh) * 2015-03-19 2015-06-17 无锡华云数据技术服务有限公司 一种对邮件广告图片的识别方法
CN106815242A (zh) * 2015-11-30 2017-06-09 腾讯科技(深圳)有限公司 文本资源数据检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330008A1 (en) * 2011-09-24 2013-12-12 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN103605692A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于问答社区中屏蔽广告内容的装置和方法
CN104376304A (zh) * 2014-11-18 2015-02-25 新浪网技术(中国)有限公司 一种文本广告图像的识别方法及装置
CN104715248A (zh) * 2015-03-19 2015-06-17 无锡华云数据技术服务有限公司 一种对邮件广告图片的识别方法
CN106815242A (zh) * 2015-11-30 2017-06-09 腾讯科技(深圳)有限公司 文本资源数据检测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周静: "人人网中图文与互动广告的比较研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王新艳: "基于内容的网页图片广告检测技术的研究与实现", 《软件》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063076A (zh) * 2018-07-24 2018-12-21 维沃移动通信有限公司 一种图片生成方法及移动终端
CN109246465A (zh) * 2018-08-30 2019-01-18 维沃移动通信有限公司 一种界面显示方法及终端设备
CN109241437A (zh) * 2018-09-19 2019-01-18 麒麟合盛网络技术股份有限公司 一种广告识别模型的生成方法、广告识别方法及系统
CN109583443A (zh) * 2018-11-15 2019-04-05 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法
CN110163203A (zh) * 2019-04-09 2019-08-23 浙江口碑网络技术有限公司 字符识别方法、装置、存储介质及计算机设备
CN110598211B (zh) * 2019-09-02 2023-09-26 腾讯科技(深圳)有限公司 文章的识别方法和装置、存储介质及电子装置
CN110598211A (zh) * 2019-09-02 2019-12-20 腾讯科技(深圳)有限公司 文章的识别方法和装置、存储介质及电子装置
CN110705364A (zh) * 2019-09-06 2020-01-17 武汉美格科技股份有限公司 恶意广告消除方法及系统
CN110705364B (zh) * 2019-09-06 2021-04-30 武汉美格科技股份有限公司 恶意广告消除方法及系统
CN114444504A (zh) * 2022-04-11 2022-05-06 西南交通大学 一种企业业务分类编码方法、装置、设备及可读存储介质
CN114444504B (zh) * 2022-04-11 2022-08-05 西南交通大学 一种企业业务分类编码方法、装置、设备及可读存储介质
CN116841424A (zh) * 2023-08-28 2023-10-03 华能信息技术有限公司 一种屏幕截图监控方法及系统
CN116841424B (zh) * 2023-08-28 2024-02-09 华能信息技术有限公司 一种屏幕截图监控方法及系统

Also Published As

Publication number Publication date
WO2019169769A1 (zh) 2019-09-12

Similar Documents

Publication Publication Date Title
CN108399161A (zh) 广告图片鉴定方法、电子装置及可读存储介质
CN112507936B (zh) 图像信息审核方法、装置、电子设备及可读存储介质
CN108519970A (zh) 文本中敏感信息的鉴定方法、电子装置及可读存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN107038178A (zh) 舆情分析方法和装置
CN112560453B (zh) 语音信息校验方法、装置、电子设备及介质
EP3933636A1 (en) Webpage tampering detection method and related apparatus
CN106815208A (zh) 法律裁判文书的解析方法及装置
CN102694673A (zh) 一种网络言论监控方法、设备及系统
CN110020430B (zh) 一种恶意信息识别方法、装置、设备及存储介质
CN112686026B (zh) 基于信息熵的关键词提取方法、装置、设备及介质
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN113887438A (zh) 人脸图像的水印检测方法、装置、设备及介质
CN113360803A (zh) 基于用户行为的数据缓存方法、装置、设备及存储介质
CN107291774A (zh) 错误样本识别方法和装置
CN111475651A (zh) 文本分类方法、计算设备及计算机存储介质
CN113808616A (zh) 语音合规检测方法、装置、设备及存储介质
CN107688594B (zh) 基于社交信息的风险事件的识别系统及方法
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN112559324B (zh) 一种基于应用内视觉挖掘的软件测试用例生成方法
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
CN113888760A (zh) 基于软件应用的违规信息监控方法、装置、设备及介质
CN113988059A (zh) 一种会话数据类型识别方法、系统、设备及存储介质
CN112307298B (zh) 个人品牌标签的生成方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180814