CN112199948A - 文本内容识别和违规广告识别方法、装置及电子设备 - Google Patents

文本内容识别和违规广告识别方法、装置及电子设备 Download PDF

Info

Publication number
CN112199948A
CN112199948A CN202011044853.7A CN202011044853A CN112199948A CN 112199948 A CN112199948 A CN 112199948A CN 202011044853 A CN202011044853 A CN 202011044853A CN 112199948 A CN112199948 A CN 112199948A
Authority
CN
China
Prior art keywords
text
corpus
content
white list
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011044853.7A
Other languages
English (en)
Inventor
张黎娜
钱婧
袁磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Finance Association
Original Assignee
China Internet Finance Association
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Internet Finance Association filed Critical China Internet Finance Association
Priority to CN202011044853.7A priority Critical patent/CN112199948A/zh
Publication of CN112199948A publication Critical patent/CN112199948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了文本内容识别和违规广告识别方法、装置及电子设备,包括:获取待识别文本,以及根据设定语料确定的白名单语料库;排除待识别文本中出现的白名单语料得到比对排除文本,根据比对排除文本和设定语料,确定待识别文本是否包含设定内容。其中,设定语料为用于识别出设定内容的词语或句子;白名单语料库中每一白名单语料均为不属于设定内容且包含至少一个设定语料中的每一字符的词语或句子,通过排除待识别文本中的白名单语料,能将包含设定语料中的字符但不属于设定内容的词语或句子排除,避免将待识别文本中出现的白名单语料误识别为设定内容,从而避免误认为待识别文本包含设定内容,降低了对设定内容的误判率。

Description

文本内容识别和违规广告识别方法、装置及电子设备
技术领域
本发明涉及信息处理领域,尤其是涉及文本内容识别和违规广告识别方法、装置及电子设备。
背景技术
随着科学技术的发展,在信息处理领域中,很多用户经常需要对一些文本、图片或者网站的内容进行识别,以判断其中是否包含某一设定内容(例如,是否包含违法违规的内容、是否包含设定话题的内容等)。
现有技术中,通常会采用一些根据设定内容提取的关键词判断文本中是否包含了该设定内容。然而在一些情况下,通过所提取的关键词会识别到一些与设定内容毫无关联的内容,从而将识别出的这些毫无关联的内容误认为设定内容,造成对设定内容的误识别。例如,若识别一则金融广告中是否有违规内容时,将“违规内容”作为需要识别的设定内容,将“保本”作为根据“违规内容”提取的关键词,通过“保本”识别金融广告中是否有违规内容;当金融广告中包含“社保本金”内容时,“社保本金”与“违规内容”毫无关联,但是根据关键词“保本”也会识别出“社保本金”为违规内容,造成了对金融广告中设定内容的误识别。
可见,现有技术中根据设定内容提取的关键词会从文本中识别出一些与设定内容毫无关联内容,造成对设定内容的误识别,进而对文本中是否包含设定内容造成误判的问题。
发明内容
本发明实施例提供了文本内容识别和违规广告识别方法、装置及电子设备,用于解决现有技术中根据设定内容提取的关键词会从文本中识别出一些与设定内容毫无关联内容,造成对设定内容的误识别,进而对文本中是否包含设定内容造成误判的问题。
针对以上技术问题,第一方面,本发明实施例提供了一种文本内容识别方法,包括:
获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子;
对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料;
根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容。
进一步地,所述对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本,包括:
对所述待识别文本中识别到的任一白名单语料,将所述任一白名单语料中的每一字符替换为设定字符,得到所述比对排除文本;
其中,所述设定字符的字符种类与所述设定语料中的字符种类不同。
进一步地,所述根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容,包括:
若所述比对排除文本中同时包含每一所述设定语料,则所述待识别文本包含所述设定内容。
进一步地,所述获取待识别是否包含设定内容的文本,作为待识别文本之前,还包括:
获取待识别是否包含设定内容的原始内容;所述原始内容为根据网址从网页中获取的文本、为通过图像识别从图像中获取的文本,或者为通过读取文字获取的文本;
对所述原始内容进行标准化处理,得到所述待识别文本;其中,所述标准化处理包括如下处理中的至少一种:将所述原始内容中的全角符号转换为半角符号、将所述原始内容中的半角符号转换为全角符号、将所述原始内容中不是文本格式的内容删除或转换为文本格式。
进一步地,所述文本内容识别方法还包括:
若所述待识别文本包含所述设定内容,则根据所述设定语料从预置的解释条款中获取目标解释条款,并输出所述待识别文本和所述目标解释条款;
其中,解释条款为与所述设定内容相关的法律法规或者行业规定。
进一步地,所述根据所述设定语料从预置的解释条款中获取目标解释条款,包括:
从预设的用于对每一种设定内容进行识别的语料组中,获取包含有所述设定语料的语料组所对应的设定内容,作为目标设定内容;
获取与所述目标设定内容对应的存储的解释条款,作为所述目标解释条款。
第二方面,本发明实施例提供了一种违规广告的识别方法,包括:
将待识别是否包含违规内容的广告作为所述待识别文本,将所述违规内容作为所述设定内容,执行如上所述的文本内容识别方法,以确定所述广告中是否包含所述违规内容;
若所述广告包含所述违规内容,则发出所述广告包含违规内容的风险提示信息。
第三方面,本发明实施例提供了一种文本内容识别装置,包括:
文本获取单元,用于获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子;
文本排除单元,用于对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料;
文本确定单元,用于根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容。
第四方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的文本内容识别方法的步骤或者违规广告识别方法的步骤。
第五方面,本发明实施例提供了一种非暂态可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述的文本内容识别方法的步骤或者违规广告识别方法的步骤。
本发明实施例提供了文本内容识别和违规广告识别方法、装置及电子设备,包括:获取待识别文本,以及根据设定语料确定的白名单语料库;排除待识别文本中出现的白名单语料得到比对排除文本,根据比对排除文本和设定语料,确定待识别文本是否包含设定内容。其中,设定语料为用于识别出设定内容的词语或句子;白名单语料库中每一白名单语料均为不属于设定内容且包含至少一个设定语料中的每一字符的词语或句子,通过排除待识别文本中的白名单语料,能将包含设定语料中的字符但不属于设定内容的词语或句子排除,避免将待识别文本中出现的白名单语料误识别为设定内容,从而避免误认为待识别文本包含设定内容,降低了对设定内容的误判率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本内容识别方法流程示意图;
图2为本发明另一实施例提供的以功能模块的方式对金融广告内容识别的过程进行说明的示意图;
图3为本发明另一实施例提供的文本内容识别装置的结构示意图;
图4为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文本内容识别和违规广告识别方法可以由服务器或终端执行,本实施例对此不做具体限制。其中,文本内容识别方法不仅可以用于对广告的内容进行识别,还可以用于对诸如新闻、文章、小说等内容进行识别。具体来说,文本内容识别方法可以通过安装在终端或服务器中的程序执行。例如,当文本内容识别方法用于对金融广告中的“违规内容”进行识别时,可以通过安装在终端或服务器中的“金融广告风险识别助手”这一程序执行。
图1为本实施例提供的文本内容识别方法流程示意图。参见图1,该文本内容的识别方法包括:
步骤101:获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子。
其中,待识别文本可以为根据某一广告提取的文本、根据某一新闻提取的文本、从某一文章中提取的文本等。设定内容为需要从待识别文本中识别出的内容,例如,设定内容可以是违法内容、违反某一规定的内容、包含了某一话题的内容等。例如,获取某一金融广告的文本内容作为待识别文本,需要进行识别的设定内容为“违规内容”。或者,获取某一商业文件的文本内容作为待识别内容,需要进行识别的设定内容为“商业秘密内容”。
设定语料用于对设定内容进行识别,因此,设定语料可以是从设定内容中提取的一个或多个关键词。例如,需要对金融广告中的“违规内容”进行识别时,“保本”、“保值”等词语可以作为从“违规内容”提取到的关键词;需要对一份商业文件中的“商业秘密内容”进行识别时,“融资余额”、“营业总收入”等具有商业秘密含义的词语可以作为从“商业秘密内容”提取到的关键词。
所述白名单语料均为不属于所述设定内容且包含任一所述设定语料中的每一字符的词语或句子,例如,识别金融广告中的“违规内容”时,“保本”、“保值”等作为设定语料,则可以设置白名单语料为“社保本金”、“套期保值”等含有“保本”、“保值”的字符却不属于“违规内容”的词语。
步骤102:对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料。
其中,对待识别文本中出现的白名单语料进行排除处理,可以是将待识别文本中出现的白名单语料本身包含的所有字符进行替换和/或删除,也可以是将待识别文本中出现的白名单语料中包含的与所述设定语料对应的字符进行替换和/或删除。其中,关于“替换”,可以通过不同于待识别文本中出现的字符种类的字符(例如,待识别文本中出现的字符种类为汉字,则可以通过特殊字符“*”作为进行替换的字符),将待识别文本中出现的白名单语料本身包含的所有字符进行替换,或者待识别文本中出现的白名单语料中包含的与所述设定语料对应的字符进行替换。
步骤103:根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容。
通过将所述比对排除文本和所述设定语料进行匹配,若比对排除文本中匹配到设定语料,即待识别文本包含所述设定内容;若所述比对排除文本中未匹配到设定语料,即待识别文本不包含所述设定内容。
本实施例中,用于识别设定内容的设定语料可以为一个或者多个,例如,用于对金融广告中“违规内容”进行识别的设定语料可以仅包含“保本”,也可以包含“保本”和“保值”。相应地,根据设定语料生成的白名单语料也可以为一个或多个。可以仅根据一个设定语料生成白名单语料,例如,仅根据“保本”生成白名单语料“社保本金”。也可以根据多个设定语料生成白名单语料,例如,除了生成“社保本金”这一白名单语料之外,还根据“保值”生成“套期保值”这一白名单语料。可理解的是,还可以生成同时包含有多个设定语料的白名单语料,例如,同时包含有“保本”和“保值”的白名单语料“社保本金和套期保值”。
所生成的这些白名单语料均属于白名单语料库中内容,为了避免通过设定语料将待识别文本中出现的这些白名单语料误识别成“违规内容”,可以先对待识别文本中出现的任一白名单语料进行上述的排除操作,从而降低通过设定语料识别到“非违规内容”的误识别率。
本发明实施例提供了文本内容识别方法,包括:获取待识别文本,以及根据设定语料确定的白名单语料库;排除待识别文本中出现的白名单语料得到比对排除文本,根据比对排除文本和设定语料,确定待识别文本是否包含设定内容。其中,设定语料为用于识别出设定内容的词语或句子;白名单语料库中每一白名单语料均为不属于设定内容且包含至少一个设定语料中的每一字符的词语或句子,通过排除待识别文本中的白名单语料,能将包含设定语料中的字符但不属于设定内容的词语或句子排除,避免将待识别文本中出现的白名单语料误识别为设定内容,从而避免误认为待识别文本包含设定内容,降低了对设定内容的误判率。
在上述实施例的基础上,所述对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本,还包括:
对所述待识别文本中识别到的任一白名单语料,将所述任一白名单语料中的每一字符替换为设定字符,得到所述比对排除文本;
其中,所述设定字符的字符种类与所述设定语料中的字符种类不同。
其中,所述字符种类可以分为文字字符、数字字符、特殊符号字符等,例如,当待识别文本中的白名单语料为文字字符时,进行排除处理时,可以将白名单语料的文字字符替换为特殊符号字符。
具体的,当所述设定语料的字符种类为文字字符时,可以将设定字符的字符种类设定为特殊符号,例如“*”、“&”等;也可以将设定字符的字符种类设定为数字字符,例如“0”、“3”等,对于具体的设定字符的字符种类,本实施例对此不做具体限制。
为了进一步对上述排除处理进行优化,降低对上述设定内容的误识别率,未将待识别文本中出现的白名单语料的字符替换为与所述白名单语料的字符种类相同的其他字符,原因在于,替换为与所述白名单语料的字符种类相同的其他字符,虽然会减少对所述白名单语料中包含的所述设定语料的误识别,但与该设定语料紧挨的字符与替换后的其他字符之间可能会形成新的词汇和句子,从而产生与原始文本内容的含义不同的其他含义,导致误识别。
此外,为了进一步降低对上对设定内容的误识别率,也未将待识别文本中出现的白名单语料的字符删除,原因在于,将待识别文本中的白名单语料删除后,虽然会减少对所述白名单语料中包含的所述设定语料的误识别,但与被替换的白名单语料前后紧挨的字符之间可能会形成新的词汇和句子,从而产生与原始文本内容的含义不同的其他含义,导致误识别。
本实施例中,通过将待识别文本中出现的任一白名单语料中的每一字符替换为字符种类不同的字符,避免了替换过程中产生新的白名单语料,再次造成对设定内容的误识别,提高识别准确度。
在上述各实施例的基础上,所述根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容,包括:
若所述比对排除文本中同时包含每一所述设定语料,则所述待识别文本包含所述设定内容。
本实施例中,当设置了多个设定语料时,白名单语料可以为一个或多个,且每个白名单语料中包含至少一个所述设定语料。可理解的是,在一些情况下也可能出现“不存在根据设定语料确定的白名单语料”的情况,在这种情况下,只需要根据待识别文本中是否包含设定语料即可,而无需执行“排除处理”。
在本实施例中,将白名单语料排除后,只有确定比对排除文本中包含每一设定语料,才认为待识别文本包含所述设定内容。例如,识别一个金融广告是否包含违规内容时,设置两个设定语料为“保本”、“保值”,若得到的经过排除处理后得到的比对排除文本中只有同时有“保本”与“保值”两个词语,才判断金融广告包含违规内容。
本实施例中,当经过排除处理后得到的比对排除文本同时包含每一设定语料时,认为待识别文本包含设定内容。通过对设定语料的组合进行识别,可以更有效的确定待识别文本中是否含有所述设定内容,进一步提高了对所述设定内容的识别准确度。
在上述各实施例的基础上,所述获取待识别是否包含设定内容的文本,作为待识别文本之前,还包括:
获取待识别是否包含设定内容的原始内容;所述原始内容为根据网址从网页中获取的文本、为根据图像识别从图像中获取的文本,或者为根据读取文字获取的文本;
对所述原始内容进行标准化处理,得到所述待识别文本;其中,所述标准化处理包括如下处理中的至少一种:将所述原始内容中的全角符号转换为半角符号、将所述原始内容中的半角符号转换为全角符号、将所述原始内容中不是文本格式的内容删除或转换为文本格式。
具体的,当原始内容为根据网址从网页中获取的文本时,通过访问所述网址,获取由所述网址搜索出的网页的HTML(Hyper Text Markup Language,超文本标记语言)代码,将所述网页的HTML代码作为所述原始内容;其中,所述HTML代码中包含有不是文本格式的部分内容,对其进行标准化处理,将不是文本格式的部分内容删除后,和/或,将HTML代码中的全角符号转换为半角符号或将HTML代码中的半角符号转化为全角符号,得到所述待识别文本。
当原始内容为根据图像识别从图像中获取的文本时,通过调用图像的OCR(Optical Character Recognition,光学字符识别)接口,将图片内容转换为文本内容,对获取的文本进行标准化处理,得到所述待识别文本。
当原始内容为根据读取文字获取的文本时,对获取的文本进行标准化处理,得到所述待识别文本。
其中,将原始内容中的全角符号转换为半角符号,例如,将原始内容中的“,”转换为“,”、“。”转换为“.”等;将半角符号转换为全角符号,例如,将原始内容中的“,”转换为“,”等。
本实施例中,将不同来源的原始内容转换为文本内容,并进行标准化处理,使得以各种形式出现的原始内容都能对其是否包含某一设定内容进行识别,增加文本内容识别方法的应用范围,同时可以提高对于经过标准化处理的文本内容的识别准确度。
在上述各实施例的基础上,所述文本内容识别方法还包括:
若所述待识别文本包含所述设定内容,则根据所述设定语料从预置的解释条款中获取目标解释条款,并输出所述待识别文本和所述目标解释条款;
其中,解释条款为与所述设定内容相关的法律法规或者行业规定。
其中,本实施例中的解释条款是与设定内容相关的法律法规或者行业规定,具体可以根据法律法规或者行业规定的实质性内容确定与设定内容相关的法律法规或者行业规定,也可以根据经验确定与设定内容相关的法律法规或者行业规定。例如,在金融广告中,与“违规内容”相关的法律法规或者行业规定可以包括“针对金融广告规定的违规条款或规定”、“针对互联网规定的违规条款或规定”。目标解释条款则是根据设定语料从这些解释条款中匹配到的解释条款,例如,目标解释条款是匹配到的包含有至少一个设定语料的解释条款。
例如,以某一个金融广告的文本作为待识别文本,需识别的设定内容为“违规内容”,在金融广告领域中,用于识别“违规内容”的设定语料可以为“保本”、“保值”。在识别到某一金融广告中包含有“违规内容”后,可以获取与“保本”和“保值”相关的法律法规或者行业规定,作为目标解释条款,并将目标解释条款和该包含“违规内容”的广告一起显示,以对该金融广告包含有“违规内容”进行解释。
本实施例中,通过目标解释条款对待识别文本中包含的设定内容进行解释说明,提供了对识别的“违规内容”的判定依据。
在上述各实施例的基础上,所述根据所述设定语料从预置的解释条款中获取目标解释条款,包括:
从预设的用于对每一种设定内容进行识别的语料组中,获取包含有所述设定语料的语料组所对应的设定内容,作为目标设定内容;
获取与所述目标设定内容对应的存储的解释条款,作为所述目标解释条款。
对任一设定内容进行识别的语料组为,包含多个对该设定内容进行识别的设定语料的集合。
进一步地,所述从预设的用于对每一种设定内容进行识别的语料组中,获取包含有所述设定语料的语料组所对应的设定内容,作为目标设定内容之前,还包括:
创建各设定内容与语料组之间的第一映射关系,以及各设定内容与解释条款之间的第二映射关系。
本实施例提供的方法具体包括:
确定与所述设定语料匹配的语料组,作为目标语料组,根据所述第一映射关系,将所述目标语料组对应的设定内容作为所述目标设定内容;
根据所述第二映射关系,获取与所述目标设定内容对应的解释条款,作为所述目标解释条款。
需要说明的是,若通过设定语料确定了多个目标设定内容,则根据所述第二映射关系,将每一目标设定内容对应的解释条款均作为目标解释条款。在待识别文本中包含有设定内容的情况下,可以输出待识别文本和多个目标解释条款。
本实施例中,通过设置预置的解释条款,可以更快速的确定设定内容对应的目标解释条款,通过目标解释条款提供对待识别文本中包含有设定内容的依据。
另一方面,本发明实施例提供了一种违规广告的识别方法,包括:
将待识别是否包含违规内容的广告作为所述待识别文本,将所述违规内容作为所述设定内容,执行如上所述的文本内容识别方法,以确定所述广告中是否包含所述违规内容;
若所述广告包含所述违规内容,则发出所述广告包含违规内容的风险提示信息。
例如,需要识别一则金融广告文本中是否含有“违规内容”,则可以以“保本”、“保值”作为用于识别“违规内容”的设定语料,将金融广告的内容作为待识别文本,设定内容为违规内容,设置设定语料为“保本”、“保值”等词语,可以设置白名单语料为“社保本金”、“套期保值”等含有“保本”、“保值”的字符却无“违规内容”含义的词语,并将待识别文本中的“社保本金”、“套期保值”等白名单语料替换为特殊字符“*”,得到比对排除文本,然后将所述比对排除文本和所述设定语料进行匹配,若比对排除文本中包含有设定语料,则根据设定语料从预置的解释条款中获取与“保本”、“保值”相关的目标解释条款作为风险提示信息,并输出待识别文本和风险提示信息。
本实施例中,通过设置白名单语料库,并将待识别文本中包含的白名单语料进行排除,在广告领域使用所述违规广告识别方法时,可以避免识别过程中对设定内容的误识别,提高识别成功率;通过输出风险提示信息,可以更直观的说明所述广告违反的法律法规和行业规定,提高消费者对广告内容的判断能力。
图2提供了以功能模块的方式对金融广告内容识别的过程进行说明的示意图,包括获取模块、白名单语料比对模块、设定语料比对模块、结果输出模块、网址信息模块、后台维护模块、数据库模块,其中:
内容获取模块,用于获取文本审核请求及文本审核请求中包含的文本内容(即待识别文本),共有三种信息获取方式,模块中分别嵌入了将对应获取信息转换为文本内容的功能,具体有:广告图片形式,接收金融广告图片信息,通过调用OCR接口的方式,将广告图片转换为文本内容;广告文字形式,接收金融广告文字信息,直接获取文本内容;广告网址形式,接收含有金融广告的网址,通过后台访问广告网址,获取网页HTML代码并进行过滤,获得文本内容;
白名单语料比对模块,用于使用关键词识别技术将获取的文本内容与白名单语料库进行比对并将被命中内容进行替换操作,形成比对排除文本;
设定语料比对模块,用于使用关键词识别技术将比对排除文本与设定语料库中各设定语料的组合进行比对,被该组合命中的文本记录在命中结果中(被命中的结果即包含有设定内容的待识别文本);
结果输出模块,用于输出命中结果及对应的命中反显文本(即目标解释条款),如果以广告网址形式输入,则同时输出ICP备案信息;命中反显文本主要以相关法律法规、通知文件、司法解释和风险提示等为主;
网址信息模块,用于以接口查询的方式获取网址的ICP备案信息,在接收到广告网址信息时,首先通过匹配一级域名数据库的形式,将网址截断为顶级域名,再接入查询接口,获取返回的ICP备案信息;
后台维护模块,用于维护白名单语料库、设定语料库(包括设定语料库中不同设定语料的组合)及对应的命中反显文本等;
数据库模块,包括白名单语料库、设定语料库及对应的命中反显文本;
例如,对一则金融广告文本内容进行识别,由内容获取模块获取所述金融广告的文本内容作为待识别文本内容,将所述设定内容设置为“违规内容”,设置所述设定语料为“配资”,通过白名单语料比对模块比对待识别文本中的白名单语料,如“匹配资金”等,将白名单语料替换为设定字符“*”,得到比对排除文本;将所述比对排除文本传输至设定语料比对模块,设置设定语料为“股票”和“配资”,若比对排除文本中存在“股票专业配资”内容,由结果输出模块输出待识别文本与所述命中反显文本。
其中,使用“匹配资金”作为白名单语料,未使用相关的“匹配资”作为白名单语料,原因在于,可能存在以“XX匹配资”为名称经营非法配资业务的主体,若使用“匹配资”作为白名单语料,即无法识别出以“XX匹配资”为名称经营非法配资业务的主体,造成识别结果的遗漏。
其中,确认所述识别文本是否包含所述设定内容时,此金融广告内容识别方法使用了将比对排除文本与设定语料库中各设定语料的组合进行比对的方法。若使用单一设定语料识别方法,若比对排除文本中存在“股票专业配资”内容,设置待识别的单一设定语料为“股票专业配资”,可以正确识别出比对排除文本中“股票专业配资”的违规内容;若比对排除文本中存在“股票专业化配资”内容时,与“股票专业配资”具有同样的含义,但使用“股票专业配资”作为单一设定语料时无法识别,此时的解决方法为将“股票专业化配资”作为提取的新的单一设定语料加入到单一设定语料库中,在识别内容较多的待识别文本时,使用单一设定语料识别方法会增加单一设定语料库的冗余;使用“股票”和“配资”作为设定语料的组合,则可以准确识别出“股票专业配资”、“股票专业化配资”等内容,避免单一设定语料库覆盖不全面和带来冗余的问题。
另一方面,图3提供了文本内容识别装置的结构示意图,该文本内容识别装置,包括文本获取单元301、文本排除单元302、文本确定单元303,其中:
文本获取单元301,用于获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子;
文本排除单元302,用于对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料;
文本确定单元303,用于根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容。
本实施例提供的文本内容识别装置,适用于上述各实施例提供的文本内容的识别方法,此处不再赘述。
本发明实施例提供了文本内容识别装置,包括:获取待识别文本,以及根据设定语料确定的白名单语料库;排除待识别文本中出现的白名单语料得到比对排除文本,根据比对排除文本和设定语料,确定待识别文本是否包含设定内容。其中,设定语料为用于识别出设定内容的词语或句子;白名单语料库中每一白名单语料均为不属于设定内容且包含至少一个设定语料中的每一字符的词语或句子,通过排除待识别文本中的白名单语料,能将包含设定语料中的字符但不属于设定内容的词语或句子排除,避免将待识别文本中出现的白名单语料误识别为设定内容,从而避免误认为待识别文本包含设定内容,降低了对设定内容的误判率。
进一步地,所述文本排除单元还用于:
对所述待识别文本中识别到的任一白名单语料,将所述任一白名单语料中的每一字符替换为设定字符,得到所述比对排除文本;
其中,所述设定字符的字符种类与所述设定语料中的字符种类不同。
进一步地,所述文本确定单元还用于:
若所述比对排除文本中同时包含每一所述设定语料,则所述待识别文本包含所述设定内容。
进一步地,所述文本获取单元还用于:
获取待识别是否包含设定内容的原始内容;所述原始内容为根据网址从网页中获取的文本、为通过图像识别从图像中获取的文本,或者为通过读取文字获取的文本;
对所述原始内容进行标准化处理,得到所述待识别文本;其中,所述标准化处理包括如下处理中的至少一种:将所述原始内容中的全角符号转换为半角符号、将所述原始内容中的半角符号转换为全角符号、将所述原始内容中不是文本格式的内容删除或转换为文本格式。
进一步地,所述文本确定单元还用于:
若所述待识别文本包含所述设定内容,则根据所述设定语料从预置的解释条款中获取目标解释条款,并输出所述待识别文本和所述目标解释条款;
其中,解释条款为与所述设定内容相关的法律法规或者行业规定。
进一步地,所述文本确定单元还用于:
从预设的用于对每一种设定内容进行识别的语料组中,获取包含有所述设定语料的语料组所对应的设定内容,作为目标设定内容;
获取与所述目标设定内容对应的存储的解释条款,作为所述目标解释条款。
另一方面,本发明实施例提供了一种违规广告的识别装置,包括广告识别单元和内容提示单元,其中,
广告识别单元,用于将待识别是否包含违规内容的广告作为所述待识别文本,将所述违规内容作为所述设定内容,执行如上所述的文本内容识别方法,以确定所述广告中是否包含所述违规内容;
内容提示单元,用于若所述广告包含所述违规内容,则发出所述广告包含违规内容的风险提示信息。
本实施例提供的违规广告识别装置,适用于上述违规广告的识别方法,此处不再赘述。
本发明实施例提供了违规广告识别装置,包括:获取待识别文本,以及根据设定语料确定的白名单语料库;排除待识别文本中出现的白名单语料得到比对排除文本,根据比对排除文本和设定语料,确定待识别文本是否包含设定内容。其中,设定语料为用于识别出设定内容的词语或句子;白名单语料库中每一白名单语料均为不属于设定内容且包含至少一个设定语料中的每一字符的词语或句子,通过排除待识别文本中的白名单语料,能将包含设定语料中的字符但不属于设定内容的词语或句子排除,避免将待识别文本中出现的白名单语料误识别为设定内容,从而避免误认为待识别文本包含设定内容,降低了对设定内容的误判率。
图4为本发明实施例提供电子设备的实体结构示意图。
其中,该电子设备包括:存储器401、处理器402、通信接口403及通信总线404,其中,存储器401,处理器402,通信接口403通过通信总线404完成相互间的通信。处理器402可以调用存储器401中的逻辑指令,以执行如下方法:获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子;对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料;根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容;或者,将待识别是否包含违规内容的广告作为所述待识别文本,将所述违规内容作为所述设定内容,执行以上所述的文本内容识别方法,以确定所述广告中是否包含所述违规内容;若所述广告包含所述违规内容,则发出所述广告包含违规内容的风险提示信息。
此外,上述的存储器401中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机程序产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子;对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料;根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容;或者,将待识别是否包含违规内容的广告作为所述待识别文本,将所述违规内容作为所述设定内容,执行以上所述的文本内容识别方法,以确定所述广告中是否包含所述违规内容;若所述广告包含所述违规内容,则发出所述广告包含违规内容的风险提示信息。
另一方面,本发明实施例还提供一种非暂态可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子;对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料;根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容;或者,将待识别是否包含违规内容的广告作为所述待识别文本,将所述违规内容作为所述设定内容,执行以上所述的文本内容识别方法,以确定所述广告中是否包含所述违规内容;若所述广告包含所述违规内容,则发出所述广告包含违规内容的风险提示信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台终端设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本内容识别方法,其特征在于,包括:
获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子;
对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料;
根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容。
2.根据权利要求1所述的文本内容识别方法,其特征在于,所述对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本,包括:
对所述待识别文本中识别到的任一白名单语料,将所述任一白名单语料中的每一字符替换为设定字符,得到所述比对排除文本;
其中,所述设定字符的字符种类与所述设定语料中的字符种类不同。
3.根据权利要求1所述的文本内容识别方法,其特征在于,所述根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容,包括:
若所述比对排除文本中同时包含每一所述设定语料,则所述待识别文本包含所述设定内容。
4.根据权利要求1所述的文本内容识别方法,其特征在于,所述获取待识别是否包含设定内容的文本,作为待识别文本之前,还包括:
获取待识别是否包含设定内容的原始内容;所述原始内容为根据网址从网页中获取的文本、为通过图像识别从图像中获取的文本,或者为通过读取文字获取的文本;
对所述原始内容进行标准化处理,得到所述待识别文本;其中,所述标准化处理包括如下处理中的至少一种:将所述原始内容中的全角符号转换为半角符号、将所述原始内容中的半角符号转换为全角符号、将所述原始内容中不是文本格式的内容删除或转换为文本格式。
5.根据权利要求1所述的文本内容识别方法,其特征在于,还包括:
若所述待识别文本包含所述设定内容,则根据所述设定语料从预置的解释条款中获取目标解释条款,并输出所述待识别文本和所述目标解释条款;
其中,解释条款为与所述设定内容相关的法律法规或者行业规定。
6.根据权利要求5所述的文本内容识别方法,其特征在于,所述根据所述设定语料从预置的解释条款中获取目标解释条款,包括:
从预设的用于对每一种设定内容进行识别的语料组中,获取包含有所述设定语料的语料组所对应的设定内容,作为目标设定内容;
获取与所述目标设定内容对应的存储的解释条款,作为所述目标解释条款。
7.一种违规广告的识别方法,其特征在于,包括:
将待识别是否包含违规内容的广告作为所述待识别文本,将所述违规内容作为所述设定内容,执行权利要求1-6中任一项所述的文本内容识别方法,以确定所述广告中是否包含所述违规内容;
若所述广告包含所述违规内容,则发出所述广告包含违规内容的风险提示信息。
8.一种文本内容识别装置,其特征在于,包括:
文本获取单元,用于获取待识别是否包含设定内容的文本,作为待识别文本,并获取根据设定语料确定的白名单语料库;其中,所述设定语料为用于识别出所述设定内容的词语或句子;所述白名单语料库中每一白名单语料均为不属于所述设定内容且包含至少一个所述设定语料中的每一字符的词语或句子;
文本排除单元,用于对所述待识别文本中出现的每一白名单语料进行排除处理,得到比对排除文本;其中,所述排除处理包括对白名单语料中出现的属于所述设定语料的字符进行替换和/或删除白名单语料;
文本确定单元,用于根据所述比对排除文本和所述设定语料,确定所述待识别文本是否包含所述设定内容。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的文本内容识别方法的步骤或者如权利要求7所述的违规广告识别方法的步骤。
10.一种非暂态可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本内容识别方法的步骤或者如权利要求7所述的违规广告识别方法的步骤。
CN202011044853.7A 2020-09-28 2020-09-28 文本内容识别和违规广告识别方法、装置及电子设备 Pending CN112199948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011044853.7A CN112199948A (zh) 2020-09-28 2020-09-28 文本内容识别和违规广告识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011044853.7A CN112199948A (zh) 2020-09-28 2020-09-28 文本内容识别和违规广告识别方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112199948A true CN112199948A (zh) 2021-01-08

Family

ID=74007766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011044853.7A Pending CN112199948A (zh) 2020-09-28 2020-09-28 文本内容识别和违规广告识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112199948A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408270A (zh) * 2021-06-10 2021-09-17 广州三七极创网络科技有限公司 变体文本的识别方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147168A (zh) * 2004-12-30 2008-03-19 谷歌公司 改进广告审批
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
CN109471920A (zh) * 2018-11-19 2019-03-15 北京锐安科技有限公司 一种文本标识的方法、装置、电子设备及存储介质
CN111061874A (zh) * 2019-12-10 2020-04-24 苏州思必驰信息科技有限公司 敏感信息检测方法和装置
CN111078860A (zh) * 2019-11-27 2020-04-28 北京小米移动软件有限公司 文本筛选方法、文本筛选装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147168A (zh) * 2004-12-30 2008-03-19 谷歌公司 改进广告审批
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
CN109471920A (zh) * 2018-11-19 2019-03-15 北京锐安科技有限公司 一种文本标识的方法、装置、电子设备及存储介质
CN111078860A (zh) * 2019-11-27 2020-04-28 北京小米移动软件有限公司 文本筛选方法、文本筛选装置及电子设备
CN111061874A (zh) * 2019-12-10 2020-04-24 苏州思必驰信息科技有限公司 敏感信息检测方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408270A (zh) * 2021-06-10 2021-09-17 广州三七极创网络科技有限公司 变体文本的识别方法、装置及电子设备
CN113408270B (zh) * 2021-06-10 2023-02-10 广州三七极创网络科技有限公司 变体文本的识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111274782B (zh) 一种文本审核方法、装置、计算机设备及可读存储介质
US10783367B2 (en) System and method for data extraction and searching
CN108874777B (zh) 一种文本反垃圾的方法及装置
US20230161787A1 (en) Systems and method for generating a structured report from unstructured data
AU2007314124B2 (en) Document processor and associated method
US6278996B1 (en) System and method for message process and response
CA2661902C (en) Automated classification of document pages
US11144669B1 (en) Machine learning methods and systems for protection and redaction of privacy information
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN111694946A (zh) 文本关键词可视化显示方法、装置及计算机设备
US20240193522A1 (en) Citation and policy based document classification
CN112132710A (zh) 法律要素处理方法、装置、电子设备及存储介质
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
Asif et al. Automated analysis of Pakistani websites’ compliance with GDPR and Pakistan data protection act
CN112199948A (zh) 文本内容识别和违规广告识别方法、装置及电子设备
Glaser et al. Automatic generation of short informative sentiment summaries
Wang et al. Opinion Analysis and Organization of Mobile Application User Reviews.
CN114743012A (zh) 一种文本识别方法及装置
CN113472686A (zh) 信息识别方法、装置、设备及存储介质
CN114048740A (zh) 敏感词检测方法、装置及计算机可读存储介质
Al Rahat et al. Is Your Policy Compliant?: A Deep Learning-based Empirical Study of Privacy Policies' Compliance with GDPR.
US20240020473A1 (en) Domain Based Text Extraction
Alorini Towards Machine Learning for Gulf Dialectical Arabic Malicious Content Detection in Social Media
Toprak et al. Enhanced Named Entity Recognition algorithm for financial document verification
CN114676245A (zh) 上位政策提取方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210108