CN111597805A - 一种基于深度学习审核短信文本链接的方法及装置 - Google Patents

一种基于深度学习审核短信文本链接的方法及装置 Download PDF

Info

Publication number
CN111597805A
CN111597805A CN202010434795.2A CN202010434795A CN111597805A CN 111597805 A CN111597805 A CN 111597805A CN 202010434795 A CN202010434795 A CN 202010434795A CN 111597805 A CN111597805 A CN 111597805A
Authority
CN
China
Prior art keywords
text
short message
website
industry
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010434795.2A
Other languages
English (en)
Other versions
CN111597805B (zh
Inventor
元方
唐小波
余彬晶
吴衡
代素侠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Chuangyan Yunzhi Information Technology Co.,Ltd.
Original Assignee
Shanghai Chuanglan Culture Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Chuanglan Culture Communication Co ltd filed Critical Shanghai Chuanglan Culture Communication Co ltd
Priority to CN202010434795.2A priority Critical patent/CN111597805B/zh
Publication of CN111597805A publication Critical patent/CN111597805A/zh
Application granted granted Critical
Publication of CN111597805B publication Critical patent/CN111597805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本信息审核技术领域,尤其是一种基于深度学习审核短信文本链接的方法及装置,本发明先调用第三方接口检查网址是否健康,再给短信链接页面截图,接着通过调用OCR接口提取截图页面中的字符,再清洗字符,最后进行审核;采用本发明的方法短信文本与网址可分开同时处理,能自动对包含网址链接的短信文本进行审核,完全替代人工审核。因此可以提供高并发的短信链接审核,提供高准确率的短信链接审核,提供持续的短信链接审核,极大的提高了短信审核的准确率与效率。

Description

一种基于深度学习审核短信文本链接的方法及装置
技术领域
本发明涉及文本信息审核技术领域,尤其是一种基于深度学习审核短信文本链接的方法及装置。
背景技术
在短信发送平台,大多数短信都带有网址信息。当人工审核短信时,除了审核短信文本内容外,还需要手动打开浏览器查看短信文本链接是否符合规范性。由于全过程需要人工处理,这导致了审核效率低且准确率低。目前只有检测网址是否健康的第三方接口,但是没有专门针对短信业务的审核工具,所以这类第三方接口无法直接作为短信文本链接的审核工具。
综上所述,现有技术基于人工审核短信链接的准确率低且效率低,因此本发明提出了一种基于深度学习审核短信文本链接的方法及装置可以解决上述缺陷。
现有技术相关知识点介绍:
OCR接口:OCR(Optical Character Recognition,光学字符识别),对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。它的处理过程为版面分析,预处理,行列切割,字符识别,后处理识别矫正。把这种功能做成其它函数可以调用的接口,即为OCR接口。
发明内容
针对上述现有技术中存在的不足,本发明的目的在于提供了一种基于深度学习审核短信文本链接的方法及装置,解决现有技术准确率低且效率低的问题。
为解决上述问题,本发明公开了一种基于深度学习审核短信文本链接的方法,包括以下步骤:
S1.从待审核的含网站信息的短信文本中分离出文本信息和网址信息;
S2.通过事先训练好的行业分类器对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;
S3.调用第三方的接口检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;
S4.调用第三方的接口对S3的截图进行文本信息识别;
S5.对S4的文本信息进行数据清洗,只保留中文字符;
S6.用行业分类器对清洗后的数据进行分类识别,对应结果记作r_url;
S7.匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。
作为优先,S1所述的从短信文本中分离出文本信息和网址信息具体方法如下:通过正则表达式从含有网址的短信文本中提取网址。
作为优先,S2所述的行业分类器生成方法如下:把短信文本集合按类别划分,然后利用基于语言模型的深度学习分类器进行训练,最后生成一个行业分类器。
作为优先,S4所述的第三方接口采用开源的Tesseract-OCR。
为解决上述问题,本发明公开了一种基于深度学习审核短信文本链接的装置,包括:
文本分离模块,用于从待审核的含网站信息的短信文本中分离出文本信息和网址信息;
行业分类模块,用于对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;对清洗后的数据进行分类识别,对应结果记作r_url;
接口检测模块,用于检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;
文本识别模块,用于对截图进行文本信息识别;
数据清洗模块,用于对文本信息进行数据清洗,只保留中文字符;
数据匹配模块,用于匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。
为解决上述问题,本发明还公开了一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据所述的方法中的任一方法的指令。
为解决上述问题,本发明还公开了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据所述的方法中的任一方法。
由于采用上述技术方案,本发明有着如下有益效果:本发明先调用第三方接口检查网址是否健康,再给短信链接页面截图,接着通过调用OCR接口提取截图页面中的字符,再清洗字符,最后进行审核。采用本发明的方法短信文本与网址可分开同时处理,能自动对包含网址链接的短信文本进行审核,完全替代人工审核。因此可以提供高并发的短信链接审核,提供高准确率的短信链接审核,提供持续的短信链接审核,极大的提高了短信审核的准确率与效率。
附图说明
图1是本发明的整体流程示意图;
图2是本发明实施例的流程示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明公开了一种基于深度学习审核短信文本链接的方法,如图1所述,包括以下步骤:
S1.从待审核的含网站信息的短信文本中分离出文本信息和网址信息;
S2.通过事先训练好的行业分类器对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;
S3.调用第三方的接口检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;所述第三方接口为360或者百度的检查网址的接口,把网址当作参数传入到该接口,然后该接口会返回如下面例子中的结果;
S4.调用第三方的接口对S3的截图进行文本信息识别;
S5.对S4的文本信息进行数据清洗,只保留中文字符;
S6.用行业分类器对清洗后的数据进行分类识别,对应结果记作r_url;
S7.匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。
S1所述的从短信文本中分离出文本信息和网址信息具体方法如下:通过正则表达式从含有网址的短信文本中提取网址;
正则表达式如下:
r‘((http|ftp|https)://)?[\w\-_]+(((\.[\w\-_]+){3})|((\.[\w\-_]+)*(\.[A-Za-z]+)+))([\w\-\.,@?^=%&:/~\+#!]*[\w\-\@?^=%&/~\+#!])?’
S2所述的行业分类器,也是一个接口,具体实现过程为:先把短信文本集合按类别划分;然后,利用基于语言模型的深度学习分类器进行训练;最后当分类器的评价指标达到预期97%以上,则分类器停止训练,这个训练好的分类器就是此处使用的行业分类器。具体训练方式为现有技术手段,此处不再展开描述。
S4所述的第三方接口采用谷歌开源的Tesseract-OCR,OCR的具体实现过程也为现有技术手段,此处不再展开描述。
本发明还公开了一种基于深度学习审核短信文本链接的装置,包括:
文本分离模块,用于从待审核的含网站信息的短信文本中分离出文本信息和网址信息;
行业分类模块,用于对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;对清洗后的数据进行分类识别,对应结果记作r_url;
接口检测模块,用于检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;
文本识别模块,用于对截图进行文本信息识别;
数据清洗模块,用于对文本信息进行数据清洗,只保留中文字符;
数据匹配模块,用于匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。
本发明还公开了一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据所述的方法中的任一方法的指令。
本发明还公开了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据所述的方法中的任一方法。
实施例:
如图2所示,需要审核的短信文本内容为:
【X通信】最后X日!老订单复购可享高达13.5%赠送率的X东卡礼品包,即原订单返还金额X元复购后可在X个工作日内获得X元X东卡。
活动详情:https://X.cn/7
通过文本分离模块(S1)分离出的文本信息为:
【X通信】最后X日!老订单复购可享高达13.5%赠送率的X东卡礼品包,即原订单返还金额X元复购后可在X个工作日内获得X元X东卡。
活动详情:
通过文本分离模块(S1)分离出的网址信息为,https://X.cn/7;
通过行业分类模块(S2)识别出此条短信文本,记作r_text,即云服务;
通过接口检测模块(S3)检测出此短信文本健康并截图,具体方法如下:
Figure BDA0002501840900000071
如图2所示,1表示:信息正常,300表示:违法类,400表示:诈骗类,600表示:其它原因,-1表示:未知,未探测到。其中,1表示健康,其余为不健康。此条短信文本结果为1,表示信息正常,即健康。
通过文本识别模块(S4)识别出截图的文本信息内容;
通过数据清洗模块(S5)对文本信息进行数据清洗,只保留中文字符;
清洗后的内容如下:
“有有志和本活动B结刘由已持有本信即将到期员工专享订单的员工用户可通过预届揽购享受更多凡送预设复购后在原订单到期当日即生成与原订单返还全额一致的新订单合约期月并享受赠送按此赠送宁计得上关卡面值不足元的部分不计入赠送订单生成后个工作有可咏上提覃卡富登录后查看我的可复购订单”
通过行业分类模块(S6)对清洗后的数据进行分类识别,对应结果记作r_url,即云服务;
通过数据匹配模块(S7)匹配r_text的行业类别与r_url的行业类别均为云服务,结果一致,该条短信文本审核通过。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于深度学习审核短信文本链接的方法,其特征在于,包括以下步骤:
S1.从待审核的含网站信息的短信文本中分离出文本信息和网址信息;
S2.通过事先训练好的行业分类器对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;
S3.调用第三方的接口检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;
S4.调用第三方的接口对S3的截图进行文本信息识别;
S5.对S4的文本信息进行数据清洗,只保留中文字符;
S6.用行业分类器对清洗后的数据进行分类识别,对应结果记作r_url;
S7.匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。
2.根据权利要求1所述的一种基于深度学习审核短信文本链接的方法,其特征在于:S1所述的从短信文本中分离出文本信息和网址信息具体方法如下:通过正则表达式从含有网址的短信文本中提取网址。
3.根据权利要求2所述的一种基于深度学习审核短信文本链接的方法,其特征在于:S2所述的行业分类器生成方法如下:把短信文本集合按类别划分,然后利用基于语言模型的深度学习分类器进行训练,最后生成一个行业分类器。
4.根据权利要求3所述的一种基于深度学习审核短信文本链接的方法,其特征在于:S4所述的第三方接口采用开源的Tesseract-OCR。
5.一种基于深度学习审核短信文本链接的装置,包括:
文本分离模块,用于从待审核的含网站信息的短信文本中分离出文本信息和网址信息;
行业分类模块,用于对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;对清洗后的数据进行分类识别,对应结果记作r_url;
接口检测模块,用于检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;
文本识别模块,用于对截图进行文本信息识别;
数据清洗模块,用于对文本信息进行数据清洗,只保留中文字符;
数据匹配模块,用于匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。
6.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-4所述的方法中的任一方法的指令。
7.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-4所述的方法中的任一方法。
CN202010434795.2A 2020-05-21 2020-05-21 一种基于深度学习审核短信文本链接的方法及装置 Active CN111597805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010434795.2A CN111597805B (zh) 2020-05-21 2020-05-21 一种基于深度学习审核短信文本链接的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434795.2A CN111597805B (zh) 2020-05-21 2020-05-21 一种基于深度学习审核短信文本链接的方法及装置

Publications (2)

Publication Number Publication Date
CN111597805A true CN111597805A (zh) 2020-08-28
CN111597805B CN111597805B (zh) 2021-01-05

Family

ID=72185915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434795.2A Active CN111597805B (zh) 2020-05-21 2020-05-21 一种基于深度学习审核短信文本链接的方法及装置

Country Status (1)

Country Link
CN (1) CN111597805B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114745722A (zh) * 2022-06-15 2022-07-12 安徽创瑞信息技术有限公司 一种短信平台安全审核检验方法及系统
CN116996840A (zh) * 2023-09-26 2023-11-03 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397818B1 (ko) * 2000-11-03 2003-09-13 김동규 Url에 문자열을 추가하여 인식하는 방법, 이를 이용한사업 방법 및 이를 구현할 수 있는 기록매체
KR20080038505A (ko) * 2006-10-30 2008-05-07 경기대학교 산학협력단 워크케이스 기반의 워크플로우 엔진
CN101261630A (zh) * 2008-04-22 2008-09-10 郭诺 自主发布信息的网络服务中检查信息内容的方法和装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN106383862A (zh) * 2016-08-31 2017-02-08 杭州云片网络科技有限公司 一种违规短信检测方法及系统
CN107135314A (zh) * 2017-06-21 2017-09-05 北京奇虎科技有限公司 骚扰短信的检测方法、系统、移动终端和服务器
US20170277740A1 (en) * 2016-03-22 2017-09-28 Microsoft Technology Licensing, Llc Commanding and Task Completion through Self-messages
CN107612893A (zh) * 2017-09-01 2018-01-19 北京百悟科技有限公司 短信的审核系统和方法以及构建短信审核模型方法
CN110321423A (zh) * 2019-05-31 2019-10-11 阿里巴巴集团控股有限公司 一种文本数据的风险识别方法及服务器
CN110688831A (zh) * 2019-10-08 2020-01-14 上海创蓝文化传播有限公司 短信文本模版的识别方法
CN110781418A (zh) * 2018-07-30 2020-02-11 上海哔哩哔哩科技有限公司 基于url识别的网页文本编辑方法、装置和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397818B1 (ko) * 2000-11-03 2003-09-13 김동규 Url에 문자열을 추가하여 인식하는 방법, 이를 이용한사업 방법 및 이를 구현할 수 있는 기록매체
KR20080038505A (ko) * 2006-10-30 2008-05-07 경기대학교 산학협력단 워크케이스 기반의 워크플로우 엔진
CN101261630A (zh) * 2008-04-22 2008-09-10 郭诺 自主发布信息的网络服务中检查信息内容的方法和装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
US20170277740A1 (en) * 2016-03-22 2017-09-28 Microsoft Technology Licensing, Llc Commanding and Task Completion through Self-messages
CN106383862A (zh) * 2016-08-31 2017-02-08 杭州云片网络科技有限公司 一种违规短信检测方法及系统
CN107135314A (zh) * 2017-06-21 2017-09-05 北京奇虎科技有限公司 骚扰短信的检测方法、系统、移动终端和服务器
CN107612893A (zh) * 2017-09-01 2018-01-19 北京百悟科技有限公司 短信的审核系统和方法以及构建短信审核模型方法
CN110781418A (zh) * 2018-07-30 2020-02-11 上海哔哩哔哩科技有限公司 基于url识别的网页文本编辑方法、装置和存储介质
CN110321423A (zh) * 2019-05-31 2019-10-11 阿里巴巴集团控股有限公司 一种文本数据的风险识别方法及服务器
CN110688831A (zh) * 2019-10-08 2020-01-14 上海创蓝文化传播有限公司 短信文本模版的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王玉玲 等: "行业垃圾短信智能检测方案探讨", 《山 东 通 信 技 术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114745722A (zh) * 2022-06-15 2022-07-12 安徽创瑞信息技术有限公司 一种短信平台安全审核检验方法及系统
CN114745722B (zh) * 2022-06-15 2022-08-12 安徽创瑞信息技术有限公司 一种短信平台安全审核检验方法及系统
CN116996840A (zh) * 2023-09-26 2023-11-03 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质
CN116996840B (zh) * 2023-09-26 2023-12-29 北京百悟科技有限公司 短信审核方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN111597805B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN110597964B (zh) 一种双录质检语义分析方法、装置及双录质检系统
CN109101469B (zh) 从数字化文档提取可搜索的信息
CN105912625B (zh) 一种面向链接数据的实体分类方法和系统
CN107657267B (zh) 产品潜在用户挖掘方法及装置
US10963912B2 (en) Method and system for filtering goods review information
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN111597805B (zh) 一种基于深度学习审核短信文本链接的方法及装置
CN109360089A (zh) 贷款风险预测方法及装置
CN109472207A (zh) 情绪识别方法、装置、设备及存储介质
CN105468468A (zh) 面向问答系统的数据纠错方法及装置
CN107491435A (zh) 基于计算机自动识别用户情感的方法及装置
CN110135225A (zh) 样本标注方法及计算机存储介质
CN110134961A (zh) 文本的处理方法、装置和存储介质
CN113220768A (zh) 基于深度学习的简历信息结构化方法及系统
CN111428480A (zh) 简历识别方法、装置、设备及存储介质
CN112700763A (zh) 语音标注质量评价方法、装置、设备及存储介质
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
CN110689447A (zh) 一种基于深度学习的社交软件用户发布内容的实时检测方法
CN104331395A (zh) 从文本中识别中文商品名称的方法和装置
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN112328812B (zh) 基于自调参数的领域知识抽取方法与系统、电子设备
CN117150003A (zh) 工单分析方法及装置
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN110889289B (zh) 信息明确度评估方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 201600 building 19, 68 Zhongchuang Road, Songjiang District, Shanghai

Patentee after: Shanghai Chuangyan Yunzhi Information Technology Co.,Ltd.

Address before: 201600 building 19, 68 Zhongchuang Road, Songjiang District, Shanghai

Patentee before: SHANGHAI CHUANGLAN CULTURE COMMUNICATION Co.,Ltd.