CN113888760A - 基于软件应用的违规信息监控方法、装置、设备及介质 - Google Patents

基于软件应用的违规信息监控方法、装置、设备及介质 Download PDF

Info

Publication number
CN113888760A
CN113888760A CN202111152648.7A CN202111152648A CN113888760A CN 113888760 A CN113888760 A CN 113888760A CN 202111152648 A CN202111152648 A CN 202111152648A CN 113888760 A CN113888760 A CN 113888760A
Authority
CN
China
Prior art keywords
text data
violation
software application
operation interface
illegal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111152648.7A
Other languages
English (en)
Other versions
CN113888760B (zh
Inventor
许海金
郑立君
罗国辉
罗芳
高洪喜
杨海威
颜恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202111152648.7A priority Critical patent/CN113888760B/zh
Publication of CN113888760A publication Critical patent/CN113888760A/zh
Application granted granted Critical
Publication of CN113888760B publication Critical patent/CN113888760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及人工智能技术,揭露了一种基于软件应用的违规信息监控方法,包括:抓取软件应用中的各层操作界面的截图图像,利用光学字符识别服务,提取各个截图图像中的文本数据,得到文本数据集合;对文本数据集合进行分词,得到词组集合;根据词组集合,利用违规语言识别网络判断文本数据集合中各个文本数据中是否有违规语句;当文本数据集合中有违规语句时,提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示。此外,本发明还涉及区块链技术,用于训练违规语言识别网络的训练样本集合可存储于区块链的节点。本发明还提出一种基于软件应用的违规信息监控装置、电子设备以及存储介质。本发明可以提高消保监控的准确率。

Description

基于软件应用的违规信息监控方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于软件应用的违规信息监控方法、装置、电子设备及计算机可读存储介质。
背景技术
随着社会的发展,国家越来越注重保护金融消费者的合法权益,逐渐加强对金融产品和金融服务营销宣传行为的监测力度。而银行等企业为符合国家制度、规定,会对软件应用中各个业务界面进行消费者保护管控,其中,所述消费者保护(简称消保)监控是查看所述各个业务界面中时候含有敏感词汇、恶意引导等话语。
目前,各大企业中的消保管控方法主要是通过后台数据排查的方法进行违规信息地管控,但后台数据中各文本、图片内容格式不一致,数据整合较难,较难精准找到违规语句,并且后台数据可视化到前端页面中的排列组合操作,仍可能产生新的违规内容。
发明内容
本发明提供一种基于软件应用的违规信息监控方法、装置及计算机可读存储介质,其主要目的在于提高消保监控的准确率。
为实现上述目的,本发明提供的一种基于软件应用的违规信息监控方法,包括:
抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合;
利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合;
对所述文本数据集合中的各个文本数据进行分词,得到词组集合;
根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句;
当所述文本数据集合中没有违规语句时,则输出安全提示;
当所述文本数据集合中有违规语句时,提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示。
可选的,所述抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合,包括:
利用预构建的测试用例自动化执行所述目标软件应用;
利用预构建的界面抓取服务,截取所述目标软件应用的正在执行的操作界面;
实时抓取所述目标软件应用生成的统一资源定位符,并判断所述统一资源定位符中的预设字段是否发生变化;
当所述统一资源定位符中的预设字段没有发生变化,则返回上述的实时抓取所述目标软件应用生成的统一资源定位符的步骤;
当所述统一资源定位符中的预设字段发生变化时,判定所述操作界面已刷新,并判断所述正在执行的操作界面是所述目标软件应用的最后一个操作界面;
若所述正在执行的操作界面不是所述目标软件应用的最后一个操作界面,则返回上述的利用预构建的界面抓取服务,截取所述目标软件应用的正在执行的下一个操作界面;
若所述正在执行的操作界面是所述目标软件应用的最后一个操作界面,则汇总截取到的所有操作界面,得到截图图像集合。
可选的,所述利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合,包括:
利用所述光学字符识别服务中的灰度算法,对所述截图图像集合执行灰度化操作,得到灰度图像集合;
利用所述光学字符识别服务中的回归网络,自动框选所述灰度图像集合中各个灰度图像中的文字,得到文本图像集合;
利用所述光学字符识别服务中的单字识别算法,识别所述文本图像集合中的各个文本图像,得到文本数据集合。
可选的,所述对所述文本数据集合中的各个文本数据进行分词,得到词组集合之后,所述方法还包括:
根据预构建的敏感词汇集合,判断所述词组集合中是否含有敏感词汇;
当所述词组集合中含有敏感词汇,则输出所述词组集合中含有的敏感词汇进行报警;
当所述词组集合中不含有敏感词汇时,执行所述根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句的步骤。
可选的,所述根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句,包括:
利用预构建的word2Vec模型对所述词组集合进行量化操作,得到初始词向量集合;
利用预设的位置编码配置所述初始词向量集合,得到词向量集合;
利用所述违规语言识别网络中的特征提取网络,提取所述词向量集合中的特征,得到特征序列集合;
利用所述违规语言识别网络中的预设层数的二分类网络对所述特征序列集合中的各个特征序列进行分类判断,得到各个文本数据是否为违规语句的判断结果。
可选的,所述根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句之前,所述方法还包括:
步骤A、获取包含特征识别网络以及二分类网络的违规语言识别网络,以及训练样本集合;
步骤B、利用所述特征识别网络识别所述训练样本集合中的各个特征,得到样本特征集合;
步骤C、利用所述二分类网络判断所述样本特征集合的类别,得到样本预测结果集合;
步骤D、利用预设的损失函数,计算所述样本预测结果集合与所述训练样本集合对应的真实标签集合的损失值,并判断所述损失值与预设的标准阈值的大小关系;
步骤E、当所述损失值大于所述标准阈值,利用Adaboost算法更新所述违规语言识别网络中的模型参数,并返回上述步骤B;
步骤F、当所述损失值小于或等于所述标准阈值,得到训练完成的违规语言识别网络。
可选的,所述提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示,包括:
提取所述文本数据集合中违规的文本数据,并分析所述违规的文本数据对应的违规类别;
查询所述违规的文本数据所在的操作界面编号,并根据所述操作界面编号,将所述违规的文本数据及所述违规类别,发送至所述操作界面编号对应部门进行报警。
为了解决上述问题,本发明还提供一种基于软件应用的违规信息监控装置,所述装置包括:
图像获取模块,用于抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合;
文本识别模块,用于利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合,及对所述文本数据集合中的各个文本数据进行分词,得到词组集合;
违规判断模块,用于根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句;
判断结果输出模块,用于当所述文本数据集合中没有违规语句时,则输出安全提示,及当所述文本数据集合中有违规语句时,提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的基于软件应用的违规信息监控方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于软件应用的违规信息监控方法。
本发明实施例通过截取各操作界面的图像作为待检测数据,从客户视角进行违规检查,具有较高的准确性,此外,通过截图操作,可以将文本数据、图像数据统一转换为图像数据,有利于统一数据结构,有利于增加后续消保监控的过程的效率;此外,本发明利用违规语言识别网络对各个截图图像对应的词组集合进行分类判断,得到检测结果,其中,所述违规语言识别网络为语言识别神经网络,能够高效、准确地分析出所述词组集合的语义,加快检测效率与准确性。因此本发明提出的基于软件应用的违规信息监控方法、装置、电子设备及计算机可读存储介质,可以解决进行软件应用的违规检测不准确的问题。
附图说明
图1为本发明一实施例提供的基于软件应用的违规信息监控方法的流程示意图;
图2为本发明一实施例提供的截图图像的流程示意图;
图3为本发明一实施例提供基于软件应用的违规信息监控方法中一个步骤的详细流程示意图;
图4为本发明一实施例提供的基于软件应用的违规信息监控装置的功能模块图;
图5为本发明一实施例提供的实现所述基于软件应用的违规信息监控方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于软件应用的违规信息监控方法。所述基于软件应用的违规信息监控方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于软件应用的违规信息监控方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于软件应用的违规信息监控方法的流程示意图。
在本实施例中,所述基于软件应用的违规信息监控方法包括:
S1、抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合。
详细的,如图2所示,本发明实施例中,所述抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合,包括:
S11、利用预构建的测试用例自动化执行所述目标软件应用;
S12、利用预构建的界面抓取服务,截取所述目标软件应用的正在执行的操作界面;
S13、实时抓取所述目标软件应用生成的统一资源定位符,并判断所述统一资源定位符中的预设字段是否发生变化;
当所述统一资源定位符中的预设字段没有发生变化,则返回上述的实时抓取所述目标软件应用生成的统一资源定位符的步骤;
当所述统一资源定位符中的预设字段发生变化时,S14、判定所述操作界面已刷新,并判断所述正在执行的操作界面是所述目标软件应用的最后一个操作界面;
若所述正在执行的操作界面不是所述目标软件应用的最后一个操作界面,则返回上述的S12,利用预构建的界面抓取服务,截取所述目标软件应用的正在执行的下一个操作界面;
若所述正在执行的操作界面是所述目标软件应用的最后一个操作界面,则执行S15,汇总截取到的所有操作界面,得到截图图像集合。
本发明实施例中,所述界面抓取服务为一种协同服务程序,当预设条件被触发时,能够对目标软件应用(下述简称目标APP),如**口袋银行的当前界面进行截图操作。
进一步地,所述统一资源定位符(uniform resource locator,简称URL)为指定信息位置的表示方法,其中,包括请求地址、请求内容等。
本发明实施例利用预构建的的抓包工具Wire shark对所述目标APP的前端界面与后台服务器之间传输的请求、响应信息进行录制,得到所述目标APP时刻产生的URL。
众所周知,同一个界面中不同位置数据对应的URL中都具有本界面对应的编码字段,本发明实施例可以根据所述URL中与界面编号对应的一组编码字段,判断所述目标APP的当前界面是不是即将更换,当所述目标APP的当前界面即将更换时,本发明实施例触发所述界面抓取服务的执行场景,利用所述界面抓取服务对所述目标APP的操作界面进行截图,直至,所述测试用例在所述目标APP的执行动作结束,得到所述目标APP中各个操作界面的截图图像集合。
本申请实施例的所述界面抓取服务是基于人工智能技术对所述目标软件应用的截图图像进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
S2、利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合。
所述光学字符识别服务(Optical Character Recognition,简称OCR)为将图像中的文字转换成文本格式的方法,主要包括二值化、去噪处理、倾斜校正、字符切割、单字识别等一些列操作。
本发明实施例中获取的为目标APP操作界面上的截图图像,因此无需进行去噪处理、倾斜校正等一系列对拍摄得到的照片进行处理的操作。
详细的,如图3所示,本发明实施例中,所述利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合,包括:
S21、利用所述光学字符识别服务中的灰度算法,对所述截图图像集合执行灰度化操作,得到灰度图像集合;
S22、利用所述光学字符识别服务中的回归网络,自动框选所述灰度图像集合中各个灰度图像中的文字,得到文本图像集合;
S23、利用所述光学字符识别服务中的单字识别算法,识别所述文本图像集合中的各个文本图像,得到文本数据集合。
其中,所述灰度算法为将RGB三颜色通道的彩色图片转化为具有梯度变化的黑白图片,有利于减少数据量,提高后续图像识别速度;所述回归网络为一种通过回归算法配置的神经网络,常用于对图像中的特征进行识别、框选。
本发明实施中,通过所述灰度算法的公式为:
Gray=R*0.299+G*0.587+B*0.114
式中,所述Gray为灰度值,R、G、B分别为红绿蓝三颜色通道的值。
本发明实施例为避免低速的浮点运算,所以需要整数算法,得到改进灰度算法:
Gray=(R*299+G*587+B*114+500)/1000
其中,所述Gray为改进灰度值,“/”除法是整数除法,所以需要加上500来实现四舍五入。
本发明实施例通过所述回归网络对所述灰度图像集合进行特征识别,当各个特征为文字的概率大于预设的70%时,将概率大于70%的范围内的特征进行框选,得到文本图像集合。再利用所述单字识别算法对各个文本图像集合进行行切割操作、字切割操作,得到单个字,再识别所述单个字中的字内特征,利用所述字内特征查询预构建的字特征数据库,识别所述单个字的含义并输出为文本形式,得到文本数据集合。
S3、对所述文本数据集合中的各个文本数据进行分词,得到词组集合。
本发明实施例利用一个预构建的分词服务,依次访问所述文本数据集合中的每个字,并根据两个字、三个字或四个字的间隔进行将各个文本数据进行拆分,得到各个短语块,在将所述短语块查询预构建的中文词语数据库,判断所述短语块是否为一个词语,当所述短语块不是一个词语,则将所述短语块进行删除,当所述短语块为一个词语,则将所述短语块进行提取,并存储在所述词组集合中。其中,所述分词服务为一种用于将句子进行拆分为多个短语块的遍历程序。
进一步的,本发明实施例中,所述对所述文本数据集合中的各个文本数据进行分词,得到词组集合之后,所述方法还包括:
根据预构建的敏感词汇集合,判断所述词组集合中是否含有敏感词汇;
当所述词组集合中含有敏感词汇,则输出所述词组集合中含有的敏感词汇进行报警;
当所述词组集合中不含有敏感词汇时,执行所述S3。
本发明实施例在将所述词组集合导入所述违规语言识别网络之前,可以利用预构建的敏感词汇集合对所述词组集合进行初级筛查,剔除所述词组集合中的浅显的敏感词汇,节约后续违规语言识别网络的运算资源,增加消保管控效率。
S4、根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句。
本发明实施例中,所述违规语言识别网络为一种根据预设的业务规则,在语言识别网络周构建了二分类网络的神经网络模型,可以判断识别出来的业务话语是否违反规定。
详细的,本发明实施例中,所述根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句,包括:
利用预构建的word2Vec模型对所述词组集合进行量化操作,得到初始词向量集合;
利用预设的位置编码配置所述初始词向量集合,得到词向量集合;
利用所述违规语言识别网络中的特征提取网络,提取所述词向量集合中的特征,得到特征序列集合;
利用所述违规语言识别网络中的预设层数的二分类网络对所述特征序列集合中的各个特征序列进行分类判断,得到各个文本数据是否为违规语句的判断结果。
其中,所述word2Vec模型为一种词表征数据转化为实数值向量的高效工具,可以将词语文本量化为词向量。
本发明实施例利用所述word2Vec模型将所述词组集合量化为初始词向量集合,如【“大平台值得信赖,全球一流服务”,E大平台、E值得、E全球、E服务、E一、E信赖】,当所述初始词向量集合中的各个初始词向量为离散型。为保证后续的特征提取网络能够提取更详细的特征,本发明实施例利用预设的位置编码【EA、EB……】【E0、E1、E2……】对所述初始词向量集合进行配置,得到词向量集合【EA+E0+E大平台、EA+E1+E值得、EA+E2+E信赖、EB+E0+E全球、EB+E1+E一、EB+E2+E服务】,使得所述词向量集合具有顺序信息。
本发明利用特征提取网络提取所述词向量集合中的各个特征,得到特征序列集合后,利用所述二分类网络判断所述特征序列集合中,是否含有虚假、夸大的语句,如“全球一流服务”,诱导的语句,如“无需考虑,立即办理业务”。
进一步的,本发明实施例中,所述将所述词组集合导入预训练的违规语言识别网络中之前,所述方法还包括:
步骤A、获取包含特征识别网络以及二分类网络的违规语言识别网络,以及训练样本集合;
步骤B、利用所述特征识别网络识别所述训练样本集合中的各个特征,得到样本特征集合。
本发明实施例利用所述特征识别网络中预设数量及大小,如N个3×3的卷积核对所述训练样本集合中的各个特征进行卷积,得到N个数据矩阵,再利用最大池化操作对所述N个数据矩阵进行降维处理,得到N个池化数据矩阵,再利用所述特征识别网络中的Flatten层将所述N个池化数据矩阵进行拆分排列为N个一维的样本特征,如
Figure BDA0003287630480000101
转化为【12 3 4 5 6 7 8 9】,由所述N个一维的样本特征组成所述样本特征集合。
其中,所述池化层、Flatten层均为所述特征识别网络中的结构,均用于对数据进行降维处理,减少后续识别判断过程的计算量。
步骤C、利用所述二分类网络判断所述样本特征集合的类别,得到样本预测结果集合;
步骤D、利用预设的损失函数,计算所述样本预测结果集合与所述训练样本集合对应的真实标签集合的损失值,并判断所述损失值与预设的标准阈值的大小关系。
其中,所述损失函数用于表示两组数据的不一样程度。
本发明实施例中,所述损失函数计算的为所述真实标签与所述预测标签的差距,得到损失值,其中,所述损失值可以表示模型的训练效果,损失值越小,训练完成程度越高,损失值越大,训练完成程度越低。
其中,所述损失函数为:
Figure BDA0003287630480000111
式中,
Figure BDA0003287630480000112
为所述训练样本集合中第一个训练样本对应的真实标签,
Figure BDA0003287630480000113
为所述训练样本集合中第一个训练样本对应的样本预测结果,BCE为二元交叉损失函数。
步骤E、当所述损失值大于所述标准阈值,利用Adaboost算法更新所述违规语言识别网络中的模型参数,并返回上述步骤B。
本发明实施例中所述标准阈值0.05。当所述损失值大于0.05时,表明所述违规语言识别网络的训练过程不完善,需要改进所述违规语言识别网络的模型参数进行重新训练。本发明实施例利用Adaboost算法修改所述违规语言识别网络中各个决策树的权重系数,再进行重新训练。其中,所述Adaboost算法为一种迭代算法,用于针对所述训练样本集合训练不同的决策树分类器(弱分类器),然后把这些弱的决策树分类器集合起来,构成一个更强的最终分类器(强分类器)。
步骤F、当所述损失值小于或等于所述标准阈值,得到训练完成的违规语言识别网络。
具体的,当所述损失值达到预设的标准阈值0.05时,可以判定训练过程完成,得到训练好的所述违规语言识别网络。
本发明利用训练好的违规语言识别网络,判断所述文本数据集合中各个文本数据中是否有违规语句,得到各个文本数据是否为违规语句的判断结果。
当所述文本数据集合中没有违规语句时,则S5、输出安全提示;
当所述文本数据集合中有违规语句时,S6、提取所述文本数据集合中违规的文本数据,并将所述文本数据生成警报提示。
详细的,本发明实施例中,所述提取所述文本数据集合中违规的文本数据,并将所述文本数据生成警报提示,包括:
提取所述文本数据集合中违规的文本数据,并提取所述违规的文本数据对应的违规类别;
查询所述违规的文本数据所在的操作界面编号,并根据所述操作界面编号,将所述违规的文本数据及所述违规类别,发送至所述操作界面编号对应部门进行报警。
本发明实施例中,一旦判定所述文本数据集合中存在违规的文本数据,则立即将于所述文本数据相关的数据,如【所述违规的文本数据对应的违规类别、截图图像、操作界面编号等】进行打包生成一个警报信息,并根据所述操作界面编号,找到负责所述操作界面编号的界面的部门,将所述警报信息发送给所述部门进行解决。
本发明实施例通过截取各操作界面的图像作为待检测数据,从客户视角进行违规检查,具有较高的准确性,此外,通过截图操作,可以将文本数据、图像数据统一转换为图像数据,有利于统一数据结构,有利于增加后续消保监控的过程的效率;此外,本发明利用违规语言识别网络对各个截图图像对应的词组集合进行分类判断,得到检测结果,其中,所述违规语言识别网络为语言识别神经网络,能够高效、准确地分析出所述词组集合的语义,加快检测效率与准确性。因此本发明提出的基于软件应用的违规信息监控方法、装置、电子设备及计算机可读存储介质,可以解决进行软件应用的违规检测不准确的问题。
如图4所示,是本发明一实施例提供的基于软件应用的违规信息监控装置的功能模块图。
本发明所述基于软件应用的违规信息监控装置100可以安装于电子设备中。根据实现的功能,所述基于软件应用的违规信息监控装置100可以包括图像获取模块101、文本识别模块102、违规判断模块103以及判断结果输出模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述图像获取模块101,用于抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合;
所述文本识别模块102,用于利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合,及对所述文本数据集合中的各个文本数据进行分词,得到词组集合;
所述违规判断模块103,用于根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句;
所述判断结果输出模块104,用于当所述文本数据集合中没有违规语句时,则输出安全提示,及当所述文本数据集合中有违规语句时,提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示。
详细地,本发明实施例中所述基于软件应用的违规信息监控装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于软件应用的违规信息监控方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现基于软件应用的违规信息监控方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于软件应用的违规信息监控程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于软件应用的违规信息监控程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于软件应用的违规信息监控程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于软件应用的违规信息监控程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合;
利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合;
对所述文本数据集合中的各个文本数据进行分词,得到词组集合;
根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句;
当所述文本数据集合中没有违规语句时,则输出安全提示;
当所述文本数据集合中有违规语句时,提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合;
利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合;
对所述文本数据集合中的各个文本数据进行分词,得到词组集合;
根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句;
当所述文本数据集合中没有违规语句时,则输出安全提示;
当所述文本数据集合中有违规语句时,提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于软件应用的违规信息监控方法,其特征在于,所述方法包括:
抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合;
利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合;
对所述文本数据集合中的各个文本数据进行分词,得到词组集合;
根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句;
当所述文本数据集合中没有违规语句时,则输出安全提示;
当所述文本数据集合中有违规语句时,提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示。
2.如权利要求1所述的基于软件应用的违规信息监控方法,其特征在于,所述抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合,包括:
利用预构建的测试用例自动化执行所述目标软件应用;
利用预构建的界面抓取服务,截取所述目标软件应用的正在执行的操作界面;
实时抓取所述目标软件应用生成的统一资源定位符,并判断所述统一资源定位符中的预设字段是否发生变化;
当所述统一资源定位符中的预设字段没有发生变化,则返回上述的实时抓取所述目标软件应用生成的统一资源定位符的步骤;
当所述统一资源定位符中的预设字段发生变化时,判定所述操作界面已刷新,并判断所述正在执行的操作界面是所述目标软件应用的最后一个操作界面;
若所述正在执行的操作界面不是所述目标软件应用的最后一个操作界面,则返回上述的利用预构建的界面抓取服务,截取所述目标软件应用的正在执行的下一个操作界面;
若所述正在执行的操作界面是所述目标软件应用的最后一个操作界面,则汇总截取到的所有操作界面,得到截图图像集合。
3.如权利要求1所述的基于软件应用的违规信息监控方法,其特征在于,所述利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合,包括:
利用所述光学字符识别服务中的灰度算法,对所述截图图像集合执行灰度化操作,得到灰度图像集合;
利用所述光学字符识别服务中的回归网络,自动框选所述灰度图像集合中各个灰度图像中的文字,得到文本图像集合;
利用所述光学字符识别服务中的单字识别算法,识别所述文本图像集合中的各个文本图像,得到文本数据集合。
4.如权利要求1所述的基于软件应用的违规信息监控方法,其特征在于,所述对所述文本数据集合中的各个文本数据进行分词,得到词组集合之后,所述方法还包括:
根据预构建的敏感词汇集合,判断所述词组集合中是否含有敏感词汇;
当所述词组集合中含有敏感词汇,则输出所述词组集合中含有的敏感词汇进行报警;
当所述词组集合中不含有敏感词汇时,执行所述根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句的步骤。
5.如权利要求1所述的基于软件应用的违规信息监控方法,其特征在于,所述根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句,包括:
利用预构建的word2Vec模型对所述词组集合进行量化操作,得到初始词向量集合;
利用预设的位置编码配置所述初始词向量集合,得到词向量集合;
利用所述违规语言识别网络中的特征提取网络,提取所述词向量集合中的特征,得到特征序列集合;
利用所述违规语言识别网络中的预设层数的二分类网络对所述特征序列集合中的各个特征序列进行分类判断,得到各个文本数据是否为违规语句的判断结果。
6.如权利要求1所述的基于软件应用的违规信息监控方法,其特征在于,所述根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句之前,所述方法还包括:
步骤A、获取包含特征识别网络以及二分类网络的违规语言识别网络,以及训练样本集合;
步骤B、利用所述特征识别网络识别所述训练样本集合中的各个特征,得到样本特征集合;
步骤C、利用所述二分类网络判断所述样本特征集合的类别,得到样本预测结果集合;
步骤D、利用预设的损失函数,计算所述样本预测结果集合与所述训练样本集合对应的真实标签集合的损失值,并判断所述损失值与预设的标准阈值的大小关系;
步骤E、当所述损失值大于所述标准阈值,利用Adaboost算法更新所述违规语言识别网络中的模型参数,并返回上述步骤B;
步骤F、当所述损失值小于或等于所述标准阈值,得到训练完成的违规语言识别网络。
7.如权利要求1所述的基于软件应用的违规信息监控方法,其特征在于,所述提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示,包括:
提取所述文本数据集合中违规的文本数据,并分析所述违规的文本数据对应的违规类别;
查询所述违规的文本数据所在的操作界面编号,并根据所述操作界面编号,将所述违规的文本数据及所述违规类别,发送至所述操作界面编号对应部门进行报警。
8.一种基于软件应用的违规信息监控装置,其特征在于,所述装置包括:
图像获取模块,用于抓取目标软件应用中的各层操作界面的截图图像,得到截图图像集合;
文本识别模块,用于利用预构建的光学字符识别服务,提取所述截图图像集合中各个截图图像中的文本数据,得到文本数据集合,及对所述文本数据集合中的各个文本数据进行分词,得到词组集合;
违规判断模块,用于根据所述词组集合,利用预构建的违规语言识别网络判断所述文本数据集合中各个文本数据中是否有违规语句;
判断结果输出模块,用于当所述文本数据集合中没有违规语句时,则输出安全提示,及当所述文本数据集合中有违规语句时,提取所述文本数据集合中违规的文本数据,并根据所述文本数据生成警报提示。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于软件应用的违规信息监控方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于软件应用的违规信息监控方法。
CN202111152648.7A 2021-09-29 2021-09-29 基于软件应用的违规信息监控方法、装置、设备及介质 Active CN113888760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111152648.7A CN113888760B (zh) 2021-09-29 2021-09-29 基于软件应用的违规信息监控方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111152648.7A CN113888760B (zh) 2021-09-29 2021-09-29 基于软件应用的违规信息监控方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113888760A true CN113888760A (zh) 2022-01-04
CN113888760B CN113888760B (zh) 2024-04-23

Family

ID=79008120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111152648.7A Active CN113888760B (zh) 2021-09-29 2021-09-29 基于软件应用的违规信息监控方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113888760B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541269A (zh) * 2023-12-08 2024-02-09 北京中数睿智科技有限公司 基于智能大模型的第三方模块数据实时监控方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012127461A1 (en) * 2011-03-22 2012-09-27 Wave Guard Technologies Ltd. A system and method of monitoring, management and control of licensing and permits of cellular providers' networks
CN103714456A (zh) * 2014-01-06 2014-04-09 同济大学 软件行为监控验证系统
CN111428493A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 实体关系获取方法、装置、设备及存储介质
CN111460814A (zh) * 2020-03-10 2020-07-28 中国平安人寿保险股份有限公司 敏感信息检测方法、装置、终端及介质
KR20200102095A (ko) * 2019-02-21 2020-08-31 주식회사 와이즈넛 텍스트 문서 요약을 위한 자질 추출 및 학습 방법
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112101335A (zh) * 2020-08-25 2020-12-18 深圳大学 一种基于ocr和迁移学习的app违规监测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012127461A1 (en) * 2011-03-22 2012-09-27 Wave Guard Technologies Ltd. A system and method of monitoring, management and control of licensing and permits of cellular providers' networks
CN103714456A (zh) * 2014-01-06 2014-04-09 同济大学 软件行为监控验证系统
KR20200102095A (ko) * 2019-02-21 2020-08-31 주식회사 와이즈넛 텍스트 문서 요약을 위한 자질 추출 및 학습 방법
CN111428493A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 实体关系获取方法、装置、设备及存储介质
CN111460814A (zh) * 2020-03-10 2020-07-28 中国平安人寿保险股份有限公司 敏感信息检测方法、装置、终端及介质
CN111695033A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112101335A (zh) * 2020-08-25 2020-12-18 深圳大学 一种基于ocr和迁移学习的app违规监测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541269A (zh) * 2023-12-08 2024-02-09 北京中数睿智科技有限公司 基于智能大模型的第三方模块数据实时监控方法及系统

Also Published As

Publication number Publication date
CN113888760B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
CN112507936B (zh) 图像信息审核方法、装置、电子设备及可读存储介质
CN112861648B (zh) 文字识别方法、装置、电子设备及存储介质
US20220004878A1 (en) Systems and methods for synthetic document and data generation
CN108491866B (zh) 色情图片鉴定方法、电子装置及可读存储介质
CN112528616B (zh) 业务表单生成方法、装置、电子设备及计算机存储介质
CN113704614A (zh) 基于用户画像的页面生成方法、装置、设备及介质
CN114218391A (zh) 一种基于深度学习技术的敏感信息识别方法
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN114398557A (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
CN113961764A (zh) 诈骗电话的识别方法、装置、设备及存储介质
CN115238670A (zh) 信息文本抽取方法、装置、设备及存储介质
CN114898373A (zh) 文件脱敏方法、装置、电子设备及存储介质
CN114416939A (zh) 智能问答方法、装置、设备及存储介质
CN113704474A (zh) 银行网点设备操作指引生成方法、装置、设备及存储介质
CN113821602A (zh) 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN113888760A (zh) 基于软件应用的违规信息监控方法、装置、设备及介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN115409041B (zh) 一种非结构化数据提取方法、装置、设备及存储介质
CN113221888B (zh) 车牌号管理系统测试方法、装置、电子设备及存储介质
CN113536782B (zh) 敏感词识别方法、装置、电子设备及存储介质
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
CN111429110B (zh) 门店标准化审核方法、装置、设备及存储介质
CN115203364A (zh) 软件故障反馈处理方法、装置、设备及可读存储介质
CN114267064A (zh) 一种人脸识别方法、装置、电子设备及存储介质
CN114385815A (zh) 基于业务需求的新闻筛选方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant