CN117541269A - 基于智能大模型的第三方模块数据实时监控方法及系统 - Google Patents

基于智能大模型的第三方模块数据实时监控方法及系统 Download PDF

Info

Publication number
CN117541269A
CN117541269A CN202311675496.8A CN202311675496A CN117541269A CN 117541269 A CN117541269 A CN 117541269A CN 202311675496 A CN202311675496 A CN 202311675496A CN 117541269 A CN117541269 A CN 117541269A
Authority
CN
China
Prior art keywords
data
party module
current page
module
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311675496.8A
Other languages
English (en)
Inventor
韩涵
王晓文
何江
谢开浪
马文龙
陈善君
夏暄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongshuruizhi Technology Co ltd
Original Assignee
Beijing Zhongshuruizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongshuruizhi Technology Co ltd filed Critical Beijing Zhongshuruizhi Technology Co ltd
Priority to CN202311675496.8A priority Critical patent/CN117541269A/zh
Publication of CN117541269A publication Critical patent/CN117541269A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及互联网信息监控技术领域,本发明公开了基于智能大模型的第三方模块数据实时监控方法及系统,方法包括:获取当前页面信息,以及初始置信度;对当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的内容比较数据与初始置信度进行处理计算,得到对应第三方模块的行为隶属度;判断行为隶属度是否大于预设隶属度阈值,若隶属度大于预设隶属度阈值,则对当前页面信息进行信息提取,以获取待识别数据;根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,以获取违规识别结果;将违规行为反馈至开放平台;本发明有利于对易违规的第三方模块进行重点监控。

Description

基于智能大模型的第三方模块数据实时监控方法及系统
技术领域
本发明涉及互联网信息监控技术领域,更具体地说,本发明涉及基于智能大模型的第三方模块数据实时监控方法及系统。
背景技术
随着开放平台的日益发展,第三方软件公司可以利用平台提供的接口和工具,独立开发和运营自己的应用程序,向用户提供个性化的服务,然而,由于第三方软件公司基数庞大以及接入平台的第三方模块(即第三方应用程序)多样复杂,且受限于开放平台方监管资源的限制,导致这些应用程序易通过应用接口在平台上上传或发布违法信息、广告或其他与服务内容无关的信息;但是,对于使用开放平台的用户而言,由于应用程序都是通过开放平台提供的入口接入的,用户通常不会对于应用的开发商有所了解,甚至认为所有通过开放平台运行的应用都来自于平台的运营商,因此若存在违规的第三方模块,易导致用户对开放平台产生负面印象;
因而,对于提供开放平台的运营商而言,如何保障第三方模块的服务质量,监管第三方模块的业务环境,向用户提供尽可能优质的服务,以维护用户对开放平台的良好体验以及自身的信誉,是面临的一个迫切需要解决的技术问题。
目前,现有对第三方模块的监控方法大多基于用户反馈或人工审核实现,此类方法费时费力,且效率和效果均较低,而部分第三方模块的监控方法又倾向于对第三方应用网络传输延时和加载速度进行设计,例如:授权公告号CN103138993B的中国专利公开了一种监控第三方应用加载速度的方法及装置,此类发明虽然能够实现对第三方应用网络传输延时和加载速度进行监控,但无法针对第三方模块的违规应用行为进行自动化的实时监控,无法有效合理调控监控和分析资源,且难以针对易违规的第三方模块进行重点监控和关注。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供基于智能大模型的第三方模块数据实时监控方法及系统。
为实现上述目的,本发明提供如下技术方案:
基于智能大模型的第三方模块数据实时监控方法,包括:
步骤1:实时获取第三方模块的当前页面信息,以及调取对应所述第三方模块的初始置信度;所述当前页面信息包括界面区域文本、界面区域图像或界面视频中的至少一种;
步骤2:对所述当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,得到对应所述第三方模块的行为隶属度;
步骤3:判断所述行为隶属度是否大于预设隶属度阈值,若所述行为隶属度大于预设隶属度阈值,则对所述当前页面信息进行信息提取,以获取当前页面的待识别数据;
步骤4:根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,以获取违规识别结果,所述违规识别结果包括对应所述第三方模块存在违规行为和对应所述第三方模块不存在违规行为;
步骤5:根据违规行为对对应所述第三方模块违规行为对对应所述第三方模块的初始置信度进行计算更新,以获取更新置信度;以及将所述违规行为反馈至开放平台。
进一步地,所述置信度相关信息包括第三方模块的用户评分Sur、第三方模块的平台评分Spr、第三方模块的更新速度Sus、违规次数Nov以及纠正时长Scd;
对所述当前页面信息进行内容比较,包括:
判断是否存在界面区域图像;
若存在界面区域图像,则提取对应所述第三方模块的预存特征图片,并基于余弦相似度算法对所述界面区域图像与预存特征图片进行计算,以获取第一余弦相似度;
将第一余弦相似度作为内容比较数据。
进一步地,对所述当前页面信息进行内容比较,还包括:
若不存在界面区域图像,则对所述第三方模块的当前页面进行截图,以获取页面截图图像;
基于余弦相似度算法对所述页面截图图像与预存特征图片进行计算,以获取第二余弦相似度;
将第二余弦相似度作为内容比较数据。
进一步地,判断所述行为隶属度是否大于预设隶属度阈值,包括:
若所述行为隶属度小于等于预设隶属度阈值,则判定对应所述第三方模块不存在违规行为,并返回至步骤1。
进一步地,对所述当前页面信息进行信息提取,包括:
判断是否存在界面区域文本;
若存在界面区域文本,则对所述界面区域文本进行分词处理,以获取若干个文本属性分词数据;
将若干个所述文本属性分词数据作为当前页面的待识别数据。
进一步地,对所述当前页面信息进行信息提取,还包括:
若不存在界面区域文本,则对所述界面区域图像和界面视频进行OCR识别,以获取OCR识别文本;
对所述OCR识别文本进行分词处理,以获取若干个OCR属性分词数据;
将若干个所述OCR属性分词数据作为当前页面的待识别数据。
进一步地,根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,包括:
提取所述当前页面的待识别数据中的若干个所述文本属性分词数据或若干个OCR属性分词数据;
将所述文本属性分词数据或OCR属性分词数据输入至预配置的违规识别大模型,得到违规识别结果;
其中,所述预配置的违规识别大模型的生成逻辑如下;
获取历史违规识别数据,将历史违规识别数据划分为违规识别训练集和违规识别测试集;所述历史违规识别数据包括多个词组及其对应的标注标签;
其中,所述标注标签将属于敏感词词库的对应词组标记为“1”,将不属于敏感词词库的对应词组标记为“0”,其中,“0”表示对应所述第三方模块不存在违规行为,“1”表示对应所述第三方模块存在违规行为;
构建分类器,将违规识别训练集中的词组作为分类器的输入数据,将违规识别训练集中的标注标签作为分类器的输出数据,对分类器进行训练,得到初始违规识别网络;
利用违规识别测试集对初始违规识别网络进行模型验证,输出大于等于预设测试准确度的初始违规识别网络作为预配置的违规识别大模型。
基于智能大模型的第三方模块数据实时监控系统,用于实现所述的基于智能大模型的第三方模块数据实时监控方法,包括:
实时获取模块,用于实时获取第三方模块的当前页面信息,以及调取对应所述第三方模块的初始置信度;
比对计算模块,用于对所述当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,得到对应所述第三方模块的行为隶属度;
第一判断处理模块,用于判断所述行为隶属度是否大于预设隶属度阈值,若隶属度大于预设隶属度阈值,则对所述当前页面信息进行信息提取,以获取当前页面的待识别数据;
第二判断处理模块,用于判断所述当前页面的待识别数据中是否存在预设特征数据,若存在预设特征数据,则判定对应所述第三方模块存在违规行为;
更新反馈模块,用于根据违规行为对对应所述第三方模块违规行为对对应所述第三方模块的初始置信度进行计算更新,以获取更新置信度;以及将所述违规行为反馈至开放平台。
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的基于智能大模型的第三方模块数据实时监控方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现上述任一项所述的基于智能大模型的第三方模块数据实时监控方法。
本发明首先实时获取第三方模块的当前页面信息,以及调取对应所述第三方模块的初始置信度;然后对所述当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,得到对应所述第三方模块的行为隶属度;接着判断所述行为隶属度是否大于预设隶属度阈值,若隶属度大于预设隶属度阈值,则对所述当前页面信息进行信息提取,以获取当前页面的待识别数据;之后根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,以获取违规识别结果;最后根据违规行为对对应所述第三方模块违规行为对对应所述第三方模块的初始置信度进行计算更新,以获取更新置信度;以及将所述违规行为反馈至开放平台;通过将内容比较数据与初始置信度结合获取行为隶属度,并基于行为隶属度进行初步判断。
与现有技术相比,本发明具有如下有益效果:
本发明有利于降低监控资源的利用率;此外,通过引入第三方模块的置信度作为监控分析触发条件,本发明有利于针对易违规的第三方模块进行重点监控和关注,从而有利于保障开放平台服务质量和环境。
附图说明
图1为本发明的基于智能大模型的第三方模块数据实时监控方法的示意图;
图2为本发明的基于智能大模型的第三方模块数据实时监控系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1所示,本实施例公开提供了基于智能大模型的第三方模块数据实时监控方法,包括:
步骤1:实时获取第三方模块的当前页面信息,以及调取对应所述第三方模块的初始置信度;
具体地,所述当前页面信息包括界面区域文本、界面区域图像或界面视频中的至少一种;
应当了解的是:所述第三方模块为运行于开放平台上任一个第三方软件公司的第三方应用程序,任一所述第三方应用程序在为用户提供业务服务时,通过用户操作功能模块后的显示页面进行业务反馈;
需要说明的是:所述第三方模块的初始置信度预存于置信度数据库中,所述置信度数据库包括若干个第三方模块的初始置信度,每个所述第三方模块均对应有一个所述第三方模块的初始置信度,每个所述第三方模块的初始置信度为对每个所述第三方模块的置信度相关信息进行量化计算所得到的具体无量纲化数值;
具体地,所述第三方模块的初始置信度的计算过程如下:
获取第三方模块的置信度相关信息;所述置信度相关信息包括第三方模块的用户评分Sur、第三方模块的平台评分Spr、第三方模块的更新速度Sus、违规次数Nov以及纠正时长Scd;
应当了解的是:所述第三方模块的用户评分为用户对第三方应用程序的评价值;所述第三方模块的平台评分为开放平台对第三方应用程序的评价值;所述第三方模块的更新速度为第三方模块进行版本更迭的速度,需要注意的是,第三方模块的更新速度越快说明其应用程序逐渐合规完善,因此其一般比较安全;所述违规次数是指第三方模块上传或发布违法信息、广告或其他与服务内容无关信息的次数;所述纠正时长是指当开放平台发现并向第三方模块的软件公司反馈违规行为到其对违规行为进行更改的时间范围;
对所述置信度相关信息进行公式化计算,以获取第三方模块的初始置信度,其计算公式为:式中:Con为初始置信度,w1>w2>w3>0,w1、w2和w3为置信度额定修正因子,w4>w5>0,w4和w5为置信度变化修正因子;
还需要说明的是:所述置信度变化修正因子根据每一次监控结果进行更新;进一步说明就是:若发现第三方模块违规次数增加,纠正时长也在增加,则分别对置信度变化修正因子w4和w5进行递增,递增数值为n,n大于零,n可人为设定,也可通过实验分析确定,对此本发明不做过多赘述;
还应当了解的是:所述第三方模块的当前页面信息是随用户操作或应用程序自身指令进行实时变化的,因此本发明所述第三方模块的当前页面信息是动态的,并非一成不变的,本领域人员对此应当清楚明白,因此本发明对其不做过多赘述;
步骤2:对所述当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,得到对应所述第三方模块的行为隶属度;
具体地,对所述当前页面信息进行内容比较,包括:
判断是否存在界面区域图像;
若存在界面区域图像,则提取对应所述第三方模块的预存特征图片,并基于余弦相似度算法对所述界面区域图像与预存特征图片进行计算,以获取第一余弦相似度;
需要说明的是:所述预存特征图片存储于特征图片库中,所述特征图片库包括每个所述第三方模块的预存特征图片;进一步需要说明的是:所述预存特征图片为第三方模块中的某个功能界面的图像,该功能界面的图像的选择具体由人为筛选确定,所述预存特征图片还可以为由第三方模块中每个功能界面的图像进行拼接而成的融合图像,该融合图像具备每个功能界面的图像的特征;该融合图像的每个拼接部分可以为每个功能界面的图像的局部,也可以为每个功能界面的图像的全局(即整张功能界面的图像);
将第一余弦相似度作为内容比较数据;
具体地,所述余弦相似度算法的公式为:式中:A表示向量化的界面区域图像;B表示向量化的预存特征图片;
具体地,对所述当前页面信息进行内容比较,还包括:
若不存在界面区域图像,则对所述第三方模块的当前页面进行截图,以获取页面截图图像;
基于余弦相似度算法对所述页面截图图像与预存特征图片进行计算,以获取第二余弦相似度;
将第二余弦相似度作为内容比较数据;
应该了解的是:所述第二余弦相似度的计算过程与所述第一余弦相似度的计算过程原理一致,对于第二余弦相似度的具体计算过程可参照上文,因此对此本发明不做过多赘述;
需要解释的是:所述行为隶属度表示所述第三方模块存在违规行为的可能性;需要进一步解释的是,所述行为隶属度越大,则表示所述第三方模块存在违规行为的可能性越小,相反,若所述行为隶属度越小,则表示所述第三方模块存在违规行为的可能性越大;
具体地,对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,获取行为隶属度,其具体计算公式为:式中:Sbm表示行为隶属度,θ2为大于零的隶属度额定修正因子,θ1为大于零的隶属度变化修正因子;
再需要说明的是:所述行为隶属度变化修正因子根据每一次监控结果进行更新;进一步说明就是:若发现所述初始置信度在更新后呈现下降趋势,对隶属度变化修正因子θ1进行递减,递减数值为m,m大于零,m可人为设定,也可通过实验分析确定,对此本发明不做过多赘述,需要注意的是:θ1最小仅能取零;
步骤3:判断所述行为隶属度是否大于预设隶属度阈值,若隶属度大于预设隶属度阈值,则对所述当前页面信息进行信息提取,以获取当前页面的待识别数据;
需要说明的是:若所述行为隶属度小于等于预设隶属度阈值,则判定对应所述第三方模块不存在违规行为,并返回至步骤1,重新进行下一轮对当前页面信息的判断,即对第三方模块进行下一轮的违规行为判断;
具体地,对所述当前页面信息进行信息提取,包括:
判断是否存在界面区域文本;
若存在界面区域文本,则对所述界面区域文本进行分词处理,以获取若干个文本属性分词数据;
将若干个所述文本属性分词数据作为当前页面的待识别数据;
具体地,对所述当前页面信息进行信息提取,还包括:
若不存在界面区域文本,则对所述界面区域图像和界面视频进行OCR识别,以获取OCR识别文本;
对所述OCR识别文本进行分词处理,以获取若干个OCR属性分词数据;
将若干个所述OCR属性分词数据作为当前页面的待识别数据;
步骤4:根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,以获取违规识别结果,所述违规识别结果包括对应所述第三方模块存在违规行为和对应所述第三方模块不存在违规行为;
应当了解的是:所述违规行为包括但不限于所述第三方模块存在上传或发布违法信息、广告或其他与服务内容无关的信息;
具体地,根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,包括:
提取所述当前页面的待识别数据中的若干个所述文本属性分词数据或若干个OCR属性分词数据;
将所述文本属性分词数据或OCR属性分词数据输入至预配置的违规识别大模型,得到违规识别结果;
其中,所述预配置的违规识别大模型的生成逻辑如下;
获取历史违规识别数据,将历史违规识别数据划分为违规识别训练集和违规识别测试集;所述历史违规识别数据包括多个词组及其对应的标注标签;
其中,所述标注标签将属于敏感词词库的对应词组标记为“1”,将不属于敏感词词库的对应词组标记为“0”,其中,“0”表示对应所述第三方模块不存在违规行为,“1”表示对应所述第三方模块存在违规行为;
构建分类器,将违规识别训练集中的词组作为分类器的输入数据,将违规识别训练集中的标注标签作为分类器的输出数据,对分类器进行训练,得到初始违规识别网络;
利用违规识别测试集对初始违规识别网络进行模型验证,输出大于等于预设测试准确度的初始违规识别网络作为预配置的违规识别大模型;
需要说明的是:所述分类器具体为朴素贝叶斯分类模型、支持向量机分类模型、决策树分类模型、随机森林分类模型或循环神经网络分类模型中的一种;
还需要说明的是:若违规识别结果显示对应所述第三方模块不存在违规行为,则返回至步骤1,重新进行下一轮对当前页面信息的判断,即对第三方模块进行下一轮的违规行为判断;
另需要说明的是:敏感词词库中包含有多个敏感词,其根据开放平台实际场景人为事先筛选确定,对此本发明不做过多赘述;
步骤5:根据违规行为对对应所述第三方模块的初始置信度进行计算更新,以获取更新置信度;以及将所述违规行为反馈至开放平台;以针对所述第三方模块的当前页面进行应用行为规范以及针对第三方模块厂商进行追责;
需要说明的是:在得到更新置信度后,获取对应第三方模块在置信度数据库中位置,同时在执行下一轮对当前页面信息的监控前,返回步骤1,并提取对应第三方模块的初始置信度,并基于更新置信度对所述初始置信度进行替换;
需要说明的是:若当前轮的监控未发现违规行为,则无需对对应所述第三方模块的初始置信度进行计算更新,反之,若当前轮的监控发现违规行为,则根据违规行为对对应所述第三方模块违规行为对对应所述第三方模块的初始置信度进行计算更新;进一步说明就是:若当前轮的监控发现违规行为,则按预定修正因子赋值策略分别对置信度变化修正因子w4、置信度变化修正因子w5以及隶属度变化修正因子θ1进行修正因子更改,之后再次重新计算,其计算可参照上文,对词本发明不做过多赘述;
还需要说明的是:当完成一轮违规行为监控时,自动重新跳转回步骤1进行下一轮的违规行为监控,通过自动循环跳转,本发明能够对第三方模块的违规应用行为进行自动化的实时监控。
实施例2
请参阅图2所示,本实施例公开提供了基于智能大模型的第三方模块数据实时监控系统,包括:
实时获取模块10,用于实时获取第三方模块的当前页面信息,以及调取对应所述第三方模块的初始置信度;
具体地,所述当前页面信息包括界面区域文本、界面区域图像或界面视频中的至少一种;
应当了解的是:所述第三方模块为运行于开放平台上任一个第三方软件公司的第三方应用程序,任一所述第三方应用程序在为用户提供业务服务时,通过用户操作功能模块后的显示页面进行业务反馈;
需要说明的是:所述第三方模块的初始置信度预存于置信度数据库中,所述置信度数据库包括若干个第三方模块的初始置信度,每个所述第三方模块均对应有一个所述第三方模块的初始置信度,每个所述第三方模块的初始置信度为对每个所述第三方模块的置信度相关信息进行量化计算所得到的具体无量纲化数值;
具体地,所述第三方模块的初始置信度的计算过程如下:
获取第三方模块的置信度相关信息;所述置信度相关信息包括第三方模块的用户评分Sur、第三方模块的平台评分Spr、第三方模块的更新速度Sus、违规次数Nov以及纠正时长Scd;
应当了解的是:所述第三方模块的用户评分为用户对第三方应用程序的评价值;所述第三方模块的平台评分为开放平台对第三方应用程序的评价值;所述第三方模块的更新速度为第三方模块进行版本更迭的速度,需要注意的是,第三方模块的更新速度越快说明其应用程序逐渐合规完善,因此其一般比较安全;所述违规次数是指第三方模块上传或发布违法信息、广告或其他与服务内容无关信息的次数;所述纠正时长是指当开放平台发现并向第三方模块的软件公司反馈违规行为到其对违规行为进行更改的时间范围;
对所述置信度相关信息进行公式化计算,以获取第三方模块的初始置信度,其计算公式为:式中:Con为初始置信度,w1>w2>w3>0,w1、w2和w3为置信度额定修正因子,w4>w5>0,w4和w5为置信度变化修正因子;
还需要说明的是:所述置信度变化修正因子根据每一次监控结果进行更新;进一步说明就是:若发现第三方模块违规次数增加,纠正时长也在增加,则分别对置信度变化修正因子w4和w5进行递增,递增数值为n,n大于零,n可人为设定,也可通过实验分析确定,对此本发明不做过多赘述;
还应当了解的是:所述第三方模块的当前页面信息是随用户操作或应用程序自身指令进行实时变化的,因此本发明所述第三方模块的当前页面信息是动态的,并非一成不变的,本领域人员对此应当清楚明白,因此本发明对其不做过多赘述;
比对计算模块20,用于对所述当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,得到对应所述第三方模块的行为隶属度;
具体地,对所述当前页面信息进行内容比较,包括:
判断是否存在界面区域图像;
若存在界面区域图像,则提取对应所述第三方模块的预存特征图片,并基于余弦相似度算法对所述界面区域图像与预存特征图片进行计算,以获取第一余弦相似度;
需要说明的是:所述预存特征图片存储于特征图片库中,所述特征图片库包括每个所述第三方模块的预存特征图片;进一步需要说明的是:所述预存特征图片为第三方模块中的某个功能界面的图像,该功能界面的图像的选择具体由人为筛选确定,所述预存特征图片还可以为由第三方模块中每个功能界面的图像进行拼接而成的融合图像,该融合图像具备每个功能界面的图像的特征;该融合图像的每个拼接部分可以为每个功能界面的图像的局部,也可以为每个功能界面的图像的全局(即整张功能界面的图像);
将第一余弦相似度作为内容比较数据;
具体地,所述余弦相似度算法的公式为:式中:A表示向量化的界面区域图像;B表示向量化的预存特征图片;
具体地,对所述当前页面信息进行内容比较,还包括:
若不存在界面区域图像,则对所述第三方模块的当前页面进行截图,以获取页面截图图像;
基于余弦相似度算法对所述页面截图图像与预存特征图片进行计算,以获取第二余弦相似度;
将第二余弦相似度作为内容比较数据;
应该了解的是:所述第二余弦相似度的计算过程与所述第一余弦相似度的计算过程原理一致,对于第二余弦相似度的具体计算过程可参照上文,因此对此本发明不做过多赘述;
需要解释的是:所述行为隶属度表示所述第三方模块存在违规行为的可能性;需要进一步解释的是,所述行为隶属度越大,则表示所述第三方模块存在违规行为的可能性越小,相反,若所述行为隶属度越小,则表示所述第三方模块存在违规行为的可能性越大;
具体地,对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,获取行为隶属度,其具体计算公式为:式中:Sbm表示行为隶属度,θ2为大于零的隶属度额定修正因子,θ1为大于零的隶属度变化修正因子;
再需要说明的是:所述行为隶属度变化修正因子根据每一次监控结果进行更新;进一步说明就是:若发现所述初始置信度在更新后呈现下降趋势,对隶属度变化修正因子θ1进行递减,递减数值为m,m大于零,m可人为设定,也可通过实验分析确定,对此本发明不做过多赘述,需要注意的是:θ1最小仅能取零;
第一判断处理模块30,用于判断所述行为隶属度是否大于预设隶属度阈值,若隶属度大于预设隶属度阈值,则对所述当前页面信息进行信息提取,以获取当前页面的待识别数据;
需要说明的是:若所述行为隶属度小于等于预设隶属度阈值,则判定对应所述第三方模块不存在违规行为,并返回至实时获取模块10,重新进行下一轮对当前页面信息的判断,即对第三方模块进行下一轮的违规行为判断;
具体地,对所述当前页面信息进行信息提取,包括:
判断是否存在界面区域文本;
若存在界面区域文本,则对所述界面区域文本进行分词处理,以获取若干个文本属性分词数据;
将若干个所述文本属性分词数据作为当前页面的待识别数据;
具体地,对所述当前页面信息进行信息提取,还包括:
若不存在界面区域文本,则对所述界面区域图像和界面视频进行OCR识别,以获取OCR识别文本;
对所述OCR识别文本进行分词处理,以获取若干个OCR属性分词数据;
将若干个所述OCR属性分词数据作为当前页面的待识别数据;
第二判断处理模块40,用于根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,以获取违规识别结果,所述违规识别结果包括对应所述第三方模块存在违规行为和对应所述第三方模块不存在违规行为;
应当了解的是:所述违规行为包括但不限于所述第三方模块存在上传或发布违法信息、广告或其他与服务内容无关的信息;
具体地,根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,包括:
提取所述当前页面的待识别数据中的若干个所述文本属性分词数据或若干个OCR属性分词数据;
将所述文本属性分词数据或OCR属性分词数据输入至预配置的违规识别大模型,得到违规识别结果;
其中,所述预配置的违规识别大模型的生成逻辑如下;
获取历史违规识别数据,将历史违规识别数据划分为违规识别训练集和违规识别测试集;所述历史违规识别数据包括多个词组及其对应的标注标签;
其中,所述标注标签将属于敏感词词库的对应词组标记为“1”,将不属于敏感词词库的对应词组标记为“0”,其中,“0”表示对应所述第三方模块不存在违规行为,“1”表示对应所述第三方模块存在违规行为;
构建分类器,将违规识别训练集中的词组作为分类器的输入数据,将违规识别训练集中的标注标签作为分类器的输出数据,对分类器进行训练,得到初始违规识别网络;
利用违规识别测试集对初始违规识别网络进行模型验证,输出大于等于预设测试准确度的初始违规识别网络作为预配置的违规识别大模型;
需要说明的是:所述分类器具体为朴素贝叶斯分类模型、支持向量机分类模型、决策树分类模型、随机森林分类模型或循环神经网络分类模型中的一种;
还需要说明的是:若违规识别结果显示对应所述第三方模块不存在违规行为,则返回至实时获取模块10,重新进行下一轮对当前页面信息的判断,即对第三方模块进行下一轮的违规行为判断;
另需要说明的是:敏感词词库中包含有多个敏感词,其根据开放平台实际场景人为事先筛选确定,对此本发明不做过多赘述;
更新反馈模块50,用于根据违规行为对对应所述第三方模块违规行为对对应所述第三方模块的初始置信度进行计算更新,以获取更新置信度;以及将所述违规行为反馈至开放平台;以针对所述第三方模块的当前页面进行应用行为规范以及针对第三方模块厂商进行追责;
需要说明的是:在得到更新置信度后,获取对应第三方模块在置信度数据库中位置,同时在执行下一轮对当前页面信息的监控前,返回实时获取模块10,并提取对应第三方模块的初始置信度,并基于更新置信度对所述初始置信度进行替换;
需要说明的是:若当前轮的监控未发现违规行为,则无需对对应所述第三方模块的初始置信度进行计算更新,反之,若当前轮的监控发现违规行为,则根据违规行为对对应所述第三方模块违规行为对对应所述第三方模块的初始置信度进行计算更新;进一步说明就是:若当前轮的监控发现违规行为,则按预定修正因子赋值策略分别对置信度变化修正因子w4、置信度变化修正因子w5以及隶属度变化修正因子θ1进行修正因子更改,之后再次重新计算,其计算可参照上文,对此本发明不做过多赘述。
实施例3
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各方法所提供的任一项所述第三方模块实时监控方法。
实施例4
一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,可以实现上述各方法所提供的任一项所述的基于智能大模型的第三方模块数据实时监控方法。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数以及阈值选取由本领域的技术人员根据实际情况进行设置。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线网络或无线网络方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可意识到,结合本发明中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于智能大模型的第三方模块数据实时监控方法,其特征在于,包括:
步骤1:实时获取第三方模块的当前页面信息,以及调取对应所述第三方模块的初始置信度;所述当前页面信息包括界面区域文本、界面区域图像或界面视频中的至少一种;
步骤2:对所述当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,得到对应所述第三方模块的行为隶属度;
步骤3:判断所述行为隶属度是否大于预设隶属度阈值,若所述行为隶属度大于预设隶属度阈值,则对所述当前页面信息进行信息提取,以获取当前页面的待识别数据;
步骤4:根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,以获取违规识别结果,所述违规识别结果包括对应所述第三方模块存在违规行为和对应所述第三方模块不存在违规行为;
步骤5:根据违规行为对对应所述第三方模块违规行为对对应所述第三方模块的初始置信度进行计算更新,以获取更新置信度;以及将所述违规行为反馈至开放平台。
2.根据权利要求1所述的基于智能大模型的第三方模块数据实时监控方法,其特征在于,所述置信度相关信息包括第三方模块的用户评分Sur、第三方模块的平台评分Spr、第三方模块的更新速度Sus、违规次数Nov以及纠正时长Scd;
对所述当前页面信息进行内容比较,包括:
判断是否存在界面区域图像;
若存在界面区域图像,则提取对应所述第三方模块的预存特征图片,并基于余弦相似度算法对所述界面区域图像与预存特征图片进行计算,以获取第一余弦相似度;
将第一余弦相似度作为内容比较数据。
3.根据权利要求2所述的基于智能大模型的第三方模块数据实时监控方法,其特征在于,对所述当前页面信息进行内容比较,还包括:
若不存在界面区域图像,则对所述第三方模块的当前页面进行截图,以获取页面截图图像;
基于余弦相似度算法对所述页面截图图像与预存特征图片进行计算,以获取第二余弦相似度;
将第二余弦相似度作为内容比较数据。
4.根据权利要求3所述的基于智能大模型的第三方模块数据实时监控方法,其特征在于,判断所述行为隶属度是否大于预设隶属度阈值,包括:
若所述行为隶属度小于等于预设隶属度阈值,则判定对应所述第三方模块不存在违规行为,并返回至步骤1。
5.根据权利要求4所述的基于智能大模型的第三方模块数据实时监控方法,其特征在于,对所述当前页面信息进行信息提取,包括:
判断是否存在界面区域文本;
若存在界面区域文本,则对所述界面区域文本进行分词处理,以获取若干个文本属性分词数据;
将若干个所述文本属性分词数据作为当前页面的待识别数据。
6.根据权利要求5所述的基于智能大模型的第三方模块数据实时监控方法,其特征在于,对所述当前页面信息进行信息提取,还包括:
若不存在界面区域文本,则对所述界面区域图像和界面视频进行OCR识别,以获取OCR识别文本;
对所述OCR识别文本进行分词处理,以获取若干个OCR属性分词数据;
将若干个所述OCR属性分词数据作为当前页面的待识别数据。
7.根据权利要求6所述的基于智能大模型的第三方模块数据实时监控方法,其特征在于,根据所述当前页面的待识别数据和预配置违规识别大模型进行识别,包括:
提取所述当前页面的待识别数据中的若干个所述文本属性分词数据或若干个OCR属性分词数据;
将所述文本属性分词数据或OCR属性分词数据输入至预配置的违规识别大模型,得到违规识别结果;
其中,所述预配置的违规识别大模型的生成逻辑如下;
获取历史违规识别数据,将历史违规识别数据划分为违规识别训练集和违规识别测试集;所述历史违规识别数据包括多个词组及其对应的标注标签;
其中,所述标注标签将属于敏感词词库的对应词组标记为“1”,将不属于敏感词词库的对应词组标记为“0”,其中,“0”表示对应所述第三方模块不存在违规行为,“1”表示对应所述第三方模块存在违规行为;
构建分类器,将违规识别训练集中的词组作为分类器的输入数据,将违规识别训练集中的标注标签作为分类器的输出数据,对分类器进行训练,得到初始违规识别网络;
利用违规识别测试集对初始违规识别网络进行模型验证,输出大于等于预设测试准确度的初始违规识别网络作为预配置的违规识别大模型。
8.基于智能大模型的第三方模块数据实时监控系统,用于实现如权利要求1-7任一项所述的基于智能大模型的第三方模块数据实时监控方法,其特征在于,包括:
实时获取模块,用于实时获取第三方模块的当前页面信息,以及调取对应所述第三方模块的初始置信度;
比对计算模块,用于对所述当前页面信息进行内容比较,得到内容比较数据;以及对无量纲化后的所述内容比较数据与所述初始置信度进行处理计算,得到对应所述第三方模块的行为隶属度;
第一判断处理模块,用于判断所述行为隶属度是否大于预设隶属度阈值,若隶属度大于预设隶属度阈值,则对所述当前页面信息进行信息提取,以获取当前页面的待识别数据;
第二判断处理模块,用于判断所述当前页面的待识别数据中是否存在预设特征数据,若存在预设特征数据,则判定对应所述第三方模块存在违规行为;
更新反馈模块,用于根据违规行为对对应所述第三方模块违规行为对对应所述第三方模块的初始置信度进行计算更新,以获取更新置信度;以及将所述违规行为反馈至开放平台。
9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于智能大模型的第三方模块数据实时监控方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现权利要求1至7任一项所述的基于智能大模型的第三方模块数据实时监控方法。
CN202311675496.8A 2023-12-08 2023-12-08 基于智能大模型的第三方模块数据实时监控方法及系统 Pending CN117541269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311675496.8A CN117541269A (zh) 2023-12-08 2023-12-08 基于智能大模型的第三方模块数据实时监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311675496.8A CN117541269A (zh) 2023-12-08 2023-12-08 基于智能大模型的第三方模块数据实时监控方法及系统

Publications (1)

Publication Number Publication Date
CN117541269A true CN117541269A (zh) 2024-02-09

Family

ID=89782225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311675496.8A Pending CN117541269A (zh) 2023-12-08 2023-12-08 基于智能大模型的第三方模块数据实时监控方法及系统

Country Status (1)

Country Link
CN (1) CN117541269A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874936A (zh) * 2017-01-17 2017-06-20 腾讯科技(上海)有限公司 图像传播监测方法及装置
CN108134784A (zh) * 2017-12-19 2018-06-08 东软集团股份有限公司 网页分类方法及装置、存储介质及电子设备
CN109033072A (zh) * 2018-06-27 2018-12-18 广东省新闻出版广电局 一种基于互联网的视听节目监管系统
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN109784416A (zh) * 2019-01-26 2019-05-21 西南交通大学 基于手机信令数据的半监督svm的交通方式判别方法
WO2020237799A1 (zh) * 2019-05-29 2020-12-03 网宿科技股份有限公司 一种网站探测的方法和系统
CN113888760A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 基于软件应用的违规信息监控方法、装置、设备及介质
WO2022041406A1 (zh) * 2020-08-25 2022-03-03 深圳大学 一种基于ocr和迁移学习的app违规监测方法
CN114510669A (zh) * 2020-11-16 2022-05-17 中国电信股份有限公司 不良信息网站检测方法、装置以及存储介质
CN116452836A (zh) * 2023-05-10 2023-07-18 武汉精阅数字传媒科技有限公司 一种基于图像数据处理的新媒体素材内容采集系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN106874936A (zh) * 2017-01-17 2017-06-20 腾讯科技(上海)有限公司 图像传播监测方法及装置
CN108134784A (zh) * 2017-12-19 2018-06-08 东软集团股份有限公司 网页分类方法及装置、存储介质及电子设备
CN109033072A (zh) * 2018-06-27 2018-12-18 广东省新闻出版广电局 一种基于互联网的视听节目监管系统
CN109784416A (zh) * 2019-01-26 2019-05-21 西南交通大学 基于手机信令数据的半监督svm的交通方式判别方法
WO2020237799A1 (zh) * 2019-05-29 2020-12-03 网宿科技股份有限公司 一种网站探测的方法和系统
WO2022041406A1 (zh) * 2020-08-25 2022-03-03 深圳大学 一种基于ocr和迁移学习的app违规监测方法
CN114510669A (zh) * 2020-11-16 2022-05-17 中国电信股份有限公司 不良信息网站检测方法、装置以及存储介质
CN113888760A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 基于软件应用的违规信息监控方法、装置、设备及介质
CN116452836A (zh) * 2023-05-10 2023-07-18 武汉精阅数字传媒科技有限公司 一种基于图像数据处理的新媒体素材内容采集系统

Similar Documents

Publication Publication Date Title
US20210256320A1 (en) Machine learning artificialintelligence system for identifying vehicles
TWI621077B (zh) 理賠單據的字元識別方法及伺服器
CN107315810B (zh) 一种物联网设备行为画像方法
CN108810642B (zh) 一种弹幕显示方法、装置及电子设备
CN109561322A (zh) 一种视频审核的方法、装置、设备和存储介质
CN108416003A (zh) 一种图片分类方法和装置、终端、存储介质
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
US11462018B2 (en) Representative image generation
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN111859093A (zh) 敏感词处理方法、装置及可读存储介质
CN111784301A (zh) 用户画像的构建方法及装置、存储介质及电子设备
CN117009483A (zh) 问答服务的生成方法、装置、设备及可读存储介质
CN113516251B (zh) 一种机器学习系统及模型训练方法
CN113821296A (zh) 可视化界面生成方法、电子设备及存储介质
CN117541269A (zh) 基于智能大模型的第三方模块数据实时监控方法及系统
CN111353052B (zh) 一种多媒体对象推荐方法、装置、电子设备及存储介质
CN113743982A (zh) 广告投放方案推荐方法、装置、计算机设备及存储介质
CN108572948A (zh) 门牌信息的处理方法及装置
CN111708988A (zh) 侵权视频识别方法、装置、电子设备及存储介质
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
CN110879868A (zh) 顾问方案生成方法、装置、系统、电子设备及介质
CN112182413A (zh) 一种基于教学大数据的智能推荐方法及服务器
WO2024074146A1 (zh) 多媒体数据处理方法、装置、设备及存储介质
CN112232320B (zh) 印刷品文字的校对方法及相关设备
CN111612023A (zh) 一种分类模型构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination