CN116305257A - 隐私信息监测装置和隐私信息监测方法 - Google Patents

隐私信息监测装置和隐私信息监测方法 Download PDF

Info

Publication number
CN116305257A
CN116305257A CN202310150108.8A CN202310150108A CN116305257A CN 116305257 A CN116305257 A CN 116305257A CN 202310150108 A CN202310150108 A CN 202310150108A CN 116305257 A CN116305257 A CN 116305257A
Authority
CN
China
Prior art keywords
api
monitoring
information
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310150108.8A
Other languages
English (en)
Inventor
李丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Beishan Digital Technology Co ltd
Original Assignee
Hangzhou Beishan Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Beishan Digital Technology Co ltd filed Critical Hangzhou Beishan Digital Technology Co ltd
Priority to CN202310150108.8A priority Critical patent/CN116305257A/zh
Publication of CN116305257A publication Critical patent/CN116305257A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种隐私信息监测装置和隐私信息监测方法,所述装置包括:监测标签分析组件:分析待监测的应用程序,输出监测信息标签集和监测操作标签集;API数据分析组件:获取API接口处理请求和返回结果数据,对API接口处理请求和返回结果数据进行分析,输出API操作标签集和API信息标签集;业务处理组件:对监测标签分析组件、API数据分析组件的输出进行分析,根据需要输出提示信息。方法包括:输出监测信息标签集和监测操作标签集;在API网关内监听API接口,输出API操作标签集和API信息标签集;使用业务处理组件对上述输出进行分析,根据需要输出提示信息。本发明的隐私信息监测装置及方法,可以准确、自动、高效地对应用程序采集隐私信息的行为进行监控,确保应用程序符合法律法规规定。

Description

隐私信息监测装置和隐私信息监测方法
技术领域
本发明涉及一种隐私信息监测装置和隐私信息监测方法。
技术背景
随着信息技术的发展和应用程序在生活中的广泛应用,隐私信息的泄露成为了一个重要问题,应用程序未经用户同意收集信息、在后台静默收集信息、高频收集信息占用用户端硬件资源等问题日益突出,因此相关部门出台了《个人信息保护法》对个人信息收集做出了规定。因此,应用程序开发运营等过程中,都必须满足相关法律法规的规定,但是由于对相关法律法规进行合规检查要求的内容多且具有跨学科、覆盖面广等特点,如果进行人工分析会耗费大量时间、效率低下;另外开发人员可能使用第三方SDK等进行嵌入式开发,检测人员对应用程序功能不熟悉等,也会造成对部分违规收集隐私信息行为监测不及时不到位的问题;且人工检测还存在检测时合格运行时出现问题的可能性。因此,需要有准确可靠的自动监测技术对应用程序进行长期监测。
发明内容
本发明要解决应用程序人工进行隐私信息收集合规检查效率低且对违规收集隐私信息监测不及时不到位的问题,提供一种准确可靠的自动监测技术对应用程序收集隐私信息进行长期监测。
针对上述存在的局限性,本发明提出了一种隐私信息监测装置,包括:
监测标签分析组件100:分析待监测的应用程序,输出监测信息标签集和监测操作标签集;
API数据分析组件200:获取API接口处理请求和返回结果数据,对所述API接口处理请求和返回结果数据进行分析,输出API操作标签集和API信息标签集;
业务处理组件300:对所述监测标签分析组件100、所述API数据分析组件200的输出进行分析,根据分析结果判断存在违规收集隐私信息则输出提示信息。
进一步地:所述监测标签分析组件100,包括:
文本预处理模块101:将待分析文本进行文本切割、去除噪音、分词处理、向量化表征,从而获得文本向量化数据;
文本分析模块102:使用预先训练的自然语言处理模型分析所述文本向量化数据,获得所述监测信息标签集和所述监测操作标签集。
进一步地:所述监测标签分析组件100,还包括:文本质量评分模块104;所述文本质量评分模块104对所述文本向量化数据进行评分获得文本质量评分;
当所述文本质量评分小于预设阈值时,输出提示信息。
进一步地:所述待分析文本包括:所述待监测应用程序的帮助页面文本、使用手册文本、应用程序介绍文本、用户评论文本、隐私协议文本、权限声明文本。
进一步地:所述监测标签分析组件100,包括:
前端代码分析模块103:使用预设的代码分析模型,对所述应用程序的前端页面源代码进行分析,获取所述前端页面源代码对应的前端功能标签,根据预先设置的前端功能标签-信息标签映射表和前端功能标签-操作标签映射表,获得监测信息标签集和监测操作标签集。
进一步地:API数据分析组件200包括:
API数据获取模块201:获取API接口处理请求和返回结果数据,分析所述API接口处理请求和返回结果数据,从中获取“data”内容文本;
API文本预处理模块202:将所述“data”内容文本进行预处理转换为“data”内容文本的向量化数据;
API数据分析模块203:使用预设的模板匹配所述API接口处理请求和返回结果数据,获得所述API操作标签集,使用预先训练的自然语言处理模型分析所述“data”内容文本的向量化数据,获得所述API信息标签集。
进一步地:所述业务处理组件300包括:
判定模块301:
对比所述API操作标签集和所述监测操作标签集,当所述API操作标签集中含有的标签不在所述监测操作标签集中时,输出相应的提示信息类型;
对比所述API信息标签集和所述监测信息标签集,当所述API信息标签集中含有的标签不在所述监测信息标签集中时,输出相应的提示信息类型;
对所述API信息标签集中标签所对应的数据进行跟踪,在所设时间阈值内,所述应用程序未使用所述数据,输出相应的提示信息类型;
信息提示模块302:根据所述提示信息类型和预设的模板,输出提示信息。
进一步地:所述自然语言处理模型的训练方法为:
将训练语料文本预处理生成训练语料向量化数据;
选取模型,输入所述训练语料向量化数据,训练所述模型根据所述向量化数据输出所述操作标签和信息标签,迭代训练优化模型参数,直到达到预设满意度;
所述模型为fastText模型或Transformer模型。
进一步地:所述自然语言处理模型的训练方法中,进行参数优化时,采用Cross-Entropy损失作为评估函数,所述Cross-Entropy损失的计算公式为:
Figure BDA0004090505310000031
其中,p(x)是类别x对应的概率;
批量梯度下降方法的公式为:
Figure BDA0004090505310000032
其中,θ为参数向量,θ为历史参数,θj为第j个参数变量;
使用所述批量梯度下降方法搜索Cross-Entropy损失的最小值,当Cross-Entropy损失为最小值时,更新所述模型参数。
一种使用上述装置的隐私信息监测方法,包括:
步骤S101:使用所述监测标签分析组件100输出监测信息标签集和监测操作标签集;
步骤S102:使用所述API数据分析组件200输出API操作标签集和所述API信息标签集;
步骤S103:使用所述业务处理组件300对所述监测标签分析组件100、所述API数据分析组件200的输出进行分析,根据分析结果判断存在违规收集隐私信息则输出提示信息;
步骤S104:在API网关内监听所述API接口,重复步骤S102-S103。
与相关技术相比,本发明具有如下优点:
本发明的一个发明点的隐私信息监测装置,通过使用监测标签分析组件对应用程序进行分析,获取监测信息标签集和监测操作标签集,通过使用所述API数据分析组件分析应用程序API操作标签集和API信息标签集,对比应用程序API操作标签集和监测操作标签集、API信息标签集和监测信息标签集,发现违规收集问题使用预先设置的提示模板自动进行提示,从而可以准确、高效地对应用程序采集隐私信息的行为进行监控,确保应用程序符合法律法规规定。
本发明另一个发明点的隐私信息监测方法,也具有同样的优点。
附图说明
图1为本发明一个实施例的隐私信息监测装置的结构图;
图2为本发明一个实施例的隐私信息监测装置的结构图;
图3为本发明一个实施例的隐私信息监测方法的流程图;
图4为本发明一个实施例的fastText模型的原理图;
图5为本发明一个实施例的Hierarchical Softmax计算过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面对本发明进行进一步详细说明。但是应该理解,此处所描述仅仅用以解释本发明,并不用于限制本发明的范围。
除非另有定义,本文所使用的所有的技术术语和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同,本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文中所涉及的表征手段均可参阅现有技术中的相关描述,本文中不再赘述。
为了进一步了解本发明,下面结合最佳实施例对本发明作进一步的详细说明。
实施例1
如图1所示,一种隐私信息监测装置,包括:
监测标签分析组件100:分析待监测的应用程序,输出监测信息标签集和监测操作标签集;
API数据分析组件200:获取API接口处理请求和返回结果数据,对所述API接口处理请求和返回结果数据进行分析,输出API操作标签集和API信息标签集;
业务处理组件300:对所述监测标签分析组件100、所述API数据分析组件200的输出进行分析,根据分析结果判断存在违规收集隐私信息则输出提示信息。
所述监测标签分析组件100分析待监测的应用程序,可以通过应用程序的多个角度进行分析,例如通过应用程序的说明文档文本、应用程序的帮助页面文本等,不限于上述文本,通过预先训练的自然语言处理模型对应用程序具有的功能所需要采集的信息以及所需要进行的操作处理类型进行分析,从而得到监测信息标签集和监测操作标签集。
下表为信息标签样例:
数据名称 信息标签名称
张三 姓名
13890000000 电话号码
李四 姓名
可以理解,信息标签名称可以任意设定,只要唯一对应一个隐私信息类型即可,可以为英文字符、数字ID等。
所述API数据分析组件200对所述API的数据进行分析的方法如下:对数据处理访问API的消息进行解析分析,重点分析API接口处理请求和返回结果数据;
根据API接口关键词确认API接口处理类型,并进一步确认API的处理目的,主要API处理类型包括:GET(获取)、ADD(增加)、UPDATE(修改)、SAVE(保存)、DELETE(删除)、UPLOAD(上传)、SEND(发送);
下表为操作标签样例:
操作标签名称
获取
增加
可以理解操作标签名称可以任意设定,只要唯一对应一个隐私信息类型即可,可以为英文字符、数字ID等。
分析API接口消息响应内容,对于响应内容的“code”、“data”两个信息进行分析,如果“code”=“SUCCESS”,再进一步分析“data”内容,对“data”内容中涉及的数据属性对应的文本进行分析是否包含了隐私数据。
上述从文本中获取信息标签的方法有,使用预设的模板在全文中进行匹配,使用自然语言处理(NLP)模型对输入文本序列给出对应信息标签等方式;
使用预设模板匹配的方法例如,全文中查找“ADD”、“Address”等字段名称,正则表达式匹配“XX省/XX市/XX区”等类似地址类数据。
使用NLP模型对输入文本序列给出对应标签的方法,包括但不限于条件随机场模型、循环神经网络模型(RNN)、FastText模型、Transformer模型等。
将NLP模型给出的信息标签组合起来形成信息标签集,将分类模型给出的操作标签组合起来形成操作标签集。
针对不同文本的自然语言处理模型,可以使用相应类型文本进行训练,从而提高模型输出信息标签和操作标签的准确度。例如分析应用程序的自然语言处理模型使用应用程序相关文档进行训练,分析API处理的数据的自然语言处理模型使用API数据中获取的文本进行训练。
在实际应用时,对于API处理的数据,需要保证一定的采样数量,可以根据需要进行设定,例如设置为:当前API数据少于100条数据量,则进行全量分析,超过100条,则采样10%进行分析。以上仅为示例,可以根据需要进行设定。对于能直接匹配到“ADD”等字段名时可以使用较低采样率,如果未匹配则需要使用较高采样率,例如70%以上或全表采样逐一进行匹配或NLP分析。上述仅为示例,可以根据需要进行设定采样率,也可以使用机器分析数据后自动设定最佳采样率。
本发明的隐私信息监测装置以所述监测信息标签集和监测操作标签集作为监测范围,通过监测API的操作类型和处理的数据,比较上述API操作标签集和API信息标签集是否在所述监测信息标签集和监测操作标签集划定的监测范围内,如果发现有不在监测范围内的隐私数据采集即发出提示信息,反馈给检测人员。所述提示信息可以包含采集的具体数据、数据所属的隐私数据标签、采集时间、违规的具体情况等,不限于上述设定可以根据需要进行设定。
本发明的隐私信息监测装置,通过使用监测标签分析组件对应用程序进行分析,获取监测信息标签集和监测操作标签集,通过使用所述API数据分析组件分析应用程序API操作标签集和API信息标签集,对比应用程序API操作标签集和监测操作标签集、API信息标签集和监测信息标签集,发现违规收集问题使用预先设置的提示模板自动进行提示,从而可以准确、高效地对应用程序采集隐私信息的行为进行监控,确保应用程序符合法律法规规定。
实施例2
如图1所示,在实施例1的基础上,
进一步地:所述监测标签分析组件100,包括:
文本预处理模块101:将待分析文本进行文本切割、去除噪音、分词处理、表征为向量,从而获得文本向量化数据;
文本分析模块102:使用预先训练的自然语言处理模型分析所述文本向量化数据,获得所述监测信息标签集和所述监测操作标签集。
进一步地:所述监测标签分析组件100,还包括:文本质量评分模块104;所述文本质量评分模块104对所述文本向量化数据进行评分获得文本质量评分;
当所述文本质量评分小于预设阈值时,输出提示信息。
所述待分析文本为所述待监测应用程序的相关文本,包括但不限于应用程序说明文档、帮助程序文本、应用程序介绍、隐私协议、用户评论等,可以通过人工整理上传或机器自动收集的方式获取。
所述去除噪音包括去除停用词、标点符号等。中文分词可以使用现有工具如基于统计的方法等,不限于上述方法。
分词后将文本表征为向量的方法包括但不限于词袋方法、词嵌入模型。词袋方法为分词后所有词进行去重后组成的词汇表,词袋用于建立映射匹配对文本进行表征,将文本编码为对应的向量,具体的编码方法包括但不限于:one-hot编码、TF编码、TF-IDF编码等。词嵌入模型包括但不限于:CBOW模型、Skip-Gram模型。
所述预先训练的自然语言处理模型为fastText模型或Transformer模型,还可以为RNN模型等,不限于上述模型,只要是可以实现相关功能的NLP模型均可。
通过计算文本质量评分,可以对当前分析的文本质量进行评估,当前的文本不能提供足够多的有效的信息时,即当文本质量评分小于阈值时,做出提示,可以提醒检测人员输入更多质量较好的文本内容进行分析从而保证监测信息标签集和监测操作标签集的准确性和完整性;自动进行提示可以减轻工作量提高效率;也能进一步保证API数据分析组件300给出准确的API信息标签,可以依据所述文本质量评分来自动调节采样率或提示检测人员对监测时长等进行调整。
文本质量评分的方法可以为NLP(自然语言处理)的方法,也可以为规定评分表,使用程序自动算分的方式,不限于上述形式,只要可以实现文本质量评分即可。
进一步地:所述监测标签分析组件100,包括:
前端代码分析模块103:使用预设的代码分析模型,对所述应用程序的前端页面源代码进行分析,获取所述前端页面源代码对应的前端功能标签,根据预先设置的前端功能标签-信息标签映射表和前端功能标签-操作标签映射表,获得监测信息标签集和监测操作标签集。
通过设置前端代码分析模块103,可以对前端功能进行分析,分析功能对应的可能的信息收集操作,从而可以监测应用程序对于前端功能无关的隐私信息收集的行为。
综合使用上述分析前端页面源代码和应用程序相关说明文本的方法,可以更有效和全面的对应用程序所需收集的个人隐私信息进行评估。
进一步地:所述待分析文本包括:所述待监测应用程序的帮助页面文本、使用手册文本、应用程序介绍文本、用户评论文本、隐私协议文本、权限声明文本。对于以语音为媒介的信息,可以使用语音识别等技术转换为文本再进行分析,例如语音使用帮助、语音形式的应用程序介绍等。
在使用多种种类文本进行分析时,使用文本质量评分模块104对上述多种类型文本质量进行评分,可以自动筛选去除文本质量较低的文本,从而提高分析的准确性。
或,通过设置结果合并模块,使用各文本的文本质量评分计算各文本输出结果的权重,将各文本输出结果进行加权合并作为输出的监测信息标签集和监测操作标签集,从而提高输出的准确性。
进一步地:API数据分析组件300包括:
API数据获取模块201:获取API接口处理请求和返回结果数据,分析所述API接口处理请求和返回结果数据,从中获取“data”内容文本;
API文本预处理模块202:将所述“data”内容文本进行预处理转换为“data”内容文本的向量化数据;
API数据分析模块203:使用预设的模板匹配所述API接口处理请求和返回结果数据,获得所述API操作标签集,使用预先训练的自然语言处理模型分析所述“data”内容文本的向量化数据,获得所述API信息标签集。
进一步地:所述业务处理组件300包括:
判定模块301:
对比所述API操作标签集和所述监测操作标签集,当所述API操作标签集中含有的标签不在所述监测操作标签集中时,输出相应的提示信息类型;
对比所述API信息标签集和所述监测信息标签集,当所述API信息标签集中含有的标签不在所述监测信息标签集中时,输出相应的提示信息类型;
对所述API信息标签集中标签所对应的数据进行跟踪,在所设时间阈值内,所述应用程序未使用所述数据,输出相应的提示信息类型;
信息提示模块302:根据所述提示信息类型和预设的模板,输出提示信息。
信息提示模块302根据提示信息类型,为其匹配预设的模板,转换为业务提示信息,主要提示的主要类型例如:
①权限声明、隐私协议中未提到的类型的操作,例如只声明了读取,但监测到应用程序实施了写入、修改等操作的情况。
②隐私协议中未提到的应用程序要使用、收集的隐私信息类型,但监测到应用程序对其进行了读取、收集、发送等情况。
③前端页面功能涉及的隐私信息类型,例如地图类应用程序需要使用的定位等;监测前端功能与该种类隐私信息明显无关而进行收集的情况。
④应用程序长期占用客户端硬件资源,过于频繁的收集隐私信息的情况。
不限于上述情况,可以根据需要监测其他情况。
为了提高提示信息的可读性,可以在信息标签数据中记录信息标签的其他属性信息,例如当发现API处理或收集的数据的信息标签超出来自隐私协议的监测信息标签集时,则可以提示属于隐私协议未规定会采集的信息等。例如当发现收集的数据的信息标签超出来自前端页面功能分析得出的监测信息标签集时,则可以提示采集了与应用程序功能无关的信息。以上仅为示例,不限于上述形式,可以根据需要进行设置,上述方法可以提高提示信息的可读性和后续处理的效率。
业务处理组件300主要作用是对模型的预测结果进行后处理,目的是用于完善和实现开发所需的目标功能。训练完成的自然语言处理模型,在执行预测标签功能时,输出结果为输入文本序列所属的标签(类别)或者对应标签(类别)的概率。但是,实际所需的输出业务性文字说明才能进一步被使用,因此需要对预测结果进行业务判定转换。
对本发明的隐私信息监测装置的模型及相关业务功能模块进行封装并对外提供服务,常用的技术一般是某种具体的后端框架实现,在当前NLP开发中,主要使用FastAPI作为接口服务部署方案,该框架具有轻量高效的优点,其并发性能在当前业务场景下基本能满足需要。
进一步地:对API信息标签集中标签对应的数据进行监测,统计应用程序收集该标签数据的频率,当收集频率超过预设阈值时,输出提示消息。通过设置该功能,可以避免应用程序长期占用客户端硬件资源过于频繁的收集信息的情况。
进一步地:所述自然语言处理模型的训练方法为:
将训练语料文本预处理生成训练语料向量化数据;
选取模型,输入所述训练语料向量化数据,训练所述模型根据所述向量化数据输出所述操作标签和信息标签,迭代训练优化模型参数,直到达到预设满意度;
所述模型为fastText模型或Transformer模型。
所述模型不限于上述模型,例如还可以为RNN模型、BiLSTM+CRF模型等,凡是可以对词及词组的序列给出分类标签功能的模型均可。
所述模型使用的算法可以是分类算法或相似度算法。
如图4所示,fastText模型的工作原理是输入一个词的序列,输出这个词序列属于不同类别的概率。序列中的词和词组表征为特征向量,特征向量通过线性变换映射到隐藏层,隐藏层再映射到标签。具体为:将预处理数据转换为n-gram向量,对向量进行映射转换并进行加和平均计算后得到隐藏层特征向量,经Hierarchical Softmax计算后,得到输出向量,其中,向量值为类别概率。Hierarchical Softmax作为高维输出向量的计算方法,其过程如图5所示(图4、图5来源:Xin Rong,word2vec Parameter Learning Explained)。
fastText在预测标签时使用了非线性激活函数Sigmoid,其中每个节点n的权重是通过Sigmoid函数得到,Sigmoid函数计算公式如下
Figure BDA0004090505310000091
其中,xω是当前内部节点的词向量,而θ则是我们需要从训练样本求出的Logistic模型的参数。
使用fastText模型可以提高模型训练的效率和分类任务的效率,同时fastText会自己训练词向量。
Transformer模型由多层编码器和多层解码器构成,还具有注意力层,注意力层使模型能关注句子中其他位置的词,从而考虑了其他位置词对当前位置词的影响。
进行信息标签识别任务时,可以使用Transformer模型中ALBERT、BERT、DistilBERT、ELECTRA、RoBERTa等模型,但不限于上述模型。
进一步地:所述自然语言处理模型的训练方法中,进行参数优化时,采用Cross-Entropy损失作为评估函数,所述Cross-Entropy损失的计算公式为:
Figure BDA0004090505310000101
其中,p(x)是类别x对应的概率;
使用批量梯度下降方法搜索Cross-Entropy损失的最小值,所述批量梯度下降方法的公式为:
Figure BDA0004090505310000102
其中,θ为参数向量,θ为历史参数,θj为第j个参数变量;
使用上述公式计算所述Cross-Entropy损失,使用所述批量梯度下降方法搜索所述Cross-Entropy损失的最小值,当所述Cross-Entropy损失为最小值时,更新所述模型参数。
使用上述训练评估方法和寻找最小值的方法,可以实现快速迭代,从而提高训练效率。
使用Transformer模型进行训练时,可以使用进行过普通语料预训练的模型,再对当前领域进行针对训练,可以减小训练集的大小和缩短训练时间。
使用Transformer模型可以提高分类任务的处理效率,从而能快速的给出所需的分类标签,同时Transformer模型具有注意力层,可以使模型输出与其他位置的词相关,提高了输出的准确性。另外该模型可以进行自我监督学习,从而可以识别可能的新的标签。
实施例3
如图2所示,一种使用实施例1或2所述装置的隐私信息监测方法,包括:
步骤S101:使用所述监测标签分析组件100输出监测信息标签集和监测操作标签集;
步骤S102:使用所述API数据分析组件200输出API操作标签集和所述API信息标签集;
步骤S103:使用所述业务处理组件300对所述监测标签分析组件100、所述API数据分析组件200的输出进行分析,根据分析结果判断存在违规收集隐私信息则输出提示信息;
步骤S104:在API网关内监听所述应用程序API接口,重复步骤S102-S103。
在本发明的实施例中,本发明的隐私信息监测装置和方法可以用于违法收集隐私信息数据的监测场景,可以理解,所述监测装置和方法不限于上述应用,可以用于一切适用于本发明的发明构思和原理的应用场景中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种隐私信息监测装置,其特征在于:包括:
监测标签分析组件(100):分析待监测的应用程序,输出监测信息标签集和监测操作标签集;
API数据分析组件(200):获取API接口处理请求和返回结果数据,对所述API接口处理请求和返回结果数据进行分析,输出API操作标签集和API信息标签集;
业务处理组件(300):对所述监测标签分析组件(100)、所述API数据分析组件(200)的输出进行分析,根据分析结果判断存在违规收集隐私信息则输出提示信息。
2.如权利要求1所述的装置,其特征在于:
所述监测标签分析组件(100),包括:
文本预处理模块(101):将待分析文本进行文本切割、去除噪音、分词处理、向量化表征,从而获得文本向量化数据;
文本分析模块(102):使用预先训练的自然语言处理模型分析所述文本向量化数据,获得所述监测信息标签集和所述监测操作标签集。
3.如权利要求2所述的装置,其特征在于:
所述监测标签分析组件(100),还包括:
文本质量评分模块(104):
所述文本质量评分模块(104)对所述文本向量化数据进行评分获得文本质量评分;
当所述文本质量评分小于预设阈值时,输出提示信息。
4.如权利要求2所述的装置,其特征在于:
所述待分析文本包括:所述待监测应用程序的帮助页面文本、使用手册文本、应用程序介绍文本、用户评论文本、隐私协议文本、权限声明文本。
5.如权利要求1所述的装置,其特征在于:
所述监测标签分析组件(100),包括:
前端代码分析模块(103):
使用预设的代码分析模型,对所述应用程序的前端页面源代码进行分析,获取所述前端页面源代码对应的前端功能标签,根据预先设置的前端功能标签-信息标签映射表和前端功能标签-操作标签映射表,获得监测信息标签集和监测操作标签集。
6.如权利要求1或2所述的装置,其特征在于:
所述API数据分析组件(200)包括:
API数据获取模块(201):获取API接口处理请求和返回结果数据,分析所述API接口处理请求和返回结果数据,从中获取“data”内容文本;
API文本预处理模块(202):将所述“data”内容文本进行预处理转换为“data”内容文本的向量化数据;
API数据分析模块(203):使用预设的模板匹配所述API接口处理请求和返回结果数据,获得所述API操作标签集,使用预先训练的自然语言处理模型分析所述“data”内容文本的向量化数据,获得所述API信息标签集。
7.如权利要求1或2所述的装置,其特征在于:
所述业务处理组件(300)包括:
判定模块301:
对比所述API操作标签集和所述监测操作标签集,当所述API操作标签集中含有的标签不在所述监测操作标签集中时,输出相应的提示信息类型;
对比所述API信息标签集和所述监测信息标签集,当所述API信息标签集中含有的标签不在所述监测信息标签集中时,输出相应的提示信息类型;
对所述API信息标签集中标签所对应的数据进行跟踪,在所设时间阈值内,所述应用程序未使用所述数据,输出相应的提示信息类型;
信息提示模块302:根据所述提示信息类型和预设的模板,输出提示信息。
8.如权利要求2所述的装置,其特征在于:
所述自然语言处理模型的训练方法为:
将训练语料文本预处理生成训练语料向量化数据;
选取模型,输入所述训练语料向量化数据,训练所述模型根据所述向量化数据输出操作标签和信息标签,迭代训练优化模型参数,直到达到预设满意度;
所述模型为fastText模型或Transformer模型。
9.如权利要求8所述的装置,其特征在于:
所述自然语言处理模型的训练方法中,进行参数优化时,采用Cross-Entropy损失作为评估函数,所述Cross-Entropy损失的计算公式为:
Figure FDA0004090505290000021
其中,p(x)是类别x对应的概率;
批量梯度下降方法公式为:
Figure FDA0004090505290000022
其中,θ为参数向量,θ为历史参数,θj为第j个参数变量;
使用所述批量梯度下降方法搜索所述Cross-Entropy损失的最小值,当所述Cross-Entropy损失为最小值时,更新所述模型参数。
10.一种使用如权利要求1-9任意一项所述的隐私信息监测装置的隐私信息监测方法,其特征在于:包括:
步骤S101:使用所述监测标签分析组件(100)输出监测信息标签集和监测操作标签集;
步骤S102:使用所述API数据分析组件(200)输出API操作标签集和所述API信息标签集;
步骤S103:使用所述业务处理组件(300)对所述监测标签分析组件(100)、所述API数据分析组件(200)的输出进行分析,根据分析结果判断存在违规收集隐私信息则输出提示信息;
步骤S104:在API网关内监听所述应用程序API接口,重复步骤S102-S103。
CN202310150108.8A 2023-02-15 2023-02-15 隐私信息监测装置和隐私信息监测方法 Pending CN116305257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310150108.8A CN116305257A (zh) 2023-02-15 2023-02-15 隐私信息监测装置和隐私信息监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310150108.8A CN116305257A (zh) 2023-02-15 2023-02-15 隐私信息监测装置和隐私信息监测方法

Publications (1)

Publication Number Publication Date
CN116305257A true CN116305257A (zh) 2023-06-23

Family

ID=86828037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310150108.8A Pending CN116305257A (zh) 2023-02-15 2023-02-15 隐私信息监测装置和隐私信息监测方法

Country Status (1)

Country Link
CN (1) CN116305257A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391076A (zh) * 2023-12-11 2024-01-12 东亚银行(中国)有限公司 敏感数据的识别模型的获取方法、装置、电子设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391076A (zh) * 2023-12-11 2024-01-12 东亚银行(中国)有限公司 敏感数据的识别模型的获取方法、装置、电子设备及介质
CN117391076B (zh) * 2023-12-11 2024-02-27 东亚银行(中国)有限公司 敏感数据的识别模型的获取方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN109918635A (zh) 一种合同文本风险检测方法、装置、设备及存储介质
CN107102993B (zh) 一种用户诉求分析方法和装置
RU2704531C1 (ru) Способ и устройство для анализа семантической информации
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111782793A (zh) 智能客服处理方法和系统及设备
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN116305257A (zh) 隐私信息监测装置和隐私信息监测方法
CN114548072A (zh) 用于合同类文件的自动内容解析与信息评测方法及系统
CN111522948A (zh) 一种智能处理公文的方法及其系统
CN111209373A (zh) 基于自然语义的敏感文本识别方法和装置
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
CN116881395A (zh) 一种舆情信息检测方法和装置
CN114969347A (zh) 缺陷查重实现方法、装置、终端设备及存储介质
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN113761875A (zh) 事件抽取方法、装置、电子设备及存储介质
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN112133308A (zh) 一种用于语音识别文本多标签分类的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination