CN114386408A - 政务敏感信息识别方法、装置、设备、介质和程序产品 - Google Patents

政务敏感信息识别方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN114386408A
CN114386408A CN202210046034.9A CN202210046034A CN114386408A CN 114386408 A CN114386408 A CN 114386408A CN 202210046034 A CN202210046034 A CN 202210046034A CN 114386408 A CN114386408 A CN 114386408A
Authority
CN
China
Prior art keywords
government
statement
sensitive
sentence vector
government affair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210046034.9A
Other languages
English (en)
Inventor
赵若含
孙文岩
马腾
崔震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210046034.9A priority Critical patent/CN114386408A/zh
Publication of CN114386408A publication Critical patent/CN114386408A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种政务敏感信息识别方法。该方法包括:获取至少一条政务语句,其中,所述至少一条政务语句包括与政务数据相关联的文本内容;基于所述至少一条政务语句的语义信息,生成第一句向量;将所述第一句向量作为识别模型的输入,来获得所述识别模型输出的分类结果,其中,所述识别模型包括神经网络模型;根据所述分类结果,确定出所述至少一条政务语句涉及的敏感信息,其中,所述分类结果包括对所述至少一条政务语句的预测类别。本公开还提供了一种政务敏感信息识别装置、设备、存储介质和程序产品。

Description

政务敏感信息识别方法、装置、设备、介质和程序产品
技术领域
本公开涉及人工智能领域,更具体地,涉及一种政务敏感信息识别方法、装置、设备、介质和程序产品。
背景技术
政务数据可以包括政策文件、新闻资讯、政务服务事项、便民应用、办事指南等记载的数据。政务数据具有较大的影响,与其他领域相比,若出现敏感信息,会产生更加不利的后果。
目前政务敏感信息的识别一般是敏感词识别,例如依赖敏感词库进行查询匹配,确定政务数据中是否包含敏感词。但是敏感词识别的效果取决于敏感词库的敏感词覆盖范围,如果敏感词库没有相应的敏感词,则无法识别确定。
随着社会发展,在政务方面可能会出现新的敏感信息识别要求,并且若存在隐喻、缩写、简写或新的文字表述用法,敏感词库的扩展性低,无法确定出可能存在的敏感信息。因此,如何使用一种新的政务敏感信息识别方式,来提高识别效果,并动态适应政务方面新出现的敏感识别要求,成为当前亟待解决的问题。
发明内容
鉴于上述问题,本公开提供了一种考虑政务语句的语义信息,并引入了神经网络模型的政务敏感信息识别方法、装置、设备、介质和程序产品。
本公开实施例的一个方面,提供了一种政务敏感信息识别方法,包括:获取至少一条政务语句,其中,所述至少一条政务语句包括与政务数据相关联的文本内容;基于所述至少一条政务语句的语义信息,生成第一句向量;将所述第一句向量作为识别模型的输入,来获得所述识别模型输出的分类结果,其中,所述识别模型包括神经网络模型;根据所述分类结果,确定出所述至少一条政务语句涉及的敏感信息,其中,所述分类结果包括对所述至少一条政务语句的预测类别。
根据本公开的实施例,所述敏感信息包括敏感词,所述根据所述分类结果,确定出所述至少一条政务语句涉及的敏感信息包括:在所述预测类别为敏感类别的情况下,将所述至少一条政务语句作为第一查询语句,在敏感词库中进行查询,其中,所述敏感词库中包括至少一个敏感词;以及获得从所述敏感词库返回的敏感词查询结果。
根据本公开的实施例,在将所述句向量作为识别模型的输入之前,还包括训练所述识别模型,具体包括:根据N条政务敏感信息识别规则,获得N类训练样本,其中,每类所述训练样本包括具有同一类别标签的M条文本语句,N、M分别为大于或等于1的整数;基于所述M条文本语句中每条文本语句的语义信息,生成每条文本语句的第二句向量;利用所述第二句向量训练所述识别模型。
根据本公开的实施例,所述神经网络模型包括多层感知机模型,所述多层感知机模型包括全连接层、注意力层和输出层,所述训练所述识别模型包括训练所述多层感知机模型,具体包括:利用所述全连接层和所述注意力层处理所述第二句向量;将处理后的所述第二句向量输入至所述输出层,来获得每条文本语句对应的目标预测类别,其中,所述目标预测类别为所述N个评分中评分最高的预测类别;基于所述每条文本语句的目标预测类别,与敏感类别标签的差异程度,更新所述全连接层、所述注意力层和所述输出层中至少一层的网络参数。
根据本公开的实施例,所述全连接层包括第一全连接层、第二全连接层和第三全连接层,所述利用所述全连接层和所述注意力层处理所述第二句向量包括:将所述第二句向量输入至所述第一全连接层进行处理;获得所述第一全连接层处理后的所述第二句向量,输入至所述第二全连接层;获得所述第二全连接层处理后的所述第二句向量,输入至所述注意力层;获得所述注意力层处理后的所述第二句向量,输入至所述第三全连接层,以使得所述第三全连接层处理后的所述第二句向量作为所述输出层的输入。
根据本公开的实施例,所述至少一条政务语句包括第二查询语句,所述第二查询语句用于查询政务信息,所述方法还包括:在所述第二查询语句的预测类别为敏感类别的情况下,拦截所述第二查询语句;或在所述第二查询语句的预测类别为非敏感类别的情况下,基于所述第二查询语句进行查询。
根据本公开的实施例,在所述获取至少一条政务语句之前,还包括:获取待发布政务文件,所述待发布政务文件中包括所述至少一条政务语句;其中,所述方法还包括:在所述预测类别为敏感类别的情况下,拦截所述待发布政务文件;或在所述预测类别为非敏感类别的情况下,将所述待发布政务文件进行发布。
本公开实施例的另一方面提供了一种政务敏感信息识别装置,包括:语句获取模块,用于获取至少一条政务语句,其中,所述至少一条政务语句包括与政务数据相关联的文本内容;向量生成模块,用于基于所述至少一条政务语句的语义信息,生成第一句向量;分类结果模块,用于将所述第一句向量作为识别模型的输入,来获得所述识别模型输出的分类结果,其中,所述识别模型包括神经网络模型;敏感识别模块,用于根据所述分类结果,确定出所述至少一条政务语句涉及的敏感信息,其中,所述分类结果包括对所述至少一条政务语句的预测类别。
本公开实施例的另一方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行如上所述的方法。
本公开实施例的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
本公开实施例的另一方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的方法。
上述一个或多个实施例具有如下有益效果:相对于通过敏感词匹配的方式,本公开实施例可以首先基于语义信息生成第一句向量,然后将第一句向量输入至识别模型,该识别模型可以通过神经网络技术来对第一句向量处理,并输出至少一条政务语句的预测类别,最后可以在预测类别的基础上识别出敏感信息。从而在一定程度上避免了敏感词库的敏感词覆盖范围小、扩展性低的问题,提高识别效果,并能够结合对语义信息和第一句向量的处理过程,动态适应政务方面新出现的敏感识别要求。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的政务敏感信息识别方法的应用场景图;
图2示意性示出了根据本公开实施例的政务敏感信息识别方法的流程图;
图3示意性示出了根据本公开实施例的确定敏感信息的流程图;
图4示意性示出了根据本公开实施例的训练识别模型的流程图;
图5示意性示出了根据本公开实施例的训练多层感知机模型的流程图;
图6示意性示出了根据本公开实施例的处理第二句向量的流程图;
图7示意性示出了根据本公开的另一实施例的政务敏感信息识别方法的应用场景图;
图8示意性示出了根据本公开实施例的政务敏感信息识别装置的结构框图;
图9示意性示出了根据本公开实施例的适于实现政务敏感信息识别方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,对政务数据、政务语句的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理,在获得用户允许的情况下进行,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1示意性示出了根据本公开实施例的政务敏感信息识别方法的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
根据本公开的实施例,服务器105可以对接政府类门户网站或政务服务平台等官方信息公开渠道。用户可以通过终端设备101、102、103进行政务信息查询、政务文件发布、政务事项评论等操作。
需要说明的是,本公开实施例所提供的政务敏感信息识别方法一般可以由服务器105执行。相应地,本公开实施例所提供的政务敏感信息识别装置一般可以设置于服务器105中。本公开实施例所提供的政务敏感信息识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的政务敏感信息识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图7对本公开实施例的政务敏感信息识别方法进行详细描述。
图2示意性示出了根据本公开实施例的政务敏感信息识别方法的流程图。
如图2所示,该实施例的政务敏感信息识别方法包括操作S210~操作S240。
在操作S210,获取至少一条政务语句,其中,至少一条政务语句包括与政务数据相关联的文本内容。
用户可以通过上传文档、输入文字、输入语音或上传图片等方式,来发送至少一条政务语句。其中,针对语音或图片,可以通过语音识别或图片识别技术,来处理并转化为文本内容。
上述与政务数据相关联例如是指基于该文本内容来获取相关的政务数据,如查询、浏览等操作,还可以是该文本内容即属于政务数据,例如政务文件中的内容。
在操作S220,基于至少一条政务语句的语义信息,生成第一句向量。
可以对获取的文本内容进行分解,例如将每个段落中的句子以句号为单位进行分解,每个句子即为一条政务语句。然后,考虑各条政务语句之间的上下文语义联系,以及每条政务语句中单词之间的上下文语义联系,生成每条政务语句的第一句向量。
例如,可以采用BERT(Bidirectional Encoder Representation FromTransformers)模型来生成第一句向量。BERT模型能够生成融合左右上下文信息的深层双向的语言表征来作为句向量。BERT模型可以利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,相对于常规的embedding方法,通过BERT模型使用特征提取器Transformer生成句向量,能更好地学习到句子当中单词与单词之间的语义联系,提高准确度。
BERT模型可以由12层Transformer Encoder组成,参数总数约为110M。另外,可以冻结BERT模型的结构而选择其最后一层的输出作为第一句向量。
在操作S230,将第一句向量作为识别模型的输入,来获得识别模型输出的分类结果,其中,识别模型包括神经网络模型。
神经网络模型例如是指通过神经网络技术训练得到的人工智能模型。在本公开的一些实施例中,神经网络模型经过训练可以实现政务敏感信息识别的效果。
在操作S240,根据分类结果,确定出至少一条政务语句涉及的敏感信息,其中,分类结果包括对至少一条政务语句的预测类别。
分类结果可以包括对至少一条政务语句的一个或多个预测类别。预测类别可以包括敏感类别和非敏感类别。敏感类别例如是可能引起舆论风险、影响社会稳定或包含不良内容的类别,例如色情类别、暴力类别、语言攻击类别或政治类别等。
通过分类结果可以预测政务语句所属的类别,根据其所属类别进一步识别涉及的敏感信息。上述涉及的敏感信息可以为该条政务语句中可能包含的敏感内容,或者该条政务语句所相关的敏感内容。
相对于通过敏感词匹配的方式,本公开实施例可以首先基于语义信息生成第一句向量,然后将第一句向量输入至识别模型,该识别模型可以通过神经网络技术来对第一句向量处理,并输出至少一条政务语句的预测类别,最后可以在预测类别的基础上识别出敏感信息。从而在一定程度上避免了敏感词库的敏感词覆盖范围小、扩展性低的问题,能够提高识别效果,结合对语义信息和第一句向量的处理过程,动态适应政务方面新出现的敏感识别要求。
在本公开的一些实施例,至少一条政务语句包括第二查询语句,第二查询语句用于查询政务信息,方法还包括:在第二查询语句的预测类别为敏感类别的情况下,拦截第二查询语句。或在第二查询语句的预测类别为非敏感类别的情况下,基于第二查询语句进行查询。
例如针对应用于政府类门户网站或政务服务平台等渠道的政务检索系统,由于政务敏感信息经过在互联网的传播和扩散会影响社会的稳定和用户的使用,因此对于敏感信息识别和过滤是政务检索系统的功能之一。在该系统应用本公开实施例的识别方法,首先,可以获取到用户输入的第二查询语句。然后,提取第二查询语句的句向量。接着,将句向量输入至识别模型。接着,获取到识别模型输入的预测类别。
在另一些实施例中,若第二查询语句的预测类别为非敏感类别,可以在进行查询后,对返回的政务信息进行识别,避免给用户返回的政务信息中包含敏感内容。
根据本公开的实施例,通过对用户输入的查询语句进行识别,可以从需求端进行有效治理。无论用户有意或无意的输入具有敏感信息的查询语句,都可以进行拦截,在拦截了搜索语句的情况下,减小了命中具有敏感内容的政务信息的可能性,也节省了处理查询请求的计算资源。
在本公开的另一些实施例,在获取至少一条政务语句之前,还包括:获取待发布政务文件,待发布政务文件中包括至少一条政务语句。政务敏感信息识别方法还包括在预测类别为敏感类别的情况下,拦截待发布政务文件。或在预测类别为非敏感类别的情况下,将待发布政务文件进行发布。
政务文件可以包括各部门将要公开的部门公告、政策文件或政务类消息等。由于可能存在上级部门的要求传达或理解不到位,或者政务文件的撰稿人没有意识到文字表达上的问题,因此可以对待发布政务文件进行识别,根据分类结果确定是否能够发布。
以文字表达上的问题为例,若某语句内容为“支持生活性服务业的发展”,撰稿人可能本意为“支持、生活性、服务业、的、发展”,但是可能会被理解为“支持、生活、性服务业、的、发展”。若以敏感词库的方式进行敏感词匹配,一定程度上依赖于分解结果,例如分解得到“生活性”和“服务业”两个词,并分别进行匹配,敏感词库中可能不会匹配成功。
根据本公开的实施例,首先基于政务文件中各个语句的语义信息,生成句向量。然后,输入至识别模型进行分类。识别模型可以结合上下文的语义关系,例如“支持生活性服务业的发展”中单词之间的语义关系,输出其预测类别为敏感类别。最后,进行拦截,避免引起不利影响。
根据本公开的实施例,通过对待发布文件的敏感信息识别,可以提前确认出可能存在风险的内容,并及时拦截,避免发布后产生更加严重的后果,有利于提升渠道信息发布的规范性和政务管理效率。
图3示意性示出了根据本公开实施例的操作S240中确定敏感信息的流程图。
如图3所示,敏感信息包括敏感词,操作S240中根据分类结果,确定出至少一条政务语句涉及的敏感信息包括,在预测类别为敏感类别的情况下,执行操作S310~操作S320。
在操作S310,将至少一条政务语句作为第一查询语句,在敏感词库中进行查询,其中,敏感词库中包括至少一个敏感词。
在操作S320,获得从敏感词库返回的敏感词查询结果。
以识别用户的查询语句或待发布政务文件为例,若确定用户的查询语句或待发布政务文件中包含敏感信息,可以通过查询敏感词库的方式,从敏感词查询结果中获取一个或多个敏感词,便于用户进行整改,以消除查询语句或待发布政务文件中的敏感信息。
在一些实施例中,若至少一条政务语句通过隐喻、新的网络流行词或缩写等用法,而被识别模型分类为敏感类别,可能无法在敏感词库中匹配到对应的敏感词。可以通过对至少一条政务语句进行转换,例如对于隐喻、新的网络流行词或缩写等情况预设对应的转换规则,以转换后的内容作为第一查询语句,来返回敏感词查询结果。
在一些实施例中,运维人员可以对敏感词库进行后台管理,实现删除、修改或添加敏感词等操作,同时进一步优化识别模型的性能,提高敏感词识别准确率和精度。
在一些实施例中,操作S240中确定出敏感信息不局限于敏感词,例如可以根据预测类别,返回政务语句的语义可能涉及的法律法规、部门规定等内容。
图4示意性示出了根据本公开实施例的训练识别模型的流程图。
如图4所示,该实施例的训练识别模型可以包括操作S410~操作S430。
在操作S410,根据N条政务敏感信息识别规则,获得N类训练样本,其中,每类训练样本包括具有同一类别标签的M条文本语句,N、M分别为大于或等于1的整数。
N条政务敏感信息识别规则可以包括色情信息识别规则、暴力信息识别规则、语言攻击信息识别规则等规则,还可以包括如隐喻、缩写或新的网络流行词用法不当导致涉及敏感内容的识别规则。政务领域中敏感信息识别要求与其他领域存在一定的差异,可以根据社会发展情况及时更新识别规则,以动态适应政务领域对敏感信息识别的新需求。
N类训练样本可以对应于N个类别,例如非敏感类别,以及敏感类别中的各个色情、暴力、语言攻击等类别。每个类别下对应M条文本语句,并预先标记所属的类别标签。
在一些实施例中,以政务文件为例,公文表达方式可能跟普通表达方式有所不同,例如公文具有更高的严谨性要求。而政务文件中出现敏感信息的内容可能样本较少,因此,可以通过数据增强对现有公文样本进行更改,或自动生成新的公文样本的方式,获得训练样本。
在操作S420,基于M条文本语句中每条文本语句的语义信息,生成每条文本语句的第二句向量。其中,可以采用BERT模型来生成第二句向量。
在操作S430,利用第二句向量训练识别模型,其中,识别模型输出的分类结果包括每条文本语句属于N个类别的N个评分。
在每条文本语句涉及一个或多个类别的情况下,可以取评分较高的一个或多个评分,来确定预测类别。
根据本公开的实施例,根据政务敏感信息识别规则来获得对应类别的训练样本,可以有目的性的训练识别模型,令其学习每个类别的训练样本的特征,提高识别准确率。并且可以动态更新识别规则,来提高识别模型的适应能力,满足不同时期不同维度的识别需求。
图5示意性示出了根据本公开实施例的训练多层感知机模型的流程图。
如图5所示,该实施例的神经网络模型包括多层感知机模型,该多层感知机模型包括全连接层、注意力层和输出层,操作S430中训练识别模型包括训练多层感知机模型,具体可以包括操作S510~操作S530。
在操作S510,利用全连接层和注意力层处理第二句向量。
多层感知机(Multilayer Perceptron,MLP)模型为神经网络模型的一种,通过神经网络技术进行训练,最终确定网络参数,可以具有确定敏感信息的能力。
在操作S520,将处理后的第二句向量输入至输出层,来获得每条文本语句对应的目标预测类别,其中,目标预测类别为N个评分中评分最高的预测类别。
输出层可以为Softmax层,通过Softmax函数将处理后的第二句向量获得映射到每个类别的概率值,以此输出N个评分。
在操作S530,基于每条文本语句的目标预测类别,与敏感类别标签的差异程度,更新全连接层、注意力层和输出层中至少一层的网络参数。
网络参数可以是各层网络中各个神经元的权重系数,通过更新网络参数可以逐渐学习到各个类别的样本特征,并提高预测类别的准确程度。可以通过构建损失函数来计算每条文本语句的目标预测类别,与敏感类别标签的差异程度,例如交叉熵函数,基于交叉熵函数的计算结果来更新网络参数。
图6示意性示出了根据本公开实施例的处理第二句向量的流程图。
如图6所示,操作S510中利用全连接层和注意力层处理第二句向量可以包括操作S610~操作S640。
在操作S610,将第二句向量输入至第一全连接层进行处理。
在操作S620,获得第一全连接层处理后的第二句向量,输入至第二全连接层。
在操作S630,获得第二全连接层处理后的第二句向量,输入至注意力层。
注意力层通过引入注意力机制,对于第二全连接层处理后的第二句向量,提取对敏感信息识别起关键作用的特征信息,以权重分配的方式突出重要特征,忽略无关特征。
在操作S640,获得注意力层处理后的第二句向量,输入至第三全连接层。
通过三个全连接层以及注意力层的处理,对第二句向量进行充分的运算,并且,将注意力层置于第二全连接层之后,可以有效提取出关键特征,并由第三全连接触继续处理注意力层的输出向量,可以实现对N类训练样本的有效处理,并能够较好的适合政务敏感信息识别场景。
图7示意性示出了根据本公开的另一实施例的政务敏感信息识别方法的应用场景图。
如图7所示,首先,获得政务语句。接着,在获得政务语句之后,可以将其输入至Bert模型,由Bert模型融合政务语句的上下文语义信息,生成句向量。接着,将句向量输入至MLP分类模型(即识别模型)。最后,由MLP分类模型输出分类结果。
参照图7,说明MLP分类模型的分类过程。MLP分类模型可以包括3个Dense层(由上至下分别对应于第一全连接层、第二全连接层和第三全连接层)、2个Dropout层、1个Attention(注意力)层和1个Softmax层(即输出层),各个网络层设置顺序如图7所示。其中,Input层可以用于接收句向量并进行预处理,如格式校验、转换等处理。在一些实施例中,也可以取消该层,由第一dense层直接接收句向量。
第一个Dropout层可以用于训练阶段防止第一个Dense层的过拟合,提升泛化能力。第二个Dropout层可以设置在第二个Dense层之后,经过Attention层处理后,由第二个Dropout层处理后输出给第三个Dense层。
MLP分类模型训练完成后,可以在测试集进行测试,在进行测试时,可以取消上述2个Dropout层。例如,用户输入待搜索语句后,首先通过Bert模型生成句向量,作为MLP分类模型的输入特征,然后由MLP分类模型判定语句分类,返回预测类别Type和概率Probility(即评分)。若识别准确率达到95%(仅为示例),则认为已具备政务语句分类能力。
基于上述政务敏感信息识别方法,本公开还提供了一种政务敏感信息识别装置。以下将结合图8对该装置进行详细描述。
图8示意性示出了根据本公开实施例的政务敏感信息识别装置的结构框图。
如图8所示,该实施例的政务敏感信息识别装置800包括语句获取模块810、向量生成模块820、分类结果模块830和敏感识别模块840。
语句获取模块810可以执行操作S210,用于获取至少一条政务语句,其中,至少一条政务语句包括与政务数据相关联的文本内容。
向量生成模块820可以执行操作S220,用于基于至少一条政务语句的语义信息,生成第一句向量。
分类结果模块830可以执行操作S230,用于将第一句向量作为识别模型的输入,来获得识别模型输出的分类结果,其中,识别模型包括神经网络模型。
敏感识别模块830可以执行操作S230,用于根据分类结果,确定出至少一条政务语句涉及的敏感信息,其中,分类结果包括对至少一条政务语句的预测类别。
敏感识别模块830还可以在预测类别为敏感类别的情况下,执行操作S310~操作S320,用于将至少一条政务语句作为第一查询语句,在敏感词库中进行查询,其中,敏感词库中包括至少一个敏感词。以及获得从敏感词库返回的敏感词查询结果。
政务敏感信息识别装置800还可以包括训练模块,训练模块用于执行操作S410~操作S430,操作S510~操作S530,操作S610~操作S640,在此不做赘述。
根据本公开的实施例,语句获取模块810、向量生成模块820、分类结果模块830和敏感识别模块840中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,语句获取模块810、向量生成模块820、分类结果模块830和敏感识别模块840中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,语句获取模块810、向量生成模块820、分类结果模块830和敏感识别模块840中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了根据本公开实施例的适于实现政务敏感信息识别方法的电子设备的方框图。
如图9所示,根据本公开实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器90]通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906。包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907。包括硬盘等的存储部分908。以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的。也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的方法。
在该计算机程序被处理器901执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分909被下载和安装,和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (11)

1.一种政务敏感信息识别方法,包括:
获取至少一条政务语句,其中,所述至少一条政务语句包括与政务数据相关联的文本内容;
基于所述至少一条政务语句的语义信息,生成第一句向量;
将所述第一句向量作为识别模型的输入,来获得所述识别模型输出的分类结果,其中,所述识别模型包括神经网络模型;
根据所述分类结果,确定出所述至少一条政务语句涉及的敏感信息,其中,所述分类结果包括对所述至少一条政务语句的预测类别。
2.根据权利要求1所述的方法,其中,所述敏感信息包括敏感词,所述根据所述分类结果,确定出所述至少一条政务语句涉及的敏感信息包括:在所述预测类别为敏感类别的情况下,
将所述至少一条政务语句作为第一查询语句,在敏感词库中进行查询,其中,所述敏感词库中包括至少一个敏感词;以及
获得从所述敏感词库返回的敏感词查询结果。
3.根据权利要求1所述的方法,其中,在将所述句向量作为识别模型的输入之前,还包括训练所述识别模型,具体包括:
根据N条政务敏感信息识别规则,获得N类训练样本,其中,每类所述训练样本包括具有同一类别标签的M条文本语句,N、M分别为大于或等于1的整数;
基于所述M条文本语句中每条文本语句的语义信息,生成每条文本语句的第二句向量;
利用所述第二句向量训练所述识别模型。
4.根据权利要求3所述的方法,其中,所述神经网络模型包括多层感知机模型,所述多层感知机模型包括全连接层、注意力层和输出层,所述训练所述识别模型包括训练所述多层感知机模型,具体包括:
利用所述全连接层和所述注意力层处理所述第二句向量;
将处理后的所述第二句向量输入至所述输出层,来获得每条文本语句对应的目标预测类别,其中,所述目标预测类别为所述N个评分中评分最高的预测类别;
基于所述每条文本语句的目标预测类别,与敏感类别标签的差异程度,更新所述全连接层、所述注意力层和所述输出层中至少一层的网络参数。
5.根据权利要求4所述的方法,其中,所述全连接层包括第一全连接层、第二全连接层和第三全连接层,所述利用所述全连接层和所述注意力层处理所述第二句向量包括:
将所述第二句向量输入至所述第一全连接层进行处理;
获得所述第一全连接层处理后的所述第二句向量,输入至所述第二全连接层;
获得所述第二全连接层处理后的所述第二句向量,输入至所述注意力层;
获得所述注意力层处理后的所述第二句向量,输入至所述第三全连接层,以使得所述第三全连接层处理后的所述第二句向量作为所述输出层的输入。
6.根据权利要求1所述的方法,其中,所述至少一条政务语句包括第二查询语句,所述第二查询语句用于查询政务信息,所述方法还包括:
在所述第二查询语句的预测类别为敏感类别的情况下,拦截所述第二查询语句;或
在所述第二查询语句的预测类别为非敏感类别的情况下,基于所述第二查询语句进行查询。
7.根据权利要求1所述的方法,其中:
在所述获取至少一条政务语句之前,还包括:
获取待发布政务文件,所述待发布政务文件中包括所述至少一条政务语句;
其中,所述方法还包括:
在所述预测类别为敏感类别的情况下,拦截所述待发布政务文件;或
在所述预测类别为非敏感类别的情况下,将所述待发布政务文件进行发布。
8.一种政务敏感信息识别装置,包括:
语句获取模块,用于获取至少一条政务语句,其中,所述至少一条政务语句包括与政务数据相关联的文本内容;
向量生成模块,用于基于所述至少一条政务语句的语义信息,生成第一句向量;
分类结果模块,用于将所述第一句向量作为识别模型的输入,来获得所述识别模型输出的分类结果,其中,所述识别模型包括神经网络模型;
敏感识别模块,用于根据所述分类结果,确定出所述至少一条政务语句涉及的敏感信息,其中,所述分类结果包括对所述至少一条政务语句的预测类别。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202210046034.9A 2022-01-14 2022-01-14 政务敏感信息识别方法、装置、设备、介质和程序产品 Pending CN114386408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210046034.9A CN114386408A (zh) 2022-01-14 2022-01-14 政务敏感信息识别方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210046034.9A CN114386408A (zh) 2022-01-14 2022-01-14 政务敏感信息识别方法、装置、设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN114386408A true CN114386408A (zh) 2022-04-22

Family

ID=81201550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210046034.9A Pending CN114386408A (zh) 2022-01-14 2022-01-14 政务敏感信息识别方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN114386408A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544240A (zh) * 2022-11-24 2022-12-30 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质
CN116028750A (zh) * 2022-12-30 2023-04-28 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544240A (zh) * 2022-11-24 2022-12-30 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质
CN116028750A (zh) * 2022-12-30 2023-04-28 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质
CN116028750B (zh) * 2022-12-30 2024-05-07 北京百度网讯科技有限公司 网页文本审核方法及装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
Chen et al. Bert-log: Anomaly detection for system logs based on pre-trained language model
CN109766441B (zh) 文本分类方法、装置及系统
CN114386408A (zh) 政务敏感信息识别方法、装置、设备、介质和程序产品
US11954173B2 (en) Data processing method, electronic device and computer program product
CN111783450B (zh) 语料文本中的短语提取方法、装置、存储介质及电子设备
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN110895587B (zh) 用于确定目标用户的方法和装置
Okhapkin et al. Constructing of Semantically Dependent Patterns Based on SpaCy and StanfordNLP Libraries
US11163761B2 (en) Vector embedding models for relational tables with null or equivalent values
CN113507419A (zh) 流量分发模型的训练方法、流量分发方法及装置
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN111126073B (zh) 语义检索方法和装置
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN111459959B (zh) 用于更新事件集合的方法和装置
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN111368036B (zh) 用于搜索信息的方法和装置
US20240146744A1 (en) System and method to identify cyber threat intelligence from a group of information
Katamaneni et al. Social Media Data Analysis: Twitter Sentimental Analysis on Kerala Floods Using R Language
CN114742051A (zh) 日志处理方法、装置、计算机系统及可读存储介质
CN117493519A (zh) 文本编码器的训练方法、文本生成方法、装置及存储介质
CN114201964A (zh) 舆情风险识别方法、装置、电子设备及存储介质
CN113177122A (zh) 关联资产确定方法、装置和电子设备
CN117909764A (zh) 信息匹配方法、装置、设备、介质及程序产品
CN114386484A (zh) 文本匹配方法、训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination