CN112307770A - 敏感信息的检测方法、装置、电子设备及存储介质 - Google Patents

敏感信息的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112307770A
CN112307770A CN202011091612.8A CN202011091612A CN112307770A CN 112307770 A CN112307770 A CN 112307770A CN 202011091612 A CN202011091612 A CN 202011091612A CN 112307770 A CN112307770 A CN 112307770A
Authority
CN
China
Prior art keywords
information
sensitive information
word
matched
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011091612.8A
Other languages
English (en)
Inventor
李松
黄研洲
杨海军
徐倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011091612.8A priority Critical patent/CN112307770A/zh
Publication of CN112307770A publication Critical patent/CN112307770A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种敏感信息的检测方法、装置、电子设备及计算机可读存储介质;所述方法包括:对敏感信息进行语义特征提取,得到敏感信息的语义特征;基于敏感信息的语义特征,分别确定敏感信息与信息库中各参考信息的语义相似度;从信息库中,选取与敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;分别将至少两个目标敏感信息与待检测信息进行匹配,并基于匹配结果生成待检测信息的敏感信息检测结果。通过本申请,能够提高敏感信息检测的全面性及准确性。

Description

敏感信息的检测方法、装置、电子设备及存储介质
技术领域
本申请涉及信息技术,尤其涉及一种敏感信息的检测方法、装置、电子设备及存储介质。
背景技术
在如今的信息时代中,各类信息渗透入人类社会的各个方面,而信息化也为人们生活带来了极大方便。在一些场景中,通常需要对一些信息进行检测,以避免其中出现违规或者其他产生负面影响的敏感信息。
相关技术中,对于敏感信息的检测通常采用硬匹配的方式,也即判断待检测信息中是否存在与给定的敏感信息完全相同的内容。然而在实际场景中,待检测信息中往往存在与给定的敏感信息相似的内容,这些相似的内容同样归属于敏感信息,采用相关技术中的检测方式容易造成敏感信息的漏检。
发明内容
本申请实施例提供一种敏感信息的检测方法、装置、电子设备及计算机可读存储介质,能够提高敏感信息检测的全面性及准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种敏感信息的检测方法,包括:
对敏感信息进行语义特征提取,得到敏感信息的语义特征;
基于敏感信息的语义特征,分别确定敏感信息与信息库中各参考信息的语义相似度;
从信息库中,选取与敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;
分别将至少两个目标敏感信息与待检测信息进行匹配,并基于匹配结果生成待检测信息的敏感信息检测结果。
本申请实施例提供一种敏感信息的检测装置,包括:
特征提取模块,用于对敏感信息进行语义特征提取,得到敏感信息的语义特征;
相似度确定模块,用于基于敏感信息的语义特征,分别确定敏感信息与信息库中各参考信息的语义相似度;
选取模块,用于从信息库中,选取与敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;
匹配模块,用于分别将至少两个目标敏感信息与待检测信息进行匹配,并基于匹配结果生成待检测信息的敏感信息检测结果。
上述方案中,特征提取模块,还用于从至少两个特征维度,分别对敏感信息进行特征提取,得到敏感信息的至少两个维度特征;将至少两个维度特征进行特征拼接,得到敏感信息的语义特征。
上述方案中,特征提取模块,还用于从至少两个特征维度,分别对敏感信息进行特征提取,得到敏感信息的至少两个维度特征;获取各维度特征的特征权重;将至少两个维度特征进行加权求和,得到敏感信息的语义特征。
上述方案中,特征提取模块,还用于从敏感信息中提取关键词;对关键词进行特征提取,得到关键词的语义特征,将关键词的语义特征作为敏感信息的语义特征。
上述方案中,匹配模块,还用于分别将各目标敏感信息替换敏感信息中的关键词,得到至少两个相应的待匹配信息;分别将各待匹配信息与待检测信息进行匹配。
上述方案中,匹配模块,还用于分别确定至少两个待匹配信息的通顺度;从至少两个待匹配信息中选取通顺度满足通顺度条件的目标待匹配信息;将目标待匹配信息与待检测信息进行匹配。
上述方案中,匹配模块,还用于当待匹配信息的类型为文本类型时,分别对各待匹配信息进行分词,得到各待匹配信息的词序列;通过第一语言模型,分别对各词序列中的词进行特征提取,得到各词序列的词特征;通过第一语言模型,对各词序列的词特征进行条件概率预测,得到各待匹配信息中的词出现在相应词序列中的条件概率;基于预测得到的条件概率,确定各待匹配信息的通顺度。
上述方案中,敏感信息的检测装置还包括:训练模型,用于获取待匹配信息样本所对应的样本词序列,样本词序列标注有待匹配信息样本的目标通顺度;通过第一语言模型,对样本词序列中的词进行特征提取,得到样本词序列的词特征;通过第一语言模型,对样本词序列的词特征进行条件概率预测,得到预测条件概率;通过第一语言模型,基于预测条件概率,对待匹配信息样本进行通顺度预测,得到预测通顺度;获取目标通顺度与预测通顺度之间的差异,并基于差异更新第一语言模型的模型参数。
上述方案中,相似度确定模块,还用于获取信息库中各参考信息的语义特征;分别确定敏感信息的语义特征与信息库中各参考信息的语义特征的相似度,作为语义相似度。
上述方案中,相似度确定模块,还用于当参考信息的类型为文本类型时,分别对各参考信息进行分词,得到各参考信息的词序列;通过第二语言模型,分别对各词序列中的词进行特征提取,得到各词序列的词特征;基于各词序列的词特征,确定相应参考信息的语义特征。
上述方案中,敏感信息的检测装置还包括:采集模块,用于采集客服的语音数据;对语音数据进行语音识别,得到文本类型的待检测信息。
上述方案中,敏感信息的检测装置还包括:输出模块,用于当匹配结果表征存在至少一个目标敏感信息与待检测信息匹配成功时,输出以下信息至少之一:与待检测信息匹配成功的目标敏感信息、与待检测信息匹配成功的目标敏感信息所处的语句或段落、与待检测信息匹配成功的目标敏感信息所处待检测信息中的位置指示信息。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的敏感信息的检测方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的敏感信息的检测方法。
本申请实施例具有以下有益效果:
与相关技术中通过对给定的敏感信息与待检测信息进行硬匹配以实现敏感信息检测的方式相比,本申请实施例通过提取敏感信息的语义特征,基于语义特征确定敏感信息与信息库中各参考信息的语义相似度,来查找得到与敏感信息语义相近的多个目标敏感信息,实现了对敏感信息的泛化处理,使得基于目标敏感信息对待检测信息进行敏感信息检测的检测结果更为全面、准确,克服了相关技术所采用的检测方式不全面、不准确的缺陷;同时,由于对于敏感信息的泛化,及基于泛化得到的目标敏感信息所进行的敏感信息的检测自动实现,提高了敏感信息检测的效率。
附图说明
图1是本申请实施例提供的敏感信息的检测系统的一个可选的架构示意图;
图2是本申请实施例提供的电子设备的结构的一个可选的示意图;
图3是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图;
图4是本申请实施例提供的基于至少两个特征维度提取的词特征的一个可选的示意图;
图5是本申请实施例提供的语言模型的一个可选的示意图;
图6是本申请实施例提供的语言模型的输入词向量的一个可选的示意图;
图7是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图;
图8是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图;
图9是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图;
图10是本申请实施例提供的第二语言模型的一个可选的示意图;
图11是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)语言模型:语言模型是根据语言客观事实而进行的语言抽象数学建模。语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。语言模型能够对文本的通顺度进行预测,具体文本的通顺度通过语言模型输出的概率表征,概率越高表示这段文本越通顺。比如一段文字由w1,w2,w3,…,wm这m个词组成,可以用下面的公式计算这段文字的联合概率:
P(w1,w2,w3,...,wm)=P(w2|w1)P(w3|w1,w2)...P(wm|w1,w2,...,wm-1);
这个联合概率则可以表示这段文字的通顺度。
2)词频-逆文本频率指数(TF-IDF,term frequency–inverse documentfrequency):它是一种统计方法,是用于信息检索数据挖掘的常用加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
相关技术中,为了对待检测信息进行敏感信息的检测,通常是人工确定与敏感语义相关的敏感信息,然后将人工确定的敏感信息与待检测信息进行匹配,以查找待检测信息中是否存在敏感信息完成检测。例如为了检测与“报警”相关的敏感信息,通常是由用户人为地确定与“报警”语义相近的多个敏感信息,如“打110”、“警察”等,然后基于这些敏感信息分别进行硬匹配以实现敏感检测。这种方式敏感信息检测不够全面准确且人工工作量大。
基于此,本申请实施例提供一种敏感信息的检测方法、装置、电子设备和计算机可读存储介质,能够提高检测结果的全面准确性并减轻人工工作量。
首先对本申请实施例提供的敏感信息的检测系统进行说明,参见图1,图1是本申请实施例提供的敏感信息的检测系统100的一个可选的架构示意图,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。在一些实施例中,终端400可以是笔记本电脑,平板电脑,台式计算机,智能手机,专用消息设备,便携式游戏设备,智能音箱,智能手表等,但并不局限于此。服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网,又或者是二者的组合。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
终端400,用于采集客服的语音数据,对语音数据进行语音识别,得到文本类型的待检测信息,并发送针对于对待检测信息的检测请求至服务器200。
服务器200,用于解析接收到的检测请求,得到检测请求中携带的待检测信息;对敏感信息进行语义特征提取,得到敏感信息的语义特征;基于敏感信息的语义特征,分别确定敏感信息与信息库中各参考信息的语义相似度;从信息库中,选取与敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;分别将至少两个目标敏感信息与待检测信息进行匹配,并基于匹配结果生成待检测信息的敏感信息检测结果,将敏感信息检测结果返回给终端400。
终端400,还用于输出接收到的敏感信息检测结果。
接下来对本申请实施例提供的用于实施上述敏感信息的检测方法的电子设备进行说明,参见图2,图2是本申请实施例提供的电子设备500的结构的一个可选的示意图,在实际应用中,电子设备500可以实施为图1中的终端400或服务器200,以电子设备为图1所示的服务器200为例,对实施本申请实施例的敏感信息的检测方法的电子设备进行说明。图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的敏感信息的检测装置可以采用软件方式实现,图2示出了存储在存储器550中的敏感信息的检测装置555,其可以是程序和插件等形式的软件,包括以下软件模块:特征提取模块5551、相似度确定模块5552、选取模块5553和匹配模块5554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的敏感信息的检测装置可以采用硬件方式实现,作为示例,本申请实施例提供的敏感信息的检测装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的敏感信息的检测方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
基于上述对本申请实施例的敏感信息的检测系统和电子设备的说明,接下来对本申请实施例提供的敏感信息的检测方法进行说明。在一些实施例中,本申请实施例提供的敏感信息的检测方法可以由终端单独实施,或由服务器单独实施,或由服务器及终端协同实施。
下面以终端实施为例,结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的敏感信息的检测方法。
参见图3,图3是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
步骤101,终端对敏感信息进行语义特征提取,得到敏感信息的语义特征;
需要说明的是,敏感信息是用户自定义设置的,它的类型可以是文本、图像和音视频等。而由于在实际实施时,对于音频类的待检测信息,是对待检测信息进行语音识别得到的文本进行敏感信息的检测,对于视频类的待检测信息,是对待检测信息进行语音识别和视频帧抽取后,对得到的文本和图像类型的视频帧进行敏感信息的检测。因而,为了方便快捷,这里的敏感信息的类型可以设置为文本、图像或者二者的组合。
在实际实施时,敏感信息可以是预先设置,在触发对待检测信息进行检测的流程时,终端获取预先设置的敏感信息,以基于敏感信息对待检测信息进行检测。敏感信息还可以是在触发对待检测信息进行检测的流程后,终端在显示界面呈现用于输入敏感信息的功能项,由用户基于该功能项输入敏感信息后,终端获取用户输入的敏感信息,然后基于用户输入的敏感信息对待检测信息进行检测。
这里,敏感信息可以有多个,不同敏感信息之间的语义可以相差较远,例如“报警”和“我的电话号码”等。实际实施时,可以预先设置一个敏感信息列表,其中存储有多个语义不相近的敏感信息。然后通过本申请实施例的方法分别对这些敏感信息查找语义相近的多个目标敏感信息。
终端获取敏感信息后,对敏感信息进行语义特征的提取。示例性地,若敏感信息的类型为文本,终端则对敏感信息的语句进行分词,根据敏感信息中包含的各个词的语义对敏感信息进行特征编码,得到编码型的各个词的词特征,然后基于各个词的词特征得到敏感信息的语义特征。
在一些实施例中,图3示出的步骤101可以通过如下方式实现,将结合各步骤进行说明。
终端从至少两个特征维度,分别对敏感信息进行特征提取,得到敏感信息的至少两个维度特征;将至少两个维度特征进行特征拼接,得到敏感信息的语义特征。
需要说明的是,一个敏感信息在语义上可以具有多个维度的特征,本实施例中,通过设置至少两个特征维度来表示敏感信息的语义特征,使得不同的敏感信息之间基于相同的特征维度来表示,从而能够区分不同敏感信息的语义远近差异。
应当理解的是,敏感信息可以是词,例如“警察”,还可以是包括多个词的短语,例如“我是警察”。本实施例中,终端在对敏感信息进行特征提取之前,还对敏感信息进行分词处理,得到敏感信息的词序列。例如对于“我是警察”这一短语,通过分词之后得到“我”-“是”-“警察”这一词序列。在实际实施时,终端通过分词器对敏感信息进行分词处理,其中,分词器可以是开源的分词工具,例如Analyzer分词工具等。然后,终端对词序列中的各个词进行特征提取,得到各个词的词特征。例如上述的短语,终端则分别对“我”、“是”和“警察”等三个词进行特征提取,得到各个词的词特征。
具体地,终端从至少两个特征维度,对敏感信息对应的词序列的各个词进行特征提取,得到各个词的至少两个维度特征。参照图4,图4是本申请实施例提供的基于至少两个特征维度提取的词特征的一个可选的示意图。图4示出了六个特征维度,分别为公检法、人类身份、机关单位、物品、数字和性别,通过这五个特征维度对“警察”、“公安”、“警察局”、“公安局”、“号码”、“手机”、“男人”以及“女人”等词进行特征提取,每一个特征维度的维度特征取值范围为[-1,1]。其中,对于“警察”这一关键词,其在六个特征维度的维度特征分别为0.95、0.93、0.03、0.01、0.01、0.01。
本实施例中,终端在对敏感信息对应的词序列中的词进行各个特征维度的特征提取,得到词在各个特征维度的维度特征之后,将词的各个维度特征进行特征拼接,得到词的词特征。例如“警察”、“公安”和“手机”等词,终端通过对其六个特征维度的维度特征进行特征拼接之后,得到的词特征分别如下所示。
Figure BDA0002722301610000101
其中,e警察为“警察”的词特征,e公安为“公安”的词特征,e手机为“手机”的词特征。
这里,通过这种特征提取方式,不难看出,“警察”和“公安”的语义更为接近,而二者与“手机”的语义则相差较远。终端在得到词序列中各个词的词特征之后,将各个词特征进行横向拼接,得到敏感信息的语义特征。例如若敏感信息为“公安局号码”这一短语,终端对其进行分词得到由“公安局”-“号码”组成的词序列,终端则分别对“公安局”和“号码”进行特征提取,得到“公安局”和“号码”的词特征,然后将两个词特征进行横向拼接,得到“公安局号码”的语义特征。参照图4,“公安局号码”的语义特征e公安局号码则可以为如下所示:
Figure BDA0002722301610000102
通过上述的对敏感信息的特征提取方式,能够基于提取得到的语义特征更方便的对不同的敏感信息的语义差异进行比较,从而便于查找与敏感信息语义相近的其他信息。
在一些实施例中,图3示出的步骤101还可以通过如下方式实现,将结合各步骤进行说明。
终端从至少两个特征维度,分别对敏感信息进行特征提取,得到敏感信息的至少两个维度特征;获取各维度特征的特征权重;将至少两个维度特征进行加权求和,得到敏感信息的语义特征。
这里,终端从敏感信息进行分词后,对词序列的各个词进行特征提取,得到各个词在各个特征维度的维度特征。然后终端获取各维度特征的特征权重,将各个词的至少两个维度特征进行加权求和,得到各个词的词特征。其中,各维度特征的特征权值基于各维度的重要程度来设置,其可以是预先设置并存储于终端或与终端通信连接的外部设备内。在适用不同的场景时,用户还可以根据具体场景来相应调整各个维度特征的特征权重,例如对于金融类客服服务的语音通话敏感词检测场景中,用户希望更好的检测出涉及冒充公检法的通话内容,则可以将与之相关性较高的“公检法”这一特征维度设置较高的权重,而将“性别”等与之相关性较低的特征维度设置较低的权重。
例如图4示出的六个特征维度,若对应的特征权重分别0.8、0.1、0.1、0、0、0,则“警察”的词特征为0.8*0.95+0.1*0.93+0.1*0.03+0*0.01+0*0.01+0*0.01=1.72,“公安”的词特征为0.8*0.93+0.1*0.94+0.1*0.91+0*0.02+0*0.02+0*(-0.01)=2.594,“手机”的词特征为0.8*0.03+0.1*0.02+0.1*0.01+0*0.95+0*0.03+0*0.01=0.027。基于此,可以看出,“警察”和“公安”的词特征更为接近,而二者与“手机”的词特征相差较远,这也与实际语义相符,且由于给“公检法”这一特征维度设置为更高的权重,也可以筛选出与其更接近的词。
终端在得到词序列中各个词的词特征之后,将各个词特征进行横向拼接,得到敏感信息的语义特征。例如若敏感信息为“公安局号码”这一短语,终端对其进行分词得到由“公安局”-“号码”组成的词序列,终端则分别对“公安局”和“号码”进行至少两个特征维度的特征提取,并基于上述的特征权重对各个维度特征进行加权求和,得到“公安局”的词特征为0.8*0.94+0.1*0.02+0.1*0.94+0*0.02+0*0.03+0*0.01=1.712,得到“公安局”的词特征为0.8*0.02+0.1*0.01+0.1*0.02+0*0.01+0*0.96+0*0.01=0.019,在对二者进行横向拼接后,得到的“公安局号码”的语义特征为[1.712 0.019]。
通过对不同的特征维度设置权重的方式对敏感信息进行语义特征的提取,能够更便于筛选出在相应场景中更需要的维度特征,避免了基于大量特征维度进行编码得到的稀疏语义特征的庞大计算任务,提高了计算效率。
在一些实施例中,图3示出的步骤101还可以通过如下方式实现,将结合各步骤进行说明。
当敏感信息的类型为文本类型时,终端对敏感信息进行分词,得到敏感信息的词序列;通过语言模型,对词序列中的词进行特征提取,得到词序列的词特征;基于词序列的词特征,确定敏感信息的语义特征。
需要说明的是,本实施例的语言模型可以采用N-Gram模型、转换器(BERT,Bidirectional Encoder Representation from Transformers)模型等。示例性地,本实施例采用BERT模型进行语义特征的提取。参照图5,图5是本申请实施例提供的语言模型的一个可选的示意图。对于非监督文本上的训练方法是用语言模型取最大化似然函数,模型结构是由多层转换器(Transformer)构成的编码器和解码器,这里的transformer通过图5中的Trm表示,这里使用的Transformer基于多头注意力机制实现。参见图5,BERT模型是双向的,通过这种双向的结构,能够使模型全面地学习单个词在其所在的句子中的上下文信息,从而更准确的学习到词的语义。BERT模型的输入是E(E1,E2,…,EN),输出是T(T1,T2,…,TN)。BERT模型的输入可以是单一的一个句子或者是句子对,实际的输入值是分割嵌入(segment embedding)与位置嵌入(position embedding)。BERT的输入词向量E是三个向量之和:词嵌入(Token Embedding)向量、分割嵌入向量和位置嵌入向量。其中,词嵌入为词的词特征,分割嵌入为指示一个词属于哪个句子,位置嵌入为词在输入的句子或者句子对中的位置。
示例性地,参数图6,图6是本申请实施例提供的语言模型的输入词向量的一个可选的示意图。图6的模型输入为“my dog is cute”的句子A和“helikes play”的句子B构成的句子对,则输入词向量由词嵌入和各个词对应的分割嵌入以及位置嵌入构成。例如,对于“my dog is cute”,各个词的分割嵌入则均为EA。对于“dog”这个单词,它的词向量则为Edog+EA+E1
在实际实施时,使用的BERT模型为预训练模型,下游任务可以通过微调(fine-tune)训练(改变预训练模型的模型参数),或者特征抽取(不改变预训练模型的模型参数,只是把预训练模型的输出作为特征输入到下游任务)两种方式进行实现。本实施例中,终端通过对模型进行微调训练来更好的适应本实施例的应用场景。具体地,终端采集大量的需要的领域内的大规模文本,并输入至BERT模型中,使BERT模型学习到该领域内的文本特性,并生成大规模文本中包含的所有词的词嵌入向量,将词嵌入向量以列表的形式进行存储,得到一个词嵌入表(Embedding table),该词嵌入表则相当于该领域内的一个词典,其中包含有领域内的词与其对应的词嵌入向量的映射关系。这里,词嵌入向量则为词的词特征的一种表示。
在实际实施时,终端则可以将分词后的敏感信息输入至本申请实施例提供的语言模型中,通过语言模型的词嵌入层,对敏感信息进行编码,得到敏感信息的词嵌入向量。需要说明的是,本实施例的BERT模型还包含有分词器,终端可以将敏感信息直接输入至语言模型中进行分词,然后基于分词得到的词序列进行编码。通过语言模型对敏感信息进行特征提取,能够更加准确快捷的得到敏感信息的语义特征。
步骤102,基于敏感信息的语义特征,分别确定敏感信息与信息库中各参考信息的语义相似度;
需要说明的是,参考信息为领域内的大规模信息,其中也包含有敏感信息。在一些实施例中,图3示出的步骤102可以通过如下方式实现:终端获取信息库中各参考信息的语义特征;分别确定敏感信息的语义特征与信息库中各参考信息的语义特征的相似度,作为语义相似度。
需要说明的是,信息库可以存储于终端本地,还可以存储于与终端通信连接的外部设备内,例如数据库服务器中。信息库内存储有多个参考信息与对应的语义特征,各参考信息与其对应的语义特征相映射的存储。在实际实施时,终端从相应的存储地址内获取信息库,并获取信息库中各参考信息的语义特征,然后分别将敏感信息的语义特征与各参考信息的语义特征进行相似度计算,得到敏感信息的语义特征与信息库中各参考信息的语义特征的相似度,作为语义相似度。
本实施例中,终端通过余弦相似度算法计算参考信息的语义特征与参考信息的语义特征的语义相似度,将参考信息的语义特征与参考信息的语义特征的余弦相似度作为二者的语义相似度。余弦距离为参考信息的语义特征与参考信息的语义特征之间的夹角的余弦值,余弦相似度为1与余弦距离的差值。可以理解,当两个特征越接近时,二者的夹角的余弦值越接近于1。
在一些实施例中,终端通过如下方式实现获取信息库中各参考信息的语义特征:当参考信息的类型为文本类型时,终端分别对各参考信息进行分词,得到各参考信息的词序列;通过第二语言模型,分别对各词序列中的词进行特征提取,得到各词序列的词特征;基于各词序列的词特征,确定相应参考信息的语义特征。
在实际实施时,终端通过分词器对敏感信息进行分词,得到敏感信息的词序列。其中,分词器可以是开源的分词工具,例如Analyzer分词工具等。通过分词之后,敏感信息被划分为由词构成的词序列,例如对于“我是警察”这一短语,通过分词之后得到“我,是,警察”这一词序列。然后,终端对词序列中的各个词进行特征提取,得到各个词的词特征。例如上述的短语,终端则分别对“我”、“是”和“警察”等三个词进行特征提取,得到各个词的词特征。终端在得到词序列中各个词的词特征之后,则将各个词特征进行拼接,得到敏感信息的语义特征。这里,第二语言模型可以采用上述的BERT模型,终端则可以将各参考信息输入至BERT模型内,通过BERT模型对参考信息进行分词,然后对分词后的各个词进行特征提取。
在一些实施例中,终端将各个参考信息进行分词,并对分词得到的各个词进行特征提取得到各个词的词特征后,将词特征进行存储,以便后续在基于敏感信息的语义特征进行近似词的查找时,直接基于存储的词特征,对敏感信息的语义特征进行相似度计算。这里,为了便于说明,将对参考信息进行分词后得到的词记为参考词,将参考词对应的词特征记为参考词特征。本实施例中,终端将参考词和对应的参考词特征相映射的存储,则存储的参考词和参考词特征相当于一个词典,在需要查找敏感信息的近似信息时,可以基于存储的参考词和参考词特征进行查找。通过上述的方式,能够更加准确且快速地确定敏感信息与信息库中各参考信息的语义相似度。
步骤103,从信息库中,选取与敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;
在实际实施时,终端在得到敏感信息与信息库中各参考信息的语义相似度后,判断各语义相似度是否达到相似度阈值,将达到相似度阈值的至少两个参考信息作为目标敏感信息。这里相似度阈值可以是一个具体相似度值,还可以是相似度排序值。例如,若语义相似度为余弦相似度,则它的取值范围为[0,1],则相似度阈值可以设置为0.8,也即,与敏感信息的语义相似度达到0.8的所有参考信息均可以作为目标敏感信息。
在一些实施例中,相似度阈值为相似度排序值。在实际实施时,终端在得到所有参考信息与敏感信的语义相似度之后,对语义相似度进行排序,将排序满足相似度排序值的参考信息作为目标敏感信息。例如,相似度排序值可以为10,终端则在对所有语义相似度进行排序后,选取语义相似度排序在前10的参考信息作为目标敏感信息。
步骤104,分别将至少两个目标敏感信息与待检测信息进行匹配,并基于匹配结果生成待检测信息的敏感信息检测结果。
需要说明的是,待检测信息的类型可以是文本、图像和音视频等。若待检测信息的类型为音频,终端在执行步骤104之前,还对待检测信息进行语音识别,识别得到文本类型的待检测信息。若待检测信息的类型为视频,终端在执行步骤104之前,还对待检测信息进行语音识别和视频帧抽取,识别得到文本信息,并抽取得到多帧视频帧,将文本类型的文本信息和图像类型的多帧视频帧共同作为待检测信息。
在一些实施例中,基于图3,在步骤104之前,还可以执行:终端采集客服的语音数据;对语音数据进行语音识别,得到文本类型的待检测信息。
这里,客服可以是任意行业平台为客户提供人工咨询服务的人员,例如购物平台、金融平台(例如银行)、游戏平台等等。为了提高客服的服务质量,可以基于本申请实施例的方案来对客服与客户进行通话的语音数据进行敏感信息的检测,避免客服在服务中说出影响服务质量的敏感信息。
在实际实施时,终端可以在客服通话过程中,实时的采集客服的语音数据并基于该语音数据进行语音识别后,对识别得到的文本类型的待检测信息进行敏感信息的检测。此外,还可以利用录音工具对客服的通话进行录制,获得语音数据,终端基于录制的语音数据进行语音识别,得到文本类型的待检测信息,对待检测信息进行敏感信息的检测。
在步骤104中,终端在将至少两个目标敏感信息与待检测信息进行匹配后,将得到待检测信息中是否存在目标敏感信息的匹配结果,若待检测信息中存在目标敏感信息,匹配结果中还可以包括待检测信息中包含的目标敏感信息。应当理解的是,与待检测信息进行匹配的目标敏感信息中包含最初的敏感信息。这里,终端将至少两个目标敏感信息与待检测信息做硬匹配,以识别待检测信息中是否包含目标敏感信息,并基于匹配结果生成待检测信息的敏感信息检测结果。
在一些实施例中,当匹配结果表征存在至少一个目标敏感信息与待检测信息匹配成功时,终端生成告警信息并输出,以提示用户该待检测信息中存在敏感信息。此外,终端还可以根据待检测信息中包含的目标敏感信息的数量,生成质检报告,以指示该待检测信息的清洁程度。当匹配结果表征所有目标敏感信息均与待检测信息匹配失败时,终端输出的敏感信息检测结果可以为未检测到敏感信息。
在一些实施例中,基于图3,在步骤104之后,还可以执行:当匹配结果表征存在至少一个目标敏感信息与待检测信息匹配成功时,终端输出以下信息至少之一:与待检测信息匹配成功的目标敏感信息、与待检测信息匹配成功的目标敏感信息所处的语句或段落、与待检测信息匹配成功的目标敏感信息所处待检测信息中的位置指示信息。
在实际实施时,终端可以基于上述信息生成更为完整的质检报告,以对待检测信息进行更清晰完整的敏感信息检测说明。
上述的敏感信息的检测方法实施例,通过对敏感信息进行语义特征的提取,并基于提取得到的语义特征来与参考信息进行语义相似度的确定,从而从参考信息中选取得到与敏感信息相近的目标敏感信息,然后将目标敏感信息与待检测信息进行匹配以完成对待检测信息的敏感信息的检测,实现了敏感信息的模糊检测,使得检测结果更为全面。
上述实施例中,是将敏感信息作为整体来进行语义特征的提取,并基于提取得到的语义特征来与参考信息进行语义相似度的确定,从而获得与敏感信息相近的多个目标敏感信息。下面将提供一种基于敏感信息中的部分内容来进行语义特征的提取,并基于部分内容的语义特征来最终获得与敏感信息相近的多个目标敏感信息的方案。
在一些实施例中,参照图7,图7是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图,图3示出的步骤101可以通过如下方式实现:
步骤201,终端从敏感信息中提取关键词;
步骤202,对关键词进行特征提取,得到关键词的语义特征,将关键词的语义特征作为敏感信息的语义特征。
需要说明的是,关键词又称保留字(keyword),可以指示一段信息中较为重要的信息点。例如“我是警察”这一短语中,“警察”则是其关键词。本实施例中,终端在对敏感信息进行特征提取之前,先从敏感信息中识别出关键词,然后对关键词进行特征提取。这里,终端通过TF-IDF算法来提取敏感信息中的关键词。然后,终端对提取的关键词进行特征提取,得到关键词的语义特征,将关键词作为敏感信息的语义特征。
其中,步骤202可以通过如下方式实现:终端从至少两个特征维度,分别对关键词进行特征提取,得到关键词的至少两个维度特征;将至少两个维度特征进行特征拼接,得到关键词的语义特征。
此外,步骤202还可以通过如下方式实现:终端从至少两个特征维度,分别对关键词进行特征提取,得到关键词的至少两个维度特征;获取各维度特征的特征权重;将至少两个维度特征进行加权求和,得到关键词的语义特征。
这里,终端提取关键词的语义特征的方式参照上述实施例中提供的对词的词特征提取方式,将提取的关键词的词特征作为其语义特征。
在一些实施例中,终端将关键词输入至语言模型中,通过语言模型对关键词进行特征提取,得到关键词的词特征,然后终端将关键词的词特征与信息库内的参考词的词特征进行相似度计算,得到关键词与信息库中各参考词的语义相似度,然后基于该语义相似度,从信息库中选取与关键词的语义相似度达到相似度阈值的至少两个参考词,并将选取的参考词作为目标敏感信息。
在一些实施例中,参照图8,图8是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图,图3示出的步骤104可以通过如下方式实现:
步骤301,终端分别将各目标敏感信息替换待检测信息中的关键词,得到至少两个相应的待匹配信息;
步骤302,分别将各待匹配信息与待检测信息进行匹配。
在实际实施时,终端分别将各个目标敏感信息替换敏感信息中的关键词,得到与各目标敏感信息相对应的待匹配信息,然后分别将各待匹配信息与待检测信息进行匹配。具体地,终端分别将各目标敏感信息与敏感信息中除关键词以外的内容进行拼接,得到至少两个相应的待匹配信息。对于匹配过程参照上述实施例中匹配目标敏感信息与待检测信息的过程,这里不再赘述。
示例性地,若敏感信息为“我是警察”,终端在获得“我是警察”这一敏感信息后,通过TF-IDF算法提取得到其中的关键词“警察”,然后通过BERT模型对“警察”进行特征提取,得到“警察”的词嵌入向量作为它的语义特征,在一些实施例中,终端查找信息库,例如词嵌入表,分别将“警察”的语义特征与词嵌入表中的各参考词对应的参考词特征进行相似度计算,得到“警察”与各参考词的语义相似度,然后选取语义相似度满足相似度阈值的至少两个参考词,将选取的参考词作为目标敏感信息,例如可以包括“警察”、“公安”、“警察局”、“公安局”和“110”等。在一些实施例中,终端将各个目标敏感信息替换敏感信息中的关键词,得到“我是警察”、“我是公安”、“我是警察局”、“我是公安局”和“我是110”等待匹配信息,然后将上述的待匹配信息与待检测信息进行匹配,并将匹配结果作为相应的目标敏感信息与待检测信息的匹配结果。
上述的待匹配信息的获取方式,通过对敏感信息进行关键词的提取,然后查找与关键词相近的参考词作为目标敏感信息,将目标敏感信息替换敏感信息中的关键词,得到与敏感信息相近的待匹配信息,能够更简单高效且准确的查找到敏感信息的相似信息。
在一些实施例中,参照图9,图9是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图,图8示出的步骤302可以通过如下方式实现:
步骤401,终端分别确定至少两个待匹配信息的通顺度;
步骤402,从至少两个待匹配信息中选取通顺度满足通顺度条件的目标待匹配信息;
步骤403,将目标待匹配信息与待检测信息进行匹配。
在实际实施时,通过对敏感信息提取关键词,基于与关键词语义相的参考词来替换敏感信息的关键词得到与敏感信息相近似的待匹配信息的方式中,最后拼接得到的待匹配信息可能出现不符合语言逻辑的情况。例如上述的“我是警察局”和“我是公安局”则不符合常规的语言逻辑,在实际场景中很少会出现,因而需要将其进行过滤。
本实施例中,终端确定各个待匹配信息的通顺度,从至少两个待匹配信息中选取通顺度满足通顺度条件的目标待匹配信息。其中,终端可以通过语言模型计算待匹配信息的通顺度。具体地,终端对待匹配信息进行分词,得到待匹配信息的词序列,然后对词序列的各个词进行特征提取,得到各个词的词特征,在一些实施例中,终端基于待匹配信息的各个词的词特征,计算各个词在待匹配信息中出现的条件概率,最后基于各个词的条件概率计算得到待匹配信息的通顺度。在得到各个待匹配信息的通顺度之后,终端基于各个待匹配信息的通顺度,从所有待匹配信息中选取通顺度满足通顺度条件的目标待匹配信息,以将目标待匹配信息与待检测信息见匹配。
在一些实施例中,分别确定至少两个待匹配信息的通顺度可以通过如下方式实现:当待匹配信息的类型为文本类型时,终端分别对各待匹配信息进行分词,得到各待匹配信息的词序列;通过第一语言模型,分别对各词序列中的词进行特征提取,得到各词序列的词特征;通过第一语言模型,对各词序列的词特征进行条件概率预测,得到各待匹配信息中的词出现在相应词序列中的条件概率;基于预测得到的条件概率,确定各待匹配信息的通顺度。
需要说明的是,第一语言模型可以上述实施例提供的第二语言模型为同一个语言模型,还可以是不同的两个语言模型。本实施例中,第一语言模型也可以采用BERT模型实现。参照图10,图10是本申请实施例提供的第二语言模型的一个可选的示意图。可以理解,图10示出的第一语言模型为经过微调之后得到可以对句子进行分类的模型。本实施例中,第一语言模型用于对句子的通顺度进行分类。
在实际实施时,终端将句子以[CLS]+句子的格式输入第一语言模型,句子由Tok1,…,TokN等词组成,E1,…,EN是Tok1,…,TokN的词嵌入向量,T1,…,TN是Tok1,…,TokN的模型输出,即Tok1,…,TokN的词特征,例如本实施例中,模型输出的词特征包括词的词嵌入向量、分割嵌入向量以及位置嵌入向量。[CLS]的输入为E[CLS],[CLS]的特征表示为C,这里取[CLS]的特征表示C会经过一层全连接层来预测它属于哪一类,本实施例中则是属于哪一个通顺度。图10示出的第一语言模型输出的分类标签则为输入的句子的通顺度。
具体地,第一语言模型在对句子的通顺度进行预测的过程为:利用编码层对输入的句子进行编码,得到句子的各个词的词特征,然后基于词特征,计算在其他词已经出现的前提下,该词在该句子中出现的条件概率,终端计算句子中的各个词的条件概率。例如对于“我是警察局”这一短语,终端则通过第一语言模型对该短语进行分词,得到“我”-“是”-“警察局”这一词序列,然后分别对三个词进行特征提取,得到“我”、“是”和“警察局”这三个词的词特征T、T和T警察局。在一些实施例中,终端通过第一语言模型,基于各个词的词特征预测各个词的条件概率。由于句子的第一个词的出现概率是随机的,并没有其他词作为出现条件来预测第一个词出现的概率,因而,这里将第一个词出现的条件概率默认为1,例如对于“我是警察局”这一短语,“我”的条件概率P(T)则可以设置为1。然后分别预测句子中第一个词之后的各个词的条件概率,其中,“是”的条件概率则为P(T|T),“警察局”的条件概率则为P(T警察局|T,T)。在一些实施例中,终端通过第一语言模型,基于待匹配信息的各个词的条件概率,预测待匹配信息的通顺度。这里,将待匹配信息的各个词的条件概率的乘积作为待匹配信息的通顺度。例如“我是警察局”这一短语的通顺度P则可以通过如下计算式确定:P=P(T)P(T|T)P(T警察局是|T,T)。
在一些实施例中,终端根据第一语言模型预测的各个待匹配信息的通顺度,从各个待匹配信息中选取通顺度满足通顺度条件的目标待匹配信息。其中,通顺度条件可以为具体通顺度达到通顺度阈值,例如通顺度阈值取值为80%,通顺度条件还可以是通顺度排序范围,例如通顺度排序在前10,终端可以对各个待匹配信息的通顺度进行排序,然后选取通顺度排在前10的待匹配信息作为目标待匹配信息。
通过上述的方式,能够对匹配得到的待匹配信息进行通顺性筛选,从而筛掉不符合语言逻辑的信息,能够更准确的提取出目标待匹配信息,以更高效的对待检测信息进行敏感信息的检测。
在一些实施例中,终端还可以执行:终端获取待匹配信息样本所对应的样本词序列,样本词序列标注有待匹配信息样本的目标通顺度;通过第一语言模型,对样本词序列中的词进行特征提取,得到样本词序列的词特征;通过第一语言模型,对样本词序列的词特征进行条件概率预测,得到预测条件概率;通过第一语言模型,基于预测条件概率,对待匹配信息样本进行通顺度预测,得到预测通顺度;获取目标通顺度与预测通顺度之间的差异,并基于差异更新第一语言模型的模型参数。
在实际实施时,待匹配信息样本为领域内的大规模语料,各待匹配信息样本的通顺度可以预先标注,终端将获得待匹配信息样本后,对各待匹配信息样本进行分词处理,得到待匹配信息样本的样本词序列,然后将样本词序列输入至第一语言模型中,通过第一语言模型对样本词序列中的各个词进行特征提取,得到词特征,在一些实施例中,通过第一语言模型基于词特征分别确定各个词的预测条件概率,通基于预测条件概率对待匹配信息样本进行通顺度预测得到预测通顺度。获得待匹配信息样本的预测通顺度的过程参照上述实施例中获得待匹配信息的通顺度的过程,这里不再赘述。
在一些实施例中,第一语言模型采用的是BERT模型,该模型本身携带分词器,因此终端直接将待匹配信息样本输入至第一语言模型中,通过第一语言模型对待匹配信息样本进行分词,并基于分词后的样本词序列进行通顺度的预测,得到预测通顺度并输出。其中,待匹配信息样本可以是领域内的大规模语料,各待匹配信息样本的通顺度默认为100%,因而在训练前无需对待匹配信息样本的通顺度进行标注,而直接将其输入至第一语言模型中使模型学习待匹配信息样本的语言逻辑。
接下来,终端获得预先标注的目标通顺度与第一语言模型输出的预测通顺度的差异,然后基于该差异更新第一语言模型的模型参数。具体地,当该差异的值达到阈值时,终端确定相应的误差信号;从第一语言模型的输出层开始,将误差信号在第一语言模型中反向传播,并在传播的过程中更新第一语言模型的模型参数。
这里对反向传播进行说明,将训练样本输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。
通过上述的对第一语言模型的训练过程,能够使第一语言模型学习到常规的语言逻辑,并具备对输入的信息进行通顺度预测的能力。
接下来继续对本申请实施例提供的敏感信息的检测方法进行介绍,图11是本申请实施例提供的敏感信息的检测方法的一个可选的流程示意图,参见图11,本申请实施例提供的敏感信息的检测方法由终端、服务器协同实施。
步骤501,终端采集客服的语音数据;
步骤502,终端对语音数据进行语音识别,得到文本类型的待检测信息;
步骤503,终端响应于针对待检测文本的触发操作,生成对待检测信息的检测请求;
这里,检测请求由用户通过向终端发出触发操作后由终端生成,在一些实施例中,还可以由终端自动生成,例如终端在监测到客服通话时,自动对通话语音进行采集,得到通话语音的语音数据,在对语音数据进行语音识别得到文本类型的待检测信息后,生成检测请求发送给服务器。其中,检测请求携带有待检测信息。
步骤504,终端发送针对于对待检测信息的检测请求至服务器;
步骤505,服务器解析接收到的检测请求,得到待检测信息;
步骤506,服务器从敏感信息中提取关键词;
步骤507,服务器从至少两个特征维度,分别对关键词进行特征提取,得到关键词的至少两个维度特征;
步骤508,服务器基于关键词的至少两个维度特征,得到关键词的语义特征,将关键词的语义特征作为敏感信息的语义特征;
这里,服务器可以将关键词的至少两个维度特征进行特征拼接,得到关键词的语义特征,还可以分别获取各维度特征的特征权重,将各维度特征进行加权求和,得到关键词的语义特征。
步骤509,服务器基于敏感信息的语义特征,分别确定敏感信息与信息库中各参考信息的语义相似度;
步骤510,服务器从信息库中,选取与敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;
步骤511,服务器分别将各目标敏感信息替换敏感信息中的关键词,得到至少两个相应的待匹配信息;
步骤512,服务器分别确定至少两个待匹配信息的通顺度;
步骤513,服务器从至少两个待匹配信息中选取通顺度满足通顺度条件的目标待匹配信息;
步骤514,服务器将目标待匹配信息与待检测信息进行匹配,并将匹配结果作为相应的待匹配信息与待检测信息的匹配结果;
步骤515,服务器基于匹配结果生成待检测信息的敏感信息检测结果;
步骤516,服务器发送敏感信息检测结果至终端;
步骤517,终端输出接收到的敏感信息检测结果。
本实施例中,能够实现对敏感信息的模糊检测,检测结果的全面准确性高,且减轻了人工选取相近语义的敏感信息的大量工作量。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。在实际实施时,本申请实施例提供的敏感信息的检测方法可包括如下操作:
以银行的客服质检场景为例,为了提高客服的服务质量,需对客服的服务通话进行内容检查,这里,通过对客服的通话内容进行敏感信息的检测来对客服的服务进行监控。其中,敏感信息可以预先设置,它可以是任意内容,用户可以基于实际场景需求自定义希望客服避免出现的内容,例如“我是警察”等冒充公检法的内容,或者“我的电话号码是”等透露客服私人联系方式给客户的内容等。
在实际实施时,终端采集客服与客户通话的语音数据,并对语音数据进行语音识别,将语音数据转换为文本,并将转换得到的文本作为待检测信息,以对待检测信息进行敏感信息的检测。
在开始对待检测信息进行检测时,终端首先通过TF-IDF算法提取敏感信息中的关键词,例如“我是警察”的关键词则为“警察”。然后对提取的关键词进行特征提取,这里,终端通过BERT模型来提取关键词的词特征,具体地,终端将关键词输入至BERT模型中,通过BERT模型的词嵌入层提取得到关键词的词特征。需要说明的是,BERT模型为训练好的模型,通过学习领域内的大规模语料获得领域内的语言逻辑,并拥有预测语句通顺度的能力。其中,BERT在学习领域内的大规模语料后,还获得了领域内的大规模的参考词对应的参考词特征,也即包括词嵌入向量、分割嵌入向量和位置嵌入向量的特征向量。大规模的参考词和对应的参考词特征相映射构成一个词嵌入表,作为模型参数存储在BERT模型中
接下来,终端基于词嵌入表和关键词的词特征,确定与关键词语义相近的多个参考词作为近似词。具体地,终端通过余弦相似度算法确定关键词的词特征与各参考词的参考词特征之间的相似度,并基于相似度确定相似度排在前K的topK个近似词。
终端在获得关键词的多个近似词后,分别将多个近似词与敏感信息中除关键词以外的部分进行拼接,得到与敏感信息语义相近的多个近似信息,然后将敏感信息和多个近似信息共同作为待匹配信息。例如对于“我是警察”这一敏感信息,它的关键词为“警察”,除“警察”以外的部分为“我是”,终端在搜索到“警察”的多个近似词“公安”、“警察局”、“公安局”和“110”后,分别将近似词与“我是”进行拼接,得到“我是公安”、“我是警察局”、“我是公安局”和“我是110”等近似信息。
这里,终端还对对近似信息进行通顺性的判断,过滤掉逻辑不通顺的近似信息。终端分别将各近似信息输入至BERT模型中,通过BERT模型对各近似信息进行通顺度预测,得到各近似信息的通顺度。具体地,终端通过BERT模型对各近似信息进行分词,得到各近似信息的词序列,并对近似信息的词序列中的各个词进行特征提取,得到近似信息的各个词的词特征,然后基于各个词的词特征确定各个词在各自的近似信息中的条件概率,并基于条件概率预测近似信息的通顺度。然后,终端选取通顺度满足通顺度条件的近似信息作为目标近似信息,例如通顺度为80%以上的近似信息。示例性地,终端通过通顺度的筛选,可以将上述的“我是警察局”和“我是公安局”等不符合语言逻辑的近似信息筛掉,最终得到“我是公安”和“我是110”等目标近似信息。
接下来,终端将包括敏感信息和与敏感信息语义相近且符合语言逻辑的目标近似信息作为待匹配信息,将待匹配信息与待检测信息进行文本的硬匹配,以检测待检测文本中是否包括待匹配信息,并得到相应的匹配结果。此后,终端基于匹配结果生成敏感信息检测结果并输出,以供用户浏览。
下面继续说明本申请实施例提供的敏感信息的检测装置555的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器550的敏感信息的检测装置555中的软件模块可以包括:
特征提取模块5551,用于对敏感信息进行语义特征提取,得到敏感信息的语义特征;
相似度确定模块5552,用于基于敏感信息的语义特征,分别确定敏感信息与信息库中各参考信息的语义相似度;
选取模块5553,用于从信息库中,选取与敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;
匹配模块5554,用于分别将至少两个目标敏感信息与待检测信息进行匹配,并基于匹配结果生成待检测信息的敏感信息检测结果。
在一些实施例中,特征提取模块5551,还用于从至少两个特征维度,分别对敏感信息进行特征提取,得到敏感信息的至少两个维度特征;将至少两个维度特征进行特征拼接,得到敏感信息的语义特征
在一些实施例中,特征提取模块5551,还用于从至少两个特征维度,分别对敏感信息进行特征提取,得到敏感信息的至少两个维度特征;获取各维度特征的特征权重;将至少两个维度特征进行加权求和,得到敏感信息的语义特征
在一些实施例中,特征提取模块5551,还用于从敏感信息中提取关键词;对关键词进行特征提取,得到关键词的语义特征,将关键词的语义特征作为敏感信息的语义特征。
在一些实施例中,匹配模块5554,还用于分别将各目标敏感信息替换敏感信息中的关键词,得到至少两个相应的待匹配信息;分别将各待匹配信息与待检测信息进行匹配。
在一些实施例中,匹配模块5554,还用于分别确定至少两个待匹配信息的通顺度;从至少两个待匹配信息中选取通顺度满足通顺度条件的目标待匹配信息;将目标待匹配信息与待检测信息进行匹配。
在一些实施例中,匹配模块5554,还用于当待匹配信息的类型为文本类型时,分别对各待匹配信息进行分词,得到各待匹配信息的词序列;通过第一语言模型,分别对各词序列中的词进行特征提取,得到各词序列的词特征;通过第一语言模型,对各词序列的词特征进行条件概率预测,得到各待匹配信息中的词出现在相应词序列中的条件概率;基于预测得到的条件概率,确定各待匹配信息的通顺度。
在一些实施例中,存储在存储器550的敏感信息的检测装置555中的软件模块还可以包括:训练模型,用于获取待匹配信息样本所对应的样本词序列,样本词序列标注有待匹配信息样本的目标通顺度;通过第一语言模型,对样本词序列中的词进行特征提取,得到样本词序列的词特征;通过第一语言模型,对样本词序列的词特征进行条件概率预测,得到预测条件概率;通过第一语言模型,基于预测条件概率,对待匹配信息样本进行通顺度预测,得到预测通顺度;获取目标通顺度与预测通顺度之间的差异,并基于差异更新第一语言模型的模型参数。
在一些实施例中,相似度确定模块5552,还用于获取信息库中各参考信息的语义特征;分别确定敏感信息的语义特征与信息库中各参考信息的语义特征的相似度,作为语义相似度。
在一些实施例中,相似度确定模块5552,还用于当参考信息的类型为文本类型时,分别对各参考信息进行分词,得到各参考信息的词序列;通过第二语言模型,分别对各词序列中的词进行特征提取,得到各词序列的词特征;基于各词序列的词特征,确定相应参考信息的语义特征。
在一些实施例中,存储在存储器550的敏感信息的检测装置555中的软件模块还可以包括:采集模块,用于采集客服的语音数据;对语音数据进行语音识别,得到文本类型的待检测信息。
在一些实施例中,存储在存储器550的敏感信息的检测装置555中的软件模块还可以包括:输出模块,用于当匹配结果表征存在至少一个目标敏感信息与待检测信息匹配成功时,输出以下信息至少之一:与待检测信息匹配成功的目标敏感信息、与待检测信息匹配成功的目标敏感信息所处的语句或段落、与待检测信息匹配成功的目标敏感信息所处待检测信息中的位置指示信息。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。
本申请实施例提供了一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行存储器中存储的可执行指令时,实现本申请实施例提供的敏感信息的检测方法。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的敏感信息的检测方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3示出的敏感信息的检测方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例能够提高敏感信息检测的全面性及准确性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (10)

1.一种敏感信息的检测方法,其特征在于,包括:
对敏感信息进行语义特征提取,得到所述敏感信息的语义特征;
基于所述敏感信息的语义特征,分别确定所述敏感信息与信息库中各参考信息的语义相似度;
从所述信息库中,选取与所述敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;
分别将至少两个所述目标敏感信息与待检测信息进行匹配,并基于匹配结果生成所述待检测信息的敏感信息检测结果。
2.根据权利要求1所述的方法,其特征在于,所述对敏感信息进行语义特征提取,得到所述敏感信息的语义特征,包括:
从所述敏感信息中提取关键词;
对所述关键词进行特征提取,得到所述关键词的语义特征,将所述关键词的语义特征作为所述敏感信息的语义特征;
所述分别将至少两个所述目标敏感信息与待检测信息进行匹配,包括:
分别将各所述目标敏感信息替换所述敏感信息中的关键词,得到至少两个相应的待匹配信息;
分别将各所述待匹配信息与所述待检测信息进行匹配。
3.根据权利要求1或2所述的方法,其特征在于,所述分别将各所述待匹配信息与所述待检测信息进行匹配,包括:
分别确定所述至少两个待匹配信息的通顺度;
从所述至少两个待匹配信息中选取通顺度满足通顺度条件的目标待匹配信息;
将所述目标待匹配信息与所述待检测信息进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取待匹配信息样本所对应的样本词序列,所述样本词序列标注有所述待匹配信息样本的目标通顺度;
通过第一语言模型,对所述样本词序列中的词进行特征提取,得到所述样本词序列的词特征;
通过所述第一语言模型,对所述样本词序列的词特征进行条件概率预测,得到预测条件概率;
通过所述第一语言模型,基于所述预测条件概率,对所述待匹配信息样本进行通顺度预测,得到预测通顺度;
获取所述目标通顺度与所述预测通顺度之间的差异,并基于所述差异更新所述第一语言模型的模型参数;
所述分别确定所述至少两个待匹配信息的通顺度,包括:
当所述待匹配信息的类型为文本类型时,分别对各所述待匹配信息进行分词,得到各所述待匹配信息的词序列;
通过所述第一语言模型,分别对各所述词序列中的词进行特征提取,得到各所述词序列的词特征;
通过所述第一语言模型,对各所述词序列的词特征进行条件概率预测,得到各所述待匹配信息中的词出现在相应词序列中的条件概率;
基于预测得到的所述条件概率,确定各所述待匹配信息的通顺度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述敏感信息的语义特征,分别确定所述敏感信息与信息库中各参考信息的语义相似度,包括:
获取所述信息库中各参考信息的语义特征;
分别确定所述敏感信息的语义特征与所述信息库中各参考信息的语义特征的相似度,作为所述语义相似度。
6.根据权利要求5所述的方法,其特征在于,所述获取所述信息库中各参考信息的语义特征,包括:
当所述参考信息的类型为文本类型时,分别对各所述参考信息进行分词,得到各所述参考信息的词序列;
通过第二语言模型,分别对各所述词序列中的词进行特征提取,得到各所述词序列的词特征;
基于各所述词序列的词特征,确定相应参考信息的语义特征。
7.根据权利要求1所述的方法,其特征在于,所述基于匹配结果生成所述待检测信息的敏感信息检测结果之后,所述方法还包括:
当所述匹配结果表征存在至少一个所述目标敏感信息与所述待检测信息匹配成功时,输出以下信息至少之一:
与所述待检测信息匹配成功的目标敏感信息、与所述待检测信息匹配成功的目标敏感信息所处的语句或段落、与所述待检测信息匹配成功的目标敏感信息所处所述待检测信息中的位置指示信息。
8.一种敏感信息的检测装置,其特征在于,包括:
特征提取模块,用于对敏感信息进行语义特征提取,得到所述敏感信息的语义特征;
相似度确定模块,用于基于所述敏感信息的语义特征,分别确定所述敏感信息与信息库中各参考信息的语义相似度;
选取模块,用于从所述信息库中,选取与所述敏感信息的语义相似度达到相似度阈值的至少两个参考信息,并将选取的参考信息作为目标敏感信息;
匹配模块,用于分别将至少两个所述目标敏感信息与待检测信息进行匹配,并基于匹配结果生成所述待检测信息的敏感信息检测结果。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至7任一项所述的敏感信息的检测方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至7任一项所述的敏感信息的检测方法。
CN202011091612.8A 2020-10-13 2020-10-13 敏感信息的检测方法、装置、电子设备及存储介质 Pending CN112307770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011091612.8A CN112307770A (zh) 2020-10-13 2020-10-13 敏感信息的检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011091612.8A CN112307770A (zh) 2020-10-13 2020-10-13 敏感信息的检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112307770A true CN112307770A (zh) 2021-02-02

Family

ID=74488969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011091612.8A Pending CN112307770A (zh) 2020-10-13 2020-10-13 敏感信息的检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112307770A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861034A (zh) * 2021-02-04 2021-05-28 北京百度网讯科技有限公司 检测信息的方法、装置、设备和存储介质
CN112905743A (zh) * 2021-02-20 2021-06-04 北京百度网讯科技有限公司 文本对象检测的方法、装置、电子设备和存储介质
CN113158686A (zh) * 2021-04-27 2021-07-23 中国科学院计算机网络信息中心 网络文化经营合规检测方法、装置、可读介质及电子设备
CN113221558A (zh) * 2021-05-28 2021-08-06 中邮信息科技(北京)有限公司 一种快递地址纠错方法、装置、存储介质及电子设备
CN113449350A (zh) * 2021-06-30 2021-09-28 中国工商银行股份有限公司 Usb外发敏感信息的管理方法、装置、设备及介质
CN113904851A (zh) * 2021-10-11 2022-01-07 中国电信股份有限公司 网络信息处理方法、用户面功能系统、介质和电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861034A (zh) * 2021-02-04 2021-05-28 北京百度网讯科技有限公司 检测信息的方法、装置、设备和存储介质
CN112861034B (zh) * 2021-02-04 2023-08-15 北京百度网讯科技有限公司 检测信息的方法、装置、设备和存储介质
CN112905743A (zh) * 2021-02-20 2021-06-04 北京百度网讯科技有限公司 文本对象检测的方法、装置、电子设备和存储介质
CN112905743B (zh) * 2021-02-20 2023-08-01 北京百度网讯科技有限公司 文本对象检测的方法、装置、电子设备和存储介质
CN113158686A (zh) * 2021-04-27 2021-07-23 中国科学院计算机网络信息中心 网络文化经营合规检测方法、装置、可读介质及电子设备
CN113221558A (zh) * 2021-05-28 2021-08-06 中邮信息科技(北京)有限公司 一种快递地址纠错方法、装置、存储介质及电子设备
CN113221558B (zh) * 2021-05-28 2023-09-19 中邮信息科技(北京)有限公司 一种快递地址纠错方法、装置、存储介质及电子设备
CN113449350A (zh) * 2021-06-30 2021-09-28 中国工商银行股份有限公司 Usb外发敏感信息的管理方法、装置、设备及介质
CN113904851A (zh) * 2021-10-11 2022-01-07 中国电信股份有限公司 网络信息处理方法、用户面功能系统、介质和电子设备

Similar Documents

Publication Publication Date Title
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN112307770A (zh) 敏感信息的检测方法、装置、电子设备及存储介质
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN111401077B (zh) 语言模型的处理方法、装置和计算机设备
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111221939B (zh) 评分方法、装置和电子设备
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN112183994B (zh) 一种设备状态的评估方法、装置、计算机设备和存储介质
CN111680159A (zh) 数据处理方法、装置及电子设备
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN111314566A (zh) 一种语音质检方法、装置与系统
CN114218958A (zh) 工单处理方法、装置、设备和存储介质
CN111090771A (zh) 歌曲搜索方法、装置及计算机存储介质
CN114840869A (zh) 基于敏感度识别模型的数据敏感度识别方法及装置
CN111949785A (zh) 查询语句管理方法和装置、可读存储介质、电子设备
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
Carvalho et al. A Brazilian Portuguese moral foundations dictionary for fake news classification
CN113297525A (zh) 网页分类方法、装置、电子设备、及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination