CN111899741A - 音频关键词加密方法、装置、存储介质及电子装置 - Google Patents

音频关键词加密方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN111899741A
CN111899741A CN202010784876.5A CN202010784876A CN111899741A CN 111899741 A CN111899741 A CN 111899741A CN 202010784876 A CN202010784876 A CN 202010784876A CN 111899741 A CN111899741 A CN 111899741A
Authority
CN
China
Prior art keywords
audio
keyword
audio data
data
confusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010784876.5A
Other languages
English (en)
Inventor
刘志龙
梁志婷
徐世超
徐浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202010784876.5A priority Critical patent/CN111899741A/zh
Publication of CN111899741A publication Critical patent/CN111899741A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Storage Device Security (AREA)

Abstract

本发明实施例提供了一种音频关键词加密方法、装置、存储介质及电子装置,该方法包括:对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取;获取与所述关键词对应的混淆音频片段;将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。通过本发明,由于将音频数据进行语音识别得到对应的文本数据,并根据文本数据加密方法将该音频数据对应的片段替换成混淆音频得到加密的音频数据,因此,可以解决相关技术中难以具体地针对音频数据中的关键词进行加密解密的问题,提高了音频数据的安全性、降低了隐私音频信息泄密的可能性。

Description

音频关键词加密方法、装置、存储介质及电子装置
技术领域
本发明实施例涉及音频加密领域,具体而言,涉及一种音频关键词加密方法、装置、存储介质及电子装置。
背景技术
近年来随着互联网技术的发展,人们获得多媒体文件,如CD、VCD/DVD格式的数字音视频片等的途径和方式也发生了根本性的变化。从以往购买以CD、VCD、DVD为载体的实物商品,转变为通过各种电子智能终端,如PC机、平板电脑、移动智能终端(即手机)从互联网在线播放或下载后进行播放的方式获取。
由于发布在互联网上的多媒体文件,多以原始文件的形式存在,也有将原始文件进行简单分割后以几个文件片段的形式存储在网络的;稍复杂点的,对分发的多媒体文件或多媒体流文件,采用基于超文本传输协议(HyperText Transfer Protocol,HTTP)进行文件传输,容易被嗅探得到资源下载路径得到原始多媒体文件。因而,网络用户能够轻而易举地直接通过在线播放或下载的方式就能免费获得和使用这样的原始多媒体文件,这对包含在该多媒体文件中的作品享有著作权的权利人而言,是一种权益侵害,同时,这种行为还涉嫌违反著作权法。
并且,随着人工智能AI技术的不断普及和发展,通过语音来进行数据的交流和处理已不再是奢望。然而,目前研究人员很少涉及语音隐私信息的检测。并且,目前的语音检测方法并不足以精确地判断含有语音隐私信息的音频数据中哪些内容属于语音隐私信息,也不能精确地表示出语音隐私信息在音频数据中的位置。
当大量的音频数据在云服务端之间储存读取时,如果对这些音频数据不进行加密处理,其中的隐私信息很容易被窃取。针对前述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种音频关键词加密方法、装置、存储介质及电子装置,以至少解决相关技术中难以具体地针对音频数据中的关键词进行加密解密的问题。
根据本发明的一个实施例,提供了一种音频关键词加密方法,包括:对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取;获取与所述关键词对应的混淆音频片段;将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。
在一个示例性实施例中,所述获取与所述关键词对应的混淆音频片段,还包括:从预设的密码数据库中查询并获取所述混淆音频片段;或者当所述密码数据库中没有与所述关键词对应的混淆音频片段时,随机生成所述混淆音频片段,并将所述关键词及其对应的所述混淆音频片段存入所述密码数据库中。
在一个示例性实施例中,在形成第二音频数据之后,还包括:当对所述第二音频数据进行解密时,获取与所述关键词对应的所述第一音频数据的音频片段,将所述第二音频数据中的所述混淆音频片段替换成与所述关键词对应的所述第一音频数据的音频片段,以形成所述第一音频数据。
在一个示例性实施例中,所述混淆音频片段包括无声音频片段。
根据本发明的另一个实施例,提供了一种音频关键词加密装置,包括:识别提取模块,用于对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取;获取模块,用于获取与所述关键词对应的混淆音频片段;替换模块,用于将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。
在一个示例性实施例中,所述获取模块,还包括:查询单元,用于从预设的密码数据库中查询并获取所述混淆音频片段;生成单元,用于在所述密码数据库中没有与所述关键词对应的混淆音频片段的情况下,随机生成所述混淆音频片段,并将所述关键词及其对应的所述混淆音频片段存入所述密码数据库中。
在一个示例性实施例中,还包括:解密模块,用于在对所述第二音频数据进行解密的情况下,获取与所述关键词对应的所述第一音频数据的音频片段,将所述第二音频数据中的所述混淆音频片段替换成与所述关键词对应的所述第一音频数据的音频片段,以形成所述第一音频数据。
在一个示例性实施例中,所述混淆音频片段包括无声音频片段。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明的上述实施例,由于将音频数据进行语音识别得到对应的文本数据,并根据文本数据加密方法将该音频数据对应的片段替换成混淆音频得到加密的音频数据,因此,可以解决相关技术中难以具体地针对音频数据中的关键词进行加密解密的问题,提高了音频数据的安全性、降低了隐私音频信息泄密的可能性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种音频关键词加密方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的音频关键词加密方法的流程图;
图3是根据本发明实施例的音频关键词加密装置的结构框图;
图4是根据本发明可选实施例的音频关键词加密装置的结构框图;
图5是根据本发明实施例的音频关键信息加密保护方法的流程图;
图6是根据本发明实施例的针对非结构化文本的个人隐私信息自动检测方法的流程图;
图7是根据本发明实施例的针对非结构化文本的个人隐私信息自动检测装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了更好的理解本发明实施例以及可选实施例的技术方案,以下对本发明实施例以及可选实施例中可能出现的应用场景进行说明,但不用于限定以下场景的应用。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种音频关键词加密方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的音频关键词加密方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的有线或无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过宽带网络与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述计算机终端的音频关键词加密方法,图2是根据本发明实施例的音频关键词加密方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取。
在本实施例中,具体而言,语音识别所使用的声学模型可以选择以下之一:混合声学模型、端到端声学模型或Seq2Seq。
另外,在本实施例中,提取文本数据中的关键词可以使用非结构化文本的个人隐私信息自动检测方法(见图6)。并且,所提取的关键词可以是包含用户个人隐私的词句,如:身份证号、姓名、性别、住址等。当然,本实施例并不对具体的关键词的内容以及范围进行限定。
步骤S202,获取与所述关键词对应的混淆音频片段。
在本实施例中,可以从预设的密码数据库中获取对应的混淆音频片段,也可以自主生成混淆音频片段。
步骤S203,将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。
在本实施例中,具体而言,可以只将关键词对应的音频片段替换成混淆音频片段,而其余音频片段保持原格式、内容和位置以生成第二音频数据。当然,还可以将部分或者全部的音频片段都替换成混淆音频片段,本实施例对此不做限定。
在本实施例中,步骤S202可以包括:从预设的密码数据库中查询并获取所述混淆音频片段;或者当所述密码数据库中没有与所述关键词对应的混淆音频片段时,随机生成所述混淆音频片段,并将所述关键词及其对应的所述混淆音频片段存入所述密码数据库中。
在本实施例中,密码数据库中可以含有关键词与混淆音频的对应关系,并可以以表格形式储存在该密码数据库中。
在本实施例中,具体而言,单个关键词仅需根据密码数据库中有无对应的混淆音频片段即可判断是否直接从该密码数据库中获取混淆音频片段或者直接生成一段新的混淆音频片段。然而,对于第一音频数据整体而言,其中的各个关键词可以分别进行有无对应的混淆音频片段的判断。
在本实施例的步骤S203之后,还可以包括:当对所述第二音频数据进行解密时,获取与所述关键词对应的所述第一音频数据的音频片段,将所述第二音频数据中的所述混淆音频片段替换成与所述关键词对应的所述第一音频数据的音频片段,以形成所述第一音频数据。
在本实施例中,具体而言,因第一音频数据加密时已将所有的关键词对应的混淆音频片段存入密码数据库中,所以,当对第二音频数据进行解密以获得第一音频数据时,可以直接从密码数据库中调取各个混淆音频片段对应的关键词,即可很容易地获得原始的第一音频数据。
在本实施例中,所述混淆音频片段可以包括无声音频片段。
在本实施例中,具体而言,当该混淆音频片段为无声音频片段时,记录该无声音频片段的密码数据库可以记录该无声音频片段的具体特征(如,在第一音频数据中的位置、音频时长等)以便于解密时将该无声音频片段准确替换成对应的第一音频数据的音频片段。
通过上述步骤,由于将音频数据进行语音识别得到对应的文本数据,并根据文本数据加密方法将该音频数据对应的片段替换成混淆音频得到加密的音频数据,因此,可以解决相关技术中难以具体地针对音频数据中的关键词进行加密解密的问题,达到提高音频数据的安全性、降低隐私音频信息泄密的可能性的效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种音频关键词加密装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”和“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的音频关键词加密装置的结构框图,如图3所示,该装置包括识别提取模块10、获取模块20和替换模块30。
所述识别提取模块10,用于对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取。
在本实施例中,所述识别提取模块10与所述获取模块20连接。
另外,在本实施例中,所述识别提取模块10中语音识别所使用的声学模型可以选择以下之一:混合声学模型、端到端声学模型或Seq2Seq。
在本实施例中,所述识别提取模块10中,对文本数据的关键词的提取装置可以使用非结构化文本的个人隐私信息自动检测装置(见图7)。
所述获取模块20,用于获取与所述关键词对应的混淆音频片段。
在本实施例中,所述获取模块20分别于所述识别提取模块10、所述替换模块30连接。
另外,在本实施例中,所述获取模块20可以从预设的密码数据库中获取对应的混淆音频片段,也可以自主生成混淆音频片段。
所述替换模块30,用于将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。
在本实施例中,所述替换模块30与所述获取模块20连接。
另外,在本实施例中,所述替换模块30可以只将关键词对应的音频片段替换成混淆音频片段,而其余音频片段保持原格式、内容和位置以生成第二音频数据。当然,所述替换模块30还可以将部分或者全部的音频片段都替换成混淆音频片段,本实施例对此不做限定。
图4是根据本发明可选实施例的音频关键词加密装置的结构框图,如图4所示,该装置除包括图3所示的所有模块外,还可以包括解密模块40,所述获取模块20还可以包括查询单元21和生成单元22。
所述解密模块40,用于在对所述第二音频数据进行解密的情况下,获取与所述关键词对应的所述第一音频数据的音频片段,将所述第二音频数据中的所述混淆音频片段替换成与所述关键词对应的所述第一音频数据的音频片段,以形成所述第一音频数据。
在本实施例中,因第一音频数据加密时已将所有的关键词对应的混淆音频片段存入密码数据库中,所以,当所述解密模块40对第二音频数据进行解密以获得第一音频数据时,其可以直接从密码数据库中调取各个混淆音频片段对应的关键词,即可很容易地获得原始的第一音频数据。
所述查询单元21,用于从预设的密码数据库中查询并获取所述混淆音频片段。
所述生成单元22,用于在所述密码数据库中没有与所述关键词对应的混淆音频片段的情况下,随机生成所述混淆音频片段,并将所述关键词及其对应的所述混淆音频片段存入所述密码数据库中。
在本实施例中,在所述解密模块40中,单个关键词仅需根据密码数据库中有无对应的混淆音频片段即可判断是否直接从该密码数据库中获取混淆音频片段或者直接生成一段新的混淆音频片段。然而,对于第一音频数据整体而言,其中的各个关键词可以分别根据所述查询单元21或所述生成单元22进行有无对应的混淆音频片段的判断。
在本实施例中,所述混淆音频片段可以包括无声音频片段。
在本实施例中,具体而言,当该混淆音频片段为无声音频片段时,记录该无声音频片段的密码数据库可以记录该无声音频片段的具体特征(如,在第一音频数据中的位置、音频时长等)以便于解密时将该无声音频片段准确替换成对应的第一音频数据的音频片段。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
为了便于对本发明所提供的技术方案的理解,下面将结合具体场景的实施例进行详细阐述。
本实施例通过预先设计沟通的公私钥,对上传的音频数据进行公钥加密,这样就不会把个人的裸数据直接展示出来,而个人自己获取音频数据后可通过私钥对音频数据进行解密。这样可大幅度提高数据的安全性,降低隐私音频数据的泄漏。
具体而言,本实施例通过录音设备收集的音频信息在上传至云服务器前,先获取音频信息进行加密处理,对截取到敏感隐私的音频信息根据预先设定的密码本转换为公钥。将处理后的音频文件再上传保存在云服务器;读取音频文件的时候再根据私钥解密隐私个人信息,得到完整音频信息。
在本实施例中,首先需要构思一套隐私和音频相对应的密码本,并可更新其对应关系。比如,身份证号对应的一套公/私钥,当解析上传保存音频文件的时候,通过查询密码本,如果在密码本中存在这个身份证号,就获取与该身份证号对应的一段无声音频(或者其他混淆音频),如果在密码本中没有对应的身份证号,则更新该密码本,补全该身份证号对应的音频信息(混淆音频),从而得到一个完善了隐私信息和音频的对应关系的密码本。这样即使音频文件泄漏也不会暴漏其中的个人隐私信息。当再次需要读取上传的音频文件的时候,可以通过预先约定的公/私钥进行音频解密,获得完整的音频文件。
图5是根据本发明实施例的音频关键信息加密保护方法的流程图,如图5所示,该流程包括如下步骤:
步骤S501,预先在录音设备中构建一套密码本,以及与该密码本相关的关联数据库。
在本实施例中,该密码本为与个人隐私信息相关的关键词文本。该密码本中预先可存入常规的隐私关键词,并可对新录入(即第一次采集到)的隐私关键词进行存储。
具体而言,关联数据库可以以表格形式存储关键词与对应的混淆音频、实际音频的内容。如:隐私关键词-混淆音频-实际音频。
步骤S502,录音设备采集语音数据。
步骤S503,录音设备对所采集的语音数据进行语音识别处理,得到对应的文本数据,并对个人隐私信息进行检测和提取,可采用相关技术中隐私信息检测方法。
步骤S504,录音设备在将音频文件上传云服务器前,对关键数据,即隐私信息(如身份证,银行卡号等)通过密码本中的对应关系替换成无声音频。
在本实施例中,通过录音设备中的密码本,将上一步中提取到的隐私信息关键词与该密码本进行匹配,若该密码本中存在该隐私信息关键词,则将该隐私信息关键词对应的音频部分直接替换为关联数据库中的混淆音频。
另外,在本实施例中,若该密码本中不存在该隐私信息关键词,则更新密码本,将该隐私信息关键词存入密码本中,并对应这个隐私信息关键词生成一段随机的混淆音频或无声音频,从而更新关联数据库。
具体而言,关联数据库可以以表格形式存储并更新关键词与对应的混淆音频、实际音频的内容。如:隐私关键词-混淆音频-实际音频。
在本实施例中,通过密码本,可识别出录音设备在之前所采集过的隐私信息,并快速替换成混淆音频(因为混淆音频是已经生成好存储在关联数据库中的);而有新的隐私信息也可及时存储到关联数据库中,并为其生成一段对应的混淆音频。
步骤S505,读取录音设备所上传的音频文件,通过更新完善的密码本对隐私信息还原至原始音频。
本实施例可保证录音设备上传到云服务器中的音频数据是对隐私信息进行处理过的,即无授权人员,无法获悉具体的隐私信息。
具体而言,通过提前预设公私钥密码本,对个人或者企业大量待处理的原始音频数据进行加密,避免被他人获取到音频文件可直接得到其隐私信息。对音频的隐私关键数据保护是非常有必要的。
另外,为了便于对上述实施例中的步骤S503中的隐私信息检测方法的理解,下面将结合具体场景的实施例进行详细阐述。
本实施例的目的在于解决上述现有技术中存在的难题,提供一种针对非结构化文本的个人隐私信息自动检测方法及系统,能够有效地检测出非结构化数据中的实体类隐私信息,大大提高了检测效率,并降低了人工成本。
本实施例是通过以下技术方案实现的:
一种针对非结构化文本的个人隐私信息自动检测方法,所述方法首先将非结构化文本划分为含有隐私信息的文本和不含有隐私信息的文本,然后从所述含有隐私信息的文本中识别出实体类信息,最后计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,并根据得到的两个权重判断每个实体信息是否属于实体类隐私信息。
图6是根据本实施例实施例的针对非结构化文本的个人隐私信息自动检测方法的流程图,如图6所示,所述方法包括如下步骤:
步骤S601,预处理:对非结构化文本进行预处理得到预处理后的文本;
步骤S602,文本分类:对所述预处理后的文本进行分类,将其分为含有隐私信息的文本和不含有隐私信息的文本;
步骤S603,命名实体识别:从所述含有隐私信息的文本中识别出实体类信息;
步骤S604,识别结果精细化:分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,得到每个实体类信息的两个权重;根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息。
所述步骤S601的操作可以包括:
读取非结构化文本并构建字符字典;
读取非结构化文本并构建类别词典,所述类别词典中包括两种类别:隐私、非隐私;
将所述非结构化文本处理成多个批次的文本,每个批次的文本的大小根据文本分类器一次能够处理的最大文字数量确定;所述多个批次的文本即为预处理后的文本。
所述步骤S602的操作可以包括:
利用文本分类器对预处理后的文本进行分类,将其分为含有隐私信息的文本和不含有隐私信息的文本。
所述文本分类器采用字符级卷积神经网络。
所述步骤S603的操作可以包括:
步骤S6031,使用基线模型对所述含有隐私信息的文本进行识别得到与所述含有隐私信息的文本对应的一组n-best标注序列;
步骤S6032,将所述一组n-best标注序列进行泛化操作,得到新的泛化序列;
步骤S6033,将所述新的泛化序列中的每个标注序列依次输入到Re-ranking神经网络中得到每个标注序列的输出标注序列概率,然后利用每个标注序列的所述输出标注序列概率与该标注序列对应的经过基线模型得到的概率值进行差值计算得到该标注序列的最大联合概率;
步骤S6034,对一组n-best标注序列中的各个标注序列的最大联合概率进行排序,找到最大的最大联合概率,该最大的最大联合概率所对应的标注序列即为最佳标注序列;
步骤S6035,从所述最佳标注序列中找到非0的标注,各个非0的标注对应的信息即为实体类信息。
所述步骤S6031中的基线模型采用BILSTM-CRF模型;
所述步骤S6033中的Re-ranking神经网络采用BILSTM结构。
所述步骤S6034中的分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,得到每个实体类信息的两个权重的操作包括:
使用TF-IDF算法分别计算每个所述实体类信息在含有隐私信息的文本中的权重Ssensi;和在不含有隐私信息的文本中的权重Snon-sensi,即得到每个实体类信息的两个权重。
所述步骤S604中的所述根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息的操作包括:
通过计算Ssensi-Snon-sensi得到权重的差值,然后判断所述权重的差值是否大于设定的阂值0,如果是,则判定该实体类信息属于实体类隐私信息,如果否,则判定该实体类信息不属于实体类隐私信息。
相应地,本实施例提供了一种针对非结构化文本的个人隐私信息自动检测系统。图7是根据本发明实施例的针对非结构化文本的个人隐私信息自动检测装置的结构框图,如图7所示,该装置包括:预处理模块M10、文本分类模块M20、命名实体识别模块M30和识别结果精细化模块M40;
所述预处理模块M10:与所述文本分类模块M20连接,用于读取非结构化文本、构建字符字典和类别词典、将所述非结构化文本处理成多个批次的文本并将各个批次的文本发送给所述文本分类模块M20;
所述文本分类模块M20:分别与所述预处理模块M10、命名实体识别模块M30、识别结果精细化模块M40连接;所述文本分类模块M20利用文本分类器对各个批次的文本进行分类,将其分为含有隐私信息的文本和不含有隐私信息的文本,并分别将两个文本存储下来,同时将含有隐私信息的文本发送给命名实体识别模块M30,将含有隐私信息的文本和不含有隐私信息的文本发送给识别结果精细化模块M40;
所述命名实体识别模块M30:分别与所述文本分类模块M20、识别结果精细化模块M40连接;所述命名实体识别模块M30从所述含有隐私信息的文本中识别出实体类信息,并将识别出的实体类信息存储下来并发送给识别结果精细化模块M40;
所述识别结果精细化模块M40:分别与所述文本分类模块M20、命名实体识别模块连接M30;所述识别结果精细化模块M40分别计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,得到每个实体类信息的两个权重;根据每个实体类信息的两个权重判断该实体信息是否属于实体类隐私信息。
与现有技术相比,本实施例的有益效果是:本实施例能够检测出非结构化数据中的实体类隐私信息,且无需任何人工制定的规则,只需要预先标注好的隐私信息分类数据集即可。实验表明该模型能够检测出文本中实体类的隐私信息,且具有非常大的实用价值,有效地替代了传统的人工检测方法,且大大提高了检测效率,降低了人员成本,为政府数据开放提供了强有力的技术支持。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取;
S2,获取与所述关键词对应的混淆音频片段;
S3,将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。
在一个示例性实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取;
S2,获取与所述关键词对应的混淆音频片段;
S3,将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。
在一个示例性实施例中,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,在一个示例性实施例中,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种音频关键词加密方法,其特征在于,包括:
对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取;
获取与所述关键词对应的混淆音频片段;
将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述关键词对应的混淆音频片段,还包括:
从预设的密码数据库中查询并获取所述混淆音频片段;或者
当所述密码数据库中没有与所述关键词对应的混淆音频片段时,随机生成所述混淆音频片段,并将所述关键词及其对应的所述混淆音频片段存入所述密码数据库中。
3.根据权利要求1所述的方法,其特征在于,在形成第二音频数据之后,还包括:
当对所述第二音频数据进行解密时,获取与所述关键词对应的所述第一音频数据的音频片段,将所述第二音频数据中的所述混淆音频片段替换成与所述关键词对应的所述第一音频数据的音频片段,以形成所述第一音频数据。
4.根据权利要求1或2所述的方法,其特征在于,所述混淆音频片段包括无声音频片段。
5.一种音频关键词加密装置,其特征在于,包括:
识别提取模块,用于对第一音频数据进行语音识别得到对应的文本数据,并将所述文本数据中的关键词进行提取;
获取模块,用于获取与所述关键词对应的混淆音频片段;
替换模块,用于将所述第一音频数据中与所述关键词对应的音频片段替换成所述混淆音频片段,以形成第二音频数据。
6.根据权利要求5所述的装置,所述获取模块,还包括:
查询单元,用于从预设的密码数据库中查询并获取所述混淆音频片段;
生成单元,用于在所述密码数据库中没有与所述关键词对应的混淆音频片段的情况下,随机生成所述混淆音频片段,并将所述关键词及其对应的所述混淆音频片段存入所述密码数据库中。
7.根据权利要求5所述的装置,其特征在于,还包括:
解密模块,用于在对所述第二音频数据进行解密的情况下,获取与所述关键词对应的所述第一音频数据的音频片段,将所述第二音频数据中的所述混淆音频片段替换成与所述关键词对应的所述第一音频数据的音频片段,以形成所述第一音频数据。
8.根据权利要求5或6所述的装置,其特征在于,所述混淆音频片段包括无声音频片段。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。
CN202010784876.5A 2020-08-06 2020-08-06 音频关键词加密方法、装置、存储介质及电子装置 Pending CN111899741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784876.5A CN111899741A (zh) 2020-08-06 2020-08-06 音频关键词加密方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784876.5A CN111899741A (zh) 2020-08-06 2020-08-06 音频关键词加密方法、装置、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN111899741A true CN111899741A (zh) 2020-11-06

Family

ID=73245896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784876.5A Pending CN111899741A (zh) 2020-08-06 2020-08-06 音频关键词加密方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN111899741A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863495A (zh) * 2020-12-31 2021-05-28 维沃移动通信有限公司 信息处理方法、装置及电子设备
CN113782027A (zh) * 2021-09-01 2021-12-10 维沃移动通信(杭州)有限公司 音频处理方法及音频处理装置
CN114329104A (zh) * 2021-12-23 2022-04-12 珠海市鸿瑞信息技术股份有限公司 一种基于电力配电的报文加密传输系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002281022A (ja) * 2001-03-19 2002-09-27 Net Image:Kk 情報の暗号化/解読方法と同システム
CN103916233A (zh) * 2014-03-28 2014-07-09 小米科技有限责任公司 一种信息加密方法及装置
CN106295398A (zh) * 2016-07-29 2017-01-04 维沃移动通信有限公司 隐私信息的保护方法及其移动终端
CN106487514A (zh) * 2015-09-01 2017-03-08 北京三星通信技术研究有限公司 语音通信加密方法、解密方法及其装置
CN107748848A (zh) * 2017-10-16 2018-03-02 维沃移动通信有限公司 一种信息处理方法及移动终端
CN108111667A (zh) * 2016-11-25 2018-06-01 北京搜狗科技发展有限公司 一种通信信息加密方法、装置及电子设备
CN110534113A (zh) * 2019-08-26 2019-12-03 深圳追一科技有限公司 音频数据脱敏方法、装置、设备和存储介质
CN110556110A (zh) * 2019-10-24 2019-12-10 北京九狐时代智能科技有限公司 语音处理方法及装置、智能终端、存储介质
CN111490880A (zh) * 2020-05-12 2020-08-04 上海明略人工智能(集团)有限公司 文件的接收方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002281022A (ja) * 2001-03-19 2002-09-27 Net Image:Kk 情報の暗号化/解読方法と同システム
CN103916233A (zh) * 2014-03-28 2014-07-09 小米科技有限责任公司 一种信息加密方法及装置
CN106487514A (zh) * 2015-09-01 2017-03-08 北京三星通信技术研究有限公司 语音通信加密方法、解密方法及其装置
CN106295398A (zh) * 2016-07-29 2017-01-04 维沃移动通信有限公司 隐私信息的保护方法及其移动终端
CN108111667A (zh) * 2016-11-25 2018-06-01 北京搜狗科技发展有限公司 一种通信信息加密方法、装置及电子设备
CN107748848A (zh) * 2017-10-16 2018-03-02 维沃移动通信有限公司 一种信息处理方法及移动终端
CN110534113A (zh) * 2019-08-26 2019-12-03 深圳追一科技有限公司 音频数据脱敏方法、装置、设备和存储介质
CN110556110A (zh) * 2019-10-24 2019-12-10 北京九狐时代智能科技有限公司 语音处理方法及装置、智能终端、存储介质
CN111490880A (zh) * 2020-05-12 2020-08-04 上海明略人工智能(集团)有限公司 文件的接收方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863495A (zh) * 2020-12-31 2021-05-28 维沃移动通信有限公司 信息处理方法、装置及电子设备
CN113782027A (zh) * 2021-09-01 2021-12-10 维沃移动通信(杭州)有限公司 音频处理方法及音频处理装置
CN114329104A (zh) * 2021-12-23 2022-04-12 珠海市鸿瑞信息技术股份有限公司 一种基于电力配电的报文加密传输系统及方法
CN114329104B (zh) * 2021-12-23 2022-07-08 珠海市鸿瑞信息技术股份有限公司 一种基于电力配电的报文加密传输系统及方法

Similar Documents

Publication Publication Date Title
Al-Qurishi et al. Leveraging analysis of user behavior to identify malicious activities in large-scale social networks
CN111899741A (zh) 音频关键词加密方法、装置、存储介质及电子装置
Lou et al. TFDroid: Android malware detection by topics and sensitive data flows using machine learning techniques
US8819408B2 (en) Document processing method and system
KR101627398B1 (ko) 내용기반의 검색엔진을 이용한 개인 콘텐츠 저작권 관리 시스템 및 방법
Pv et al. UbCadet: detection of compromised accounts in twitter based on user behavioural profiling
Gharibshah et al. RIPEx: Extracting malicious ip addresses from security forums using cross-forum learning
Medvet et al. Exploring the usage of topic modeling for android malware static analysis
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
US11101987B2 (en) Adaptive encryption for entity resolution
Xiao Towards a two-phase unsupervised system for cybersecurity concepts extraction
Holeňa et al. Classification Methods for Internet Applications
CN116738369A (zh) 一种流量数据的分类方法、装置、设备及存储介质
Kristiansen et al. Cti-twitter: Gathering cyber threat intelligence from twitter using integrated supervised and unsupervised learning
Yao et al. Topic-based rank search with verifiable social data outsourcing
CN111062030A (zh) 一种应用程序被篡改的识别方法及装置
CN113037743B (zh) 一种云端服务器文件的加密方法及系统
CN112887427B (zh) 一种云平台加密系统及方法
CN115017532A (zh) 一种基于区块链的用户数据处理方法、装置及系统
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
CN117910023B (zh) 基于大数据的计算机信息安全处理方法及系统
CN115758368B (zh) 恶意破解软件的预测方法、装置、电子设备和存储介质
Holeňa et al. Important Internet Applications of Classification
CN116305130B (zh) 基于系统环境识别的双系统智能切换方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination