CN112885371A - 音频脱敏的方法、装置、电子设备以及可读存储介质 - Google Patents
音频脱敏的方法、装置、电子设备以及可读存储介质 Download PDFInfo
- Publication number
- CN112885371A CN112885371A CN202110039707.3A CN202110039707A CN112885371A CN 112885371 A CN112885371 A CN 112885371A CN 202110039707 A CN202110039707 A CN 202110039707A CN 112885371 A CN112885371 A CN 112885371A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- audio
- audio data
- vocabulary
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000012634 fragment Substances 0.000 claims abstract description 47
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 17
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 17
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000009499 grossing Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种音频脱敏的方法、装置、电子设备以及可读存储介质,音频脱敏的方法包括:获取用户的第一音频数据,第一音频数据包括全部音素的发音片段;获取所述第一音频中所述全部音素的发音片段;利用语音合成技术对发音片段进行合成,以得到敏感词汇对应的合成音频;建立与对应的敏感音频特征模型;获取用户的第二音频数据;通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配;在相似度大于预设值的情况下,对第二音频数据进行内容识别,以得到与第二音频数据对应的内容识别文本;以敏感内容词库作为匹配数据库,判断内容识别文本中是否含有敏感词汇;在内容识别文本中存在敏感词汇时,对敏感词汇对应的语音片段进行替换。
Description
技术领域
本申请属于人工智能技术领域,具体涉及一种音频脱敏的方法和装置。
背景技术
如今大量的企业都会自主进行语音数据的采集,例如对客服和用户之间的通话进行录音等,因此采集的音频中往往包含大量的敏感信息,例如个人证件号码、姓名、地址、价格、注册信息等。
目前的现有技术至少存在如下问题:这样的音频数据采集环境是安全性较低。在通信的过程中,不法组织往往会利用如今的语音数据采集来骗取用户的重要个人信息。
发明内容
本申请实施例的目的是提供一种音频脱敏的方法、装置、电子设备和可读存储介质,能够解决目前音频数据采集安全性较低,用户易被骗取重要个人信息的技术问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种音频脱敏的方法,其特征在于,包括:
获取用户的第一音频数据,所述第一音频数据包括全部音素的发音片段;
对所述第一音频数据进行声学特征提取,并获取所述第一音频中所述全部音素的发音片段;
将所述用户的标识和与所述用户对应的所述全部音素的发音片段记录到音源库中;
以与所述用户对应的所述全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对所述发音片段进行合成,以得到敏感词汇对应的合成音频;
对所述合成音频进行声学特征提取,并根据所述合成音频的声学特征建立与所述用户对应的敏感音频特征模型;
获取所述用户的第二音频数据;
通过所述敏感音频特征模型对所述第二音频数据的声学特征进行相似度匹配;
在相似度大于预设值的情况下,对所述第二音频数据进行内容识别,以得到与所述第二音频数据对应的内容识别文本;
以所述敏感内容词库作为匹配数据库,判断所述内容识别文本中是否含有所述敏感词汇;
在所述内容识别文本中存在所述敏感词汇的情况下,对所述敏感词汇对应的语音片段进行替换。
进一步地,所述对所述敏感词汇对应的语音片段进行替换,具体为:
将所述敏感词汇对应的语音片段替换为同等时长的空白音频。
进一步地,所述对所述敏感词汇对应的语音片段进行替换,具体包括:
对所述内容识别文本中存在的所述敏感词汇进行分类;
根据分类结果,将所述敏感词汇替换为同类型的脱敏词汇;
利用所述用户对应的所述全部音素的发音片段合成所述脱敏词汇对应的语音片段;
将所述脱敏词汇对应的语音片段的时长调整为所述敏感词汇对应的语音片段的时长;
将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据。
进一步地,在所述将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据之后,还包括:
对所述第三音频数据进行平滑处理,并加入少量随机噪声。
进一步地,所述方法还包括:
根据网络爬虫数据,实时更新所述敏感内容词库中的所述敏感词汇。
第二方面,本申请实施例提供了一种音频脱敏的装置,其特征在于,包括:
第一获取模块,用于获取用户的第一音频数据,所述第一音频数据包括全部音素的发音片段;
提取模块,用于对所述第一音频数据进行声学特征提取,并获取所述第一音频中所述全部音素的发音片段;
记录模块,用于将所述用户的标识和与所述用户对应的所述全部音素的发音片段记录到音源库中;
合成模块,用于以与所述用户对应的所述全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对所述发音片段进行合成,以得到敏感词汇对应的合成音频;
模型建立模块,用于对所述合成音频进行声学特征提取,并根据所述合成音频的声学特征建立与所述用户对应的敏感音频特征模型;
第二获取模块,用于获取所述用户的第二音频数据;
匹配模块,用于通过所述敏感音频特征模型对所述第二音频数据的声学特征进行相似度匹配;
识别模块,用于在相似度大于预设值的情况下,对所述第二音频数据进行内容识别,以得到与所述第二音频数据对应的内容识别文本;
判断模块,用于以所述敏感内容词库作为匹配数据库,判断所述内容识别文本中是否含有所述敏感词汇;
替换模块,用于在所述内容识别文本中存在所述敏感词汇的情况下,对所述敏感词汇对应的语音片段进行替换。
进一步地,所述替换模块,具体用于:
将所述敏感词汇对应的语音片段替换为同等时长的空白音频。
进一步地,所述替换模块,具体包括:
分类子模块,用于对所述内容识别文本中存在的所述敏感词汇进行分类;
第一替换子模块,根据分类结果,将所述敏感词汇替换为同类型的脱敏词汇;
合成子模块,用于利用所述用户对应的所述全部音素的发音片段合成所述脱敏词汇对应的语音片段;
调整模块,用于将所述脱敏词汇对应的语音片段的时长调整为所述敏感词汇对应的语音片段的时长;
第二替换子模块,用于将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据。
进一步地,所述替换模块还包括:
平滑处理子模块,用于对所述第三音频数据进行平滑处理,并加入少量随机噪声。
进一步地,所述装置还包括:
更新模块,用于根据网络爬虫数据,实时更新所述敏感内容词库中的所述敏感词汇。
第三方面,本申请实施例提供了一种电子设备,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
在本申请实施例中,通过获取用户对象对于所有音素发音,拼接得到用户发出敏感词汇时的发音,之后在采集用户对象的音频数据时,通过比对预发现用户是否发出敏感词汇,并通过语义识别进一步排查,在确定用户发出的音频数据确实包括敏感词汇时对敏感词汇进行替换,以完成脱敏。增加了采集用户音频的安全性,实时的对敏感词汇进行替换,可以防止用户被骗取重要个人信息。
附图说明
图1是本申请实施例提供的一种音频脱敏的方法的流程示意图;
图2是本申请实施例提供的另一种音频脱敏的方法的流程示意图;
图3是本申请实施例提供的一种音频脱敏的装置的结构示意图;
图4是本申请实施例提供的一种电子设备的硬件结构示意图。
本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的音频脱敏的方法进行详细地说明。
实施例一
参照图1,示出了本申请实施例提供的一种音频脱敏的方法的流程示意图,方法包括:
S101:获取用户的第一音频数据,第一音频数据包括全部音素的发音片段。
其中,音素是根据语音的自然属性划分出来的最小语音单元。可以理解的是,根据全部音素发音片段可以拼接组合成为任意词汇。
可选地,可以要求用户朗读特定的文本内容,特定的文本内容可以使得用户在朗读的过程中发出所有的音素。
可选地,可以采集用户平时说话的语音,直至采集到全部的音素的发音片段。
S102:对第一音频数据进行声学特征提取,并获取第一音频中全部音素的发音片段。
其中,声学特征包括基频、ivector、MCFF等,声学特征可以用于表征用户的个人音色特点,通过对于声学特征的识别可以判断语音的发出者。
S103:将用户的标识和与用户对应的全部音素的发音片段记录到音源库中。
其中,用户的标识可以是用户的姓名、编号等。全部音素的发音片段与用户之间建立有一一对应的关联关系。
例如,用户在注册时朗读了“上海”这一词汇,“上海”的发音覆盖了“sh”、“ang”、“h”和“ai”4个音素,则在音源库中存储“sh”、“ang”、“h”和“ai”这4个音素,并将其记录在相应的用户名下,以便后续的应用。
S104:以与用户对应的全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对发音片段进行合成,以得到敏感词汇对应的合成音频。
例如,敏感词汇库包括用户的家庭住址“深圳”“南山”,即使用户在注册时并未提供与敏感词汇相对应的语音,可以利用用户记录在音源库中的全部音素对应的音频片段,预先拼接合成用户在说出“深圳”“南山”时的发音,以便于后续的比对和预识别。
S105:对合成音频进行声学特征提取,并根据合成音频的声学特征建立与用户对应的敏感音频特征模型。
其中,声学特征包括基频、ivector、MCFF等,声学特征可以用于表征用户的个人音色特点,通过对于声学特征的识别可以判断语音的发出者。
可以理解的是,敏感音频特征模型可以用于识别用户是否发出敏感词汇。
需要说明的是,步骤S101至S105应用于用户注册阶段。
S106:获取用户的第二音频数据。
其中,第二音频数据可以是用户欲发送至其他设备的音频数据。
S107:通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配。
可以理解的是,此步骤主要用于对第二音频数据是否含有敏感词汇进行预识别。
S108:在相似度大于预设值的情况下,对第二音频数据进行内容识别,以得到与第二音频数据对应的内容识别文本。
可以理解的是,在相似度大于预设值的情况下,意味着初步判断第二音频数据大概率含有敏感词汇,此时才会对第二音频数据进行内容识别,以进一步确认。
其中,预设值可以根据实际需要进行设定,本发明实施例对其具体数值不做限定。
S109:以敏感内容词库作为匹配数据库,判断内容识别文本中是否含有敏感词汇。
应当理解的是,通过内容识别文本与敏感词汇的比对,可以进一步提供检测出第二音频数据中含有敏感词汇的准确性。
S110:在内容识别文本中存在敏感词汇的情况下,对敏感词汇对应的语音片段进行替换。
应当理解的是,对敏感词汇进行替换,替换的内容应该是非敏感词汇,以确保用户所说出的敏感词汇不会被不法分子收集。
可选地,可以将敏感词汇对应的语音片段替换为同等时长的空白音频。
在本申请实施例中,通过获取用户对象对于所有音素发音,拼接得到用户发出敏感词汇时的发音,之后在采集用户对象的音频数据时,通过比对预发现用户是否发出敏感词汇,并通过语义识别进一步排查,在确定用户发出的音频数据确实包括敏感词汇时对敏感词汇进行替换,以完成脱敏。增加了采集用户音频的安全性,实时的对敏感词汇进行替换,可以防止用户被骗取重要个人信息。
实施例二
参照图2,示出了本申请实施例提供的另一种音频脱敏的方法的流程示意图。音频脱敏的方法,包括:
S201:获取用户的第一音频数据,第一音频数据包括全部音素的发音片段。
S202:对第一音频数据进行声学特征提取,并获取第一音频中全部音素的发音片段。
S203:将用户的标识和与用户对应的全部音素的发音片段记录到音源库中。
S204:以与用户对应的全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对发音片段进行合成,以得到敏感词汇对应的合成音频。
S205:对合成音频进行声学特征提取,并根据合成音频的声学特征建立与用户对应的敏感音频特征模型。
S206:获取用户的第二音频数据。
S207:通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配。
S208:在相似度大于预设值的情况下,对第二音频数据进行内容识别,以得到与第二音频数据对应的内容识别文本。
S209:以敏感内容词库作为匹配数据库,判断内容识别文本中是否含有敏感词汇。
S210:对内容识别文本中存在的敏感词汇进行分类。
可选地,分类包括地址、身份信息、性别、价格等。
S211:根据分类结果,将敏感词汇替换为同类型的脱敏词汇。
例如,内容识别文本中包括用户的住址信息“深圳”,可以替换为同类型的脱敏词汇“上海”。
这样做可以保证语义的通顺。
S212:利用用户对应的全部音素的发音片段合成脱敏词汇对应的语音片段。
可以理解的是,根据全部音素发音片段可以拼接组合成为任意词汇,例如脱敏词汇“上海”。
S213:将脱敏词汇对应的语音片段的时长调整为敏感词汇对应的语音片段的时长。
其中,时长调整包括对语音片段进行加速处理或者减速处理。
这样做可以保证替换前后音频的时间长度不变,可以进一步保证语音的通顺。
S214:将敏感词汇对应的语音片段替换为脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据。
S215:对第三音频数据进行平滑处理,并加入少量随机噪声。
进行平滑处理可以保证音频数据更加通顺自然。
加入少量随机噪声可以保证脱敏后的音频从听感上无法察觉哪部分经过脱敏处理,进一步加强音频数据的安全性。
S216:根据网络爬虫数据,实时更新敏感内容词库中的敏感词汇。
可选地,用户也可以手动向敏感内容词库中添加或者删除敏感词汇。
在本申请实施例中,通过对敏感词汇进行同类别的替换为脱敏词汇,对脱敏词汇的语音的时长进行调整,并进行平滑处理,可以保证脱敏后的音频数据更加通顺自然。
实施例三
参照图3,示出了本申请实施例提供的一种音频脱敏的装置的结构示意图,装置30包括:
第一获取模块301,用于获取用户的第一音频数据,第一音频数据包括全部音素的发音片段;
提取模块302,用于对第一音频数据进行声学特征提取,并获取第一音频中全部音素的发音片段;
记录模块303,用于将用户的标识和与用户对应的全部音素的发音片段记录到音源库中;
合成模块304,用于以与用户对应的全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对发音片段进行合成,以得到敏感词汇对应的合成音频;
模型建立模块305,用于对合成音频进行声学特征提取,并根据合成音频的声学特征建立与用户对应的敏感音频特征模型;
第二获取模块306,用于获取用户的第二音频数据;
匹配模块307,用于通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配;
识别模块308,用于在相似度大于预设值的情况下,对第二音频数据进行内容识别,以得到与第二音频数据对应的内容识别文本;
判断模块309,用于以敏感内容词库作为匹配数据库,判断内容识别文本中是否含有敏感词汇;
替换模块310,用于在内容识别文本中存在敏感词汇的情况下,对敏感词汇对应的语音片段进行替换。
进一步地,替换模块310,具体用于:
将敏感词汇对应的语音片段替换为同等时长的空白音频。
进一步地,替换模块310,具体包括:
分类子模块3101,用于对内容识别文本中存在的敏感词汇进行分类;
第一替换子模块3102,根据分类结果,将敏感词汇替换为同类型的脱敏词汇;
合成子模块3103,用于利用用户对应的全部音素的发音片段合成脱敏词汇对应的语音片段;
调整模块3104,用于将脱敏词汇对应的语音片段的时长调整为敏感词汇对应的语音片段的时长;
第二替换子模块3105,用于将敏感词汇对应的语音片段替换为脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据。
进一步地,替换模块310还包括:
平滑处理子模块3106,用于对第三音频数据进行平滑处理,并加入少量随机噪声。
进一步地,装置30还包括:
更新模块311,用于根据网络爬虫数据,实时更新敏感内容词库中的敏感词汇。
本申请实施例提供的音频脱敏的装置30能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过获取用户对象对于所有音素发音,拼接得到用户发出敏感词汇时的发音,之后在采集用户对象的音频数据时,通过比对预发现用户是否发出敏感词汇,并通过语义识别进一步排查,在确定用户发出的音频数据确实包括敏感词汇时对敏感词汇进行替换,以完成脱敏。增加了采集用户音频的安全性,实时的对敏感词汇进行替换,可以防止用户被骗取重要个人信息。
本申请实施例中的虚拟装置可以是装置,也可以是终端中的部件、集成电路、或芯片。
实施例四
参照图4,示出了本申请实施例提供的一种电子设备的硬件结构示意图。
该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、以及处理器410等部件。
本领域技术人员可以理解,电子设备400还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,输入单元404用于获取用户的第一音频数据,第一音频数据包括全部音素的发音片段。
处理器410用于对第一音频数据进行声学特征提取,并获取第一音频中全部音素的发音片段;将用户的标识和与用户对应的全部音素的发音片段记录到音源库中;以与用户对应的全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对发音片段进行合成,以得到敏感词汇对应的合成音频;对合成音频进行声学特征提取,并根据合成音频的声学特征建立与用户对应的敏感音频特征模型。
输入单元404还用于获取用户的第二音频数据。
处理器410还用于通过敏感音频特征模型对第二音频数据的声学特征进行相似度匹配;在相似度大于预设值的情况下,对第二音频数据进行内容识别,以得到与第二音频数据对应的内容识别文本;以敏感内容词库作为匹配数据库,判断内容识别文本中是否含有敏感词汇;在内容识别文本中存在敏感词汇的情况下,对敏感词汇对应的语音片段进行替换。
进一步地,处理器410还用于将敏感词汇对应的语音片段替换为同等时长的空白音频。
进一步地,处理器410还用于对内容识别文本中存在的敏感词汇进行分类;根据分类结果,将敏感词汇替换为同类型的脱敏词汇;利用用户对应的全部音素的发音片段合成脱敏词汇对应的语音片段;将脱敏词汇对应的语音片段的时长调整为敏感词汇对应的语音片段的时长;将敏感词汇对应的语音片段替换为脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据。
进一步地,处理器410还用于对第三音频数据进行平滑处理,并加入少量随机噪声。
进一步地,处理器410还用于根据网络爬虫数据,实时更新敏感内容词库中的敏感词汇。
应理解的是,本申请实施例中,输入单元404可以包括图形处理器(GraphicsProcessing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器409可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
在本申请实施例中,通过获取用户对象对于所有音素发音,拼接得到用户发出敏感词汇时的发音,之后在采集用户对象的音频数据时,通过比对预发现用户是否发出敏感词汇,并通过语义识别进一步排查,在确定用户发出的音频数据确实包括敏感词汇时对敏感词汇进行替换,以完成脱敏。增加了采集用户音频的安全性,实时的对敏感词汇进行替换,可以防止用户被骗取重要个人信息。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频脱敏的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种音频脱敏的方法,其特征在于,包括:
获取用户的第一音频数据,所述第一音频数据包括全部音素的发音片段;
对所述第一音频数据进行声学特征提取,并获取所述第一音频中所述全部音素的发音片段;
将所述用户的标识和与所述用户对应的所述全部音素的发音片段记录到音源库中;
以与所述用户对应的所述全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对所述发音片段进行合成,以得到敏感词汇对应的合成音频;
对所述合成音频进行声学特征提取,并根据所述合成音频的声学特征建立与所述用户对应的敏感音频特征模型;
获取所述用户的第二音频数据;
通过所述敏感音频特征模型对所述第二音频数据的声学特征进行相似度匹配;
在相似度大于预设值的情况下,对所述第二音频数据进行内容识别,以得到与所述第二音频数据对应的内容识别文本;
以所述敏感内容词库作为匹配数据库,判断所述内容识别文本中是否含有所述敏感词汇;
在所述内容识别文本中存在所述敏感词汇的情况下,对所述敏感词汇对应的语音片段进行替换。
2.根据权利要求1所述的方法,其特征在于,所述对所述敏感词汇对应的语音片段进行替换,具体为:
将所述敏感词汇对应的语音片段替换为同等时长的空白音频。
3.根据权利要求1所述的方法,其特征在于,所述对所述敏感词汇对应的语音片段进行替换,具体包括:
对所述内容识别文本中存在的所述敏感词汇进行分类;
根据分类结果,将所述敏感词汇替换为同类型的脱敏词汇;
利用所述用户对应的所述全部音素的发音片段合成所述脱敏词汇对应的语音片段;
将所述脱敏词汇对应的语音片段的时长调整为所述敏感词汇对应的语音片段的时长;
将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据。
4.根据权利要求3所述的方法,其特征在于,在所述将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据之后,还包括:
对所述第三音频数据进行平滑处理,并加入少量随机噪声。
5.根据权利要求1所述的方法,其特征在于,还包括:
根据网络爬虫数据,实时更新所述敏感内容词库中的所述敏感词汇。
6.一种音频脱敏的装置,其特征在于,包括:
第一获取模块,用于获取用户的第一音频数据,所述第一音频数据包括全部音素的发音片段;
提取模块,用于对所述第一音频数据进行声学特征提取,并获取所述第一音频中所述全部音素的发音片段;
记录模块,用于将所述用户的标识和与所述用户对应的所述全部音素的发音片段记录到音源库中;
合成模块,用于以与所述用户对应的所述全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对所述发音片段进行合成,以得到敏感词汇对应的合成音频;
模型建立模块,用于对所述合成音频进行声学特征提取,并根据所述合成音频的声学特征建立与所述用户对应的敏感音频特征模型;
第二获取模块,用于获取所述用户的第二音频数据;
匹配模块,用于通过所述敏感音频特征模型对所述第二音频数据的声学特征进行相似度匹配;
识别模块,用于在相似度大于预设值的情况下,对所述第二音频数据进行内容识别,以得到与所述第二音频数据对应的内容识别文本;
判断模块,用于以所述敏感内容词库作为匹配数据库,判断所述内容识别文本中是否含有所述敏感词汇;
替换模块,用于在所述内容识别文本中存在所述敏感词汇的情况下,对所述敏感词汇对应的语音片段进行替换。
7.根据权利要求6所述的装置,其特征在于,所述替换模块,具体用于:
将所述敏感词汇对应的语音片段替换为同等时长的空白音频。
8.根据权利要求6所述的装置,其特征在于,所述替换模块,具体包括:
分类子模块,用于对所述内容识别文本中存在的所述敏感词汇进行分类;
第一替换子模块,根据分类结果,将所述敏感词汇替换为同类型的脱敏词汇;
合成子模块,用于利用所述用户对应的所述全部音素的发音片段合成所述脱敏词汇对应的语音片段;
调整模块,用于将所述脱敏词汇对应的语音片段的时长调整为所述敏感词汇对应的语音片段的时长;
第二替换子模块,用于将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据。
9.根据权利要求8所述的装置,其特征在于,所述替换模块还包括:
平滑处理子模块,用于对所述第三音频数据进行平滑处理,并加入少量随机噪声。
10.根据权利要求6所述的装置,其特征在于,还包括:
更新模块,用于根据网络爬虫数据,实时更新所述敏感内容词库中的所述敏感词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039707.3A CN112885371B (zh) | 2021-01-13 | 2021-01-13 | 音频脱敏的方法、装置、电子设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039707.3A CN112885371B (zh) | 2021-01-13 | 2021-01-13 | 音频脱敏的方法、装置、电子设备以及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112885371A true CN112885371A (zh) | 2021-06-01 |
CN112885371B CN112885371B (zh) | 2021-11-23 |
Family
ID=76044949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110039707.3A Active CN112885371B (zh) | 2021-01-13 | 2021-01-13 | 音频脱敏的方法、装置、电子设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885371B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成系统及其实现方法 |
CN103516915A (zh) * | 2012-06-27 | 2014-01-15 | 百度在线网络技术(北京)有限公司 | 在移动终端通话过程中敏感词汇的替换方法、系统及装置 |
CN104505090A (zh) * | 2014-12-15 | 2015-04-08 | 北京国双科技有限公司 | 敏感词的语音识别方法和装置 |
US20150186504A1 (en) * | 2009-04-23 | 2015-07-02 | Deep Sky Concepts, Inc. | In-context access of stored declarative knowledge using natural language expression |
CN105335483A (zh) * | 2015-10-14 | 2016-02-17 | 广州市畅运信息科技有限公司 | 一种文本敏感词过滤系统和方法 |
CN106101819A (zh) * | 2016-06-21 | 2016-11-09 | 武汉斗鱼网络科技有限公司 | 一种基于语音识别的直播视频敏感内容过滤方法及装置 |
CN108984530A (zh) * | 2018-07-23 | 2018-12-11 | 北京信息科技大学 | 一种网络敏感内容的检测方法及检测系统 |
CN109637520A (zh) * | 2018-10-16 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于语音分析的敏感内容识别方法、装置、终端及介质 |
CN110085213A (zh) * | 2019-04-30 | 2019-08-02 | 广州虎牙信息科技有限公司 | 音频的异常监控方法、装置、设备和存储介质 |
CN110534113A (zh) * | 2019-08-26 | 2019-12-03 | 深圳追一科技有限公司 | 音频数据脱敏方法、装置、设备和存储介质 |
CN111031329A (zh) * | 2018-10-10 | 2020-04-17 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111107380A (zh) * | 2018-10-10 | 2020-05-05 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111105788A (zh) * | 2019-12-20 | 2020-05-05 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
CN111226274A (zh) * | 2017-11-28 | 2020-06-02 | 国际商业机器公司 | 自动阻止音频流中包含的敏感数据 |
CN111930900A (zh) * | 2020-09-28 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 标准发音生成方法及相关装置 |
CN111968625A (zh) * | 2020-08-26 | 2020-11-20 | 上海依图网络科技有限公司 | 融合文本信息的敏感音频识别模型训练方法及识别方法 |
-
2021
- 2021-01-13 CN CN202110039707.3A patent/CN112885371B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186504A1 (en) * | 2009-04-23 | 2015-07-02 | Deep Sky Concepts, Inc. | In-context access of stored declarative knowledge using natural language expression |
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成系统及其实现方法 |
CN103516915A (zh) * | 2012-06-27 | 2014-01-15 | 百度在线网络技术(北京)有限公司 | 在移动终端通话过程中敏感词汇的替换方法、系统及装置 |
CN104505090A (zh) * | 2014-12-15 | 2015-04-08 | 北京国双科技有限公司 | 敏感词的语音识别方法和装置 |
CN105335483A (zh) * | 2015-10-14 | 2016-02-17 | 广州市畅运信息科技有限公司 | 一种文本敏感词过滤系统和方法 |
CN106101819A (zh) * | 2016-06-21 | 2016-11-09 | 武汉斗鱼网络科技有限公司 | 一种基于语音识别的直播视频敏感内容过滤方法及装置 |
CN111226274A (zh) * | 2017-11-28 | 2020-06-02 | 国际商业机器公司 | 自动阻止音频流中包含的敏感数据 |
CN108984530A (zh) * | 2018-07-23 | 2018-12-11 | 北京信息科技大学 | 一种网络敏感内容的检测方法及检测系统 |
CN111107380A (zh) * | 2018-10-10 | 2020-05-05 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111031329A (zh) * | 2018-10-10 | 2020-04-17 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN109637520A (zh) * | 2018-10-16 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于语音分析的敏感内容识别方法、装置、终端及介质 |
CN110085213A (zh) * | 2019-04-30 | 2019-08-02 | 广州虎牙信息科技有限公司 | 音频的异常监控方法、装置、设备和存储介质 |
CN110534113A (zh) * | 2019-08-26 | 2019-12-03 | 深圳追一科技有限公司 | 音频数据脱敏方法、装置、设备和存储介质 |
CN111105788A (zh) * | 2019-12-20 | 2020-05-05 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
CN111968625A (zh) * | 2020-08-26 | 2020-11-20 | 上海依图网络科技有限公司 | 融合文本信息的敏感音频识别模型训练方法及识别方法 |
CN111930900A (zh) * | 2020-09-28 | 2020-11-13 | 北京世纪好未来教育科技有限公司 | 标准发音生成方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112885371B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047481A (zh) | 用于语音识别的方法和装置 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
CN112181127A (zh) | 用于人机交互的方法和装置 | |
KR102312993B1 (ko) | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN114627856A (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN110826637A (zh) | 情绪识别方法、系统及计算机可读存储介质 | |
CN111916088A (zh) | 一种语音语料的生成方法、设备及计算机可读存储介质 | |
CN113327586A (zh) | 一种语音识别方法、装置、电子设备以及存储介质 | |
CN111768789A (zh) | 电子设备及其语音发出者身份确定方法、装置和介质 | |
CN115249480A (zh) | 基于北斗短报文的语音文字的转换方法及相关装置 | |
CN110298150B (zh) | 一种基于语音识别的身份验证方法及系统 | |
CN112885371B (zh) | 音频脱敏的方法、装置、电子设备以及可读存储介质 | |
CN112102807A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
KR102395399B1 (ko) | 음성 인식 학습을 위한 음성 데이터 분해 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
KR102389995B1 (ko) | 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
KR102408455B1 (ko) | 음성 인식 학습을 위한 음성 데이터 합성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
CN113555003B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN114267324A (zh) | 语音生成方法、装置、设备和存储介质 | |
KR20190083884A (ko) | 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치 | |
CN114462376A (zh) | 基于rpa和ai的庭审笔录生成方法、装置、设备及介质 | |
CN113808577A (zh) | 语音摘要的智能提取方法、装置、电子设备及存储介质 | |
CN111506701A (zh) | 一种智能查询方法及相关装置 | |
KR102378895B1 (ko) | 음성 인식을 위한 호출어 학습 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
KR102378885B1 (ko) | 발화자의 얼굴을 이용한 메타데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088 Patentee after: Beijing Qingshu Intelligent Technology Co.,Ltd. Address before: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088 Patentee before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD. |
|
CP01 | Change in the name or title of a patent holder |