CN115910018B - 一种提高静音舱语音私密性的方法和装置 - Google Patents

一种提高静音舱语音私密性的方法和装置 Download PDF

Info

Publication number
CN115910018B
CN115910018B CN202211344991.6A CN202211344991A CN115910018B CN 115910018 B CN115910018 B CN 115910018B CN 202211344991 A CN202211344991 A CN 202211344991A CN 115910018 B CN115910018 B CN 115910018B
Authority
CN
China
Prior art keywords
voice
signal
sound signal
voice signal
masking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211344991.6A
Other languages
English (en)
Other versions
CN115910018A (zh
Inventor
兰瑞明
郑建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Soundbox Acoustic Tech Co ltd
Original Assignee
Guangzhou Soundbox Acoustic Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Soundbox Acoustic Tech Co ltd filed Critical Guangzhou Soundbox Acoustic Tech Co ltd
Priority to CN202211344991.6A priority Critical patent/CN115910018B/zh
Publication of CN115910018A publication Critical patent/CN115910018A/zh
Application granted granted Critical
Publication of CN115910018B publication Critical patent/CN115910018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本申请公开了一种提高静音舱语音私密性的方法和装置,其方法包括:接收静音舱内的声音,将接收到的声音转化为声音信号;储存声音信号;对声音信号进行判断,判断声音信号是否包括语音信号;当声音信号包括语音信号时,对语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;根据掩蔽音信号向静音舱外播放掩蔽音。如果舱内的声音不包括语音,则不进行声音信号逆序处理,不播放掩蔽音,可以节约能源。生成掩蔽音信号时考虑了舱内人员的语音,掩蔽音信号是根据舱内人员的当前语音逆序处理获得的,而逆序处理的方式得到的掩蔽音信号与当前语音的频谱结构更相似,相关性更高,对舱内当前语音的掩蔽量更大,掩蔽效果更好。

Description

一种提高静音舱语音私密性的方法和装置
技术领域
本申请涉及静音设备的技术领域,尤其是涉及一种提高静音舱语音私密性的方法和装置。
背景技术
用户在密闭空间中交流时,如果对话可以在空间内外随意传播,会损害对话的隐私性。静音舱是目前市场上广泛受到欢迎的安静舒适的私密交流空间,装有隔音材料的静音舱能降低舱内语音泄漏的声压级,但是当舱外环境很安静时,舱内语音还是会被舱外的人清楚听到,造成用户隐私泄露,因此装有隔音材料的静音舱的语音私密性还需要提高。
在倾听一个声音的同时,如果存在掩蔽声,就会影响到人耳对所听声音的听闻效果,这时对所听声音的听阈就要提高。这种由于某个声音的存在而使人耳对别的声音听觉灵敏度降低的现象,称为掩蔽效应。一般来说,两个相关性越高的声音,彼此的掩蔽量就越大。
目前市场上的一种静音舱掩蔽语音的方法,采用传感器检测人进入静音舱,然后向舱外播放由人群噪声组成的掩蔽音,但是该方法播放的掩蔽音是固定的,不能根据舱内人员说话的语音播放相应的掩蔽音,掩蔽音和语音的相关性差,导致掩蔽的效果差,舱内人员的语音容易被舱外人员听到,进而降低了静音舱的语音私密性。
发明内容
为此,本申请的实施例提供了一种提高静音舱语音私密性的方法和装置,能够解决现有的静音舱播放固定的掩蔽音,不能根据舱内人员说话的语音播放相应的掩蔽音,掩蔽音和语音的相关性差,导致掩蔽的效果差,舱内人员的语音容易被舱外人员听到,降低静音舱的语音私密性的问题,具体技术方案内容如下:
第一方面,本申请提供一种提高静音舱语音私密性的方法,包括:
接收静音舱内的声音,将接收到的声音转化为声音信号;储存所述声音信号;对所述声音信号进行判断,判断所述声音信号是否包括语音信号;当所述声音信号包括语音信号时,对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;根据所述掩蔽音信号向静音舱外播放掩蔽音。
优选的,所述对所述声音信号进行判断,判断所述声音信号是否包括语音信号,包括:
将接收到的声音信号分成多个声音信号片段;预设语音相似门限值,对各个所述声音信号片段的幅度进行判断,当所述声音信号片段的幅度超过语音相似门限值时,所述声音信号片段为语音相似信号片段;对各个所述语音相似信号片段进行特征提取,得到各个所述语音相似信号片段的语音特征;根据所述语音特征,使用机器学习模型对各个所述语音相似信号片段进行判断,判断各个所述语音相似信号片段是否为语音信号片段;所述语音信号包括所述各个语音信号片段。
优选的,使用机器学习模型对各个所述语音相似信号片段进行判断,判断各个所述语音相似信号片段是否为语音信号片段,包括:预设误差时间,当所述机器学习模型判断出有语音相似信号片段为语音信号片段时,在之后的误差时间内将所有的语音相似信号片段生成掩蔽音进行掩蔽;所述误差时间的计算公式为:
其中T为误差时间,P为机器学习模型的漏检概率,Pf为预设的系统漏检概率,ΔT为声音信号片段的时长。
优选的,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
在所述语音信号中随机选择长度为100毫秒至500毫秒的待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
优选的,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
对所有语音信号进行频谱分析,得到所述语音信号的频谱结构,将所述频谱结构及其对应的语音信号储存;对当前接收到的语音信号进行频谱分析,得到当前接收到的语音信号的频谱结构;挑选出储存的语音信号与当前接收到的语音信号帧长相同的多个语音信号,比对挑选出的储存的语音信号和当前接收到的语音信号的频谱结构,选择与当前接收到的语音信号的频谱结构相似度最高的语音信号作为待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
优选的,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
对所述语音信号的每一帧的波形在幅度上作正负随机反向,生成反向语音信号,将反向语音信号作为掩蔽音信号;或者再对所述反向语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
优选的,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
储存全部语音信号,需要生成掩蔽音时,随机选择一部分储存的语音信号作为待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
优选的,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
预设一段语音信号,将所述预设的语音信号的频率结构与当前接收到的语音信号的频率结构作相关运算,公式如下:
其中,r(n)为相关结果,x为当前语音帧的频谱结构参数,y为存储器中某一段语音帧的频谱结构参数,N为频谱结构的频点数,n取-N到N的整数,k取从0开始到N-1的所有整数;
在预设的语音信号上设置多个频点,计算出相关结果r(n)最大时n的值,当n<0时,将预设的语音信号在频点处的频谱左移n点;当n>0时将预设的语音信号在频点处的频谱右移n点;对频谱移动后的预设的语音信号进行逆快速傅里叶变换,得到掩蔽音信号。
优选的,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
将所述语音信号的频带移位、调换或改变相位后,得到待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
优选的,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
将所述语音信号分成随机长度的小片段,对所述小片段进行随机排序,将随机排序后的小片段组合成待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
第二方面,本申请还提供一种提高静音舱语音私密性的装置,包括:
录音模块,用于接收静音舱内的声音,将接收到的声音转化为声音信号;
储存模块,用于储存所述声音信号;
识别模块,用于对所述声音信号进行判断,判断所述声音信号是否包括语音信号;
处理模块,用于当所述声音信号包括语音信号时,对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;
播放模块,用于根据所述掩蔽音信号向静音舱外播放掩蔽音。
第三方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行提高静音舱语音私密性的方法。
第四方面,本申请还提供一种电子设备,包括:处理器和存储器,所述处理器用于运行所述存储器中存储的程序,其中,所述程序运行时执行提高静音舱语音私密性的方法。
综上所述,本申请实施例提供的技术方案带来的有益效果至少包括:对所述声音信号进行判断,判断所述声音信号是否包括语音信号,如果舱内的声音不包括人的语音,则不进行后续的声音信号逆序处理,也不播放掩蔽音,在静音舱未被使用时可以节约能源。
当所述声音信号包括语音信号时,对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;生成掩蔽音信号时考虑了舱内人员的语音,掩蔽音信号是根据舱内人员的当前语音逆序处理获得的,而逆序处理的方式得到的掩蔽音信号与当前语音的频谱结构更相似,相关性更高,因此这样得到的掩蔽音对舱内当前语音的掩蔽量更大,与单纯的播放与舱内当前语音无关的人群噪声相比,掩蔽效果更好。
附图说明
图1是本申请一实施例提供的一种提高静音舱语音私密性的方法流程图;
图2是本申请一实施例提供的一种提高静音舱语音私密性的效果图;
图3是本申请一实施例提供的一种判断需要掩蔽的语音信号的流程图;
图4是本申请一实施例提供的一种语音信号逆序处理示意图;
图5是本申请一实施例提供的一种提高静音舱语音私密性的装置结构框图;
图6是本申请一实施例提供的一种电子设备结构框图。
具体实施方式
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合说明书附图对本申请实施例作进一步详细描述。
本申请一实施例提供了一种提高静音舱语音私密性的方法,如图1所示:
S01:接收静音舱内的声音,将接收到的声音转化为声音信号;
具体的,采用麦克风等具有采集声音并转化为声音信号能力的电子设备接收静音舱内的声音,将声音信号发送给录音处理设备中的处理器,处理器对接收到的声音信号进行分帧,每帧时长为230毫秒。
S02:储存所述声音信号;
具体的,处理器将分帧后的所有声音信号传输给录音处理设备中的储存器,储存器对分帧后的所有声音信号进行储存。
S03:对所述声音信号进行判断,判断所述声音信号是否包括语音信号;
具体的,如图2所示,本实施例还提供了一种提高静音舱语音私密性的方法,包括语音判断:首先,处理器将接收到的声音信号分成多个声音信号片段,每个声音信号片段的时长为500毫秒;
预设语音相似门限值,这一门限值可以根据使用者对静音舱私密性和能源消耗的要求自行设定;处理器对各个声音信号片段的幅度进行判断,当声音信号片段的幅度超过使用者设定的语音相似门限值时,将声音信号片段作为语音相似信号片段;
进一步的,处理器对各个所述语音相似信号片段按时间顺序进行特征提取,这里提取的特征可以是过零点数量、梅尔频率倒谱系数等语音特征,提取各个语音相似信号片段的语音特征;然后,根据上述的语音特征,将各个语音相似信号片段输入训练出的机器学习模型中,判断是否为语音信号片段,机器学习模型是事先通过机器学习算法训练得到的,机器学习算法可以使用K最近邻算法,支持向量机SVM,神经网络模型等与语音判断相关的的机器学习算法;最终的得到的语音信号包括机器学习模型判断出的各个语音信号片段。
本方法先通过简单的幅度计算提取出语音相似信号片段,再对语音相似信号片段进行较为复杂的机器学习模型判断,而不是直接对所有声音信号片段进行机器学习模型的判断,具有计算量小的优势。
为了防止由于机器学习模型误判导致语音信号片段没有被判定为语音信号片段,语音信号未被完全掩蔽,静音舱内部语音泄漏的问题,本实施例还提供了一种提高静音舱语音私密性的方法,包括保险机制:预设误差时间,当机器学习模型判断出语音相似信号片段为语音信号片段时,在之后的误差时间内将所有的语音相似信号片段生成掩蔽音进行掩蔽。
误差时间的计算公式为:
其中T为误差时间,P为机器学习模型的漏检概率,Pf为预设的系统漏检概率,ΔT为声音信号片段的时长。其中机器学习模型的漏检概率由使用的机器学习训练算法和模型的质量来决定,可以进行简单实验获得,预设的系统漏检概率可以根据使用者对静音舱私密性和能源消耗的要求自行设定。机器学习模型对所有的语音相似信号片段进行判断,当判断某语音相似信号片段为语音信号片段时,那么该语音信号片段及在之后的误差时间内的语音相似信号片段都要生成掩蔽音进行掩蔽。通过设定误差时间,有效减少机器学习模型误判导致的漏检问题,增强静音舱对语音私密性的保护。当机器学习模型漏检概率很小时,为了减少计算量,可以对误差时间内的语音相似信号片段不进行机器学习模型判断。
S04:当所述声音信号包括语音信号时,对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;
具体的,如图4所示,横坐标为时间,单位是0.023ms,预设的每帧的帧长为230ms,所以横坐标0-10000范围内为一帧的波形,图4左侧是逆序处理前的该帧波形,右侧是逆序处理后的该帧波形。处理器将接收到的语音信号的每一帧的波形进行如图4所示的逆序处理,并且将逆序处理后的掩蔽音信号的波形进行放大,然后将放大后的掩蔽音信号传输给播放装置。根据舱内人员语音,实时逆序处理后得到的掩蔽音,具有良好的掩蔽效果;并且,将掩蔽音信号的波形进行放大,可以更好的驱动播放装置播放掩蔽音。
S05:根据所述掩蔽音信号向静音舱外播放掩蔽音。
具体的,播放掩蔽音的装置可以使用喇叭,处理器与喇叭的连接可以通过有线传输或无线传输的方式。
如图3所示,本实施例还提供了一种提高静音舱语音私密性的方法,包括设备安装,将播放掩蔽音的喇叭设置为2个,分别在静音舱舱门的左右门缝处,由于门缝处的声音泄漏最为严重,因此将播放掩蔽音的喇叭设置在门缝处可以更好的掩蔽泄漏的语音,提高静音舱的私密性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本实施例提供的技术方案带来的有益效果至少包括:对所述声音信号进行判断,判断所述声音信号是否包括语音信号,如果舱内的声音不包括人的语音,则不进行后续的声音信号逆序处理,也不播放掩蔽音,在静音舱未被使用时可以节约能源。
当所述声音信号包括语音信号时,对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;生成掩蔽音信号时考虑了舱内人员的语音,掩蔽音信号是根据舱内人员的当前语音逆序处理获得的,而逆序处理的方式得到的掩蔽音信号与当前语音的频谱结构更相似,相关性更高,因此这样得到的掩蔽音对舱内当前语音的掩蔽量更大,与单纯的播放与舱内当前语音无关的人群噪声相比,掩蔽效果更好。
本实施例提供的技术方案带来的有益效果还包括:通过简单的幅度计算提取出语音相似信号片段,再对语音相似信号片段进行较为复杂的机器学习模型判断,而不是直接对所有声音信号片段进行机器学习模型的判断,减小计算量。通过设定误差时间,有效减少机器学习模型误判导致的漏检问题,增强静音舱对语音私密性的保护。当机器学习模型漏检概率很小时,对误差时间内的语音相似信号片段不进行机器学习模型判断,可以进一步减少计算量。将掩蔽音信号的波形进行放大,可以更好的驱动播放装置播放掩蔽音。
为了解决单纯对语音逆向处理得到的掩蔽音容易被还原成原语音,造成隐私风险的问题,本申请另一实施例提供了一种提高静音舱语音私密性的方法:
处理器在语音信号中随机选择长度为100毫秒至500毫秒的语音信号,作为待掩蔽音信号,对待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。本方法得到的掩蔽音信号的优点是,采用100毫秒至500毫秒随机的不定时间长度的语音信号,并且进行逆序处理后得到掩蔽音信号进行播放,不容易被舱外的人用其他设备将掩蔽音还原成连续的原语音,保证静音舱的私密性。
为了进一步提高掩蔽音的掩蔽效应,本申请另一实施例提供了一种提高静音舱语音私密性的方法:
处理器对所有语音信号采用快速傅里叶变换进行频谱分析,得到所有语音信号的频谱结构,将频谱结构及其对应的语音信号储存在储存器中;同时,处理器对当前接收到的语音信号采用快速傅里叶变换进行频谱分析,得到当前接收到的语音信号的频谱结构;
首先,筛选出储存的语音信号与当前接收到的语音信号帧长相同的所有的语音信号;下一步,比对筛选出的帧长相同的语音信号和当前接收到的语音信号的频谱结构,选择与当前接收到的语音信号的频谱结构相似度最高的语音信号作为待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
其中,相似度的计算采用如下公式:
公式中,x为当前语音帧的频谱结构参数,y1为存储器中语音帧的频谱结构参数,N为频谱结构的频点数,n取-N到N的整数,r(n)为两个语音帧频谱的相关结果,k取从0开始到N-1的所有整数。
频谱结构的频点数可以根据使用者对相似度的要求自行设定,频点数越多则相似度越计算越准确,但是计算量也随之增大。通过遍历计算所有帧长相同的储存的语音帧,得到存储的所有帧长相同的语音帧与当前语音帧频谱的相似度。取最高频谱相似度的语音帧逆序处理,生成掩蔽音信号。本方法采用相同帧长、频谱相似度最高的语音帧作逆序,掩蔽效应更显著,使静音舱的私密性更佳。
为了在计算简单的同时保证掩蔽音不容易被还原成原语音,本申请另一实施例提供了一种提高静音舱语音私密性的方法:对语音信号的每一帧的波形在幅度上作正负随机反向,生成反向语音信号,将反向语音信号作为掩蔽音信号;或者再对反向语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。正负随机反向的计算方法在比较简单的同时,还能在一定程度上防止掩蔽音被还原成原语音,保证静音舱的私密性。
为了进一步减小计算量,本申请另一实施例提供了一种提高静音舱语音私密性的方法:在储存器中储存全部的语音信号,需要生成掩蔽音时,随机选择一部分储存的语音信号作为待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。本实施例在计算非常简单的同时,也能一定程度上保证静音舱的私密性。
为了防止根据实时语音计算导致的计算量和数据量过大,本申请另一实施例提供了一种提高静音舱语音私密性的方法:
预设一段语音信号,预设的语音信号可以是任意的一段人的语音,将预设的语音信号的频率结构与当前接收到的语音信号的频率结构作相关运算,公式如下:
其中,r(n)为相关结果,x为当前语音帧的频谱结构参数,y为预设的语音信号的频谱结构参数,N为频谱结构的频点数,n取-N到N的整数,k取从0开始到N-1的所有整数;
频谱结构的频点数可以根据使用者对相似度的要求自行设定,频点数越多则相似度计算越准确,但是计算量也随之增大。在预设的语音信号上设置好频点后,计算出相关结果r(n)最大时n的值,当n<0时,将预设的语音信号在频点处的频谱左移n点;当n>0时将预设的语音信号在频点处的频谱右移n点;对频谱移动后的预设的语音信号进行逆快速傅里叶变换,得到掩蔽音信号。本实施例可以采用预设好的语音信号根据舱内人员语音进行频点调整,得到掩蔽音信号;与完全根据舱内人员语音实时计算生成掩蔽音信号相比,可以减小计算量和需要储存的数据量。
本申请另一实施例提供了一种提高静音舱语音私密性的方法:将语音信号的频带移位、调换或改变相位后,得到待掩蔽音信号,对待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。本实施例可以增加掩蔽音信号的复杂度,防止掩蔽音被还原成原语音,保证静音舱私密性。
本申请另一实施例提供了一种提高静音舱语音私密性的方法:将语音信号分成随机长度的小片段,再对小片段进行随机排序,将随机排序后的小片段组合成待掩蔽音信号,对待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。本实施例应用的随机计算比较简单的同时,也能防止掩蔽音被还原成原语音,保证静音舱私密性。
本申请一实施例还提供一种提高静音舱语音私密性的装置,如图5所示,包括:
录音模块,用于接收静音舱内的声音,将接收到的声音转化为声音信号;
储存模块,用于储存所述声音信号;
识别模块,用于对所述声音信号进行判断,判断所述声音信号是否包括语音信号;
处理模块,用于当所述声音信号包括语音信号时,对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;
播放模块,用于根据所述掩蔽音信号向静音舱外播放掩蔽音。
在本申请一实施例中,提供了一种电子设备,如图6所示,该电子设备包通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该电子设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于语音传输指数的音质测量方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于语音传输指数的音质测量方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述基于语音传输指数的音质测量方法的步骤。此处基于语音传输指数的音质测量方法的步骤可以是上述各个实施例的基于语音传输指数的音质测量方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。

Claims (10)

1.一种提高静音舱语音私密性的方法,其特征在于,包括:
接收静音舱内的声音,将接收到的声音转化为声音信号;
储存所述声音信号;
对所述声音信号进行判断,判断所述声音信号是否包括语音信号,包括:
将接收到的声音信号分成多个声音信号片段;
预设语音相似门限值,对各个所述声音信号片段的幅度进行判断,当所述声音信号片段的幅度超过语音相似门限值时,所述声音信号片段为语音相似信号片段;
对各个所述语音相似信号片段进行特征提取,得到各个所述语音相似信号片段的语音特征;
根据所述语音特征,使用机器学习模型对各个所述语音相似信号片段进行判断,判断各个所述语音相似信号片段是否为语音信号片段,包括:
预设误差时间,当所述机器学习模型判断出有语音相似信号片段为语音信号片段时,在之后的误差时间内将所有的语音相似信号片段生成掩蔽音进行掩蔽;
所述误差时间的计算公式为:
其中T为误差时间,P为机器学习模型的漏检概率,Pf为预设的系统漏检概率,ΔT为声音信号片段的时长;
所述语音信号包括各个语音信号片段;
当所述声音信号包括语音信号时,对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;
所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
预设一段语音信号,将所述预设的语音信号的频率结构与当前接收到的语音信号的频率结构作相关运算,公式如下:
其中,r(n)为相关结果,x为当前语音帧的频谱结构参数,y为存储器中某一段语音帧的频谱结构参数,N为频谱结构的频点数,n取-N到N的整数,k取从0开始到N-1的所有整数;在预设的语音信号上设置多个频点,计算出相关结果r(n)最大时n的值,当n<0时,将预设的语音信号在频点处的频谱左移n点;当n>0时将预设的语音信号在频点处的频谱右移n点;对频谱移动后的预设的语音信号进行逆快速傅里叶变换,得到掩蔽音信号;
根据所述掩蔽音信号向静音舱外播放掩蔽音。
2.如权利要求1所述的提高静音舱语音私密性的方法,其特征在于,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
在所述语音信号中随机选择长度为100毫秒至500毫秒的待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
3.如权利要求1所述的提高静音舱语音私密性的方法,其特征在于,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
对所有语音信号进行频谱分析,得到所述语音信号的频谱结构,将所述频谱结构及其对应的语音信号储存;
对当前接收到的语音信号进行频谱分析,得到当前接收到的语音信号的频谱结构;
挑选出储存的语音信号与当前接收到的语音信号帧长相同的多个语音信号,比对挑选出的储存的语音信号和当前接收到的语音信号的频谱结构,选择与当前接收到的语音信号的频谱结构相似度最高的语音信号作为待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
4.如权利要求1所述的提高静音舱语音私密性的方法,其特征在于,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
对所述语音信号的每一帧的波形在幅度上作正负随机反向,生成反向语音信号,将反向语音信号作为掩蔽音信号;
或者再对所述反向语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
5.如权利要求1所述的提高静音舱语音私密性的方法,其特征在于,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
储存全部语音信号,需要生成掩蔽音时,随机选择一部分储存的语音信号作为待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
6.如权利要求1所述的提高静音舱语音私密性的方法,其特征在于,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
将所述语音信号的频带移位、调换或改变相位后,得到待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
7.如权利要求1所述的提高静音舱语音私密性的方法,其特征在于,所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
将所述语音信号分成随机长度的小片段,对所述小片段进行随机排序,将随机排序后的小片段组合成待掩蔽音信号,对所述待掩蔽音信号的每一帧的波形进行逆序处理,得到掩蔽音信号。
8.一种提高静音舱语音私密性的装置,其特征在于,包括:
录音模块,用于接收静音舱内的声音,将接收到的声音转化为声音信号;
储存模块,用于储存所述声音信号;
识别模块,用于对所述声音信号进行判断,判断所述声音信号是否包括语音信号,包括:
将接收到的声音信号分成多个声音信号片段;预设语音相似门限值,对各个所述声音信号片段的幅度进行判断,当所述声音信号片段的幅度超过语音相似门限值时,所述声音信号片段为语音相似信号片段;对各个所述语音相似信号片段进行特征提取,得到各个所述语音相似信号片段的语音特征;根据所述语音特征,使用机器学习模型对各个所述语音相似信号片段进行判断,判断各个所述语音相似信号片段是否为语音信号片段,包括:
预设误差时间,当所述机器学习模型判断出有语音相似信号片段为语音信号片段时,在之后的误差时间内将所有的语音相似信号片段生成掩蔽音进行掩蔽;所述误差时间的计算公式为:
其中T为误差时间,P为机器学习模型的漏检概率,Pf为预设的系统漏检概率,ΔT为声音信号片段的时长;所述语音信号包括各个语音信号片段;
处理模块,用于当所述声音信号包括语音信号时,对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号;
所述对所述语音信号的每一帧的波形进行逆序处理,得到掩蔽音信号,包括:
预设一段语音信号,将所述预设的语音信号的频率结构与当前接收到的语音信号的频率结构作相关运算,公式如下:
其中,r(n)为相关结果,x为当前语音帧的频谱结构参数,y为存储器中某一段语音帧的频谱结构参数,N为频谱结构的频点数,n取-N到N的整数,k取从0开始到N-1的所有整数;在预设的语音信号上设置多个频点,计算出相关结果r(n)最大时n的值,当n<0时,将预设的语音信号在频点处的频谱左移n点;当n>0时将预设的语音信号在频点处的频谱右移n点;对频谱移动后的预设的语音信号进行逆快速傅里叶变换,得到掩蔽音信号;
播放模块,用于根据所述掩蔽音信号向静音舱外播放掩蔽音。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1-7任一项所述的提高静音舱语音私密性的方法。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于运行所述存储器中存储的程序,其中,所述程序运行时执行权利要求1-7任一项所述的提高静音舱语音私密性的方法。
CN202211344991.6A 2022-10-31 2022-10-31 一种提高静音舱语音私密性的方法和装置 Active CN115910018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211344991.6A CN115910018B (zh) 2022-10-31 2022-10-31 一种提高静音舱语音私密性的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211344991.6A CN115910018B (zh) 2022-10-31 2022-10-31 一种提高静音舱语音私密性的方法和装置

Publications (2)

Publication Number Publication Date
CN115910018A CN115910018A (zh) 2023-04-04
CN115910018B true CN115910018B (zh) 2023-11-24

Family

ID=86492191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211344991.6A Active CN115910018B (zh) 2022-10-31 2022-10-31 一种提高静音舱语音私密性的方法和装置

Country Status (1)

Country Link
CN (1) CN115910018B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07111527A (ja) * 1993-10-14 1995-04-25 Hitachi Ltd 音声の加工方法およびそれを用いた装置
JP2012063614A (ja) * 2010-09-16 2012-03-29 Yamaha Corp マスキング音生成装置
CN113160845A (zh) * 2021-03-29 2021-07-23 南京理工大学 基于语音存在概率和听觉掩蔽效应的语音增强算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07111527A (ja) * 1993-10-14 1995-04-25 Hitachi Ltd 音声の加工方法およびそれを用いた装置
JP2012063614A (ja) * 2010-09-16 2012-03-29 Yamaha Corp マスキング音生成装置
CN113160845A (zh) * 2021-03-29 2021-07-23 南京理工大学 基于语音存在概率和听觉掩蔽效应的语音增强算法

Also Published As

Publication number Publication date
CN115910018A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
US20210192033A1 (en) Detection of replay attack
US20200321009A1 (en) Method and apparatus for detecting spoofing conditions
US20210256971A1 (en) Detection of replay attack
CN110600059B (zh) 声学事件检测方法、装置、电子设备及存储介质
CN108597505B (zh) 语音识别方法、装置及终端设备
CN112201255B (zh) 语音信号频谱特征和深度学习的语音欺骗攻击检测方法
CN105118522B (zh) 噪声检测方法及装置
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
CN101354889B (zh) 一种语音变调方法及装置
US11069366B2 (en) Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium
JPH06332492A (ja) 音声検出方法および検出装置
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
KR20240033108A (ko) 음성인식 오디오 시스템 및 방법
US20060100866A1 (en) Influencing automatic speech recognition signal-to-noise levels
US11785406B2 (en) Inter-channel level difference based acoustic tap detection
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
CN113192504A (zh) 一种基于域适应的无声语音攻击检测方法
CN115841821A (zh) 一种基于人类语音结构的语音干扰噪声设计方法
CN113744730B (zh) 声音检测方法及装置
CN114338623A (zh) 音频的处理方法、装置、设备、介质及计算机程序产品
CN115910018B (zh) 一种提高静音舱语音私密性的方法和装置
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
Tian et al. Spoofing detection under noisy conditions: a preliminary investigation and an initial database
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
TWI779261B (zh) 風切濾波裝置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant