CN116110393A - 一种基于语音相似度的拒识方法、装置、计算机及介质 - Google Patents

一种基于语音相似度的拒识方法、装置、计算机及介质 Download PDF

Info

Publication number
CN116110393A
CN116110393A CN202310119080.1A CN202310119080A CN116110393A CN 116110393 A CN116110393 A CN 116110393A CN 202310119080 A CN202310119080 A CN 202310119080A CN 116110393 A CN116110393 A CN 116110393A
Authority
CN
China
Prior art keywords
signal
similarity
phoneme
sequence
target signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310119080.1A
Other languages
English (en)
Other versions
CN116110393B (zh
Inventor
徐学淼
马天泽
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mgjia Beijing Technology Co ltd
Original Assignee
Mgjia Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mgjia Beijing Technology Co ltd filed Critical Mgjia Beijing Technology Co ltd
Priority to CN202310119080.1A priority Critical patent/CN116110393B/zh
Publication of CN116110393A publication Critical patent/CN116110393A/zh
Application granted granted Critical
Publication of CN116110393B publication Critical patent/CN116110393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种基于语音相似度的拒识方法、装置、计算机及介质,包括:采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号;对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号;计算目标信号和扬声器信号的波形相似度;通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列;根据目标信号的文本序列获取目标信号对应的目标音素序列,根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列;计算目标音素序列和扬声器音素序列的音素相似度;若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值,丢弃目标信号的文本序列。执行本发明能解决设备自身发出的声音对机车执行语音指令造成干扰的问题。

Description

一种基于语音相似度的拒识方法、装置、计算机及介质
技术领域
本发明涉及人工智能语音交互领域,具体涉及一种基于语音相似度的拒识方法、装置、计算机及介质。
背景技术
车载智能座舱系统多采用全双工语音对话技术进行人机交互。在人机对话过程中,不可避免会受到车机自身发出的声音如合成播报、导航、音乐等回声的干扰。现有技术通过声学回声消除(AEC)、声纹拒识技术来解决自识别问题。但是声学回声消除存在收敛慢,残余回声难以处理的问题。声纹拒识需要提前预知干扰声音的声纹特征,无法处理广播、音乐、导航等其他多媒体应用发出的声音。
对于车机自身发出的声音如合成播报、导航、音乐等回声的干扰还没有很好的解决方法。
发明内容
为解决现有技术中的不足,本发明提供一种基于语音相似度的拒识方法、装置、计算机及介质。
本发明第一方面提供一种基于语音相似度的拒识方法,该方法包括:采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号;对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号;计算目标信号和扬声器信号的波形相似度;通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列;根据目标信号的文本序列获取目标信号对应的目标音素序列,根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列;计算目标音素序列和扬声器音素序列的音素相似度;若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值,丢弃目标信号的文本序列。
有益效果为:本发明计算目标信号和扬声器信号的波形相似度,计算目标音素序列和扬声器音素序列的音素相似度,再根据波形相似度和音素相似度与阈值的比较来确定目标信号是否为车机回声产生的干扰信号,若目标信号中含有过多的残余回声能量,通过执行本发明将其丢弃,不作为待执行指令,这样就能避免车机自身发出的声音如合成播报、导航、音乐等回声的干扰,提升用户对汽车语音交互系统的体验。
结合第一方面,在第一方面第一实施方式中,采用平滑频点能量序列的相关系数运算得到目标信号和扬声器信号的波形相似度。
结合第一方面或第一方面第一实施方式,在第一方面第二实施方式中,
通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列步骤之前,还包括以下步骤:对目标信号进行语音端点检测,若目标信号为静音帧,则丢弃,若目标信号为含有人声的信号,则执行自动语音识别获取目标信号的文本序列和扬声器信号的文本序列的步骤。
有益效果为:在将目标信号进行自动语音识别之前,先进行语音端点检测,获得的静音/语音判断信息也控制着目标信号和扬声器信号的同步性,即只有目标信号被判断包含有语音时,对应的同步扬声器信号段才会被送去识别获取音素序列信息。
结合第一方面,在第一方面第三实施方式中,通过查询文本-拼音字典将文本序列转换为音素序列。
结合第一方面,在第一方面第四实施方式中,采用位置发音加权的最小编辑距离方法计算目标音素序列和扬声器音素序列的音素相似度。
结合第一方面,在第一方面第五实施方式中,若波形相似度大于或等于第一波形阈值且小于或等于第二波形阈值,且,音素相似度大于或等于第一音素阈值且小于或等于第二音素阈值,且,文本长度小于预设字符数,则缓存目标信号的文本序列,等待下一个目标信号到达。
结合第一方面,在第一方面第六实施方式中,若波形相似度小于第一波形阈值,或,音素相似度小于第一音素阈值,或,文本长度大于或等预设字符数,则保留目标信号的文本序列,将所述目标信号的文本序列发送给对话管理系统,以使对话管理系统对所述目标信号的文本序列进行响应。
本发明第二方面提供一种基于语音相似度的拒识装置,包括:采集模块,用于采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号;回声消除模块,用于对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号;波形相似度计算模块,用于计算目标信号和扬声器信号的波形相似度;自动语音识别模块,用于通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列;音素序列获取模块,用于根据目标信号的文本序列获取目标信号对应的目标音素序列,根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列;音素相似度计算模块,用于计算目标音素序列和扬声器音素序列的音素相似度;综合控制逻辑模块,用于执行若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值,丢弃目标信号的文本序列的步骤。
有益效果为:本发明提供的基于语音相似度的拒识装置计算目标信号和扬声器信号的波形相似度,计算目标音素序列和扬声器音素序列的音素相似度,再根据波形相似度和音素相似度与阈值的比较来确定目标信号是否为车机回声产生的干扰信号,若目标信号中含有过多的残余回声能量,通过执行本发明将其丢弃,不作为待执行指令,这样就能避免车机自身发出的声音如合成播报、导航、音乐等回声的干扰,提升用户对汽车语音交互系统的体验。
本发明第三方面提供一种计算机设备,包括,至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,从而执行第一方面及其可选实施方式中任一项的基于语音相似度的拒识方法。
本发明第四方面提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行第一方面及其可选实施方式中任一项的基于语音相似度的拒识方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式。
图1示出了本发明实施例提供的基于语音相似度的拒识方法流程图;
图2示出了本发明实施例提供的全双工语音交互结构示意图;
图3示出了本发明实施例提供的全双工车机语音交互组成示意图;
图4示出了本发明实施例提供的基于语音相似度的拒识装置的组成模块示意图;
图5示出了本发明实施例提供的一种计算机设备的硬件结构示意图;
图6示出了本发明实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例提供了一种基于语音相似度的拒识方法,如图1所示,包括以下步骤:
步骤S001:采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号。
在一可选实施例中,同时打开智能座舱系统的麦克风和扬声器,通过模数变换和设备驱动采集麦克风的数字语音信号X(n),即麦克风信号,通过回环环路获得当前播放的数字音频参考信号Y(n),即扬声器信号,其中,n表示数字信号的时间序号。
在一可选实施例中,如图2所示,麦克风通过声电转换获取用户的声音信号,在全双工系统中,扬声器与麦克风同步工作,所以在麦克风采集的信号中不可避免会混合有扬声器播放的声音信号。
步骤S002:对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号。
在一可选实施例中,得到的待识别的目标信号,记作T(n)。
在一可选实施例中,如图2所示,对于回声消除,输入是麦克风信号X(n)和扬声器信号Y(n),输出是减少了回声成分的目标信号T(n),根据信号叠加原理,它们三者之间的关系是:
T(n)=X(n)-E(n)=X(n)-f(Y(n))
其中,E(n)表示系统的回声信号;f(Y(n))表示激励和回声之间的函数。
通过系统冲击函数和卷积运算来对f(Y(n))函数进行建模:
Figure BDA0004079436860000061
其中,
Figure BDA0004079436860000062
表示线性卷积运算;h(n)表示系统冲击响应。
可以利用自适应滤波器来求解系统冲击响应,如归一化均方误差最小法,其基本公式为:
h(n)=min(|X(n)–E(n)|2)when C(X(n),Y(n))=单讲
关于单讲的判断依据,可以使用X(n)、Y(n)之间的相关系数和某个阈值的比较:
单讲when R(X(n),Y(n))<γ
其中,R(X(n),Y(n))表示X和Y序列之间的相关数,γ是经验阈值,一般取0.3-0.5。
上述公式表明归一化均方误差最小法可以转化为约束条件下的最小均方最优化问题。
如果利用数值解法,得到h(n)的迭代解是:
h(n)=h′(n)+uX(n)E(n)
其中h′(n)是上一次迭代时的冲击响应序列。
在一可选实施例中,上述介绍的是利用归一化均方误差最小法进行回声消除,除此之外,还有其他方法可以进行回声消除,如,分块频域自适应滤波器,基于神经网络的回声消除模块等,在此不再详述。
步骤S003:计算目标信号和扬声器信号的波形相似度。
在一可选实施例中,计算得到的波形相似度记作P1
步骤S004:通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列。
在一可选实施例中,如图2所示,自动语音识别的输入为音频波形,输出为对应的文本序列。
在一可选实施例中,目标信号的转换过程为:T_text=ASR(T(n)),扬声器信号的转换过程为:Y_text=ASR(Y(n))。
步骤S005:根据目标信号的文本序列获取目标信号对应的目标音素序列,根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列。
在一可选实施例中,通过查询文本-拼音字典将文本序列转换成音素序列。
在一可选实施例中,目标信号的转换过程为:T_pho=find_dict(T_text),扬声器信号的转换过程为:Y_pho=find_dict(Y_text)。
步骤S006:计算目标音素序列和扬声器音素序列的音素相似度。
在一可选实施例中,如图2所示,计算得到的音素相似度记作P2
步骤S007:若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值,丢弃目标信号的文本序列。
在一可选实施例中,如图2所示,在综合控制逻辑中执行判断的全过程。
在一可选实施例中,若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值,则说明T_text是车内其他声音的回声信号产生的识别文本,则丢弃掉。
在一可选实施例中,第一波形阈值默认可以设置为0.75,第二波形阈值默认可以设置为0.9,第一音素阈值默认可以设置为0.7,第二音素阈值默认可以设置为0.8,当然,不同的车型由于其扬声器、麦克风的配置不同,可以根据实际需要调低或者调高到相应阈值。
在一可选实施例中,若波形相似度大于或等于第一波形阈值且小于或等于第二波形阈值,且,音素相似度大于或等于第一音素阈值且小于或等于第二音素阈值,且,文本长度小于预设字符数,则缓存目标信号的文本序列,等待下一个目标信号到达。
在一可选实施例中,预设字符数为5。
在一可选实施例中,若波形相似度大于或等于第一波形阈值且小于或等于第二波形阈值,且,音素相似度大于或等于第一音素阈值且小于或等于第二音素阈值,且,文本长度小于预设字符数,说明目标信号和扬声器信号的波形相似度中等,并且识别出来的文本发音也非常类似,此时,T_text有可能是回声产生的,但是不确定,所以缓存T_text,暂停向对话管理系统提交请求,等待下一个请求到达,将缓存的T_text与下一个到达的请求的T_text拼接起来,直到拼接起来的请求的T_text满足除了本条件外的其他条件。
在一可选实施例中,若波形相似度小于第一波形阈值,或,音素相似度小于第一音素阈值,或,文本长度大于或等于预设字符数,则保留目标信号的文本序列,将目标信号的文本序列发送给对话管理系统,以使所述对话管理系统对所述目标信号的文本序列进行响应。
在一可选实施例中,若波形相似度小于第一波形阈值,或,音素相似度小于第一音素阈值,或,文本长度大于或等于预设字符数,目标信号与扬声器信号的相似度不高且目标信号中包含较多的文本,认为此目标信号是回声导致的自识别概率低,判断目标信号为可识别请求,将目标信号的文本序列发送给对话管理系统,以使所述对话管理系统对所述目标信号的文本序列进行响应。
本发明实施例提供的基于语音相似度的拒识方法,计算目标信号和扬声器信号的波形相似度,计算目标音素序列和扬声器音素序列的音素相似度,再根据波形相似度和音素相似度与阈值的比较来确定目标信号是否为车机回声产生的干扰信号,若目标信号中含有过多的残余回声能量,通过执行本发明将其丢弃,不作为待执行指令,这样就能避免车机自身发出的声音如合成播报、导航、音乐等回声的干扰,提升用户对汽车语音交互系统的体验。
在一可选实施例中,采用平滑频点能量序列的相关系数运算得到目标信号和扬声器信号的波形相似度。
在一可选实施例中,为了提高运算效率,首先使用快速傅里叶变换将目标信号和扬声器信号转换到频域表示:
TF(m,k)=fft(T(n...n+L)),
YF(m,k)=fft(Y(n...n+L));
其中,m表示帧序号,k表示频点序号,L代表帧长。
计算目标信号和扬声器信号的平滑频点能量:
S_TFE(m,k)=α*S_TFE(m-1,k)+(1–α)*|TF(m,k)|2
S_YFE(m,k)=α*S_YFE(m-1,k)+(1–α)*|YF(m.k)|2
其中,m表示帧序号,k表示频点序号,α表示平滑系数,实验发现,α取0.95-0.99之间取得较好的效果。
通过平滑频点能量序列的相关系数运算和之前帧的波形相似度P1(m-1)求出当前帧的波形相似度P1(m):
Figure BDA0004079436860000101
其中,P1(m-1)为之前帧的波形相似度;β是平滑系数,β取0.8-0.95之间取得较好的效果;S_TFE(m,k)为目标信号的平滑频点能量;
S_YFE(m,k)为扬声器信号的平滑频点能量。
在一可选实施例中,通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列步骤之前,还包括以下步骤:对目标信号进行语音端点检测,若目标信号为静音帧,则丢弃,若目标信号为含有人声的信号,则执行自动语音识别获取目标信号的文本序列和扬声器信号的文本序列的步骤。
在一可选实施例中,为了降低自动语音识别的复杂度,在把音频送给语音识别之前,先将目标语音信号送给语音端点检测,若目标信号为静音帧,则丢弃,若目标信号为含有人声的信号,则进行自动语音识别,也就是说,只有包含有人声的目标语音段会被送到自动语音识别处理。
在一可选实施例中,采用利用位置发音加权的最小编辑距离方法计算目标音素序列和扬声器音素序列的音素相似度。
在一可选实施例中,需要求解两个音素序列T_pho和Y_pho的发音相似度。有很多方法可以表示两个序列之间的发音相似度,如最小编辑距离,基于MFCC特征的曼哈顿距离,神经网络等。为了计算方便,本专利提出一种利用位置发音加权的最小编辑距离方法。
在一可选实施例中,最小编辑距离方法步骤为:
首先,定义Tp(i)表示目标音素序列T_pho的第i个音素,Yp(j)表示Y_pho的第j个音素序列,d(i,j)表示T_pho的前i个音素序列和Y_pho的前j个音素序列的最小编辑距离;
其次,根据动态规划法,有以下递推公式:
Figure BDA0004079436860000111
Figure BDA0004079436860000112
在以上公式中,d(i,0)和d(0,j)构成边界条件,分别表示当T_pho前i个元素和Y_pho前j个元素时的编辑距离,特别的,不妨令d(0,0)=0.ω(k)表示音素在序列不同位置具有的权重,θ(·)表示某个音素自身的能量权重。
对于原始的最小编辑距离算法而言,ω(k)=1,θ(·)=1,针对本发明应用场景的不同,ω(k)是一个随着k的增大,而指数衰减的序列:
ω(k)=2-ak+0.1for k=1...m;
其中,a是调整衰简率的因子,m是音素序列的长度,在本发明实施例中,推荐的最佳a为0.25,m<20.
最后,θ(·)是相应音素的权重因子。在本发明实施例中,θ(·)的值建议与相应语言中对应音素发音的平均时长和发音能量正相关。本发明实施例提供一种简化的权重选择表如下所示。
声母 b p m f d t n l
权重 1.25 1.25 1.1 1.05 0.2 0.2 1 1
声母 g k h j q x zh ch
权重 1.2 1.2 1.15 1.2 1.2 1.15 1.25 1.25
声母 sh r z c s y w
权重 1.25 1.1 1.2 1.2 1.1 1.15 1.2  
Figure BDA0004079436860000121
Figure BDA0004079436860000131
通过以上步骤,求出目标语音音素序列T_pho,参考语音音素序列Y_pho的对应最小编辑距离d(m,n),其中m为目标信号音素序列的长度,n为扬声器信号音素序列的长度,而音素序列的相似度和最小编辑距离是反比关系,通过以下公式求得音素相似度P2
Figure BDA0004079436860000132
在一可选实施例中,如图3所示,示例性地,全双工车机语音交互过程中,可以是如下配置:麦克风、扬声器作为智能座舱控制平台的外设,而CDC是由存储器、中央处理器以及相应外设构成的车载电脑结构。由于受价格、技术限制,车机本地的运算能力可能不够,所以完整的车载人机对话系统还包括云端的对话管理系统,以及实现车载电脑和云端服务通信的车联网通信设施。声学回声消除、语音活动端点检测、本发明实施例所提的拒识逻辑、音效控制、文本-语音转换作为软件模块集成在CDC中。
本发明实施例还提供一种基于语音相似度的拒识装置,如图4所示,包括:
采集模块401,采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号,详细内容参见上述实施例中步骤S001的描述,在此不再赘述。
回声消除模块402,用于对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号,详细内容参见上述实施例中步骤S002的描述,在此不再赘述。
波形相似度计算模块403,用于计算目标信号和扬声器信号的波形相似度,详细内容参见上述实施例中步骤S003的描述,在此不再赘述。
自动语音识别模块404,用于通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列,详细内容参见上述实施例中步骤S004的描述,在此不再赘述。
音素序列获取模块405,用于根据目标信号的文本序列获取目标信号对应的目标音素序列,根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列,详细内容参见上述实施例中步骤S005的描述,在此不再赘述。
音素相似度计算模块406,用于计算目标音素序列和扬声器音素序列的音素相似度,详细内容参见上述实施例中步骤S006的描述,在此不再赘述。
综合控制逻辑模块407,用于执行若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值,丢弃目标信号的文本序列的步骤,详细内容参见上述实施例中步骤S007的描述,在此不再赘述。
本发明实施例提供的基于语音相似度的拒识装置,计算目标信号和扬声器信号的波形相似度,计算目标音素序列和扬声器音素序列的音素相似度,再根据波形相似度和音素相似度与阈值的比较来确定目标信号是否为车机回声产生的干扰信号,若目标信号中含有过多的残余回声能量,通过执行本发明将其丢弃,不作为待执行指令,这样就能避免车机自身发出的声音如合成播报、导航、音乐等回声的干扰,提升用户对汽车语音交互系统的体验。
本发明实施例还提供一种计算机设备,如图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。
如图5所示,该设备包括一个或多个处理器501以及存储器502,存储器502包括持久内存、易失内存和硬盘,图5中以一个处理器501为例。该设备还可以包括:输入装置503和输出装置504。
处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器501可以为中央处理器(Central Processing Unit,CPU)。处理器501还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器502作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的业务管理方法对应的程序指令模块。处理器501通过运行存储在存储器502中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述任意一种基于语音相似度的拒识方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置503可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置504可包括显示屏等显示设备。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行如图1所示的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1所示的实施例中的相关描述。
本发明实施例还提供了一种计算机可读存储介质,如图6所示,计算机可读存储介质中存储有计算机可执行指令601,该计算机可执行指令601可执行上述任意方法实施例中的基于语音相似度的拒识方法。
存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于语音相似度的拒识方法,其特征在于,包括:
采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号;
对所述麦克风信号和所述扬声器信号进行回声消除得到待识别的目标信号;
计算所述目标信号和所述扬声器信号的波形相似度;
通过自动语音识别获取所述目标信号的文本序列和所述扬声器信号的文本序列;
根据所述目标信号的文本序列获取所述目标信号对应的目标音素序列,根据所述扬声器信号的文本序列获取所述扬声器信号对应的扬声器音素序列;
计算所述目标音素序列和所述扬声器音素序列的音素相似度;
若所述波形相似度大于或等于第二波形阈值或所述音素相似度大于或等于第二音素阈值,丢弃所述目标信号的文本序列。
2.根据权利要求1所述的基于语音相似度的拒识方法,其特征在于,包括:
采用平滑频点能量序列的相关系数运算得到所述目标信号和所述扬声器信号的波形相似度。
3.根据权利要求1或2所述的基于语音相似度的拒识方法,其特征在于,通过自动语音识别获取所述目标信号的文本序列和所述扬声器信号的文本序列步骤之前,还包括以下步骤:
对所述目标信号进行语音端点检测,若所述目标信号为静音帧,则丢弃,若所述目标信号为含有人声的信号,则执行自动语音识别获取所述目标信号的文本序列和所述扬声器信号的文本序列的步骤。
4.根据权利要求1所述的基于语音相似度的拒识方法,其特征在于,
通过查询文本-拼音字典将文本序列转换为音素序列。
5.根据权利要求1所述的基于语音相似度的拒识方法,其特征在于,包括:
采用位置发音加权的最小编辑距离方法计算所述目标音素序列和所述扬声器音素序列的音素相似度。
6.根据权利要求1所述的基于语音相似度的拒识方法,其特征在于,包括:
若所述波形相似度大于或等于第一波形阈值且小于或等于第二波形阈值,且,所述音素相似度大于或等于第一音素阈值且小于或等于第二音素阈值,且,文本长度小于预设字符数,则缓存所述目标信号的文本序列,等待下一个目标信号到达。
7.根据权利要求6所述的基于语音相似度的拒识方法,其特征在于,包括:
若所述波形相似度小于第一波形阈值,或,所述音素相似度小于第一音素阈值,或,文本长度大于或等于预设字符数,则保留所述目标信号的文本序列,将所述目标信号的文本序列发送给对话管理系统,以使所述对话管理系统对所述目标信号的文本序列进行响应。
8.一种基于语音相似度的拒识装置,其特征在于,包括:
采集模块,用于采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号;
回声消除模块,用于对所述麦克风信号和所述扬声器信号进行回声消除得到待识别的目标信号;
波形相似度计算模块,用于计算所述目标信号和所述扬声器信号的波形相似度;
自动语音识别模块,用于通过自动语音识别获取所述目标信号的文本序列和所述扬声器信号的文本序列;
音素序列获取模块,用于根据所述目标信号的文本序列获取所述目标信号对应的目标音素序列,根据所述扬声器信号的文本序列获取所述扬声器信号对应的扬声器音素序列;
音素相似度计算模块,用于计算所述目标音素序列和所述扬声器音素序列的音素相似度;
综合控制逻辑模块,用于执行若所述波形相似度大于或等于第二波形阈值或所述音素相似度大于或等于第二音素阈值,丢弃所述目标信号的文本序列的步骤。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,从而执行如权利要求1-7中任一项所述的基于语音相似度的拒识方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-7中任一项所述的基于语音相似度的拒识方法。
CN202310119080.1A 2023-02-01 2023-02-01 一种基于语音相似度的拒识方法、装置、计算机及介质 Active CN116110393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310119080.1A CN116110393B (zh) 2023-02-01 2023-02-01 一种基于语音相似度的拒识方法、装置、计算机及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310119080.1A CN116110393B (zh) 2023-02-01 2023-02-01 一种基于语音相似度的拒识方法、装置、计算机及介质

Publications (2)

Publication Number Publication Date
CN116110393A true CN116110393A (zh) 2023-05-12
CN116110393B CN116110393B (zh) 2024-01-23

Family

ID=86265319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310119080.1A Active CN116110393B (zh) 2023-02-01 2023-02-01 一种基于语音相似度的拒识方法、装置、计算机及介质

Country Status (1)

Country Link
CN (1) CN116110393B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105723449A (zh) * 2013-11-06 2016-06-29 系统翻译国际有限公司 基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言语内容分析方法
CN107123430A (zh) * 2017-04-12 2017-09-01 广州视源电子科技股份有限公司 回声消除方法、装置、会议平板及计算机存储介质
CN112382277A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 智能设备唤醒方法、智能设备和计算机可读存储介质
CN112509567A (zh) * 2020-12-25 2021-03-16 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备、存储介质及程序产品
CN112735462A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 分布式麦克风阵列的降噪方法和语音交互方法
JP2021173881A (ja) * 2020-04-27 2021-11-01 アルプスアルパイン株式会社 音声処理装置および音声処理方法
CN114783448A (zh) * 2022-04-25 2022-07-22 深圳宏芯宇电子股份有限公司 一种音频信号处理装置、方法及可存储介质
CN115512691A (zh) * 2022-10-11 2022-12-23 四川虹微技术有限公司 一种人机连续对话中基于语义层面判断回声的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105723449A (zh) * 2013-11-06 2016-06-29 系统翻译国际有限公司 基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言语内容分析方法
CN107123430A (zh) * 2017-04-12 2017-09-01 广州视源电子科技股份有限公司 回声消除方法、装置、会议平板及计算机存储介质
JP2021173881A (ja) * 2020-04-27 2021-11-01 アルプスアルパイン株式会社 音声処理装置および音声処理方法
CN112509567A (zh) * 2020-12-25 2021-03-16 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备、存储介质及程序产品
CN112735462A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 分布式麦克风阵列的降噪方法和语音交互方法
CN112382277A (zh) * 2021-01-07 2021-02-19 博智安全科技股份有限公司 智能设备唤醒方法、智能设备和计算机可读存储介质
CN114783448A (zh) * 2022-04-25 2022-07-22 深圳宏芯宇电子股份有限公司 一种音频信号处理装置、方法及可存储介质
CN115512691A (zh) * 2022-10-11 2022-12-23 四川虹微技术有限公司 一种人机连续对话中基于语义层面判断回声的方法

Also Published As

Publication number Publication date
CN116110393B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
US7392188B2 (en) System and method enabling acoustic barge-in
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
US20210035563A1 (en) Per-epoch data augmentation for training acoustic models
US9704478B1 (en) Audio output masking for improved automatic speech recognition
US10854186B1 (en) Processing audio data received from local devices
JP4943335B2 (ja) 話者に依存しない堅牢な音声認識システム
US10685647B2 (en) Speech recognition method and device
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2021089438A (ja) 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用
WO2023116660A2 (zh) 一种模型训练以及音色转换方法、装置、设备及介质
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
US11341988B1 (en) Hybrid learning-based and statistical processing techniques for voice activity detection
US11521635B1 (en) Systems and methods for noise cancellation
CN116110393B (zh) 一种基于语音相似度的拒识方法、装置、计算机及介质
CN113077812A (zh) 语音信号生成模型训练方法、回声消除方法和装置及设备
Loh et al. Speech recognition interactive system for vehicle
WO2020015546A1 (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
CN107346658B (zh) 混响抑制方法及装置
US11727926B1 (en) Systems and methods for noise reduction
JP6439174B2 (ja) 音声強調装置、および音声強調方法
CN115132197A (zh) 数据处理方法、装置、电子设备、程序产品及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant