CN116110393A

CN116110393A - 一种基于语音相似度的拒识方法、装置、计算机及介质

Info

Publication number: CN116110393A
Application number: CN202310119080.1A
Authority: CN
Inventors: 徐学淼; 马天泽; 林锋
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-05-12
Anticipated expiration: 2043-02-01
Also published as: CN116110393B

Abstract

本发明提供一种基于语音相似度的拒识方法、装置、计算机及介质，包括：采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号；对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号；计算目标信号和扬声器信号的波形相似度；通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列；根据目标信号的文本序列获取目标信号对应的目标音素序列，根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列；计算目标音素序列和扬声器音素序列的音素相似度；若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值，丢弃目标信号的文本序列。执行本发明能解决设备自身发出的声音对机车执行语音指令造成干扰的问题。

Description

一种基于语音相似度的拒识方法、装置、计算机及介质

技术领域

本发明涉及人工智能语音交互领域，具体涉及一种基于语音相似度的拒识方法、装置、计算机及介质。

背景技术

车载智能座舱系统多采用全双工语音对话技术进行人机交互。在人机对话过程中，不可避免会受到车机自身发出的声音如合成播报、导航、音乐等回声的干扰。现有技术通过声学回声消除(AEC)、声纹拒识技术来解决自识别问题。但是声学回声消除存在收敛慢，残余回声难以处理的问题。声纹拒识需要提前预知干扰声音的声纹特征，无法处理广播、音乐、导航等其他多媒体应用发出的声音。

对于车机自身发出的声音如合成播报、导航、音乐等回声的干扰还没有很好的解决方法。

发明内容

为解决现有技术中的不足，本发明提供一种基于语音相似度的拒识方法、装置、计算机及介质。

本发明第一方面提供一种基于语音相似度的拒识方法，该方法包括：采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号；对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号；计算目标信号和扬声器信号的波形相似度；通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列；根据目标信号的文本序列获取目标信号对应的目标音素序列，根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列；计算目标音素序列和扬声器音素序列的音素相似度；若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值，丢弃目标信号的文本序列。

有益效果为：本发明计算目标信号和扬声器信号的波形相似度，计算目标音素序列和扬声器音素序列的音素相似度，再根据波形相似度和音素相似度与阈值的比较来确定目标信号是否为车机回声产生的干扰信号，若目标信号中含有过多的残余回声能量，通过执行本发明将其丢弃，不作为待执行指令，这样就能避免车机自身发出的声音如合成播报、导航、音乐等回声的干扰，提升用户对汽车语音交互系统的体验。

结合第一方面，在第一方面第一实施方式中，采用平滑频点能量序列的相关系数运算得到目标信号和扬声器信号的波形相似度。

结合第一方面或第一方面第一实施方式，在第一方面第二实施方式中，

通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列步骤之前，还包括以下步骤：对目标信号进行语音端点检测，若目标信号为静音帧，则丢弃，若目标信号为含有人声的信号，则执行自动语音识别获取目标信号的文本序列和扬声器信号的文本序列的步骤。

有益效果为：在将目标信号进行自动语音识别之前，先进行语音端点检测，获得的静音/语音判断信息也控制着目标信号和扬声器信号的同步性，即只有目标信号被判断包含有语音时，对应的同步扬声器信号段才会被送去识别获取音素序列信息。

结合第一方面，在第一方面第三实施方式中，通过查询文本-拼音字典将文本序列转换为音素序列。

结合第一方面，在第一方面第四实施方式中，采用位置发音加权的最小编辑距离方法计算目标音素序列和扬声器音素序列的音素相似度。

结合第一方面，在第一方面第五实施方式中，若波形相似度大于或等于第一波形阈值且小于或等于第二波形阈值，且，音素相似度大于或等于第一音素阈值且小于或等于第二音素阈值，且，文本长度小于预设字符数，则缓存目标信号的文本序列，等待下一个目标信号到达。

结合第一方面，在第一方面第六实施方式中，若波形相似度小于第一波形阈值，或，音素相似度小于第一音素阈值，或，文本长度大于或等预设字符数，则保留目标信号的文本序列，将所述目标信号的文本序列发送给对话管理系统，以使对话管理系统对所述目标信号的文本序列进行响应。

本发明第二方面提供一种基于语音相似度的拒识装置，包括：采集模块，用于采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号；回声消除模块，用于对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号；波形相似度计算模块，用于计算目标信号和扬声器信号的波形相似度；自动语音识别模块，用于通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列；音素序列获取模块，用于根据目标信号的文本序列获取目标信号对应的目标音素序列，根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列；音素相似度计算模块，用于计算目标音素序列和扬声器音素序列的音素相似度；综合控制逻辑模块，用于执行若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值，丢弃目标信号的文本序列的步骤。

有益效果为：本发明提供的基于语音相似度的拒识装置计算目标信号和扬声器信号的波形相似度，计算目标音素序列和扬声器音素序列的音素相似度，再根据波形相似度和音素相似度与阈值的比较来确定目标信号是否为车机回声产生的干扰信号，若目标信号中含有过多的残余回声能量，通过执行本发明将其丢弃，不作为待执行指令，这样就能避免车机自身发出的声音如合成播报、导航、音乐等回声的干扰，提升用户对汽车语音交互系统的体验。

本发明第三方面提供一种计算机设备，包括，至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，从而执行第一方面及其可选实施方式中任一项的基于语音相似度的拒识方法。

本发明第四方面提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行第一方面及其可选实施方式中任一项的基于语音相似度的拒识方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式。

图1示出了本发明实施例提供的基于语音相似度的拒识方法流程图；

图2示出了本发明实施例提供的全双工语音交互结构示意图；

图3示出了本发明实施例提供的全双工车机语音交互组成示意图；

图4示出了本发明实施例提供的基于语音相似度的拒识装置的组成模块示意图；

图5示出了本发明实施例提供的一种计算机设备的硬件结构示意图；

图6示出了本发明实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明实施例提供了一种基于语音相似度的拒识方法，如图1所示，包括以下步骤：

步骤S001:采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号。

在一可选实施例中，同时打开智能座舱系统的麦克风和扬声器，通过模数变换和设备驱动采集麦克风的数字语音信号X(n)，即麦克风信号，通过回环环路获得当前播放的数字音频参考信号Y(n)，即扬声器信号，其中，n表示数字信号的时间序号。

在一可选实施例中，如图2所示，麦克风通过声电转换获取用户的声音信号，在全双工系统中，扬声器与麦克风同步工作，所以在麦克风采集的信号中不可避免会混合有扬声器播放的声音信号。

步骤S002:对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号。

在一可选实施例中，得到的待识别的目标信号，记作T(n)。

在一可选实施例中，如图2所示，对于回声消除，输入是麦克风信号X(n)和扬声器信号Y(n)，输出是减少了回声成分的目标信号T(n)，根据信号叠加原理，它们三者之间的关系是：

T(n)＝X(n)-E(n)＝X(n)-f(Y(n))

其中，E(n)表示系统的回声信号；f(Y(n))表示激励和回声之间的函数。

通过系统冲击函数和卷积运算来对f(Y(n))函数进行建模：

其中，

表示线性卷积运算；h(n)表示系统冲击响应。

可以利用自适应滤波器来求解系统冲击响应，如归一化均方误差最小法，其基本公式为：

h(n)＝min(|X(n)–E(n)|²)when C(X(n),Y(n))＝单讲

关于单讲的判断依据，可以使用X(n)、Y(n)之间的相关系数和某个阈值的比较：

单讲when R(X(n),Y(n))<γ

其中，R(X(n),Y(n))表示X和Y序列之间的相关数，γ是经验阈值，一般取0.3-0.5。

上述公式表明归一化均方误差最小法可以转化为约束条件下的最小均方最优化问题。

如果利用数值解法，得到h(n)的迭代解是：

h(n)＝h′(n)+uX(n)E(n)

其中h′(n)是上一次迭代时的冲击响应序列。

在一可选实施例中，上述介绍的是利用归一化均方误差最小法进行回声消除，除此之外，还有其他方法可以进行回声消除，如，分块频域自适应滤波器，基于神经网络的回声消除模块等，在此不再详述。

步骤S003:计算目标信号和扬声器信号的波形相似度。

在一可选实施例中，计算得到的波形相似度记作P₁。

步骤S004:通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列。

在一可选实施例中，如图2所示，自动语音识别的输入为音频波形，输出为对应的文本序列。

在一可选实施例中，目标信号的转换过程为：T_text＝ASR(T(n))，扬声器信号的转换过程为：Y_text＝ASR(Y(n))。

步骤S005:根据目标信号的文本序列获取目标信号对应的目标音素序列，根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列。

在一可选实施例中，通过查询文本-拼音字典将文本序列转换成音素序列。

在一可选实施例中，目标信号的转换过程为：T_pho＝find_dict(T_text)，扬声器信号的转换过程为：Y_pho＝find_dict(Y_text)。

步骤S006:计算目标音素序列和扬声器音素序列的音素相似度。

在一可选实施例中，如图2所示，计算得到的音素相似度记作P₂。

步骤S007:若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值，丢弃目标信号的文本序列。

在一可选实施例中，如图2所示，在综合控制逻辑中执行判断的全过程。

在一可选实施例中，若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值，则说明T_text是车内其他声音的回声信号产生的识别文本，则丢弃掉。

在一可选实施例中，第一波形阈值默认可以设置为0.75，第二波形阈值默认可以设置为0.9，第一音素阈值默认可以设置为0.7，第二音素阈值默认可以设置为0.8，当然，不同的车型由于其扬声器、麦克风的配置不同，可以根据实际需要调低或者调高到相应阈值。

在一可选实施例中，若波形相似度大于或等于第一波形阈值且小于或等于第二波形阈值，且，音素相似度大于或等于第一音素阈值且小于或等于第二音素阈值，且，文本长度小于预设字符数，则缓存目标信号的文本序列，等待下一个目标信号到达。

在一可选实施例中，预设字符数为5。

在一可选实施例中，若波形相似度大于或等于第一波形阈值且小于或等于第二波形阈值，且，音素相似度大于或等于第一音素阈值且小于或等于第二音素阈值，且，文本长度小于预设字符数，说明目标信号和扬声器信号的波形相似度中等，并且识别出来的文本发音也非常类似，此时，T_text有可能是回声产生的，但是不确定，所以缓存T_text，暂停向对话管理系统提交请求，等待下一个请求到达，将缓存的T_text与下一个到达的请求的T_text拼接起来，直到拼接起来的请求的T_text满足除了本条件外的其他条件。

在一可选实施例中，若波形相似度小于第一波形阈值，或，音素相似度小于第一音素阈值，或，文本长度大于或等于预设字符数，则保留目标信号的文本序列，将目标信号的文本序列发送给对话管理系统，以使所述对话管理系统对所述目标信号的文本序列进行响应。

在一可选实施例中，若波形相似度小于第一波形阈值，或，音素相似度小于第一音素阈值，或，文本长度大于或等于预设字符数，目标信号与扬声器信号的相似度不高且目标信号中包含较多的文本，认为此目标信号是回声导致的自识别概率低，判断目标信号为可识别请求，将目标信号的文本序列发送给对话管理系统，以使所述对话管理系统对所述目标信号的文本序列进行响应。

本发明实施例提供的基于语音相似度的拒识方法，计算目标信号和扬声器信号的波形相似度，计算目标音素序列和扬声器音素序列的音素相似度，再根据波形相似度和音素相似度与阈值的比较来确定目标信号是否为车机回声产生的干扰信号，若目标信号中含有过多的残余回声能量，通过执行本发明将其丢弃，不作为待执行指令，这样就能避免车机自身发出的声音如合成播报、导航、音乐等回声的干扰，提升用户对汽车语音交互系统的体验。

在一可选实施例中，采用平滑频点能量序列的相关系数运算得到目标信号和扬声器信号的波形相似度。

在一可选实施例中，为了提高运算效率，首先使用快速傅里叶变换将目标信号和扬声器信号转换到频域表示：

TF(m,k)＝fft(T(n...n+L))，

YF(m,k)＝fft(Y(n...n+L))；

其中，m表示帧序号，k表示频点序号，L代表帧长。

计算目标信号和扬声器信号的平滑频点能量：

S_TFE(m,k)＝α*S_TFE(m-1,k)+(1–α)*|TF(m,k)|²，

S_YFE(m,k)＝α*S_YFE(m-1,k)+(1–α)*|YF(m.k)|²；

其中，m表示帧序号，k表示频点序号，α表示平滑系数，实验发现，α取0.95-0.99之间取得较好的效果。

通过平滑频点能量序列的相关系数运算和之前帧的波形相似度P1(m-1)求出当前帧的波形相似度P1(m)：

其中，P1(m-1)为之前帧的波形相似度；β是平滑系数，β取0.8-0.95之间取得较好的效果；S_TFE(m,k)为目标信号的平滑频点能量；

S_YFE(m,k)为扬声器信号的平滑频点能量。

在一可选实施例中，通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列步骤之前，还包括以下步骤：对目标信号进行语音端点检测，若目标信号为静音帧，则丢弃，若目标信号为含有人声的信号，则执行自动语音识别获取目标信号的文本序列和扬声器信号的文本序列的步骤。

在一可选实施例中，为了降低自动语音识别的复杂度，在把音频送给语音识别之前，先将目标语音信号送给语音端点检测，若目标信号为静音帧，则丢弃，若目标信号为含有人声的信号，则进行自动语音识别，也就是说，只有包含有人声的目标语音段会被送到自动语音识别处理。

在一可选实施例中，采用利用位置发音加权的最小编辑距离方法计算目标音素序列和扬声器音素序列的音素相似度。

在一可选实施例中，需要求解两个音素序列T_pho和Y_pho的发音相似度。有很多方法可以表示两个序列之间的发音相似度，如最小编辑距离，基于MFCC特征的曼哈顿距离，神经网络等。为了计算方便，本专利提出一种利用位置发音加权的最小编辑距离方法。

在一可选实施例中，最小编辑距离方法步骤为：

首先，定义Tp(i)表示目标音素序列T_pho的第i个音素，Yp(j)表示Y_pho的第j个音素序列，d(i,j)表示T_pho的前i个音素序列和Y_pho的前j个音素序列的最小编辑距离；

其次，根据动态规划法，有以下递推公式：

在以上公式中，d(i,0)和d(0,j)构成边界条件，分别表示当T_pho前i个元素和Y_pho前j个元素时的编辑距离，特别的，不妨令d(0,0)＝0.ω(k)表示音素在序列不同位置具有的权重，θ(·)表示某个音素自身的能量权重。

对于原始的最小编辑距离算法而言，ω(k)＝1，θ(·)＝1，针对本发明应用场景的不同，ω(k)是一个随着k的增大，而指数衰减的序列：

ω(k)＝2^-ak+0.1for k＝1...m；

其中，a是调整衰简率的因子，m是音素序列的长度，在本发明实施例中，推荐的最佳a为0.25，m<20.

最后，θ(·)是相应音素的权重因子。在本发明实施例中，θ(·)的值建议与相应语言中对应音素发音的平均时长和发音能量正相关。本发明实施例提供一种简化的权重选择表如下所示。

声母	b	p	m	f	d	t	n	l
									权重	1.25	1.25	1.1	1.05	0.2	0.2	1	1
声母	g	k	h	j	q	x	zh	ch
									权重	1.2	1.2	1.15	1.2	1.2	1.15	1.25	1.25
声母	sh	r	z	c	s	y	w
									权重	1.25	1.1	1.2	1.2	1.1	1.15	1.2

通过以上步骤，求出目标语音音素序列T_pho，参考语音音素序列Y_pho的对应最小编辑距离d(m,n)，其中m为目标信号音素序列的长度，n为扬声器信号音素序列的长度，而音素序列的相似度和最小编辑距离是反比关系，通过以下公式求得音素相似度P₂：

在一可选实施例中，如图3所示，示例性地，全双工车机语音交互过程中，可以是如下配置：麦克风、扬声器作为智能座舱控制平台的外设，而CDC是由存储器、中央处理器以及相应外设构成的车载电脑结构。由于受价格、技术限制，车机本地的运算能力可能不够，所以完整的车载人机对话系统还包括云端的对话管理系统，以及实现车载电脑和云端服务通信的车联网通信设施。声学回声消除、语音活动端点检测、本发明实施例所提的拒识逻辑、音效控制、文本-语音转换作为软件模块集成在CDC中。

本发明实施例还提供一种基于语音相似度的拒识装置，如图4所示，包括：

采集模块401，采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号，详细内容参见上述实施例中步骤S001的描述，在此不再赘述。

回声消除模块402，用于对麦克风信号和扬声器信号进行回声消除得到待识别的目标信号，详细内容参见上述实施例中步骤S002的描述，在此不再赘述。

波形相似度计算模块403，用于计算目标信号和扬声器信号的波形相似度，详细内容参见上述实施例中步骤S003的描述，在此不再赘述。

自动语音识别模块404，用于通过自动语音识别获取目标信号的文本序列和扬声器信号的文本序列，详细内容参见上述实施例中步骤S004的描述，在此不再赘述。

音素序列获取模块405，用于根据目标信号的文本序列获取目标信号对应的目标音素序列，根据扬声器信号的文本序列获取扬声器信号对应的扬声器音素序列，详细内容参见上述实施例中步骤S005的描述，在此不再赘述。

音素相似度计算模块406，用于计算目标音素序列和扬声器音素序列的音素相似度，详细内容参见上述实施例中步骤S006的描述，在此不再赘述。

综合控制逻辑模块407，用于执行若波形相似度大于或等于第二波形阈值或音素相似度大于或等于第二音素阈值，丢弃目标信号的文本序列的步骤，详细内容参见上述实施例中步骤S007的描述，在此不再赘述。

本发明实施例提供的基于语音相似度的拒识装置，计算目标信号和扬声器信号的波形相似度，计算目标音素序列和扬声器音素序列的音素相似度，再根据波形相似度和音素相似度与阈值的比较来确定目标信号是否为车机回声产生的干扰信号，若目标信号中含有过多的残余回声能量，通过执行本发明将其丢弃，不作为待执行指令，这样就能避免车机自身发出的声音如合成播报、导航、音乐等回声的干扰，提升用户对汽车语音交互系统的体验。

本发明实施例还提供一种计算机设备，如图5是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。

如图5所示，该设备包括一个或多个处理器501以及存储器502，存储器502包括持久内存、易失内存和硬盘，图5中以一个处理器501为例。该设备还可以包括：输入装置503和输出装置504。

处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器501可以为中央处理器(Central Processing Unit，CPU)。处理器501还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器502作为一种非暂态计算机可读存储介质，包括持久内存、易失内存和硬盘，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的业务管理方法对应的程序指令模块。处理器501通过运行存储在存储器502中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述任意一种基于语音相似度的拒识方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据、需要使用的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置503可接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键信号输入。输出装置504可包括显示屏等显示设备。

一个或者多个模块存储在存储器502中，当被一个或者多个处理器501执行时，执行如图1所示的方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，具体可参见如图1所示的实施例中的相关描述。

本发明实施例还提供了一种计算机可读存储介质，如图6所示，计算机可读存储介质中存储有计算机可执行指令601，该计算机可执行指令601可执行上述任意方法实施例中的基于语音相似度的拒识方法。

存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于语音相似度的拒识方法，其特征在于，包括：

采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号；

对所述麦克风信号和所述扬声器信号进行回声消除得到待识别的目标信号；

计算所述目标信号和所述扬声器信号的波形相似度；

通过自动语音识别获取所述目标信号的文本序列和所述扬声器信号的文本序列；

根据所述目标信号的文本序列获取所述目标信号对应的目标音素序列，根据所述扬声器信号的文本序列获取所述扬声器信号对应的扬声器音素序列；

计算所述目标音素序列和所述扬声器音素序列的音素相似度；

若所述波形相似度大于或等于第二波形阈值或所述音素相似度大于或等于第二音素阈值，丢弃所述目标信号的文本序列。

2.根据权利要求1所述的基于语音相似度的拒识方法，其特征在于，包括：

采用平滑频点能量序列的相关系数运算得到所述目标信号和所述扬声器信号的波形相似度。

3.根据权利要求1或2所述的基于语音相似度的拒识方法，其特征在于，通过自动语音识别获取所述目标信号的文本序列和所述扬声器信号的文本序列步骤之前，还包括以下步骤：

对所述目标信号进行语音端点检测，若所述目标信号为静音帧，则丢弃，若所述目标信号为含有人声的信号，则执行自动语音识别获取所述目标信号的文本序列和所述扬声器信号的文本序列的步骤。

4.根据权利要求1所述的基于语音相似度的拒识方法，其特征在于，

通过查询文本-拼音字典将文本序列转换为音素序列。

5.根据权利要求1所述的基于语音相似度的拒识方法，其特征在于，包括：

采用位置发音加权的最小编辑距离方法计算所述目标音素序列和所述扬声器音素序列的音素相似度。

6.根据权利要求1所述的基于语音相似度的拒识方法，其特征在于，包括：

若所述波形相似度大于或等于第一波形阈值且小于或等于第二波形阈值，且，所述音素相似度大于或等于第一音素阈值且小于或等于第二音素阈值，且，文本长度小于预设字符数，则缓存所述目标信号的文本序列，等待下一个目标信号到达。

7.根据权利要求6所述的基于语音相似度的拒识方法，其特征在于，包括：

若所述波形相似度小于第一波形阈值，或，所述音素相似度小于第一音素阈值，或，文本长度大于或等于预设字符数，则保留所述目标信号的文本序列，将所述目标信号的文本序列发送给对话管理系统，以使所述对话管理系统对所述目标信号的文本序列进行响应。

8.一种基于语音相似度的拒识装置，其特征在于，包括：

采集模块，用于采集麦克风和扬声器同时开启时的麦克风信号和扬声器信号；

回声消除模块，用于对所述麦克风信号和所述扬声器信号进行回声消除得到待识别的目标信号；

波形相似度计算模块，用于计算所述目标信号和所述扬声器信号的波形相似度；

自动语音识别模块，用于通过自动语音识别获取所述目标信号的文本序列和所述扬声器信号的文本序列；

音素序列获取模块，用于根据所述目标信号的文本序列获取所述目标信号对应的目标音素序列，根据所述扬声器信号的文本序列获取所述扬声器信号对应的扬声器音素序列；

音素相似度计算模块，用于计算所述目标音素序列和所述扬声器音素序列的音素相似度；

综合控制逻辑模块，用于执行若所述波形相似度大于或等于第二波形阈值或所述音素相似度大于或等于第二音素阈值，丢弃所述目标信号的文本序列的步骤。

9.一种计算机设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，从而执行如权利要求1-7中任一项所述的基于语音相似度的拒识方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-7中任一项所述的基于语音相似度的拒识方法。