CN110970027A

CN110970027A - 一种语音识别方法、装置、计算机存储介质及系统

Info

Publication number: CN110970027A
Application number: CN201911355864.4A
Authority: CN
Inventors: 应宜伦
Original assignee: Shanghai Pateo Electronic Equipment Manufacturing Co Ltd
Current assignee: Pateo Connect and Technology Shanghai Corp
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-04-07
Anticipated expiration: 2039-12-25
Also published as: CN110970027B

Abstract

本发明公开了一种语音识别方法、装置、计算机存储介质及系统，所述语音识别方法包括：获取到包含预设关键字的语音信息后，对所述语音信息与终端正在播放的音频数据进行相似性检测；根据检测结果确定所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息。本发明提供的语音识别方法、装置、计算机存储介质及系统，在获取到包含预设关键字的语音信息后，对所述语音信息与终端正在播放的音频数据进行相似性检测，以在检测出所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息，从而能够有效减少语音误识别的情况，提高语音识别的准确率。

Description

一种语音识别方法、装置、计算机存储介质及系统

技术领域

本发明涉及车辆领域，特别是涉及一种语音识别方法、装置、计算机存储介质及系统。

背景技术

随着语音识别技术的发展，用户可以对车辆进行语音控制，即车辆通过识别用户的语音，执行对应的指令。相关技术中，车辆在开启语音识别功能后，对采集到的语音进行关键字识别，并根据获得的所述语音是否包含关键字的识别结果相应对所述语音进行处理。然而，车辆在开启语音识别功能时，若车辆内的终端同时正在播放音频数据，则可能存在终端正在播放的音频数据包含关键字的情况，容易造成语音误识别，降低语音识别的准确率。

发明内容

本发明的目的在于提供一种语音识别方法、装置、计算机存储介质及系统，能够减少语音误识别的情况，提高语音识别的准确率。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种语音识别方法，所述语音识别方法包括：

获取到包含预设关键字的语音信息后，对所述语音信息与终端正在播放的音频数据进行相似性检测；

根据检测结果确定所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息。

作为其中一种实施方式，所述对所述语音信息与终端正在播放的音频数据进行相似性检测，包括：

对所述语音信息与终端正在播放的音频数据进行音频属性相似性检测，以检测所述语音信息的音频属性和所述终端正在播放的音频数据的音频属性是否相似。

作为其中一种实施方式，所述音频属性包括以下至少一种：声纹、声音的频率和声音响度的比例。

识别所述终端正在播放的音频数据，获取与所述终端正在播放的音频数据对应的多媒体文件；

检测所述语音信息是否为所述多媒体文件中的部分内容，若是，则说明所述语音信息与所述终端正在播放的音频数据具有相似性。

作为其中一种实施方式，应用于云端服务器，所述获取到包含预设关键字的语音信息之前或之后，还包括：

接收终端发送的所述终端录制的所述终端正在播放的音频数据。

作为其中一种实施方式，所述对所述语音信息与终端正在播放的音频数据进行相似性检测之后，还包括：

根据检测结果确定所述语音信息与所述终端正在播放的音频数据不具有相似性时，执行与所述语音信息相关的操作。

作为其中一种实施方式，所述执行与所述语音信息相关的操作，包括：

根据所述语音信息包含的关键字查询设置的关键字与控制指令之间的对应关系，获取与所述语音信息包含的关键字对应的控制指令；

向所述终端发送所述与所述语音信息包含的关键字对应的控制指令。

第二方面，本发明实施例提供了一种语音识别装置，所述语音识别装置包括处理器以及用于存储程序的存储装置；当所述程序被所述处理器执行，使得所述处理器实现第一方面所述的语音识别方法。

第三方面，本发明实施例提供了一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面所述的语音识别方法。

第四方面，本发明实施例提供了一种语音识别系统，包括：终端和云端服务器；其中，

所述终端，用于采集语音信息，并将所述语音信息发送给所述云端服务器；

所述云端服务器，用于对所述语音信息进行识别，并在识别出所述语音信息包含预设关键字时，对所述语音信息与终端正在播放的音频数据进行相似性检测，以及根据检测结果确定所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息。

本发明实施例提供的语音识别方法、装置、计算机存储介质及系统，所述语音识别方法包括：获取到包含预设关键字的语音信息后，对所述语音信息与终端正在播放的音频数据进行相似性检测；根据检测结果确定所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息。如此，在获取到包含预设关键字的语音信息后，对所述语音信息与终端正在播放的音频数据进行相似性检测，以在检测出所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息，从而能够有效减少语音误识别的情况，提高语音识别的准确率。

附图说明

图1为本发明实施例提供的一种语音识别方法的流程示意图；

图2为本发明实施例提供的一种语音识别装置的结构示意图；

图3为本发明实施例提供的一种语音识别系统的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

参见图1，为本发明实施例提供的一种语音识别方法，该语音识别方法可以由本发明实施例提供的一种语音识别装置来执行，该语音识别装置可以采用软件和/或硬件的方式来实现，在具体应用中，该语音识别装置可以具体是手机、车机等终端或者云端服务器。本实施例中以所述语音识别方法的执行主体为终端且所述终端为车载终端为例，该语音识别方法包括以下步骤：

步骤S101：获取到包含预设关键字的语音信息后，对所述语音信息与终端正在播放的音频数据进行相似性检测；

这里，所述获取到包含预设关键字的语音信息，可以是车载终端基于车辆内的声音采集装置如麦克风实时采集车辆内的语音信息，并识别所述语音信息是否包含预设关键字。可以理解地，所述车载终端与车辆的麦克风连接，以通过车辆的麦克风实时采集车辆内的语音信息，所述车辆内的语音信息可能是用户在车辆内发出的语音信息，也可能是车载终端或移动终端如手机正在播放的音频数据。为了精准的采集用户在车辆内发出的语音信息，所述车辆的麦克风可以设置于位于车辆座位上方的车辆顶部位置，也可以设置于位于车辆座位两旁的车辆侧部位置。此外，所述车载终端中也可设置麦克风，以直接实时采集用户在车辆内发出的语音信息。所述预设关键字可以是预先设置的且不同的关键字对应不同的控制指令，例如，当获取到预设关键字“好冷”，则对应的控制指令为“打开空调”；当获取到预设关键字“听歌”，则对应的控制指令为“打开多媒体播放器”等。可以理解地，当车机或手机等终端正在播放音频数据时，会对车载终端获取的语音信息造成干扰，即获取到的包含预设关键字的语音信息可能来自于用户在车辆内发出的语音信息，也可能来自于终端正在播放的音频数据。因此，需要对所述语音信息与终端正在播放的音频数据进行相似性检测，以检测所述语音信息是否与终端正在播放的音频数据具有相似性，减少语音误识别的情况。

需要说明的是，由同一声源所发出的声音之间具有相似性，比如声纹相似或频率相似等。在一实施方式中，所述对所述语音信息与终端正在播放的音频数据进行相似性检测，包括：对所述语音信息与终端正在播放的音频数据进行音频属性相似性检测，以检测所述语音信息的音频属性和所述终端正在播放的音频数据的音频属性是否相似。

这里，以终端位于车辆内为例，所述终端正在播放的音频数据可以是车机正在播放的音频数据，也可以是用户的移动终端正在播放的音频数据。所述语音信息的音频属性与终端正在播放的音频数据的音频属性是否相似，可以是将计算获得的所述语音信息的音频属性与终端正在播放的音频数据的音频属性之间的相似性值和设定的相似性阈值进行比较，若所述相似性值大于或等于所述相似性阈值，则判定所述语音信息与终端正在播放的音频数据具有相似性，否则，判定所述语音信息与终端正在播放的音频数据不具有相似性。具体地，所述音频属性包括以下至少一种：声纹、声音的频率和声音响度的比例。这里，声纹是对语音中所蕴含的、能唯一表征和标识说话人身份的特征参数，而声纹识别则是根据某段语音识别说话人身份的过程，也就是说它是一项根据语音波形中所蕴涵的说话人信息，自动识别说话人身份的技术。声纹是人的生物个性特征，很难找到两个声纹完全一样的人，因此，每个人的声纹都不相同，能够用于识别用户。当所述语音信息和所述终端正在播放的音频数据中包含同一声纹时，可以认为所述语音信息与所述终端正在播放的音频数据之间存在相关关系，比如所述语音信息可能是所述终端正在播放的音频数据的部分数据或所述语音信息和所述终端正在播放的音频数据都是由同一个人发出的，此时认为所述语音信息与所述终端正在播放的音频数据具有相似性。声音的频率决定了音调的高低，频率越快，音调越高；频率越慢，音调越低。例如，音符中的1234567听起来不同就是因为频率不同造成的音调不同。声音的响度由振幅决定，振幅越大，响度越大；振幅越小，响度越小。例如，说话越大声，即声音的响度越大。若所述语音信息和所述终端正在播放的音频数据都是由同一个人发出的，或者所述终端正在播放的音频数据的部分数据，此时所述语音信息的频率与所述终端正在播放的音频数据的频率应该基本相同或近似，所述语音信息的响度的比例与所述终端正在播放的音频数据的响度的比例也应该基本相同或近似，因此，可以根据声音的频率和声音响度的比例检测所述语音信息和终端正在播放的音频数据是否具有相似性。如此，通过检测所述语音信息的音频属性和所述终端正在播放的音频数据的音频属性是否相似，以检测所述语音信息与所述终端正在播放的音频数据是否具有相似性，操作便捷且准确率高，进一步提升了语音识别的准确率。

在一实施方式中，所述对所述语音信息与终端正在播放的音频数据进行相似性检测，包括：

可以理解地，若所述语音信息是所述终端正在播放的音频数据对应的多媒体文件中的部分内容，比如所述语音信息是车机正在播放的歌曲中的一部分歌词，此时说明所述语音信息与所述终端正在播放的音频数据具有相似性，不应对所述语音信息执行相应操作。这里，所述识别所述终端正在播放的音频数据，获取与所述终端正在播放的音频数据对应的多媒体文件，可以是先将所述终端正在播放的音频数据转换为文字，再根据所述文字获取对应的多媒体文件。以现有的听歌识曲技术为例，听歌识曲是音频指纹检索中的一种技术，是人工智能领域自动内容识别技术的核心算法，与语音识别将一段用户的语音转化为文字不同，音频指纹技术不区分语言，是一种声音对声音的精确检索。音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字签名，其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量。大量音频数据的指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中，并采用指纹作为相应元数据的索引。当要识别一段未知音频时，首先按照指纹提取算法计算其音频特征，然后和数据库中存储的大量音频指纹相比对从而进行识别。一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本。若识别到对应的原始指纹，则可提取出相应的元数据信息返回给终端。以所述终端正在播放的音频数据为歌曲为例，所述获取与所述终端正在播放的音频数据对应的多媒体文件可以是获取终端正在播放的歌曲的歌词、作者、曲谱等。相应的，所述检测所述语音信息是否为所述多媒体文件中的部分内容，可以是检测所述语音信息是否为该歌曲的部分歌词等。例如，假设车辆的车机正在播放歌曲《雪人》，若车机采集到包含预设关键词“好冷”的语音信息，由于歌曲《雪人》中包含歌词“好冷”，此时可以认为所述语音信息与所述终端正在播放的音频数据具有相似性。如此，通过获取与终端正在播放的音频数据对应的多媒体文件，并检测所述语音信息是否为所述多媒体文件中的部分内容，以检测所述语音信息与所述终端正在播放的音频数据是否具有相似性，操作便捷且准确率高，进一步提升了语音识别的准确率。

在一实施方式中，所述语音识别方法应用于云端服务器，所述获取到包含预设关键字的语音信息之前或之后，还包括：接收终端发送的所述终端录制的所述终端正在播放的音频数据。

可以理解地，所述云端服务器接收终端发送的所述终端录制的所述终端正在播放的音频数据可以是在云端服务器获取到包含预设关键字的语音信息之前，可以是在云端服务器获取到包含预设关键字的语音信息之时，也可以是在云端服务器获取到包含预设关键字的语音信息之后。也就是说，所述终端向云端服务器发送所述终端录制的所述终端正在播放的音频数据，可以是在向云端服务器发送包含预设关键字的语音信息之前，可以是在向云端服务器发送包含预设关键字的语音信息的同时，也可以是在向云端服务器发送包含预设关键字的语音信息之后。这里，所述车载终端可以录制一预设时长如十秒、二十秒内的所述车载终端正在播放的音频数据，然后发送给云端服务器。

步骤S102：根据检测结果确定所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息。

需要说明的是，所述检测结果包括所述语音信息与所述终端正在播放的音频数据之间是否具有相似性。当根据检测结果确定所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息，即不响应所述语音信息。如此，通过忽略与终端正在播放的音频数据具有相似性的语音信息，能够减少语音误识别的情况。当根据检测结果确定所述语音信息与所述终端正在播放的音频数据不具有相似性时，执行与所述语音信息相关的操作，即响应所述语音信息，从而对终端进行相应操作。

需要说明的是，当所述语音识别方法的执行主体为云端服务器时，云端服务器可以实时接收终端发送的语音信息和/或终端正在播放的音频数据，并将经过语音识别处理后获得的语音识别结果向所述终端发送，以由终端根据所述语音识别结果执行相关操作。或者，云端服务器也可以根据语音识别结果向所述终端发送对应的操作指令，如在检测出所述语音信息与所述终端正在播放的音频数据具有相似性时，向所述终端发送忽略所述语音信息的指令；在检测出所述语音信息与所述终端正在播放的音频数据不具有相似性时，向所述终端发送所述语音信息对应的控制指令。

综上，上述实施例提供的语音识别方法中，在获取到包含预设关键字的语音信息后，对所述语音信息与终端正在播放的音频数据进行相似性检测，以在检测出所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息，从而能够有效减少语音误识别的情况，提高语音识别的准确率。

在一实施方式中，所述执行与所述语音信息相关的操作，包括：

这里，所述终端或云端服务器中可预先设置并存储有不同预设关键字与控制指令之间的对应关系，例如，预设关键字“好冷”对应的控制指令为“打开空调”，预设关键字“听歌”对应的控制指令为“打开多媒体播放器”等，以实现根据关键字可查询该对应关系获得对应的控制指令。这里，若云端服务器根据所述语音信息获取到与所述语音信息包含的关键字对应的控制指令，则将所述控制指令发送给终端，以由终端执行所述控制指令。如此，通过查询设置的关键字与控制指令之间的对应关系以获取语音信息对应的控制指令，处理速度快，进一步提升了用户使用体验。

下面通过一具体示例对前述实施例提供的语音识别方法进行具体说明，在车辆内的语音识别设备如车机播放多媒体时，将该多媒体的音频数据同时发送至车机的语音识别模块。语音识别模块在判断出用户在车内发出的语音信息包含关键字时，同时比较该关键字与多媒体播放的音频数据的声纹、声音的频率和声音响度的比例是否存在相似性。如果存在相似性，则判断该关键字为车辆内播放的多媒体的音频数据，忽略包含该关键字的语音信息；如果不存在相似性，则判断该关键字与车辆内播放的多媒体的音频数据无关，将出现该关键字的部分语音信息上传至语音识别的云端服务器，以由云端服务器判断出现该关键字的特征语音部分是否与现有的多媒体曲库等信息库一致。如果一致，则判断该关键字是车辆内多媒体播放的音频文件，忽略包含该关键字的语音信息。如此，在获取到包含预设关键字的语音信息后，对所述语音信息与终端正在播放的音频数据进行相似性检测，以在检测出所述语音信息与所述终端正在播放的音频数据具有相似性时，忽略所述语音信息，从而能够有效减少语音误识别的情况，提高语音识别的准确率

基于前述实施例相同的发明构思，本发明实施例提供了一种语音识别装置，该语音识别装置可以是终端或云端服务器等，如图2所示，该语音识别装置包括：处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111；其中，图2中示意的处理器110并非用于指代处理器110的个数为一个，而是仅用于指代处理器110相对其他器件的位置关系，在实际应用中，处理器110的个数可以为一个或多个；同样，图2中示意的存储器111也是同样的含义，即仅用于指代存储器111相对其他器件的位置关系，在实际应用中，存储器111的个数可以为一个或多个。所述处理器110用于运行所述计算机程序时，实现应用于上述语音识别装置的所述语音识别方法。

该语音识别装置还可包括：至少一个网络接口112。该语音识别装置中的各个组件通过总线系统113耦合在一起。可理解，总线系统113用于实现这些组件之间的连接通信。总线系统113除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统113。

其中，存储器111可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器111旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器111用于存储各种类型的数据以支持该语音识别装置的操作。这些数据的示例包括：用于在该语音识别装置上操作的任何计算机程序，如操作系统和应用程序；联系人数据；电话簿数据；消息；图片；视频等。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。这里，实现本发明实施例方法的程序可以包含在应用程序中。

基于前述实施例相同的发明构思，本实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，计算机存储介质可以是磁性随机存取存储器(FRAM，ferromagnetic random access memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储的计算机程序被处理器运行时，实现应用于上述语音识别装置的所述语音识别方法。所述计算机程序被处理器执行时实现的具体步骤流程请参考图1所示实施例的描述，在此不再赘述。

参见图3，为本发明实施例提供的一种语音识别系统，包括终端10和云端服务器11；其中，

所述终端10，用于采集语音信息，并将所述语音信息发送给所述云端服务器11；

所述云端服务器11，用于对所述语音信息进行识别，并在识别出所述语音信息包含预设关键字时，对所述语音信息与所述终端10正在播放的音频数据进行相似性检测，以及根据检测结果确定所述语音信息与所述终端10正在播放的音频数据具有相似性时，忽略所述语音信息。

本实施例中以所述终端为车载终端为例进行说明，需要说明的是，所述云端服务器11能够通过无线通信技术对信息网络平台中的所有车辆动态信息进行有效利用，在车辆运行中提供不同的功能服务，所述云端服务器11在功能上要能够实现车与云平台、车与车、车与路、车与人、车内等全方位网络链接。所述终端10可包括车机等车载终端，还可包括手机、平板电脑等移动终端设备。可以理解地，所述终端10与车辆的麦克风连接，以通过车辆的麦克风实时采集车辆内的语音信息，所述车辆内的语音信息可能是用户在车辆内发出的语音信息，也可能是所述终端10或移动终端如手机正在播放的音频数据。为了精准的采集用户在车辆内发出的语音信息，所述车辆的麦克风可以设置于位于车辆座位上方的车辆顶部位置，也可以设置于位于车辆座位两旁的车辆侧部位置。此外，所述终端10中也可设置麦克风，以直接实时采集用户在车辆内发出的语音信息。所述预设关键字可以是预先设置的且不同的关键字对应不同的控制指令，例如，当获取到预设关键字“好冷”，则对应的控制指令为“打开空调”；当获取到预设关键字“听歌”，则对应的控制指令为“打开多媒体播放器”等。可以理解地，当车机或手机等终端正在播放音频数据时，会对所述终端10获取的语音信息造成干扰，即获取到的包含预设关键字的语音信息可能来自于用户在车辆内发出的语音信息，也可能来自于所述终端10正在播放的音频数据。因此，需要对所述语音信息与所述终端10正在播放的音频数据进行相似性检测，以减少语音误识别的情况。

需要说明的是，由同一声源所发出的声音之间具有相似性，比如声纹相似或频率相似等。在一实施例中，所述云端服务器11对所述语音信息与所述终端10正在播放的音频数据进行相似性检测，包括：所述云端服务器11对所述语音信息与所述终端10正在播放的音频数据进行音频属性相似性检测，以检测所述语音信息的音频属性和所述终端10正在播放的音频数据的音频属性是否相似。

这里，以所述终端10位于车辆内为例，所述终端10正在播放的音频数据可以是车机正在播放的音频数据，也可以是用户的移动终端正在播放的音频数据。所述语音信息的音频属性与所述终端10正在播放的音频数据的音频属性是否相似，可以是将计算获得的所述语音信息的音频属性与所述终端10正在播放的音频数据的音频属性之间的相似性值和设定的相似性阈值进行比较，若所述相似性值大于或等于所述相似性阈值，则判定所述语音信息与所述终端10正在播放的音频数据具有相似性，否则，判定所述语音信息与所述终端10正在播放的音频数据不具有相似性。具体地，所述音频属性包括以下至少一种：声纹、声音的频率和声音响度的比例。这里，声纹是对语音中所蕴含的、能唯一表征和标识说话人身份的特征参数，而声纹识别则是根据某段语音识别说话人身份的过程，也就是说它是一项根据语音波形中所蕴涵的说话人信息，自动识别说话人身份的技术。声纹是人的生物个性特征，很难找到两个声纹完全一样的人，因此，每个人的声纹都不相同，能够用于识别用户。当所述语音信息和所述终端10正在播放的音频数据中包含同一声纹时，可以认为所述语音信息与所述终端10正在播放的音频数据之间存在相关关系，比如所述语音信息可能是所述终端10正在播放的音频数据的部分数据或所述语音信息和所述终端10正在播放的音频数据都是由同一个人发出的，此时认为所述语音信息与所述终端10正在播放的音频数据具有相似性。声音的频率决定了音调的高低，频率越快，音调越高；频率越慢，音调越低。例如，音符中的1234567听起来不同就是因为频率不同造成的音调不同。声音的响度由振幅决定，振幅越大，响度越大；振幅越小，响度越小。例如，说话越大声，即声音的响度越大。若所述语音信息和所述终端10正在播放的音频数据都是由同一个人发出的，或者所述终端10正在播放的音频数据的部分数据，此时所述语音信息的频率与所述终端10正在播放的音频数据的频率应该基本相同或近似，所述语音信息的响度的比例与所述终端10正在播放的音频数据的响度的比例也应该基本相同或近似，因此，可以根据声音的频率和声音响度的比例检测所述语音信息和所述终端10正在播放的音频数据是否具有相似性。如此，通过检测所述语音信息的音频属性和所述终端10正在播放的音频数据的音频属性是否相似，以检测所述语音信息与所述终端10正在播放的音频数据是否具有相似性，操作便捷且准确率高，进一步提升了语音识别的准确率。

在一实施例中，所述对所述语音信息与所述终端10正在播放的音频数据进行相似性检测，包括：

识别所述终端10正在播放的音频数据，获取与所述终端10正在播放的音频数据对应的多媒体文件；

检测所述语音信息是否为所述多媒体文件中的部分内容，若是，则说明所述语音信息与所述终端10正在播放的音频数据具有相似性。

可以理解地，若所述语音信息是所述终端10正在播放的音频数据对应的多媒体文件中的部分内容，比如所述语音信息是车机正在播放的歌曲中的一部分歌词，此时说明所述语音信息与所述终端10正在播放的音频数据具有相似性，不应对所述语音信息执行相应操作。这里，所述识别所述终端10正在播放的音频数据，获取与所述终端10正在播放的音频数据对应的多媒体文件，可以是先将所述终端10正在播放的音频数据转换为文字，再根据所述文字获取对应的多媒体文件。以现有的听歌识曲技术为例，听歌识曲是音频指纹检索中的一种技术，是人工智能领域自动内容识别技术的核心算法，与语音识别将一段用户的语音转化为文字不同，音频指纹技术不区分语言，是一种声音对声音的精确检索。音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字签名，其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量。大量音频数据的指纹和其相应的元数据比如歌曲名称、词曲作者、歌词等内容一起存储在一个数据库中，并采用指纹作为相应元数据的索引。当要识别一段未知音频时，首先按照指纹提取算法计算其音频特征，然后和数据库中存储的大量音频指纹相比对从而进行识别。一个有效的指纹提取算法和指纹比对算法能够在数据库中正确识别出可能经受各种信号处理失真的未知音频的原始版本。若识别到对应的原始指纹，则可提取出相应的元数据信息返回给所述终端10。以所述终端10正在播放的音频数据为歌曲为例，所述获取与所述终端10正在播放的音频数据对应的多媒体文件可以是获取所述终端10正在播放的歌曲的歌词、作者、曲谱等。相应的，所述检测所述语音信息是否为所述多媒体文件中的部分内容，可以是检测所述语音信息是否为该歌曲的部分歌词等。例如，假设车辆的车机正在播放歌曲《雪人》，若车机采集到包含预设关键词“好冷”的语音信息，由于歌曲《雪人》中包含歌词“好冷”，此时可以认为所述语音信息与所述终端10正在播放的音频数据具有相似性。如此，通过获取与所述终端10正在播放的音频数据对应的多媒体文件，并检测所述语音信息是否为所述多媒体文件中的部分内容，以检测所述语音信息与所述终端10正在播放的音频数据是否具有相似性，操作便捷且准确率高，进一步提升了语音识别的准确率。

在一实施例中，所述获取到包含预设关键字的语音信息之前或之后，还包括：接收所述终端10发送的所述终端10录制的所述终端10正在播放的音频数据。

可以理解地，所述云端服务器11接收所述终端10发送的所述终端10录制的所述终端10正在播放的音频数据可以是在所述云端服务器11获取到包含预设关键字的语音信息之前，可以是在所述云端服务器11获取到包含预设关键字的语音信息之时，也可以是在所述云端服务器11获取到包含预设关键字的语音信息之后。也就是说，所述终端10向所述云端服务器11发送所述终端10录制的所述终端10正在播放的音频数据，可以是在向所述云端服务器11发送包含预设关键字的语音信息之前，可以是在向所述云端服务器11发送包含预设关键字的语音信息的同时，也可以是在向所述云端服务器11发送包含预设关键字的语音信息之后。

在一实施例中，所述云端服务器11，还用于根据检测结果确定所述语音信息与所述终端10正在播放的音频数据不具有相似性时，执行与所述语音信息相关的操作。

需要说明的是，当根据检测结果确定所述语音信息与所述终端10正在播放的音频数据不具有相似性时，所述云端服务器11执行与所述语音信息相关的操作，即响应所述语音信息，从而对所述终端10进行相应操作。

需要说明的是，当所述语音识别方法的执行主体为所述云端服务器11时，所述云端服务器11可以实时接收所述终端10发送的语音信息和/或所述终端10正在播放的音频数据，并将经过语音识别处理后获得的语音识别结果向所述终端10发送，以由所述终端10根据所述语音识别结果执行相关操作。

在一实施例中，所述云端服务器11执行与所述语音信息相关的操作，包括：

向所述终端10发送所述与所述语音信息包含的关键字对应的控制指令。

这里，所述云端服务器11中可预先设置并存储有不同预设关键字与控制指令之间的对应关系，例如，预设关键字“好冷”对应的控制指令为“打开空调”，预设关键字“听歌”对应的控制指令为“打开多媒体播放器”等，以实现根据关键字可查询该对应关系获得对应的控制指令。这里，若所述云端服务器11根据所述语音信息获取到与所述语音信息包含的关键字对应的控制指令，则将所述控制指令发送给所述终端10，以由所述终端10执行所述控制指令。如此，通过查询设置的关键字与控制指令之间的对应关系以获取语音信息对应的控制指令，处理速度快，进一步提升了用户使用体验。

综上，上述实施例提供的语音识别系统中，所述云端服务器11获取到包含预设关键字的语音信息后，对所述语音信息与所述终端10正在播放的音频数据进行相似性检测，再根据检测结果确定所述语音信息与所述终端10正在播放的音频数据具有相似性时，忽略所述语音信息。如此，在获取到包含预设关键字的语音信息后，对所述语音信息与所述终端10正在播放的音频数据进行相似性检测，以在检测出所述语音信息与所述终端10正在播放的音频数据具有相似性时，忽略所述语音信息，从而能够有效减少语音误识别的情况，提高语音识别的准确率。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述对所述语音信息与终端正在播放的音频数据进行相似性检测，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述音频属性包括以下至少一种：声纹、声音的频率和声音响度的比例。

4.根据权利要求1所述的语音识别方法，其特征在于，所述对所述语音信息与终端正在播放的音频数据进行相似性检测，包括：

5.根据权利要求1所述的语音识别方法，应用于云端服务器，其特征在于，所述获取到包含预设关键字的语音信息之前或之后，还包括：

6.根据权利要求1或5所述的语音识别方法，其特征在于，所述对所述语音信息与终端正在播放的音频数据进行相似性检测之后，还包括：

7.根据权利要求6所述的语音识别方法，其特征在于，所述执行与所述语音信息相关的操作，包括：

8.一种语音识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音识别方法的步骤。

9.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法的步骤。

10.一种语音识别系统，其特征在于，所述语音识别系统包括终端和云端服务器；其中，