CN108696768A

CN108696768A - 一种语音识别方法及系统

Info

Publication number: CN108696768A
Application number: CN201810433565.7A
Authority: CN
Inventors: 关广鹏; 刘江
Original assignee: BEIJING HENGXIN CAIHONG INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING HENGXIN CAIHONG INFORMATION TECHNOLOGY Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-23

Abstract

本申请公开了一种语音识别方法及系统，语音识别方法的步骤为：采集多个现场语音数据；将每个现场语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹；根据语音声纹库找出该声纹对应的身份。从而达到能够保证在现场环境嘈杂或者说话人数较多时，能够清楚的识别出特定人的语音，并有效保证识别精确度高，对确定的优选识别语音进行语音处理，提取、剥离转化为单个语音信息，生成语音指令，有效保证了需要执行指令的准确性的技术效果。

Description

一种语音识别方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及系统。

背景技术

现有技术方案中，当语音识别现场比较嘈杂或者同时说话的人数较多时，无法很好的识别想要识别的人的语音，识别精度很低，不能保证识别语音清晰和准确。另一种方案，语音识别时，需要进行深度算法，对于设备要求非常高，成本昂贵，且当现场嘈杂或多人同时说话时，同样不能区分设定人，且易受到嘈杂环境的影响，难以保证识别出的语音的清晰度和准确度。

发明内容

本发明的目的在于提供一种语音识别方法及系统，以达到能够保证在现场环境嘈杂或者说话人数较多时，能够清楚的识别出特定人的语音，并有效保证识别精确度高，对确定的优选识别语音进行语音处理，提取、剥离转化为单个语音信息，生成语音指令，有效保证了需要执行指令的准确性的技术效果。

为达到上述目的，本发明采用如下技术方案：

一种语音识别方法的步骤为：采集多个现场语音数据；将每个现场语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹；根据语音声纹库找出该声纹对应的身份。

进一步的，根据身份确定语音识别优先级的排序，并优先识别优先级高的身份对应的现场语音数据。

进一步的，建立语音声纹库的方法具体为：设定特定人的身份；根据输入提示，该身份的特定人进行语音数据录入；将语音数据与对应身份进行绑定；根据身份设定语音识别的优先级顺序。

优选的，对优先识别语音数据的处理方法具体为：根据语音声纹库中身份的声纹将采集到的现场语音数据中的优先识别语音数据全部提取、剥离转化为单个语音信息；根据转化后的单个语音信息内容判断需要执行的语音内容，生成语音指令。

进一步的，语音指令至少包括播放视频、关闭视频。

进一步的，语音声纹库存储于云端数据库。

进一步的，语音数据通过语音采集装置采集。

进一步的，语音数据通过麦克风采集。

一种语音识别系统，包括机顶盒和分别与机顶盒连接的显示装置、语音采集装置和云端数据库，机顶盒用于执行语音识别方法，显示装置执行机顶盒发送的语音指令。

进一步的，语音采集装置为麦克风。

本发明的有益效果是：该语音识别方法通过建立语音声纹库，设定识别语音优先级顺序，能够保证在现场环境嘈杂或者说话人数较多时，能够清楚的识别出特定人的语音，并有效保证识别精确度高，对确定的优选识别语音进行语音处理，提取、剥离转化为单个语音信息，生成语音指令，有效保证了需要执行指令的准确性的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为一种语音识别方法的流程图；

图2为一种语音识别系统的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的目的在于提供一种语音识别方法，采集多个现场语音数据；将每个现场语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹；根据语音声纹库找出该声纹对应的身份。该方法能够保证在现场环境嘈杂或者说话人数较多时，能够清楚的识别出特定人的语音，并有效保证识别精确度高。

本申请的目的还在于提供一种语音识别系统，如图2所示，该语音识别系统包括机顶盒2和分别与该机顶盒2连接的显示装置4、语音采集装置1和云端数据库3。具体的，机顶盒2用于建立语音声纹库，并将建立好的语音声纹库上传至云端数据库进行储存，以及对需要识别的语音数据进行语音数据处理；显示装置4接收机顶盒2发送的指令，并执行，例如，播放视频，关闭视频等；语音采集装置1用于对语音数据进行采集。优选的，语音采集装置4为麦克风。系统操作简单方便，且价格便宜。

根据图1所示，语音优选识别方法具体包括以下步骤：

S110：建立语音声纹库，获取多个特定人的语音数据；

S120：将每个特定人的语音数据与特定人的身份进行绑定；

示例性的，建立语音声纹库的方法具体为：通过机顶盒2设定特定人的身份；设定好身份后，机顶盒2提示该身份的特定人进行语音数据录入；并将录入的语音数据与对应身份进行绑定。示例性的，在机顶盒2中设定身份为妈妈，设定好后，机顶盒2通过语音提示妈妈录入语音数据，并将妈妈录入的语音数据与妈妈的身份进行绑定，再在机顶盒2中设定身份为孩子，设定好后，机顶盒2通过语音提示孩子录入语音数据，并将孩子录入的语音数据与孩子的身份进行绑定，等所有特定人完成上述语音和身份的绑定步骤，语音声纹库建立完成，并将语音声纹库储存到云端数据库3。

S130：根据身份设定语音识别的优先级顺序；

S140：当同时采集到多个现场语音数据时，优先识别身份优先级高的语音数据。

示例性的，身份优先级的判别方法具体为：通过语音采集装置1采集多个现场语音数据；将每个现场语音数据的声纹与语音声纹库中的声纹进行对比；找出匹配度达到预定阈值的声纹；并根据语音声纹库找出该声纹对应的身份；依据身份确定该身份的语音识别优先级，根据优先级的排序来确定现场语音数据中的声纹的识别顺序。具体的，当现场周围环境比较嘈杂或者说话人数较多时，通过语音采集装置1采集现场出现的多个语音数据，该语音采集装置1可以为麦克风，但不仅限于麦克风，将采集到的所有语音数据的声纹与存储于语音声纹库中的声纹进行对比，找出现场语音数据中与语音声纹库中声纹匹配度达到预定阈值的声纹，并通过该声纹确定与该声纹对应的身份，进而依据身份确定该身份被设定的语音识别优先级的高低，首先识别优先级最高的语音。具体的，作为一个实施例，在语音声纹库中设定为妈妈的语音识别优先级高于孩子的语音识别优先级，当现场中同时出现孩子和妈妈的语音数据时，机顶盒2优先识别妈妈的语音数据，并对妈妈的语音数据进行语音数据处理。

进一步的，优先识别语音数据的语音处理方法具体为：确定多个现场语音数据中的优先识别语音数据后，根据语音声纹库中该身份的声纹将采集到的现场语音数据中的优先识别语音数据全部提取、剥离转化为单个语音信息；并根据转化后的单个语音信息内容判断需要执行的语音内容，生成语音指令。具体的，作为一个实施例，当语音采集装置1采集到的现场语音数据中同时包括妈妈和孩子的语音数据时，通过与语音声纹库进行对比，判断出妈妈的语音数据为优先识别语音数据后，机顶盒2将采集到的现场语音数据中妈妈的全部语音数据进行提取、剥离转化为单个语音信息，并根据转化后的单个语音信息内容判断需要执行的语音内容，生成语音指令。该语音指令可以为播放视频，关闭视频等指令。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，语音识别方法的步骤为：

采集多个现场语音数据；

将每个所述现场语音数据的声纹与预先建立的语音声纹库中的声纹进行对比，找出相同的声纹；

根据所述语音声纹库找出该声纹对应的身份。

2.根据权利要求1所述的语音识别方法，其特征在于，根据所述身份确定语音识别优先级的排序，并优先识别优先级高的身份对应的现场语音数据。

3.根据权利要求2所述的语音识别方法，其特征在于，建立语音声纹库的方法具体为：

设定特定人的身份；

根据输入提示，所述身份的特定人进行语音数据录入；

将所述语音数据与对应身份进行绑定；

根据所述身份设定语音识别的优先级顺序。

4.根据权利要求2所述的语音识别方法，其特征在于，对优先识别语音数据的处理方法具体为：

根据所述语音声纹库中所述身份的声纹将采集到的现场语音数据中的所述优先识别语音数据全部提取、剥离转化为单个语音信息；

根据转化后的单个语音信息内容判断需要执行的语音内容，生成语音指令。

5.根据权利要求4所述的语音识别方法，其特征在于，所述语音指令至少包括播放视频、关闭视频。

6.根据权利要求1所述的语音识别方法，其特征在于，所述语音声纹库存储于云端数据库。

7.根据权利要求1-6所述的语音识别方法，其特征在于，所述语音数据通过语音采集装置采集。

8.根据权利要求1-6所述的语音识别方法，其特征在于，所述语音数据通过麦克风采集。

9.一种语音识别系统，其特征在于，包括机顶盒和分别与所述机顶盒连接的显示装置、语音采集装置和云端数据库，所述机顶盒用于执行权利要求1-8所述的语音识别方法，所述显示装置执行所述机顶盒发送的所述语音指令。

10.根据权利要求9所述的语音优别系统，其特征在于，所述语音采集装置为麦克风。