CN107451131A

CN107451131A - 一种语音识别方法及装置

Info

Publication number: CN107451131A
Application number: CN201610363013.4A
Authority: CN
Inventors: 龙春艳; 朱丽佳
Original assignee: Guiyang Longmaster Information and Technology Co ltd
Current assignee: Guiyang Longmaster Information and Technology Co ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2017-12-08

Abstract

本发明属于信息处理技术领域，具体涉及一种语音识别方法及装置。该语音识别方法可以包括以下步骤：接收客户端发送的语音信息；根据第一数据库中的语音片段Ⅰ识别所述语音信息，如果无法识别出所述语音信息中的关键词，则根据第二数据库中的语音片段Ⅱ匹配所述语音信息，如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ，再将所述文本片段Ⅱ组合成文本信息，并根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词，再根据所述关键词搜索出相关内容。本发明实施例的方法可应用与服务器端，以降低对客户端用户的要求，提高用户的搜索成功率。

Description

一种语音识别方法及装置

技术领域

本发明属于信息处理技术领域，具体涉及一种语音识别方法及装置。

背景技术

近几年来，传统的文字搜索已经越来越不能满足人们日益多元化的需要。随着语音识别技术的发展，语音搜索已逐步应用于各种终端设备（如：移动手机、固定电话等）中，基于语音识别技术的语音搜索越来越受到人们的关注。

目前的语音搜索产品通过对用户输入的语音信息进行识别，以将语音信息转换成文本信息，并分析出其中的关键字，然后根据关键字搜索相匹配的结果或者根据关键字在问答系统的数据库中查询对应的问答结果，并将搜索结果以语音、网页或文字等形式展现给用户。

但是，不同地方的用户在进行语音搜索时，由于其发音或者语言描述可能与检索系统中预定的标准发音存在差异，往往导致用户不能够进行语音搜索，或者语音识别的错误率较高，导致搜索结果的命中率较低。因此，现有技术的语音搜索对客户端的用户要求较高，用户搜索的成功率较低。

发明内容

本发明提供一种语音识别方法及装置，其可应用与服务器端，以降低对客户端用户的要求，提高用户的搜索成功率。

本发明采用如下技术方案：

一种语音识别方法，其包括以下步骤：

接收客户端发送的语音信息；

根据第一数据库中的语音片段Ⅰ识别所述语音信息；如果识别出所述语音信息中的关键词，则根据所述关键词搜索出相关内容，并将所述相关内容推送给所述客户端；如果无法识别出所述语音信息中的关键词，则进行步骤A；

步骤A：根据第二数据库中的语音片段Ⅱ匹配所述语音信息，如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ，再将所述文本片段Ⅱ组合成文本信息，并进行步骤B；如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则不做处理或者标记所述语音信息为无效内容；

步骤B：根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词，再根据所述关键词搜索出相关内容，并将所述相关内容推送给所述客户端；

其中，所述第一数据库中包含一种或多种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ，所述第二数据库包含除第一数据库中的语音类型之外的其他一种或多种语音类型的多个语音片段Ⅱ和与每个语音片段Ⅱ含义相对应的且存在于所述第一数据库中的语音类型的文本片段Ⅱ。

优选的是，标记所述语音信息为无效内容后，还包括以下步骤：

将标记为无效内容的语音信息发送到人机交互界面；

响应后台人员的操作，播放所述标记为无效内容的语音信息，并生成与所述标记为无效内容的语音信息对应的审核文本，之后，将所述标记为无效内容的语音信息的无效内容标记符号去除，并将所述语音信息和所述审核文本存储到第二数据库，将所述审核文本存储到第一数据库；或者响应后台人员的操作，播放所述标记为无效内容的语音信息后，将该标记为无效内容的语音信息删除。

优选的是，所述识别出所述语音信息中的关键词之后，还包括：根据第一数据库的文本片段Ⅰ校正所述关键词；所述根据所述关键词搜索出相关内容，是根据校正后的关键词搜索出相关内容。

进一步优选的是，所述根据第一数据库的文本片段Ⅰ校正所述关键词，是根据第一数据库记载的客户端发送的历史信息校正所述关键词。

较佳地，所述语音识别方法还包括：所述标记所述语音信息为无效内容后生成拒绝信息，并将所述拒绝信息推送给客户端。

本发明还提供一种语音识别装置，其包括：

接收模块，用于接收客户端发送的语音信息；

识别模块，用于根据第一数据库中的语音片段Ⅰ识别所述语音信息；如果识别出所述语音信息中的关键词，则根据所述关键词搜索出相关内容，并将所述相关内容推送给所述客户端；

匹配模块,用于如果无法识别出所述语音信息中的关键词，则根据第二数据库中的语音片段Ⅱ匹配所述语音信息，如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ，再将所述文本片段Ⅱ组合成文本信息；如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则不做处理或者标记所述语音信息为无效内容；

所述识别模块，还用于根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词，再根据所述关键词搜索出相关内容，并将所述相关内容推送给所述客户端；

优选的是，所述语音识别装置还包括：

传送模块，用于将标记为无效内容的语音信息发送到人机交互界面；

响应模块，用于响应后台人员的操作，播放所述标记为无效内容的语音信息，并生成与所述标记为无效内容的语音信息对应的审核文本，之后，将所述标记为无效内容的语音信息的无效内容标记符号去除，并将所述语音信息和所述审核文本存储到第二数据库，将所述审核文本存储到第一数据库；或者响应后台人员的操作，播放所述标记为无效内容的语音信息后，将该标记为无效内容的语音信息删除。

优选的是，所述语音识别装置还包括：校正模块，用于根据第一数据库的文本片段Ⅰ校正所述关键词；所述根据所述关键词搜索出相关内容，是根据校正后的关键词搜索出相关内容。

进一步优选的是，所述校正模块包括历史信息校正单元，用于根据第一数据库记载的客户端发送的历史信息校正所述关键词。

较佳的是，所述语音识别装置还包括：生成单元，用于所述标记所述语音信息为无效内容后生成拒绝信息，并将所述拒绝信息推送给客户端。

本发明的语音识别方法利用第一数据库进行识别语音信息，利用第二数据库进行匹配第一数据库不能够识别的语音信息，这样可以将根据第一数据库中的语音片段Ⅰ识别所述语音信息的对比规则设置的更严格，提高了第一次提取关键词的精准度，降低了语音识别的错误率；由于设置了第一数据库与第二数据库，只在第一数据库提取关键词时，加快了提取关键词的速度，也因此加快了搜索速度；由于可以根据第二数据库中的语音片段Ⅱ匹配所述语音信息，则可以针对不同的用户配置不同的第二数据库，这就降低了对用户的要求，也增加了搜索成功率。

附图说明

图1为本发明一优选实施例中的语音识别方法的流程图。

图2为本发明另一优选实施例中的语音识别方法的部分流程图。

图3为本发明一优选实施例中的语音识别装置的结构框图。

图4为本发明另一优选实施例中的语音识别装置的结构框图。

具体实施方式

为了更加清楚地了解本发明的技术方案，下面结合附图对本发明进行详细介绍。本发明的实施例具有示例性的作用，本领域技术人员在本发明实施例基础上做出的无实质性的改进，都应属于本发明的保护范围。

本发明提供的一实施例中，如图1所示的语音识别方法，其包括以下步骤：

S101：接收客户端发送的语音信息。

该语音识别方法可适用于服务器端。所述客户端可以是移动手机、固定电话或者其它可以进行语音搜索的设备。客户端发送的语音信息，是客户端录制的用户语音搜索指令，通常，客户端还将该语音信息进行压缩处理，然后再上传给服务器。

S102：根据第一数据库中的语音片段Ⅰ识别所述语音信息；如果识别出所述语音信息中的关键词，则根据所述关键词搜索出相关内容，并将所述相关内容推送给所述客户端；如果无法识别出所述语音信息中的关键词，则进行步骤S103。

需要说明的是，所述第一数据库中包含一种或多种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ。所述语音片段Ⅰ是预先录入的模板语音片段，所述文本片段Ⅰ是预先录入的文本片段。通常为了提高速度，第一数据库中只存储一种语音类型的多个语音片段Ⅰ和多个文本片段Ⅰ，如：第一数据库的语音类型为汉语标准普通话，语音片段Ⅰ即为汉语标准普通话语音片段，文本片段Ⅰ即为汉字标准语序片段。第一数据库的语音类型也可以为英式标准英文，语音片段Ⅰ即为英式标准英文片段，文本片段Ⅰ即为英式标准语序英文片段。

所述语音片段Ⅰ识别所述语音信息，通常是所述语音信息的特征参数与每个模板语音片段的特征参数逐一进行对比，根据预先设定的对比规则，获得与所述语音信息相匹配的一个或多个最佳模板语音片段。所述特征参数一般包括短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、倒谱、共振峰等。

可以根据实际需要设定对比规则，根据具体规则可以设定最大相似度值和最小相似度值。如：相似度最大值为10，相似度最小值为0，各个参数进行对比后，分别得出各自的相似度值，可以设定某个或某些特征参数的相似度不能低于8（或其他值），也可以设定总的相似度不能低于某个值，如果满足设定的条件就能获得与所述语音信息相匹配的一个或多个最佳模板语音片段。以此确定所述语音片段Ⅰ是否能够识别所述语音信息。

所述语音片段Ⅰ若能够识别所述语音信息，即是得出了与之相匹配的一个或多个模板语音片段，根据模板语音片段将所述语音信息转化成相应的文本内容，根据文本内容就可以识别出关键词。

所述如果无法识别出所述语音信息中的关键词，是指根据预先设定的对比规则，无法获取模板语音片段，因此无法将所述语音信息转化成相对应的文本内容，也不能以此识别出关键词。如：第一数据库的语音类型为汉语标准普通话，而客户端发送的语音信息为某方言（如四川方言），则根据第一数据库中的语音片段Ⅰ无法得出与所述语音信息相匹配的模板语音片段，也无法提取出关键词。

步骤S103：根据第二数据库中的语音片段Ⅱ匹配所述语音信息，如果能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ，再将所述文本片段Ⅱ组合成文本信息，并进行步骤B；如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则不做处理或者标记所述语音信息为无效内容。

所述第二数据库包含除第一数据库中的语音类型之外的其他一种或多种语音类型的多个语音片段Ⅱ和与每个语音片段Ⅱ含义相对应的且存在于所述第一数据库中的语音类型的文本片段Ⅱ。

所述语音片段Ⅱ是预先录入的模板语音片段，其语音类型不同于语音片段Ⅰ，所述文本片段Ⅱ是预先录入的与语音片段Ⅱ含义相对应文本片段，且所述文本片段Ⅱ的语音类型存在于所述第一数据库中。例如：第一数据库的语音类型为汉语标准普通话，第二数据库中的语音片段Ⅱ的语音类型可以是某地的方言（如四川方言）或某个外语（如英文），第二数据库中的文本片段Ⅱ则为汉字标准语序片段，且每个文本片段Ⅱ的含义与相应的语音片段Ⅱ的含义相对应，可以是相同或相似。

所述语音片段Ⅱ匹配所述语音信息，同上述语音片段Ⅰ识别所述语音信息的过程类似。也是将所述语音信息的特征参数与每个模板语音片段的特征参数逐一进行对比，根据预先设定的对比规则，获得与所述语音信息相匹配的一个或多个最佳语音片段。获取最佳语音片段后，调取与所述最佳语音片段含义相对应的文本片段Ⅱ，再将所述文本片段Ⅱ组合成文本信息，这就将所述语音信息转化成了对应的文本信息，该文本信息与所述语音信息的含义通常是相似或者相同。

例如：第一数据库的语音类型为汉语标准普通话，第二数据库中的语音片段Ⅱ的语音类型是四川方言，第二数据库中的文本片段Ⅱ为汉字标准语序片段，且每个文本片段Ⅱ的含义与相应的语音片段Ⅱ的含义相对应；客户端发送的语音信息为四川方言，根据第一数据库中的语音片段Ⅰ无法得出与所述语音信息相匹配的模板语音片段，也无法提取出关键词；而根据第二数据库中的语音片段Ⅱ匹配所述语音信息，即能够获取一个或多个模板语音片段，并根据获取的模板语音片段可以调取与其含义相对应的一个或多个文本片段Ⅱ；如果调取一个文本片段Ⅱ，则该文本片段Ⅱ即为相应的文本信息（也可以理解为该文本片段独自组合成文本信息），如果调取的是多个文本片段Ⅱ，则这些文本片段Ⅱ可以组合成相应的文本信息。

所述调取与所述语音片段Ⅱ含义相对应的文本片段Ⅱ，是根据预先设定的规则进行调取的。例如：某语音片段Ⅱ为四川方言，其对应的文本片段Ⅱ是汉字标准语序片段，则预先设定的规则就是，该语音片段Ⅱ为与语音信息相对应的最佳语音片段时，自动调取文本片段Ⅱ。

所述将所述文本片段Ⅱ组合成文本信息，可以是随机的组合，以降低系统运行的成本。也可以为了提高搜索的准确率设定某种规则，将所述文本片段Ⅱ结合所述语音信息的含义，生成与所述语音信息含义相同或者相似的文本信息，以便于下一步识别出精准的关键词。

所述如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，即是不能根据第二数据库中的语音片段Ⅱ获取最佳模板语音片段。如：客户端发送的语音信息是另一种方言或者外语或者某种无法识别成语言的声音。通常，如果不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则会标记所述语音信息为无效内容，以方便提醒后台人员进行操作。

步骤S104：根据第一数据库中的文本片段Ⅰ识别出所述文本信息中的关键词，再根据所述关键词搜索出相关内容，并将所述相关内容推送给所述客户端。

由于文本片段Ⅰ和文本片段Ⅱ都是预先录入的文本片段，那么可以将它们按照相同的语序进行编辑，因此，将由文本片段Ⅱ组合成的文本信息，就很容易被文本片段Ⅰ识别，并提取出比较精准的关键词。由于第二数据库中的语音片段Ⅱ和文本片段Ⅱ的类型不同，而文本片段Ⅱ的类型又存在于第一数据库，这就建立了第一数据库与第二数据库之间的联系，所以，不同用户客户端，其第一数据库可以相同，第二数据库可以有针对性的设置。

本实施例的语音识别方法，利用第一数据库进行识别语音信息，利用第二数据库进行匹配第一数据库不能够识别的语音信息，这样可以将根据第一数据库中的语音片段Ⅰ识别所述语音信息的对比规则设置的更严格，提高了第一次提取关键词的精准度，降低了语音识别的错误率；由于设置了第一数据库与第二数据库，只在第一数据库提取关键词时，加快了提取关键词的速度，也因此加快了搜索速度；由于可以根据第二数据库中的语音片段Ⅱ匹配所述语音信息，则可以针对不同的用户配置不同的第二数据库，这就降低了对用户的要求，也增加了搜索成功率。

在图1所示的语音识别方法的基础上，标记所述语音信息为无效内容后，如图2所示的语音识别方法，还包括以下步骤，

S105：将标记为无效内容的语音信息发送到人机交互界面。

该方法通常是应用于后台服务器。如果根据第一数据库中的语音片段Ⅰ无法识别出所述语音信息中的关键词，且不能够将第二数据库中的语音片段Ⅱ与所述语音信息进行匹配，则说明第一数据库和第二数据库均不存在与所述语音信息相对应的语音片段，可能是不存在相应的语音类型，或者是存在该语音类型，但是数据库中缺乏与之对应的语音片段。为了能够分析出具体的原因，服务器可以将该标记为无效内容的语音信息发送到人机交互界面，将其展示给后台人员，由后台人员进行审核。

S106：响应后台人员的操作，播放所述标记为无效内容的语音信息，并生成与所述标记为无效内容的语音信息对应的审核文本，之后，将所述标记为无效内容的语音信息的无效内容标记符号去除，并将所述语音信息和所述审核文本存储到第二数据库，将所述审核文本存储到第一数据库；或者响应后台人员的操作，播放所述标记为无效内容的语音信息后，将该标记为无效内容的语音信息删除。

服务器响应后台人员的操作，播放所述标记为无效内容的语音信息后，后台人员进行判断该语音信息是否为有效的语音信息。若为有效语音信息，则后台人员可以输入与该语音信息对应的审核文本，所述审核文本即是与该语音信息含义对应的文本内容，其语音类型为存在于所述第一数据库中的语音类型。如：第一数据库的语音类型为汉语标准普通话，第二数据库中的语音片段Ⅱ的语音类型是英式标准英文，第二数据库中的文本片段Ⅱ为汉字标准语序片段，且每个文本片段Ⅱ的含义与相应的语音片段Ⅱ的含义相对应；当客户端发送的语音信息为英式标准英文，且该语音信息并未记载在第二数据库时，则可能会被服务器标记为无效内容，经后台人员的审核后，可以生成与该语音信息对应的审核文本，即是该语音信息对应的汉字标准语序片段。

服务器根据后台人员的操作，生成与该语音信息对应的审核文本后，可以自动（响应预先设定的程序）将所述标记为无效内容的语音信息的无效内容标记符号去除，也可以响应后台人员的进一步的操作，将所述标记为无效内容的语音信息的无效内容标记符号去除。然后，服务器可以自动（响应预先设定的程序）将所述标记为无效内容的语音信息的无效内容标记符号去除，并将所述语音信息和所述审核文本存储到第二数据库，将所述审核文本存储到第一数据库；也可以响应后台人员的进一步操作，将所述标记为无效内容的语音信息的无效内容标记符号去除，并将所述语音信息和所述审核文本存储到第二数据库，将所述审核文本存储到第一数据库。存储该语音信息和审核文本之后，下一次若有客户端发送相同的语音信息，服务器就可以识别出其关键词，再根据该关键词搜索出相关内容，并将所述相关内容推送给该客户端。

若经后台人员的审核，所述标记为无效内容的语音信息为无效内容（如：是一段噪音或者是其他无法识别的声音），服务器可以响应后台人员的操作，将该标记为无效内容的语音信息删除。

另外，若经后台人员的审核，所述标记为无效内容的语音信息为有效内容（后台人员可以根据该语音信息判断出相应的关键词），但是该语音信息的语言类型在第一数据库和第二数据库均不存在，则服务器可以响应后台人员的操作，建立第三数据库，并将该语音信息和其相对应的审核文本存存储到第三数据库，将所述审核文本存储到第一数据库；或者不用建立第三数据库，直接将该语音信息和其相对应的审核文本存储到第二数据库，将所述审核文本存储到第一数据库。下一次若有客户端发送相应的语音信息，服务器就可以识别出其关键词。

本实施例中增加了响应后台人员的操作，这样可以增加有效内容，进一步降低对用户的要求，也增加了搜索成功率。

在图1所示的语音识别方法上，优选的实施例中，所述识别出所述语音信息中的关键词之后，还包括：

S1021：根据第一数据库的文本片段Ⅰ校正所述关键词；所述根据所述关键词搜索出相关内容，是根据校正后的关键词搜索出相关内容。

如果根据第一数据库中的语音片段Ⅰ识别出所述语音信息中的关键词，该关键词可能与实际要搜索的关键词有一定的差别。如：语音信息为“公民的权利和义务”，其关键词可以是“公民、权利、义务”，但是也可能识别出的关键词为“公民、权力、义务”,这就与实际需要不相符。可以根据预先设定的程序，让服务器能够根据上下文的总体含义或者其它关键词自动校正“权力”为“权利”。因此，增加了关键词的精准度。

进一步地，所述根据第一数据库的文本片段Ⅰ校正所述关键词，是根据第一数据库记载的客户端发送的历史信息校正所述关键词。

为了实现对客户端的服务具有针对性，每个客户端根据用户的喜好，会发送不同类型的语音信息，如：某一客户端习惯搜索“异议”，而另一客户端习惯搜索“意义”，那么服务器在识别这两个词时，针对第一个客户端，服务器根据其之前发送的历史信息，判断出该客户端经常搜索的是“异议”，如果识别的是“意义”，则会将其校正为“异议”。针对第二个客户端，如果识别的是“异议”，则会将其校正为“意义”。因此，提供了有针对性的服务，增加了关键词的精准度。

在图1所示的语音识别方法上，较佳的实施例中，还包括：所述标记所述语音信息为无效内容后生成拒绝信息，并将所述拒绝信息推送给客户端。

所述生成拒绝信息，可以是“该语音为无效内容”、“无法提供服务”或“请说普通话”等等。将所述拒绝信息推送给客户端，即是告知用户其传达的语音信息为无效内容，服务器无法识别，也可以提醒用户使用数据库存储的语音类型。

如图3所示的语音识别装置，可应用于服务器端，其包括：

接收模块，用于接收客户端发送的语音信息；

如图4所示的语音识别装置，其在图3所示的语音识别装置的基础上还包括：

在图3所示的语音识别装置的基础上，优选的实施例中，还包括：校正模块，用于根据第一数据库的文本片段Ⅰ校正所述关键词；所述根据所述关键词搜索出相关内容，是根据校正后的关键词搜索出相关内容。

在图3所示的语音识别装置的基础上，较佳的实施例中，还包括：生成单元，用于所述标记所述语音信息为无效内容后生成拒绝信息，并将所述拒绝信息推送给客户端。

以上所述，仅为本发明的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

接收客户端发送的语音信息；

2.根据权利要求1所述的语音识别方法，其特征在于，标记所述语音信息为无效内容后，还包括以下步骤：

将标记为无效内容的语音信息发送到人机交互界面；

3.根据权利要求1所述的语音识别方法，其特征在于，所述识别出所述语音信息中的关键词之后，还包括：根据第一数据库的文本片段Ⅰ校正所述关键词；所述根据所述关键词搜索出相关内容，是根据校正后的关键词搜索出相关内容。

4.根据权利要求3所述的语音识别方法，其特征在于，所述根据第一数据库的文本片段Ⅰ校正所述关键词，是根据第一数据库记载的客户端发送的历史信息校正所述关键词。

5.根据权利要求1所述的语音识别方法，其特征在于，还包括：所述标记所述语音信息为无效内容后生成拒绝信息，并将所述拒绝信息推送给客户端。

6.一种语音识别装置，其特征在于，包括：

接收模块,用于接收客户端发送的语音信息；

7.根据权利要求6所述的语音识别装置，其特征在于，还包括：

8.根据权利要求6所述的语音识别装置，其特征在于，还包括：校正模块，用于根据第一数据库的文本片段Ⅰ校正所述关键词；所述根据所述关键词搜索出相关内容，是根据校正后的关键词搜索出相关内容。

9.根据权利要求8所述的语音识别装置，其特征在于，所述校正模块包括历史信息校正单元，用于根据第一数据库记载的客户端发送的历史信息校正所述关键词。

10.根据权利要求6所述的语音识别装置，其特征在于，还包括：生成单元，用于所述标记所述语音信息为无效内容后生成拒绝信息，并将所述拒绝信息推送给客户端。