CN111554297A

CN111554297A - 语音识别方法、装置、设备及可读存储介质

Info

Publication number: CN111554297A
Application number: CN202010414058.6A
Authority: CN
Inventors: 周毅; 殷切; 张龙; 陈真
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-18
Anticipated expiration: 2040-05-15
Also published as: CN111554297B; EP3816994A1; JP7271497B2; US11798548B2; JP2021081731A; US20210193143A1

Abstract

本申请公开了一种语音识别方法、装置、设备及可读存储介质，涉及人工智能技术领域。具体实现方案为：电子设备识别语音信号得到第一文本，若数据库中存在该第一文本对应的第一拼音序列，则将第一拼音序列对应的正确文本作为语音识别结果；否则，对第一拼音序列进行模糊匹配得到多个第二拼音序列和与第二拼音序列对应的第二文本，并从多个第二文本中选择出语音识别结果。该过程中，电子设备通过模糊匹配等自动纠正误识别得到正确的语音识别结果，提升语音识别的准确性。

Description

语音识别方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及人工智能(Artificial Intelligence，AI)，尤其涉及一种语音识别方法、装置、设备及可读存储介质。

背景技术

随着人工智能的飞速发展，语音识别技术被广泛的应用到手机、车载终端等产品上。语音识别技术本质上是将用户发出的语音转换为文字，基于文字执行相应的指令的过程。

由于个人发音差异以及地域口语等问题，利用语音识别技术识别语音时很容易出现误识别的情况。例如，将用户发出的“右座位加热”语音信号识别为“有座位加热”的文本，一个误识别称之为一个坏例。为避免误识别，常见的做法是创建一个纠正文件，每发现一个新的坏例，则在纠正文件中增加该坏例和该坏例的正确结果的对应关系。该纠正文件被打包在具有语音识别功能的应用程序的安装包里，用户下载安装包并安装。之后，用户使用终端设备上安装的该应用的语音识别功能时，若发生误识别，则终端设备从纠正文件中查找出正确结果从而提高语音识别的准确性。

然而，上述通过人力创建纠正文件的方式无法覆盖所有的坏例，导致一些坏例很难被发现，进而导致语音识别准确性低。

发明内容

本申请实施例提供了一种语音识别方法、装置、设备及可读存储介质，通过自动纠正误识别，从而提升语音识别的准确性。

第一方面，本申请实施例提供一种语音识别方法，包括：电子设备通过识别获取的语音信号，得到第一文本，利用所述第一文本对应的第一拼音序列，进行数据库的检索，响应于在所述数据库中未搜索到所述第一拼音序列，根据所述第一拼音序列进行模糊搜索，所述模糊搜索用于查找具有所述第一拼音序列中至少一个拼音的第二拼音序列和与所述第二拼音序列对应的第二文本，选取所述模糊搜索得到的至少一个第二文本，作为所述语音信号的语音识别结果。采用该种方案，电子设备识别语音信号得到第一文本，若数据库中不存在该第一文本，则说明发生误识别，此时，电子设备通过模糊匹配等自动纠正误识别得到正确的语音识别结果，提升语音识别的准确性。同时，可以根据不同厂商的命令集合设置不同的数据库，随时调整数据库，节约人力物力的同时，灵活性比较高。

第二方面，本申请实施例提供一种语音识别装置，包括：

识别模块，用于通过识别获取的语音信号，得到第一文本；

检索模块，用于利用所述第一文本对应的第一拼音序列，进行数据库的检索；

匹配模块，用于响应于在所述数据库中未搜索到所述第一拼音序列，根据所述第一拼音序列进行模糊搜索，所述模糊搜索用于查找具有所述第一拼音序列中至少一个拼音的第二拼音序列和与所述第二拼音序列对应的第二文本；

确定模块，用于选取所述模糊搜索得到的至少一个第二文本，作为所述语音信号的语音识别结果。

第三方面、本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或第一方面任意可能实现的方法。

第四方面，本申请实施例提供一种包含指令的计算机程序产品，当其在电子设备上运行时，使得电子设备计算机执行上述第一方面或第一方面的各种可能的实现方式中的方法。

第五方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述电子设备执行上述第一方面或第一方面的各种可能的实现方式中的方法。

第六方面，本申请实施例提供一种语音识别方法，包括：识别语音信号以得到第一文本，根据所述第一文本对应的第一拼音序列进行模糊匹配，以得到多个第二拼音序列和与所述第二拼音序列对应的第二文本，所述第二拼音序列具有所述第一拼音序列中的至少一个拼音，从所述多个第二文本中确定出所述语音信号的语音识别结果。

上述申请中的一个实施例具有如下优点或有益效果：电子设备识别语音信号得到第一文本，若数据库中不存在该第一文本，则说明发生误识别，此时，电子设备通过模糊匹配等自动纠正误识别得到正确的语音识别结果，提升语音识别的准确性。同时，可以根据不同厂商的命令集合设置不同的数据库，随时调整数据库，节约人力物力的同时，灵活性比较高。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的语音识别方法的环境示意图；

图2是本申请实施例提供的语音识别方法的流程图；

图3是本申请实施例提供的语音识别方法的算法框图；

图4为本公开实施例提供的语音识别装置的结构示意图；

图5为本公开实施例提供的另一个语音识别装置的结构示意图；

图6是用来实现本公开实施例的语音识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，越来越多的电子产品具备语音识别功能，如语音助手、智能音箱、车载终端等。语音识别过程中，由于地域口语等容易出现误识别，一个误识别称之为一个坏例。比如，用户发出的语音为“右座位加热”，电子产品识别成“有座位加入”；再如，用户发出的语音为“吸烟模式”，电子产品识别成“先模式”。为避免误识别，常见的处理方式包括创建纠正文件和训练语音识别引擎。

创建纠正文件的方式中，在语音助手等的安装包里创建纠正文件，该纠正文件中保存坏例和正确结果的对应关系。每发现一个新的坏例，则在纠正文件中添加一个该新的坏例和该坏例的正确结果的对应关系。该种方式需要不断的发布新版本，不利于版本维护。而且，对于某些行业，如汽车行业的命令清单(command list)中的命令有几千个甚至更多，而且不同厂家不同型号的汽车的命令清单不同，导致纠正文件无法覆盖各种命令的坏例。发生误识别时，若正确结果未被添加至纠正文件，则语音识别引擎无法识别用户发出的语音。

训练语音识别引擎的方式中，利用大量样本训练语音识别引擎，使得语音识别引擎能够区分用户发出的是“右座位加热”还是“有座位加热”等。同样的，由于命令清单(command list)中的命令繁多，如果对每个命令的坏例都进行训练，则会花费大量的人力物力成本。

有鉴于此，本申请实施例提供一种语音识别方法、装置、设备及可读存储介质，通过自动纠正误识别，从而提升语音识别的准确性。

首先，对本申请实施例所涉及的名词进行解释。

第一文本：电子设备上的语音识别引擎对语音信号进行识别得到的汉字短语。例如，用户发出的语音信号为“吸烟模式”，若用户没有地域性口音，即用户的普通话很标准，则语音识别引擎对语音信号进行识别得到的第一文本为“吸烟模式”；若用户的普通话不标准，则语音识别引擎对语音信号进行识别得到的第一文本为“先模式”。

第二文本，当数据库中不存在第一文本对应的第一拼音序列时，通过模糊搜索得到的文本，第二文本对应的第二拼音序列包含第一拼音序列中的至少一个拼音。

第三文本，当数据库中存在第一文本对应的第一拼音序列时，该第一拼音序列对应正确文本即为第三文本。当电子设备未发生误识别时，第三文本和第一文本相同；当电子设备发生误识别时，第三文本和第一文本不同。若该第三文本还具有泛化文本，则该第一拼音序列还对应多个泛化文本。例如，第一拼音序列为“you zuo wei jia re”，对应的正确文本为“右座位加热”，泛化文本为“有座位加热”。

泛化文本：语音识别引擎对语音识别得到的错误结果，如用户原本想表达的是“右座位加热”，但是由于普通话不标准、地域口音等，用户发出的语音被语音识别引擎错误的识别为“有座位加热”。本申请实施例中，正确文本对应的拼音序列和泛化文本对应的拼音序列可以相同或相似。

数据库：电子设备的本地数据库，用于存储正确文本与拼音序列的对应关系，以及正确文本的泛化文本。有的正确文本具有泛化文本，有的正确文本没有泛化文本。当正确文本具有泛化文本时，该正确文本的泛化文本至少为一个，泛化文本为与正确文本意图相同的文本。示例性的，请参照表1。

表1

请参照表1，例如，正确文本为“吸烟模式”，对应的拼音序列为“xi yan mo shi”，泛化表中存储的泛化文本包括“先模式”、“西安模式”等。

对于车载终端而言，数据库例如为各厂商不同型号的汽车的命令清单(commandlist)等。

图1是本申请实施例提供的语音识别方法的环境示意图。请参照图1，用户在电子设备的语音感知范围内发出语音信号，电子设备获取该语音信号并对获取到的语音信号进行识别得到第一文本，将该第一文本转换为第一拼音序列。若数据库中存在第一拼音序列，则将该第一拼音序列对应的第三文本作为语音识别结果。若数据库中不存在第一拼音序列，则通过模糊搜索得到至少一个第二文本，将至少一个第二文本中的一个或多个作为语音识别结果。

图1中，电子设备可以是各种个人计算机、服务器等各种类型的计算设备，如手机、智能音箱、平板电脑、车载终端、独立部署的服务器或服务器集群等，本申请实施例并不限制。本申请实施例可以应用于语音搜索、购物导向、智能导航等各种场景。

可以理解的是，虽然图1的语音信号为用户在电子设备的感知范围内发出的语音信号，但是，本申请实施例并不以此为限制。例如，电子设备从服务器上获取一段语音信号；再如，电子设备从本地存储器中获取一段语音信号。

下面，基于图1，对本申请实施例所述的导航提示方法进行详细说明，实例性的，请参照图2。

图2是本申请实施例提供的语音识别方法的流程图，本实施例是从电子设备的角度对本申请实施例进行详细说明，本实施例包括：

101、通过识别获取的语音信号，得到第一文本。

示例性的，用户在电子设备的语音感知范围内发出语音信号，电子设备采集该语音信号并对该语音信号进行识别，从而得到第一文本。例如，用户发出的语音信号为“世界之窗怎么走”，由于地域性口音、搜索频次等问题，电子设备上的语音识别引擎识别出的第一文本为“视界之窗怎么走”。

102、利用所述第一文本对应的第一拼音序列，进行数据库的检索。

示例性的，数据库中存储拼音序列和文本的对应关系，文本包括正确文本和泛化文本(如果存在的话)。电子设备识别语音信号得到第一文本后，根据汉字与拼音的对应关系，将第一文本转换为第一拼音序列。转换过程中，电子设备对整个第一文本进行转换，或者从第一文本中提取出关键部分进行转换。例如，第一文本为“可以增加空调温度么”，则第一拼音序列为“ke yi zeng jia kong tiao wen du me”或“zeng jia kong tiao wendu”。

电子设备将该第一文本转换为第一拼音序列后，检索数据库以确定该数据库中是否存在第一拼音序列。若数据库中不存在第一拼音序列，则执行步骤103；若数据库中不存在第一拼音序列，则执行步骤105。

103、响应于在所述数据库中未搜索到所述第一拼音序列，根据所述第一拼音序列进行模糊搜索。

其中，所述模糊搜索用于查找具有所述第一拼音序列中至少一个拼音的第二拼音序列和与所述第二拼音序列对应的第二文本。

若数据库中不存在该第一拼音序列，说明语音识别引擎识别出的第一文本不是一个正确的文本；或者，对于语音识别引擎而言，第一文本为一个陌生的文本，如一条陌生的指令。对于前者，需要进行纠错处理，即根据拼音规则从数据库中确定出用户原本意图，从数据库中确定出第二文本作为语音识别结果。对于后者，则需要考虑是否将该第一文本作为一条新的正确文本并添加至数据库中。

对于需要纠错处理的场景，电子设备根据第一文本对应的第一拼音序列进行模糊搜索，以从所述数据库中确定出多个第二拼音序列和各第二拼音序列对应的第二文本，各第二拼音序列包含第一拼音序列中的至少一个拼音。

示例性的，用户发出的语音信号被语音识别引擎识别后，得到的第一文本为“先模式”，对第一文本进行拼音转换后得到的第一拼音序列为“xian mo shi”。电子设备发现数据库中不存在“xian mo shi”这条拼音序列。此时，电子设备对第一拼音序列“xian moshi”进行拆词处理，将其拆分为“xian”和“moshi”。之后，电子设备对“xian”和“moshi”分别进行模糊匹配。

假设数据库中已存储的正确文本与拼音序列的对应关系包括：1、xi an->西安；2、xi yan mo shi->吸烟模式；3、kong tiao mo shi->空调模式；4、xiu xian mo shi->休闲模式。模糊匹配过程中，电子设备发现数据库中包含“xian”的拼音包括“xi an”，对应的第二文本为“西安”；与拼音“xian”相似的拼音包括“xi yan”以及“xiu xian”，对应的第二文本为“休闲模式”。则电子设备根据“xian”确定出的第二文本包括西安、吸烟模式和休闲模式。同理，电子设备根据“moshi”确定出的第二文本包括吸烟模式、空调模式和休闲模式。

104、选取所述模糊搜索得到的至少一个第二文本，作为所述语音信号的语音识别结果。

继续沿用上述步骤102中的例子，第二文本包括西安、吸烟模式、休闲模式、吸烟模式和空调模式中。确定语音信号的语音识别结果的过程中，电子设备从该些第二文本中选择一个或读多个作为语音信号的识别结果例如，选择“吸烟模式”作为语音识别结果。

105、将第一拼音序列对应的正确文本作为语音识别结果。

若数据库中存在第一拼音序列，则说明数据库中已经存在该第一拼音序列对应的正确文本。此时，将该第一拼音序列对应的正确文本作为语音识别结果。例如，用户发出的语音信号被语音识别引擎识别后得到的第一文本为“有座位加热”，根据该第一文本得到的第一拼音序列为“you zuo wei jia re”。而数据库中，“you zuo wei jia re”对应的正确文本为“右座位加热”，因此，电子设备将“右座位加热”作为语音识别结果。

本申请实施例提供的语音识别方法，电子设备识别语音信号得到第一文本，若数据库中存在该第一文本对应的第一拼音序列，则将第一拼音序列对应的正确文本作为语音识别结果；否则，对第一拼音序列进行模糊匹配得到多个第二拼音序列和与第二拼音序列对应的第二文本，并从多个第二文本中选择出语音识别结果。该过程中，电子设备识别语音信号得到第一文本，若数据库中不存在该第一文本，则说明发生误识别，此时，电子设备通过模糊匹配等自动纠正误识别得到正确的语音识别结果，提升语音识别的准确性。同时，可以根据不同厂商的命令集合设置不同的数据库，随时调整数据库，节约人力物力的同时，灵活性比较高。

上述实施例中，电子设备确定数据库中是否存在所述第一文本对应的第一拼音序列之前，还确定所述数据库中是否存在第一文本；若数据库中不存在该第一文本，则执行本申请实施例所述的方案，若数据库中存在该第一文本，则继续确定该第一文本是正确文本还是泛化文本，若该第一文本是正确文本，则将该第一文本作为语音识别结果，若该第一文本是泛化文本，则将该泛化文本对应的正确文本作为语音识别结果。

示例性的，电子设备得到第一文本后，假设该第一文本为“先模式”，若数据库中不存在该第一文本“先模式”，则说明该第一文本未被纠正过，需要进行纠正，则执行本申请的方法；若数据库中存在该第一文本，则说明该第一文本已经被纠正过或该第一文本原本就是一个正确文本。例如，数据库中已经存在泛化文本“先模式”，则直接将该泛化文本对应的正确文本“吸烟模式”作为语音识别结果，无需对“先模式”进行拼音转换以及模糊匹配等。采用该种方案，无需对所有的第一文本进行拼音转换等，提升语音识别的速度。

图3是本申请实施例提供的语音识别方法的算法框图，本实施例包括如下流程：

首先，电子设备的语音识别引擎的识别结果进入纠正算法。

示例性的，语音识别引擎的识别结果即为上述的第一文本。

其次，电子设备利用纠正算法对第一文本进行处理。

示例性的，电子设备将第一文本转换为第一拼音序列，根据第一拼音序列进行处理。包括下面几种情况：

第一种情况：数据库中存在第一拼音序列。

示例性的，电子设备查询数据库，判断数据库中是否存在第一拼音序列，若存在，则将该第一拼音序列对应的正确文本返回给评分系统。例如，第一文本为“有座位加热”，第一拼音序列为“you zuo wei jia re”，则数据库向评分系统返回“you zuo wei jia re”对应的正确文本“右座位加热”。若评分系统对“右座位加热”的评分为满分或超过预设阈值，则将第一文本“右座位加热”返回给数据库，供数据库将该“有座位加热”作为“右座位加热”的泛化文本。采用该种方案，实现更新数据库的目的。

第二种情况：数据库中不存在第一拼音序列。

电子设备对第一拼音序列进行拆词处理以得到多个拼音，对于所述多个拼音中的每个拼音，从所述数据库中确定出包含该拼音的第二拼音序列和各第二拼音序列对应的第二文本。

示例性的，假设第一拼音序列为“xian mo shi”，被拆分为“xian”和“moshi”，电子设备根据“xian”确定出的第二文本包括西安、吸烟模式和休闲模式。同理，电子设备根据“moshi”确定出第二文本包括吸烟模式、空调模式和休闲模式。采用该种方案，通过单词模糊匹配确定出多个正确文本，实现缩小匹配范围的目的。

电子设备确定出多个第二文本后，将该些第二文本和第一文本发送给评分系统，由评分系统根据该些第二文本和第一文本确定语音识别结果。

示例性的，电子设备确定所述多个第二文本中各第二文本的第二拼音序列和所述第一拼音序列的相似度，以得到多个相似度；然后，根据所述多个相似度中的最大相似度，确定所述目标文本。

继续沿用上述的例子，评分系统根据拼音规则进行评分，分别判断“xian mo shi”和“xian”、“xi yan mo shi”、“xiu xian mo shi”、“kong tiao mo shi”的相似度，得到多个相似度。

确定出多个相似度后，电子设备判断该些相似度中最大相似度是否超过预设阈值，若最大相似度大于或等于预设阈值，则确定所述语音识别结果为所述最大相似度对应的第二文本；若所述最大相似度小于所述预设阈值，则将第一文本作为语音识别结果。

示例性的，若该些相似度中，“xian mo shi”和“xi yan mo shi”的相似度最高且相似度超过预设阈值，则将“xi yan mo shi”对应的第二文本作为语音识别结果。也就是说，即使电子设备的语音识别引擎将用户的语音信号识别为“先模式”，但是经过纠错后，得到正确的语音识别结果为“吸烟模式”。之后，电子设备将第一文本“先模式”加入到数据库中第二文本“吸烟模式”的泛化表中。后续倘若电子设备的语音识别引擎再次识别到“先模式”，则无需进行拼音转换，而是直接查询数据库即可确定出正确的语音识别结果为“吸烟模式”。采用该种方案，通过评分规则能对整个数据库进行泛化，无需人力去覆盖，减少人力成本。

若最大相似度小于预设阈值，则将第一文本作为语音识别结果。示例性的，假设第一文本为“吸烟模式”，对应的第一拼音序列为“xi yan mo shi”。但是数据库中不存在“xiyan mo shi”这个拼音序列，经过单词模糊匹配得到的第二文本包括“kong tiao mo shi”和“xian”，但是评分系统发现“xi yan mo shi”和kong tiao mo shi”的相似度低于预设阈值，“xi yan mo shi”和“xian”的相似度低于预设阈值。此时，评分系统向数据库返回“吸烟模式”，使得数据库将“吸烟模式”作为一条正确文本，并存储“吸烟模式”和“xi yan moshi”的对应关系。

上述实施例中，若最大相似度大于或等于预设阈值，则电子设备将最大相似度对应的第二文本作为所述语音信号的语音识别结果之后，还将所述第一文本添加至所述最大相似度对应的第二文本的泛化表中，该泛化表用于存储所述最大相似度对应的第二文本的泛化文本，所述泛化文本与所述第二文本具有相同的意图。之后，电子设备向服务器发送第一数据流，所述第一数据流携带所述最大相似度对应的第二文本、所述第一文本以及所述第一拼音序列的对应关系。

示例性的，电子设备可以定时将数据库同步到服务器，使得云端的服务器对不同电子设备上报的数据库中的正确文本和泛化文本进行整合、去重等，并将整合后的数据库下发到对应的车型。比如，电子设备为车载终端，该车载终端用于执行本申请实施例所述的方法，车载终端将不断完善的数据库同步给云端的服务器，云端对该数据库进行整合等，下发给其他车载终端设备。该过程中，发送端的车载终端和接收端的车载终端的厂商、型号可以相同或不同，本申请实施例并不限制。采用该种方案，通过将离线纠正的数据库同步到云端并整合，实现数据共享的目的。

上述实施例中，电子设备在进行语音识别的过程中，不断的完善数据库，并将完善后的数据库同步到云端，由云端进行整个等。然而，本申请实施例并不限制，其他可行的实现方式中，电子设备还能够识别用户输入的第二数据流，该第二数据流用于指示所述第二文本与第二拼音序列的对应关系，以及所述第二文本的泛化文本，向服务器发送所述第二数据流。

示例性的，用户可以直接将第二文本、第二拼音序列和第二文本的泛化文本的对应关系通过终端设备发送给服务器，无需经过终端本地的纠正算法。采用该种方案，实现灵活的向服务器提供坏例的目的。

上述介绍了本公开实施例提到的语音识别方法的具体实现，下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4为本公开实施例提供的语音识别装置的结构示意图。该装置可以集成在电子设备中或通过电子设备实现。如图4所示，在本实施例中，该语音识别装置100可以包括：

识别模块11，用于通过识别获取的语音信号，得到第一文本；

检索模块12，用于利用所述第一文本对应的第一拼音序列，进行数据库的检索；

匹配模块13，用于响应于在所述数据库中未搜索到所述第一拼音序列，根据所述第一拼音序列进行模糊搜索，所述模糊搜索用于查找具有所述第一拼音序列中至少一个拼音的第二拼音序列和与所述第二拼音序列对应的第二文本；

确定模块14，用于选取所述模糊搜索得到的至少一个第二文本，作为所述语音信号的语音识别结果。

一种可行的设计中，所述确定模块14，用于确定所述至少一个第二文本中各第二文本对应的第二拼音序列和所述第一拼音序列的相似度，以得到多个相似度，根据所述多个相似度中的最大相似度，从所述至少一个第二文本中确定出所述语音信号的语音识别结果。

一种可行的设计中，所述确定模块14在根据所述多个相似度中的最大相似度，从所述至少一个第二文本中确定出所述语音信号的语音识别结果时，若所述最大相似度大于或等于预设阈值，则用于确定所述多个正确文本中各正确文本对应的第二拼音序列和所述第一拼音序列的相似度；或者，若所述最大相似度小于所述预设阈值，则用于确定所述第一文本为所述语音信号的语音识别结果。

图5为本公开实施例提供的另一个语音识别装置的结构示意图。请参照图5，一种可行的设计中，上述的语音识别装置100还包括：

添加模块15，用于若所述最大相似度大于或等于预设阈值，则所述确定模块14确定所述最大相似度对应的第二文本作为所述语音信号的语音识别结果之后，将所述第一文本添加至所述最大相似度对应的第二文本的泛化表中，所述泛化表用于存储所述最大相似度对应的第二文本的泛化文本，所述泛化文本与所述第二文本具有相同的意图。

再请参照图5，一种可行的设计中，上述的语音识别装置100还包括：

发送模块16，用于向服务器发送第一数据流，所述第一数据流携带所述最大相似度对应的第二文本、所述第一文本以及所述第一拼音序列的对应关系。

一种可行的设计中，所述识别模块11，还用于识别用户输入的第二数据流，所述第二数据流用于指示所述第二文本与所述第二拼音序列的对应关系，以及所述第二文本的泛化文本；

所述发送模块16，用于向服务器发送所述第二数据流。

一种可行的设计中，所述确定模块14，在所述识别模块11识别语音信号以得到第一文本之后，还用于若所述检索模块12在所述数据库中未搜索到所述第一拼音序列，则确定所述语音信号的识别结果为所述第一拼音序列对应的第三文本。

一种可行的设计中，所述确定模块14，还用于在所述匹配模块13响应于在所述数据库中未搜索到所述第一拼音序列，根据所述第一拼音序列进行模糊搜索之前，确定所述数据库中不存在所述第一文本。

本公开实施例提供的语音识别装置，可用于如上实施例中服务器执行的方法，其实现原理和技术效果类似，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

图6是用来实现本公开实施例的语音识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器21、存储器22，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器21为例。

存储器22即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音识别方法。

存储器22作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块(例如，附图4所示的识别模块11、匹配模块12、确定模块13以及附图5所述的添加模块14和发送模块15)。处理器21通过运行存储在存储器22中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别方法。

存储器22可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储电子设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置23和输出装置24。处理器21、存储器22、输入装置23和输出装置24可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置23可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置24可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本申请实施例还提供一种语音识别方法，包括：识别语音信号以得到第一文本；对所述第一文本进行模糊匹配，以得到多个正确文本，所述多个正确文本中的各正确文本与所述第一文本包含至少一个拼音相同的词语，从所述多个正确文本中确定出目标文本，将所述目标文件作为所述语音信号的语音识别结果。

该实施例的具体实现原理可以参见上述实施例的记载，此处不再赘述。

根据本申请实施例的技术方案，电子设备识别语音信号得到第一文本，若数据库中是否存在该第一文本对应的第一拼音序列，则将第一拼音序列对应的正确文本作为语音识别结果；否则，对第一文本进行模糊匹配得到多个正确文本，并从多个正确文本中确定出目标文本。该过程中，电子设备识别语音信号得到第一文本，若数据库中不存在该第一文本，则说明发生误识别，此时，电子设备通过模糊匹配等自动纠正误识别得到正确的语音识别结果，提升语音识别的准确性。同时，可以根据不同厂商的命令集合设置不同的数据库，随时调整数据库，节约人力物力的同时，灵活性比较高。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

通过识别获取的语音信号，得到第一文本；

利用所述第一文本对应的第一拼音序列，进行数据库的检索；

响应于在所述数据库中未搜索到所述第一拼音序列，根据所述第一拼音序列进行模糊搜索，所述模糊搜索用于查找具有所述第一拼音序列中至少一个拼音的第二拼音序列和与所述第二拼音序列对应的第二文本；

选取所述模糊搜索得到的至少一个第二文本，作为所述语音信号的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述选取所述模糊搜索得到的至少一个第二文本，作为所述语音信号的语音识别结果，包括：

确定所述至少一个第二文本中各第二文本对应的第二拼音序列和所述第一拼音序列的相似度，以得到多个相似度；

根据所述多个相似度中的最大相似度，从所述至少一个第二文本中确定出所述语音信号的语音识别结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个相似度中的最大相似度，从所述至少一个第二文本中确定出所述语音信号的语音识别结果，包括：

若所述最大相似度大于或等于预设阈值，则确定所述最大相似度对应的第二文本为所述语音信号的语音识别结果；或者，

若所述最大相似度小于所述预设阈值，则确定所述第一文本为所述语音信号的语音识别结果。

4.根据权利要求3所述的方法，其特征在于，所述若所述最大相似度大于或等于预设阈值，则确定所述最大相似度对应的第二文本作为所述语音信号的语音识别结果之后，还包括：

将所述第一文本添加至所述最大相似度对应的第二文本的泛化表中，所述泛化表用于存储所述最大相似度对应的第二文本的泛化文本，所述泛化文本与所述第二文本具有相同的意图。

5.根据权利要求4所述的方法，其特征在于，还包括：

向服务器发送第一数据流，所述第一数据流携带所述最大相似度对应的第二文本、所述第一文本以及所述第一拼音序列的对应关系。

6.根据权利要求1所述的方法，其特征在于，还包括：

识别用户输入的第二数据流，所述第二数据流用于指示所述第二文本与所述第二拼音序列的对应关系，以及所述第二文本的泛化文本；

向服务器发送所述第二数据流。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述利用所述第一文本对应的第一拼音序列，进行数据库的检索之后，所述方法还包括：

若从所述数据库中未搜索到所述第一拼音序列，则确定所述语音信号的识别结果为所述第一拼音序列对应的第三文本。

8.根据权利要求1-6任一项所述的方法，其特征在于，所述响应于在所述数据库中未搜索到所述第一拼音序列，根据所述第一拼音序列进行模糊搜索之前，还包括：

确定所述数据库中不存在所述第一文本。

9.一种语音识别装置，其特征在于，包括：

识别模块，用于通过识别获取的语音信号，得到第一文本；

10.根据权利要求9所述的装置，其特征在于，

所述匹配模块，用于确定所述至少一个第二文本中各第二文本对应的第二拼音序列和所述第一拼音序列的相似度，以得到多个相似度，根据所述多个相似度中的最大相似度，从所述至少一个第二文本中确定出所述语音信号的语音识别结果。

11.根据权利要求10所述的装置，其特征在于，

所述确定模块在根据所述多个相似度中的最大相似度，从所述至少一个第二文本中确定出所述语音信号的语音识别结果时，若所述最大相似度大于或等于预设阈值，则用于确定所述多个正确文本中各正确文本对应的第二拼音序列和所述第一拼音序列的相似度；或者，若所述最大相似度小于所述预设阈值，则用于确定所述第一文本为所述语音信号的语音识别结果。

12.根据权利要求11所述的装置，其特征在于，还包括：

添加模块，用于若所述最大相似度大于或等于预设阈值，则所述确定模块确定所述最大相似度对应的第二文本作为所述语音信号的语音识别结果之后，将所述第一文本添加至所述最大相似度对应的第二文本的泛化表中，所述泛化表用于存储所述最大相似度对应的第二文本的泛化文本，所述泛化文本与所述第二文本具有相同的意图。

13.根据权利要求12所述的装置，其特征在于，还包括：

发送模块，用于向服务器发送第一数据流，所述第一数据流携带所述最大相似度对应的第二文本、所述第一文本以及所述第一拼音序列的对应关系。

14.根据权利要求9所述的装置，其特征在于，还包括：发送模块，所述识别模块，还用于识别用户输入的第二数据流，所述第二数据流用于指示所述第二文本与所述第二拼音序列的对应关系，以及所述第二文本的泛化文本；

所述发送模块，用于向服务器发送所述第二数据流。

15.根据权利要求9-14任一项所述的装置，其特征在于，

所述确定模块，还用于若所述检索模块在所述数据库中未搜索到所述第一拼音序列，则确定所述语音信号的识别结果为所述第一拼音序列对应的第三文本。

16.根据权利要求9-14任一项所述的装置，其特征在于，

所述确定模块，还用于在所述匹配模块响应于在所述数据库中未搜索到所述第一拼音序列，根据所述第一拼音序列进行模糊搜索之前，确定所述数据库中不存在所述第一文本。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种语音识别方法，其特征在于，包括：

识别语音信号以得到第一文本；

根据所述第一文本对应的第一拼音序列进行模糊匹配，以得到多个第二拼音序列和与所述第二拼音序列对应的第二文本，所述第二拼音序列具有所述第一拼音序列中的至少一个拼音；

从所述多个第二文本中确定出所述语音信号的语音识别结果。