CN117351959A

CN117351959A - 基于拼音纠错的多重模型语音识别与指令召回方法及装置

Info

Publication number: CN117351959A
Application number: CN202311191811.XA
Authority: CN
Inventors: 李豪; 汤欣
Original assignee: Guangdong Yunlin Information Engineering Technology Co ltd
Current assignee: Guangdong Yunlin Information Engineering Technology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2024-01-05

Abstract

本发明涉及基于拼音纠错的多重模型语音识别与指令召回方法，包括以下：获取用户的语音数据；对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据；对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据；对拼音纠错后的文本数据进行结果匹配，生成回复文本；基于所述回复文本控制前端进行语音播报。基于多重语音模型对用户的语音数据进行针对识别，在语音数据存在英文时，针对性的使用英文模型进行识别，在语音数据仅含中文时，通过两个中文识别模型进行共同识别并以计算置信度的方式得到优选结果，确保识别准确。在完成识别后还会进行拼音纠错，进一步保证语音识别的准确。

Description

基于拼音纠错的多重模型语音识别与指令召回方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及基于拼音纠错的多重模型语音识别与指令召回方法及装置。

背景技术

语音识别是一种将人类语音转换为文本形式的技术。它可以将口述的语音内容转化为可以被机器理解和处理的文本信息，为人机交互、语音控制和自动化等领域提供了巨大的便利。

当今市场在进行语音识别的过程中，当语音数据存在英文时，使用通用的中文模型进行识别会导致识别结果不准确，而进行中文识别时仅仅使用单一的通用模型进行识别也会影响识别精度。另外识别过程中所形成的文本数据可能会出现错字问题，如果不进行纠错，可能会影响后续的处理。

发明内容

本发明的目的是为了至少解决现有技术的不足之一，提供基于拼音纠错的多重模型语音识别与指令召回方法及装置。

为了实现上述目的，本发明采用以下的技术方案：

具体的，提出基于拼音纠错的多重模型语音识别与指令召回方法，包括以下：

获取用户的语音数据；

对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据；

对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据；

对拼音纠错后的文本数据进行结果匹配，生成回复文本；

基于所述回复文本控制前端进行语音播报。

进一步，具体的，对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据，包括，

通过Whisper模型对所述语音数据进行检测判断其中是否存在英文，

若存在英文则通过Whisper模型对所述语音数据进行识别得到文本数据，

若不存在英文则分别通过Paddle模型对所述语音数据识别得到第一结果，通过WeNet模型对所述语音数据识别得到第二结果；

对所述第一结果以及第二结果进行置信度计算，选择置信度计算较优的结果作为识别得到的文本数据。

进一步，具体的，对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据，包括，

预构建频繁词汇表bias_words，所述频繁词汇表bias_words中包括收录的关键词汇，对所述文本数据中每个词语根据预建立的拼音词表进行转拼音，当任意词语命中到所述拼音词表时，对该词语进行匹配转换将所述文本数据中的多音字替换，得到拼音纠错后的文本数据；

进一步，具体的，对拼音纠错后的文本数据进行结果匹配，包括，

使用sbert挛生网络对拼音纠错后的文本数据进行匹配，然后按照识别分数及指令匹配的综合分数来选择结果，并通过三级置信度算法控制反馈的内容，之后通过对数智中心系统模块的指令集成对语音识别的结果并使用faiss向量数据库来保存数据进行向量化并匹配出结果。

进一步，具体的，基于所述回复文本控制前端进行语音播报，包括，

通过Paddle模型的语音合成模块对所述回复文本进行语音合成得到合成结果，将所述合成结果上传至ftp文件服务器，并将对应的语音地址返回值前端进行播放。

本发明还提出基于拼音纠错的多重模型语音识别与指令召回装置，包括：

语音数据获取模块，用于获取用户的语音数据；

语音识别模块，用于对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据；

拼音纠错模块，用于对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据；

结果匹配模块，用于对拼音纠错后的文本数据进行结果匹配，生成回复文本；

语音播报模块，用于基于所述回复文本控制前端进行语音播报。

本发明还提出一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于拼音纠错的多重模型语音识别与指令召回方法的步骤。

本发明的有益效果为：

本发明提出基于拼音纠错的多重模型语音识别与指令召回方法，基于多重语音模型对用户的语音数据进行针对识别，在语音数据存在英文时，针对性的使用英文模型进行识别，在语音数据仅含中文时，通过两个中文识别模型进行共同识别并以计算置信度的方式得到优选结果，确保识别准确。在完成识别后还会进行拼音纠错，进一步保证语音识别的准确。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为本发明基于拼音纠错的多重模型语音识别与指令召回方法的流程图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

参照图1，实施例1，本发明提出基于拼音纠错的多重模型语音识别与指令召回方法，包括以下：

步骤110、获取用户的语音数据；

步骤120、对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据；

步骤130、对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据；

步骤140、对拼音纠错后的文本数据进行结果匹配，生成回复文本；

步骤150、基于所述回复文本控制前端进行语音播报。

在本实施例1中，基于多重语音模型对用户的语音数据进行针对识别，在语音数据存在英文时，针对性的使用英文模型进行识别，在语音数据仅含中文时，通过两个中文识别模型进行共同识别并以计算置信度的方式得到优选结果，确保识别准确。在完成识别后还会进行拼音纠错，进一步保证语音识别的准确。

作为本发明的优选实施方式，具体的，对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据，包括，

在本优选实施方式中，具体表现为：

Whisper英文识别模型的过程为首先加载Whisper英文识别模型，包括Whisper的base和large两个模型，其次将音频数据进行预处理成mel spectrogram特征，melspectrogram特征是指音频波形到mel频谱的转换,通过借助FFT、窗口函数、滤波器组等信号处理技术,提炼了音频的梅尔频率特征,这是声音识别中常用的音频前处理方式。随后根据mel spectrogram特征调用base或者large模型进行检测和识别，最终将识别结果进行返回。

Paddle和WeNet中文模型识别原理都是先加载中文语音识别模型，对音频文件进行采样率转换和读取，例如接受音频wav数据作为输入，调用decoder对音频进行解码，最终将识别结果进行返回。

作为本发明的优选实施方式，具体的，对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据，包括，

在本优选实施方式中，在应用时，例如，道路涂层-->道路图层，能够对其中的错别字进行纠正。

作为本发明的优选实施方式，具体的，对拼音纠错后的文本数据进行结果匹配，包括，

使用sbert挛生网络对拼音纠错后的文本数据进行匹配，然后按照识别分数及指令匹配的综合分数来选择结果，并通过三级置信度算法控制反馈的内容，之后通过对数智中心系统模块的指令集成对语音识别的结果并使用faiss向量数据库来保存数据进行向量化并匹配出结果，

其中，sbert挛生网络对文本数据的匹配后按0到100进行打分，识别分数和指令匹配综合分数分别占比0.3、0.7，按满分100分得出最终分数排名，数智中心指当前使用该算法的web应用系统，用于集成语音识别结果并写入数据库。

作为本发明的优选实施方式，具体的，基于所述回复文本控制前端进行语音播报，包括，

在一次完整的运行过程中，在用户发出指令后，通过设备识别用户的声音调用后端平台，后端根据需要调用AI语音。AI语音助手采用Paddle、WeNet模型识别中文，Whisper识别英文单词，期间会进行识别声音以及拼音纠错。使用sbert挛生网络来进行匹配，然后按照识别分数及指令匹配的综合分数来选择结果，使用三级置信度算法控制反馈的内容。然后通过对数智中心系统模块的指令集成对语音识别的结果并使用faiss向量数据库来保存数据进行向量化并匹配出结果。指令方面，通过匹配的结果反馈给后端，后端根据指令集反馈前端进行操作。反馈语音方面，使用Paddle的语音合成模块，以服务的方式对反馈的文字进行语音合成，并上传到ftp文件服务器，将语音地址返回给前端进行播放。

以数据处理的角度的一次运行流程如下，

(1)、读取语音文件(打开监测预警_1683888298.wav),获取语音二进制数据wav

(2)、准备请求数据,包括语音数据和一些请求头

(3)、发送POST请求到语音助手接口http://localhost:5001/assistant/v1/

(4)、服务端接收请求,对语音数据进行:

a、英文检测,选择英文/中文模型

b、中文模型语音识别,得到文本

c、拼音纠错,处理识别错误

d、指令匹配,获取指令内容

e、生成回复文本

(5)、服务端返回json结果,包含:

a、识别文本context

"context":"打开监测预警"

b、匹配指令commands

"commands":[{"code":0,"score":2.233295440673828,"recall_text":"打开监控点位置","page_name":"监测预警","data":{"menu":"监测预警","function":"","order":"","instruct":"FIRE_POINT","resource_id":"","resource_url":""}}]

c、回复文本feedback

"feedback":{"context":"马上为您打开打开监测预警","tts_audio_url":"http://111.50.7.186:8386/dataServer/spt/ai_assistant/b2e60ce7ac81dbafc59f1049661dec03.wav"}

(6)、前端拿到结果,播放回复语音，完成交互。

语音数据获取模块，用于获取用户的语音数据；

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储的介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，包括以下：

获取用户的语音数据；

对拼音纠错后的文本数据进行结果匹配，生成回复文本；

基于所述回复文本控制前端进行语音播报。

2.根据权利要求1所述的基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，具体的，对所述语音数据进行英文检测，判断所述语音数据中是否存在英文，根据判断结果对所述语音数据进行识别得到文本数据，包括，

3.根据权利要求1所述的基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，具体的，对所述文本数据进行拼音纠错，得到拼音纠错后的文本数据，包括，

预构建林业信息化特色的频繁词汇表bias_words，所述频繁词汇表bias_words中包括收录的关键词汇，对所述文本数据中每个词语根据预建立的拼音词表进行转拼音，当任意词语命中到所述拼音词表时，对该词语进行匹配转换将所述文本数据中的多音字替换，得到拼音纠错后的文本数据。

4.根据权利要求1所述的基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，具体的，对拼音纠错后的文本数据进行结果匹配，包括，

5.根据权利要求1所述的基于拼音纠错的多重模型语音识别与指令召回方法，其特征在于，具体的，基于所述回复文本控制前端进行语音播报，包括，

6.基于拼音纠错的多重模型语音识别与指令召回装置，其特征在于，包括：

语音数据获取模块，用于获取用户的语音数据；

7.一种计算机可读存储的介质，所述计算机可读存储的介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。