CN112053692B

CN112053692B - 语音识别处理方法、装置及存储介质

Info

Publication number: CN112053692B
Application number: CN202011020088.5A
Authority: CN
Inventors: 姚远; 梁志婷; 徐世超; 徐浩
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2024-01-12
Anticipated expiration: 2040-09-24
Also published as: CN112053692A

Abstract

本发明公开了一种语音识别处理方法、装置及存储介质。其中，该方法包括：获取原始音频数据；将原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，第一参考文本信息为从原始音频数据中识别出的语音片段对应的文字信息，语音标记数据用于指示原始音频数据中的语音片段的位置，第一语音识别引擎为通用语音识别引擎；确定出第一参考文本信息中的关键字；将原始音频数据输入至与关键字匹配的第二语音识别引擎，以得到目标文本信息，其中，第二语音识别引擎为关键字所属领域的语音识别引擎。本发明解决了相关技术提供的音频识别方法存在获取音频数据对应的文本数据操作较为复杂的技术问题。

Description

语音识别处理方法、装置及存储介质

技术领域

本发明涉及语音处理和识别技术领域，具体而言，涉及一种语音识别处理方法、装置及存储介质。

背景技术

在相关技术中，通过一次自动语音识别(Automatic Speech Recognition，简称ASR)通常无法获得准确可靠的文本数据，因此，需要对自动语音识别获取的文本数据进行多次重复的分析；另一种做法是通过再次播放音频段以核对识别文本的准确性，该方法需要剔除音频数据中包含的空白音频段，而且还会耗费大量的时间，通过多次播放音频人工进行核对也会造成语音识别结果出现误差。因此会造成获取语音文件对应的文本数据工作效率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音识别处理方法、装置及存储介质，以至少解决相关技术提供的音频识别方法存在识别处理操作较为复杂的技术问题。

根据本发明实施例的一个方面，提供了一种语音识别处理方法，包括：获取原始音频数据；将上述原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，上述第一参考文本信息为从上述原始音频数据中识别出的语音片段对应的文字信息，上述语音标记数据用于指示上述原始音频数据中的上述语音片段的位置，上述第一语音识别引擎为通用语音识别引擎；确定出上述第一参考文本信息中的关键字；将上述原始音频数据输入至与上述关键字匹配的第二语音识别引擎，以得到目标文本信息，其中，上述第二语音识别引擎为上述关键字所属领域的语音识别引擎。

根据本发明实施例的又一方面，还提供了一种语音识别处理装置，包括：第一获取单元，用于获取原始音频数据；第一识别单元，用于将上述原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，上述第一参考文本信息为从上述原始音频数据中识别出的语音片段对应的文字信息，上述语音标记数据用于指示上述原始音频数据中的上述语音片段的位置，上述第一语音识别引擎为通用语音识别引擎；第一确定单元，用于确定出上述第一参考文本信息中的关键字；第二识别单元，用于将上述原始音频数据输入至与上述关键字匹配的第二语音识别引擎，以得到目标文本信息，其中，上述第二语音识别引擎为上述关键字所属领域的语音识别引擎。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，其特征在于，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述语音识别处理的方法。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上语音识别处理方法。

在本发明实施例中，通过获取原始音频数据；将原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，第一参考文本信息为从原始音频数据中识别出的语音片段对应的文字信息，语音标记数据用于指示原始音频数据中的语音片段的位置，第一语音识别引擎为通用语音识别引擎；确定出第一参考文本信息中的关键字；将原始音频数据输入至与关键字匹配的第二语音识别引擎，以得到目标文本信息，其中，第二语音识别引擎为关键字所属领域的语音识别引擎。基于第一识别引擎识别原始语音数据生成第一参考文本信息，并确定出第一参考文本信息中的关键字，并基于该关键字将原始语音数据再次输入该关键字所属领域的语音识别引擎，可以解决相关技术提供的音频识别方法存在获取音频数据对应的文本数据操作较为复杂的问题，进而可以实现提高语音识别效率以及提高语音识别准确度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音识别处理方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的语音识别处理方法的流程示意图；

图3是根据本发明实施例的又一种可选的语音识别处理方法的流程示意图；

图4是根据本发明实施例的又一种可选的语音识别处理方法的流程示意图；

图5是根据本发明实施例的一种可选的语音识别处理装置的示意图；

图6是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种语音识别处理方法，可选地，作为一种可选的实施方式，上述语音识别处理方法可以但不限于应用于如图1所示的环境中。

图1中，电子设备104负责与用户102进行人机交互，电子设备104包括了存储器106、处理器108与显示器110；电子设备104可以通过网络112与后台服务器114之间进行交互。服务器114包括数据库116与处理引擎118。电子设备104获取当前用户102或当前用户102服务对象的原始音频数据，存储器106用户存储上述原始音频数据，处理器108将原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；第一语音识别引擎为通用语音识别引擎；确定出第一参考文本信息中的关键字；将原始音频数据输入至与关键字匹配的第二语音识别引擎，以得到目标文本信息；目标文本信息可以在上述显示器110上进行显示。

可选地，在本实施例中，上述电子设备104可以是配置有目标客户端和/或目标服务端的终端设备，上述终端设备可以是麦克风或麦克风阵列，也可以是配置有麦克风的终端设备，上述电子设备104可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。目标服务端可以是视频服务端、即时通信服务端、浏览器服务端、教育服务端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，本发明实施例提供一种语音识别处理方法，如图2所示，该方法包括但不限于以下步骤：

S202：获取原始音频数据；

S204：将原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，第一参考文本信息为从原始音频数据中识别出的语音片段对应的文字信息，语音标记数据用于指示原始音频数据中的语音片段的位置，第一语音识别引擎为通用语音识别引擎；

S206：确定出第一参考文本信息中的关键字；

S208：将原始音频数据输入至与关键字匹配的第二语音识别引擎，以得到目标文本信息，其中，第二语音识别引擎为关键字所属领域的语音识别引擎。

在步骤S202中，实际应用时，通过录音终端获取原始音频数据，录音终端可以是麦克风或麦克风阵列，也可以是配置有麦克风的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、IOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(MobileInternet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。原始音频数据可以为录音终端获取到的各种音频格式的数据文件，包括但不限于：ACT、REC、 MP3、WAV、WMA、VY1、VY2、DVF、MSC、AIFF等格式；原始音频数据也可以是脉冲编码调制(Pulse CodeModulation，PCM)音频流数据。

在步骤S204中，实际应用时，原始音频数据通过自动语音识别技术 (AutomaticSpeech Recognition，ASR)中的语音识别引擎将原始音频数据转换为第一参考文本信息，ASR是一种将人的语音转换为文本的技术，其目标是让计算机能够“听写”出不同人所说出的连续语音，也称之为的“语音听写机”，是实现“声音”到“文字”转换的技术。在本实施例中，第一语音识别引擎可以为谷歌语音识别引擎、微软语音识别引擎或科大讯飞的语音识别引擎，在此不作限定，通过第一语音识别引擎可以将原始音频数据中的语音片段转换为文字信息，语音标记数据可以记录原始语音数据中发音部分的开始时间和结束时间。例如，原始语音数据为1分钟的音频文件，在该音频文件中，第20秒检出人声，直至40秒人声结束，那么语音标记数据就可以为20秒至40秒为语音片段，其余部分为噪音部分。

在步骤S206中，实际应用时，确定出所述第一参考文本信息中的关键字；关键字提取是把第一参考文本信息中包含的信息进行结构化处理，并将提取的信息以统一形式集成在一起。例如，第一参考文本信息中包括“您好，欢迎光临本店，您有什么需求可以随时叫我。”则上述文本信息中的“欢迎光临”为关键字，当某个门店确定当天有多少客流进入门店，就可以统计上述第一参考文本信息中的“欢迎光临”的出现次数来实现。

在步骤S208中，实际应用时，先通过关键字来确定该关键字所属的领域，例如关键字中包含“人工智能”或“区块链”等计算机领域的专业词汇时，可以选择计算机领域的语音识别引擎作为第二语音识别引擎。第二语音识别引擎中包含计算机领域的语音字典。通过采用专属领域的第二语音识别引擎可以进一步提高语音识别的准确性。

本发明实施例基于第一识别引擎识别原始语音数据生成第一参考文本信息，并确定出第一参考文本信息中的关键字，并基于该关键字将原始语音数据再次输入该关键字所属领域的语音识别引擎，可以解决相关技术提供的音频识别方法存在获取音频数据对应的文本数据操作较为复杂的问题，进而可以实现提高语音识别效率以及提高语音识别准确度的技术效果。

在一实施例中，步骤S204可以包括如下步骤：通过第一语音识别引擎从原始音频数据中识别出语音片段，并将语音片段转换为文本信息；将语音片段的发音起始点标记为第一时间标签，并将语音片段的发音结束点标记为第二时间标签；利用第一时间标签和第二时间标签生成原始音频数据对应的语音标记数据；根据文本信息和语音标记数据生成第一参考文本信息。

例如，原始音频数据在第10秒至第50秒为语音片段，然后将第10 秒标记为第一时间标签，即原始音频数据中的发音起始点，第50秒标记为第二时间标签，即的原始音频数据中的发音结束点，那么0至10秒以及50至60秒为背景噪音部分。这里，背景噪音部分可以为静音部分或者非人声部分，通过添加时间标签的方式可以将原始音频数据中的语音片段进行标识，可以快速分别出语音部分和背景噪音部分。

在一实施例中，步骤S208可以包括如下步骤：将原始音频数据输入至第二语音识别引擎进行至少一次语音识别，得到目标文本信息。当原始音频数据经过第二识别引擎处理得到的目标文本信息与第一参考文本信息相比差别较大时，可以将原始音频数据输入至第二语音识别引擎进行多次语音识别，直至得到的当前目标文本信息和第一参考文本信息小于预设的值。

在一实施例中，将原始音频数据输入至第二语音识别引擎进行至少一次语音识别，得到目标文本信息包括：将原始音频数据输入至第二语音识别引擎，直至输出的识别结果达到识别条件：

获取当前识别结果中的第二参考文本信息；在第二参考文本信息与第一参考文本信息之间的相似度小于等于预设阈值的情况下，确定当前识别结果达到识别条件，并将第二参考文本信息作为目标文本信息；在第二参考文本信息与第一参考文本信息之间的相似度大于预设阈值的情况下，确定当前识别结果并未达到识别条件，获取下一个识别结果作为当前识别结果。

例如，设置第一参考文本信息和第二参考文本信息之间的相似度预设阈值为90％，也就是说，假设第一参考文本信息中包含100个字符，把原始音频数据输入至第二语音识别引擎后，得到的第二参考文本信息得到的字符中有10个以上的字符和第一参考文本不同，就需要再次将原始音频数据输入至第二语音识别引擎进行再次识别，直到得出的当前第二参考文本信息中的字符与第一参考文本信息包含的字符差别数小于10时，可以确定当前的第二参考文本信息作为目标文本信息。通过原始音频数据多次进行语音识别能够获取到更精准的语音识别文本。

在一实施例中，步骤S208还包括：基于FFMPEG工具将原始音频数据的原始音频格式转换为目标音频格式；利用语音标记数据对目标音频格式下的原始音频数据进行切分处理，得到包含语音片段的目标语音数据；将目标语音数据输入至第二语音识别引擎，以得到目标文本信息。例如，基于FFMPEG工具将原始音频数据从PCM格式转换为MP3格式，通过语音标记数据将该MP3格式的原始音频数据进行切分，得到包含语音片段的目标语音数据，也就是说该MP3格式的原始音频数据中可以只保留包含人声的音频片段。将原始音频数据转换为MP3格式，方便用户对原始音频数据进行切分及保存。

在一实施例中，步骤S208之后还包括：基于目标文本信息中包含的关键字的个数来确定目标对象的个数；其中，产生原始音频数据的音源对象为目标对象或目标对象的服务对象。例如，在一商店中，店员使用录音设备录制当天的语音信息，将该语音信息转换为目标文本信息中包括“您好，欢迎光临”，那么可以通过关键字“欢迎光临”来确定当前的进店客户的数量。

基于前述实施例，本发明实施例提供一种语音识别处理方法，如图3 所示，该方法包括但不限于以下步骤：

S302：获取原始音频数据；

S304：将原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，第一参考文本信息为从原始音频数据中识别出的语音片段对应的文字信息，语音标记数据用于指示原始音频数据中的语音片段的位置，第一语音识别引擎为通用语音识别引擎；

S306：确定出第一参考文本信息中的关键字；

S308：将原始音频数据输入至关键字所属领域的第二语音识别引擎，直至输出的识别结果达到识别条件：

S310：获取当前识别结果中的第二参考文本信息；

S312：在第二参考文本信息与第一参考文本信息之间的相似度小于等于预设阈值的情况下，确定当前识别结果达到识别条件，并将第二参考文本信息作为目标文本信息；

S314：在第二参考文本信息与第一参考文本信息之间的相似度大于预设阈值的情况下，确定当前识别结果并未达到识别条件，获取下一个识别结果作为当前识别结果。

基于前述实施例，在一应用实施例中，如图4所示，上述语音识别处理方法包括但不限于以下步骤：

S402:获取原始音频数据。

在步骤S402中，录音设备直接获取到的原始音频数据可以为PCM音频流，录音设备可以将PCM音频流上传到云空间，从云空间中获取到PCM 音频流，也可以将PCM音频流存到本地数据库。

S404:对原始音频数据通过第一语音识别引擎进行第一次自动语音识别ASR识别处理，得到第一文本信息。

在步骤S404中，将原始音频数据通过ASR处理得到带有时间标识的文本信息，通过时间标记，第一文本信息可以与原始音频数据相对应，通过第一文本信息确定其中是否包含有效信息或者关键信息，其中，有效信息是指第一次ASR识别结果中有文本输出的部分，关键信息是指用户需要进行统计的一些关键词或关键句。例如，针对一段时长为1分钟的原始音频数据，经过ASR识别处理，得到带有时间标记的文本信息“您好，欢迎光临本店，您有什么需求可以随时叫我。”该文本信息的时间标记为第10秒至第40秒，则通过该文本信息，可以查找到与之相对应的音频段中第10秒至第40秒的音频数据。此外，在线下门店中，如果需要确定当天有多少客流进入门店，则可以统计文本信息中的“欢迎光临”的出现次数；那么在本实施例中，文本信息中的“欢迎光临”为关键信息。

S406:对获取到的原始音频数据进行处理，得到分片音频文件。

在步骤S406中，首先通过各大组件，例如在系统中安装FFMPEG工具、 jdk1.8和oss等组件来处理原始音频数据。其次从云空间获取PCM音频流格式的原始音频数据进行格式转换，具体为将PCM音频流格式的原始音频数据输入FFMPEG，获取PCM音频帧数和道数，指定格式等参数信息，将PCM 格式音频转换为mp3格式音频，可以通过以下命令来操作：

FFMPEG-y-ac 1-ar 16000-f s16le-i PCM音频-c:a libmp3lame mp3 音频。其中，-y表示无需询问，直接覆盖输出文件，-ac 1用于设置通道数为1，-ar 16000用于设置音频采样频率为16000，-f s16le用于设置文件格式为s16le，-i PCM音频用于设置输入文件为PCM音频，-c:a用于设置音频编码，libmp3lame为当前设置的编码器，mp3音频为转换后的音频。

最后，就可以生成mp3格式的分片音频文件的信息，该分片音频文件的信息包括文件名、本地存储位置等，在此不做限定。

S408:确定出文本信息中的有效信息，基于该有效信息确定有效信息所对应的时间标记，以及确定有效信息中的关键信息对应的时间标记，查找有效信息对应的分片音频文件，并根据时间标记确定出分片音频文件中的开始时间和持续时长。

在步骤S408中，将原始音频数据输入FFMPEG后，可以获取到mp3格式的音频文件及分段参数，然后可以将mp3格式的音频文件进行切分。对上述mp3格式的音频文件进行切分可以通过以下命令来进行操作：

FFMPEG-i整段音频文件-acodec copy-t持续时长-ss开始时间 newFile。其中，-i整段音频文件用于设置输入的文件为整段音频文件， -acodec用于设置音频的编码器和解码器，copy为复制当前的整段音频文件，-t为复制出的新文件的时长，-ss为整段音频文件的开始时间，newFile 为切分后的多个音频文件。

S410:将分片音频文件输入至第二语音识别引擎进行至少一次ASR识别处理，得到目标文本信息。

在步骤S410中，例如，可以通过第二语音识别引擎获取当前识别结果中的第二参考文本信息；第二语音识别引擎是根据第一参考文本信息中的关键字确定的关键字所属领域的第二语音识别引擎。在第二参考文本信息与第一参考文本信息之间的相似度小于等于预设阈值的情况下，确定当前识别结果达到识别条件，并将第二参考文本信息作为目标文本信息；在第二参考文本信息与第一参考文本信息之间的相似度大于预设阈值的情况下，确定当前识别结果并未达到识别条件，获取下一个识别结果作为当前识别结果。

在本实施例中，设置第一参考文本信息和第二参考文本信息之间的相似度预设阈值为90％，也就是说，假设第一参考文本信息中包含100个字符，把原始音频数据输入至第二语音识别引擎后，得到的第二参考文本信息得到的字符中有10个以上的字符和第一参考文本不同，就需要再次将原始音频数据输入至第二语音识别引擎进行再次识别，直到得出的当前第二参考文本信息中的字符与第一参考文本信息包含的字符差别数小于10时，可以确定当前的第二参考文本信息作为目标文本信息。通过多次进行语音识别能够获取到更精准的语音识别文本。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音识别处理方法的语音识别处理装置。如图5所示，该装置包括：

第一获取单元502，用于获取原始音频数据；

第一识别单元504，用于将原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，第一参考文本信息为从原始音频数据中识别出的语音片段对应的文字信息，语音标记数据用于指示原始音频数据中的语音片段的位置，第一语音识别引擎为通用语音识别引擎；

第一确定单元506，用于确定出第一参考文本信息中的关键字；

第二识别单元508，用于将原始音频数据输入至与关键字匹配的第二语音识别引擎，以得到目标文本信息，其中，第二语音识别引擎为关键字所属领域的语音识别引擎。

在一实施例中，第一识别单元504还包括：

第一转换单元，用于通过第一语音识别引擎从原始音频数据中识别出语音片段，并将语音片段转换为文本信息；

第一标记单元，用于将语音片段的发音起始点标记为第一时间标签，并将语音片段的发音结束点标记为第二时间标签；

第一生成单元，用于利用第一时间标签和第二时间标签生成原始音频数据对应的语音标记数据；

第二生成单元，用于根据文本信息和语音标记数据生成第一参考文本信息。

在一实施例中，第二识别单元508，具体用于将原始音频数据输入至第二语音识别引擎进行至少一次语音识别，得到目标文本信息。

在一实施例中，第二识别单元508，还具体用于将原始音频数据输入至第二语音识别引擎，直至输出的识别结果达到识别条件：

在一实施例中，第二识别单元508，还具体用于基于FFMPEG工具将原始音频数据的原始音频格式转换为目标音频格式；利用语音标记数据对目标音频格式下的原始音频数据进行切分处理，得到包含语音片段的目标语音数据；将目标语音数据输入至第二语音识别引擎，以得到目标文本信息。

在一实施例中，语音识别处理装置还包括：

第二确定单元，用于基于目标文本信息中包含的关键字的个数来确定目标对象的个数；其中，产生原始音频数据的音源对象为目标对象或目标对象的服务对象。

在其他实施例中，上述语音识别处理装置可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本发明实施例的又一个方面，还提供了一种用于实施上述语音识别处理方法的电子设备，如图6所示，该电子设备包括存储器602、处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述语音识别处理装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1：获取原始音频数据；

S2：将原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，第一参考文本信息为从原始音频数据中识别出的语音片段对应的文字信息，语音标记数据用于指示原始音频数据中的语音片段的位置，第一语音识别引擎为通用语音识别引擎；

S3：确定出第一参考文本信息中的关键字；

S4：将原始音频数据输入至与关键字匹配的第二语音识别引擎，以得到目标文本信息，其中，第二语音识别引擎为关键字所属领域的语音识别引擎。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图6其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本发明实施例中的语音识别处理方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音识别处理方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于存储发送对象属性特征等信息。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上述语音识别处理装置中的第一获取单元502、第一识别单 504、第一确定单元506及第二识别单元508。此外，还可以包括但不限于上述语音识别处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器608，用于显示上述语音识别处理装置识别出的文本信息；和连接总线610，用于连接上述语音识别处理装置中的各个模块部件。

在其他实施例中，上述电子设备或服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1：获取原始音频数据；

S3：确定出第一参考文本信息中的关键字；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音识别处理方法，其特征在于，包括：

获取原始音频数据；

将所述原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，所述第一参考文本信息为从所述原始音频数据中识别出的语音片段对应的文字信息，所述语音标记数据用于指示所述原始音频数据中的所述语音片段的位置，所述第一语音识别引擎为通用语音识别引擎；

确定出所述第一参考文本信息中的关键字；

利用所述语音标记数据对所述原始音频数据进行切分处理，得到包含所述语音片段的目标语音数据，并将所述目标语音数据输入至与所述关键字匹配的第二语音识别引擎，得到第二参考文本信息；在所述第二参考文本信息与所述第一参考文本信息之间的相似度小于等于预设阈值的情况下，将所述第二参考文本信息作为目标文本信息，在所述第二参考文本信息与所述第一参考文本信息之间的相似度大于预设阈值的情况下，继续在所述第二语音识别引擎中进行语音识别，直至得到所述目标文本信息，其中，所述第二语音识别引擎为所述关键字所属领域的语音识别引擎。

2.根据权利要求1所述的方法，其特征在于，所述将所述原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记的第一参考文本信息包括：

通过所述第一语音识别引擎从所述原始音频数据中识别出所述语音片段，并将所述语音片段转换为文本信息；

将所述语音片段的发音起始点标记为第一时间标签，并将所述语音片段的发音结束点标记为第二时间标签；

利用所述第一时间标签和所述第二时间标签生成所述原始音频数据对应的所述语音标记数据；

根据所述文本信息和所述语音标记数据生成所述第一参考文本信息。

3.根据权利要求1所述的方法，其特征在于，所述利用所述语音标记数据对所述原始音频数据进行切分处理，得到包含所述语音片段的目标语音数据包括：

基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式；

利用所述语音标记数据对所述目标音频格式下的所述原始音频数据进行切分处理，得到包含所述语音片段的目标语音数据。

4.根据权利要求1所述的方法，其特征在于，利用所述语音标记数据对所述原始音频数据进行切分处理，得到包含所述语音片段的目标语音数据，并将所述目标语音数据输入至与所述关键字匹配的第二语音识别引擎，得到第二参考文本信息；在所述第二参考文本信息与所述第一参考文本信息之间的相似度小于等于预设阈值的情况下，将所述第二参考文本信息作为目标文本信息，在所述第二参考文本信息与所述第一参考文本信息之间的相似度大于预设阈值的情况下，继续在所述第二语音识别引擎中进行语音识别，直至得到所述目标文本信息之后，还包括：

基于所述目标文本信息中包含的所述关键字的个数来确定目标对象的个数；其中，产生所述原始音频数据的音源对象为所述目标对象或所述目标对象的服务对象。

5.一种语音识别处理装置，其特征在于，包括：

第一获取单元，用于获取原始音频数据；

第一识别单元，用于将所述原始音频数据输入第一语音识别引擎进行语音识别，得到携带有语音标记数据的第一参考文本信息；其中，所述第一参考文本信息为从所述原始音频数据中识别出的语音片段对应的文字信息，所述语音标记数据用于指示所述原始音频数据中的所述语音片段的位置，所述第一语音识别引擎为通用语音识别引擎；

第一确定单元，用于确定出所述第一参考文本信息中的关键字；

第二识别单元，用于利用所述语音标记数据对所述原始音频数据进行切分处理，得到包含所述语音片段的目标语音数据，将所述目标语音数据输入至与所述关键字匹配的第二语音识别引擎，得到第二参考文本信息，在第二参考文本信息与所述第一参考文本信息之间的相似度小于等于预设阈值的情况下，将所述第二参考文本信息作为目标文本信息，在所述第二参考文本信息与所述第一参考文本信息之间的相似度大于预设阈值的情况下，继续在所述第二语音识别引擎中进行语音识别，直至得到所述目标文本信息，其中，所述第二语音识别引擎为所述关键字所属领域的语音识别引擎。

6.根据权利要求5所述的语音识别处理装置，其特征在于，所述第一识别单元还包括：

第一转换单元，用于通过所述第一语音识别引擎从所述原始音频数据中识别出所述语音片段，并将所述语音片段转换为文本信息；

第一标记单元，用于将所述语音片段的发音起始点标记为第一时间标签，并将所述语音片段的发音结束点标记为第二时间标签；

第一生成单元，用于利用所述第一时间标签和所述第二时间标签生成所述原始音频数据对应的所述语音标记数据；

第二生成单元，用于根据所述文本信息和所述语音标记数据生成所述第一参考文本信息。

7.根据权利要求5所述的语音识别处理装置，其特征在于，所述第二识别单元还包括：

用于基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式；利用所述语音标记数据对所述目标音频格式下的所述原始音频数据进行切分处理，得到包含所述语音片段的目标语音数据。

8.根据权利要求5所述的语音识别处理装置，其特征在于，在所述第二识别单元之后，还包括：

用于基于所述目标文本信息中包含的所述关键字的个数来确定目标对象的个数；其中，产生所述原始音频数据的音源对象为所述目标对象或所述目标对象的服务对象。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至4任一项中所述的方法。

10.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质存储有一个或多个程序，所述一个或多个程序被一个或多个处理器执行，以实现权利要求1至4中任一项所述的语音识别处理方法的步骤。