CN109637539A

CN109637539A - 一种基于科大讯飞不限时间的所见即所得的语音识别方法

Info

Publication number: CN109637539A
Application number: CN201910084467.1A
Authority: CN
Inventors: 张家重; 王建林; 付宪瑞
Original assignee: Inspur Financial Information Technology Co Ltd
Current assignee: Inspur Financial Information Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-04-16

Abstract

本发明公开了一种基于科大讯飞不限时间的所见即所得的语音识别方法，首先完成异步任务实现类编写，主要包括初始化方法、后台运行方法以及数据返回接口的实现，然后，传入参数进行异步任务类的初始化，随后，启动异步任务类即可，之后，就可以实时的收到声音文件流，最后，将声音文件流传给科大讯飞语音识别平台进行语音识别，本方法由上层应用直接调取本地录音设备进行录制，在录制的过程中，将录制的声音以文件流的形式进行缓存，并且每隔一段时间就将文件流返回，应用接收到文件流以后，调取科大讯飞语音识别平台的语音识别接口进行语音识别，将最终的识别结果进行展示，不再受科大讯飞api对应的10秒录制限制。

Description

一种基于科大讯飞不限时间的所见即所得的语音识别方法

技术领域

本发明涉及一种语音识别的方法，特别涉及一种基于科大讯飞不限时间的所见即所得的语音识别方法。

背景技术

使用科大讯飞提供的api进行语音识别的过程中，发现其最多可以进行10秒钟的声音录制及识别，假如讲话时间超过10秒钟，该api则无法进行超出部分的录制和识别。

在语音识别越来越普及的今天，大量的应用加入了语音识别的功能，10秒钟的声音录制和识别已经完全不能满足日渐增长的需求，更长时间的声音录制，更快速的语音识别是目前急需要解决的问题。

发明内容

针对上述存在的技术问题，本发明的目的是：提出了一种基于科大讯飞不限时间的所见即所得的语音识别方法，满足日常语音要求。

本发明的技术解决方案是这样实现的：一种基于科大讯飞不限时间的所见即所得的语音识别方法，包括步骤一，异步声音录制及文件流的实时返回；步骤二，文件流格式和科大讯飞要求格式的适配；其中，步骤一的异步声音录制及文件流的实时返回是基于AsyncTask类，通过AudioRecord实现后台声音文件录制，实现过程主要分为以下几步：1)、编写AsyncTask的实现类，定义其初始化方法、后台运行方法以及数据返回UI接口；2)、初始化方法定义返回声音文件流间隔时间、临时文件路径，后台运行方法调取本地录音，按照数据返回UI接口进行接口实现；3)、异步任务实现类启动，并将返回的数据实时发送给科大讯飞语音识别平台；4)、文件流格式适配；5)、文件流语音识别；其中步骤二的文件流格式和科大讯飞要求格式的适配为声音大小端的转换，将声音大端转化为小端，实现过程主要分为以下几步：1)、遍历文件流缓存区；2)、将文件流缓存区里面的字节进行大小端转换，并写入到文件输出流里面；使用时，启动异步任务实现类，录音流程在后台运行，按照指定的间隔时间，录音产生的文件流会先进行一次科大讯飞要求格式的适配，之后将文件流返回给用户，用户再调取语音识别平台进行声音文件流的识别。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明的一种基于科大讯飞不限时间的所见即所得的语音识别方法，上层应用直接调取本地录音设备进行录制，在录制的过程中，将录制的声音以文件流的形式进行缓存，并且每隔一段时间就将文件流返回，应用接收到文件流以后，调取科大讯飞语音识别平台的语音识别接口进行语音识别，将最终的识别结果进行展示，因为是实时生成声音文件流，实时进行语音的识别，并且，由于声音录制时调取的本地录音设备，不再受科大讯飞api对应的10秒录制限制。

附图说明

下面结合附图对本发明技术方案作进一步说明：

附图1为传统方式调取科大讯飞的api进行语音识别的过程示意图；

附图2为本发明的一种基于科大讯飞不限时间的所见即所得的语音识别方法的示意图。

具体实施方式

下面结合附图来说明本发明。

如附图2所示为本发明所述的一种基于科大讯飞不限时间的所见即所得的语音识别方法，包括步骤一，异步声音录制及文件流的实时返回；步骤二，文件流格式和科大讯飞要求格式的适配；其中，步骤一的异步声音录制及文件流的实时返回是基于AsyncTask类，通过AudioRecord实现后台声音文件录制，实现过程主要分为以下几步：1)、编写AsyncTask的实现类，定义其初始化方法、后台运行方法以及数据返回UI接口；2)、初始化方法定义返回声音文件流间隔时间、临时文件路径，后台运行方法调取本地录音，按照数据返回UI接口进行接口实现；3)、异步任务实现类启动，并将返回的数据实时发送给科大讯飞语音识别平台；4)、文件流格式适配；5)、文件流语音识别；其中步骤二的文件流格式和科大讯飞要求格式的适配为声音大小端的转换，将声音大端转化为小端，实现过程主要分为以下几步：1)、遍历文件流缓存区；2)、将文件流缓存区里面的字节进行大小端转换，并写入到文件输出流里面；使用时，启动异步任务实现类，录音流程在后台运行，按照指定的间隔时间，录音产生的文件流会先进行一次科大讯飞要求格式的适配，之后将文件流返回给用户，用户再调取语音识别平台进行声音文件流的识别。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种基于科大讯飞不限时间的所见即所得的语音识别方法，其特征在于：包括步骤一，异步声音录制及文件流的实时返回；步骤二，文件流格式和科大讯飞要求格式的适配；其中，步骤一的异步声音录制及文件流的实时返回是基于AsyncTask类，通过AudioRecord实现后台声音文件录制，实现过程主要分为以下几步：1)、编写AsyncTask的实现类，定义其初始化方法、后台运行方法以及数据返回UI接口；2)、初始化方法定义返回声音文件流间隔时间、临时文件路径，后台运行方法调取本地录音，按照数据返回UI接口进行接口实现；3)、异步任务实现类启动，并将返回的数据实时发送给科大讯飞语音识别平台；4)、文件流格式适配；5)、文件流语音识别；其中步骤二的文件流格式和科大讯飞要求格式的适配为声音大小端的转换，将声音大端转化为小端，实现过程主要分为以下几步：1)、遍历文件流缓存区；2)、将文件流缓存区里面的字节进行大小端转换，并写入到文件输出流里面；使用时，启动异步任务实现类，录音流程在后台运行，按照指定的间隔时间，录音产生的文件流会先进行一次科大讯飞要求格式的适配，之后将文件流返回给用户，用户再调取语音识别平台进行声音文件流的识别。