CN109637539A - 一种基于科大讯飞不限时间的所见即所得的语音识别方法 - Google Patents
一种基于科大讯飞不限时间的所见即所得的语音识别方法 Download PDFInfo
- Publication number
- CN109637539A CN109637539A CN201910084467.1A CN201910084467A CN109637539A CN 109637539 A CN109637539 A CN 109637539A CN 201910084467 A CN201910084467 A CN 201910084467A CN 109637539 A CN109637539 A CN 109637539A
- Authority
- CN
- China
- Prior art keywords
- iflytek
- file stream
- stream
- speech recognition
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000006978 adaptation Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明公开了一种基于科大讯飞不限时间的所见即所得的语音识别方法,首先完成异步任务实现类编写,主要包括初始化方法、后台运行方法以及数据返回接口的实现,然后,传入参数进行异步任务类的初始化,随后,启动异步任务类即可,之后,就可以实时的收到声音文件流,最后,将声音文件流传给科大讯飞语音识别平台进行语音识别,本方法由上层应用直接调取本地录音设备进行录制,在录制的过程中,将录制的声音以文件流的形式进行缓存,并且每隔一段时间就将文件流返回,应用接收到文件流以后,调取科大讯飞语音识别平台的语音识别接口进行语音识别,将最终的识别结果进行展示,不再受科大讯飞api对应的10秒录制限制。
Description
技术领域
本发明涉及一种语音识别的方法,特别涉及一种基于科大讯飞不限时间的所见即所得的语音识别方法。
背景技术
使用科大讯飞提供的api进行语音识别的过程中,发现其最多可以进行10秒钟的声音录制及识别,假如讲话时间超过10秒钟,该api则无法进行超出部分的录制和识别。
在语音识别越来越普及的今天,大量的应用加入了语音识别的功能,10秒钟的声音录制和识别已经完全不能满足日渐增长的需求,更长时间的声音录制,更快速的语音识别是目前急需要解决的问题。
发明内容
针对上述存在的技术问题,本发明的目的是:提出了一种基于科大讯飞不限时间的所见即所得的语音识别方法,满足日常语音要求。
本发明的技术解决方案是这样实现的:一种基于科大讯飞不限时间的所见即所得的语音识别方法,包括步骤一,异步声音录制及文件流的实时返回;步骤二,文件流格式和科大讯飞要求格式的适配;其中,步骤一的异步声音录制及文件流的实时返回是基于AsyncTask类,通过AudioRecord实现后台声音文件录制,实现过程主要分为以下几步:1)、编写AsyncTask的实现类,定义其初始化方法、后台运行方法以及数据返回UI接口;2)、初始化方法定义返回声音文件流间隔时间、临时文件路径,后台运行方法调取本地录音,按照数据返回UI接口进行接口实现;3)、异步任务实现类启动,并将返回的数据实时发送给科大讯飞语音识别平台;4)、文件流格式适配;5)、文件流语音识别;其中步骤二的文件流格式和科大讯飞要求格式的适配为声音大小端的转换,将声音大端转化为小端,实现过程主要分为以下几步:1)、遍历文件流缓存区;2)、将文件流缓存区里面的字节进行大小端转换,并写入到文件输出流里面;使用时,启动异步任务实现类,录音流程在后台运行,按照指定的间隔时间,录音产生的文件流会先进行一次科大讯飞要求格式的适配,之后将文件流返回给用户,用户再调取语音识别平台进行声音文件流的识别。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明的一种基于科大讯飞不限时间的所见即所得的语音识别方法,上层应用直接调取本地录音设备进行录制,在录制的过程中,将录制的声音以文件流的形式进行缓存,并且每隔一段时间就将文件流返回,应用接收到文件流以后,调取科大讯飞语音识别平台的语音识别接口进行语音识别,将最终的识别结果进行展示,因为是实时生成声音文件流,实时进行语音的识别,并且,由于声音录制时调取的本地录音设备,不再受科大讯飞api对应的10秒录制限制。
附图说明
下面结合附图对本发明技术方案作进一步说明:
附图1为传统方式调取科大讯飞的api进行语音识别的过程示意图;
附图2为本发明的一种基于科大讯飞不限时间的所见即所得的语音识别方法的示意图。
具体实施方式
下面结合附图来说明本发明。
如附图2所示为本发明所述的一种基于科大讯飞不限时间的所见即所得的语音识别方法,包括步骤一,异步声音录制及文件流的实时返回;步骤二,文件流格式和科大讯飞要求格式的适配;其中,步骤一的异步声音录制及文件流的实时返回是基于AsyncTask类,通过AudioRecord实现后台声音文件录制,实现过程主要分为以下几步:1)、编写AsyncTask的实现类,定义其初始化方法、后台运行方法以及数据返回UI接口;2)、初始化方法定义返回声音文件流间隔时间、临时文件路径,后台运行方法调取本地录音,按照数据返回UI接口进行接口实现;3)、异步任务实现类启动,并将返回的数据实时发送给科大讯飞语音识别平台;4)、文件流格式适配;5)、文件流语音识别;其中步骤二的文件流格式和科大讯飞要求格式的适配为声音大小端的转换,将声音大端转化为小端,实现过程主要分为以下几步:1)、遍历文件流缓存区;2)、将文件流缓存区里面的字节进行大小端转换,并写入到文件输出流里面;使用时,启动异步任务实现类,录音流程在后台运行,按照指定的间隔时间,录音产生的文件流会先进行一次科大讯飞要求格式的适配,之后将文件流返回给用户,用户再调取语音识别平台进行声音文件流的识别。
本发明的一种基于科大讯飞不限时间的所见即所得的语音识别方法,上层应用直接调取本地录音设备进行录制,在录制的过程中,将录制的声音以文件流的形式进行缓存,并且每隔一段时间就将文件流返回,应用接收到文件流以后,调取科大讯飞语音识别平台的语音识别接口进行语音识别,将最终的识别结果进行展示,因为是实时生成声音文件流,实时进行语音的识别,并且,由于声音录制时调取的本地录音设备,不再受科大讯飞api对应的10秒录制限制。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围内。
Claims (1)
1.一种基于科大讯飞不限时间的所见即所得的语音识别方法,其特征在于:包括步骤一,异步声音录制及文件流的实时返回;步骤二,文件流格式和科大讯飞要求格式的适配;其中,步骤一的异步声音录制及文件流的实时返回是基于AsyncTask类,通过AudioRecord实现后台声音文件录制,实现过程主要分为以下几步:1)、编写AsyncTask的实现类,定义其初始化方法、后台运行方法以及数据返回UI接口;2)、初始化方法定义返回声音文件流间隔时间、临时文件路径,后台运行方法调取本地录音,按照数据返回UI接口进行接口实现;3)、异步任务实现类启动,并将返回的数据实时发送给科大讯飞语音识别平台;4)、文件流格式适配;5)、文件流语音识别;其中步骤二的文件流格式和科大讯飞要求格式的适配为声音大小端的转换,将声音大端转化为小端,实现过程主要分为以下几步:1)、遍历文件流缓存区;2)、将文件流缓存区里面的字节进行大小端转换,并写入到文件输出流里面;使用时,启动异步任务实现类,录音流程在后台运行,按照指定的间隔时间,录音产生的文件流会先进行一次科大讯飞要求格式的适配,之后将文件流返回给用户,用户再调取语音识别平台进行声音文件流的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910084467.1A CN109637539A (zh) | 2019-01-29 | 2019-01-29 | 一种基于科大讯飞不限时间的所见即所得的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910084467.1A CN109637539A (zh) | 2019-01-29 | 2019-01-29 | 一种基于科大讯飞不限时间的所见即所得的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109637539A true CN109637539A (zh) | 2019-04-16 |
Family
ID=66062571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910084467.1A Pending CN109637539A (zh) | 2019-01-29 | 2019-01-29 | 一种基于科大讯飞不限时间的所见即所得的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109637539A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103685485A (zh) * | 2013-12-02 | 2014-03-26 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 移动终端VoIP通讯音频管理系统 |
CN104123942A (zh) * | 2014-07-30 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及系统 |
US9318100B2 (en) * | 2007-01-03 | 2016-04-19 | International Business Machines Corporation | Supplementing audio recorded in a media file |
CN106804003A (zh) * | 2017-03-09 | 2017-06-06 | 广州四三九九信息科技有限公司 | 基于ffmpeg的视频编辑方法及装置 |
CN106920553A (zh) * | 2017-04-21 | 2017-07-04 | 广东技术师范学院 | 一种语音识别控制系统及其识别控制方法 |
CN107533681A (zh) * | 2015-04-03 | 2018-01-02 | 微软技术许可有限责任公司 | 利用任务指派从被动录制捕获笔记 |
-
2019
- 2019-01-29 CN CN201910084467.1A patent/CN109637539A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318100B2 (en) * | 2007-01-03 | 2016-04-19 | International Business Machines Corporation | Supplementing audio recorded in a media file |
CN103685485A (zh) * | 2013-12-02 | 2014-03-26 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 移动终端VoIP通讯音频管理系统 |
CN104123942A (zh) * | 2014-07-30 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及系统 |
CN107533681A (zh) * | 2015-04-03 | 2018-01-02 | 微软技术许可有限责任公司 | 利用任务指派从被动录制捕获笔记 |
CN106804003A (zh) * | 2017-03-09 | 2017-06-06 | 广州四三九九信息科技有限公司 | 基于ffmpeg的视频编辑方法及装置 |
CN106920553A (zh) * | 2017-04-21 | 2017-07-04 | 广东技术师范学院 | 一种语音识别控制系统及其识别控制方法 |
Non-Patent Citations (1)
Title |
---|
于阿强 等: "基于Android平台的吉他智能校准系统设计与实现", 《计算机技术与发展》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107808670A (zh) | 语音数据处理方法、装置、设备及存储介质 | |
CN103929539A (zh) | 一种基于语音识别的移动终端记事本处理方法及系统 | |
WO2000067091A3 (en) | Speech recognition interface with natural language engine for audio information retrieval over cellular network | |
CN107018228A (zh) | 一种语音控制系统、语音处理方法及终端设备 | |
CN102781075A (zh) | 一种降低移动终端通话功耗的方法及移动终端 | |
CN102520792A (zh) | 用于网络浏览器的语音式交互方法 | |
CN107086037A (zh) | 一种嵌入式设备的语音交互方法、装置及嵌入式设备 | |
CN101277338A (zh) | 一种记录通信终端下行语音信号的方法及该通信终端 | |
CN102862587B (zh) | 一种铁路车机联控语音分析方法和设备 | |
CN109977386A (zh) | 一种基于流式制作的外呼流程制作方法及工具 | |
CN101415257A (zh) | 一种人机对话聊天方法 | |
CN207321416U (zh) | 一种拾音组件、拾音器及电视机唤醒远讲语音系统 | |
CN109637539A (zh) | 一种基于科大讯飞不限时间的所见即所得的语音识别方法 | |
EP2426601A3 (en) | Object state transfer method, object state transfer device, object state transfer program, and recording medium for the program | |
CN102413216A (zh) | 实现Android智能移动终端语音通话的方法及系统 | |
JP6448950B2 (ja) | 音声対話装置及び電子機器 | |
CN101753657A (zh) | 一种降低通话噪音的方法及装置 | |
CN105227765A (zh) | 通话过程中的互动方法及系统 | |
AU4061600A (en) | Method and apparatus for down conversion of video data | |
JP2017068061A (ja) | 通信端末及び音声認識システム | |
CN103187062A (zh) | 一种车载数据处理装置及预订服务数据处理系统 | |
CN101950564A (zh) | 一种远程数字化语音采集分析识别系统 | |
CN106328154A (zh) | 一种前端音频处理系统 | |
CN107293284A (zh) | 一种基于智能终端的语音合成方法及语音合成系统 | |
CN109147791A (zh) | 一种速记系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |
|
RJ01 | Rejection of invention patent application after publication |