CN106531167A - 一种语音信息的处理方法及装置 - Google Patents

一种语音信息的处理方法及装置 Download PDF

Info

Publication number
CN106531167A
CN106531167A CN201611020468.2A CN201611020468A CN106531167A CN 106531167 A CN106531167 A CN 106531167A CN 201611020468 A CN201611020468 A CN 201611020468A CN 106531167 A CN106531167 A CN 106531167A
Authority
CN
China
Prior art keywords
voice messaging
recording process
recording
default
preset duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611020468.2A
Other languages
English (en)
Other versions
CN106531167B (zh
Inventor
赵东阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201611020468.2A priority Critical patent/CN106531167B/zh
Publication of CN106531167A publication Critical patent/CN106531167A/zh
Application granted granted Critical
Publication of CN106531167B publication Critical patent/CN106531167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10009Improvement or modification of read or write signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10009Improvement or modification of read or write signals
    • G11B20/10222Improvement or modification of read or write signals clock-related aspects, e.g. phase or frequency adjustment or bit synchronisation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B2020/10935Digital recording or reproducing wherein a time constraint must be met

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音信息的处理方法及装置。方法包括:当检测到语音输入触发操作时,控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态;通过录音线程录制在预设语音输入法被启用的过程中输入的第一语音信息;在第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据。通过本发明的技术方案,通过在该第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据,能够从该缓存数据中获取各录音过程中可能由于该预设录音按键被提前或延迟触发而被丢失的部分语音信息,以在补齐各录音过程中的语音信息的同时,使得各录音过程中的录音时间点实现对齐。

Description

一种语音信息的处理方法及装置
技术领域
本发明涉及终端技术领域,特别涉及一种语音信息的处理方法及装置。
背景技术
目前,在使用语音输入法进行语音识别时,都是在录音按键被按下时,才开始录音的,然后将录制的语音识别为文字后进行输出,而相关技术中的录音方案对应两个线程,一个录音线程和一个识别线程,具体的录音过程如下:当录音按键被按下后,启动语音输入法对应的录音线程和识别线程,而录音线程负责启动终端录音,以录制输入的语音信息,识别线程负责从录音线程处取语音信息,并发送给服务器识别,待识别完毕后,从服务器中获取识别的文字并输出,但由于录音线程启动终端录音时需要一定的时间,因而,相关技术中的录音方案可能会导致录音延迟,同时,相关技术中的录音线程并没有缓存所录制的语音信息,所以,如果在某次录音过程中用户按下/抬起录音按键时动作稍微有些延迟或提前,则会导致丢失该录音过程中的部分语音信息。
发明内容
本发明提供一种语音信息的处理方法及装置,用以当检测到语音输入触发操作时,通过控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态,不仅可以通过该录音线程录制在预设语音输入法被启用的过程中输入的第一语音信息,也可以在用户反复启动录音按键时,不需要反复启动录音线程,进而不需要反复启动终端的录音功能,使得终端在预设语音输入法被启用的过程中一直处于录音状态,以尽可能避免录音线程延迟启动终端录音的问题,尽可能避免了相关技术中的录音延迟问题;另外,通过在该第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据,能够从该缓存数据中获取各录音过程中可能由于该预设录音按键被提前或延迟触发而被丢失的部分语音信息,以在补齐各录音过程中的语音信息的同时,使得各录音过程中的录音时间点实现对齐。
本发明提供一种语音信息的处理方法,包括:
当检测到语音输入触发操作时,控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态;
通过所述录音线程录制在所述预设语音输入法被启用的过程中输入的第一语音信息;
在所述第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据。
在一个实施例中,所述方法还包括:
在所述预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程开始触发操作,则从所述缓存数据中获取接收到所述录音过程开始触发操作之前的第二预设时长内录制的第一部分语音信息,其中,所述第二预设时长小于或等于所述第一预设时长;
将所述第一部分语音信息与自接收到所述录音过程开始触发操作起所录制的第二语音信息进行合成,得到目标语音信息,其中,所述第一语音信息包括所述第二语音信息;
通过所述终端中的识别线程识别目标语音信息,得到所述目标语音信息对应的文字信息。
在一个实施例中,所述方法还包括:
在所述预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程结束触发操作,则判断接收到所述录音过程结束触发操作时所录制的第三语音信息对应的文字信息是否为语句末端,其中,所述第一语音信息包括所述第三语音信息;
当所述第三语音信息对应的文字信息不是所述语句末端时,从所述缓存数据中获取自接收到所述录音过程结束触发操作之后的第三预设时长内录制的第二部分语音信息,其中,所述第三预设时长小于或等于所述第一预设时长;
将所述第二部分语音信息识别为文字信息。
在一个实施例中,所述方法还包括:
在所述预设语音输入法被启用的过程中,当再次接收到录音过程开始触发操作时,判断所述录音过程开始触发操作的再次接收时间和与其紧邻的上一个所述录音过程结束触发操作的接收时间之间的时间间隔是否小于目标时长,其中,所述目标时长包括所述第三预设时长或所述第二预设时长;
当小于所述目标时长时,从所述缓存数据中获取自再次接收到所述录音过程开始触发操作之前的所述时间间隔内录制的第三部分语音信息;
将所述第三部分语音信息识别为文字信息。
在一个实施例中,所述语音输入触发操作包括:启用所述预设语音输入法。
本发明还提供一种语音信息的处理装置,包括:
控制模块,用于当检测到语音输入触发操作时,控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态;
录制模块,用于通过所述录音线程录制在所述预设语音输入法被启用的过程中输入的第一语音信息;
缓存模块,用于在所述第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据。
在一个实施例中,所述装置还包括:
第一获取模块,用于在所述预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程开始触发操作,则从所述缓存数据中获取接收到所述录音过程开始触发操作之前的第二预设时长内录制的第一部分语音信息,其中,所述第二预设时长小于或等于所述第一预设时长;
合成模块,用于将所述第一部分语音信息与自接收到所述录音过程开始触发操作起所录制的第二语音信息进行合成,得到目标语音信息,其中,所述第一语音信息包括所述第二语音信息;
第一识别模块,用于通过所述终端中的识别线程识别目标语音信息,得到所述目标语音信息对应的文字信息。
在一个实施例中,所述装置还包括:
第一判断模块,用于在所述预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程结束触发操作,则判断接收到所述录音过程结束触发操作时所录制的第三语音信息对应的文字信息是否为语句末端,其中,所述第一语音信息包括所述第三语音信息;
第二获取模块,用于当所述第三语音信息对应的文字信息不是所述语句末端时,从所述缓存数据中获取自接收到所述录音过程结束触发操作之后的第三预设时长内录制的第二部分语音信息,其中,所述第三预设时长小于或等于所述第一预设时长;
第二识别模块,用于将所述第二部分语音信息识别为文字信息。
在一个实施例中,所述装置还包括:
第二判断模块,用于在所述预设语音输入法被启用的过程中,当再次接收到录音过程开始触发操作时,判断所述录音过程开始触发操作的再次接收时间和与其紧邻的上一个所述录音过程结束触发操作的接收时间之间的时间间隔是否小于目标时长,其中,所述目标时长包括所述第三预设时长或所述第二预设时长;
第三获取模块,用于当小于所述目标时长时,从所述缓存数据中获取自再次接收到所述录音过程开始触发操作之前的所述时间间隔内录制的第三部分语音信息;
第三识别模块,用于将所述第三部分语音信息识别为文字信息。
在一个实施例中,所述语音输入触发操作包括:启用所述预设语音输入法。
本公开的实施例提供的技术方案可以包括以下有益效果:
当检测到语音输入触发操作时,通过控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态,不仅可以通过该录音线程录制在预设语音输入法被启用的过程中输入的第一语音信息,也可以在用户反复启动录音按键时,不需要反复启动录音线程,进而不需要反复启动终端的录音功能,使得终端在该预设过程中一直处于录音状态,以尽可能避免录音线程延迟启动终端录音的问题,尽可能避免了相关技术中的录音延迟问题;同时,通过在该第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据,能够从该缓存数据中获取各录音过程中可能由于该预设录音按键被提前或延迟触发而被丢失的部分语音信息,以在补齐各录音过程中的语音信息的同时,使得各录音过程中的录音时间点实现对齐。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据一示例性实施例示出的一种语音信息的处理方法的流程图。
图2是根据一示例性实施例示出的另一种语音信息的处理方法的流程图。
图3是根据一示例性实施例示出的一种语音信息的处理装置的框图。
图4是根据一示例性实施例示出的另一种语音信息的处理装置的框图。
图5是根据一示例性实施例示出的又一种语音信息的处理装置的框图。
图6是根据一示例性实施例示出的再一种语音信息的处理装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
相关技术中,在使用语音输入法进行语音识别时,都是在录音按键被按下时,才开始录音的,然后将录制的语音识别为文字后进行输出,而相关技术中的录音方案对应两个线程,一个录音线程和一个识别线程,具体的录音过程如下:当录音按键被按下后,启动语音输入法对应的录音线程和识别线程,而录音线程负责启动终端录音,以录制输入的语音信息,识别线程负责从录音线程处取语音信息,并发送给服务器识别,待识别完毕后,从服务器中获取识别的文字并输出,但由于录音线程启动终端录音时需要一定的时间,因而,相关技术中的录音方案可能会导致录音延迟,同时,相关技术中的录音线程并没有缓存所录制的语音信息,所以,如果在某次录音过程中用户按下/抬起录音按键时动作稍微有些延迟或提前,则会导致丢失该录音过程中的部分语音信息。
为了解决上述技术问题,本公开实施例提供了一种语音信息的处理方法,该方法适用于语音信息的处理程序、系统或装置中,其执行主体上安装有云知声、科大讯飞等能够将录制的语音信息转换为文字信息的预设语音输入法,如图1所示,该方法包括步骤S101至步骤S103,其中,
在步骤S101中,当检测到语音输入触发操作时,控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态;
该预设语音输入法可以是云知声、科大讯飞等能够将录制的语音信息转换为文字信息的输入法,而预设语音输入法被启用表示当前使用的输入法被切换至该预设语音输入法。
在步骤S102中,通过录音线程录制在预设语音输入法被启用的过程中输入的第一语音信息,其中,由于在预设语音输入法被启用的过程中录音线程一直保持启动状态,一直能够录制用户输入的语音信息,因而,该预设语音输入法被启用的过程每一时刻录制的语音均可称为第一语音信息,另外,每一时刻录制的语音均可携带有相应的当前录制时间,即第一语音信息可以携带有具体的实时录制时间,以便于之后可以将各录音过程中的录音时间点尽可能与用户期望的录音过程进行对齐、各录音过程的录音起点时间点和录音结束时间点更为准确;
当检测到语音输入触发操作时,通过控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态,不仅可以通过该录音线程录制在预设语音输入法被启用的过程中输入的第一语音信息,也可以在用户反复启动录音按键时,不需要反复启动录音线程,进而不需要反复启动终端的录音功能,使得终端在该预设过程中一直处于录音状态,以尽可能避免录音线程延迟启动终端录音的问题,尽可能避免了相关技术中的录音延迟问题。
另外,语音输入触发操作可以包括:启用预设语音输入法,这样,录音线程可以自当前输入法切换至预设语音输入法时就被开启且在停留在该预设语音输入法的过程中,一直处于开启状态,而不受在该预设语音输入法被启用的过程中用户对预设录音键的反复触发操作(其中,这些触发操作用于开启预设录音键或者关闭预设录音键,如可以是按下该预设录音键或者抬起该预设录音键等)的影响,即在该过程中无论是否接收到录音过程开始触发操作或录音过程结束触发操作,执行主体一直处于录音过程,一直在不断录制用户输入的语音信息,直至当前输入法由预设语音输入法被切换至其他输入法。
在步骤S103中,在第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据。
通过在该第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据,能够从该缓存数据中获取各录音过程中可能由于该预设录音按键被提前或延迟触发而被丢失的部分语音信息,以在补齐各录音过程中的语音信息的同时,使得各录音过程中的录音时间点实现对齐。
另外,在该第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据的实现过程可以为:不断使用录制时间靠后的语音信息覆盖录制时间靠前的语音信息,这样,一直缓存第一预设时长(如2秒)的语音信息,同时缓存第一预设时长的缓存数据而非将完整的第一语音信息都进行缓存,可以在满足用户语音对齐需求的基础上,减少对缓存空间的占用,尽可能占用较少的缓存空间,当然,如果缓存空间较大,还可以缓存整个第一语音信息。
如图2所示,在一个实施例中,上述图1所示的方法还可包括步骤S201至步骤S203:
在步骤S201中,在预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程开始触发操作,则从缓存数据中获取接收到录音过程开始触发操作之前的第二预设时长内录制的第一部分语音信息,其中,第二预设时长小于或等于第一预设时长,如该录音过程开始触发操作的接收时间为T0、第二预设时长为T1、第一预设时长为T2(T1≤T2),则第一部分录音信息的时间起点为T0-T1,时间终点为T0,即第一部分录音信息为T0-T1至T0这一时间段内录制的语音信息;
该第二预设时长可以是200毫秒~500毫秒,而该第一预设时长可以是2秒或者1秒等。
该预设录音键可以是与安装有预设语音输入法的执行主体相连接的外设麦克风上的录音按键,或者
该预设录音键可以是与安装有预设语音输入法的执行主体相连接的外设键盘上的预设按键,或者
该预设录音键还可以是安装有预设语音输入法的执行主体上的虚拟录音按键。
录音过程开始触发操作用于指示正式开始一个用户期望的录音过程,且该录音触发操作可以是点击、长按该预设录音键,如该录音过程开始触发操作可以是按下该预设录音按键,而录音过程结束触发操作可以是抬起该预设录音按键。
在步骤S202中,将第一部分语音信息与自接收到录音过程开始触发操作起所录制的第二语音信息进行合成,得到目标语音信息,其中,第一语音信息包括第二语音信息,该第二语音信息为接收到该录音过程开始触发操作至接收到紧邻该录音过程开始触发操作的下一个录音过程结束触发操作这一录音过程中录制的语音信息(如当该录音过程开始触发操作为第M个录音过程开始触发操作时,紧邻该录音过程开始触发操作的下一个录音过程结束触发操作自然为第M个录音过程结束触发操作,其中,M为正整数),相应地,该第二语音信息对应的时间起点为该录音过程开始触发操作的接收时间,该第二语音信息对应的时间终点为该录音过程开始触发操作之后紧邻的录音过程结束触发操作的接收时间;
在步骤S203中,通过终端中的识别线程识别目标语音信息,得到目标语音信息对应的文字信息。
在预设语音输入法被启动的过程中,若接收到录音过程开始触发操作,则说明用户期望开始一个录音过程(当然,每个录音过程均对应一个录音过程开始触发操作和一个录音过程结束操作操作,且每个录音过程均是以一个录音过程开始触发操作为本次录音过程的录音起点,以一个录音过程结束触发操作为本次录音过程的录音终点),而用户又有很可能延迟触发该预设录音按键,因而如果以该录音过程开始触发操作的接收时间为本次录音过程的时间起点,则可能丢失部分本次录音过程所录音的语音信息,所以,可以自动地从该缓存数据中获取接收到该录音过程开始触发操作之前的第二预设时长内录制的第一部分语音信息,以将本次录音过程的录音起点时间进行对齐,使得本次录音过程的录音起点时间更为准确,然后将该第一部分语音信息与第二语音信息进行合成,以尽可能得到本次录音过程中的完整语音信息(即该目标语音信息),以避免丢失本次录音过程中开头部分语音信息,并通过终端中的识别线程识别目标语音信息,从而尽可能获得该录音过程中的完整文字信息。
在一个实施例中,上述方法还可包括:
在预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程结束触发操作,则判断接收到录音过程结束触发操作时所录制的第三语音信息对应的文字信息是否为语句末端,其中,第一语音信息包括第三语音信息,且该第三语音信息对应的文字信息有可能为空或者非空;
在判断第三语音信息对应的文字信息是否为语句末端时,可以根据该第三语音信息处是否有停顿、停顿的时长、以及该第三语音信息对应的文字信息所在的录音过程(其中,当该录音过程结束触发操作为第N个录音过程结束触发操作时,这个录音过程为第N个录音过程,且该录音过程中录制的语音信息为第N个录音过程开始触发操作至第N个录音过程结束触发操作这一时间段内录制的语音信息,而N为正整数,当然,这一录音过程中录制的语音信息包括了第三语音信息)中的最后一个语句(其中,该语句可以是一个词、一个句子、一个短语等)是否构成完整的语义来判断,例如,如果有停顿、或者停顿的时长大于预设时长、或者构成完整的语义,则可以确定该第三语音信息对应的文字信息为语句末端,反之,如果无停顿、或者未构成完整的语义(如结束位置为半句话),则可以确定该第三语音信息对应的文字信息不为语句末端。
当第三语音信息对应的文字信息不是语句末端时,从缓存数据中获取自接收到录音过程结束触发操作之后的第三预设时长内录制的第二部分语音信息,其中,第三预设时长小于或等于第一预设时长;
其中,若该录音过程结束触发操作的接收时间为T3、第三预设时长为T4、第一预设时长为T2(T4≤T2),则第二部分录音信息的时间起点为T3,时间终点为T3+T4,即第二部分录音信息为T3至T3+T4这一时间段内录制的语音信息。
另外,该第三预设时长可以个性化设定,例如:根据用户提前执行该录音过程结束触发操作的历史习惯可知,该第三预设时长可以是200毫秒~500毫秒,或者
该第三预设时长还可以是相对固定的,而该相对固定的时长为该录音过程结束触发操作的接收时间至语句末端的语音信息的录制时间这一时间段。
当然,该第三预设时长与该第二预设时长可以是相同的,或者是不同的。
将第二部分语音信息识别为文字信息,其中,在将第二部分语音信息识别为文字信息时,可以使用识别线程进行识别。
当该第三语音信息对应的文字信息不是语句末端时,说明用户可能提前执行了录音过程结束触发操作才导致本次录音过程结束的位置并非完整的语句而是半句话,因而,可以从缓存数据中获取自接收到该录音过程结束触发操作之后的第三预设时长内录制的第二部分语音信息,然后将第二部分语音信息与接收到该录音过程结束触发操作之前已录制的该录音过程中的其他语音信息进行合成,以补齐该录音过程结束触发操作所对应的录音过程中的最后一个语句,同时将本次录音过程的录音结束时间进行对齐,使得本次录音过程的录音结束时间更为准确,避免丢失该录音过程中的语音信息,然后将第二部分语音信息识别为文字信息,从而获取该录音过程中的完整文字信息。
在一个实施例中,方法还包括:
在预设语音输入法被启用的过程中,当再次接收到录音过程开始触发操作时,判断录音过程开始触发操作的再次接收时间和与其紧邻的上一个录音过程结束触发操作的接收时间之间的时间间隔是否小于目标时长,其中,目标时长包括第三预设时长或第二预设时长;
当再次接收到的录音过程开始触发操作为第N+1个录音过程开始触发操作时,说明用户期望开始第N+1个录音过程,也即本次的录音过程为第N+1个录音过程,该第N+1个录音过程自第N+1个录音过程开始触发操作开始至第N+1个录音过程结束触发操作结束,而与其紧邻的上一个录音过程结束触发操作为第N个录音过程结束触发操作。
当小于目标时长时(如该时间间隔小于200毫秒),从缓存数据中获取自再次接收到录音过程开始触发操作之前的时间间隔内录制的第三部分语音信息;
其中,若该录音过程开始触发操作的再次接收时间为T5、该时间间隔为T6,则第三部分录音信息的时间起点为T5-T6,时间终点为T5,即第三部分录音信息为T5-T6至T5这一时间段内录制的语音信息。
将第三部分语音信息识别为文字信息,其中,在将第三部分语音信息识别为文字信息时,也可以使用该识别线程进行识别。
在预设语音输入法被启用的过程中,当再次接收到录音过程开始触发操作时,说明用户期望开始又一个新的录音过程,而如果该录音过程开始触发操作的再次接收时间和与其紧邻的上一个录音过程结束触发操作的接收时间之间的时间间隔小于目标时长,则说明两次紧邻的触发操作相距甚近,即便用户滞后执行了本次的录音过程开始触发操作而丢失了本次录音过程的部分录音信息,则该部分录音信息的时长也不足第三预设时长或者第二预设时长、最多为该时间间隔,因而,可以从该缓存数据中自动获取该再次接收时间之前的时间间隔内录制的第三部分语音信息,并将该第三部分语音信息识别为文字信息,从而尽可能使得本次录音过程的开始时间点实现对齐且更为准确,得到本次录音过程中完整的头部语音信息,避免丢失该录音过程中的部分头部语音信息。
另外,在将第三部分语音信息识别为文字信息之后,该第三部分语音信息对应的文字信息还可以与本次录音过程中的其他语音信息对应的文字信息进行合成,从而得到该录音过程中的完整文字信息。
在一个实施例中,语音输入触发操作包括:启用预设语音输入法。
如图3所示,本发明还提供一种语音信息的处理装置,包括:
控制模块301,被配置为当检测到语音输入触发操作时,控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态;
录制模块302,被配置为通过录音线程录制在预设语音输入法被启用的过程中输入的第一语音信息;
缓存模块303,被配置为在第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据。
如图4所示,在一个实施例中,上述图3所示的装置还可包括:
第一获取模块401,被配置为在预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程开始触发操作,则从缓存数据中获取接收到录音过程开始触发操作之前的第二预设时长内录制的第一部分语音信息,其中,第二预设时长小于或等于第一预设时长;
合成模块402,被配置为将第一部分语音信息与自接收到录音过程开始触发操作起所录制的第二语音信息进行合成,得到目标语音信息,其中,第一语音信息包括第二语音信息;
第一识别模块403,被配置为通过终端中的识别线程识别目标语音信息,得到目标语音信息对应的文字信息。
如图5所示,在一个实施例中,上述图3所示的装置还可包括:
第一判断模块501,被配置为在预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程结束触发操作,则判断接收到录音过程结束触发操作时所录制的第三语音信息对应的文字信息是否为语句末端,其中,第一语音信息包括第三语音信息;
第二获取模块502,被配置为当第三语音信息对应的文字信息不是语句末端时,从缓存数据中获取自接收到录音过程结束触发操作之后的第三预设时长内录制的第二部分语音信息,其中,第三预设时长小于或等于第一预设时长;
第二识别模块503,被配置为将第二部分语音信息识别为文字信息。
如图6所示,在一个实施例中,上述图5所示的装置还可包括:
第二判断模块601,被配置为在预设语音输入法被启用的过程中,当再次接收到录音过程开始触发操作时,判断录音过程开始触发操作的再次接收时间和与其紧邻的上一个录音过程结束触发操作的接收时间之间的时间间隔是否小于目标时长,其中,目标时长包括第三预设时长或第二预设时长;
第三获取模块602,被配置为当小于目标时长时,从缓存数据中获取自再次接收到录音过程开始触发操作之前的时间间隔内录制的第三部分语音信息;
第三识别模块603,被配置为将第三部分语音信息识别为文字信息。
在一个实施例中,语音输入触发操作包括:启用预设语音输入法。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
最后,本发明中的语音信息的处理装置适用于终端设备。例如,可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音信息的处理方法,其特征在于,包括:
当检测到语音输入触发操作时,控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态;
通过所述录音线程录制在所述预设语音输入法被启用的过程中输入的第一语音信息;
在所述第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程开始触发操作,则从所述缓存数据中获取接收到所述录音过程开始触发操作之前的第二预设时长内录制的第一部分语音信息,其中,所述第二预设时长小于或等于所述第一预设时长;
将所述第一部分语音信息与自接收到所述录音过程开始触发操作起所录制的第二语音信息进行合成,得到目标语音信息,其中,所述第一语音信息包括所述第二语音信息;
通过所述终端中的识别线程识别目标语音信息,得到所述目标语音信息对应的文字信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程结束触发操作,则判断接收到所述录音过程结束触发操作时所录制的第三语音信息对应的文字信息是否为语句末端,其中,所述第一语音信息包括所述第三语音信息;
当所述第三语音信息对应的文字信息不是所述语句末端时,从所述缓存数据中获取自接收到所述录音过程结束触发操作之后的第三预设时长内录制的第二部分语音信息,其中,所述第三预设时长小于或等于所述第一预设时长;
将所述第二部分语音信息识别为文字信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述预设语音输入法被启用的过程中,当再次接收到录音过程开始触发操作时,判断所述录音过程开始触发操作的再次接收时间和与其紧邻的上一个所述录音过程结束触发操作的接收时间之间的时间间隔是否小于目标时长,其中,所述目标时长包括所述第三预设时长或所述第二预设时长;
当小于所述目标时长时,从所述缓存数据中获取自再次接收到所述录音过程开始触发操作之前的所述时间间隔内录制的第三部分语音信息;
将所述第三部分语音信息识别为文字信息。
5.根据权利要求1至4中任一项所述的方法,其特征在于,
所述语音输入触发操作包括:启用所述预设语音输入法。
6.一种语音信息的处理装置,其特征在于,包括:
控制模块,用于当检测到语音输入触发操作时,控制终端中的录音线程在预设语音输入法被启用的过程中一直保持启动状态;
录制模块,用于通过所述录音线程录制在所述预设语音输入法被启用的过程中输入的第一语音信息;
缓存模块,用于在所述第一语音信息的录制过程中不断进行缓存,得到第一预设时长的缓存数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一获取模块,用于在所述预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程开始触发操作,则从所述缓存数据中获取接收到所述录音过程开始触发操作之前的第二预设时长内录制的第一部分语音信息,其中,所述第二预设时长小于或等于所述第一预设时长;
合成模块,用于将所述第一部分语音信息与自接收到所述录音过程开始触发操作起所录制的第二语音信息进行合成,得到目标语音信息,其中,所述第一语音信息包括所述第二语音信息;
第一识别模块,用于通过所述终端中的识别线程识别目标语音信息,得到所述目标语音信息对应的文字信息。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一判断模块,用于在所述预设语音输入法被启用的过程中,若接收到针对预设录音按键执行的录音过程结束触发操作,则判断接收到所述录音过程结束触发操作时所录制的第三语音信息对应的文字信息是否为语句末端,其中,所述第一语音信息包括所述第三语音信息;
第二获取模块,用于当所述第三语音信息对应的文字信息不是所述语句末端时,从所述缓存数据中获取自接收到所述录音过程结束触发操作之后的第三预设时长内录制的第二部分语音信息,其中,所述第三预设时长小于或等于所述第一预设时长;
第二识别模块,用于将所述第二部分语音信息识别为文字信息。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于在所述预设语音输入法被启用的过程中,当再次接收到录音过程开始触发操作时,判断所述录音过程开始触发操作的再次接收时间和与其紧邻的上一个所述录音过程结束触发操作的接收时间之间的时间间隔是否小于目标时长,其中,所述目标时长包括所述第三预设时长或所述第二预设时长;
第三获取模块,用于当小于所述目标时长时,从所述缓存数据中获取自再次接收到所述录音过程开始触发操作之前的所述时间间隔内录制的第三部分语音信息;
第三识别模块,用于将所述第三部分语音信息识别为文字信息。
10.根据权利要求6至9中任一项所述的装置,其特征在于,
所述语音输入触发操作包括:启用所述预设语音输入法。
CN201611020468.2A 2016-11-18 2016-11-18 一种语音信息的处理方法及装置 Active CN106531167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611020468.2A CN106531167B (zh) 2016-11-18 2016-11-18 一种语音信息的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611020468.2A CN106531167B (zh) 2016-11-18 2016-11-18 一种语音信息的处理方法及装置

Publications (2)

Publication Number Publication Date
CN106531167A true CN106531167A (zh) 2017-03-22
CN106531167B CN106531167B (zh) 2019-12-10

Family

ID=58352965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611020468.2A Active CN106531167B (zh) 2016-11-18 2016-11-18 一种语音信息的处理方法及装置

Country Status (1)

Country Link
CN (1) CN106531167B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146633A (zh) * 2017-05-09 2017-09-08 广东工业大学 一种完整的语音数据获得方法及装置
CN107919130A (zh) * 2017-11-06 2018-04-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
CN108281142A (zh) * 2018-02-05 2018-07-13 北京唱吧科技股份有限公司 一种歌曲点播方法及系统
CN108874469A (zh) * 2018-07-16 2018-11-23 广东小天才科技有限公司 一种家教设备的应用管控方法及家教设备
CN108854062A (zh) * 2018-06-24 2018-11-23 广州银汉科技有限公司 一种移动游戏的语音聊天模块
CN109215690A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 录音方法和装置
WO2019079974A1 (en) * 2017-10-24 2019-05-02 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION
CN110189770A (zh) * 2019-06-18 2019-08-30 北京达佳互联信息技术有限公司 语音数据处理方法、装置、终端、服务器及介质
CN110491358A (zh) * 2019-08-15 2019-11-22 广州酷狗计算机科技有限公司 进行音频录制的方法、装置、设备、系统及存储介质
CN111091849A (zh) * 2020-03-03 2020-05-01 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质止鼾设备和处理器
CN111934705A (zh) * 2020-07-29 2020-11-13 杭州叙简科技股份有限公司 用于对讲机的语音防丢方法、装置、电子设备及介质
CN112086095A (zh) * 2020-09-10 2020-12-15 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
WO2022110943A1 (zh) * 2020-11-26 2022-06-02 北京达佳互联信息技术有限公司 语音预览的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742198A (zh) * 2008-11-24 2010-06-16 联发科技股份有限公司 多媒体记录装置及方法
CN103577144A (zh) * 2012-07-23 2014-02-12 上海博泰悦臻电子设备制造有限公司 车载设备的语音输入方法及其语音输入系统
CN103929539A (zh) * 2014-04-10 2014-07-16 惠州Tcl移动通信有限公司 一种基于语音识别的移动终端记事本处理方法及系统
CN105630959A (zh) * 2015-12-24 2016-06-01 联想(北京)有限公司 一种文本信息显示方法及电子设备
CN105760084A (zh) * 2016-01-25 2016-07-13 百度在线网络技术(北京)有限公司 语音输入的控制方法和装置
CN105915832A (zh) * 2016-05-06 2016-08-31 联想(北京)有限公司 一种录制方法和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742198A (zh) * 2008-11-24 2010-06-16 联发科技股份有限公司 多媒体记录装置及方法
CN103577144A (zh) * 2012-07-23 2014-02-12 上海博泰悦臻电子设备制造有限公司 车载设备的语音输入方法及其语音输入系统
CN103929539A (zh) * 2014-04-10 2014-07-16 惠州Tcl移动通信有限公司 一种基于语音识别的移动终端记事本处理方法及系统
CN105630959A (zh) * 2015-12-24 2016-06-01 联想(北京)有限公司 一种文本信息显示方法及电子设备
CN105760084A (zh) * 2016-01-25 2016-07-13 百度在线网络技术(北京)有限公司 语音输入的控制方法和装置
CN105915832A (zh) * 2016-05-06 2016-08-31 联想(北京)有限公司 一种录制方法和电子设备

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146633A (zh) * 2017-05-09 2017-09-08 广东工业大学 一种完整的语音数据获得方法及装置
CN109215690A (zh) * 2017-06-30 2019-01-15 北京国双科技有限公司 录音方法和装置
US11164584B2 (en) 2017-10-24 2021-11-02 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for uninterrupted application awakening and speech recognition
WO2019079974A1 (en) * 2017-10-24 2019-05-02 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION
US11024332B2 (en) 2017-11-06 2021-06-01 Baidu Online Network Technology (Beijing) Co., Ltd. Cloud-based speech processing method and apparatus
CN107919130A (zh) * 2017-11-06 2018-04-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
CN108281142A (zh) * 2018-02-05 2018-07-13 北京唱吧科技股份有限公司 一种歌曲点播方法及系统
CN108854062A (zh) * 2018-06-24 2018-11-23 广州银汉科技有限公司 一种移动游戏的语音聊天模块
CN108874469B (zh) * 2018-07-16 2021-10-01 广东小天才科技有限公司 一种家教设备的应用管控方法及家教设备
CN108874469A (zh) * 2018-07-16 2018-11-23 广东小天才科技有限公司 一种家教设备的应用管控方法及家教设备
CN110189770A (zh) * 2019-06-18 2019-08-30 北京达佳互联信息技术有限公司 语音数据处理方法、装置、终端、服务器及介质
CN110189770B (zh) * 2019-06-18 2021-06-25 北京达佳互联信息技术有限公司 语音数据处理方法、装置、终端、服务器及介质
CN110491358A (zh) * 2019-08-15 2019-11-22 广州酷狗计算机科技有限公司 进行音频录制的方法、装置、设备、系统及存储介质
CN111091849A (zh) * 2020-03-03 2020-05-01 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质止鼾设备和处理器
CN111934705A (zh) * 2020-07-29 2020-11-13 杭州叙简科技股份有限公司 用于对讲机的语音防丢方法、装置、电子设备及介质
CN112086095A (zh) * 2020-09-10 2020-12-15 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN112086095B (zh) * 2020-09-10 2024-01-19 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
WO2022110943A1 (zh) * 2020-11-26 2022-06-02 北京达佳互联信息技术有限公司 语音预览的方法及装置

Also Published As

Publication number Publication date
CN106531167B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN106531167A (zh) 一种语音信息的处理方法及装置
CN109447234B (zh) 一种模型训练方法、合成说话表情的方法和相关装置
US9436287B2 (en) Systems and methods for switching processing modes using gestures
US11823670B2 (en) Activation trigger processing
JP6751433B2 (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
JP6464411B2 (ja) 電子機器、方法及びプログラム
CN104252226B (zh) 一种信息处理的方法及电子设备
JP6100263B2 (ja) 音声認識方法及び音声認識装置
CN109634552A (zh) 一种应用于听写的报读控制方法及终端设备
US20100180202A1 (en) User Interfaces for Electronic Devices
WO2010114862A1 (en) Mechanism for providing user guidance and latency concealment for automatic speech recognition systems
CN110322880A (zh) 车载终端设备以及唤醒其多个语音交互程序的方法
CN103533516B (zh) 车载设备短信发送系统及其发送方法
CN106531168B (zh) 一种语音识别方法及装置
WO2015135300A1 (zh) 语音控制电视机的方法及其电视机
CN113992972A (zh) 一种字幕显示方法、装置、电子设备和可读存储介质
CN110782886A (zh) 语音处理的系统、方法、电视、设备和介质
TW200821894A (en) Voice control system and method for controlling computers
KR20050015585A (ko) 향상된 음성인식 장치 및 방법
CN109739462A (zh) 一种内容输入的方法及装置
TW201426733A (zh) 唇形語音辨識方法
KR20190091265A (ko) 정보 처리 장치, 정보 처리 방법, 및 정보 처리 시스템
CN108255377B (zh) 一种信息处理方法及移动终端
CN1971662A (zh) 对存储在点读机中内容进行播放的控制方法
CN115691479A (zh) 语音检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, 5 floor, A503

Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200417

Address after: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Co-patentee after: Xiamen yunzhixin Intelligent Technology Co.,Ltd.

Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Patentee before: Yunzhisheng Intelligent Technology Co.,Ltd.