CN112698872A - 语音数据处理的方法、装置、设备及存储介质 - Google Patents
语音数据处理的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112698872A CN112698872A CN202011522032.XA CN202011522032A CN112698872A CN 112698872 A CN112698872 A CN 112698872A CN 202011522032 A CN202011522032 A CN 202011522032A CN 112698872 A CN112698872 A CN 112698872A
- Authority
- CN
- China
- Prior art keywords
- audio data
- voice
- thread
- microphone
- awakening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/448—Execution paradigms, e.g. implementations of programming paradigms
- G06F9/4482—Procedural
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5022—Mechanisms to release resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本申请公开了语音数据处理的方法、装置、设备及存储介质,涉及智能交通、语音技术等人工智能领域。具体实现方案为:在语音交互应用的进程中,启动麦克风管理线程采集麦克风获取的音频数据,基于语音交互应用所处的状态,若语音交互应用处于非唤醒状态,则启动唤醒线程根据音频数据对语音交互应用进行唤醒处理,唤醒引擎无需单独申请麦克风;唤醒成功进入非唤醒状态之后,无需识别引擎单独申请麦克风,对麦克风管理线程采集的音频数据进行语音识别,能够在同一进程中实现唤醒引擎和识别引擎,无需唤醒引擎和识别引擎请求麦克风,避免了因等待麦克风准备导致丢失部分数据的问题,提高了语音交互应用的效率和准确性。
Description
技术领域
本申请涉及智能交通、语音技术等人工智能领域,尤其涉及一种语音数据处理的方法、装置、设备及存储介质。
背景技术
目前,车辆的车机系统大多是Android系统,Android系统对麦克风的使用有限制,调用系统应用程序接口(Application Programming Interface,简称API)去录取麦克风数据时,如有一个进程已经在使用麦克风了,那么其他进程去请求使用麦克风时,Android系统就会返回错误码,该错误码说明有其他进程正在使用麦克风,麦克风的启用和释放都需要耗时。
车辆的语音交互应用中的唤醒引擎和识别引擎,都是依赖麦克风才能工作的,唤醒引擎、识别引擎需要主动获取麦克风采集的音频数据。由于麦克风的启用和释放都需要耗时,可能唤醒引擎、识别引擎需要工作时麦克风还没准备好,唤醒引擎和识别引擎获取到的音频数据中会丢失部分用户语音。
发明内容
本申请提供了一种语音数据处理的方法、装置、设备及存储介质。
根据本申请的一方面,提供了一种语音数据处理的方法,包括:
在语音交互应用的进程中,启动麦克风管理线程采集麦克风获取的音频数据;
若所述语音交互应用处于非唤醒状态,则启动唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理。
根据本申请的另一方面,提供了一种语音数据处理的装置,包括:
麦克风管理模块,用于在语音交互应用的进程中,启动麦克风管理线程采集麦克风获取的音频数据;
音频数据处理模块,用于若所述语音交互应用处于非唤醒状态,则启动唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述所述的方法。
根据本申请的另一方面,提供了一种计算机程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行上述所述的方法。
根据本申请的技术提高了语音交互应用的效率和准确性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请第一实施例提供的语音数据处理的框架示意图;
图2是本申请第一实施例提供的语音数据处理的方法流程图;
图3是本申请第二实施例提供的语音数据处理的方法流程图;
图4是本申请第二实施例提供的语音数据处理的整体流程框架图;
图5是本申请第三实施例提供的语音数据处理的装置示意图;
图6是用来实现本申请实施例的语音数据处理的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,车辆的车机系统大多是Android系统,Android系统对麦克风的使用有限制,调用系统应用程序接口API去录取麦克风数据时,如有一个进程已经在使用麦克风了,那么其他进程去请求使用麦克风时,Android系统就会返回错误码,该错误码说明有其他进程正在使用麦克风,麦克风的启用和释放都需要耗时。
车辆的语音交互应用中的唤醒引擎和识别引擎,都是依赖麦克风才能工作的,唤醒引擎和识别引擎分别对应一个进程,需要分别主动获取麦克风采集的音频数据。通常,车机系统会维护一个线程池,当需要启动唤醒引擎时,唤醒引擎对应进程利用线程池新建一个线程,同时在线程里面初始化AudioRecord(是Android系统中开启录音相关类)对象(也即初始化麦克风),启用麦克风,并采集音频数据并输入到唤醒引擎,唤醒引擎检测到唤醒成功后,退出当前线程,释放AudioRecord对象,从而释放麦克风。然后识别引擎对应进程利用线程池新建一个线程,在该线程中重新初始化AudioRecord对象,启用麦克风,并采集音频数据输送到识别引擎,识别引擎返回识别结果后,退出当前线程,释放AudioRecord对象,从而释放麦克风。然后在需要唤醒或识别时,重新启动线程、初始化麦克风、采集音频数据、释放麦克风,如此反复。由于麦克风的启用和释放都需要耗时,可能唤醒引擎、识别引擎需要工作时麦克风还没准备好,唤醒引擎和识别引擎获取到的音频数据中会丢失部分用户语音。维护线程池,以及麦克风对象的多次创建和消费,造成CPU和内存的浪费。
本申请提供一种语音数据处理的方法、装置、设备及存储介质,应用于智能交通、语音技术等人工智能领域,以提高语音交互应用的效率和准确性。
本申请提供的语音数据处理的方法,具体应用于语音交互应用,可以是车机系统、智能音响等基于Android系统语音交互应用的设备。语音交互应用通常包括唤醒引擎和语音识别引擎两个模块。本申请实施例中,如图1所示,在语音交互应用的同一进程10中,利用唤醒线程11和语音识别线程12分别实现唤醒引擎和语音识别引擎这两个模块。利用麦克风管理线程13专门用于采集麦克风获取的音频数据,并将音频数据发送给语音管理线程14,由语音管理线程14负责基于语音交互应用的状态,向唤醒线程和语音识别线程分发音频数据,无需唤醒引擎和识别引擎单独申请使用麦克风,提高了采集音频数据的效率,避免出现因等待麦克风设备准备导致获取的音频数据丢失部分数据的问题,并且一次麦克风申请,长期使用,减少因维护线程池和麦克风对象的多次创建和消费造成CPU和内存的浪费。
图2是本申请第一实施例提供的语音数据处理的方法流程图。本实施例提供的方法应用于语音数据处理的装置,可以是用于实现语音交互功能的电子设备。如图2所示,该方法具体步骤如下:
步骤S201、在语音交互应用的进程中,启动麦克风管理线程采集麦克风获取的音频数据。
本实施例中,在语音交互应用的同一进程中,实现唤醒引擎和语音识别引擎这两个模块,唤醒引擎和语音识别引擎分别对应一个线程,利用唤醒线程实现唤醒功能,利用语音识别线程实现语音识别功能。由麦克风管理线程负责申请麦克风,采集麦克风获取的音频数据,唤醒引擎和语音识别引擎无需单独申请麦克采集麦克风获取的音频数据。
步骤S202、若语音交互应用处于非唤醒状态,则启动唤醒线程根据音频数据对语音交互应用进行唤醒处理。
麦克风管理线程采集麦克风获取的音频数据之后,根据语音交互应用当前所处的状态,若语音交互应用处于非唤醒状态,那么启动唤醒引擎对应的唤醒线程,根据音频数据对语音交互应用进行唤醒处理。
在对语音交互应用唤醒成功后,语音交互应用进入非唤醒状态,后续采集到麦克风获取的音频数据时,可以由语音识别线程直接对音频数据进行语音识别。
本申请实施例通过在语音交互应用的进程中,由麦克风管理线程专门负责采集麦克风获取的音频数据,然后基于语音交互应用所处的状态,若语音交互应用处于非唤醒状态,则启动唤醒线程根据音频数据对语音交互应用进行唤醒处理,唤醒引擎无需单独申请麦克风,进一步地,唤醒成功进入非唤醒状态之后,也无需识别引擎单独申请麦克风,可以直接对麦克风管理线程采集的音频数据进行语音识别,从而能够在同一进程中实现唤醒引擎和识别引擎,无需唤醒引擎和识别引擎轮流请求使用麦克风,提高唤醒引擎和识别引擎采集麦克风获取的音频数据的效率,避免出现因等待麦克风设备准备导致获取的音频数据丢失部分数据的问题,提高了语音交互应用的效率和准确性。
图3是本申请第二实施例提供的语音数据处理的方法流程图。在上述第一实施例的基础上,本实施例中,若语音交互应用处于唤醒状态,则启动语音识别线程对音频数据进行语音识别,或者,若语音交互应用处于唤醒状态,则启动语音识别线程对音频数据进行语音识别,启动唤醒线程根据音频数据对语音交互应用重新进行唤醒处理。
如图3所示,该方法具体步骤如下:
步骤S301、响应于对语音交互应用的启动指令,在语音交互应用的进程中启动麦克风管理线程。
本实施例中,在启动语音交互应用时,在语音交互应用的进程中启动麦克风管理线程。麦克风管理线程是专门用于申请麦克风,采集麦克风获取的音频数据,释放麦克风的线程。
示例性地,用户开启语音交互应用时,向语音数据处理的装置发出启动指令。例如,通常用户启动车辆、车机系统上电启动时,或者用户给智能音响设备插电时,车机系统或智能音箱上的语音交互应用会启动,此时可以认为接收到对语音交互应用的启动指令,在语音交互应用的进程中启动麦克风管理线程。
响应于对语音交互应用的启动指令,语音数据处理的装置在语音交互应用的进程中启动麦克风管理线程。
步骤S302、通过麦克风管理线程,调用麦克风对应的应用程序编程接口API,初始化麦克风,并采集麦克风获取的音频数据。
在进程中启动麦克风管理线程之后,通过麦克风管理线程调用麦克风对应的应用程序编程接口API,申请使用麦克风,并初始化麦克风,在申请到麦克风之后,采集麦克风获取的音频数据。
本实施例中,通过麦克风管理线程申请麦克风,并采集麦克风获取的音频数据的具体实现方法,与现有技术中通过进程或现场申请麦克风并采集麦克风获取的音频数据的方法类似,本实施例此处不再赘述。
另外,本实施例中,在申请麦克风之后,麦克风管理线程持续使用麦克风,采集麦克风获取的音频数据,直至接收到对语音交互应用的关闭指令时,释放麦克风。
例如,车机系统断电时,或者用户给智能音响设备断电时,车机系统或智能音箱上的语音交互应用会关闭,此时可以认为接收到对语音交互应用的关闭指令,麦克风管理线程释放麦克风。
通过上述步骤S301-S302来启动麦克风管理线程采集麦克风获取的音频数据,能够在启动语音交互应用时,在语音交互应用的进程中启动麦克风管理线程,申请麦克风,麦克风管理线程持续使用麦克风,采集麦克风获取的音频数据,直至语音交互应用的关闭时,麦克风管理线程释放麦克风,一次申请麦克风,长期使用,能够减少因维护线程池以及麦克风的多次申请和释放,造成CPU和内存的浪费。
本实施例中,可以由同一进程中的语音管理线程负责将麦克风管理线程采集麦克风获取的音频数据,分发给需要麦克风获取的音频数据的唤醒引擎和语音识别引擎对应的线程。
在启动麦克风管理线程采集麦克风获取的音频数据之后,可以通过如下步骤S303-S305,麦克风管理线程将音频数据传输给语音管理线程。
步骤S303、通过麦克风管理线程确定是否存在音频数据的消费者。
其中,音频数据的消费者是指请求使用音频数据的线程,也即需要使用音频数据的功能模块(包括唤醒引擎和语音识别引擎)对应的线程。
若确定存在音频数据的消费者,则执行步骤S304。
若确定不存在音频数据的消费者,则执行步骤S305。
示例性地,在需要使用麦克风获取的音频数据时,功能模块可以进行登记,麦克风管理线程在每采集到一帧音频数据时,基于登记信息可以确定当前是否存在音频数据的消费者。
可选地,当唤醒引擎或语音识别引擎需要使用麦克风获取的音频数据时,可以向麦克风管理线程或者语音数据处理的装置登记回调函数,麦克风管理线程可以查询登记的回调函数。麦克风管理线程在每采集到一帧音频数据时,通过查询登记的信息,确定是否存在登记的回调函数,如果存在已登记的回调函数,则确定存在音频数据的消费者,如果不存在已登记的回调函数,则确定不存在音频数据的消费者。可选地,语音管理线程可以通过调用已登记的回调函数将音频数据传输给对应的功能模块。
步骤S304、若确定存在音频数据的消费者,则将音频数据发送给语音管理线程。
若上述步骤S303中,通过麦克风管理线程确定存在音频数据的消费者,则该步骤中麦克风管理线程将音频数据发送给语音管理线程,后续由语音管理线程将音频数据分发给需要使用该音频数据的消费者。
步骤S305、若确定不存在音频数据的消费者,则丢弃音频数据,获取下一帧音频数据。
若上述步骤S303中,通过麦克风管理线程确定不存在音频数据的消费者,则该步骤中麦克风管理线程丢弃音频数据,继续采集下一帧音频数据。
步骤S306、通过语音管理线程,确定语音交互应用的当前所处的状态。
可选地,可以通过状态标志位存储语音交互应用的状态标志信息。
该步骤中,通过语音管理线程,获取语音交互应用的状态标志信息,并根据状态标志信息,确定语音交互应用的当前所处的状态。
另外,语音交互应用的状态标志信息还可以以现有技术中任意一种存储状态信息的方法实现,本实施例此处不再赘述。
在确定语音交互应用的当前所处的状态之后,通过如下步骤S307-S310,语音管理线程根据语音交互应用的当前所处的状态,向需要使用音频数据的唤醒引擎和/或识别引擎分发音频数据。
步骤S307、若语音交互应用处于非唤醒状态,则通过语音管理线程将音频数据发送给唤醒线程。
若语音交互应用处于非唤醒状态,需要先唤醒语音交互应用,则通过语音管理线程将音频数据发送给唤醒线程。
步骤S308、通过唤醒线程根据音频数据对语音交互应用进行唤醒处理。
在获取到音频数据之后,唤醒线程根据音频数据对语音交互应用进行唤醒处理。
在语音交互应用唤醒成功后,将状态标志信息设置为唤醒状态,语音交互应用进入唤醒状态。
步骤S309、若语音交互应用处于唤醒状态,通过语音管理线程将音频数据发送给语音识别线程。
若语音交互应用处于唤醒状态,需要识别引擎识别音频数据中的用户指令信息,则通过语音管理线程将音频数据发送给语音识别线程。
步骤S310、通过语音识别线程对音频数据进行语音识别。
在获取到音频数据之后,语音识别线程对音频数据进行语音识别,以识别出音频数据中的用户指令信息。
但是在一种应用场景下,用户在发出一个交互指令后,在识别引擎进行语音识别的过程中或者播放对该交互指令的响应信息时,想打断本次交互,直接进入下一次交互,这时需要重新唤醒语音交互应用。但是目前的语音交互应用,在唤醒成功、识别引擎启动后,识别引擎会占用麦克风,唤醒引擎就无法工作了,无法满足在识别过程中通过唤醒词打断或取消当次识别,直接唤醒并进入下一次交互的需求。
一种可选的实施方式中,若语音交互应用处于非唤醒状态,则通过语音管理线程将音频数据发送给唤醒线程和语音识别线程;通过唤醒线程根据音频数据对语音交互应用进行唤醒处理,并通过语音识别线程对音频数据进行语音识别。这样,如果用户希望打断当前的交互过程,通过再次唤醒,直接进入下一次交互,那么可以说出唤醒词,麦克风获取的音频数据中包含用户的唤醒词。在获取到音频数据之后,在唤醒状态,语音管理线程还可以将音频数据发送给唤醒引擎对应的唤醒线程,以通过唤醒线程再次对语音交互应用进行唤醒处理,满足用户在这上述场景下的需求。
示例性地,这一实施方式中,可以封装一个麦克风管理类,用于开启麦克风管理线程,通过麦克风管理线程初始化麦克风、采集麦克风获取到音频数据,并通过设置的接口将音频数据输送到语音管理类;可以封装一个语音管理类,统筹识别引擎和唤醒引擎,开启一个语音管理线程,从麦克风管理线程获取音频数据,并将音频数据分发给需要音频数据的功能模块(包括唤醒引擎和/或识别引擎),实现采集麦克风获取的音频数据的管理。如图4所示,语音数据处理的整体流程框架如下:麦克风管理类初始化麦克风管理线程,通过麦克风管理线程初始化麦克风,采集麦克风获取的音频数据,判断是否有消费者;如果没有消费者,丢弃当前的音频数据,继续采集下一帧音频数据;如果有消费者,则将音频数据传送给语音管理线程。语音管理类初始化语音管理线程,唤醒引擎和识别引擎,通过语音管理线程消费音频数据,无论语音交互应用处于唤醒状态还是非唤醒状态,都将音频数据发送到唤醒引擎。然后语音交互应用唤醒成功,语音交互应用进入识别状态后,还将音频数据发送到识别引擎。
本申请实施例中,在语音交互应用的同一进程中,实现由麦克风管理线程专门负责采集麦克风获取的音频数据,并将音频数据输送到语音管理线程,然后由语音管理线程,基于语音交互应用所处的状态,将音频数据分发给需要音频数据的功能模块(包括唤醒引擎和/或识别引擎),能够在同一进程中实现唤醒引擎和识别引擎,无需唤醒引擎和识别引擎单独申请麦克风,提高唤醒引擎和识别引擎采集麦克风获取的音频数据的效率,避免出现因等待麦克风设备准备导致获取的音频数据丢失部分数据的问题,提高了语音交互应用的效率和准确性;另外,在启动语音交互应用时,在语音交互应用的进程中启动麦克风管理线程,申请麦克风,麦克风管理线程持续使用麦克风,采集麦克风获取的音频数据,直至语音交互应用的关闭时,麦克风管理线程释放麦克风,一次申请麦克风,长期使用,能够减少因维护线程池以及麦克风的多次申请和释放,造成CPU和内存的浪费;进一步地,若语音交互应用处于非唤醒状态,将音频数据发送给唤醒线程和语音识别线程,能够通过唤醒引擎打断识别引擎当前的语音识别,再次唤醒语音交互应用,直接进入下一次交互,满足用户的需求。
图5是本申请第三实施例提供的语音数据处理的装置示意图。本申请实施例提供的语音数据处理的装置可以执行语音数据处理的方法实施例提供的处理流程。如图5所示,该语音数据处理的装置50包括:麦克风管理模块501和音频数据处理模块502
具体地,麦克风管理模块501用于在语音交互应用的进程中,启动麦克风管理线程采集麦克风获取的音频数据。
音频数据处理模块502用于若语音交互应用处于非唤醒状态,则启动唤醒线程根据音频数据对语音交互应用进行唤醒处理。
本申请实施例提供的装置可以具体用于执行上述第一实施例所提供的方法实施例,具体功能此处不再赘述。
本申请实施例通过在语音交互应用的进程中,由麦克风管理线程专门负责采集麦克风获取的音频数据,然后基于语音交互应用所处的状态,若语音交互应用处于非唤醒状态,则启动唤醒线程根据音频数据对语音交互应用进行唤醒处理,唤醒引擎无需单独申请麦克风,进一步地,唤醒成功进入非唤醒状态之后,也无需识别引擎单独申请麦克风,可以直接对麦克风管理线程采集的音频数据进行语音识别,从而能够在同一进程中实现唤醒引擎和识别引擎,无需唤醒引擎和识别引擎轮流请求使用麦克风,提高唤醒引擎和识别引擎采集麦克风获取的音频数据的效率,避免出现因等待麦克风设备准备导致获取的音频数据丢失部分数据的问题,提高了语音交互应用的效率和准确性。
在上述第三实施例的基础上,本申请第四实施例的一种可选的实施方式中,音频数据处理模块还用于:
若语音交互应用处于唤醒状态,则启动语音识别线程对音频数据进行语音识别。
一种可选的实施方式中,音频数据处理模块还用于:
若语音交互应用处于唤醒状态,则启动语音识别线程对音频数据进行语音识别,启动唤醒线程根据音频数据对语音交互应用重新进行唤醒处理。
一种可选的实施方式中,音频数据处理模块还用于:
若语音交互应用处于非唤醒状态,则通过语音管理线程将音频数据发送给唤醒线程;通过唤醒线程根据音频数据对语音交互应用进行唤醒处理。
一种可选的实施方式中,音频数据处理模块还用于:
若语音交互应用处于唤醒状态,则通过语音管理线程将音频数据发送给语音识别线程;通过语音识别线程对音频数据进行语音识别。
一种可选的实施方式中,音频数据处理模块还用于:
若语音交互应用处于非唤醒状态,则通过语音管理线程将音频数据发送给唤醒线程和语音识别线程;通过唤醒线程根据音频数据对语音交互应用进行唤醒处理,并通过语音识别线程对音频数据进行语音识别。
一种可选的实施方式中,麦克风管理模块还用于:
响应于对语音交互应用的启动指令,在进程中启动麦克风管理线程;通过麦克风管理线程,调用麦克风对应的应用程序编程接口API,初始化麦克风,并采集麦克风获取的音频数据。
一种可选的实施方式中,麦克风管理模块还用于:
通过麦克风管理线程将音频数据传输给语音管理线程。
一种可选的实施方式中,麦克风管理模块还用于:
通过麦克风管理线程确定是否存在音频数据的消费者,消费者为请求使用音频数据的线程;若确定存在音频数据的消费者,则将音频数据发送给语音管理线程;若确定不存在音频数据的消费者,则丢弃音频数据,采集下一帧音频数据。
一种可选的实施方式中,音频数据处理模块还用于:
通过语音管理线程,获取语音交互应用的状态标志信息,并根据状态标志信息,确定语音交互应用的当前所处的状态。
一种可选的实施方式中,音频数据处理模块还用于:
在语音交互应用唤醒成功后,将状态标志信息设置为唤醒状态。
本申请实施例提供的装置可以具体用于执行上述第二实施例所提供的方法实施例,具体功能此处不再赘述。
本申请实施例中,在语音交互应用的同一进程中,实现由麦克风管理线程专门负责采集麦克风获取的音频数据,并将音频数据输送到语音管理线程,然后由语音管理线程,基于语音交互应用所处的状态,将音频数据分发给需要音频数据的功能模块(包括唤醒引擎和/或识别引擎),能够在同一进程中实现唤醒引擎和识别引擎,无需唤醒引擎和识别引擎单独申请麦克风,提高唤醒引擎和识别引擎采集麦克风获取的音频数据的效率,避免出现因等待麦克风设备准备导致获取的音频数据丢失部分数据的问题,提高了语音交互应用的效率和准确性;另外,在启动语音交互应用时,在语音交互应用的进程中启动麦克风管理线程,申请麦克风,麦克风管理线程持续使用麦克风,采集麦克风获取的音频数据,直至语音交互应用的关闭时,麦克风管理线程释放麦克风,一次申请麦克风,长期使用,能够减少因维护线程池以及麦克风的多次申请和释放,造成CPU和内存的浪费;进一步地,若语音交互应用处于非唤醒状态,将音频数据发送给唤醒线程和语音识别线程,能够通过唤醒引擎打断识别引擎当前的语音识别,再次唤醒语音交互应用,直接进入下一次交互,满足用户的需求。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
根据本申请的实施例,本申请还提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图6示出了可以用来实施本申请的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如语音数据处理的方法。例如,在一些实施例中,语音数据处理的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的语音数据处理的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音数据处理的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (25)
1.一种语音数据处理的方法,包括:
在语音交互应用的进程中,启动麦克风管理线程采集麦克风获取的音频数据;
若所述语音交互应用处于非唤醒状态,则启动唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理。
2.根据权利要求1所述的方法,还包括:
若所述语音交互应用处于唤醒状态,则启动语音识别线程对所述音频数据进行语音识别。
3.根据权利要求1所述的方法,还包括:
若所述语音交互应用处于唤醒状态,则启动语音识别线程对所述音频数据进行语音识别,启动所述唤醒线程根据所述音频数据对所述语音交互应用重新进行唤醒处理。
4.根据权利要求1所述的方法,其中,所述若所述语音交互应用处于非唤醒状态,则启动唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理,包括:
若所述语音交互应用处于非唤醒状态,则通过语音管理线程将所述音频数据发送给所述唤醒线程;
通过所述唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理。
5.根据权利要求2所述的方法,其中,所述若所述语音交互应用处于唤醒状态,则启动语音识别线程对所述音频数据进行语音识别,包括:
若所述语音交互应用处于唤醒状态,则通过语音管理线程将所述音频数据发送给所述语音识别线程;
通过所述语音识别线程对所述音频数据进行语音识别。
6.根据权利要求3所述的方法,其中,所述若所述语音交互应用处于唤醒状态,则启动语音识别线程对所述音频数据进行语音识别,启动所述唤醒线程根据所述音频数据对所述语音交互应用重新进行唤醒处理,包括:
若所述语音交互应用处于非唤醒状态,则通过语音管理线程将所述音频数据发送给所述唤醒线程和所述语音识别线程;
通过所述唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理,并通过所述语音识别线程对所述音频数据进行语音识别。
7.根据权利要求1所述的方法,其中,所述启动麦克风管理线程采集麦克风获取的音频数据,包括:
响应于对所述语音交互应用的启动指令,在所述进程中启动所述麦克风管理线程;
通过所述麦克风管理线程,调用所述麦克风对应的应用程序编程接口API,初始化所述麦克风,并采集所述麦克风获取的音频数据。
8.根据权利要求4-6中任一项所述的方法,其中,所述启动麦克风管理线程采集麦克风获取的音频数据之后,还包括:
通过所述麦克风管理线程将所述音频数据传输给所述语音管理线程。
9.根据权利要求8所述的方法,其中,所述通过所述麦克风管理线程将所述音频数据传输给语音管理线程,包括:
通过所述麦克风管理线程确定是否存在所述音频数据的消费者,所述消费者为请求使用所述音频数据的线程;
若确定存在所述音频数据的消费者,则将所述音频数据发送给所述语音管理线程;
若确定不存在所述音频数据的消费者,则丢弃所述音频数据,采集下一帧音频数据。
10.根据权利要求8所述方法,还包括:
通过所述语音管理线程,获取所述语音交互应用的状态标志信息,并根据所述状态标志信息,确定所述语音交互应用的当前所处的状态。
11.根据权利要求10所述的方法,还包括:
在所述语音交互应用唤醒成功后,将所述状态标志信息设置为唤醒状态。
12.一种语音数据处理的装置,包括:
麦克风管理模块,用于在语音交互应用的进程中,启动麦克风管理线程采集麦克风获取的音频数据;
音频数据处理模块,用于若所述语音交互应用处于非唤醒状态,则启动唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理。
13.根据权利要求12所述的装置,其中,所述音频数据处理模块还用于:
若所述语音交互应用处于唤醒状态,则启动语音识别线程对所述音频数据进行语音识别。
14.根据权利要求12所述的装置,其中,所述音频数据处理模块还用于:
若所述语音交互应用处于唤醒状态,则启动语音识别线程对所述音频数据进行语音识别,启动所述唤醒线程根据所述音频数据对所述语音交互应用重新进行唤醒处理。
15.根据权利要求12所述的装置,其中,所述音频数据处理模块还用于:
若所述语音交互应用处于非唤醒状态,则通过语音管理线程将所述音频数据发送给所述唤醒线程;
通过所述唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理。
16.根据权利要求13所述的装置,其中,所述音频数据处理模块还用于:
若所述语音交互应用处于唤醒状态,则通过语音管理线程将所述音频数据发送给所述语音识别线程;
通过所述语音识别线程对所述音频数据进行语音识别。
17.根据权利要求14所述的装置,其中,所述音频数据处理模块还用于:
若所述语音交互应用处于非唤醒状态,则通过语音管理线程将所述音频数据发送给所述唤醒线程和所述语音识别线程;
通过所述唤醒线程根据所述音频数据对所述语音交互应用进行唤醒处理,并通过所述语音识别线程对所述音频数据进行语音识别。
18.根据权利要求12所述的装置,其中,所述麦克风管理模块还用于:
响应于对所述语音交互应用的启动指令,在所述进程中启动所述麦克风管理线程;
通过所述麦克风管理线程,调用所述麦克风对应的应用程序编程接口API,初始化所述麦克风,并采集所述麦克风获取的音频数据。
19.根据权利要求15-17中任一项所述的装置,其中,所述麦克风管理模块还用于:
通过所述麦克风管理线程将所述音频数据传输给所述语音管理线程。
20.根据权利要求19所述的装置,其中,所述麦克风管理模块还用于:
通过所述麦克风管理线程确定是否存在所述音频数据的消费者,所述消费者为请求使用所述音频数据的线程;
若确定存在所述音频数据的消费者,则将所述音频数据发送给所述语音管理线程;
若确定不存在所述音频数据的消费者,则丢弃所述音频数据,采集下一帧音频数据。
21.根据权利要求19所述装置,其中,所述音频数据处理模块还用于:
通过所述语音管理线程,获取所述语音交互应用的状态标志信息,并根据所述状态标志信息,确定所述语音交互应用的当前所处的状态。
22.根据权利要求21所述的装置,其中,所述音频数据处理模块还用于:
在所述语音交互应用唤醒成功后,将所述状态标志信息设置为唤醒状态。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-11中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011522032.XA CN112698872A (zh) | 2020-12-21 | 2020-12-21 | 语音数据处理的方法、装置、设备及存储介质 |
KR1020210077445A KR20210083222A (ko) | 2020-12-21 | 2021-06-15 | 음성 데이터 처리 방법, 장치, 기기 및 저장매체 |
EP21180018.0A EP3869324A3 (en) | 2020-12-21 | 2021-06-17 | Voice data processing method, apparatus, storage medium and computer program product |
US17/396,544 US20210365285A1 (en) | 2020-12-21 | 2021-08-06 | Voice data procession method, apparatus, device and storage medium |
JP2021192700A JP7371075B2 (ja) | 2020-12-21 | 2021-11-29 | 音声データの処理方法、装置、機器及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011522032.XA CN112698872A (zh) | 2020-12-21 | 2020-12-21 | 语音数据处理的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112698872A true CN112698872A (zh) | 2021-04-23 |
Family
ID=75510141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011522032.XA Pending CN112698872A (zh) | 2020-12-21 | 2020-12-21 | 语音数据处理的方法、装置、设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210365285A1 (zh) |
EP (1) | EP3869324A3 (zh) |
JP (1) | JP7371075B2 (zh) |
KR (1) | KR20210083222A (zh) |
CN (1) | CN112698872A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113784073A (zh) * | 2021-09-28 | 2021-12-10 | 深圳万兴软件有限公司 | 一种录音录像声音和画面同步方法、装置及相关介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114071318B (zh) * | 2021-11-12 | 2023-11-14 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、终端设备及车辆 |
CN115065574B (zh) * | 2022-05-25 | 2024-01-23 | 阿波罗智能技术(北京)有限公司 | 车辆控制器的唤醒方法、装置、电子设备和自动驾驶车辆 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107591151A (zh) * | 2017-08-22 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
CN107808670A (zh) * | 2017-10-25 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109508230A (zh) * | 2018-09-29 | 2019-03-22 | 百度在线网络技术(北京)有限公司 | 音频数据的采集方法、装置与存储介质 |
CN109830249A (zh) * | 2018-12-29 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置和存储介质 |
CN111524512A (zh) * | 2020-04-14 | 2020-08-11 | 苏州思必驰信息科技有限公司 | 低延时开启one-shot语音对话的方法、外围设备及低延时响应的语音交互装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001216131A (ja) * | 2000-02-04 | 2001-08-10 | Sony Corp | 情報処理装置および方法、並びにプログラム格納媒体 |
JP2009059310A (ja) * | 2007-09-03 | 2009-03-19 | Panasonic Corp | プログラム制御装置 |
CN101827242B (zh) | 2010-05-10 | 2013-01-02 | 南京邮电大学 | 一种基于网络电视机顶盒的可视电话系统实现方法 |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9245527B2 (en) * | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US9959129B2 (en) | 2015-01-09 | 2018-05-01 | Microsoft Technology Licensing, Llc | Headless task completion within digital personal assistants |
US10452339B2 (en) | 2015-06-05 | 2019-10-22 | Apple Inc. | Mechanism for retrieval of previously captured audio |
CN105702257A (zh) * | 2015-08-12 | 2016-06-22 | 乐视致新电子科技(天津)有限公司 | 语音处理方法与装置 |
KR102642666B1 (ko) * | 2016-02-05 | 2024-03-05 | 삼성전자주식회사 | 음성인식 장치 및 방법, 음성인식시스템 |
US10474946B2 (en) * | 2016-06-24 | 2019-11-12 | Microsoft Technology Licensing, Llc | Situation aware personal assistant |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
CN107360327B (zh) * | 2017-07-19 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置和存储介质 |
KR102374910B1 (ko) * | 2017-08-22 | 2022-03-16 | 삼성전자주식회사 | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 |
WO2019070243A1 (en) * | 2017-10-03 | 2019-04-11 | Google Llc | RESPONSE GENERATION DEPENDING ON THE DISPLAY MODE COMPRISING LATENCY CONSIDERATIONS |
CN110612237B (zh) | 2018-03-28 | 2021-11-09 | 黄劲邦 | 车锁状态检测器、检测系统及检测方法 |
CN109741740B (zh) * | 2018-12-26 | 2021-04-16 | 苏州思必驰信息科技有限公司 | 基于外部触发的语音交互方法及装置 |
CN109785845B (zh) * | 2019-01-28 | 2021-08-03 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置及设备 |
CN112016084A (zh) | 2019-05-31 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 终端多媒体器件的调用管理方法、装置和存储介质 |
KR20210009596A (ko) * | 2019-07-17 | 2021-01-27 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
KR102229562B1 (ko) * | 2019-07-25 | 2021-03-18 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 인공 지능 장치 및 그의 동작 방법 |
-
2020
- 2020-12-21 CN CN202011522032.XA patent/CN112698872A/zh active Pending
-
2021
- 2021-06-15 KR KR1020210077445A patent/KR20210083222A/ko unknown
- 2021-06-17 EP EP21180018.0A patent/EP3869324A3/en active Pending
- 2021-08-06 US US17/396,544 patent/US20210365285A1/en active Pending
- 2021-11-29 JP JP2021192700A patent/JP7371075B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107591151A (zh) * | 2017-08-22 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
CN107808670A (zh) * | 2017-10-25 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109508230A (zh) * | 2018-09-29 | 2019-03-22 | 百度在线网络技术(北京)有限公司 | 音频数据的采集方法、装置与存储介质 |
CN109830249A (zh) * | 2018-12-29 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置和存储介质 |
CN111524512A (zh) * | 2020-04-14 | 2020-08-11 | 苏州思必驰信息科技有限公司 | 低延时开启one-shot语音对话的方法、外围设备及低延时响应的语音交互装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113784073A (zh) * | 2021-09-28 | 2021-12-10 | 深圳万兴软件有限公司 | 一种录音录像声音和画面同步方法、装置及相关介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3869324A3 (en) | 2022-01-12 |
EP3869324A2 (en) | 2021-08-25 |
US20210365285A1 (en) | 2021-11-25 |
JP7371075B2 (ja) | 2023-10-30 |
JP2022028879A (ja) | 2022-02-16 |
KR20210083222A (ko) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112698872A (zh) | 语音数据处理的方法、装置、设备及存储介质 | |
CN107731231B (zh) | 一种支持多云端语音服务的方法及一种存储设备 | |
CN113766487B (zh) | 云手机信息获取方法、装置、设备和介质 | |
JP2021105725A (ja) | 車載多音域に基づくノイズ低減方法、装置、電子機器及び記憶媒体 | |
CN113961289A (zh) | 一种数据处理方法、装置、设备以及存储介质 | |
CN114416012A (zh) | 音频续播方法及装置 | |
CN112948081A (zh) | 延时处理任务的方法、装置、设备以及存储介质 | |
CN116248772A (zh) | 虚拟化管理下的数据传输方法、装置、设备及介质 | |
CN114647610B (zh) | 语音芯片实现方法、语音芯片及相关设备 | |
CN112669839B (zh) | 语音交互方法、装置、设备及存储介质 | |
CN114915516A (zh) | 一种通信方法及装置 | |
CN114333017A (zh) | 一种动态拾音方法、装置、电子设备及存储介质 | |
CN114051057A (zh) | 云设备排队时长的确定方法、装置、电子设备和介质 | |
CN112835580A (zh) | 指令处理方法、装置、设备以及存储介质 | |
CN112702660A (zh) | 多媒体数据的传输方法、装置、自动驾驶车辆及云服务器 | |
CN114446300B (zh) | 多音区识别方法、装置、设备以及存储介质 | |
CN114221940B (zh) | 音频数据处理方法、系统、装置、设备以及存储介质 | |
CN113223538B (zh) | 语音唤醒方法、装置、系统、设备和存储介质 | |
CN113760431B (zh) | 应用程序的控制方法、装置、电子设备及可读存储介质 | |
CN114222073B (zh) | 视频输出方法、装置、电子设备和存储介质 | |
CN112671970B (zh) | 移动设备和云手机的控制方法、控制装置以及电子设备、移动设备、云服务器和介质 | |
CN115440257A (zh) | 车辆音频的处理方法及装置、车辆、电子设备和存储介质 | |
CN113132486A (zh) | 一种数据处理方法、装置、电子设备和介质 | |
CN113220472A (zh) | 应用程序通信方法、设备和存储介质 | |
CN117499224A (zh) | 一种物联网设备边缘网关接入方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211026 Address after: 100176 101, floor 1, building 1, yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing Applicant after: Apollo Zhilian (Beijing) Technology Co.,Ltd. Address before: 2 / F, baidu building, 10 Shangdi 10th Street, Haidian District, Beijing 100085 Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |