CN109949817A - 基于双操作系统双语音识别引擎的语音仲裁方法及装置 - Google Patents
基于双操作系统双语音识别引擎的语音仲裁方法及装置 Download PDFInfo
- Publication number
- CN109949817A CN109949817A CN201910124083.8A CN201910124083A CN109949817A CN 109949817 A CN109949817 A CN 109949817A CN 201910124083 A CN201910124083 A CN 201910124083A CN 109949817 A CN109949817 A CN 109949817A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- recognition engine
- arbitration
- result
- semantic understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于双操作系统双语音识别引擎的语音仲裁方法及装置,包括:第一语音识别引擎被唤醒后,唤醒第二语音识别引擎;第一语音识别引擎和第二语音识别引擎对脉冲编码调制文件进行识别和语义理解后,分别将各自生成的语义理解结果以及所处对话状态发送至仲裁装置;仲裁装置接收到第一个语义理解结果后,若是在预设的计时周期内接收到另一个语义理解结果,则查询第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态,根据查询结果,输出仲裁结果,否则,判断先到达的语义理解结果是否有效,若有效,则仲裁给先到达的语音识别引擎,否则本次语音识别失败。本发明适用于双系统双语音复杂的仲裁场景,协调位于两个操作系统中的语音识别系统。
Description
技术领域
本发明涉及信息交互技术领域,特别涉及一种基于双操作系统双语音识别引擎的语音仲裁方法及装置。
背景技术
为满足安全性、稳定性以及可拓展性的要求,一些车机的操作系统采用Linux+Android双系统方案,尤其随着智能驾舱的不断发展,车机双系统方案已经成为一种趋势。然而现有技术中,一个语音识别系统(SDS,Speech Dialogue System)很难对两个操作系统中的服务进行跨系统地深度控制,从而不能使产品具有良好的用户体验,造成用户体验差等问题。
针对上述问题,通常的解决方案是在两个系统中分别集成一个SDS,两个SDS分别对各自系统中的服务进行深度控制。但是,由于双系统的车机发展还不够普遍,基于双系统双语音的语音仲裁机制还未见诸报端。语音仲裁也还局限在对于单系统单语音中本地引擎和online引擎的仲裁上。一方面,基于单系统单语音的语音仲裁,仲裁机制简单,无法应用到双系统双语音的仲裁场景中;另一方面,在一个车机上集成两个SDS后,两个SDS在进行语音识别和语义理解时返回结果、实现功能时,容易发生冲突和混乱等问题,也就是说,现有的语音仲裁无法协调位于两个操作系统中,分别负责不同功能、domain的SDS,也无法保证用户体验的统一性。因此,亟需一种新的通过语音仲裁协调位于车机两个系统中的两个SDS的机制,来解决上述问题。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于双操作系统双语音识别引擎的语音仲裁方法及装置,以克服现有技术中两个SDS在进行语音识别和语义理解时返回结果、实现功能时,容易发生冲突和混乱等问题。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
一方面,提供了一种基于双操作系统双语音识别系统的语音仲裁方法,所述方法包括:
S1:唤醒第一语音识别引擎后,所述第一语音识别引擎唤醒第二语音识别引擎;
S2:所述第一语音识别引擎和第二语音识别引擎对脉冲编码调制文件进行识别和语义理解后,分别将各自生成的语义理解结果以及所处对话状态发送至仲裁装置;
S3:所述仲裁装置接收到第一个语义理解结果后,若是在预设的计时周期内接收到另一个语义理解结果,则执行步骤S4,否则,执行步骤S5;
S4:查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态,根据查询结果,输出仲裁结果;
S5:判断先到达的语义理解结果是否有效,若有效,则仲裁给先到达的语音识别引擎,否则本次语音识别失败。
进一步的,所述步骤S3具体包括:
S3.1:判断所述仲裁装置接收到第一个语义理解结果是由哪一个语音识别引擎发出的,若是由所述第一语音识别引擎发出,则执行步骤S3.2,否则执行步骤S3.3;
S3.2:判断此次语音识别是否为免唤醒状态触发,若是,则发送第一语音识别引擎的语义理解结果到达的信号后执行步骤S3.5,否则直接执行步骤S3.5;
S3.3:判断此次语音识别是否为免唤醒状态触发,若是,则执行步骤S3.4,否则直接执行步骤S3.5;
S3.4:查询所述第一语音识别引擎的语义理解结果是否到达,若是,则执行步骤S3.5,否则,等接收到所述第一语音识别引擎的语义理解结果到达的信号后执行步骤S3.5;
S3.5:若是在预设的计时周期内接收到另一个语义理解结果,则执行步骤S4,否则,执行步骤S5。
进一步的,所述步骤S4具体包括:
S4.1:查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态,若有一方仍处于多轮对话状态,则仲裁给这一方,若是两方都处于多轮对话状态,则执行步骤S4.2,若是两方都不处于多轮对话状态,则执行步骤S4.3;
S4.2:查询所述第一语音识别引擎和第二语音识别引擎中哪一方先处于多轮对话状态,仲裁给先处于多轮对话状态的这一方;
S4.3:查询预设的仲裁配置表中规定的domain优先级,仲裁给优先级高的语音识别引擎。
进一步的,所述步骤S2前还包括:
所述第一语音识别引擎获取录音文件后,对所述录音文件进行降噪和回音消除,生成脉冲编码调制文件,并将所述脉冲编码调制文件同步传给所述第二语音识别引擎。
进一步的,所述步骤S1之前还包括:
所述第一语音识别引擎和所述第二语音识别引擎向所述仲裁装置进行注册。
进一步的,所述第一语音识别引擎为Linux语音识别引擎或Android语音识别引擎,所述第二语音识别引擎为Linux语音识别引擎或Android语音识别引擎。
另一方面,提供了一种基于双操作系统双语音识别引擎的语音仲裁装置,所述装置包括:
唤醒模块,用于唤醒第一语音识别引擎后,所述第一语音识别引擎唤醒第二语音识别引擎;
接收模块,用于接收所述第一语音识别引擎和第二语音识别引擎对脉冲编码调制文件进行识别和语义理解后各自生成的语义理解结果以及所处对话状态;
第一判断模块,用于判断所述仲裁装置接收到第一个语义理解结果后,是否在预设的计时周期内接收到另一个语义理解结果;
查询模块,用于查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态;
第二判断模块,用于判断先到达的语义理解结果是否有效;
仲裁模块,用于根据所述查询模块的查询结果或根据所述第二判断模块的判断结果,输出仲裁结果。
进一步的,所述第一判断模块包括:
第一判断单元,用于判断所述仲裁装置接收到第一个语义理解结果是由哪一个语音识别引擎发出的;
第二判断单元,用于判断此次语音识别是否为免唤醒状态触发;
信号发送单元,用于发送第一语音识别引擎的语义理解结果到达的信号;
第一查询单元,用于查询所述第一语音识别引擎的语义理解结果是否到达。
进一步的,所述仲裁模块包括:
第二查询单元,用于查询所述第一语音识别引擎和第二语音识别引擎中哪一方先处于多轮对话状态以及查询预设的仲裁配置表中规定的domain优先级。
进一步的,所述装置还包括:
注册模块,用于所述第一语音识别引擎和所述第二语音识别引擎向所述仲裁装置进行注册。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的基于双操作系统双语音识别引擎的语音仲裁方法及装置,可以适用于双系统双语音复杂的仲裁场景,协调位于两个操作系统中,分别负责不同功能、domain的语音识别系统(SDS),解决了两个语音识别系统(SDS)在进行语音识别和语义理解时返回结果、实现功能时,容易发生冲突和混乱等问题,保证用户体验的统一性;
2、本发明实施例提供的基于双操作系统双语音识别引擎的语音仲裁方法及装置,由于仲裁结果是通过配置表进行配置的,所以该仲裁方法及装置同时具有很好的兼容性以及可扩展性,且当两个系统中SDS负责的功能、domain不断增加时,通过配置表,仲裁器也可以协调两个SDS来保证用户体验的统一性。
3、本发明实施例提供的基于双操作系统双语音识别引擎的语音仲裁方法及装置,只在一个操作系统中保留降噪和回音消除的能力,然后由此操作系统中的语音识别引擎将经过降噪和回音消除的PCM文件传给另一个语音识别引擎,可有效降低了成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的基于双操作系统双语音识别引擎的语音仲裁方法的流程图;
图2是根据一示例性实施例示出的基于双操作系统双语音识别引擎的语音仲裁装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的双操作系统可以是一个车机具备两个操作系统,也可以是车机具有单个操作系统,通过外接带操作系统的设备构成的双系统架构。另外,双操作系统可以是一个为Linux操作系统,一个为Android操作系统,也可以两个均为Linux操作系统或两个均为Android操作系统。设置第一语音识别引擎集成在车机的Linux操作系统中,第二语音识别引擎集成在车机的Android系统或者外接的Android系统中,仲裁装置可以部署在车机系统中,也可以部署在云端。仲裁装置如果部署在车机系统中,则各模块通过系统间IPC(进程间通信)通信即可,仲裁装置如果部署在云端,车机系统中的模块通过IPC通信,车机系统的模块和云端的模块通过正常的网络通信即可。
图1是根据一示例性实施例示出的基于双操作系统双语音识别引擎的语音仲裁方法的流程图,参照图1所示,该方法包括:
S1:唤醒第一语音识别引擎后,所述第一语音识别引擎唤醒第二语音识别引擎。
具体的,当用户开始使用语音识别功能时,唤醒语音识别引擎(SDS引擎),第一语音识别引擎首先被唤醒,只要第一语音识别引擎被唤醒,第一语音识别引擎就会通过仲裁装置通知第二语音识别引擎唤醒。采用上述唤醒方式,使得两个语音识别引擎可以被协调,用户只使用一个唤醒词或者一种唤醒方式即可唤醒两个语音识别引擎,所以用户感知不到系统中存在两个语音识别引擎,从而保证了用户体验的统一性。这里需要说明的是,本发明实施例中,语音识别的唤醒方式可以采用唤醒词、硬按键、软按键、一次性(one-shot)以及免唤醒状态(always on)等不同的方式中的一种或多种。
S2:所述第一语音识别引擎和第二语音识别引擎对脉冲编码调制文件进行识别和语义理解后,分别将各自生成的语义理解结果以及所处对话状态发送至仲裁装置。
具体的,第一语音识别引擎和第二语音识别引擎对脉冲编码调制文件分别进行识别和语义理解,然后分别将各自生成的语义理解结果以及所处对话状态发送至仲裁装置,为仲裁装置进行仲裁提供依据。
S3:所述仲裁装置接收到第一个语义理解结果后,若是在预设的计时周期内接收到另一个语义理解结果,则执行步骤S4,否则,执行步骤S5。
具体的,由于位于两个操作系统中的系统语音识别引擎进行识别和语义理解的速度可能会不一样(例如,其中一个语音识别引擎是在线引擎,这会有网络传输造成的延时),会导致两个语义理解结果到达仲裁装置的时间不一样。而仲裁器在进行仲裁时,需要等到两个语音识别引擎(SDS)都返回语义理解结果和所处对话状态。为保证用户体验,仲裁装置的等待时间不应过长。本发明实施例中,在仲裁装置内设置计时器以保证响应时间,即预设一个的计时周期。计时器的计时起点为用户有效音结束的点,这个时间点可以通过语音识别引擎(SDS)的静音检测给出来。
S4:查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态,根据查询结果,输出仲裁结果。
具体的,仲裁装置接收到第一个语义理解结果后,若是在预设的计时周期内接收到另一个语义理解结果,则通过查询第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态,然后根据查询结果,输出仲裁结果,决定由第一语音识别引擎还是第二语音识别引擎起作用。
S5:判断先到达的语义理解结果是否有效,若有效,则仲裁给先到达的语音识别引擎,否则本次语音识别失败。
具体的,仲裁装置接收到第一个语义理解结果后,若是在预设的计时周期内没有接收到另一个语义理解结果,则判断先到达的语义理解结果是否有效,若有效,则直接仲裁给先到达的语音识别引擎,否则本次语音识别失败。
作为一种较优的实施方式,本发明实施例中,所述步骤S3具体包括:
S3.1:判断所述仲裁装置接收到第一个语义理解结果是由哪一个语音识别引擎发出的,若是由所述第一语音识别引擎发出,则执行步骤S3.2,否则执行步骤S3.3。
具体的,为了便于描述,本发明实施例中,设置第一语音识别引擎具有免唤醒状态(always on)功能,其中always on是指一直处于在线状态,用户不需要重新唤醒语音识别引擎。仲裁装置接收到第一个语义理解结果后,先判断该语义理解结果是由哪一个语音识别引擎发出的,若是由第一语音识别引擎发出,则执行步骤S3.2,若是由第二语音识别引擎发出,执行步骤S3.3。
S3.2:判断此次语音识别是否为免唤醒状态触发,若是,则发送第一语音识别引擎的语义理解结果到达的信号后执行步骤S3.5,否则直接执行步骤S3.5。
具体的,若是仲裁装置接收到第一个语义理解结果是由第一语音识别引擎发出的,且检测到此次语音识别是免唤醒状态触发的,则需先发送一个第一语音识别引擎的语义理解结果到达的信号后执行步骤S3.5,否则直接执行步骤S3.5。
S3.3:判断此次语音识别是否为免唤醒状态触发,若是,则执行步骤S3.4,否则直接执行步骤S3.5。
具体的,若是仲裁装置接收到第一个语义理解结果是由第二语音识别引擎发出的,且检测到此次语音识别是免唤醒状态触发的,则执行步骤S3.4,否则直接执行步骤S3.5。
S3.4:查询所述第一语音识别引擎的语义理解结果是否到达,若是,则执行步骤S3.5,否则,等接收到所述第一语音识别引擎的语义理解结果到达的信号后执行步骤S3.5。
具体的,若是仲裁装置先接收到第二语音识别引擎发出的语义理解结果,先到达,且此次语音识别是免唤醒状态(always on)触发,则需要等待第一语音识别引擎的语义理解结果到达后再进行下一步操作,且没有时间限制。这是因为在本发明实施例中的双操作系统双语音识别引擎架构中,第一语音识别引擎有免唤醒状态(always on)功能,具有静音检测模块,能够很好地处理always on场景。第二语音识别引擎只是在第一语音识别引擎处于always on状态下同时被唤醒的,并没有静音检测功能,所以对于always on的场景,应该置信第一语音识别引擎的识别结果,因而仲裁装置需要等待第一语音识别引擎返回语义理解结果和所处对话状态后,再进行下一步操作。同样的,对于设置第二语音识别引擎有免唤醒状态(always on)功能,而第一语音识别引擎没有多轮状态(always on)功能的双操作系统来说,仲裁的流程原理也是相同的。
S3.5:若是在预设的计时周期内接收到另一个语义理解结果,则执行步骤S4,否则,执行步骤S5。
作为一种较优的实施方式,本发明实施例中,所述步骤S4具体包括:
S4.1:查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态,若有一方仍处于多轮对话状态,则仲裁给这一方,若是两方都处于多轮对话状态,则执行步骤S4.2,若是两方都不处于多轮对话状态,则执行步骤S4.3。
具体的,仲裁装置接收到第一个语义理解结果后,且在预设的计时周期内接收到了另一个语义理解结果,则接下来判断第一语音识别引擎和第二语音识别引擎的多轮对话状态是否改变,然后根据判断结果进行相应操作。如下,若有一方仍处于多轮对话状态(即另一方不处于多轮对话状态),则仲裁给处于多轮对话状态这一方的语音识别引擎起作用,若是两方都处于多轮对话状态,或者若是两方都不处于多轮对话状态,则执行相应步骤进行仲裁。
S4.2:查询所述第一语音识别引擎和第二语音识别引擎中哪一方先处于多轮对话状态,仲裁给先处于多轮对话状态的这一方。
具体的,若是两方都处于多轮对话状态,则查询先处于多轮对话状态的语音识别引擎,然后仲裁先处于多轮对话状态的这一方的语音识别引擎起作用。
S4.3:查询预设的仲裁配置表中规定的domain优先级,仲裁给优先级高的语音识别引擎。
具体的,这里需要说明的是,本发明实施例中,需要预先设置仲裁配置表,仲裁配置表中对两个语音识别引擎的语义理解结果domain的优先级进行了相应规定。若是两方都不处于多轮对话状态,则仲裁装置根据预设的仲裁配置表进行仲裁,仲裁给优先级高的语音识别引擎起作用。下表是一个语音仲裁配置样表,以该样表为例,对仲裁装置根据预设的仲裁配置表进行仲裁的过程进行举例说明。但是这里需要说明的是,下表是为了更好的描述本发明的方案做的举例说明,并不用于限制本发明的方案。
由上述配置样表可以看出,当第一语音识别引擎和第二语音识别引擎返回的语义理解结果domain都是“停车”、“酒店”、“航班”、“智能家居”时,则仲裁装置会仲裁给第二语音识别引擎起作用。
当第一语音识别引擎和第二语音识别引擎返回的语义理解结果domain都是“电台”、“电话”、“音乐”、“导航”、“车辆设置”时,则仲裁装置会仲裁给第一语音识别引擎起作用。
当第二语音识别引擎返回的语义理解结果domain是“停车”、“酒店”、“航班”、“智能家居”,第一语音识别引擎返回的语义理解结果domain是“电台”、“电话”、“音乐”、“导航”时,仲裁器仲裁给第二语音识别引擎起作用。
当第一语音识别引擎返回的语义理解结果domain是“停车”、“酒店”、“航班”、“智能家居”,第二语音识别引擎返回的语义理解结果domain是“电台”、“电话”、“音乐”、“导航”、“车辆设置”时,仲裁器仲裁给第二语音识别引擎起作用。
当第一语音识别引擎返回的语义理解结果domain是“车辆设置”时,无论第二语音识别引擎返回什么domain,都仲裁给第一语音识别引擎。
通过上述的例子可以看出,通过配置语音仲裁配置表,可以很自由的适配在车机两个操作系统中分配不同功能的情况。且设置仲裁装置根据仲裁配置表进行仲裁,开发者可以通过配置不同的配置表,满足不同开发者对车机系统功能分配的需求,简单快速的适配在两个车机系统中分配不同功能的情况。按照开发者的意愿来引导用户使用某个系统中的服务。使得该语音仲裁方案具有很好的可配置性和兼容性。
作为一种较优的实施方式,本发明实施例中,所述步骤S2前还包括:
所述第一语音识别引擎获取录音文件后,对所述录音文件进行降噪和回音消除,生成脉冲编码调制文件,并将所述脉冲编码调制文件同步传给所述第二语音识别引擎。
具体的,本发明实施例中,可以设置车机首先将用户说话的录音文件传给第一语音识别引擎,第一语音识别引擎进行降噪和回音消除,得到脉冲编码调制(PCM)文件,用于识别和语义理解。同时,第一语音识别引擎同步地、连续地将PCM文件传给第二语音识别引擎,用于第二语音识别引擎的语音识别和语义理解。同样的,也可以设置第二语音识别引擎具备降噪和回音消除功能。这种方式只需在车机的一个操作系统中有EC/NR(降噪和回音消除)的功能即可,这样在保证体验的同时,节省了成本。系统录音的过程中,还可以设置用户通过硬按键、软按键或者其他的方式取消录音,那么取消录音模块通知语音识别引擎取消录音。
作为一种较优的实施方式,本发明实施例中,所述步骤S1之前还包括:
所述第一语音识别引擎和所述第二语音识别引擎向所述仲裁装置进行注册。
具体的,车机系统启动后,两个语音识别引擎可以先在仲裁装置中注册自己的身份信息。
作为一种较优的实施方式,本发明实施例中,所述第一语音识别引擎为Linux语音识别引擎或Android语音识别引擎,所述第二语音识别引擎为Linux语音识别引擎或Android语音识别引擎。
具体的,本发明实施例中,第一语音识别引擎为Linux语音识别引擎,第二语音识别引擎为Android语音识别引擎。这里需要说明的是,本发明也适用于第一语音识别引擎为Android语音识别引擎,第二语音识别引擎为Linux语音识别引擎,或者第一语音识别引擎和第二语音识别引擎均为Linux语音识别引擎或者均为Android语音识别引擎的情况。
图2是根据一示例性实施例示出的基于双操作系统双语音识别引擎的语音仲裁装置的结构示意图,参照图2所示,该装置包括:
唤醒模块,用于唤醒第一语音识别引擎后,所述第一语音识别引擎唤醒第二语音识别引擎。
具体的,车机系统启动后,当用户开始使用语音识别功能时,用户通过唤醒词或其他方式唤醒第一语音识别引擎后,第一语音识别引擎通过唤醒模块唤醒第二语音识别引擎。
接收模块,用于接收所述第一语音识别引擎和第二语音识别引擎对脉冲编码调制文件进行识别和语义理解后各自生成的语义理解结果以及所处对话状态;
第一判断模块,用于判断所述仲裁装置接收到第一个语义理解结果后,是否在预设的计时周期内接收到另一个语义理解结果;
查询模块,用于查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态;
第二判断模块,用于判断先到达的语义理解结果是否有效;
仲裁模块,用于根据所述查询模块的查询结果或根据所述第二判断模块的判断结果,输出仲裁结果。
作为一种较优的实施方式,本发明实施例中,所述第一判断模块包括:
第一判断单元,用于判断所述仲裁装置接收到第一个语义理解结果是由哪一个语音识别引擎发出的;
第二判断单元,用于判断此次语音识别是否为免唤醒状态触发;
信号发送单元,用于发送第一语音识别引擎的语义理解结果到达的信号;
第一查询单元,用于查询所述第一语音识别引擎的语义理解结果是否到达。
作为一种较优的实施方式,本发明实施例中,所述仲裁模块包括:
第二查询单元,用于查询所述第一语音识别引擎和第二语音识别引擎中哪一方先处于多轮对话状态以及查询预设的仲裁配置表中规定的domain优先级。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
注册模块,用于所述第一语音识别引擎和所述第二语音识别引擎向所述仲裁装置进行注册。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
通知模块,用于在所述第一语音识别引擎和所述第二语音识别引擎与所述仲裁装置之间传递通知消息。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的基于双操作系统双语音识别系统的语音仲裁方法及装置,可以适用于双系统双语音复杂的仲裁场景,协调位于两个操作系统中,分别负责不同功能、domain的语音识别系统(SDS),解决了两个语音识别系统(SDS)在进行语音识别和语义理解时返回结果、实现功能时,容易发生冲突和混乱等问题,保证用户体验的统一性;
2、本发明实施例提供的基于双操作系统双语音识别系统的语音仲裁方法及装置,由于仲裁结果是通过配置表进行配置的,所以该仲裁方法及装置同时具有很好的兼容性以及可扩展性,且当两个系统中SDS负责的功能、domain不断增加时,通过配置表,仲裁器也可以协调两个SDS来保证用户体验的统一性。
3、本发明实施例提供的基于双操作系统双语音识别系统的语音仲裁方法及装置,只在一个操作系统中保留降噪和回音消除的能力,然后由此操作系统中的语音识别引擎将经过降噪和回音消除的PCM文件传给另一个语音识别引擎,可有效降低了成本。
需要说明的是:上述实施例提供的基于双操作系统双语音识别系统的语音仲裁装置在触发语音仲裁业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于双操作系统双语音识别系统的语音仲裁装置与基于双操作系统双语音识别系统的语音仲裁方法实施例属于同一构思,即该方法是基于该基于双操作系统双语音识别系统的语音仲裁装置的,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于双操作系统双语音识别引擎的语音仲裁方法,其特征在于,所述方法包括:
S1:唤醒第一语音识别引擎后,所述第一语音识别引擎唤醒第二语音识别引擎;
S2:所述第一语音识别引擎和第二语音识别引擎对脉冲编码调制文件进行识别和语义理解后,分别将各自生成的语义理解结果以及所处对话状态发送至仲裁装置;
S3:所述仲裁装置接收到第一个语义理解结果后,若是在预设的计时周期内接收到另一个语义理解结果,则执行步骤S4,否则,执行步骤S5;
S4:查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态,根据查询结果,输出仲裁结果;
S5:判断先到达的语义理解结果是否有效,若有效,则仲裁给先到达的语音识别引擎,否则本次语音识别失败。
2.根据权利要求1所述的基于双操作系统双语音识别引擎的语音仲裁方法,其特征在于,所述步骤S3具体包括:
S3.1:判断所述仲裁装置接收到第一个语义理解结果是由哪一个语音识别引擎发出的,若是由所述第一语音识别引擎发出,则执行步骤S3.2,否则执行步骤S3.3;
S3.2:判断此次语音识别是否为免唤醒状态触发,若是,则发送第一语音识别引擎的语义理解结果到达的信号后执行步骤S3.5,否则直接执行步骤S3.5;
S3.3:判断此次语音识别是否为免唤醒状态触发,若是,则执行步骤S3.4,否则直接执行步骤S3.5;
S3.4:查询所述第一语音识别引擎的语义理解结果是否到达,若是,则执行步骤S3.5,否则,等接收到所述第一语音识别引擎的语义理解结果到达的信号后执行步骤S3.5;
S3.5:若是在预设的计时周期内接收到另一个语义理解结果,则执行步骤S4,否则,执行步骤S5。
3.根据权利要求1或2所述的基于双操作系统双语音识别引擎的语音仲裁方法,其特征在于,所述步骤S4具体包括:
S4.1:查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态,若有一方仍处于多轮对话状态,则仲裁给这一方,若是两方都处于多轮对话状态,则执行步骤S4.2,若是两方都不处于多轮对话状态,则执行步骤S4.3;
S4.2:查询所述第一语音识别引擎和第二语音识别引擎中哪一方先处于多轮对话状态,仲裁给先处于多轮对话状态的这一方;
S4.3:查询预设的仲裁配置表中规定的domain优先级,仲裁给优先级高的语音识别引擎。
4.根据权利要求1或2所述的基于双操作系统双语音识别引擎的语音仲裁方法,其特征在于,所述步骤S2前还包括:
所述第一语音识别引擎获取录音文件后,对所述录音文件进行降噪和回音消除,生成脉冲编码调制文件,并将所述脉冲编码调制文件同步传给所述第二语音识别引擎。
5.根据权利要求1或2所述的基于双操作系统双语音识别引擎的语音仲裁方法,其特征在于,所述步骤S1之前还包括:
所述第一语音识别引擎和所述第二语音识别引擎向所述仲裁装置进行注册。
6.根据权利要求1或2所述的基于双操作系统双语音识别引擎的语音仲裁方法,其特征在于,所述第一语音识别引擎为Linux语音识别引擎或Android语音识别引擎,所述第二语音识别引擎为Linux语音识别引擎或Android语音识别引擎。
7.一种基于双操作系统双语音识别引擎的语音仲裁装置,其特征在于,所述装置:
唤醒模块,用于唤醒第一语音识别引擎后,所述第一语音识别引擎唤醒第二语音识别引擎;
接收模块,用于接收所述第一语音识别引擎和第二语音识别引擎对脉冲编码调制文件进行识别和语义理解后各自生成的语义理解结果以及所处对话状态;
第一判断模块,用于判断所述仲裁装置接收到第一个语义理解结果后,是否在预设的计时周期内接收到另一个语义理解结果;
查询模块,用于查询所述第一语音识别引擎和第二语音识别引擎是否仍处于多轮对话状态;
第二判断模块,用于判断先到达的语义理解结果是否有效;
仲裁模块,用于根据所述查询模块的查询结果或根据所述第二判断模块的判断结果,输出仲裁结果。
8.根据权利要求6所述的基于双操作系统双语音识别引擎的语音仲裁装置,其特征在于,所述第一判断模块包括:
第一判断单元,用于判断所述仲裁装置接收到第一个语义理解结果是由哪一个语音识别引擎发出的;
第二判断单元,用于判断此次语音识别是否为免唤醒状态触发;
信号发送单元,用于发送第一语音识别引擎的语义理解结果到达的信号;
第一查询单元,用于查询所述第一语音识别引擎的语义理解结果是否到达。
9.根据权利要求6或7所述的基于双操作系统双语音识别引擎的语音仲裁装置,其特征在于,所述仲裁模块包括:
第二查询单元,用于查询所述第一语音识别引擎和第二语音识别引擎中哪一方先处于多轮对话状态以及查询预设的仲裁配置表中规定的domain优先级。
10.根据权利要求6或7所述的基于双操作系统双语音识别引擎的语音仲裁装置,其特征在于,所述装置还包括:
注册模块,用于所述第一语音识别引擎和所述第二语音识别引擎向所述仲裁装置进行注册。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910124083.8A CN109949817B (zh) | 2019-02-19 | 2019-02-19 | 基于双操作系统双语音识别引擎的语音仲裁方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910124083.8A CN109949817B (zh) | 2019-02-19 | 2019-02-19 | 基于双操作系统双语音识别引擎的语音仲裁方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109949817A true CN109949817A (zh) | 2019-06-28 |
CN109949817B CN109949817B (zh) | 2020-10-23 |
Family
ID=67008006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910124083.8A Active CN109949817B (zh) | 2019-02-19 | 2019-02-19 | 基于双操作系统双语音识别引擎的语音仲裁方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109949817B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675872A (zh) * | 2019-09-27 | 2020-01-10 | 青岛海信电器股份有限公司 | 基于多系统显示设备的语音交互方法及多系统显示设备 |
CN112331213A (zh) * | 2020-11-06 | 2021-02-05 | 深圳市欧瑞博科技股份有限公司 | 智能家居设备控制方法、装置、电子设备及存储介质 |
JP2021079847A (ja) * | 2019-11-20 | 2021-05-27 | 本田技研工業株式会社 | 車両制御システム |
CN113241067A (zh) * | 2020-01-22 | 2021-08-10 | 广州汽车集团股份有限公司 | 一种语音交互方法及其系统、语音交互设备 |
CN113241066A (zh) * | 2020-01-22 | 2021-08-10 | 广州汽车集团股份有限公司 | 语音交互方法及其系统、语音交互设备 |
WO2022063288A1 (zh) * | 2020-09-27 | 2022-03-31 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种机上信息辅助系统和方法 |
CN115146615A (zh) * | 2022-09-02 | 2022-10-04 | 深圳联友科技有限公司 | 一种自然语言处理方法、系统、设备和可读存储介质 |
CN115346523A (zh) * | 2021-05-14 | 2022-11-15 | 联发科技(新加坡)私人有限公司 | 语音设备的语音交互方法及装置 |
WO2024088085A1 (zh) * | 2022-10-28 | 2024-05-02 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互装置、车辆和可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1514995A (zh) * | 2002-04-04 | 2004-07-21 | �ձ�������ʽ���� | 话音识别对话选择装置,话音识别对话系统,话音识别选择方法及程序 |
CN103077718A (zh) * | 2013-01-09 | 2013-05-01 | 华为终端有限公司 | 语音处理方法、系统和终端 |
KR20130070947A (ko) * | 2011-12-20 | 2013-06-28 | 주식회사 케이티 | 단말의 음성인식을 제어하는 서버 및 방법, 그리고 단말 |
CN104282305A (zh) * | 2013-07-12 | 2015-01-14 | 通用汽车环球科技运作有限责任公司 | 语音对话系统中用于结果仲裁的系统和方法 |
US20150154959A1 (en) * | 2011-11-18 | 2015-06-04 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
US20180012597A1 (en) * | 2012-12-19 | 2018-01-11 | Amazon Technologies, Inc. | Architecture for multi-domain natural language processing |
-
2019
- 2019-02-19 CN CN201910124083.8A patent/CN109949817B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1514995A (zh) * | 2002-04-04 | 2004-07-21 | �ձ�������ʽ���� | 话音识别对话选择装置,话音识别对话系统,话音识别选择方法及程序 |
US20150154959A1 (en) * | 2011-11-18 | 2015-06-04 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
KR20130070947A (ko) * | 2011-12-20 | 2013-06-28 | 주식회사 케이티 | 단말의 음성인식을 제어하는 서버 및 방법, 그리고 단말 |
US20180012597A1 (en) * | 2012-12-19 | 2018-01-11 | Amazon Technologies, Inc. | Architecture for multi-domain natural language processing |
CN103077718A (zh) * | 2013-01-09 | 2013-05-01 | 华为终端有限公司 | 语音处理方法、系统和终端 |
CN104282305A (zh) * | 2013-07-12 | 2015-01-14 | 通用汽车环球科技运作有限责任公司 | 语音对话系统中用于结果仲裁的系统和方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675872A (zh) * | 2019-09-27 | 2020-01-10 | 青岛海信电器股份有限公司 | 基于多系统显示设备的语音交互方法及多系统显示设备 |
CN110675872B (zh) * | 2019-09-27 | 2023-09-01 | 海信视像科技股份有限公司 | 基于多系统显示设备的语音交互方法及多系统显示设备 |
JP2021079847A (ja) * | 2019-11-20 | 2021-05-27 | 本田技研工業株式会社 | 車両制御システム |
JP7075389B2 (ja) | 2019-11-20 | 2022-05-25 | 本田技研工業株式会社 | 車両制御システム |
CN113241067B (zh) * | 2020-01-22 | 2022-04-22 | 广州汽车集团股份有限公司 | 一种语音交互方法及其系统、语音交互设备 |
CN113241066A (zh) * | 2020-01-22 | 2021-08-10 | 广州汽车集团股份有限公司 | 语音交互方法及其系统、语音交互设备 |
CN113241066B (zh) * | 2020-01-22 | 2022-04-22 | 广州汽车集团股份有限公司 | 语音交互方法及其系统、语音交互设备 |
CN113241067A (zh) * | 2020-01-22 | 2021-08-10 | 广州汽车集团股份有限公司 | 一种语音交互方法及其系统、语音交互设备 |
WO2022063288A1 (zh) * | 2020-09-27 | 2022-03-31 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种机上信息辅助系统和方法 |
CN112331213A (zh) * | 2020-11-06 | 2021-02-05 | 深圳市欧瑞博科技股份有限公司 | 智能家居设备控制方法、装置、电子设备及存储介质 |
CN115346523A (zh) * | 2021-05-14 | 2022-11-15 | 联发科技(新加坡)私人有限公司 | 语音设备的语音交互方法及装置 |
TWI832078B (zh) * | 2021-05-14 | 2024-02-11 | 新加坡商聯發科技(新加坡)私人有限公司 | 語音設備及其語音互動方法,以及電腦可讀記錄媒體 |
CN115146615A (zh) * | 2022-09-02 | 2022-10-04 | 深圳联友科技有限公司 | 一种自然语言处理方法、系统、设备和可读存储介质 |
WO2024088085A1 (zh) * | 2022-10-28 | 2024-05-02 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互装置、车辆和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109949817B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949817A (zh) | 基于双操作系统双语音识别引擎的语音仲裁方法及装置 | |
CN109983513A (zh) | 智能锁供电控制方法、智能锁系统及存储介质 | |
CN105869655B (zh) | 音频装置以及语音检测方法 | |
CN109036428A (zh) | 一种语音唤醒设备、方法及计算机可读存储介质 | |
CN114207710A (zh) | 检测和/或登记热命令以由自动助理触发响应动作 | |
CN104516449B (zh) | 车辆用装置、服务器和信息处理方法 | |
CN107564517A (zh) | 语音唤醒方法、设备及系统、云端服务器与可读介质 | |
WO2018149285A1 (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN104580699B (zh) | 一种待机时声控智能终端方法及装置 | |
KR102343084B1 (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
CN106502649A (zh) | 一种机器人服务唤醒方法及装置 | |
US9582983B2 (en) | Low power voice trigger for finding mobile devices | |
CN103440867A (zh) | 语音识别方法及系统 | |
CN109243462A (zh) | 一种语音唤醒方法及装置 | |
CN110175016A (zh) | 启动语音助理的方法及具有语音助理的电子装置 | |
CN105988581A (zh) | 一种语音输入方法及装置 | |
CN104994224B (zh) | 移动终端防盗方法及装置 | |
WO2017206832A1 (zh) | 一种信息处理方法、服务器、终端及信息处理系统 | |
CN109992239A (zh) | 语音出行方法、装置、终端及存储介质 | |
CN106127323A (zh) | 一种在线预约方法、装置及系统 | |
WO2021218842A1 (zh) | 下行接收触发方法、终端和网络侧设备 | |
CN103399832B (zh) | 总线间的乱序返回数据的归序方法 | |
CN106940997A (zh) | 一种向语音识别系统发送语音信号的方法和装置 | |
CN109817225A (zh) | 一种基于位置的会议自动记录方法、电子设备及存储介质 | |
CN105913843A (zh) | 语音叫车方法、语音叫车装置和语音叫车系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |