CN116052668B - 一种语音识别处理方法、装置、车辆及计算机程序产品 - Google Patents
一种语音识别处理方法、装置、车辆及计算机程序产品 Download PDFInfo
- Publication number
- CN116052668B CN116052668B CN202310313334.3A CN202310313334A CN116052668B CN 116052668 B CN116052668 B CN 116052668B CN 202310313334 A CN202310313334 A CN 202310313334A CN 116052668 B CN116052668 B CN 116052668B
- Authority
- CN
- China
- Prior art keywords
- voice
- vehicle
- vehicle environment
- command
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000004590 computer program Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 293
- 238000000034 method Methods 0.000 claims abstract description 140
- 230000008569 process Effects 0.000 claims abstract description 100
- 230000002618 waking effect Effects 0.000 claims description 15
- 230000001360 synchronised effect Effects 0.000 abstract description 17
- 230000006870 function Effects 0.000 description 53
- 238000010586 diagram Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Abstract
本公开提供了一种语音识别处理方法、装置、车辆及计算机程序产品,可以在车内语音和车外语音不能共存的情况下,在用户从车内到车外或从车外到车内的过程中,自动完成车内与车外语音切换,并且切换前的语音处理进度信息可以随着用户从车内到车外的过程同步到车外,或者,随着用户从车外到车内的过程同步到车内,从而在用户从车内到车外,或从车外到车内的时候,不用重新发起新的语音对话进程,实现车内与车外语音处理进程的无缝衔接,保证语音指令执行的完整性,提高语音指令执行效率。
Description
技术领域
本公开涉及语音处理技术领域,具体而言,涉及一种语音识别处理方法、装置、车辆及计算机程序产品。
背景技术
随着互联网技术的发展,车载语音系统在车辆中被广泛使用。用户通过与车载语音系统进行语音交互,可以控制车载语音系统执行各种语音指令,从而实现语音控制车辆的目的。
考虑到语音识别效果、语音识别处理的算力等问题,通常情况下,车内语音与车外语音不会共存。但是很多场景中,只在车内或车外无法完成完整的一项任务;例如在泊车任务中,用户在车内唤醒车内语音系统后,发起“自动泊车”的指令,在下车后,当前针对泊车任务的语音进程即结束。但是,用户下车后可能发现泊车不到位或者需要继续询问用户是否在搜索到的目标停车位停车,也即此时需要在车外继续泊车,那就需要重新发起任务流程,在车外唤醒车外语音系统,继续发起语音指令。
可见,上述实施过程,对一个语音任务无法连续执行,用户需要多次发起语音任务流程才能执行完成一个语音任务,任务执行过程比较割裂,从而影响了任务执行效率及用户体验。
发明内容
本公开实施例至少提供一种语音识别处理方法、装置、车辆及计算机程序产品。
第一方面,本公开实施例还提供一种语音识别处理方法,包括:
在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息;所述语音处理进度信息为在启动所述第一车辆环境下的第一语音识别功能后,进行第一语音识别处理的进度信息;
启动第二车辆环境下的第二语音识别功能;
在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理;
其中,所述第一车辆环境为车内环境,所述第二车辆环境为车外环境;或者,所述第一车辆环境为车外环境,所述第二车辆环境为车内环境。
采用上述语音识别处理方法,针对一项语音任务,在用户从车内语音切换到车外语音,或者从车外语音切换到车内语音的过程中,可以不用重新发起新的语音对话流程,而是可以将车内的语音处理进度信息,随着用户从车内到车外,同步到车外语音,或者,将车外的语音处理进度信息,随着用户从车外到车内,同步到车内语音,这样,在进行语音切换后,就不用重新发起新的语音对话流程,而是可以结合同步过来的语音上下文信息进行语音指令识别处理,从而实现车内与车外语音处理进程无缝衔接,保证语音指令执行的完整性,提高语音指令执行效率,也提升了用户的使用体验。
一种可能的实施方式中,所述方法还包括:
在第一时长内,等待接收第一语音指令以及第二语音指令;
其中,所述第一时长为唤醒所述第一车辆环境下的第一语音识别功能后,等待接收语音指令的有效时间,所述语音指令包括所述第一语音指令和/或所述第二语音指令;
所述第一语音指令为唤醒所述第一语音识别功能后,在所述第一时长内在所述第一车辆环境下通过语音发起的指令;
所述第二语音指令为唤醒所述第一语音识别功能后,在所述第一时长内在所述第二车辆环境下通过语音发起的指令。
上述实施方式中,唤醒第一车辆环境下的第一语音识别功能后,可以在第一时长内等待接收语音指令,该语音指令可以包括在第一车辆环境发起的第一语音指令,也可以包括在第二车辆环境发起的第二语音指令;在用户从车内语音切换到车外语音,或者从车外语音切换到车内语音的过程中,只要不超过设置的有效时间,就可以不用重新发起新的语音对话流程,即可直接下发第二语音指令,从而实现车内与车外语音处理进程无缝衔接。
一种可能的实施方式中,所述在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息,包括:
在检测到满足语音切换条件时,若当前未接收到所述第一语音指令,则获取等待接收所述第一语音指令的第一剩余时长;所述第一剩余时长为等待接收所述第一语音指令的剩余计时时长;
所述在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,包括:
若在所述第一剩余时长内,接收到所述第二语音指令,执行所述第二语音指令。
上述实施方式中,在唤醒车内或车外语音识别功能后,在等待用户的语音指令的阶段,若满足车内与车外语音切换的条件,可以将车内/外等待语音指令的剩余时长同步到车外/内,在无需用户再次发起语音唤醒指令的情况下,即可直接下发语音指令,从而实现车内与车外语音处理进程无缝衔接。
一种可能的实施方式中,所述在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息,包括:
在检测到满足语音切换条件时,若确定已接收到所述第一语音指令,则获取针对所述第一语音指令的第一语音处理进度信息;
所述在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,包括:
基于所述第一语音处理进度信息在所述第二车辆环境下进行语音播报。
上述实施方式下,在执行语音指令阶段,满足车内与车外语音切换条件时,可以将车内/外的指令执行结果同步到车外/内,这样,就无需用户再次重新发起任务流程,可以直接在车外/内播放任务的执行结果反馈信息,从而实现车内与车外语音处理进程无缝衔接。
一种可能的实施方式中,所述基于所述第一语音处理进度信息在所述第二车辆环境下进行语音播报后,还包括:
接收所述第二语音指令,基于所述第一语音指令与所述第二语音指令的关联关系,确定第二语音处理进度信息;
基于所述第二语音处理进度信息在所述第二车辆环境下进行语音播报。
上述实施方式下,在接收语音指令阶段,在车外/内播报完用户在车内/外发起的指令内容的执行结果后,还可以继续接收用户在车外/内输入的指令内容,并结合车内和车外的指令内容的上下文关系,对用户在车外/内输入的指令内容进行识别,从而可以实现车内与车外的语音处理进程在语音的语义理解上的无缝衔接。
一种可能的实施方式中,所述在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,包括:
在检测到满足语音切换条件时,若在所述第二车辆环境下接收到第三语音指令,则在所述第二车辆环境下接收到所述第二语音指令后,对所述第三语音指令与所述第二语音指令进行所述第二语音识别处理;
其中,所述第三语音指令为所述第一语音指令的部分指令信息,所述第三语音指令与所述第二语音指令构成完整的语音指令信息。
上述实施方式中,在接收语音指令阶段,用户在车内/外发起第一语音指令后,在满足车内与车外语音切换条件后,可能会在切换后重复接收到第一语音指令的部分语音内容(即第三语音指令),此时该部分语音内容和继续接收到的第二语音指令,可以结合形成完整的语音指令,供语音处理进程进行识别处理。如此,可以避免无法准确识别语音指令的情况,一定程度上提高语音处理进程进行语音识别处理的准确性。
一种可能的实施方式中,所述对所述第三语音指令与所述第二语音指令进行所述第二语音识别处理后,还包括:
获得所述第二语音识别处理结果,在所述第二车辆环境下播放所述第二语音识别处理结果。
一种可能的实施方式中,所述对所述第三语音指令与所述第二语音指令进行所述第二语音识别处理前,还包括:
确定在第二时长内,接收到所述第二语音指令。
上述实施方式中,第二时长也即在接收到第三语音指令后,等待接收第二语音指令以结合作为完整语音指令的有效时长,也即在第二时长内接收到的第二语音指令能够与第三语音指令结合为完整语音指令,这种设置符合一般的语音输入规律,可以提高语音指令识别上的准确性。
一种可能的实施方式中,所述在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息,包括:
在检测到满足语音切换条件时,若播报完所述第一语音指令的语音处理结果,则获取等待接收所述第二语音指令的第二剩余时长;所述第二剩余时长为等待接收所述第二语音指令的剩余计时时长;
所述在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,包括:
若在所述第二剩余时长内,接收到所述第二语音指令,执行所述第二语音指令。
上述实施方式中,在完成执行结果反馈后的语音进程保持阶段,满足车内与车外语音切换条件时,可以将当前车内/外语音进程保持阶段的剩余时长同步到车外/内,在无需用户再次发起语音唤醒指令的情况下,可以在车外/内继续等待接收用户进一步的语音指令,从而在执行一项语音任务的过程中,实现车内与车外语音处理进程无缝衔接。
一种可能的实施方式中,所述执行所述第二语音指令后,还包括:
若在所述第二剩余时长内,接收到第四语音指令,则基于所述第二语音指令与所述第四语音指令的关联关系,确定第三语音处理进度信息;
基于所述第三语音处理进度信息在所述第二车辆环境下进行语音播报。
上述实施方式中,在语音进程保持阶段,满足车内与车外语音切换条件时,除了语音进程保持阶段的剩余计时时长,还可以将执行完语音指令后的执行结果同步到车外/内,如此,在针对同一语音任务的多轮对话场景下(也即需要进行用户语音指令的多轮识别反馈,才能完成一项完整任务,比如开始用户发起泊车指令,后来又根据泊车结果进一步发起调整泊车位置的指令),可以结合之前语音指令的执行情况,进行后续语音指令的识别处理(比如开始用户在车内发起语音“在前面停车位停车”,执行完该语音指令并反馈后,用户下车后又发起语音“往右边一点”,此时需要结合前文语音指令执行情况才能确认当前是需要将车辆停放位置向右移动一点),从而可以实现多轮对话场景下,进行车内与车外语音切换时,执行整体任务时的连续性。
第二方面,本公开实施例提供了一种语音识别处理装置,包括:控制模块和语音处理模块;
所述控制模块,用于在检测到满足语音切换条件时,向所述语音处理模块发送语音切换指令;
所述语音处理模块,用于响应于所述语音切换指令,获取第一车辆环境下的语音处理进度信息;所述语音处理进度信息为在启动所述第一车辆环境下的第一语音识别功能后,进行第一语音识别处理的进度信息;启动第二车辆环境下的第二语音识别功能;在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理;
其中,所述第一车辆环境为车内环境,所述第二车辆环境为车外环境;或者,所述第一车辆环境为车外环境,所述第二车辆环境为车内环境。
第三方面,本公开实施例还提供一种车辆,包括:如第二方面所述的语音识别处理装置。
第四方面,本公开实施例还提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器运行时执行如上述第一方面、或第一方面中任一可能的实施方式中的步骤。
上述第二至四方面的有益效果参见前文关于语音识别处理方法的描述,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的语音识别处理方法的流程示意图;
图2示出了本公开实施例所提供的单轮语音对话进程的状态示意图;
图3示出了本公开实施例所提供的多轮语音对话进程的状态示意图;
图4示出了本公开实施例所提供的语音识别处理装置的结构示意图;
图5示出了本公开实施例所提供的在C1阶段,发生语音切换时,多轮语音对话进程的流程示意图;
图6示出了本公开实施例所提供的控制设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开实施例中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,除“和/或”外,为了方便描述,本公开实施例中还有其它地方使用了符号“/”;本公开实施例中的“/”可以表示该符号前后内容是两种并列的可同时存在或者择一存在的表达、或者是可以互换的两种等同表达,本领域技术人员在看到具体内容时可以明白两者的关系。
下面首先对提出本公开实施例方案的背景思路做下介绍。
经研究发现,为了避免车辆中车内语音与车外语音同时存在时容易出现串音、语音识别处理的效果差、且算力要求高等问题,通常情况下,车内与车外语音不会同时存在。但是很多场景中,语音任务需要结合车内语音和车外语音共同完成。例如:充电场景下,用户在车内说“打开充电口盖”,充电口盖打开后,用户进入到车外时,拿出充电枪,充上电以后,需要在车外设置充电相关信息;再比如,导航场景下,用户在车外说“导航去XX机场”,进入车内后,需要确认具体是哪条线路;再比如,打开尾门场景下,用户在车内说“打开尾门”,下车后取完东西,直接在车外说“关闭尾门”;再比如,泊车场景下,用户在车内说自动泊车,下车后需要继续进行泊车位置的调整。
上述场景中,都需要结合车内语音和车外语音共同完成一项完整任务,但是在车内与车外语音不能同时存在或者存在两套独立的语音系统的情况下,用户在车内唤醒车内语音系统,发起相关语音指令并下车后,当前的语音任务即结束,用户到车外后需要重新发起新的任务流程,也即再唤醒车外语音系统,发起相关语音指令,导致用户与车载语音系统之间的交互无法连续进行。比如,上述充电场景下,用户在车内唤醒车内语音识别系统,发起语音“打开充电口盖”,在进行车内语音识别处理,转换为执行部件可识别的任务内容后,执行部件执行充电口盖打开,此时,若切换到车外语音,当前的语音任务流程即结束了;在用户到达车外时,拿出充电枪,充上电以后,需要在车外设置充电相关信息,此时用户还需要再次发起新的语音任务流程,也即唤醒车外语音识别系统,然后再次发起指示设置充电相关信息的语音指令。也即,在进行车内与车外语音切换时,不管当前任务是否执行完成,都会结束当前任务,无法将任务流程延续,并且,由于切换后的语音识别系统并没有切换前的语音上下文信息,在识别用户进一步的语音指令时,可能会存在无法识别准确的问题。
基于此,本公开实施例提供了一种语音识别处理方法,可以在车内语音和车外语音不能共存的情况下,在用户从车内到车外或从车外到车内的过程中,自动完成车内与车外语音切换,并且语音处理进度信息可以随着用户从车内到车外的过程同步到车外,或者随着用户从车外到车内的过程同步到车内,这样,在进行语音切换后,就不用重新发起新的语音对话流程,切换后,可以结合同步的语音上下文信息继续进行语音指令识别处理,从而实现车内、外语音处理进程无缝衔接,保证语音指令执行的完整性,提高语音指令执行效率。
针对以上方案所存在的缺陷以及所提出的解决方案,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的语音识别处理方法进行详细介绍。
参见图1所示,为本公开实施例提供的语音识别处理方法的流程图,所述方法包括S101~S103,其中:
S101:在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息;所述语音处理进度信息为在启动所述第一车辆环境下的第一语音识别功能后,进行第一语音识别处理的进度信息。
S102:启动第二车辆环境下的第二语音识别功能。
S103:在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理;其中,所述第一车辆环境为车内环境,所述第二车辆环境为车外环境;或者,所述第一车辆环境为车外环境,所述第二车辆环境为车内环境。
在本公开实施例中,当第一车辆环境为车内环境时,第二车辆环境可以为车外环境;当第一车辆环境为车外环境时,第二车辆环境可以为车内环境,由此,本公开实施例提供的语音识别处理方法可以应用于执行语音任务时,从车内语音切换到车外语音,或者从车外语音切换到车内语音的场景中。
这里,车内环境可以指车辆内部的空间环境;车外环境可以指车辆外部的空间环境。
当需要执行语音任务时,用户可以通过语音唤醒指令唤醒车辆的语音识别功能。上述语音唤醒指令可以包括预设唤醒词,也即,用户可以通过说出预设唤醒词来唤醒语音功能。在具体实施中,用户唤醒车内语音功能所使用的预设唤醒词,与唤醒车外语音功能所使用的预设唤醒词可以不同。不过,在唤醒车内语音功能或车外语音功能后,在后续进行车内外语音切换后,则无需再次使用预设唤醒词唤醒切换后的语音功能。
这里,接收到用户在第一车辆环境中发起的语音唤醒指令后,可以启动第一语音识别功能,然后在第一时长内,等待接收第一语音指令和第二语音指令。
其中,第一时长为唤醒第一车辆环境下的第一语音识别功能后,等待接收第一语音指令和第二语音指令的有效时间。第一语音指令为唤醒第一语音识别功能后,在第一时长内在第一车辆环境下通过语音发起的指令,第二语音指令为唤醒第一语音识别功能后,在第一时长内在第二车辆环境下通过语音发起的指令。
也即,在唤醒第一语音识别功能后,可以在一定时长内等待接收用户的语音指令,该语音指令可以是在切换前的第一车辆环境下发起的,也可以是在切换后,启动第二车辆环境的第二语音识别功能后在第二车辆环境下发起的,只要不超过该第一时长,都无需重新唤醒语音识别功能。
这里,第一语音指令或第二语音指令区别于语音唤醒指令,是在唤醒语音进程后进一步发起的指令。
车辆可以对接收到的第一车辆环境中发起的第一语音指令进行识别处理。在检测到满足语音切换条件时,可以获取指示进行车内外语音切换的语音切换指令。语音切换指令可以指示当前需要启动第二车辆环境下的第二语音识别功能,并根据同步的第一语音识别处理的语音处理进度信息,进行第二语音识别处理。
在具体实施中,车内和车外的语音识别处理可以分别通过不同的语音处理进程执行,进行车内语音识别处理的进程与进行车外语音识别处理的进程之间可以通过进程间通信机制实现信息同步,也可以通过控制器实现信息同步。
这里,启动第二车辆环境下的第二语音识别功能后,可以在无需重新在第二车辆环境中发起语音唤醒指令的情况下,根据同步的第一语音识别处理的语音处理进度信息,进行第二语音识别处理。
其中,语音切换条件可以包括检测到的任何可能的语音切换条件。示例性的,语音切换条件可以包括检测到用户图像从第一车辆环境移动到第二车辆环境、用户开关车门、车内外语音切换按钮被触发等。
第一语音识别处理的语音处理进度信息可以包括指示当前所处语音处理阶段的指示信息,也可以包括在切换前的第一车辆环境下进行语音识别处理的具体进度信息。比如,可以包括第一车辆环境下等待接收第一语音指令的第一剩余时长、第一语音指令的部分指令信息、针对第一语音指令的第一语音处理结果、等待接收第二语音指令的第二剩余时长等。后文将结合不同的语音处理进度信息对语音识别处理过程进行详述。
其中,上述第一剩余时长可以为等待接收第一语音指令的剩余计时时长,即根据第一时长减去第一车辆环境下等待接收第一语音指令的第一消耗时长确定的计时时长。在一种实施方式中,第一时长可以是预设的,第一车辆环境下等待第一语音指令的第一剩余时长与第一车辆环境下等待第一语音指令的第一消耗时长是等价的(也即知晓第一消耗时长相当于知晓第一剩余时长),因此第一语音识别处理的语音处理进度信息也可以包括等待第一语音指令的第一消耗时长。
上述第一语音指令的部分指令信息可以为用户在第一车辆环境下、在语音切换之前发起的。
上述针对第一语音指令的第一语音处理结果可以在语音切换之前,在第一车辆环境下执行第一语音指令后的指令执行结果。
上述第二剩余时长可以为等待接收第二语音指令的剩余计时时长,即根据第一时长减去第二车辆环境下等待接收第二语音指令的第二消耗时长确定的计时时长。可以认为,上述第二剩余时长与第二消耗时长的特征是等价的(也即知晓第二消耗时长相当于知晓第二剩余时长),上述语音处理进度信息包括第二剩余时长,相当于第二语音识别处理的语音处理进度信息包括上述第二消耗时长。
本公开实施例中,启动第一车辆环境下的第一语音识别功能后,如图2所示,语音识别处理过程具体可以分为以下几个阶段:A、等待语音指令阶段;B、接收语音指令阶段;C、执行语音指令阶段;D、指令执行结果反馈阶段;E、语音进程保持阶段(也即全双工等待阶段。全双工模式下可以同时进行信息的双向传输,在全双工等待阶段可以等待接收用户进一步输入的语音指令)。这里需要理解的是,上述各个阶段的长短对应处理时间的长短,并且各个阶段对应的处理时间长短仅为示意性的。
在不同的语音处理阶段,检测到满足语音切换条件时,获取的第一语音识别处理的语音处理进度信息可以是不同的,并且进行第二语音识别处理的过程也可以是不同的。
下面介绍不同语音处理阶段下,确定语音处理进度信息、以及根据语音处理进度信息进行第二语音识别处理的过程进行详述。
A、等待语音指令阶段:
在该阶段下,用户在第一车辆环境中发起了语音唤醒指令,车辆等待用户进一步的语音指令,并启动计时,在此过程中,发生从第一车辆环境到第二车辆环境的语音切换。
在这个阶段下,在检测到满足语音切换条件时,若当前未接收到第一语音指令,则获取等待接收第一语音指令的第一剩余时长。
这里,车内外语音切换之前,未接收到用户的第一语音指令,则可以保留当前的语音任务流程,将等待第一语音指令的第一剩余时长作为语音处理进度信息。
如前所述,第一车辆环境下等待第一语音指令的第一剩余时长与第一车辆环境下等待第一语音指令的第一消耗时长可以认为是等同特征,因此这里,也可以将第一车辆环境下等待第一语音指令的第一消耗时长作为语音处理进度信息。
在第二车辆环境下,若在第一剩余时长内,接收到用户的第二语音指令,则执行第二语音指令;若在第一剩余时长内,未接收到用户的第二语音指令,则结束语音处理进程。
也就是,若第一剩余时长不为零,则可以在无需用户再次输入语音唤醒指令的情况下,接收到用户在第二车辆环境下的第二语音指令后,执行第二语音指令。若在第一剩余时长内,未接收到用户在第二车辆环境下的第二语音指令,则结束语音处理进程。这里,结束语音处理进程后,如果用户想要下发新的语音指令,则需要再次在第一车辆环境中输入语音唤醒指令,并重新启动第一语音识别功能,或者在第二车辆环境中输入语音唤醒指令,并启动第二语音识别功能。
示例性的,若用户在车内发起语音唤醒指令、未发起语音指令,且当前语音处理进程未退出的情况下,车内语音切换到车外语音,此时,用户无需在车外再次发起语音唤醒指令,即可直接在车外下发语音指令。比如,用户在下车前说出语音唤醒词,在还未说出指示具体语音任务的语音指令时下车,而后可以直接在车外下发关闭车门的语音指令。
又一示例性的,若用户在车外发起语音唤醒指令、未发起语音指令,且当前语音处理进程未退出的情况下,车外语音切换到车内语音,此时,用户无需在车内再次发起语音唤醒指令,即可直接在车内下发语音指令。比如,用户上车前说出语音唤醒词,唤醒了车外语音,在还未说出指示具体语音任务的语音指令时快速上车,而后可以直接在车内下发关闭车门的语音指令。
B、接收语音指令阶段:
在该阶段下,用户在第一车辆环境中发起了语音唤醒指令,并且开始输入指示相应语音任务的第一语音指令,在输入了该第一语音指令的至少部分指令内容时,发生从第一车辆环境到第二车辆环境的语音切换。
在这种情况下,可以在切换后无需进行语音唤醒,继续在切换后的第二车辆环境下接收第二语音指令,并可以对该第二语音指令进行识别处理。也可以在切换后,结合在切换前的至少部分第一语音指令与该第二语音指令进行语音识别处理,也即此时同步的语音处理进度信息包括至少部分第一语音指令。
在一种场景下,用户可能在切换前的车辆环境下说了部分语音指令,然后再车外继续说出剩余的部分语音指令。此时,在检测到满足语音切换条件时,若在第二车辆环境下接收到第三语音指令,则在第二车辆环境下接收到第二语音指令后,对第三语音指令与第二语音指令进行第二语音识别处理。
这里,在接收语音指令阶段,在发生语音切换后,若在切换后重复接收到第一语音指令的部分语音内容(即第三语音指令),此时该部分语音内容和继续接收到的第二语音指令,可以结合形成完整的语音指令,供语音处理进程进行识别处理。如此,可以避免造成无法准确识别语音指令的情况,一定程度上提高语音处理进程进行语音识别处理的准确性。
另外,可以在对第三语音指令与第二语音指令进行第二语音识别处理之前,确定在第二时长内,接收到第二语音指令。这里,第二时长也即在接收到第三语音指令后,等待接收第二语音指令以结合作为完整语音指令的有效时长,也即在第二时长内接收到的第二语音指令能够与第三语音指令结合为完整语音指令,这种设置符合一般的语音输入规律,可以提高语音指令识别上的准确性。
上述实施方式下,用户通过重复第一语音指令的部分语音指令,可以保证接收到的语音指令信息的完整性和连贯性。例如用户在车内说了:“打开音乐播放器,播放歌曲”(第一语音指令),此时车内语音切换到了车外语音,用户可以在车外重复在车内的部分语音“播放歌曲”(第三语音指令),并继续说出歌曲名称(第二语音指令),此时可以根据“播放歌曲”和“歌曲名称”,确定完整的语音指令所对应的语义,即播放XX名称的歌曲。
进行第二语音识别处理之后,还可以获取第二语音识别处理结果,在第二车辆环境下播放第二语音识别处理结果。在上述例子中,可以在第二车辆环境下播放XX名称的歌曲。
在实际情况中,语音切换需要一定的切换时长,如果语音切换的耗时时长在预设时长内,即第一语音识别功能暂停后,第二语音识别功能很快启动,则在B阶段,可以按照上述实施方式执行相应的步骤;如果语音切换的耗时时长在预设时长以上,即第一语音识别功能已经暂停,但是第二语音识别功能需要相对长一点的时间启动,在一种实施方式中,则可以按照以下实施方式执行相应的步骤:
具体地,在语音切换的耗时时长超过预设时长的情况下,在B阶段,在检测到满足语音切换条件时,在接收到用户的第一语音指令的至少部分指令内容,还未执行第一语音指令的情况下,可以获取用于指示接收到用户的第一语音指令的指示信息。
在第二车辆环境下,可以播放提示用户再次输入第一语音指令的提示语音,并在接收到第一语音指令后,执行第一语音指令。
这里,通过播放提示用户再次输入第一语音指令的提示语音,可以重新接收第一语音指令,避免由于第一语音识别功能已经暂停,但是第二语音识别功能还未启动的过程导致用户说的语音内容被错过,进而导致语音识别不准确的情况。
示例性的,用户在车内发起语音“打开车窗”,此时车内语音切换到了车外语音,并且耗时时长在预设时长以上,则车外语音可以播放“刚才没听清楚,可否再说一次?”,用户在车外再次说“打开车窗”即可,无需再次发起语音唤醒指令。
又一示例性的,用户在车外发起语音“打开车窗”,此时车外语音切换到了车内语音,并且耗时时长在预设时长以上,则车内语音可以播放“刚才没听清楚,可否再说一次?”,用户在车内再次说“打开车窗”即可,无需再次发起语音唤醒指令。
C、执行语音指令阶段:
在该阶段下,用户在第一车辆环境中已经输入了指示相应语音任务的第一语音指令,在处理该语音指令的过程中,发生从第一车辆环境到第二车辆环境的语音切换。
在这个阶段中,在检测到满足语音切换条件时,若确定已接收到第一语音指令,则获取针对第一语音指令的第一语音处理进度信息。此时,在当前处于第一语音指令执行阶段的情况下,确定第一语音识别处理的语音处理进度信息包括:执行第一语音指令后的指令执行结果。
也就是在这个阶段,已经在第一车辆环境下对第一语音指令进行了识别处理,得到了针对第一语音指令的第一语音处理结果,但是还未在第一车辆环境中进行语音播放,此时发生了从第一车辆环境到第二车俩环境的语音切换。切换到第二车辆环境后,可以基于第一语音处理进度信息在第二车辆环境下进行语音播报。
示例性的,用户在车内发起“打开一点儿车窗”的语音,车内语音可以解析该语音,将语音内容解析成执行部件可识别的执行指令时(比如将该语音内容转换成车门控制部件可识别的计算机指令),发生了车内外语音切换,此时,车内语音可以继续完成解析过程,并将解析后的执行指令反馈到执行部件或通过控制器反馈到执行部件执行具体任务内容。用户下车后,在执行部件执行完具体任务内容后,通过车外语音播报“按照您的要求,打开了一点儿车窗”。
又一示例性的,用户在车外发下了“打开一点儿车窗”的语音,车外语音解析该语音,将语音内容解析成执行部件可识别的执行指令时(比如将该语音内容转换成车门控制部件可识别的计算机指令),发生了车内外语音切换,此时,车外语音可以继续完成解析过程,并将解析后的执行指令反馈到执行部件或通过控制器反馈到执行部件执行具体任务内容。用户上车后,在执行部件执行完具体任务内容后,通过车内语音播报“按照您的要求,打开了一点儿车窗”。
这里,在基于第一语音处理进度信息在第二车辆环境下进行语音播报后,还可以将第一语音指令的指令执行结果进行反馈,从而避免因指令执行过程中断造成任务流程卡顿、影响任务执行效率的情况。
在第二车辆环境下进行语音播报后,可以保留当前的语音任务流程,在第二车辆环境下,可以在无需用户重新发起语音唤醒指令的情况下,接收第二语音指令。第二语音指令和第一语音指令之间可以具有关联关系,也即上下文关系,根据第二语音指令与第一语音指令之间的关联关系,可以确定第二语音处理进度信息,并基于第二语音处理进度信息在第二车辆环境下进行语音播报。
示例性的,用户在车内说了打开音乐播放器后下车了,此时车内语音切换到了车外语音,车外语音可以播报:“音乐播放器已打开”的语音内容,接下来用户可以在车外直接说出歌曲名称,车外语音可以结合音乐播放器的第一语音指令和包含歌曲名称的第二语音指令,控制音乐播放器播放该歌曲名称对应的歌曲,从而实现车内与车外语音处理进程无缝衔接。
D、指令执行结果反馈阶段:
在该阶段下,第一语音识别处理过程已经处理完用户输入的指示相应语音任务的第一语音指令,正在反馈语音指令对应的执行结果时,发生从第一车辆环境到第二车辆环境的语音切换。
在这个阶段中,检测到满足语音切换条件时,在当前处于执行完第一语音指令后的执行结果反馈阶段的情况下,获取执行第一语音指令后的指令执行结果及结果反馈进度。
在第二车辆环境下,获取到第一语音指令的指令执行结果及结果反馈进度后,可以继续播放执行结果反馈信息。
这里,第一语音指令的指令执行结果可以是第一语音识别处理过程中执行完第一语音指令产生的指令执行结果。结果反馈进度可以包括在语音切换之前,第一语音识别处理过程中已经播报的指令执行结果中的至少部分指令执行结果内容。
在第二车辆环境下,在第二语音识别处理过程中,在一种实施方式中,可以根据第一语音指令的指令执行结果对应的完整的执行结果反馈信息、以及结果反馈进度,继续播放还未播放的执行结果反馈信息。
示例性的,用户在车内发出“打开一点儿车窗”的语音,车内语音解析该语音,将语音内容解析成执行部件可识别的执行指令,执行部件执行打开一点儿车窗后,通过车内语音播报“按照您的要求,打开了一点儿车窗”的过程中,从车内语音切换到了车外语音,车外语音可以继续播放该内容。
或者,在另一种实施方式中,播放在第一车辆环境下已播放的至少部分执行结果反馈信息和剩余未播放的执行结果反馈信息。
这里,在第一车辆环境下已播放的至少部分执行结果反馈信息可以在第二车辆环境下再次播放,也就是可以重叠播放已播放的至少部分执行结果反馈信息。在第二车辆环境中播放完在第一车辆环境下已播放过的至少部分执行结果反馈信息后,再继续播放剩余未播放的执行结果反馈信息,可以保证用户接听执行结果反馈信息的完整性,使得车内与车外语音处理进程无缝衔接,并且可以避免在进行切换的时间间隙内,用户未听清楚第一车辆环境下播放的部分执行结果反馈信息,无法理解仅在第二车辆环境下播放的剩余的执行结果反馈信息。
示例性的,用户在车内发出“打开一点儿车窗”的语音,车内语音解析该语音,将语音内容解析成执行部件可识别的执行指令,执行部件执行打开一点儿车窗后,通过车内语音播报“按照您的要求,打开了一点儿车窗”的过程中,从车内语音切换到了车外语音,其中车内语音播放了“按照您的要求,打开……”,车外语音可以继续播放“打开(重复语音)了一点儿车窗”。
上述反馈执行第一语音指令后的指令执行结果,具体可以包括指令执行结果本身以及该指令执行结果所针对的第一语音指令的内容。在播放完执行结果反馈信息后,进入语音进程保持阶段,在语音进程保持阶段,在第二车辆环境无需说语音唤醒指令,在用户进一步的语音指令中没有给出明确作用对象的情况下,可以根据D阶段的第一语音指令和接收到的新的语音指令,确定新的语音指令对应的作用对象,并执行新的语音指令,比如第一语音指令是“打开一点儿车窗”,在D阶段结束后,用户发起新的语音指令“打开全部”,此时结合之前的第一语音指令,可以知道新的语音指令对应的作用对象仍然是车窗,此时用户需要的是“打开全部车窗”。
E、语音进程保持阶段:
在该阶段下,语音进程继续保持,并启动倒计时,在等待接收用户进一步输入的语音指令的过程中,发生从第一车辆环境到第二车辆环境的语音切换。
在这个阶段中,检测到满足语音切换条件时,若播报完第一语音指令的语音处理结果,则获取等待接收第二语音指令的第二剩余时长。
这里,第二剩余时长为等待接收第二语音指令的剩余计时时长。
当前处于播报完第一语音指令的语音处理结果的情况下,语音切换后,若在第二剩余时长内,接收到第二语音指令,则可以执行第二语音指令。若在第二剩余时长内,未接收到用户的第二语音指令,结束当前语音进程。
在语音进程保持阶段,可以在无需用户重新发起语音唤醒指令的情况下,接收到用户的第二语音指令后,继续执行第二语音指令,该第二语音指令可以与之前的第一语音指令属于同一任务流程。
在本公开实施例中,如果在达到第二剩余时长时,未接收到用户在第二车辆环境下发的第二语音指令,结束当前语音进程,则表明当前单轮对话的语音对话进程结束;如果在达到第二剩余时长之前,接收到用户的第二语音指令,可以继续进行第二语音识别处理,则表明当前进入多轮对话的语音对话进程。
也就是在E阶段,可以将第二剩余时长,以及执行完第一语音指令后的执行结果,作为语音处理进度信息。若在达到第二剩余时长之前,接收到用户在第二车辆环境下发的第二语音指令,则基于第二语音指令,以及第一语音指令的语音处理结果,进行第二语音识别处理。
这里,执行第二语音指令后,可以在第二车辆环境下播放第二语音指令的执行结果反馈信息,具体地可以播放针对该执行结果的询问信息。用户的第二语音指令可以包括针对该询问信息发出的语音指令。
示例性的,用户在车内发起语音唤起指令后,并说出“开启自动泊车”的第一语音指令,车辆开启车位搜索并得到搜索结果。此时,用户下车,车内语音切换为车外语音,则车外语音可以播放“是否在前面停车位停车?”的询问信息,在无需再次发起语音唤醒指令的情况下,用户可以下发“往右边一点”的语音指令,车外语音根据车位搜索结果和“往右边一点”的语音指令,完成自动泊车任务。
又一示例性的,用户在车外发起语音唤起指令后,并说出“导航去XX机场”的第二语音指令,车辆开启XX机场搜索并得到搜索结果。此时,用户上车,车外语音切换为车内语音,则车内语音可以播放“选择以下导航路线中的第几个?”的询问信息,在无需再次发起语音唤醒指令的情况下,用户可以直接发出“第一个”的语音指令,车内语音根据XX机场搜索结果和“第一个”的语音指令,完成自动导航任务。
在执行完第二语音指令后,若在第二剩余时长内,接收到第四语音指令,则可以基于第二语音指令与第四语音指令的关联关系,确定第三语音处理进度信息,基于第三语音处理进度信息在第二车辆环境下进行语音播报。
也就是,可以在第二剩余时长内连续收到多个语音指令,并根据多个语音指令的上下文关系,确定第三语音处理进度信息,即多轮对话的语音处理过程。
为了便于多轮对话的语音处理过程的理解,如图3所示的多轮语音对话进程的状态示意图中,语音识别处理过程具体可以分为以下几个阶段:A1、等待语音指令阶段;B1、接收语音指令阶段;C1、执行语音指令阶段;D1、指令执行结果反馈阶段;A2、等待语音指令阶段;B2、接收语音指令阶段;C2、执行语音指令阶段;D2、指令执行结果反馈阶段;E、语音进程保持阶段(也即全双工等待阶段。全双工模式下可以同时进行信息的双向传输,在全双工等待阶段可以等待接收用户进一步输入的语音指令)。这里需要理解的是,上述各个阶段的长短对应处理时间的长短,并且各个阶段对应的处理时间长短仅为示意性的。
比如,用户在第一车辆环境中发起语音唤醒指令后,启动第一车辆环境下的第一语音识别功能,随后进入A1阶段,等待用户输入语音指令;用户开始输入语音指令,即进入B1阶段;开始识别该语音指令,即进入C1阶段,在C1阶段,将语音指令解析成车辆中的执行部件可执行的任务内容,该执行部件执行相应的任务内容并反馈执行结果,将执行部件的执行结果解析为可播报的语音内容,即进入D1阶段,在D1阶段进行指令执行结果反馈;之后继续进入等待用户输入新的语音指令的等待语音指令阶段,即A2阶段,后续继续执行B2~D2阶段,用户没有再输入新的语音指令时,进入E阶段的语音进程保持阶段,直到语音进程保持阶段的计时结束,则整个语音任务流程结束。此后,用户再发起新的语音任务流程时,需要重新发起语音唤醒指令。
若在上述任一阶段发生语音切换,语音任务不会因此发生中断,能够在切换后的车辆环境继续进行,无需用户重新发起新的语音唤醒指令,保证语音指令执行的完整性,提高语音指令的执行效率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与语音识别处理方法对应的语音识别处理装置。本公开实施例的语音识别处理装置可以根据实际需求部署在车辆的任一控制器中,比如可以是整车控制器或者域控制器(如座舱域控制器)等,也可以作为独立部件进行部署,本公开实施例对此不作具体限制。
参照图4所示,为本公开实施例提供的语音识别处理装置的结构示意图,语音识别处理装置400包括:
控制模块41,用于在检测到满足语音切换条件时,向所述语音处模块发送语音切换指令;
语音处理模块42,用于响应于所述语音切换指令,获取第一车辆环境下的语音处理进度信息;所述语音处理进度信息为在启动所述第一车辆环境下的第一语音识别功能后,进行第一语音识别处理的进度信息;启动第二车辆环境下的第二语音识别功能;在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理;
其中,所述第一车辆环境为车内环境,所述第二车辆环境为车外环境;或者,所述第一车辆环境为车外环境,所述第二车辆环境为车内环境。
在本公开实施例中,语音处理模块42可以包括第一子语音处理模块421和第二子语音处理模块422。
在具体实施中,第一子语音处理模块421可以用于响应于在第一车辆环境中发起的语音唤醒指令,启动所述第一车辆环境下的第一语音识别功能,进行第一语音识别处理;第二子语音处理模块422可以用于响应于所述语音切换指令,获取所述第一语音识别处理的第一车辆环境下的语音处理进度信息,并启动第二车辆环境下的第二语音识别功能;在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理。
在具体实施中,第一子语音处理模块421可以为车内语音处理模块,第二子语音处理模块422可以为车外语音处理模块,或者,第一子语音处理模块421可以为车外语音处理模块,第二子语音处理模块422可以为车内语音处理模块。
这里,第一子语音处理模块421可以响应于在第一车辆环境中发起的语音唤醒指令,启动第一语音识别功能后,可以接收用户在第一车辆环境中发起的第一语音指令,并对第一车辆环境中发起的第一语音指令进行识别处理。这里,第一语音指令为唤醒第一语音识别功能后,在第一时长内在第一车辆环境下通过语音发起的指令。第一时长为唤醒第一车辆环境下的第一语音识别功能后,等待接收第一语音指令和第二语音指令的有效时间。在第一时长内,可以等待接收第一语音指令以及第二语音指令。其中,第二语音指令为唤醒第一语音识别功能后,在第一时长内在第二车辆环境下通过语音发起的指令。
控制模块41在检测到满足语音切换条件时,向第一子语音处理模块421和第二子语音处理模块422发送指示进行车内外语音切换的语音切换指令(这里实际实施中,向第一子语音处理模块421和第二子语音处理模块422发送的语音切换指令的指令标识具体可以相同,也可以不同,比如通过标识00向第一子语音处理模块421指示当前需要切换到车外语音任务,通过标识01向第二子语音处理模块422指示当前会有从车内切换过来的语音任务)。第一子语音处理模块421可以响应于指示语音切换的语音切换指令,将语音处理进度信息同步给第二子语音处理模块422;第二子语音处理模块422响应于该语音切换指令,启动第二语音识别功能。
在具体实施中,第一子语音处理模块421与第二子语音处理模块422之间可以通过进程间通信机制实现信息同步,也可以通过控制模块41实现信息同步,比如控制模块41获取到第一子语音处理模块421的语音处理进度信息(某些情况下控制模块41也可以直接将获取到执行部件的执行结果作为语音处理进度信息)后,将语音处理进度信息发送给第二子语音处理模块422。
这里,第二子语音处理模块422启动第二语音识别功能后,可以在无需用户重新在第二车辆环境中发起语音唤醒指令的情况下,根据从第一子语音处理模块421同步的语音处理进度信息,进行第二语音识别处理。
其中,语音切换条件可以参照前文,这里不再赘述。
上述执行第一语音指令后的指令执行结果可以为语音切换之前,第一子语音处理模块421执行第一语音指令后的指令执行结果。
在不同的语音处理阶段,控制模块41检测到满足语音切换条件时,第一子语音处理模块421向第二子语音处理模块422同步的语音处理进度信息可以是不同的,并且第二子语音处理模块422根据从第一子语音处理模块421同步的语音处理进度信息,进行第二语音识别处理的过程也可以是不同的。
A、等待语音指令阶段:
在这个阶段中,控制模块41检测到满足语音切换条件时,向第一子语音处理模块421和第二子语音处理模块422发送语音切换指令;此时,第一子语音处理模块421,响应于语音切换指令,在当前未接收到用户的语音指令的情况下,获取等待接收第一语音指令的第一剩余时长,并同步给第二子语音处理模块422;第二子语音处理模块422,在接收到第一剩余时长后,若在第一剩余时长内,接收到用户的第二语音指令,则执行第二语音指令,若在第一剩余时长内,未接收到用户的第二语音指令,结束语音处理进程。这里,第一剩余时长可以为等待接收第一语音指令的剩余计时时长,即根据第一时长减去第一车辆环境下等待接收第一语音指令的第一消耗时长确定的计时时长。
B、接收语音指令阶段:
在这个阶段中,控制模块41检测到满足语音切换条件时,向第一子语音处理模块421和第二子语音处理模块422发送语音切换指令;此时,第二子语音处理模块422,响应于语音切换指令,若在第二车辆环境下接收到第三语音指令,则在第二车辆环境下接收到第二语音指令后,对第三语音指令与第二语音指令进行第二语音识别处理。
这里,可以在对第三语音指令与第二语音指令进行第二语音识别处理之前,确定在第二时长内,接收到第二语音指令。这里,第二时长可以为接收到第三语音指令后,等待接收第二语音指令以与第三语音指令结合作为完整语音指令的有效时间。也就是,在接收到第三语音指令后,可以在第二时长内,接收第二语音指令,随后,可以对接收到的第三语音指令与第二语音指令进行第二语音识别处理。这里通过设置在第二时长内接收到第二语音指令,可以符合一般的语音输入规律,从而可以提高语音指令识别上的准确性。
这里,第三语音指令为第一语音指令的部分指令信息,也就是用户在第一车辆环境下说了第一语音指令,在第二车辆环境下重复说第一语音指令中的部分指令内容,即第三语音指令,第三语音指令与第二语音指令构成完整的语音指令信息。
进行第二语音识别处理之后,第二子语音处理模块422还可以获取第二语音识别处理结果,在第二车辆环境下播放第二语音识别处理结果。
如果语音切换的耗时时长在预设时长以上,在一种实施方式中,第一子语音处理模块421,响应于语音切换指令,在接收到用户的第一语音指令的至少部分指令内容,还未执行第一语音指令的情况下,可以获取用于指示接收到用户的第一语音指令的指示信息,并同步给第二子语音处理模块422;此时,第二子语音处理模块422,响应于该指示信息,播放提示用户再次输入第一语音指令的提示语音,并在接收到第一语音指令后,执行第一语音指令。
C、执行语音指令阶段:
在这个阶段中,控制模块41检测到满足语音切换条件时,向第一子语音处理模块421和第二子语音处理模块422发送语音切换指令;第一子语音处理模块421,响应于语音切换指令,若确定已接收到第一语音指令,则获取针对第一语音指令的第一语音处理进度信息,并同步给第二子语音处理模块422;第二子语音处理模块422,基于第一语音处理进度信息在所述第二车辆环境下进行语音播报。
D、指令执行结果反馈阶段:
在这个阶段中,控制模块41检测到满足语音切换条件时,向第一子语音处理模块421和第二子语音处理模块422发送语音切换指令;第一子语音处理模块421响应于语音切换指令,在当前处于执行完第一语音指令后的执行结果反馈阶段的情况下,将执行第一语音指令后的指令执行结果及结果反馈进度作为语音处理进度信息,同步给第二子语音处理模块422;第二子语音处理模块422基于第一语音指令的指令执行结果及结果反馈进度,继续播放执行结果反馈信息。
E、语音进程保持阶段:
在这个阶段中,控制模块41检测到满足语音切换条件时,向第一子语音处理模块421和第二子语音处理模块422发送语音切换指令;第一子语音处理模块421响应于语音切换指令,若播报完第一语音指令的语音处理结果,则获取等待接收第二语音指令的第二剩余时长,并同步给第二子语音处理模块422;其中,第二剩余时长为等待接收第二语音指令的剩余计时时长;若在达到第二剩余计时时长时,第二子语音处理模块422未接收到用户的第二语音指令,结束当前语音进程。
在执行完第二语音指令后,若在第二剩余时长内,接收到第四语音指令,则可以基于第二语音指令与第四语音指令的关联关系,确定第三语音处理进度信息,基于第三语音处理进度信息在第二车辆环境下进行语音播报。也就是,可以在第二剩余时长内连续收到多个语音指令,并根据多个语音指令的上下文关系,确定第三语音处理进度信息,即多轮对话的语音处理过程。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
以第一子语音处理模块421为车内语音处理模块,第二子语音处理模块422为车外语音处理模块为例,图5所示了一种在C1阶段,即执行语音指令阶段,发生语音切换时,多轮语对话进程的流程示意图。具体地,用户在车内发起了语音唤醒指令,启动车内语音识别功能,在等待用户输入语音指令的阶段,用户发起了针对目标任务的第一语音指令。此时,车内语音处理模块进行车内语音识别处理,将第一语音指令解析成车辆中的执行部件可执行的任务内容,然后由执行部件执行第一语音指令的任务内容。在该过程中,控制模块41检测到满足从车内语音切换到车外语音的语音切换条件时,车内语音处理模块继续完成解析第一语音指令的任务内容,并将解析后的执行指令反馈到执行部件执行第一语音指令的任务内容;执行部件执行完第一语音指令的任务内容后,车内语音处理模块将第一语音指令的执行结果同步至车外语音处理模块;车外语音处理模块将执行部件的执行结果解析为可播报的语音内容,反馈第一语音指令的执行结果。
用户可以针对反馈的第一语音指令的执行结果,在车外发起第二语音指令。此时,车外语音处理模块进行车外语音识别处理,将第二语音指令解析成车辆中的执行部件可执行的任务内容,然后由执行部件执行第二语音指令的任务内容。车外语音处理模块将执行部件的执行结果解析为可播报的语音内容,反馈第二语音指令的执行结果,直至语音处理过程结束。
基于同一发明构思,本公开实施例中还提供了一种车辆,该车辆上设置有如本公开实施例提供的语音识别处理装置,具体实施过程可以参见上述语音识别处理方法及语音识别处理装置的描述。
基于同一技术构思,本公开实施例还提供了控制设备。参照图6所示,为本公开实施例提供的控制设备600的结构示意图,包括处理器601、存储器602、和总线603。其中,存储器602用于存储执行指令,包括内存6021和外部存储器6022;这里的内存6021也称内存储器,用于暂时存放处理器601中的运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内存6021与外部存储器6022进行数据交换,当计算机设备600运行时,处理器601与存储器602之间通过总线603通信,使得处理器601在执行以下指令:
在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息;所述语音处理进度信息为在启动所述第一车辆环境下的第一语音识别功能后,进行第一语音识别处理的进度信息;
启动第二车辆环境下的第二语音识别功能;
在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理;
其中,所述第一车辆环境为车内环境,所述第二车辆环境为车外环境;或者,所述第一车辆环境为车外环境,所述第二车辆环境为车内环境。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有计算机指令,所述计算机指令可以被加载到计算机或电子设备(如上述控制设备)中,用于执行上述方法实施例中所述的语音识别处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的语音识别处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种语音识别处理方法,其特征在于,包括:
在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息;所述语音处理进度信息为在启动所述第一车辆环境下的第一语音识别功能后,进行第一语音识别处理的进度信息;
启动第二车辆环境下的第二语音识别功能;
在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,以实现从车内到车外或车外到车内的语音切换,在执行一项语音任务的过程中,实现车内与车外语音处理进程无缝衔接;
其中,所述第一车辆环境为车内环境,所述第二车辆环境为车外环境;或者,所述第一车辆环境为车外环境,所述第二车辆环境为车内环境。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在第一时长内,等待接收第一语音指令以及第二语音指令;
其中,所述第一时长为唤醒所述第一车辆环境下的第一语音识别功能后,等待接收语音指令的有效时间,所述语音指令包括所述第一语音指令和/或所述第二语音指令;
所述第一语音指令为唤醒所述第一语音识别功能后,在所述第一时长内在所述第一车辆环境下通过语音发起的指令;
所述第二语音指令为唤醒所述第一语音识别功能后,在所述第一时长内在所述第二车辆环境下通过语音发起的指令。
3.根据权利要求2所述的方法,其特征在于,所述在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息,包括:
在检测到满足语音切换条件时,若当前未接收到所述第一语音指令,则获取等待接收所述第一语音指令的第一剩余时长;所述第一剩余时长为等待接收所述第一语音指令的剩余计时时长;
所述在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,包括:
若在所述第一剩余时长内,接收到所述第二语音指令,执行所述第二语音指令。
4.根据权利要求2所述的方法,其特征在于,所述在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息,包括:
在检测到满足语音切换条件时,若确定已接收到所述第一语音指令,则获取针对所述第一语音指令的第一语音处理进度信息;
所述在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,包括:
基于所述第一语音处理进度信息在所述第二车辆环境下进行语音播报。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一语音处理进度信息在所述第二车辆环境下进行语音播报后,还包括:
接收所述第二语音指令,基于所述第一语音指令与所述第二语音指令的关联关系,确定第二语音处理进度信息;
基于所述第二语音处理进度信息在所述第二车辆环境下进行语音播报。
6.根据权利要求2所述的方法,其特征在于,所述在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,包括:
在检测到满足语音切换条件时,若在所述第二车辆环境下接收到第三语音指令,则在所述第二车辆环境下接收到所述第二语音指令后,对所述第三语音指令与所述第二语音指令进行所述第二语音识别处理;
其中,所述第三语音指令为所述第一语音指令的部分指令信息,所述第三语音指令与所述第二语音指令构成完整的语音指令信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述第三语音指令与所述第二语音指令进行所述第二语音识别处理后,还包括:
获得所述第二语音识别处理结果,在所述第二车辆环境下播放所述第二语音识别处理结果。
8.根据权利要求6所述的方法,其特征在于,所述对所述第三语音指令与所述第二语音指令进行所述第二语音识别处理前,还包括:
确定在第二时长内,接收到所述第二语音指令。
9.根据权利要求2所述的方法,其特征在于,所述在检测到满足语音切换条件时,获取第一车辆环境下的语音处理进度信息,包括:
在检测到满足语音切换条件时,若播报完所述第一语音指令的语音处理结果,则获取等待接收所述第二语音指令的第二剩余时长;所述第二剩余时长为等待接收所述第二语音指令的剩余计时时长;
所述在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,包括:
若在所述第二剩余时长内,接收到所述第二语音指令,执行所述第二语音指令。
10.根据权利要求9所述的方法,其特征在于,所述执行所述第二语音指令后,还包括:
若在所述第二剩余时长内,接收到第四语音指令,则基于所述第二语音指令与所述第四语音指令的关联关系,确定第三语音处理进度信息;
基于所述第三语音处理进度信息在所述第二车辆环境下进行语音播报。
11.一种语音识别处理装置,其特征在于,包括:控制模块和语音处理模块;
所述控制模块,用于在检测到满足语音切换条件时,向所述语音处理模块发送语音切换指令;
所述语音处理模块,用于响应于所述语音切换指令,获取第一车辆环境下的语音处理进度信息;所述语音处理进度信息为在启动所述第一车辆环境下的第一语音识别功能后,进行第一语音识别处理的进度信息;启动第二车辆环境下的第二语音识别功能;在所述第二车辆环境下,根据所述语音处理进度信息,进行第二语音识别处理,以实现从车内到车外或车外到车内的语音切换,在执行一项语音任务的过程中,实现车内与车外语音处理进程无缝衔接;
其中,所述第一车辆环境为车内环境,所述第二车辆环境为车外环境;或者,所述第一车辆环境为车外环境,所述第二车辆环境为车内环境。
12.一种车辆,其特征在于,包括:如权利要求11所述的语音识别处理装置。
13.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至10任一项所述的语音识别处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310313334.3A CN116052668B (zh) | 2023-03-28 | 2023-03-28 | 一种语音识别处理方法、装置、车辆及计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310313334.3A CN116052668B (zh) | 2023-03-28 | 2023-03-28 | 一种语音识别处理方法、装置、车辆及计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116052668A CN116052668A (zh) | 2023-05-02 |
CN116052668B true CN116052668B (zh) | 2023-06-02 |
Family
ID=86131671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310313334.3A Active CN116052668B (zh) | 2023-03-28 | 2023-03-28 | 一种语音识别处理方法、装置、车辆及计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052668B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022176038A1 (ja) * | 2021-02-17 | 2022-08-25 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602007004620D1 (de) * | 2007-10-01 | 2010-03-18 | Harman Becker Automotive Sys | Sprachgesteuerte Einstellung von Fahrzeugteilen |
WO2011163538A1 (en) * | 2010-06-24 | 2011-12-29 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
JP5771002B2 (ja) * | 2010-12-22 | 2015-08-26 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 |
DE102010056174A1 (de) * | 2010-12-24 | 2012-06-28 | Daimler Ag | Verfahren zum Unterstützen einer Bedienperson beim Bedienen von Funktionseinheiten eines Kraftfahrzeugs mithilfe einer Spracherkennungseinrichtung und Fahrerassistenzsystem |
CN103517306B (zh) * | 2012-06-14 | 2017-04-12 | 宏达国际电子股份有限公司 | 一种于单一无线语音通话延续监看通话状态的方法 |
KR20180084392A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
CN112530419B (zh) * | 2019-09-19 | 2024-05-24 | 百度在线网络技术(北京)有限公司 | 语音识别控制方法、装置、电子设备和可读存储介质 |
CN110597147A (zh) * | 2019-10-09 | 2019-12-20 | 杭州微纳科技股份有限公司 | 一种集成远场拾音及充电的装置 |
CN114125143B (zh) * | 2020-08-31 | 2023-04-07 | 华为技术有限公司 | 一种语音交互方法及电子设备 |
CN113345433B (zh) * | 2021-05-30 | 2023-03-14 | 重庆长安汽车股份有限公司 | 一种车外语音交互系统 |
CN214823226U (zh) * | 2021-06-15 | 2021-11-23 | 何治平 | 一种声控控车系统 |
CN113844360A (zh) * | 2021-09-03 | 2021-12-28 | 上海博泰悦臻电子设备制造有限公司 | 车载人机交互系统 |
CN114758654B (zh) * | 2022-03-14 | 2024-04-12 | 重庆长安汽车股份有限公司 | 一种基于场景的汽车语音控制系统及控制方法 |
-
2023
- 2023-03-28 CN CN202310313334.3A patent/CN116052668B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022176038A1 (ja) * | 2021-02-17 | 2022-08-25 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116052668A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326289B (zh) | 免唤醒语音交互方法、装置、设备及存储介质 | |
WO2016127550A1 (zh) | 人机语音交互方法和装置 | |
US11509525B1 (en) | Device configuration by natural language processing system | |
US8131553B2 (en) | Turn-taking model | |
CN108962262A (zh) | 语音数据处理方法和装置 | |
CN107145329A (zh) | 设备控制方法、装置及智能设备 | |
US20150039316A1 (en) | Systems and methods for managing dialog context in speech systems | |
RU2707422C1 (ru) | Устройство помощи при парковке | |
WO2017057172A1 (ja) | 対話装置及び対話制御方法 | |
CN111128166B (zh) | 连续唤醒识别功能的优化方法和装置 | |
CN111179930B (zh) | 实现驾驶过程中的智能语音交互的方法及系统 | |
CN109657091B (zh) | 语音交互设备的状态呈现方法、装置、设备及存储介质 | |
CN109568973B (zh) | 对话装置、对话方法、服务器装置及计算机可读存储介质 | |
CN116052668B (zh) | 一种语音识别处理方法、装置、车辆及计算机程序产品 | |
CN112735398A (zh) | 人机对话模式切换方法及系统 | |
CN113534781B (zh) | 一种基于车辆的语音交流方法和装置 | |
US20150019225A1 (en) | Systems and methods for result arbitration in spoken dialog systems | |
CN115457961B (zh) | 语音交互方法、车辆、服务器、系统及存储介质 | |
CN111063349B (zh) | 基于人工智能语音的按键查询方法及装置 | |
JP6673243B2 (ja) | 音声認識装置 | |
CN114743546B (zh) | 降低智能语音误唤醒率的方法及装置、电子设备 | |
CN115457943A (zh) | 语音识别的播报方法、装置、设备及计算机可读存储介质 | |
JP2008157987A (ja) | 対話制御装置、対話制御方法及び対話制御プログラム | |
JPWO2019202351A1 (ja) | 機器制御装置及び機器を制御する制御方法 | |
US20220068262A1 (en) | Voice recognition-based task allocation and selective control of hotword detection function in a vehicle network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |