CN116978374A - 语音指令响应方法、装置、设备、存储介质及车辆 - Google Patents

语音指令响应方法、装置、设备、存储介质及车辆 Download PDF

Info

Publication number
CN116978374A
CN116978374A CN202210976103.6A CN202210976103A CN116978374A CN 116978374 A CN116978374 A CN 116978374A CN 202210976103 A CN202210976103 A CN 202210976103A CN 116978374 A CN116978374 A CN 116978374A
Authority
CN
China
Prior art keywords
voice
voice command
semantic analysis
command
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210976103.6A
Other languages
English (en)
Inventor
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Co Wheels Technology Co Ltd
Original Assignee
Beijing Co Wheels Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Co Wheels Technology Co Ltd filed Critical Beijing Co Wheels Technology Co Ltd
Priority to CN202210976103.6A priority Critical patent/CN116978374A/zh
Publication of CN116978374A publication Critical patent/CN116978374A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语音指令响应方法、装置、设备、存储介质及车辆。其中,该方法包括:接收语音信号;在所述语音信号的强度小于预设强度的情况下,根据所述语音信号生成第一语音指令;对所述第一语音指令进行语义解析,得到第一语义解析结果;在生成第一语音指令以及语义解析的过程中,持续接收所述语音信号,在所述语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令;在所述第一语音指令与所述第二语音指令一致的情况下,根据所述第一语义解析结果,响应所述语音信号对应的语音指令。根据本申请实施例的语音指令响应方法,能够及时响应用户的语音指令,缩短用户的等待时间,提升用户体验感。

Description

语音指令响应方法、装置、设备、存储介质及车辆
技术领域
本申请属于语音指令响应技术领域,尤其涉及一种语音指令响应方法、装置、设备、存储介质及车辆。
背景技术
随着人工智能的发展,语音助手的应用越来越广泛。一般情况下,由用户向语音助手发出语音指令,以指示语音助手响应语音指令。其中,语音指令例如可以为播放歌曲、打开导航、打开空调等。
现有技术中,语音助手会在检测到语音信号中的静音时长达到预设时长的情况下,确定语音指令已结束。在确定语音指令结束之后,才会对语音指令进行解析以根据解析结果响应语音指令。但是,由于为了确定语音指令是否结束,需要等待预设时长,且在语音指令结束之后才对语音指令进行语义解析,导致语音助手响应用户语音指令的时间较长,进而导致用户等待时间较长,体验感较差。
发明内容
本申请实施例提供了一种语音指令响应方法、装置、设备、存储介质及车辆,能够及时响应用户的语音指令,缩短用户的等待时间,提升用户体验感。
第一方面,本申请实施例提供了一种语音指令响应方法,该方法包括:
接收语音信号;
在所述语音信号的强度小于预设强度的情况下,根据所述语音信号生成第一语音指令;
对所述第一语音指令进行语义解析,得到第一语义解析结果;
在生成第一语音指令以及语义解析的过程中,持续接收所述语音信号,在所述语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令;
在所述第一语音指令与所述第二语音指令一致的情况下,根据所述第一语义解析结果,响应所述语音信号对应的语音指令。
在一种可能的实现方式中,在所述第一语音指令与所述第二语音指令不一致的情况下,所述方法还包括:
对所述第二语音指令进行语义解析,得到第二语义解析结果;
根据所述第二语义解析结果,响应所述语音信号对应的语音指令。
在一种可能的实现方式中,还包括:
在持续接收所述语音信号的过程中,且在生成所述第二语音指令之前,每隔第二预设时长,生成一个第三语音指令,得到至少一个所述第三语音指令;
分别对每个所述第三语音指令进行语义解析,得到第三语义解析结果;
在所述第一语义指令与所述第二语音指令不一致且目标第三语音指令与所述第二语音指令一致的情况下,根据目标第三语义解析结果响应所述语音信号对应的语音指令;
所述目标第三语音指令为所述第三语音指令中的一个,所述目标第三语义解析结果为所述目标第三语音指令对应的语义解析结果。
在一种可能的实现方式中,还包括:
在持续接收所述语音信号的过程中,且在生成所述第二语音指令之前,每隔第三预设时长,确定所述语音信号的强度变化;
在所述语音信号的强度变化大于预设阈值的情况下,生成一个第四语音指令,得到至少一个所述第四语音指令;
分别对每个所述第四语音指令进行语义解析,得到第四语义解析结果;
在所述第一语义指令与所述第二语音指令不一致且目标第四语音指令与所述第二语音指令一致的情况下,根据目标第四语义解析结果响应所述语音信号对应的语音指令;
所述目标第四语音指令为所述第四语音指令中的一个,所述目标第四语义解析结果为所述目标第四语音指令对应的语义解析结果。
在一种可能的实现方式中,所述接收语音信号,包括:
接收强度大于所述预设强度的语音信号。
在一种可能的实现方式中,所述预设强度包括第一预设强度,所述在所述语音信号的强度小于预设强度的情况下,根据所述语音信号生成第一语音指令,包括:
在所述语音信号的强度小于所述第一预设强度且大于第二预设强度的情况下,根据所述语音信号生成第一语音指令。
第二方面,本申请实施例提供了一种语音指令响应装置,该装置包括:
接收模块,用于接收语音信号;
第一生成模块,用于在所述语音信号的强度小于预设强度的情况下,根据所述语音信号生成第一语音指令;
第一解析模块,用于对所述第一语音指令进行语义解析,得到第一语义解析结果;
第二生成模块,用于在生成第一语音指令以及语义解析的过程中,持续接收所述语音信号,在所述语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令;
第一响应模块,用于在所述第一语音指令与所述第二语音指令一致的情况下,根据所述第一语义解析结果,响应所述语音信号对应的语音指令。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现上述第一方面中任一种可能的实现方法中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述第一方面中任一种可能的实现方法中的方法。
第五方面,本申请实施例提供了一种车辆,该车辆包括以下至少一项:
如第二方面的任一项实施例中的语音指令响应装置;
如第三方面的任一项实施例中的电子设备;
如第四方面的任一项实施例中的计算机可读存储介质。
本申请实施例的语音指令响应方法、装置、设备、存储介质及车辆,通过在语音信号的强度小于预设强度的情况下,根据语音信号生成第一语音指令,以及对第一语音指令进行语义解析,得到第一语义解析结果,能够在持续接收语音信号的过程中,不断生成语音指令及其对应的语义解析结果。通过在语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令,能够根据语音信号,生成用户完整的语音指令。由于第一语义解析结果的生成时间早于第二语音指令的生成时间,因此,通过在第一语音指令与第二语音指令一致的情况下,根据第一语义解析结果,即可立即响应语音信号对应的语音指令,而不需要再对第二语音指令进行解析,因而,节省了第二语音指令的解析时间,能够在语音指令结束时立即响应语音指令。如此,通过本申请实施例,就能及时响应用户的语音指令,缩短用户的等待时间,提升用户体验感。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音指令响应方法的流程示意图;
图2是本申请实施例提供的一种持续接收语音信号的示意图;
图3是本申请实施例提供的一种语音指令响应装置结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但本申请还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本申请的一部分实施例,而不是全部的实施例。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请中,语音助手可以包括自动语音识别(Automatic Speech Recognition,ASR)模块,自然语言理解(Natural Language Understanding,NLU)模块和语音活性检测(Voice Activity Detection,VAD)模块。其中,ASR技术是一种将人的语音转换为文本的技术;NLU是一种是所有支持机器理解文本内容的方法模型或任务的总称;VAD能够识别人的语音信号以及语音信号的强弱。
现有技术中,语音助手在通过VAD检测到语音信号中的静音时长达到预设时长时,则判定用户输入的语音指令已结束,其中,预设时长一般为300-500毫秒。在语音指令结束之后,将ASR的识别结果发送至NLU模块,以解析以及响应用户的语音指令。但是,为了确定语音指令结束,需要等待预设时长,并且,在语音指令结束之后才能对语音指令的语义进行解析,导致语音助手响应用户语音指令的时间较长,进而导致用户等待时间较长,体验感较差。
为了解决现有技术问题,本申请实施例提供了一种语音指令响应方法、装置、设备、存储介质及车辆。
下面首先对本申请实施例所提供的语音指令响应方法进行介绍。
图1示出了本申请实施例提供的一种语音指令响应方法的流程示意图。如图1所示,本申请实施例提供的语音指令响应方法包括以下步骤:
S110、接收语音信号;
S120、在语音信号的强度小于预设强度的情况下,根据语音信号生成第一语音指令;
S130、对第一语音指令进行语义解析,得到第一语义解析结果;
S140、在生成第一语音指令以及语义解析的过程中,持续接收语音信号,在语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令;
S150、在第一语音指令与第二语音指令一致的情况下,根据第一语义解析结果,响应语音信号对应的语音指令。
本申请实施例的语音指令响应方法通过在语音信号的强度小于预设强度的情况下,根据语音信号生成第一语音指令,以及对第一语音指令进行语义解析,得到第一语义解析结果,能够在持续接收语音信号的过程中,不断生成语音指令及其对应的语义解析结果。通过在语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令,能够根据语音信号,生成用户完整的语音指令。由于第一语义解析结果的生成时间早于第二语音指令的生成时间,因此,通过在第一语音指令与第二语音指令一致的情况下,根据第一语义解析结果,即可立即响应语音信号对应的语音指令,而不需要再对第二语音指令进行解析,因而,节省了第二语音指令的解析时间,能够在语音指令结束时立即响应语音指令。如此,通过本申请实施例,就能及时响应用户的语音指令,缩短用户的等待时间,提升用户体验感。
下面介绍上述各个步骤的具体实现方式。
在一些实施例中,在S110中,语音信号可以为用户说话产生的声音信号。语音助手在识别到语音信号的情况下,可以接收语音信号。
基于此,为了保证接收到语音信号,在一些实施例中,S110具体可以包括:
接收强度大于预设强度的语音信号。
由于若语音信号的强度大于预设强度,则可以接收到语音信号,因此,通过接收强度大于预设强度的语音信号,能够保证接收到语音信号。
为了保证语音助手的使用效率,在一些实施例中,在S110之前,还可以包括:
接收用户用于唤醒语音助手的第一输入;
基于此,S110具体可以包括:
响应于第一输入,接收语音信号。
这里,第一输入可以为预设的唤醒信号,第一输入例如可以为“小A小A”、“小C小C”等。
作为一种示例,在语音助手接收到唤醒信号之前,可以处于沉默状态,处于沉默状态的语音助手可以不接收语音信号。
作为另一种示例,在语音助手接收到唤醒信号之后,即可以接收语音信号。
这样,通过响应于用户用于唤醒语音助手的第一输入,接收语音信号,能够在用户需要使用语音助手的情况下,使语音助手处于唤醒状态,以及接收语音信号,而在用户不需要使用语音助手的情况下,使语音助手处于沉默状态,不接收语音信号。如此,能够避免资源浪费,保证语音助手的使用效率。
为了接收准确的语音信号,以及根据语音信号生成语音指令,在一些实施例中,响应于第一输入,接收语音信号,具体可以包括:
响应于第一输入,识别语音信号;
在识别到语音信号的情况下,接收语音信号。
这里,在语音助手被唤醒之后,可以接收多种声音信号。因此,为了接收语音信号,可以通过VAD对多种声音信号进行识别。在VAD识别到语音信号的情况下,可以确定语音信号的开始时刻,以及持续接收语音信号。
这样,通过在识别到语音信号的情况下,接收语音信号,能够接收准确的语音信号,从而能够根据语音信号生成语音指令。
在一些实施例中,在S120中,第一语音指令可以为第一时刻至第二时刻时间段内的语音指令。其中,第一时刻可以为语音信号的开始时刻,第二时刻可以为语音信号的强度小于预设强度的时刻,语音指令可以为由ASR模块转换语音信号得到的文本指令。其中,语音信号的强度小于预设强度的时刻可以是用户在输出语音信号的过程中停顿的时刻。
作为一种示例,通过VAD可以持续监测语音信号的强度,通过ASR可以持续将语音信号转换成语音指令。在监测到语音信号的强度小于预设强度的情况下,可以得到第一语音指令。
需要说明的是,在本实施例中,在持续接收语音信号的过程中,语音信号的强度小于预设强度的时刻可以有多个,也就是说,第一语音指令可以有多个。
在一些实施例中,预设强度可以包括第一预设强度,基于此,上述S120具体可以包括:
在语音信号的强度小于第一预设强度且大于第二预设强度的情况下,根据语音信号生成第一语音指令。
这里,语音信号的强度大于第二预设强度的情况可以是用户持续输出语音信号的情况。
也就是说,在用户持续输出语音信号的过程中,若语音信号的强度小于第一预设强度,则可以生成第一语音指令。
在一些实施例中,在S130中,第一语义解析结果可以为机器能够理解的人类语言。第一语义解析结果可以用于指示语音助手响应第一语音指令。
作为一种示例,在生成第一语音指令之后,可以将第一语音指令发送至NLU模块。通过NLU模块可以对第一语音指令进行语义解析,得到第一语义解析结果。
在一些实施例中,在S140中,第二语音指令可以为第一时刻至第三时刻时间段内的语音指令。其中,第三时刻可以为语音信号的强度小于预设强度的时长达到第一预设时长的时刻,预设时长可以为300毫秒、400毫秒、500毫秒等,在此不做限定。
作为一种示例,若语音信号的强度小于预设强度的时长达到第一预设时长,则可以确定语音信号已经停止。若确定语音信号已经停止,则可以生成第二语音指令。由于第二语音指令可以为在语音信号停止之后生成的语音指令,则第二语音指令可以为完整的用户语音指令。
作为一种示例,生成第一语音指令、生成第二语音指令、语义解析以及持续接收语音信号之间互不影响。也就是说,在持续接收语音信号的过程中,可以生成第一语音指令。由于第一语音指令可以有多个,则在对上一个第一语音指令进行语义解析的过程中,可以生成下一个语音指令。在对最后一个语音指令进行解析的过程中,可以生成第二语音指令。另外,在生成第一语音指令以及语义解析的过程中,可以持续接收语音信号。
基于此,为了保证语音助手的使用效率,在一些实施例中,在生成第二语音指令之后,还可以包括:
停止接收语音信号。
这里,由于第二语音指令可以为在语音信号停止之后生成的语音指令,则在生成第二语音指令之后,由于语音信号已经停止,即可以停止接收语音指令。
这样,通过在生成第二语音指令之后,停止接收语音信号,能够避免资源浪费,保证语音助手的使用效率。
在一些实施例中,在S150中,在生成第二语音指令之后,即可比较第一语音指令与第二语音指令是否一致。在第一语音指令与第二语音指令一致的情况下,则该第一语音指令可以为最后一次生成的第一语音指令。也就是说,在生成第一语音指令之后,即进入静音时间段。其中,静音时间段可以为语音信号的强度小于预设强度的时长达到第一预设时长的时间段。如此,由于第一语音指令与第二语音指令一致,则可以根据第一语义解析结果,响应语音信号对应的语音指令。
基于此,为了准确响应语音信号对应的语音指令,在一些实施例中,在第一语音指令与第二语音指令不一致的情况下,还可以包括:
对第二语音指令进行语义解析,得到第二语义解析结果;
根据第二语义解析结果,响应语音信号对应的语音指令。
这里,在生成第二语音指令之后,可以将第二语音指令发送至NLU模块。通过NLU模块可以对第二语音指令进行语义解析,得到第二语义解析结果。
这样,由于第二语音指令为完整的用户语音指令,则通过根据第二语义解析结果,响应语音信号对应的语音指令,能够准确响应语音信号对应的语音指令。
基于此,为了在语音指令结束时立即响应语音指令,缩短用户的等待时间,提升用户体验感,在一些实施例中,还可以包括:
在持续接收语音信号的过程中,且在生成第二语音指令之前,每隔第二预设时长,生成一个第三语音指令,得到至少一个第三语音指令;
分别对每个第三语音指令进行语义解析,得到第三语义解析结果;
在第一语义指令与第二语音指令不一致且目标第三语音指令与第二语音指令一致的情况下,根据目标第三语义解析结果响应语音信号对应的语音指令;
目标第三语音指令为第三语音指令中的一个,目标第三语义解析结果为目标第三语音指令对应的语义解析结果。
这里,第三语音指令可以为第一时刻至第四时刻时间段内的语音指令。其中,第四时刻可以为第二预设时长的结束时刻。目标第三语音指令可以为多个第三语音指令中,最晚生成的第三语音指令。
在一些具体的例子中,若第一时刻为10:00,第二预设时长为10分钟,则在10:10可以生成一个第三语音指令,此第三语音指令可以为根据10:00-10:10之间的语音信号生成的语音指令;在10:20可以生成一个第三语音指令,此第三语音指令可以为10:00-10:20之间的语音信号生成的语音指令。
作为一种示例,在持续接收语音信号的过程中,且在生成第二语音指令之前,可以分别生成多个第一语音指令和第三语音指令。在多个第一语义指令与第二语音指令均不一致的情况下,可以比较目标第三语音指令与第二语音指令是否一致。或者,在最晚生成的第一语音指令与第二语音指令不一致的情况下,可以比较目标第三语音指令与第二语音指令是否一致。若目标第三语音指令与第二语音指令一致,则可以根据目标第三语义解析结果,响应语音信号对应的语音指令。若目标第三语音指令与第二语音指令不一致,则可以根据第二语义解析结果,响应语音信号对应的语音指令。
这样,在第一语义指令与第二语音指令不一致且目标第三语音指令与第二语音指令一致的情况下,根据目标第三语义解析结果响应语音信号对应的语音指令,能够节省对第二语音指令的解析时间,进而能够在语音指令结束时立即响应语音指令,缩短用户的等待时间,提升用户体验感。
基于此,为了在语音指令结束时立即响应语音指令,缩短用户的等待时间,提升用户体验感,在一些实施例中,还可以包括:
在持续接收语音信号的过程中,且在生成第二语音指令之前,每隔第三预设时长,确定语音信号的强度变化;
在语音信号的强度变化大于预设阈值的情况下,生成一个第四语音指令,得到至少一个第四语音指令;
分别对每个第四语音指令进行语义解析,得到第四语义解析结果;
在第一语义指令与第二语音指令不一致且目标第四语音指令与第二语音指令一致的情况下,根据目标第四语义解析结果响应语音信号对应的语音指令;
目标第四语音指令为第四语音指令中的一个,目标第四语义解析结果为目标第四语音指令对应的语义解析结果。
这里,第四语音指令可以为第一时刻至第五时刻时间段内的语音指令。其中,第五时刻可以为第三预设时长的结束时刻。若在第五时刻,语音信号的强度变化不大于预设阈值的情况下,则可以不生成第四语音指令。另外,目标第四语音指令可以为多个第四语音指令中,最晚生成的第四语音指令。
在一些具体的例子中,若第一时刻为10:00,第三预设时长为10分钟,则在10:10可以确定10:00-10:10之间语音信号的强度变化是否大于预设阈值。若语音信号的强度变化大于预设阈值,则可以根据10:00-10:10之间的语音信号生成一个第四语音指令。若语音信号的强度变化不大于预设阈值,则可以不生成第四语音指令。在10:20可以再次确定10:10-10:20之间语音信号的强度变化是否大于预设阈值。若语音信号的强度变化大于预设阈值,则可以根据10:00-10:20之间的语音信号生成一个第四语音指令。若语音信号的强度变化不大于预设阈值,则可以不生成第四语音指令。
作为一种示例,在持续接收语音信号的过程中,且在生成第二语音指令之前,可以分别生成多个第一语音指令和第四语音指令。在多个第一语义指令与第二语音指令均不一致的情况下,可以比较目标第四语音指令与第二语音指令是否一致。或者,在最晚生成的第一语音指令与第二语音指令不一致的情况下,可以比较目标第四语音指令与第二语音指令是否一致。若目标第四语音指令与第二语音指令一致,则可以根据目标第四语义解析结果,响应语音信号对应的语音指令。若目标第四语音指令与第二语音指令不一致,则可以根据第二语义解析结果,响应语音信号对应的语音指令。
需要说明的是,预设阈值可以大于预设强度,也可以不大于预设强度,在此不做限定。另外,第三预设时长可以大于第二预设时长,也可以不大于第二预设时长,在此不做限定。
这样,在第一语义指令与第二语音指令不一致且目标第四语音指令与第二语音指令一致的情况下,根据目标第四语义解析结果响应语音信号对应的语音指令,能够节省对第二语音指令的解析时间,进而能够在语音指令结束时立即响应语音指令,缩短用户的等待时间,提升用户体验感。
为了更好地描述整个方案,基于上述各实施例,举一些具体例子。
如图2所示,A1时刻可以为接收用户用于唤醒语音助手的第一输入的时刻,A2时刻可以为接收语音信号的时刻,A3时刻可以为生成最后一个第一语音指令的时刻,A4时刻可以为生成第二语音指令的时刻,也可以为语音信号停止的时刻。在A1时刻至A2时刻的时间段内,可以接收声音信号,以及识别语音信号,以及接收语音信号。在A2时刻至A3时刻的时间段内,在语音信号的强度小于预设强度的情况下,可以生成多个第一语音指令。A3时刻至A4时刻的时间段可以为静音时间段。
基于此,在生成最后一个第一语音指令之后,即可以对第一语音指令进行语义解析,得到第一语义解析结果。在对第一语音指令进行语义解析的过程中,可以持续接收语音信号。若在持续接收语音信号的过程中,确定语音信号的强度小于预设强度的时长达到第一预设时长,则可以生成第二语音指令。在生成第二语音指令之后,即可比较第一语音指令与第二语音指令是否一致。若二者一致,则可以根据第一语义解析结果,响应语音信号对应的语音指令。若二者不一致,则可以等待对第二语音指令进行语义解析,得到第二语义解析结果,以根据第二语义解析结果,响应语音信号对应的语音指令。
由此,由于第一语义解析结果的生成时间早于第二语音指令的生成时间,因此,通过在第一语音指令与第二语音指令一致的情况下,根据第一语义解析结果,即可立即响应语音信号对应的语音指令,而不需要再对第二语音指令进行解析,因而,节省了第二语音指令的解析时间,能够在语音指令结束时立即响应语音指令。如此,通过本申请实施例,就能及时响应用户的语音指令,缩短用户的等待时间,提升用户体验感。
基于上述实施例提供的语音指令响应方法,相应地,本申请还提供了语音指令响应装置的具体实现方式。请参见以下实施例。
如图3所示,本申请实施例提供的语音指令响应装置300包括以下模块:
接收模块310,用于接收语音信号;
第一生成模块320,用于在语音信号的强度小于预设强度的情况下,根据语音信号生成第一语音指令;
第一解析模块330,用于对第一语音指令进行语义解析,得到第一语义解析结果;
第二生成模块340,用于在生成第一语音指令以及语义解析的过程中,持续接收语音信号,在语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令;
第一响应模块350,用于在第一语音指令与第二语音指令一致的情况下,根据第一语义解析结果,响应语音信号对应的语音指令。
下面对上述语音指令响应装置300进行详细说明,具体如下所示:
在其中一些实施例中,在第一语音指令与第二语音指令不一致的情况下,语音指令响应装置300还可以包括:
第二解析模块,用于对第二语音指令进行语义解析,得到第二语义解析结果;
第二响应模块,用于根据第二语义解析结果,响应语音信号对应的语音指令。
在其中一些实施例中,语音指令响应装置300还可以包括:
第三生成模块,用于在持续接收语音信号的过程中,且在生成所述第二语音指令之前,每隔第二预设时长,生成一个第三语音指令,得到至少一个第三语音指令;
第三解析模块,用于分别对每个第三语音指令进行语义解析,得到第三语义解析结果;
第三响应模块,用于在第一语义指令与第二语音指令不一致且目标第三语音指令与第二语音指令一致的情况下,根据目标第三语义解析结果响应语音信号对应的语音指令;
目标第三语音指令为第三语音指令中的一个,目标第三语义解析结果为目标第三语音指令对应的语义解析结果。
在其中一些实施例中,语音指令响应装置300还可以包括:
确定模块,用于在持续接收语音信号的过程中,且在生成第二语音指令之前,每隔第三预设时长,确定语音信号的强度变化;
第四生成模块,用于在语音信号的强度变化大于预设阈值的情况下,生成一个第四语音指令,得到至少一个第四语音指令;
第四解析模块,用于分别对每个第四语音指令进行语义解析,得到第四语义解析结果;
第四响应模块,用于在第一语义指令与第二语音指令不一致且目标第四语音指令与第二语音指令一致的情况下,根据目标第四语义解析结果响应语音信号对应的语音指令;
目标第四语音指令为第四语音指令中的一个,目标第四语义解析结果为目标第四语音指令对应的语义解析结果。
在其中一些实施例中,接收模块310具体可以包括:
接收子模块,用于接收强度大于预设强度的语音信号。
在其中一些实施例中,预设强度可以包括第一预设强度,第一生成模块320具体可以包括:
生成子模块,用于在语音信号的强度小于第一预设强度且大于第二预设强度的情况下,根据语音信号生成第一语音指令。
本申请实施例的语音指令响应装置通过在语音信号的强度小于预设强度的情况下,根据语音信号生成第一语音指令,以及对第一语音指令进行语义解析,得到第一语义解析结果,能够在持续接收语音信号的过程中,不断生成语音指令及其对应的语义解析结果。通过在语音信号的强度小于预设强度的时长达到预设时长的情况下,生成第二语音指令,能够根据语音信号,生成用户完整的语音指令。由于第一语义解析结果的生成时间早于第二语音指令的生成时间,因此,通过在第一语音指令与第二语音指令一致的情况下,根据第一语义解析结果,即可立即响应语音信号对应的语音指令,而不需要再对第二语音指令进行解析,因而,节省了第二语音指令的解析时间,能够在语音指令结束时立即响应语音指令。如此,通过本申请实施例,就能及时响应用户的语音指令,缩短用户的等待时间,提升用户体验感。
基于上述实施例提供的语音指令响应方法,本申请实施例还提供了电子设备的具体实施方式。图4示出了本申请实施例提供的电子设备400示意图。
电子设备400可以包括处理器410以及存储有计算机程序指令的存储器420。
具体地,上述处理器410可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器420可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器420可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器420可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器420可在综合网关容灾设备的内部或外部。在特定实施例中,存储器420是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请的一方面的方法所描述的操作。
处理器410通过读取并执行存储器420中存储的计算机程序指令,以实现上述实施例中的任意一种语音指令响应方法。
在一个示例中,电子设备400还可包括通信接口430和总线440。其中,如图4所示,处理器410、存储器420、通信接口430通过总线440连接并完成相互间的通信。
通信接口430,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线440包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线440可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
示例性的,电子设备400可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等。
该电子设备可以执行本申请实施例中的语音指令响应方法,从而实现结合图1和图3描述的语音指令响应方法和装置。
另外,结合上述实施例中的语音指令响应方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音指令响应方法。
除此之外,本申请实施例还提供了一种车辆,该车辆可以包括以下至少一项:
如第二方面的任一项实施例中的语音指令响应装置;
如第三方面的任一项实施例中的电子设备;
如第四方面的任一项实施例中的计算机可读存储介质。在此不再进行赘述。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种语音指令响应方法,其特征在于,包括:
接收语音信号;
在所述语音信号的强度小于预设强度的情况下,根据所述语音信号生成第一语音指令;
对所述第一语音指令进行语义解析,得到第一语义解析结果;
在生成第一语音指令以及语义解析的过程中,持续接收所述语音信号,在所述语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令;
在所述第一语音指令与所述第二语音指令一致的情况下,根据所述第一语义解析结果,响应所述语音信号对应的语音指令。
2.根据权利要求1所述的方法,其特征在于,在所述第一语音指令与所述第二语音指令不一致的情况下,所述方法还包括:
对所述第二语音指令进行语义解析,得到第二语义解析结果;
根据所述第二语义解析结果,响应所述语音信号对应的语音指令。
3.根据权利要求1所述的方法,其特征在于,还包括:
在持续接收所述语音信号的过程中,且在生成所述第二语音指令之前,每隔第二预设时长,生成一个第三语音指令,得到至少一个所述第三语音指令;
分别对每个所述第三语音指令进行语义解析,得到第三语义解析结果;
在所述第一语义指令与所述第二语音指令不一致且目标第三语音指令与所述第二语音指令一致的情况下,根据目标第三语义解析结果响应所述语音信号对应的语音指令;
所述目标第三语音指令为所述第三语音指令中的一个,所述目标第三语义解析结果为所述目标第三语音指令对应的语义解析结果。
4.根据权利要求1所述的方法,其特征在于,还包括:
在持续接收所述语音信号的过程中,且在生成所述第二语音指令之前,每隔第三预设时长,确定所述语音信号的强度变化;
在所述语音信号的强度变化大于预设阈值的情况下,生成一个第四语音指令,得到至少一个所述第四语音指令;
分别对每个所述第四语音指令进行语义解析,得到第四语义解析结果;
在所述第一语义指令与所述第二语音指令不一致且目标第四语音指令与所述第二语音指令一致的情况下,根据目标第四语义解析结果响应所述语音信号对应的语音指令;
所述目标第四语音指令为所述第四语音指令中的一个,所述目标第四语义解析结果为所述目标第四语音指令对应的语义解析结果。
5.根据权利要求1所述的方法,其特征在于,所述接收语音信号,包括:
接收强度大于所述预设强度的语音信号。
6.根据权利要求1所述的方法,其特征在于,所述预设强度包括第一预设强度,所述在所述语音信号的强度小于预设强度的情况下,根据所述语音信号生成第一语音指令,包括:
在所述语音信号的强度小于所述第一预设强度且大于第二预设强度的情况下,根据所述语音信号生成第一语音指令。
7.一种语音指令响应装置,其特征在于,所述装置包括:
接收模块,用于接收语音信号;
第一生成模块,用于在所述语音信号的强度小于预设强度的情况下,根据所述语音信号生成第一语音指令;
第一解析模块,用于对所述第一语音指令进行语义解析,得到第一语义解析结果;
第二生成模块,用于在生成第一语音指令以及语义解析的过程中,持续接收所述语音信号,在所述语音信号的强度小于预设强度的时长达到第一预设时长的情况下,生成第二语音指令;
第一响应模块,用于在所述第一语音指令与所述第二语音指令一致的情况下,根据所述第一语义解析结果,响应所述语音信号对应的语音指令。
8.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的语音指令响应方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的语音指令响应方法。
10.一种车辆,其特征在于,包括至少以下一种:
如权利要求7所述的语音指令响应装置;
如权利要求8所述的电子设备;
如权利要求9所述的计算机可读存储介质。
CN202210976103.6A 2022-08-15 2022-08-15 语音指令响应方法、装置、设备、存储介质及车辆 Pending CN116978374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210976103.6A CN116978374A (zh) 2022-08-15 2022-08-15 语音指令响应方法、装置、设备、存储介质及车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210976103.6A CN116978374A (zh) 2022-08-15 2022-08-15 语音指令响应方法、装置、设备、存储介质及车辆

Publications (1)

Publication Number Publication Date
CN116978374A true CN116978374A (zh) 2023-10-31

Family

ID=88481923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210976103.6A Pending CN116978374A (zh) 2022-08-15 2022-08-15 语音指令响应方法、装置、设备、存储介质及车辆

Country Status (1)

Country Link
CN (1) CN116978374A (zh)

Similar Documents

Publication Publication Date Title
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
CN113327609B (zh) 用于语音识别的方法和装置
CN106448663A (zh) 语音唤醒方法及语音交互装置
KR20160007527A (ko) 타깃 키워드를 검출하기 위한 방법 및 장치
CN111091813B (zh) 语音唤醒模型更新及唤醒方法、系统、装置、设备及介质
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
CN111091819A (zh) 语音识别装置和方法、语音交互系统和方法
CN109903751B (zh) 关键词确认方法和装置
CN115587598A (zh) 多轮对话改写方法、设备及介质
CN112820324B (zh) 多标签语音活动检测方法、装置及存储介质
CN113205809A (zh) 语音唤醒方法和装置
CN116978374A (zh) 语音指令响应方法、装置、设备、存储介质及车辆
CN110827827A (zh) 一种语音播报方法及电子设备
CN116416986A (zh) 语音交互方法、装置、设备及计算机存储介质
CN114360515A (zh) 信息处理方法、装置、电子设备、介质及计算机程序产品
CN114255761A (zh) 语音识别方法、装置、设备、存储介质和计算机程序产品
CN114974232A (zh) 语音信息的处理方法及相关产品
CN112885341A (zh) 一种语音唤醒方法、装置、电子设备和存储介质
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备
CN116013266A (zh) 语音识别模型的训练方法、装置、设备及计算机存储介质
CN114913853A (zh) 语音唤醒方法、装置、存储介质和电子设备
CN109785836B (zh) 交互方法和装置
CN113129896B (zh) 一种语音交互方法、装置、电子设备及存储介质
CN112185425B (zh) 音频信号处理方法、装置、设备及存储介质
CN118197301A (zh) 语音识别方法、装置、设备、存储介质及车辆

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination