CN115346530B - 一种语音控制方法、装置、设备、介质、系统及车辆 - Google Patents

一种语音控制方法、装置、设备、介质、系统及车辆 Download PDF

Info

Publication number
CN115346530B
CN115346530B CN202211276360.5A CN202211276360A CN115346530B CN 115346530 B CN115346530 B CN 115346530B CN 202211276360 A CN202211276360 A CN 202211276360A CN 115346530 B CN115346530 B CN 115346530B
Authority
CN
China
Prior art keywords
user
voice
execution instruction
instruction
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211276360.5A
Other languages
English (en)
Other versions
CN115346530A (zh
Inventor
刘碧波
李绍柱
周全
陈锐
宋美茹
陶首佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yikatong Beijing Technology Co ltd
Ecarx Hubei Tech Co Ltd
Original Assignee
Yikatong Beijing Technology Co ltd
Ecarx Hubei Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yikatong Beijing Technology Co ltd, Ecarx Hubei Tech Co Ltd filed Critical Yikatong Beijing Technology Co ltd
Priority to CN202211276360.5A priority Critical patent/CN115346530B/zh
Publication of CN115346530A publication Critical patent/CN115346530A/zh
Application granted granted Critical
Publication of CN115346530B publication Critical patent/CN115346530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音控制方法、装置、设备、介质、系统及车辆。包括:对获取的用户语音进行处理得到语音指令和用户声纹信息;根据用户声纹信息确定对应的用户数据模型;确定用户数据模型未完成语义训练,则执行用户数据模型中语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对目标默认执行指令进行语义校准得到目标语音场景对应的当前执行指令;将当前执行指令加入用户数据模型中,以使执行终端执行所述当前执行指令。该方法针对不同语音场景,基于用户习惯数据对执行指令进行语义校准,使得当前执行指令更加智能化,可以更大程度上适应于不同用户需求,给用户带来更好的用车体验。

Description

一种语音控制方法、装置、设备、介质、系统及车辆
技术领域
本发明实施例涉及车辆技术领域,尤其涉及一种语音控制方法、装置、设备、介质、系统及车辆。
背景技术
随着车辆技术的发展,越来越多的车辆配备有语音控制功能,通过语音来控制车辆的各种功能将给车辆的使用者带来很大的便利,不仅可以提升车辆的智能化程度,还可以带来更好的乘车体验。
传统的语音控制方式较为固化、生硬,在用户实际用车体验中并不太友好,例如以下场景:用户A语义输入“打开车窗”,传统的方式根据一些调研数据,直接定义为把车窗开启100%,实际用户A日常习惯中是想开启50%,用户B有可能是想开启70%,同一个语义指令,不同的用户需求是有差异的。甚至同一个用户,在不同的季节或天气中,对车窗的开启命令都可能不同。
因此,传统的语音控制方式智能度较低,无法满足不同用户的需求,给用户带来较差的用车体验。
发明内容
本发明提供了一种语音控制方法、装置、设备、介质、系统及车辆,以解决现有技术中的语音控制方式较为固话、生硬、无法适用于不同用户需求的问题。
根据本发明的一方面,提供了一种语音控制方法,包括:
对获取的用户语音进行处理得到语音指令和用户声纹信息;
根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令;
确定所述用户数据模型未完成语义训练,则执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令;
将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。
根据本发明的另一方面,提供了一种语音控制装置,包括:
处理模块,用于对获取的用户语音进行处理得到语音指令和用户声纹信息;
建立模块,用于根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令;
确定模块,用于在确定所述用户数据模型未完成语义训练时,执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令;
执行模块,用于将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。
根据本发明的另一方面,提供了一种中控设备,所述中控设备包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的语音控制方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语音控制方法。
根据本发明的另一方面,提供了一种语音控制系统,包括语音采集设备、中控设备、显示设备以及执行设备,所述中控设备分别与所述语音采集设备、所述显示设备以及所述执行设备相连;
所述语音采集设备,用于采集用户语音;
所述中控设备,用于执行如权利要求1-9任一项所述的语音控制方法;
所述显示设备,用于显示指令,所述指令包括所述中控设备发送给所述显示设备的指令以及用户输入的指令;
所述执行设备,用于执行所述目标指令。
根据本发明的另一方面,提供了一种车辆,包括上述另一方面所述的语音控制系统。
本发明实施例的技术方案,通过对获取的用户语音进行处理得到语音指令和用户声纹信息;根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令;确定所述用户数据模型未完成语义训练,则执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令;将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。解决了现有语音控制方式确定的执行指令无法满足用户需求的问题,取到了根据用户语音匹配得到的当前执行指令可以更大程度上适应于用户需求,给用户带来更好的用车体验的有益效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种语音控制方法的流程示意图;
图2为本发明实施例二提供的一种语音控制方法的流程示意图;
图3为本发明实施例三提供的一种语音控制方法的流程示意图;
图4为本发明实施例三提供的一种语音控制方法中的频率曲线示意图;
图5为本发明实施例三提供的一种语音控制方法中的最新用户习惯数据曲线和分布曲线的示意图;
图6为本发明实施例四提供的一种语音控制装置的结构示意图;
图7为本发明实施例的语音控制方法的中控设备的结构示意图;
图8为本发明实施例六提供的一种语音控制系统的结构示意图;
图9为本发明实施例六提供的一种语音控制系统的示例结构示意图;
图10为本发明实施例七提供的一种车辆的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
实施例一
图1为本发明实施例一提供的一种语音控制方法的流程示意图,该方法可适用于用户对车辆的软硬件功能进行语音控制的情况,该方法可以由语音控制装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在中控设备上,在本实施例中的中控设备包括但不限于:车辆的中控主机。
如图1所示,本发明实施例一提供的一种语音控制方法,包括如下步骤:
S110、对获取的用户语音进行处理得到语音指令和用户声纹信息。
本实施例中,在获取用户语音之前,需要唤醒语音助手,此处不限定以何种方式唤醒语音助手,可以包括主动唤醒和被动唤醒两种唤醒方式,主动唤醒可以为用户主动呼喊语音助手的名称,例如用户呼喊“小爱,小爱”;被动唤醒可以为场景引擎开启后自动唤醒,例如音乐软件开启后自动唤醒。
本实施例中,不限定以何种方式获取用户语音,可以通过语音采集设备获取用户语音。
本实施例中,获取用户语音后需要对用户语音进行解析和转换为语音指令,示例性的,用户语音为“太热了,把窗口打开吧”,对应的语音指令可以为“打开窗户”。
本实施例中,在得到用户授权的情况下对用户语音进行识别得到用户声纹信息,用户声纹信息可以包括用户声纹标识,用户声纹信息可以作为唯一性用户标识。一个用户对应一个用户声纹信息,根据用户声纹信息可以确定用户。
S120、根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令。
本实施例中,每个用户都有对应的用户数据模型,根据用户声纹信息可以确定出该用户对应的用户数据模型,用户声纹信息和用户数据模型具有一一对应的关系。根据用户声纹信息确定对应的用户数据模型可以包括两种情况:一、直接从本地或云端获取用户声纹信息对应的用户数据模型;二、新建用户声纹信息以及该用户声纹信息对应的用户数据模型。
具体的,所述根据所述用户声纹信息确定对应的用户数据模型,包括:对所述用户声纹信息进行查询;若查询到所述用户声纹信息,则获取所述用户声纹信息对应的用户数据模型;若未查询到所述用户声纹信息,则建立所述用户声纹信息和所述用户声纹信息对应的用户数据模型。
其中,可以在中控设备或云端查询用户声纹信息,若查询到用户声纹信息,可以直接从中控设备或云端获取用户声纹信息对应的用户数据模型;若未查询到用户声纹信息,可以在中控设备中建立用户声纹信息和用户声纹信息对应的用户数据模型,并将用户声纹信息和用户声纹信息对应的用户数据模型一起同步存储在云端。在建立了该用户的用户声纹信息以及用户数据模型后,当再次接收到该用户发送的用户语音后,可以根据用户声纹信息从本地或云端直接获取用户数据模型。
在本步骤中,用户数据模型中的默认执行指令可以为车辆的默认偏好数据构建,默认偏好数据由原始设备制造商(Original Equipment Manufacturer,OEM)调研后设定。例如,默认执行指令可以包括默认车窗打开度为100%,默认打开的音乐软件为XX音乐。用户数据模型中可以包括多个语音场景对应的默认执行指令。。
其中,语音场景可以理解为用户语音对应的不同场景,语音场景可以包括多个硬件控制场景和软件控制场景。示例性的,语音场景可以包括开窗场景和音乐播放场景。S130、确定所述用户数据模型未完成语义训练,则执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令。
本实施例中,在获取到用户数据模型后可以进一步确定用户数据模型是否完成语义训练,若未完成语义训练,则可以在用户数据模型中查找语音指令所属的语音场景作为目标语音场景,将目标语音场景所对应的默认执行指令作为目标默认执行指令,并通过执行终端执行目标默认执行指令。
示例性的,语音指令为“打开车窗”,则可以确定该语音指令对应的目标语音场景为开窗场景,在确定为开窗场景后可以确定出目标默认执行指令为车窗打开度为50%,将目标默认执行指令发送给执行终端后,执行终端可以将车窗打开50%。
本实施例中,在执行目标默认指令后,还需要对目标默认执行指令进行语义校准,以得到目标语音场景对应的当前执行指令。其中,当前执行指令可以理解为通过语音校准后得到的当前可以由执行终端执行的指令。
本实施例中,对默认执行指令进行语义校准可以基于用户习惯数据和预设校准精度等级完成。
其中,用户习惯数据可以为用户日常用车数据,可以包括语音车控数据和非语音车控数据,用户习惯数据可以理解为用户在日常用车时习惯使用的操作,例如,用户习惯将车窗打开50%,用户习惯使用QQ音乐播放音乐;此处对用户习惯数据的获取方式不作具体限制,可以通过任意一种可行的方式获取。
其中,预设校准精度等级可以理解为预先设置的语义校准精度,不同校准精度等级可以对应不同校准次数,预设校准精度等级可以包括高精度校准等级、中精度校准等级以及低精度校准等级,不同校准精度等级对应的语义校准次数可以自行设定,示例性的,高精度校准等级对应的语义校准次数可以为30次,中精度校准等级对应的语义校准次数可以为15次,低精度校准等级对应的语义校准次数可以为10次。
本实施例中,可以根据用户习惯数据对目标默认执行指令进行语义校准,当语音校准达到预设校准精度等级时,停止语义校准,得到目标语音场景对应的当前执行指令。此处对如何根据用户习惯数据对目标默认执行指令进行语义校准不作具体限制,对语义校准的过程不做详细说明。
S140、将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。
本实施例中,在得到当前执行指令后,可以将当前执行指令添加到用户数据模型中,此时用户数据模型中不仅包括默认执行指令还包括当前执行指令。此时,可以将当前执行指令发送给执行终端执行。
本发明实施例一提供的一种语音控制方法,首先对获取的用户语音进行处理得到语音指令和用户声纹信息;根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令;确定所述用户数据模型未完成语义训练,则执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令;确定所述用户数据模型未完成语义训练,则执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令。上述方法针对不同语音场景,基于用户习惯数据和预设校准精度等级进行语义校准,使得生成的当前执行指令更加智能化,当前执行指令可以更大程度上适应于用户需求,给用户带来更好的用车体验。
进一步的,基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令,包括:按照预设校准精度等级执行预设数量次语义校准过程得到目标场景对应的当前执行指令,所述语义校准过程基于用户习惯数据对所述目标默认执行指令进行语义校准,所述用户习惯数据包括在车辆至少一个上电周期内统计的有效手动执行结果和有效语音执行结果;其中,在每次语义校准后得到一次执行指令,并使执行终端执行所述一次执行指令;将最后一次语义校准后得到的一次执行指令作为所述目标语音场景对应的当前执行指令。
本实施例中,根据预设校精度等级执行校准过程时,可以将执行完校一次准过程后得到的执行指令作为一次执行指令,通过执行终端执行该一次执行指令,可以将最后一次执行完校准过程得到的一次执行指令作为目标语音场景对应的当前执行指令。
其中,根据预设校准精度等级可以知晓需要执行多少次语义校准过程。有效手动执行结果可以理解为通过用户手动执行的有效结果;有效语音执行结果可以理解为根据用户语音执行的有效结果。
进一步的,所述有效手动执行结果和所述有效语音执行结果对应的执行时间大于预设时长。
示例性的,当手动执行结果为车窗打开20%,且车窗打开20%状态的保持时间超过2h,则可以将该手动执行结果作为一个有效手动执行结果;当车辆根据用户语音将车窗打开20%时,则语音执行结果为车窗打开20%,若车窗打开20%状态的保持时间超过2h,则可以将该语音执行结果作为一个有效语音执行结果。
语义校准过程包括:基于用户习惯数据确定所述目标语音场景对应的高频用户习惯执行指令;将所述高频用户习惯执行指令作为校准选项显示给用户,将用户反馈的用户选择指令作为所述目标语音场景对应的一次执行指令。
其中,高频用户习惯执行指令可以理解为用户习惯执行指令中执行频率较高的用户习惯执行指令。
其中,用户选择指令可以理解为用户反馈的指令,用户选择指令的获取方式可以包括以下两种:方式一、用户在显示设备上选择一个校准选项作为用户选择指令;方式二、用户在显示设备上自主输入一个指令,将显示设备上显示的多个校准选项中与用户自主输入的指令最相近的选项作为用户选择指令。示例性的,若显示设备上显示的多个校准选项包括车窗打开40%、车窗打开50%和车窗打开80%,而用户自主输入的指令为车窗打开90%,则可以将车窗打开80%作为用户选择指令。可以理解的是,用户自主输入的方式可以包括多种,示例性的,可以包括用户语音输入和用户写入输入,此处不作具体限制。
在本实施例中,对基于用户习惯数据确定目标语音场景对应的高频用户习惯执行指令的具体过程不作限定。
在一个实施例中,基于用户习惯数据确定目标语音场景对应的高频用户习惯执行指令,包括:将用户习惯数据中的有效手动执行结果和有效语音执行结果对应的多个用户习惯执行指令作为横坐标,将多个用户习惯执行指令的频率作为纵坐标,构建指令频率曲线;在指令频率曲线上获取对应频率大于基准频率的至少一个用户习惯执行指令作为目标语音场景对应的高频用户习惯执行指令。
示例性的,可以将车窗打开0%、车窗打开40%、车窗打开80%以及车窗打开100%作为横坐标,将车窗打开0%对应的频率、车窗打开40%对应的频率、车窗打开80%对应的频率以及车窗打开100%对应的频率作为纵坐标,构建得到的曲线作为指令频率曲线;在指令频率曲线上选取频率大于基准频率K的多个用户习惯执行指令,可以将选取出的多个用户习惯执行指令作为高频用户习惯执行指令,还可以将选取出的多个用户习惯执行指令中的排名前3的用户习惯执行指令作为高频用户习惯执行指令。
实施例二
图2为本发明实施例二提供的一种语音控制方法的流程示意图,本实施例二在上述各实施例的基础上进行优化。本实施例尚未详尽的内容请参考实施例一,此处不作赘述。
如图2所示,本发明实施例二提供的一种语音控制方法,包括如下步骤:
S210、对获取的用户语音进行处理得到语音指令和用户声纹信息。
S220、根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令。
S230、确定所述用户数据模型未完成语义训练,则执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令。
S240、将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。
S250、确定所述用户数据模型已完成语义训练,则基于最新用户习惯数据和预设条件确定所述当前执行指令是否存在偏差。
本实施例中,当按照预设校准精度等级完成预设数量次语义校准后,即可确定用户数据模型已完成语义训练。此时可以根据最新用户习惯数据和预设条件确定当前执行指令是否存在偏差。其中,预设条件可以理解为预先设置的判断当前执行指令是否存在偏差的判断条件。
进一步的,所述基于最新用户习惯数据和预设条件确定所述当前执行指令是否存在偏差包括:从最新用户习惯数据中确定出最高用户习惯执行指令,所述最高用户习惯执行指令为所述最新用户习惯数据中出现频率最高的执行结果对应的指令;将所述最高用户习惯执行指令对应的频率作为第一频率;将所述当前执行指令对应的频率作为第二频率;当所述第一频率和所述第二频率满足预设条件中的其中一个条件时,确定所述当前执行指令无偏差。
其中,最新用户习惯数据可以为车辆在最后一个上电周期内统计得到的用户习惯数据。在最新用户习惯数据中,将当前语音场景中出现频率最高的执行结果对应的指令作为最高用户习惯执行指令。
其中,第一频率可以理解为最高用户习惯执行指令在最新用户习惯数据中出现的频率;第二频率可以理解为当前执行指令在用户习惯数据中出现的频率,当前执行指令为上一校准周期得到的用户最高频用车偏好。
本实施例中,预设条件可以包括多个条件,当第一频率和第二频率满足多个条件中的任意一个条件时,可以确定当前执行指令无偏差,即无需语义校准。
进一步的,所述预设条件包括:第一频率与第二频率相等;第一频率与第二频率的差值小于预设值。
其中,在当前执行指令的频率与最高用户习惯执行指令的频率相等时,或当前执行指令的频率与最高用户习惯执行指令的频率相差小于预设值时,表示当前执行指令无偏差,无需继续进行语义校准;若当前执行指令的频率与最高用户习惯执行指令的频率相差大于预设值,则表示当前执行指令存在偏差,需要对继续进行语义校准,以得到不存在偏差的目标指令。
在一个实施例中,将当前执行指令在指令频率曲线上对应的频率和最新用户习惯数据曲线中的最高用户习惯执行指令对应的频率进行对比,可以确定最终执行指令是否存在偏差。
其中,最新用户习惯数据曲线为最后一个上电周期内确定的当前语音场景所对应的用户习惯数据曲线。用户习惯数据曲线包括一个语音场景所对应的不同用户习惯执行指令出现的频率,不同用户习惯指令基于用户习惯数据确定。
示例性的,每月按照150个上电周期统计用户习惯数据,以第一个月的150个上电周期内统计的用户习惯数据1-150对应的用户习惯指令生成第一次用户习惯数据曲线,第二个月的150个上电周期内统计的用户习惯数据为151-300,以2-151的用户习惯数据生成第二次用户习惯数据曲线,以此类推,可以生成多个用户习惯数据曲线。最新用户习惯数据曲线可以为最新生成的用户习惯数据曲线。用户习惯数据曲线的构建方式与指令频率曲线相似,此处不做赘述。
S260、若是,则对所述当前执行指令按照预设校准精度等级进行语义校准,将每次语义校准后得到的目标执行指令通过执行终端执行,并对所述目标执行指令进行有效性判断后,将有效目标执行指令加入所述用户数据模型。
本实施例中,若当前执行指令存在偏差,则可以按照预设校准精度等级对当前执行指令进行语义校准。此处对语义校准的过程不作赘述,可参考实施例一种对语义校准过程的说明。
本实施例中,可以将每次执行校准过程后得到目标执行指令发送给执行终端执行,并对目标执行指令进行有效性判断,若目标执行指令有效则可以将目标执行指令作为有效目标执行指令加入用户数据模型。其中,若目标执行指令被判断为无效,则可以将此次校准过程作废,不计入校准精度次数。其中,有效性判断可以包括在执行终端执行目标执行指令后,确定执行终端保持状态的时间是否超过预设时长,若超过,则确定目标执行指令为有效目标执行指令。示例性的,若目标执行指令为车窗打开50%,通过监测车窗打开50%的持续时间,若持续时间否超过预设时长,则可以确定目标执行指令为有效目标执行指令。需要说明的是,将目标执行指令加入用户数据模型是用于获取更精确的用户习惯数据。
进一步的,所述方法还包括:在车辆的每个下电周期内,将已完成语义校准的用户数据模型上传到云端进行存储。
本实施例中,通过将已完成语义校准的用户数据模型上传到云端进行保存,可以在中控设备丢失用户数据模型时,从云端获取用户数据模型。
实施例三
本发明实施例在上述各实施例的技术方案的基础上,提供了一种具体的实施方式。
作为本实施一种具体的实施方式,图3为本发明实施例三提供的一种语音控制方法的流程示意图,如图3所示,包括如下步骤:
步骤1、通过前后排座位附近的语音采集设备输入的预设语音唤醒语音助手。
步骤2、用户输入语音指令控制车端软硬件功能。
步骤3、中控主机对语音指令进行语义解析转换为车控指令,同时进行声纹识别,获取声纹ID。
其中,中控主机即中控设备;车控指令即语音指令。
步骤4、根据获取的声纹ID,在中控主机和云端匹配声纹ID。
步骤5、若在中控主机和云端未搜索到该声纹ID,则本地新建声纹ID并同步上传到云端,同时新建用户数据模型。
其中,用户数据模型为包括不同语音场景对应的默认执行指令的用户数据模型。
在本步骤中,若在中控主机搜索到该声纹ID,则获取该声纹ID对应的用户数据模型。
步骤6、根据声纹ID,基于用户数据模型智能匹配目标指令,并转化为可执行的信号发送给执行终端。
其中,根据用户数据模型中每个场景【语音指令-目标指令】智能匹配出指令。
步骤7、快速响应指令,执行指令,确保用户体验。
步骤8、判断该声纹ID是否已完成语义训练。
本步骤中,若是,则执行步骤10;若否,则执行步骤9。
步骤9、弹窗显示校准选项进行语义校准。
步骤9.1、按语音场景分类统计不同执行指令出现的次数,并计算不同执行指令对应的频率。
在车窗打开语音场景中,在每个上电周期获取车窗的打开程度,不同打开程度用于表征不同执行指令,例如,如果2h内车辆开度为50%无变化,则认为是一个有效计数,50%开度计数n加1,总计数sum加1,50%开度对应的频率f =n/Sum。由此可以计算不同执行指令对应的频率。
图4为本发明实施例三提供的一种语音控制方法中的频率曲线示意图,如图4所示,横坐标表示不同执行指令,包括车辆打开0%-100%多个执行指令,纵坐标表示每个执行指令对应的频率。
步骤9.2、根据指令频率曲线,设定基准频率K,将对应频率大于K的执行指令a,b,c作为高频执行指令通过弹窗显示给用户。
其中,多个高频执行指令可以作为智能推荐选项显示给用户选择。用户可以从多个智能推荐选项中选择一个指令作为用户选择指令,还可以根据用户语音输入从多个智能推荐选项中确定出与用户语音输入最接近的选项作为用户选择指令。
步骤9.3、根据校准精度完成语义校准。
用户可以自行设定校准精度等级即预设校准精度等级,可以设置高、中、低三种精度,默认为中,以中等精度为例,每次弹窗出现后,记录用户选择指令即第二用户选择指令,连续采样15次后,即获取15个用户选择指令后,重新生成指令频率曲线,取最高频率对应的用户选择指令作为最终执行指令,完成语义训练。
步骤10、判断当前执行指令是否存在偏差。
本步骤中,判断当前执行指令是否和用户日常习惯存在偏差。若存在偏差,则重新校准即重新进行语义校准,若无偏差,则无需进行校准。
以车窗开启为例,用户日常用车习惯按每月150个上电周期统计,将统计的用户日常用车数据输入默认用户数据模型中生成用户习惯数据曲线,1-150个数据生成第一次用户习惯数据曲线,2-151个数据生成第二次用户习惯数据曲线,以此类推,每个上电周期获取最新的用户习惯数据曲线。
图5为本发明实施例三提供的一种语音控制方法中的最新用户习惯数据曲线和分 布曲线的示意图,如图4所示,在最新用户习惯数据曲线中,最高频率
Figure 813929DEST_PATH_IMAGE001
对应的用户习惯指 令A即最高用户习惯指令;在分布曲线中的频率为
Figure 809567DEST_PATH_IMAGE002
对应的当前执行指令B即最终执行指 令。判断当前执行指令是存在偏差的判定规则如下:
若当前执行指令B对应的频率
Figure 212866DEST_PATH_IMAGE002
和最新用户习惯数据曲线中的最高频率
Figure 206230DEST_PATH_IMAGE001
相同, 则判断当前执行指令B无偏差;
若最新用户习惯数据曲线中的高频率
Figure 632664DEST_PATH_IMAGE001
与当前执行指令B对应的频率
Figure 104096DEST_PATH_IMAGE002
的差值 小于5%,则判断当前执行指令B无偏差。
除此以外的其他情况均判断挡墙执行指令B存在偏差。
步骤11、若当前执行指令存在偏差,进行校准项选择。
本步骤中,若获取到用户在弹窗上进行的选择或用户主动输入的选择,则执行步骤12;若用户未选择,则执行步骤13。
步骤12、执行新的语义指令,并根据校准精度完成语义校准。
步骤13、将用户习惯指令A添加到用户数据模型中,生成对应的指令频率曲线。
本发明实施例二提供的一种语音控制方法,该方法基于整车软硬件能力,对所有用车功能进行语音场景分类,建立语音控制用户数据模型。此外根据用户声纹匿名建立用户唯一性标识ID,将声纹ID与用户数据模型绑定后通过语义校准,使所有车控功能可以根据不同用户日常用户习惯动态调整执行指令。语义训练完成后,通过采集150个车辆上电周期数据,滚动更新用户数据模型,基于每个场景有效计数数据生成用户习惯数据曲线,判定用户上一周期得到的当前执行指令是否和最近的用户习惯数据存在偏差,并进行偏差校准,确保同一用户的语音指令能跟随用户最新的用车习惯动态变化。
实施例四
图6为本发明实施例四提供的一种语音控制装置的结构示意图,该装置可适用于用户对车辆的软硬件功能进行语音控制的情况,其中该装置可由软件和/或硬件实现,并一般集成在中控设备上。
如图6所示,该装置包括:处理模块110、确定模块120、语义校准模块130以及执行模块140。
处理模块110,用于对获取的用户语音进行处理得到语音指令和用户声纹信息;
确定模块120,用于根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令;
语义校准模块130,用于在确定所述用户数据模型未完成语义训练时,执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令;
执行模块140,用于将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。
在本实施例中,该装置首先通过处理模块110对获取的用户语音进行处理得到语音指令和用户声纹信息;然后通过确定模块120根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令;之后通过语义校准模块130在确定所述用户数据模型未完成语义训练时,执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令;最后通过执行模块140将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。
本实施例提供了一种语音控制装置,能够针对不同用户的语音执行不同的指令,更大程度上满足用户需求,给用户带来更好的用车体验。
进一步的,确定模块120具体用于:对所述用户声纹信息进行查询;若查询到所述用户声纹信息,则获取所述用户声纹信息对应的用户数据模型;若未查询到所述用户声纹信息,则建立所述用户声纹信息和所述用户声纹信息对应的用户数据模型。
进一步的,语义校准模块130具体用于:按照预设校准精度等级执行预设数量次语义校准过程得到目标场景对应的当前执行指令,所述语义校准过程基于用户习惯数据对所述目标默认执行指令进行语义校准,所述用户习惯数据包括在车辆至少一个上电周期内统计的有效手动执行结果和有效语音执行结果;
语义校准过程包括:基于用户习惯数据确定所述目标语音场景对应的高频用户习惯执行指令;将所述高频用户习惯执行指令作为校准选项显示给用户,将用户反馈的用户选择指令作为所述目标语音场景对应的一次执行指令;其中,在每次语义校准后得到一次执行指令,并使执行终端执行所述一次执行指令;将最后一次语义校准后得到的一次执行指令作为所述目标语音场景对应的当前执行指令。
进一步的,所述有效手动执行结果和所述有效语音执行结果对应的执行时间大于预设时长。
进一步的,语义校准模块130包括确定单元,用于:将所述用户习惯数据中的有效手动执行结果和有效语音执行结果对应的多个用户习惯执行指令作为横坐标,将所述多个用户习惯执行指令的频率作为纵坐标,构建指令频率曲线;
在所述指令频率曲线上获取对应频率大于基准频率的至少一个用户习惯执行指令作为所述目标语音场景对应的高频用户习惯执行指令。
进一步的,该装置还包括偏差校准模块,用于:确定所述用户数据模型已完成语义训练,则基于最新用户习惯数据和预设条件确定所述当前执行指令是否存在偏差;若是,则对所述当前执行指令按照预设校准精度等级进行语义校准,将每次语义校准后得到的目标执行指令通过执行终端执行;并对所述目标执行指令进行有效性判断后,将有效目标执行指令加入所述用户数据模型。
进一步的,差校准模块包括偏差确定单元,用于:从最新用户习惯数据中确定出最高用户习惯执行指令,所述最高用户习惯执行指令为所述最新用户习惯数据中的所述目标语音场景下出现频率最高的执行结果对应的指令;将所述最高用户习惯执行指令对应的频率作为第一频率;将所述当前执行指令对应的频率作为第二频率;当所述第一频率和所述第二频率满足预设条件中的其中一个条件时,确定所述当前执行指令无偏差。
进一步的,所述预设条件包括:第一频率与第二频率相等;第一频率与第二频率的差值小于预设值。
进一步的,该装置还包括上传模块,用于:在车辆的每个下电周期内,将已完成语义校准的用户数据模型上传到云端进行存储。
上述语音控制装置可执行本发明任意实施例所提供的语音控制方法,具备执行方法相应的功能模块和有益效果。
实施例五
图7示出了可以用来实施本发明的实施例的中控设备10的结构示意图。中控设备10可以为车辆的中控主机,可以为任意一种能够对车辆的软硬件进行控制的设备。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图7所示,中控设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储中控设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
中控设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许中控设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如语音控制方法。
在一些实施例中,语音控制方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到中控设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的语音控制方法中的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音控制方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在中控设备上实施此处描述的系统和技术,该中控设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给中控设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
实施例六
图8为本发明实施例六提供的一种语音控制系统的结构示意图,该系统适用于用户对车辆的各种功能进行语音控制的情况,该系统可执行本发明任意实施例提供的语音控制方法。
如图8所示,该系统包括语音采集设备10、中控设备20、显示设备30以及执行设备40,中控设备20分别与语音采集设备10、显示设备30以及执行设备40相连;
语音采集设备10,用于采集用户语音;
中控设备20,用于执行本发明任意实施例中的语音控制方法;
显示设备30,用于显示指令,所述指令包括中控设备20发送给显示设备30的指令以及用户输入的指令;
执行设备40,用于执行所述目标指令。
其中,语音采集设备10可以为任意一种能够采集用户语音的设备,语音采集设备10可以包括整车拾音设备。此处对语音采集设备10的个数不作具体限制,语音采集设备10可以通过A2B方式与中控设备20相连。语音采集设备10可以根据人体工学设计在车辆的座椅附近,此处对语音采集设备10的设置位置不作具体限制,以能够更好的采集用户语音的位置为最佳位置,语音采集设备10设置在不同位置处以采集不同用户的语音。示例性的,语音采集设备10可以设置于车辆前排车顶处,以采集主驾驶位置和副驾驶位置的语音;语音采集设备10还可以设置于前排座椅后端,正对后排乘客,以采集后排乘客的语音。
其中,中控设备20可以为具有数据处理和控制功能的设备,中控设备20可以为中控主机。
其中,显示设备30可为具有显示功能的设备,显示设备30可以包括中控媒体屏、抬头显示器(Head Up Display,HUD)、仪表屏以及乘客屏等显示媒介。其中,乘客屏可以安装在前排座椅后端,正对后排乘客的位置。
其中,执行设备40可以包括车上的软件设备和硬件设备,示例性的,执行设备40可以包括音乐软件、聊天软件、游戏软件等软件设备,以及车窗、天窗、空调等硬件设备。
本实施例中,对该系统执行的语音控制方法不作赘述,可参考本发明实施例一和实施例二。
本发明实施例六提供的一种语音控制系统,能够更大程度上适应于不同用户的用车需求,给用户带来更好的用车体验。
图9为本发明实施例六提供的一种语音控制系统的示例结构示意图,如图8所示,该系统包括MIC即语音采集设备、主机端即主控设备、显示端即显示设备以及执行端即执行设备,主机端分别与MIC、显示端以及执行端相连。
其中,MIC用于采集用户语音并发送给主机端,主机端可以进行声纹识别和语义训练生成语音指令发送给执行端执行,主机端可以将指令选项发送给显示端显示给用户,显示端还可以显示用户自定义输入的指令,示例性的,显示端可以显示车窗开度选项包括10%、50%和80%,用户自定义输入的指令为70%。
MIC为整车拾音设备,可以采用A2B方式连接主机端,MIC可以依据座舱人体工学设计设置在每个座舱附件,每个MIC均有特定的拾音区域,用以区分不同用户的语音输入。
在主机端可以通过MIC语音指令主动唤醒主机对话,也可以根据场景引擎被动唤醒主机对话,在对话过程中,主体用过拾音并根据每个特定音色进行唯一性用户标识,根据该唯一性用户标识特征,搜集日常用车数据安类别分场景进行统计分析,通过语义训练生成最终用户数据模型。
显示端可以通过中控媒体屏、HUD、仪表屏、乘客屏等显示媒介将智能语音选项显示给用户。
执行端可以基于整车提供的软硬件生态能力,对目标指令进行执行响应。可以示例性的理解为目标指令为打开游戏软件,若车辆没有该项功能,则无法打开游戏软件。
实施例七
图10为本发明实施例七提供的一种车辆的结构示意图,如图10所示,该车辆包括本发明实施例五所提供的语音控制系统,故该语音控制系统可以用于执行本发明任意实施例中所提供的语音控制方法,语音控制方法的具体内容此处不作重复解释。
本发明实施例七提供的一种车辆可执行本发明任意实施例所提供的语音控制方法,具备执行方法相应的系统和有益效果。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种语音控制方法,其特征在于,所述方法包括:
对获取的用户语音进行处理得到语音指令和用户声纹信息;
根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令;
确定所述用户数据模型未完成语义训练,则执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令;其中,所述用户习惯数据为用户日常用车数据,所述用户习惯数据包括语音车控数据和非语音车控数据;
将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。
2.根据权利要求1所述的方法,其特征在于,所述根据所述用户声纹信息确定对应的用户数据模型,包括:
对所述用户声纹信息进行查询;
若查询到所述用户声纹信息,则获取所述用户声纹信息对应的用户数据模型;
若未查询到所述用户声纹信息,则建立所述用户声纹信息和所述用户声纹信息对应的用户数据模型。
3.根据权利要求1所述的方法,其特征在于,基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令,包括:
按照预设校准精度等级执行预设数量次语义校准过程得到目标场景对应的当前执行指令,所述语义校准过程基于用户习惯数据对所述目标默认执行指令进行语义校准,所述用户习惯数据包括在车辆至少一个上电周期内统计的有效手动执行结果和有效语音执行结果;
语义校准过程包括:基于用户习惯数据确定所述目标语音场景对应的高频用户习惯执行指令;将所述高频用户习惯执行指令作为校准选项显示给用户,将用户反馈的用户选择指令作为所述目标语音场景对应的一次执行指令;
其中,在每次语义校准后得到一次执行指令,并使执行终端执行所述一次执行指令;
将最后一次语义校准后得到的一次执行指令作为所述目标语音场景对应的当前执行指令。
4.根据权利要求3所述的方法,其特征在于,所述有效手动执行结果和所述有效语音执行结果对应的执行时间大于预设时长。
5.根据权利要求3所述的方法,其特征在于,所述基于用户习惯数据确定所述目标语音场景对应的高频用户习惯执行指令,包括:
将所述用户习惯数据中的有效手动执行结果和有效语音执行结果对应的多个用户习惯执行指令作为横坐标,将所述多个用户习惯执行指令的频率作为纵坐标,构建指令频率曲线;
在所述指令频率曲线上获取对应频率大于基准频率的至少一个用户习惯执行指令作为所述目标语音场景对应的高频用户习惯执行指令。
6.根据权利要求1所述的方法,其特征在于,还包括:
确定所述用户数据模型已完成语义训练,则基于最新用户习惯数据和预设条件确定所述当前执行指令是否存在偏差;
若是,则对所述当前执行指令按照预设校准精度等级进行语义校准,将每次语义校准后得到的目标执行指令通过执行终端执行;并对所述目标执行指令进行有效性判断后,将有效目标执行指令加入所述用户数据模型。
7.根据权利要求6所述的方法,其特征在于,所述基于最新用户习惯数据和预设条件确定所述当前执行指令是否存在偏差包括:
从最新用户习惯数据中确定出最高用户习惯执行指令,所述最高用户习惯执行指令为所述最新用户习惯数据中的所述目标语音场景下出现频率最高的执行结果对应的指令;
将所述最高用户习惯执行指令对应的频率作为第一频率;
将所述当前执行指令对应的频率作为第二频率;
当所述第一频率和所述第二频率满足预设条件中的其中一个条件时,确定所述当前执行指令无偏差。
8.根据权利要求7所述的方法,其特征在于,所述预设条件包括:
第一频率与第二频率相等;
第一频率与第二频率的差值小于预设值。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在车辆的每个下电周期内,将已完成语义校准的用户数据模型上传到云端进行存储。
10.一种语音控制装置,其特征在于,所述装置包括:
处理模块,用于对获取的用户语音进行处理得到语音指令和用户声纹信息;
确定模块,用于根据所述用户声纹信息确定对应的用户数据模型,所述用户数据模型中包括不同语音场景对应的默认执行指令;
语义校准模块,用于在确定所述用户数据模型未完成语义训练时,执行所述用户数据模型中所述语音指令所属的目标语音场景所对应的目标默认执行指令,并基于用户习惯数据和预设校准精度等级对所述目标默认执行指令进行语义校准,得到目标语音场景对应的当前执行指令;其中,所述用户习惯数据为用户日常用车数据,所述用户习惯数据包括语音车控数据和非语音车控数据;
执行模块,用于将所述当前执行指令加入所述用户数据模型中,以使执行终端执行所述当前执行指令。
11.一种中控设备,其特征在于,所述中控设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的语音控制方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-9中任一项所述的语音控制方法。
13.一种语音控制系统,其特征在于,所述系统包括语音采集设备、中控设备、显示设备以及执行设备,所述中控设备分别与所述语音采集设备、所述显示设备以及所述执行设备相连;
所述语音采集设备,用于采集用户语音;
所述中控设备,用于执行如权利要求1-9任一项所述的语音控制方法;
所述显示设备,用于显示指令,所述指令包括所述中控设备发送给所述显示设备的指令以及用户输入的指令;
所述执行设备,用于执行当前执行指令或目标执行指令。
14.一种车辆,其特征在于,所述车辆包括如权利要求13所述的语音控制系统。
CN202211276360.5A 2022-10-19 2022-10-19 一种语音控制方法、装置、设备、介质、系统及车辆 Active CN115346530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211276360.5A CN115346530B (zh) 2022-10-19 2022-10-19 一种语音控制方法、装置、设备、介质、系统及车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211276360.5A CN115346530B (zh) 2022-10-19 2022-10-19 一种语音控制方法、装置、设备、介质、系统及车辆

Publications (2)

Publication Number Publication Date
CN115346530A CN115346530A (zh) 2022-11-15
CN115346530B true CN115346530B (zh) 2023-01-13

Family

ID=83957159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211276360.5A Active CN115346530B (zh) 2022-10-19 2022-10-19 一种语音控制方法、装置、设备、介质、系统及车辆

Country Status (1)

Country Link
CN (1) CN115346530B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116163620A (zh) * 2023-02-28 2023-05-26 重庆长安汽车股份有限公司 一种车辆门窗智慧开关方法、系统、设备及介质
CN117316159B (zh) * 2023-11-30 2024-01-26 深圳市天之眼高新科技有限公司 车辆语音控制方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428512B (zh) * 2020-03-27 2023-12-12 大众问问(北京)信息科技有限公司 一种语义识别方法、装置及设备
US11132988B1 (en) * 2020-10-22 2021-09-28 PolyAI Limited Dialogue system, a dialogue method, and a method of training
CN112599128B (zh) * 2020-12-31 2024-06-11 百果园技术(新加坡)有限公司 一种语音识别方法、装置、设备和存储介质
CN113421561B (zh) * 2021-06-03 2024-01-09 广州小鹏汽车科技有限公司 语音控制方法、语音控制装置、服务器和存储介质
CN113611305A (zh) * 2021-09-06 2021-11-05 云知声(上海)智能科技有限公司 自主学习家居场景下的语音控制方法、系统、设备及介质
CN113611306A (zh) * 2021-09-07 2021-11-05 云知声(上海)智能科技有限公司 基于用户习惯的智能家居语音控制方法、系统及存储介质
CN113990299B (zh) * 2021-12-24 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质

Also Published As

Publication number Publication date
CN115346530A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN115346530B (zh) 一种语音控制方法、装置、设备、介质、系统及车辆
US11556309B2 (en) Virtual assistant configured to automatically customize groups of actions
US10320354B1 (en) Controlling a volume level based on a user profile
CN110349579B (zh) 语音唤醒处理方法及装置、电子设备及存储介质
US20140172423A1 (en) Speech recognition method, device and electronic apparatus
US11587550B2 (en) Method and apparatus for outputting information
CN103995716A (zh) 一种终端的应用启动方法及终端
CN111274798B (zh) 一种文本主题词确定方法、装置、存储介质及终端
CN109686368B (zh) 语音唤醒应答处理方法及装置、电子设备及存储介质
CN113053388B (zh) 语音交互方法、装置、设备和存储介质
CN113826089A (zh) 对聊天机器人中的自然理解系统的具有到期指标的上下文反馈
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
KR102476099B1 (ko) 회의록 열람 문서 생성 방법 및 그 장치
CN111312233A (zh) 一种语音数据的识别方法、装置及系统
EP3593346A1 (en) Graphical data selection and presentation of digital content
CN112185369A (zh) 一种基于语音控制的音量调节方法、装置、设备和介质
CN112509566A (zh) 一种语音识别方法、装置、设备、存储介质及程序产品
CN112634897A (zh) 设备唤醒方法、装置和存储介质及电子装置
CN112333596A (zh) 一种耳机均衡器的调整方法、装置、服务器及介质
CN112579031A (zh) 一种语音交互的方法、系统和电子设备
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备
CN113657538A (zh) 模型训练、数据分类方法、装置、设备、存储介质及产品
CN117290605A (zh) 一种车载智能场景推荐方法、装置、设备和介质
CN111161745A (zh) 一种智能设备的唤醒方法、装置、设备及介质
CN114861056A (zh) 信息推送方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant