CN116168704A - 语音交互的引导方法、装置、设备、介质及车辆 - Google Patents
语音交互的引导方法、装置、设备、介质及车辆 Download PDFInfo
- Publication number
- CN116168704A CN116168704A CN202310458714.6A CN202310458714A CN116168704A CN 116168704 A CN116168704 A CN 116168704A CN 202310458714 A CN202310458714 A CN 202310458714A CN 116168704 A CN116168704 A CN 116168704A
- Authority
- CN
- China
- Prior art keywords
- command
- predicted
- voice interaction
- prediction model
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 430
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000006870 function Effects 0.000 claims description 94
- 238000012549 training Methods 0.000 claims description 45
- 230000002452 interceptive effect Effects 0.000 claims description 23
- 230000001960 triggered effect Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Abstract
本申请涉及语音处理技术领域,提供一种语音交互的引导方法、装置、设备、介质及车辆,该方法通过获取经过训练的目标车辆的命令预测模型,根据确定的待预测时间以及该命令预测模型,确定对应的各预测语音交互命令、以及各预测语音交互命令的触发概率,进而根据各预测语音交互命令的触发概率确定候选命令集,并生成候选命令集中的各预测语音交互命令对应的交互引导信息,以实现考虑时间因素的语音命令的引导推荐,使得预测出的结果与时间相关、且更符合该车辆,进一步满足用户使用需求,解决了现有技术中引导针对性差以及引导量多的问题,并且,可以实现在不同时间下展示不同引导结果的技术效果,解决了现有技术中引导变化小的问题。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音交互的引导方法、装置、设备、介质及车辆。
背景技术
当前,语音交互技术已被广泛的应用在智能汽车领域中,由于现阶段用户对语音交互系统的不了解,使得用户进行语音交互时,时常遇到系统未听清、未理解或系统无法响应等情况。
为了让用户了解语音交互系统具备的功能,同时,帮助用户正确表达,可以设置语音引导和推荐说明。常用的语音引导的类型有:1)新手引导,即首次使用或刚使用语音交互系统时,采用文字和动画的方式进行引导;2)功能引导,即在重要服务功能界面或设置界面,随机罗列与之相关的常用语音命令;3)流程引导,即在特定的交互流程中,引导提示用户可做的语音命令选择;4)帮助引导,即在语音交互系统的帮助说明中,集中针对可能出现的问题提供引导和解答。
然而,上述语音引导的方式,存在语音引导文本量大、引导针对性差以及引导变化小等问题。
发明内容
有鉴于此,本申请的目的在于提出一种语音交互的引导方法、装置、设备、介质及车辆,以解决现有语音引导的文本量大、针对性差以及变化小的问题。
基于上述目的,本申请提供了一种语音交互的引导方法,包括:
获取经过训练的目标车辆的命令预测模型;
确定待预测时间,基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率;
基于各所述预测语音交互命令的触发概率确定候选命令集,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息。
可选的,所述获取经过训练的目标车辆的命令预测模型,包括:
获取所述目标车辆的驾驶员的当前面部图像,基于所述当前面部图像,从各历史用户对应的命令预测模型中,获取与所述驾驶员对应的命令预测模型作为所述目标车辆的命令预测模型。
可选的,所述基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率,包括:
将所述待预测时间输入至所述命令预测模型,以使所述命令预测模型确定所述待预测时间对应的各触发功能信息、以及各触发功能信息的触发概率,并根据各所述触发功能信息确定对应的各预测语音交互命令,输出各预测语音交互命令以及各所述预测语音交互命令对应的触发概率;
其中,所述命令预测模型基于所述目标车辆的训练集训练得到,所述训练集包括:所述目标车辆的历史交互记录中每一个历史交互命令对应的历史触发时间以及触发功能信息,所述触发功能信息至少包括触发功能领域。
可选的,所述基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率,包括:
将所述待预测时间以及所述目标车辆的当前所在地点,输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率;或者,
将所述待预测时间以及所述目标车辆的各当前乘车人员的人员标识,输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
可选的,所述基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率,包括:
获取预设推荐功能领域;
将所述待预测时间以及所述预设推荐功能领域输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
可选的,所述基于各所述预测语音交互命令的触发概率确定候选命令集,包括:
在检测到所述目标车辆中的应用被触发的情况下,在各所述预测语音交互命令中确定与所述被触发的应用关联的预测语音交互命令;
基于与所述被触发的应用关联的预测语音交互命令的触发概率确定所述候选命令集。
可选的,所述基于各所述预测语音交互命令的触发概率确定候选命令集,包括:
按照各所述预测语音交互命令的触发概率从大到小的顺序进行排序,选取前N1个预测语音交互命令作为第一候选语音交互命令,其中,1≤N1<M,M为预测语音交互命令的总数量;
按照各所述预测语音交互命令的触发概率从小到大的顺序进行排序,选取前N2个预测语音交互命令作为第二候选语音交互命令;或者,从待推荐功能领域中随机选取N2个待推荐功能作为所述第二候选语音交互命令,其中,1≤N2<M且N1+ N2<M;
将所述第一候选语音交互命令和所述第二候选语音交互命令组合为所述候选命令集。
可选的,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息,包括:
针对所述候选命令集中的每一个所述预测语音交互命令,在所述目标车辆的各历史语音交互命令中,确定与所述预测语音交互命令相关的候选历史语音交互命令;
基于所述候选历史语音交互命令的语音识别文本,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息。
可选的,所述方法还包括:
对各所述交互引导信息进行展示;
判断是否检测到与各所述交互引导信息对应的当前语音交互命令;
若否,则基于各所述预测语音交互命令的触发概率确定新的候选命令集,其中,所述新的候选命令集包括至少一个与所述候选命令集不同的预测语音交互命令。
可选的,在判断是否检测到与各所述交互引导信息对应的当前语音交互命令之后,还包括:
在未检测到与各所述交互引导信息对应的当前语音交互命令的情况下,确定语音交互引导失败,若所述目标车辆的语音交互引导失败的次数超过预设次数阈值,则重新对所述命令预测模型进行训练;和/或,
所述方法还包括:
在当前时间满足预设更新周期的情况下,重新对所述命令预测模型进行训练。
基于相同的目的,本申请还提供了一种语音交互的引导装置,包括:
模型获取模块,用于获取经过训练的目标车辆的命令预测模型;
命令预测模块,用于确定待预测时间,基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率;
命令推荐模块,用于基于各所述预测语音交互命令的触发概率确定候选命令集,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息。
基于相同的目的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请任一实施例提供的语音交互的引导方法。
基于相同的目的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行本申请任一实施例提供的语音交互的引导方法。
基于相同的目的,本申请还提供了一种车辆,包括本申请实施例提供的电子设备。
从上面所述可以看出,本申请提供的语音交互的引导方法,通过获取经过训练的目标车辆的命令预测模型,根据确定的待预测时间以及该命令预测模型,确定与该待预测时间对应的各预测语音交互命令、以及各预测语音交互命令的触发概率,进而根据各预测语音交互命令的触发概率确定候选命令集,并生成候选命令集中的各预测语音交互命令对应的交互引导信息,以实现考虑时间因素的语音命令的引导推荐,通过将待预测时间输入至该车辆的命令预测模型中,可以使得预测出的结果与时间相关、且更符合该车辆,进一步满足用户使用需求,解决了现有技术中引导针对性差以及引导量多的问题,提高了用户对语音交互系统的使用体验感,并且,可以实现在不同时间下展示不同引导结果的技术效果,解决了现有技术中引导变化小的问题。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的第一种语音交互的引导方法的流程示意图;
图2为本申请实施例提供的一种历史交互命令的分类示意图;
图3为本申请实施例提供的第二种语音交互的引导方法的流程示意图;
图4为本申请实施例提供的第三种语音交互的引导方法的流程示意图;
图5为本申请实施例提供的第四种语音交互的引导方法的流程示意图;
图6为本申请实施例提供的一种语音交互的引导装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
在对本申请实施例提供的语音交互的引导方法进行详细说明之前,先对该方法解决的技术问题进行示例性说明。在现有技术中,语音交互系统通常包括以下子系统:1)声音信号前处理子系统,用于实现对声音的前处理,主要利用信号处理的技术消除噪声、回声等干扰信号,保证进入系统的语音信号清晰,以便于让语音交互系统可以准确识别;2)语音识别子系统,用于将声音信号转化为具体的文本;3)自然语言理解子系统,用于根据文本理解用户的命令意图和重要的人物参数(如数值、名词、方位等);4)对话管理子系统,用于管理记录前后文,转化命令给系统的同时转化反馈回复用于语言生成;5)自然语言生成子系统,用于生成语言后通过语言合成将回复通过扬声器反馈给用户。然而,现有的语音引导存在以下问题:
1)语音引导文本量大:由于语音交互越来越向全功能发展,引导的文本量在逐渐增大,出现的频率也越来越高,引导占据大面积的交互界面,非常影响语音和用户触控操作的协调使用,造成交互界面的资源的极大浪费;
2)引导针对性不足:现有的引导大多是功能规则排列或者是随机展示,虽然保障了引导的丰富程度,但针对性很差,引导的内容往往不是用户需求的,浪费用户的注意力,交互负荷重;
3)引导个性化差:现有的引导内容完全是产品预设的,每个车辆的用户所引导的内容之间缺乏差异化,导致用户使用起来往往不能立刻得到帮助。
因此,为了解决上述问题,本申请实施例提供了一种语音交互的引导方法,该方法通过预先训练的目标车辆的命令预测模型,实现对目标车辆的引导结果的预测,以解决上述引导针对性差和个性化差的问题,并且,通过待预测时间和命令预测模型进行预测,可以使得预测的结果与时间以及目标车辆相关,进而使得预测结果更符合目标车辆中的用户的需求,进一步解决了上述引导针对性差的问题,并且,通过模型预测的各预测语音交互命令的触发概率确定候选命令集,可以解决上述推荐过多命令导致的引导文本量大的问题。
图1为本申请实施例提供的第一种语音交互的引导方法的流程示意图。该语音交互的引导方法可以由语音交互的引导装置执行,该装置可以集成在电子设备中。参见图1,本申请实施例提供的语音交互的引导方法包括如下步骤:
S110、获取经过训练的目标车辆的命令预测模型。
在本实施例中,每一个车辆均可以具备对应的命令预测模型。其中,训练得到的命令预测模型可以根据输入的时间输出对应的预测结果,预测结果包括各预测语音交互命令以及对应的触发概率。
具体的,命令预测模型可以基于目标车辆的历史交互记录训练得到。其中,历史交互记录可以由各历史交互命令构成。历史交互命令可以为历史语音交互命令,或者,历史交互命令包括历史语音交互命令和历史操作交互命令。
在本实施例中,历史语音交互命令可以是目标车辆的用户所发出的历史语音指令,历史操作交互命令可以是目标车辆的用户在交互界面上触发的历史操作指令。需要说明的是,采集历史操作交互命令一并作为历史交互记录进行模型训练的目的在于:考虑到存在语音交互系统使用频次较少的情况,因此,为了确保模型的预测精度,还可以通过历史操作交互命令一并对模型进行训练,进一步提高了模型的预测结果的准确性。
示例性的,可以捕获目标车辆的埋点数据,进而从埋点数据中获取用户操作日志。进一步的,根据用户操作日志提取各历史语音交互命令和各历史操作交互命令。
具体的,可以通过历史交互记录以及历史交互记录中各历史交互命令对应的历史触发时间,构成训练集,进而通过训练集训练得到命令预测模型。
考虑到不同功能下的命令对应的文本可能存在较大差异,如,与音乐服务相比,导航服务下的命令中通常会存在地名、建筑名等信息。因此,还可以在采用各历史交互命令构建训练集之前,先根据规则化的聚类算法对历史交互记录进行分类,以将历史交互记录中的各历史交互命令划分为各个触发功能领域,即确定各个历史交互命令对应的触发功能领域,进而构建数据集,保证模型的预测结果的准确性。并且,历史交互命令对应的文本可以是非结构化数据,通过确定各个历史交互命令对应的触发功能领域,可以将历史交互命令转化为结构化数据,进而根据结构化数据构建训练集,进一步提高模型的预测精度。
其中,触发功能领域可以是用于对命令进行响应的系统服务所涉及的领域。如,车设控制领域、系统设置领域、驾驶设置领域、智能服务领域、应用服务领域、互联服务领域等。
上述功能领域还可以进一步细化,例如,车设控制领域还可以包括空调领域、座椅领域、车门领域、车床领域、车外灯领域、车内灯领域等,系统设置领域还可以包括音响领域、屏幕领域、无线网领域、蓝牙领域等,驾驶设置领域还可以包括驾驶模型领域、地形设置领域、辅助驾驶领域等,智能服务领域还可以包括智能通知领域、智能推荐领域等,应用服务领域还可以包括地图导航领域、视频领域、音乐领域、通讯领域等,互联服务领域还可以包括远程车控领域、手机投屏领域、家具互联领域等。
在确定各个历史交互命令对应的触发功能领域之后,还可以针对每一个历史交互命令,提取历史交互命令中的命令参数,如,导航搜索或选择的地点、地名,音乐播放的歌名、歌手,视频的名称、有声服务名称等。进一步的,还可以根据各个历史交互命令对应的触发功能领域、命令参数以及历史触发时间,构成训练集对命令预测模型进行训练。
在本实施例中,考虑到一个车辆可以具备多个驾驶员,每个驾驶员使用语音交互系统所涉及的服务不完全相同。因此,为了进一步保证引导结果符合用户实际需求,还可以针对目标车辆的每一个用户分别训练对应的命令预测模型,进而在获取模型时,根据驾驶员的当前面部图像,获取对应的命令预测模型。
在一些实施例中,获取经过训练的目标车辆的命令预测模型,包括:获取目标车辆的驾驶员的当前面部图像,从各历史用户对应的命令预测模型中,获取与驾驶员对应的命令预测模型。
其中,当前面部图像可以基于目标车辆的驾驶位置的摄像头采集得到。具体的,可以针对获取到的当前面部图像,识别与当前面部图像对应的当前用户标识,进而从目标车辆中的各个训练完成的命令预测模型中,获取与该当前用户标识对应的命令预测模型。
需要说明的是,各历史用户对应的命令预测模型,可以基于各历史用户的历史交互记录训练得到。例如,可以获取目标车辆的所有历史交互记录,进而通过历史面部图像对历史交互记录进行分类,以得到各历史用户的历史交互记录,进而针对每一个历史用户,可以根据对应的历史交互记录中的各历史交互命令以及各历史交互命令的历史触发时间,训练得到对应的命令预测模型。
通过上述实施方式,可以获取驾驶员对应的命令预测模型,进而通过该驾驶员对应的命令预测模型输出预测结果,使得预测结果更满足该驾驶员的使用习惯,进而使得引导结果更具备针对性,引导结果也更符合用户的个性化需求。
S120、确定待预测时间,基于待预测时间以及命令预测模型,确定与待预测时间对应的各预测语音交互命令、以及各预测语音交互命令的触发概率。
其中,待预测时间可以是需要展示交互引导信息的时间点或时间段。待预测时间的数量可以是一个或多个,若待预测时间的数量为多个,则可以根据命令预测模型,输出每一个待预测时间的预测结果。
具体的,可以根据预设预测周期确定各待预测时间;或者,可以根据目标车辆的历史运行数据确定目标车辆的预测启动时间和预测停止时间,进而根据预测启动时间和预测停止时间确定各待预测时间,如,待预测时间可以是预测启动时间、或预测启动时间至预测停止时间之间的随机时间等。
进一步的,可以将待预测时间输入至命令预测模型,进而得到命令预测模型输出的各预测语音交互命令以及各预测语音交互命令的触发概率。其中,预测语音交互命令可以是在待预测时间下用户可能发起的语音交互命令,触发概率可以是在待预测时间下用户发起该预测语音交互命令的概率。
在一种具体的实施方式中,基于待预测时间以及命令预测模型,确定与待预测时间对应的各预测语音交互命令、以及各预测语音交互命令的触发概率,包括:
将待预测时间输入至命令预测模型,以使命令预测模型确定待预测时间对应的各触发功能信息、以及各触发功能信息的触发概率,并根据各触发功能信息确定对应的各预测语音交互命令,输出各预测语音交互命令以及各预测语音交互命令对应的触发概率;其中,命令预测模型基于目标车辆的训练集训练得到,训练集包括:目标车辆的历史交互记录中每一个历史交互命令对应的历史触发时间以及触发功能信息,触发功能信息至少包括触发功能领域。
具体的,用于训练命令预测模型的训练集包括各历史交互命令对应的历史触发时间以及触发功能信息。其中,触发功能信息用于描述历史交互命令所触发的功能的具体信息,触发功能信息至少包括触发功能领域。
示例性的,命令预测模型可以是马尔科夫链或者深度学习的模型,如ATRank(AnAttention-Based User Behavior Modeling Framework for Recommendation,基于注意力机制的用户行为建模框架)网络模型。
进一步的,将待预测时间输入至训练完成的命令预测模型后,命令预测模型可以先根据输入的待预测时间,确定各触发功能信息以及各触发功能信息的触发概率,进而针对每一个触发功能信息,确定触发功能信息对应的预测语音交互命令,最后输出各预测语音交互命令以及各预测语音交互命令对应的触发概率。
在本实施例中,训练集中的触发功能信息还可以包括触发功能领域下的目标操作、目标操作下的槽位以及槽位下的命令参数。示例性的,可以通过对历史交互命令进行语义理解,对历史交互命令作进一步分类,即得到目标操作、槽位以及命令参数。其中,目标操作可以是在触发功能领域下历史交互命令涉及的具体操作,槽位可以是在目标操作下历史交互命令涉及的参数名称,命令参数可以是在槽位下具体填入的参数的具体值。
示例性的,图2为本申请实施例提供的一种历史交互命令的分类示意图,以音乐领域为例,目标操作可以包括查找音乐、随机播放等,槽位可以包括歌手、歌曲、专辑等,命令参数可以是槽位中具体填入的信息,如乐器、版本、年代等,重要的功能领域下还可以具备更丰富的参数。
在本实施例中,训练集中的触发功能信息中的分类越详细,则可以使得训练后的命令预测模型输出越详细的预测语音交互命令,进而使得引导结果更加贴近用户需求。
具体的,命令预测模型可以根据触发功能信息中的触发功能领域、目标操作、槽位以及命令参数,生成对应的预测语音交互命令。如果触发功能信息中的各分类下的信息不完整,如缺少命令参数,则命令预测模型可以随机生成缺失的分类下的信息,如随机生成歌曲名称,进而生成预测语音交互命令。
在上述实施方式中,通过构建由各历史交互命令对应的历史触发时间以及触发功能信息组成的训练集,对命令预测模型进行训练,进而可以使用命令预测模型先确定各触发功能信息和各触发功能信息对应的触发概率,进而根据各触发功能信息确定各预测语音交互命令,最终输出各预测语音交互命令和各预测语音交互命令对应的触发概率,实现了对各命令的准确预测,触发功能信息越详细,则输出的命令越准确。
在本实施例中,如果目标车辆的每一个历史用户均具备对应的命令预测模型,则各命令预测模型的训练集可以包括历史用户的历史交互记录中各历史交互命令对应的历史触发时间以及触发功能信息。
S130、基于各预测语音交互命令的触发概率确定候选命令集,生成候选命令集中的各预测语音交互命令对应的交互引导信息。
具体的,可以通过触发概率对各预测语音交互命令进行排序,进而选取触发概率高的前N个预测语音交互命令构成候选命令集。其中,N可以根据展示交互引导信息的界面大小进行设置,如,为了避免过多的交互引导信息导致占用过多界面资源,N可以设置为5。
在本实施例中,可以预先预测出不同的待预测时间下的预测结果,构建预测结果集合,如,在当前时刻预测出明天的各时间点的预测结果。进一步的,可以在到达待预测时间时,从预测结果集合中召回与待预测时间对应的预测结果,进而根据预测结果中各预测语音交互命令的触发概率确定候选命令集,以实现对预测语音交互命令的推荐。
在一种具体的实施方式中,基于各预测语音交互命令的触发概率确定候选命令集,包括:在检测到目标车辆中的应用被触发的情况下,在各预测语音交互命令中确定与被触发的应用关联的预测语音交互命令;基于与被触发的应用关联的预测语音交互命令的触发概率确定候选命令集。
具体的,在从预测结果集合中召回与待预测时间对应的预测结果后,可以按照触发概率对各预测语音交互命令进行排序,进一步的,检测目标车辆中的应用是否被触发,如果存在被触发的应用,则在排序后的各预测语音交互命令中确定与被触发的应用关联的预测语音交互命令,即需要该被触发的应用响应的各预测语音交互命令,进而选取触发概率高的前N个与被触发的应用关联的预测语音交互命令,构建候选命令集。
通过上述方式,可以为用户推荐与用户当前触发的应用相关联的语音交互命令,以实现根据用户输入展示相应的引导结果,进一步使得引导结果更符合用户当前需求,提高用户对语音交互系统的使用体验。
在另一种具体的实施方式中,基于各预测语音交互命令的触发概率确定候选命令集,包括:按照各预测语音交互命令的触发概率从大到小的顺序进行排序,选取前N1个预测语音交互命令作为第一候选语音交互命令,其中,1≤N1<M,M为预测语音交互命令的总数量;
按照各预测语音交互命令的触发概率从小到大的顺序进行排序,选取前N2个预测语音交互命令作为第二候选语音交互命令;或者,从待推荐功能领域中随机选取N2个待推荐功能作为第二候选语音交互命令,其中,1≤N2<M且N1+ N2<M;
将第一候选语音交互命令和第二候选语音交互命令组合为候选命令集。
即,可以先按照触发概率从大到小的顺序,选取前N1个预测语音交互命令作为第一候选语音交互命令。进一步的,选取后N2个预测语音交互命令,或重新按照触发概率从小到大的顺序进行排序选取前N2个预测语音交互命令,作为第二候选语音交互命令。进而将第一候选语音交互命令和第二候选语音交互命令组合为候选命令集。示例性的,N1可以取3,N2可以取2。
通过该方式,可以实现为用户推荐预测概率高的语音交互命令之外,向用户推荐冷门的语音交互命令,以帮助用户了解冷门的语音交互命令,尽量使各个功能领域均可被用户使用,并且,提高用户的使用体验。
或者,可以选取触发概率大的前N1个预测语音交互命令作为第一候选语音交互命令,并从待推荐功能领域中随机选取N2个待推荐功能作为第二候选语音交互命令,进而将第一候选语音交互命令和第二候选语音交互命令组合为候选命令集。
其中,待推荐功能可以是语音交互系统中新开发的功能,通过该方式,可以实现为用户推荐预测概率高的语音交互命令之外,向用户推荐新开发的功能,以帮助用户及时了解新功能的命令,进一步提高用户的使用体验。
在确定出候选命令集后,进一步的,可以针对候选命令集中的每一个预测语音交互命令,生成对应的交互引导信息。其中,交互引导信息可以是用于推荐用户发起预测语音交互命令的引导信息,如,“您可以尝试对我说:出发去地铁站”。在本实施例中,还可以生成符合用户话术习惯的交互引导信息,以进一步提高用户使用体验。
可选的,生成候选命令集中的各预测语音交互命令对应的交互引导信息,包括:针对候选命令集中的每一个预测语音交互命令,在目标车辆的各历史语音交互命令中,确定与预测语音交互命令相关的候选历史语音交互命令;基于候选历史语音交互命令的语音识别文本,生成候选命令集中的各预测语音交互命令对应的交互引导信息。
具体的,可以从历史语音交互命令中,获取与候选命令集中的预测语音交互命令相关的候选历史语音交互命令,进而根据候选历史语音交互命令的语音识别文本,确定语音模板,通过语音模板生成交互引导信息。
示例性的,候选历史语音交互命令的语音识别文本为:“前往公司”,“前往公园”,则语音模板可以是:“前往-地点”,进一步的,交互引导信息可以是:“您可以尝试对我说:前往地铁站”。
通过上述方式,可以生成符合用户话术习惯的交互引导信息,进一步提高用户体验。
在生成交互引导信息后,进一步的,可以对各交互引导信息进行展示。在本实施例中,可以通过交互界面对各交互引导信息进行展示,如,多媒体屏幕;或者,可以通过语音交互系统播放各交互引导信息。
在一种具体的实施方式中,还包括:对各交互引导信息进行展示;判断是否检测到与各交互引导信息对应的当前语音交互命令;若否,则基于各预测语音交互命令的触发概率确定新的候选命令集,其中,新的候选命令集包括至少一个与候选命令集不同的预测语音交互命令。
即,如果在展示各交互引导信息之后,在设定时间内未检测到用户发起与各交互引导信息对应的当前语音交互命令,则表示本次推荐的候选命令集可能不符合用户需求,此时,可以重新生成与候选命令集不完全相同的新的候选命令集。
例如,在触发概率从大到小的排序结果中,从触发概率高的前N个预测语音交互命令之后,按照触发概率的大小顺序选择N个预测语音交互命令,构成候选命令集。或者,在触发概率从大到小的排序结果中,从触发概率高的前N个预测语音交互命令之后,按照触发概率的大小顺序选择一个预测语音交互命令,用该预测语音交互命令随机替换候选命令集中的一个预测语音交互命令。
通过上述方式,可以在展示各交互引导信息,即向用户推荐候选命令集之后,判断用户是否发起候选命令集中的命令,以便于重新为用户推荐新的候选命令集,进一步使得引导结果更符合用户需求,提高用户体验。
需要说明的是,本实施例中的命令预测模型,可以采用平台采集的大数据进行预训练,进而通过目标车辆的历史交互记录进行训练,并且,在用户使用后还可以根据目标车辆新产生的历史交互记录进行更新。
在一种具体的实施方式中,在判断是否检测到与各交互引导信息对应的当前语音交互命令之后,还包括:
在未检测到与各交互引导信息对应的当前语音交互命令的情况下,确定语音交互引导失败,若目标车辆的语音交互引导失败的次数超过预设次数阈值,则重新对命令预测模型进行训练;和/或,
本实施例提供的方法还包括:在当前时间满足预设更新周期的情况下,重新对命令预测模型进行训练。
即,在每一次展示各交互引导信息之后,可以判断是否检测到各交互引导信息对应的当前语音交互命令,若否,则确定语音交互引导失败,如果语音交互引导失败的次数超过预设次数阈值,则可以重新训练命令预测模型,以提高命令预测模型的预测准确性。
或者,还可以在到达预设更新周期时,根据该段时间内的历史交互记录更新训练命令预测模型。
通过上述方式,可以实现对命令预测模型的更新,以实现根据用户的反馈,对命令预测模型进行主动调整学习,进而提高引导结果的准确性,降低用户对语音交互系统的学习成本。
本申请提供的语音交互的引导方法,通过获取经过训练的目标车辆的命令预测模型,根据确定的待预测时间以及该命令预测模型,确定与该待预测时间对应的各预测语音交互命令、以及各预测语音交互命令的触发概率,进而根据各预测语音交互命令的触发概率确定候选命令集,并生成候选命令集中的各预测语音交互命令对应的交互引导信息,以实现考虑时间因素的语音命令的引导推荐,通过将待预测时间输入至该车辆的命令预测模型中,可以使得预测出的结果与时间相关、且更符合该车辆,进一步满足用户使用需求,解决了现有技术中引导针对性差以及引导量多的问题,提高了用户对语音交互系统的使用体验感,并且,可以实现在不同时间下展示不同引导结果的技术效果,解决了现有技术中引导变化小的问题。
图3为本申请实施例提供的第二种语音交互的引导方法的流程示意图。在上述各实施方式的基础上,对根据待预测时间以及命令预测模型确定预测结果的过程进行了示例性说明。参见图3,该语音交互的引导方法包括如下步骤:
S210、获取经过训练的目标车辆的命令预测模型。
S220、确定待预测时间,将待预测时间以及目标车辆的当前所在地点,输入至命令预测模型,得到命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
具体的,可以对目标车辆进行定位,确定目标车辆的当前所在地点,进而将待预测时间以及当前所在地点一并输入至命令预测模型,得到命令预测模型输出的各预测语音交互命令以及各预测语音交互命令的触发概率。
其中,命令预测模型可以基于目标车辆的训练集训练得到,训练集可以包括各历史交互命令对应的历史触发时间、历史触发地点以及触发功能信息。
示例性的,在目标车辆的所在地点不是常用所在地时,命令预测模型可以根据历史交互命令,学习得到此时输出的导航语音命令的概率较高;或者,在目标车辆的所在地点为公司,且时间为下班时间时,命令预测模型可以根据历史交互命令,学习得到此时输出的音乐播放语音命令的概率较高。
S230、基于各预测语音交互命令的触发概率确定候选命令集,生成候选命令集中的各预测语音交互命令对应的交互引导信息。
本申请提供的语音交互的引导方法,通过将待预测时间以及当前所在地点输入至命令预测模型,以实现考虑时间因素和地点因素的语音命令的引导推荐,使得预测出的结果与时间、地点相关,进一步保证引导结果更符合用户使用需求,提高用户使用体验。
图4为本申请实施例提供的第三种语音交互的引导方法的流程示意图。在上述各实施方式的基础上,对根据待预测时间以及命令预测模型确定预测结果的过程进行了示例性说明。参见图4,该语音交互的引导方法包括如下步骤:
S310、获取经过训练的目标车辆的命令预测模型。
S320、确定待预测时间,将待预测时间以及目标车辆的各当前乘车人员的人员标识,输入至命令预测模型,得到命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
其中,各当前乘车人员可以是除驾驶员之外的其它乘车人员,也可以是包含驾驶员在内的乘车人员。例如,若获取到的命令预测模型是与驾驶员对应的命令预测模型,则各当前乘车人员可以是除驾驶员之外的其它乘车人员。
具体的,可以采集目标车辆的各当前乘车人员的面部图像,进而通过各面部图像确定各人员标识,进一步的,将待预测时间以及各人员标识一并输入至命令预测模型,得到命令预测模型输出的各预测语音交互命令以及各预测语音交互命令的触发概率。示例性的,可以通过与各个乘车位置相对应的摄像头,采集各个乘车位置上的当前乘车人员的面部图像。
其中,命令预测模型可以基于目标车辆的训练集训练得到,训练集可以包括各历史交互命令对应的历史触发时间、历史人员标识以及触发功能信息。
示例性的,在目标车辆的人员标识包括儿童,且时间为上班时间时,命令预测模型可以根据历史交互命令,学习得到此时输出的导航至学校的语音命令的概率较高。
S330、基于各预测语音交互命令的触发概率确定候选命令集,生成候选命令集中的各预测语音交互命令对应的交互引导信息。
本申请提供的语音交互的引导方法,通过将待预测时间以及各当前乘车人员的人员标识输入至命令预测模型,以实现考虑时间因素和乘车人员因素的语音命令的引导推荐,使得预测出的结果与时间、乘车人员相关,进一步保证引导结果更符合用户使用需求,提高用户使用体验。
图5为本申请实施例提供的第四种语音交互的引导方法的流程示意图。在上述各实施方式的基础上,对根据待预测时间以及命令预测模型确定预测结果的过程进行了示例性说明。参见图5,该语音交互的引导方法包括如下步骤:
S410、获取经过训练的目标车辆的命令预测模型。
S420、确定待预测时间,获取预设推荐功能领域,将待预测时间以及预设推荐功能领域输入至命令预测模型,得到命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
其中,预设推荐功能领域可以是预先设置的重点推荐的功能领域,如音乐领域、车设车控领域等。
具体的,可以将待预测时间以及预设推荐功能领域一并输入至命令预测模型,使得命令预测模型根据待预测时间以及预设推荐功能领域,输出各预测语音交互命令以及各预测语音交互命令的触发概率。其中,命令预测模型可以基于目标车辆的训练集训练得到,训练集可以包括各历史交互命令对应的历史触发时间、预设推荐功能领域以及触发功能信息。
或者,可以将待预测时间以及预设推荐功能领域一并输入至命令预测模型,使得命令预测模型根据待预测时间,输出各预测语音交互命令以及各预测语音交互命令的触发概率,进而根据预设推荐功能领域,对各预测语音交互命令的触发概率进行调整,如,增加与预设推荐功能领域相关的预测语音交互命令的触发概率。
S430、基于各预测语音交互命令的触发概率确定候选命令集,生成候选命令集中的各预测语音交互命令对应的交互引导信息。
本申请提供的语音交互的引导方法,通过将待预测时间以及预设推荐功能领域输入至命令预测模型,可以结合时间因素以及需要推荐的功能领域,确定引导结果,可以使得引导结果既满足该时间下用户的需求,又符合需要推荐的功能领域,进一步保证了引导结果的正确性。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种语音交互的引导装置。图6为本申请实施例提供的一种语音交互的引导装置的结构示意图。参考图6,所述语音交互的引导装置,包括模型获取模块610、命令预测模块620以及命令推荐模块630:
模型获取模块610,用于获取经过训练的目标车辆的命令预测模型;
命令预测模块620,用于确定待预测时间,基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率;
命令推荐模块630,用于基于各所述预测语音交互命令的触发概率确定候选命令集,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息。
可选的,所述模型获取模块610,具体用于:
获取所述目标车辆的驾驶员的当前面部图像,基于所述当前面部图像,从各历史用户对应的命令预测模型中,获取与所述驾驶员对应的命令预测模型作为所述目标车辆的命令预测模型。
可选的,所述命令预测模块620,还用于:
将所述待预测时间输入至所述命令预测模型,以使所述命令预测模型确定所述待预测时间对应的各触发功能信息、以及各触发功能信息的触发概率,并根据各所述触发功能信息确定对应的各预测语音交互命令,输出各预测语音交互命令以及各所述预测语音交互命令对应的触发概率;其中,所述命令预测模型基于所述目标车辆的训练集训练得到,所述训练集包括:所述目标车辆的历史交互记录中每一个历史交互命令对应的历史触发时间以及触发功能信息,所述触发功能信息至少包括触发功能领域。
可选的,所述命令预测模块620,还用于:
将所述待预测时间以及所述目标车辆的当前所在地点,输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率;或者,将所述待预测时间以及所述目标车辆的各当前乘车人员的人员标识,输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
可选的,所述命令预测模块620,还用于:
获取预设推荐功能领域;将所述待预测时间以及所述预设推荐功能领域输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
可选的,所述命令推荐模块630,还用于:
按照各所述预测语音交互命令的触发概率从大到小的顺序进行排序,选取前N1个预测语音交互命令作为第一候选语音交互命令,其中,1≤N1<M,M为预测语音交互命令的总数量;
按照各所述预测语音交互命令的触发概率从小到大的顺序进行排序,选取前N2个预测语音交互命令作为第二候选语音交互命令;或者,从待推荐功能领域中随机选取N2个待推荐功能作为所述第二候选语音交互命令,其中,1≤N2<M且N1+ N2<M;
将所述第一候选语音交互命令和所述第二候选语音交互命令组合为所述候选命令集。
可选的,所述命令推荐模块630,还用于:
在检测到所述目标车辆中的应用被触发的情况下,在各所述预测语音交互命令中确定与所述被触发的应用关联的预测语音交互命令;基于与所述被触发的应用关联的预测语音交互命令的触发概率确定所述候选命令集。
可选的,所述命令推荐模块630,还用于:
针对所述候选命令集中的每一个所述预测语音交互命令,在所述目标车辆的各历史语音交互命令中,确定与所述预测语音交互命令相关的候选历史语音交互命令;基于所述候选历史语音交互命令的语音识别文本,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息。
可选的,所述命令推荐模块630,还用于:
对各所述交互引导信息进行展示;判断是否检测到与各所述交互引导信息对应的当前语音交互命令;若否,则基于各所述预测语音交互命令的触发概率确定新的候选命令集,其中,所述新的候选命令集包括至少一个与所述候选命令集不同的预测语音交互命令。
可选的,所述装置还包括模型更新模块,所述模型更新模块,用于在未检测到与各所述交互引导信息对应的当前语音交互命令的情况下,确定语音交互引导失败,若所述目标车辆的语音交互引导失败的次数超过预设次数阈值,则重新对所述命令预测模型进行训练;和/或,在当前时间满足预设更新周期的情况下,重新对所述命令预测模型进行训练。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的语音交互的引导方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的语音交互的引导方法。
图7为本申请实施例提供的一种电子设备的结构示意图,参见图7,展示了更为具体的电子设备硬件结构, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的语音交互的引导方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种车辆,所述车辆包括任一实施例所述的电子设备。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的语音交互的引导方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的语音交互的引导方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种语音交互的引导方法,其特征在于,包括:
获取经过训练的目标车辆的命令预测模型;
确定待预测时间,基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率;
基于各所述预测语音交互命令的触发概率确定候选命令集,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息。
2.根据权利要求1所述的方法,其特征在于,所述获取经过训练的目标车辆的命令预测模型,包括:
获取所述目标车辆的驾驶员的当前面部图像,基于所述当前面部图像,从各历史用户对应的命令预测模型中,获取与所述驾驶员对应的命令预测模型作为所述目标车辆的命令预测模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率,包括:
将所述待预测时间输入至所述命令预测模型,以使所述命令预测模型确定所述待预测时间对应的各触发功能信息、以及各触发功能信息的触发概率,并根据各所述触发功能信息确定对应的各预测语音交互命令,输出各预测语音交互命令以及各所述预测语音交互命令对应的触发概率;
其中,所述命令预测模型基于所述目标车辆的训练集训练得到,所述训练集包括:所述目标车辆的历史交互记录中每一个历史交互命令对应的历史触发时间以及触发功能信息,所述触发功能信息至少包括触发功能领域。
4.根据权利要求1所述的方法,其特征在于,所述基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率,包括:
将所述待预测时间以及所述目标车辆的当前所在地点,输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率;或者,
将所述待预测时间以及所述目标车辆的各当前乘车人员的人员标识,输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
5.根据权利要求1所述的方法,其特征在于,所述基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率,包括:
获取预设推荐功能领域;
将所述待预测时间以及所述预设推荐功能领域输入至所述命令预测模型,得到所述命令预测模型输出的各预测语音交互命令、以及各预测语音交互命令的触发概率。
6.根据权利要求1所述的方法,其特征在于,所述基于各所述预测语音交互命令的触发概率确定候选命令集,包括:
在检测到所述目标车辆中的应用被触发的情况下,在各所述预测语音交互命令中确定与所述被触发的应用关联的预测语音交互命令;
基于与所述被触发的应用关联的预测语音交互命令的触发概率确定所述候选命令集。
7.根据权利要求1所述的方法,其特征在于,所述基于各所述预测语音交互命令的触发概率确定候选命令集,包括:
按照各所述预测语音交互命令的触发概率从大到小的顺序进行排序,选取前N1个预测语音交互命令作为第一候选语音交互命令,其中,1≤N1<M,M为预测语音交互命令的总数量;
按照各所述预测语音交互命令的触发概率从小到大的顺序进行排序,选取前N2个预测语音交互命令作为第二候选语音交互命令;或者,从待推荐功能领域中随机选取N2个待推荐功能作为所述第二候选语音交互命令,其中,1≤N2<M且N1+ N2<M;
将所述第一候选语音交互命令和所述第二候选语音交互命令组合为所述候选命令集。
8.根据权利要求1所述的方法,其特征在于,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息,包括:
针对所述候选命令集中的每一个所述预测语音交互命令,在所述目标车辆的各历史语音交互命令中,确定与所述预测语音交互命令相关的候选历史语音交互命令;
基于所述候选历史语音交互命令的语音识别文本,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息。
9.根据权利要求1所述的方法,其特征在于,还包括:
对各所述交互引导信息进行展示;
判断是否检测到与各所述交互引导信息对应的当前语音交互命令;
若否,则基于各所述预测语音交互命令的触发概率确定新的候选命令集,其中,所述新的候选命令集包括至少一个与所述候选命令集不同的预测语音交互命令。
10.根据权利要求9所述的方法,其特征在于,在判断是否检测到与各所述交互引导信息对应的当前语音交互命令之后,还包括:
在未检测到与各所述交互引导信息对应的当前语音交互命令的情况下,确定语音交互引导失败,若所述目标车辆的语音交互引导失败的次数超过预设次数阈值,则重新对所述命令预测模型进行训练;和/或,
所述方法还包括:
在当前时间满足预设更新周期的情况下,重新对所述命令预测模型进行训练。
11.一种语音交互的引导装置,其特征在于,包括:
模型获取模块,用于获取经过训练的目标车辆的命令预测模型;
命令预测模块,用于确定待预测时间,基于所述待预测时间以及所述命令预测模型,确定与所述待预测时间对应的各预测语音交互命令、以及各所述预测语音交互命令的触发概率;
命令推荐模块,用于基于各所述预测语音交互命令的触发概率确定候选命令集,生成所述候选命令集中的各预测语音交互命令对应的交互引导信息。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至10任意一项所述的方法。
13.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至10任一所述方法。
14.一种车辆,其特征在于,包括如权利要求12所述的电子设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310458714.6A CN116168704B (zh) | 2023-04-26 | 2023-04-26 | 语音交互的引导方法、装置、设备、介质及车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310458714.6A CN116168704B (zh) | 2023-04-26 | 2023-04-26 | 语音交互的引导方法、装置、设备、介质及车辆 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116168704A true CN116168704A (zh) | 2023-05-26 |
CN116168704B CN116168704B (zh) | 2023-07-18 |
Family
ID=86416797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310458714.6A Active CN116168704B (zh) | 2023-04-26 | 2023-04-26 | 语音交互的引导方法、装置、设备、介质及车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116168704B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200005778A1 (en) * | 2018-06-27 | 2020-01-02 | Hyundai Motor Company | Dialogue system, vehicle and method for controlling the vehicle |
CN111028842A (zh) * | 2019-12-10 | 2020-04-17 | 上海芯翌智能科技有限公司 | 触发语音交互响应的方法及设备 |
CN111105800A (zh) * | 2019-12-26 | 2020-05-05 | 百度在线网络技术(北京)有限公司 | 语音交互处理方法、装置、设备和介质 |
CN112164400A (zh) * | 2020-09-18 | 2021-01-01 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN113409785A (zh) * | 2021-06-30 | 2021-09-17 | 中国第一汽车股份有限公司 | 基于车辆的语音交互方法、装置、车辆和存储介质 |
CN114247141A (zh) * | 2021-11-09 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 虚拟场景中任务引导方法、装置、设备、介质及程序产品 |
CN114730325A (zh) * | 2019-12-13 | 2022-07-08 | 谷歌有限责任公司 | 确定用于触发相关内容界面通知的提供的动态交互条件 |
CN115662400A (zh) * | 2022-10-26 | 2023-01-31 | 长城汽车股份有限公司 | 车机语音交互数据的处理方法、装置、设备及存储介质 |
-
2023
- 2023-04-26 CN CN202310458714.6A patent/CN116168704B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200005778A1 (en) * | 2018-06-27 | 2020-01-02 | Hyundai Motor Company | Dialogue system, vehicle and method for controlling the vehicle |
CN111028842A (zh) * | 2019-12-10 | 2020-04-17 | 上海芯翌智能科技有限公司 | 触发语音交互响应的方法及设备 |
CN114730325A (zh) * | 2019-12-13 | 2022-07-08 | 谷歌有限责任公司 | 确定用于触发相关内容界面通知的提供的动态交互条件 |
CN111105800A (zh) * | 2019-12-26 | 2020-05-05 | 百度在线网络技术(北京)有限公司 | 语音交互处理方法、装置、设备和介质 |
CN112164400A (zh) * | 2020-09-18 | 2021-01-01 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN113409785A (zh) * | 2021-06-30 | 2021-09-17 | 中国第一汽车股份有限公司 | 基于车辆的语音交互方法、装置、车辆和存储介质 |
CN114247141A (zh) * | 2021-11-09 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 虚拟场景中任务引导方法、装置、设备、介质及程序产品 |
CN115662400A (zh) * | 2022-10-26 | 2023-01-31 | 长城汽车股份有限公司 | 车机语音交互数据的处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116168704B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lo et al. | Development and evaluation of automotive speech interfaces: useful information from the human factors and the related literature | |
RU2494476C2 (ru) | Способ и система для предоставления речевого интерфейса | |
CN109841212B (zh) | 分析具有多个意图的命令的语音识别系统和语音识别方法 | |
US11200892B1 (en) | Speech-enabled augmented reality user interface | |
CN103810995B (zh) | 用于语音系统的调节方法和系统 | |
CN104123936A (zh) | 对话系统自动训练方法、对话系统及用于车辆的控制装置 | |
US11043216B2 (en) | Voice feedback for user interface of media playback device | |
US20190340201A1 (en) | Computerized domain expert | |
CN109920410B (zh) | 用于基于车辆的环境确定推荐的可靠性的装置和方法 | |
CN104335234A (zh) | 用于将第三方服务与数字助理相结合的系统和方法 | |
US10586528B2 (en) | Domain-specific speech recognizers in a digital medium environment | |
US11501755B2 (en) | Apparatus and method for providing voice assistant service | |
CN103999152A (zh) | 利用动态语法元素集的语音识别 | |
CN105719648B (zh) | 个性化无人车交互方法及无人车 | |
CN110211589B (zh) | 车载系统的唤醒方法、装置以及车辆、机器可读介质 | |
US20130325483A1 (en) | Dialogue models for vehicle occupants | |
CN111916088B (zh) | 一种语音语料的生成方法、设备及计算机可读存储介质 | |
CN111414512A (zh) | 一种基于语音搜索的资源推荐方法、装置及电子设备 | |
Hind | Dashboard design and the ‘datafied’driving experience | |
CN116168704B (zh) | 语音交互的引导方法、装置、设备、介质及车辆 | |
CN111261149B (zh) | 语音信息识别方法和装置 | |
US11620994B2 (en) | Method for operating and/or controlling a dialog system | |
CN115905734A (zh) | 一种基于地理位置信息进行智能推荐的方法及装置 | |
CN113779300B (zh) | 语音输入引导方法、装置和车机 | |
WO2021254838A1 (en) | Driving companion comprising a natural language understanding system and method for training the natural language understanding system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |