CN113990298B - 语音交互方法及其装置、服务器和可读存储介质 - Google Patents

语音交互方法及其装置、服务器和可读存储介质 Download PDF

Info

Publication number
CN113990298B
CN113990298B CN202111593401.9A CN202111593401A CN113990298B CN 113990298 B CN113990298 B CN 113990298B CN 202111593401 A CN202111593401 A CN 202111593401A CN 113990298 B CN113990298 B CN 113990298B
Authority
CN
China
Prior art keywords
intention
precision
voice
preset
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111593401.9A
Other languages
English (en)
Other versions
CN113990298A (zh
Inventor
王亭玉
张天宇
宁洪珂
潘晓彤
赵恒艺
赵群
樊骏锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202111593401.9A priority Critical patent/CN113990298B/zh
Publication of CN113990298A publication Critical patent/CN113990298A/zh
Application granted granted Critical
Publication of CN113990298B publication Critical patent/CN113990298B/zh
Priority to PCT/CN2022/138930 priority patent/WO2023116523A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice

Abstract

本发明公开了一种语音交互方法及其装置、服务器和可读存储介质。该语音交互方法包括:对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能;利用意图识别模型对待识别文本进行意图识别;利用精度识别模型对待识别文本进行精度识别;根据意图识别的结果和精度识别的结果,确定语音请求对应的目标意图和目标刻度调节精度值;根据目标意图和目标刻度调节精度值修改默认值,默认值为预设语音请求中目标意图对应的调节值;将目标意图和修改后的默认值融合生成控制指令,以控制对应的车辆零部件。本发明可以根据用户精简语音请求精准调节与语音请求相对应的车辆零部件的刻度,提升用户体验。

Description

语音交互方法及其装置、服务器和可读存储介质
技术领域
本发明涉及语音技术领域,特别涉及一种语音交互方法及其装置、服务器和可读存储介质。
背景技术
目前在智能汽车场景中,存在着语音交互可以实现用户对车辆零部件设备的控制。
在用户精简指令需求下,目前的技术方案逻辑中,在“音量大大大”的语音请求下,意图识别为“system_volume_up”,意图对应默认值为1个档位(例如对应3个小刻度),则车辆执行“音量增大1个刻度”的命令,这与“音量增大”,“音量大一点”等非精度的语音请求实现逻辑相同,这显然与用户期望的提高三个档位不符。在“音量大大大大大大大”多个大的精简指令下,意图识别为“system_volume_max”,该意图下对应默认值为最高档位(最大刻度),则车辆执行“音量设置为最大刻度”的命令,这显然与用户期望的提高7个档位不符。
上述两种语音请求在目前的技术方案中均不能实现根据用户下达的精简词语音请求执行精确的控制指令,用户体验不佳。
发明内容
本发明实施方式提供一种语音交互方法及其装置、服务器和可读存储介质。
本发明实施方式提供一种语音交互方法。语音交互方法包括:对车辆预设功能调节的语音请求进行语音识别得到待识别文本,所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能;利用意图识别模型对所述待识别文本进行意图识别;利用精度识别模型对所述待识别文本进行精度识别;根据所述意图识别的结果确定所述语音请求对应的目标意图,和根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值;根据所述目标意图和所述目标刻度调节精度值修改默认值,所述默认值为预设语音请求中所述目标意图对应的调节值;将所述目标意图和修改后的所述默认值融合生成控制指令,以控制对应的车辆零部件。
如此,本发明的语音交互方法可以先对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能。然后利用意图识别模型对待识别文本进行意图识别,且利用精度识别模型对待识别文本进行精度识别,识别出语音请求对应的目标意图和目标刻度调节精度值,然后对默认值进行修改,从而在融合语音请求传统逻辑的情况下,实现根据用户精简语音请求精准调节与语音请求相对应的车辆零部件的刻度的效果,提升用户体验。
所述语音交互方法包括:通过意图训练数据训练得到所述意图识别模型,所述意图训练数据与车辆零部件和所述车辆零部件的可调节范围相关。
如此,本发明的语音交互方法可以通过意图训练数据训练得到意图识别模型,根据意图识别模型进行意图识别,可以实现精确识别用户指令的意图。
所述语音交互方法包括:通过精度训练数据训练得到所述精度识别模型,所述精度训练数据与所述车辆零部件、所述车辆零部件的可调节范围和所述车辆零部件的刻度调节精度范围相关。
如此,根据精度识别模型对待识别文本进行精度识别,可以确定语音请求对应的刻度调节精度。
所述语音交互方法包括:确定所述车辆零部件的控制范围及非控制范围。
如此,确认可通过车辆零部件进行刻度调节的功能,从而确定车辆零部件的控制范围,也即是可通过语音交互进行刻度调节的控制范围。
所述语音交互方法包括:确定每个所述车辆零部件的默认调节范围。
如此,本发明的语音交互方法可以确定每个车辆零部件的默认调节范围,从而为实现车辆零部件的精度精准调节奠定基础。
所述语音交互方法包括:确定所述车辆零部件的可调节范围;根据所述车辆零部件的可调节范围,纠正所述预设语音请求的意图。
如此,本发明的语音交互方法可以在确定车辆零部件的可调节范围后,根据车辆零部件的可调节范围纠正预设语音请求的意图,从而达到用户指令中真正的精确调节的目的。
所述语音交互方法包括:将所述控制范围和所述可调节范围映射到预设意图和对应的预设刻度调节精度值。
如此,本发明的语音交互方法可以将控制范围和可调节范围映射到预设意图和对应的预设刻度调节精度值,从而可以实现精确调节车辆零部件的精度。
所述语音交互方法包括:根据所述预设意图和所述默认调节范围,建立意图与默认值映射表。
如此,本发明通过建立意图和默认值的映射表,可以使得语音请求的意图与默认值一一对应,便于后续修改该默认值。
所述根据所述目标意图和所述目标刻度调节精度值修改默认值,包括:根据所述目标意图和所述意图与默认值映射表确定所述默认值;根据所述目标刻度调节精度值修改所述默认值。
如此,本发明可以根据目标意图和意图与默认值映射表确定默认值,从而根据目标刻度调节精度值修改该默认值,从而达到纠正用户意图的效果,以精确调节车辆零部件的刻度。
所述将所述控制范围和所述可调节范围映射到预设意图和对应的预设刻度调节精度值,包括:将所述控制范围内每个所述可调节范围,映射到一个所述预设意图,每个所述预设意图对应多个预设刻度调节精度值。
如此,在语音交互过程中,使得对于同一车辆零部件不同调节刻度的语音请求都对应到相同的预设意图,从而为后续识别用户意图对应调节的刻度奠定基础。
所述将所述控制范围和所述可调节范围映射到预设意图和对应的预设刻度调节精度值,包括:将精简词设置为槽位,对所述车辆零部件对应的预设识别文本进行槽位提取得到重复字段;对重复字段的槽值进行重复统计得到重复数量;根据所述精简词可调节的范围将所述重复数量映射到所述预设意图对应的所述预设刻度调节精度值。
如此,可以对抽取出的重复字段的槽值进行重复统计得到重复数量,将其重复数量映射到预设意图及预设刻度调节精度值,从而实现根据精简词精准调节用户需要的车辆零部件的刻度。
所述预设意图为多个,所述根据所述意图识别的结果确定所述语音请求对应的目标意图,包括:获取所述意图识别的结果对应各个预设意图的意图判别概率;将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述语音请求对应的目标意图。
如此,可以获取意图识别的结果对应各个预设意图的意图判别概率,将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图,从而实现准确识别调节车辆零部件的用户意图的需求。
所述预设意图包括:音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。
如此,设置了多种预设意图可以进一步为识别用户的语音交互意图奠定基础,完善可能遇到的语音交互场景。
所述根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值,包括:获取所述精度识别的结果对应各个预设刻度调节精度值的精度判别概率;将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度值,确定为所述语音请求对应的目标刻度调节精度值。
如此,本发明的语音交互方法可以获取精度识别的结果对应各个预设刻度调节精度值的精度判别概率,确定精度判别概率大于第二概率阈值的预设刻度调节精度值为目标刻度调节精度值,从而进行精确的刻度调节。
本发明还提供一种语音交互装置。所述语音交互装置包括语音识别模块、意图识别模块、精度识别模块、确定模块、修改模块和指令生成模块。所述语音识别模块用于对车辆预设功能调节的语音请求进行语音识别得到待识别文本,所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能;所述意图识别模块用于利用意图识别模型对所述待识别文本进行意图识别;所述精度识别模块用于利用精度识别模型对所述待识别文本进行精度识别;所述确定模块用于根据所述意图识别的结果确定所述语音请求对应的目标意图,和根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值;所述修改模块用于根据所述目标意图和所述目标刻度调节精度值修改默认值,所述默认值为预设语音请求中所述目标意图对应的调节值;所述指令生成模块用于将所述目标意图和修改后的所述默认值融合生成控制指令,以控制对应的车辆零部件。
如此,本发明的语音交互装置可以先对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能。然后利用意图识别模型对待识别文本进行意图识别,且利用精度识别模型对待识别文本进行精度识别,识别出语音请求对应的目标意图和目标刻度调节精度值,然后对于默认值进行修改,从而在融合语音请求传统逻辑的情况下,实现根据用户精简语音请求精准调节与语音请求相对应的车辆零部件的刻度的效果,提升用户体验。
本发明还提供一种服务器。所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述任意一项实施方式所述的语音交互方法。
如此,本发明的车辆可以先对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能。然后利用意图识别模型对待识别文本进行意图识别,且利用精度识别模型对待识别文本进行精度识别,识别出语音请求对应的目标意图和目标刻度调节精度值,然后对于默认值进行修改,从而在融合语音请求传统逻辑的情况下,实现根据用户精简语音请求精准调节与语音请求相对应的车辆零部件的刻度的效果,提升用户体验。
本发明实施方式还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时,实现上述任意一项实施方式所述的语音交互方法。
如此,本发明的计算机可读存储介质可以先对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能。然后利用意图识别模型对待识别文本进行意图识别,且利用精度识别模型对待识别文本进行精度识别,识别出语音请求对应的目标意图和目标刻度调节精度值,然后对于默认值进行修改,从而在融合语音请求传统逻辑的情况下,实现根据用户精简语音请求精准调节与语音请求相对应的车辆零部件的刻度的效果,提升用户体验。
本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明的语音交互方法的流程示意图之一;
图2是本发明的语音交互装置的结构示意图之一;
图3是本发明的语音交互方法的流程示意图之二;
图4是本发明的语音交互装置的结构示意图之二;
图5是本发明的语音交互方法的流程示意图之三;
图6是本发明的语音交互方法的流程示意图之四;
图7是本发明的语音交互方法的流程示意图之五;
图8是本发明的语音交互方法的流程示意图之六;
图9是本发明的语音交互装置的结构示意图之三;
图10是本发明的语音交互方法的流程示意图之七;
图11是本发明的语音交互装置的结构示意图之四;
图12是本发明的语音交互方法的流程示意图之八;
图13是本发明的语音交互装置中第一确定模块的结构示意图之一;
图14是本发明的语音交互方法的流程示意图之九;
图15是本发明的语音交互装置中第一确定模块的结构示意图之二;
图16是本发明的语音交互方法的流程示意图之十;
图17是本发明的语音交互装置中修改模块的结构示意图;
图18是本发明的服务器的结构示意图;
图19是本发明的计算机可读存储介质的结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
请参阅图1,本发明提供了一种语音交互方法。该语音交互方法包括:
01:对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能;
02:利用意图识别模型对待识别文本进行意图识别;
03:利用精度识别模型对待识别文本进行精度识别;
04:根据意图识别的结果确定语音请求对应的目标意图,和根据精度识别的结果确定语音请求对应的目标刻度调节精度值;
05:根据目标意图和目标刻度调节精度值修改默认值,默认值为预设语音请求中目标意图对应的调节值;
06:将目标意图和修改后的默认值融合生成控制指令,以控制对应的车辆零部件。
请参阅图2,本发明还提供一种语音交互装置10。语音交互装置10包括:语音识别模块11、意图识别模块12、精度识别模块13、第一确定模块14、修改模块15和指令生成模块16。
步骤01可以由语音识别模块11实现,步骤02可以由意图识别模块12实现,步骤03可以由精度识别模块13实现,步骤04可以由第一确定模块14实现,步骤05可以由修改模块15实现,步骤06可以由指令生成模块16实现。也即是说,语音识别模块11用于对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能;意图识别模块12用于利用意图识别模型对待识别文本进行意图识别;精度识别模块13用于利用精度识别模型对待识别文本进行精度识别;第一确定模块14用于根据意图识别的结果确定语音请求对应的目标意图,和根据精度识别的结果确定语音请求对应的目标刻度调节精度值;修改模块15用于根据目标意图和目标刻度调节精度值修改默认值,默认值为预设语音请求中目标意图对应的调节值;指令生成模块16用于将目标意图和修改后的默认值融合生成控制指令,以控制对应的车辆零部件。
车辆预设功能调节的语音请求例如可以为“屏幕亮亮亮”、“音量大大大”、“屏幕亮亮亮亮”、“空调风量大大大”、“座椅后后后”,即为带有精简词的语音请求。其中,预设功能指模拟对车辆零部件的操作进行刻度调节的功能,其中的车辆零部件可以指机械旋钮或按钮等部件,这些是可以进行调节刻度的车辆零部件。
首先,在接收到用户对于车辆预设功能调节的语音请求后,通过语音识别技术进行语音识别,得到待识别文本以便后续处理,例如,对用户输入的语音请求“屏幕亮亮亮”进行语音识别,得到待识别文本“屏幕亮亮亮”。
可以理解地,在实际交互环境中,可能受车辆硬件限制,或者因为网络的不稳定性,用户表述口语化或者方言化等原因,导致语音识别后得到的待识别文本不够清晰准确,需要通过预处理进行一些常规文本纠错,比如“音量深深深深深”纠正为“音量增增增增增”,以及一些无意义词语的去除等,比如“啊”,“请”等。
接着,利用意图识别模型对待识别文本进行意图识别,利用精度识别模型对待识别文本进行精度识别。待识别文本经过意图识别和精度识别可以确定用户的意图和精度。
然后,根据意图识别的结果和精度识别的结果,确定语音请求对应的目标意图和目标刻度调节精度值。例如,根据意图识别的结果确定语音请求对应的目标意图和目标刻度调节精度值。例如,根据语音请求“屏幕亮亮亮”意图识别的结果确定对应的目标意图为调亮车载内屏幕的显示亮度,语音请求“屏幕亮亮亮”对应的目标刻度调节精度值为3,表示亮度调亮3个档次。
接着,根据目标意图和目标刻度调节精度值修改默认值,默认值为预设语音请求中目标意图对应的调节值。
其中,可以理解地,目前技术方案的传统逻辑中,在“音量大大大”的语音请求下,意图根据传统逻辑识别为“system_volume_up”,该意图每次默认调节3个刻度,对应默认值为3,则车辆执行“音量增大3个刻度”的命令,这与“音量增大”,“音量大一点”等非精度的语音请求实现逻辑相同。“音量大大大大大大大”多个大的精简语音请求下,意图识别为“system_volume_max”,该意图下对应默认值为最高档位或最大刻度,则车辆执行“音量设置为最大刻度”的命令。
也即是,默认值为根据原先的逻辑确认的预设语音请求中的目标意图对应的调节值。其中,预设语音请求可以指的是“音量增大”、“音量减小”等用户语音请求。按照传统的识别逻辑,“音量增大”的目标意图对应的调节值为调高1次,即该默认值可以对应每次调节的具体刻度值,例如对应3个小刻度。按照传统的识别逻辑,“音量减小”的目标意图对应的调节值为调低1次,即该默认值对应可以为3个小刻度。即,此时的默认值为:default value=3。
而在对精简指令进行精度识别的精度逻辑下,“音量大大大”的语音请求,用户意图为“音量调大”,且用户期望的音量调节3次,在每次调节的默认值为3的情况下,用户实际想要音量调节9个刻度不同,也就是说,在对精简指令进行精度识别的精度逻辑下,“音量大大大”的语音请求,表示的是用户想要调大音量9个刻度。对应的,“音量大大大大大大大”多个大的精简语音请求下,用户的意图为音量调大,且刻度调节精度值为7,即音量调节7次,最终用户想要将音量调大27个刻度。
如此,在保持传统逻辑通过默认值进行调节的情况下,利用精度逻辑中识别的目标刻度调节精度值对传统逻辑的默认值进行修改,从而实现传统逻辑和精度逻辑共同作用下车辆零部件的精确控制。
例如,用户指令“音量大大大”对应的目标意图为将音量调大,在识别目标刻度调节精度的情况下,可识别到目标刻度调节精度值为3,即将音量调大3次,而根据则修改默认值得到修改后的调节刻度:default_value’=刻度值*default_value=3*3=9。根据用户的语音请求提高3次的需求,将默认值修改为9。即在新增根据带有精简词的语音请求进行控制车辆零部件进行精确调节的需求下,本发明的语音交互方法完全不会破坏原有非精度语音请求的实现逻辑,在传统逻辑框架下实现了根据带有精简词的语音请求进行控制车辆零部件进行精确调节的功能。
最后,将目标意图和修改后的默认值融合生成控制指令,以控制对应的车辆零部件。
如此,本发明的语音交互方法及其装置可以先对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能。然后利用意图识别模型对待识别文本进行意图识别,且利用精度识别模型对待识别文本进行精度识别,识别出语音请求对应的目标意图和目标刻度调节精度值,然后对于默认值进行修改,从而在融合语音请求传统逻辑的情况下,实现根据用户精简语音请求精确调节与语音请求对应的车辆零部件的刻度的效果,提升用户体验。
请参阅图3,语音交互方法包括:
001:确定车辆零部件控制范围及非控制范围。
请结合图4,语音交互装置10还包括第二确定模块101。
步骤001可以由第二确定模块101实现。可以理解地,第二确定模块101用于确定车辆零部件的控制范围及非控制范围。
可以理解地,车辆并非所有功能的调节都可以、能够或有需要进行精准的刻度调节。例如,座椅在各个方向上的移动可以通过车辆零部件进行调节。而车门则没有类似旋钮、按键等车辆零部件来实现刻度调节,而通常仅通过车门把手进行开关。因此,座椅调节是属于车辆零部件的控制范围、而车门调节则属于车辆零部件的非控制范围。
获取车辆零部件的信息,根据车辆零部件的信息,确定可通过车辆零部件进行刻度调节的硬件,确定为车辆零部件的控制范围,将不可通过车辆零部件进行调节的硬件确定为非控制范围。
首先,确定在车辆上可以进行刻度调节的车辆零部件,例如:“音量旋钮”,“屏幕亮度按钮”,“空调风量旋钮/按钮”,“座椅调节旋钮/按钮”等。进一步,确定车辆零部件的控制范围可包括:车载音响、车辆内的屏幕、车辆空调、车辆座椅、车内的氛围灯、车辆外部的车灯、或车窗等。车辆零部件的非控制范围可包括:车门、后视镜、后备箱等。
在后续语音交互的过程中,可在语音请求针对车辆零部件的非控制范围的情况下进行语音提示。
如此,通过收集车辆零部件信息,确认可通过车辆零部件进行刻度调节的功能,从而确定车辆零部件的控制范围,也即是可通过语音交互进行刻度调节的控制范围。
语音交互方法包括:
002:确定每个车辆零部件的默认调节范围。
步骤002可以由第二确定模块101实现。也即是,第二确定模块101用于确定每个车辆零部件的默认调节范围。
确定某个车辆零部件下的默认调节范围。例如,当需要调节的设备为车载音响时,语音请求模拟车辆零部件控制音量每次调节的默认值可以为3,若对应的调节音量的车辆零部件共有60个刻度,则默认调节范围为1~20。
语音交互方法包括:
003:确定车辆零部件的可调节范围;
004:根据车辆零部件的可调节范围,纠正预设语音请求的意图。
语音交互装置10还包括纠正模块102。
步骤003可以由第二确定模块101实现,步骤004可以由纠正模块102实现。也即是,第二确定模块101用于确定车辆零部件的可调节范围;纠正模块102用于根据车辆零部件的可调节范围,纠正预设语音请求的意图。
可以理解,在确定车辆零部件的控制范围和非控制范围后,需要针对控制范围中的每一个车辆零部件确定可调节范围。车辆零部件的可调节范围与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件,可调节范围可以是档位或量程。例如,屏幕亮度按钮累计连续按压5次,屏幕亮度依次调整1至5个档位的亮度至最大亮度,则该屏幕亮度按钮的可调节范围为1至5个档位。又如,对座椅进行前后调节的旋钮的总刻度值为90,则该座椅调节旋钮的可调节范围为刻度值1~90。
根据车辆零部件的可调节范围,对传统逻辑下将“音量大大大”的精简语音请求识别成“最大”“最小”意图的语音请求进行意图纠正,在精简词符合条件的情况下纠正为相对应的调大调小意图。
如此,可以在原先的传统逻辑的基础上达到用户指令中真正的精确调节的目的。
请参阅图5,步骤003包括:
0031:确定车辆零部件对应精简词可调节的范围。
步骤0131可以由第二确定模块101实现。也即是,第二确定模块101用于确定车辆零部件对应每个精简词可调节的范围。
精简词指的是用户使用的简化而又能精确代表调节程度的词,比如可以用叠词作为精简词,如此,用户在输入语音请求时只需输入精简化的语音请求即可。例如,车载显示屏的亮度调节可以精简表述为“屏幕亮亮”、“屏幕亮亮亮”、“屏幕暗暗”和“屏幕暗暗暗”…,车载音响的音量调节精简表述为“音量大大”、“音量大大大”、“音量小小”和“音量小小小”…,空调的风量调节可以精简表述为“风量大大”、“风量大大大”、“风量小小”和“风量小小小”…。当然,精简词可以是用户习惯使用的重复词,例如“亮一点”、“暗一点”、“大一点”和“小一点”等,相应地用户语音请求可以精简表述为“屏幕亮一点亮一点”、“屏幕暗一点暗一点”、“音量大一点大一点”和“音量小一点小一点”等,在此不做具体限定。
精简词对应可调节的范围可以根据车辆零部件的可调节范围进行确定。例如,对车辆内的屏幕进行调节时,屏幕亮度对应可调节范围为1~5个档位,语音识别时亮度相关的每个语音请求中可以识别最多5个精简词,则精简词可调节的范围可以为1~5。语音请求包括多个精简词时,每个精简词可以调节屏幕亮度的1个档位。
又例如,对车载音响进行调节时,音量可以调整大小,即可以使用精简词“大”、“大一点”、“小一点”或“小”进行调节,音量的总调节范围为60个刻度,而语音识别时音量相关的语音请求最多可以识别10个精简词,此时,精简词可调节的范围可以为1~10,对应的每个精简词可以调节车载音响音量的3个刻度。若语音识别出精简词超过10个的语音请求,可以直接将音量调节到最大或最小。
语音交互方法包括:
005:将控制范围和可调节范围映射到预设意图和对应的预设刻度调节精度值。
语音交互装置10还包括映射模块103。
步骤005可以由映射模块103实现。也即是说,映射模块103用于将控制范围和可调节范围映射到预设意图和对应的预设刻度调节精度值。
如此,将车辆零部件的控制范围和每个车辆零部件的可调节范围,映射到意图识别模型所能够理解的意图体系。针对车辆零部件的控制范围中的对象和对应的车辆零部件的可调节范围均制定一个相应的预设意图。例如:system_volume_up代表着预设意图“音量调大”和system_volume_down代表着预设意图“音量调小”。从而针对零部件控制范围和车辆零部件的可调节范围制定了一套具体的意图映射体系。
对于预设刻度调节精度,例如,语音交互模拟对车辆零部件的操作时音量每次调节3个刻度值,总刻度值为60,则预设刻度调节精度范围可以为1~20。又例如,语音交互模拟对车辆零部件的操作时座椅前后每次调节18个刻度,总刻度值为90,则预设刻度调节精度范围为1~5。
请参阅图6,步骤005包括:
0051:根据预设意图和默认调节范围,建立意图与默认值映射表。
步骤0051可以由映射模块103实现。也即是说,映射模块103用于根据预设意图和默认调节范围,建立意图与默认值映射表。
根据预设意图与之前确认的默认调节范围,可以建立意图与默认值的映射表,供在线流程使用并进行下游操作。
例如,若语音请求模拟车辆零部件调节车载音响的音量每次调节3个刻度(默认值为3),在精度需求下,音量对应的预设意图分别为system_volume_up与system_volume_down。对应地,由车载音响的车辆零部件调节音量而建立的意图与默认值映射表可以为:
{system_volume_up:3;system_volume_down:3}。
若语音请求模拟车辆零部件调节空调风量每次调节1个档位,由车载空调的车辆零部件调节空调风量而建立的意图与默认值映射表为:
{ac_wind_up:1;ac_wind_down:1;}。
同理,本发明的语音交互方法还包括有屏幕亮度调节、车辆座椅高低前后等多个预设意图,多个预设意图与默认值的映射关系均可以根据上述方法确定,并将此映射关系存入数据库,供在线流程加载和读取。
请参阅图7,步骤005包括:
0052:将控制范围内每个车辆零部件的可调节范围,映射到一个预设意图,每个预设意图对应多个预设刻度调节精度值。
步骤0052可以由映射模块103实现。也即是,映射模块103用于将控制范围内每个车辆零部件的可调节范围,映射到一个预设意图,每个预设意图对应多个预设刻度调节精度值。
每个车辆零部件的可调节范围包括多个档位或多个刻度值,在建立映射时需要将对应每个车辆部件的可调节范围都映射到同一个预设意图。例如,空调风量调节按键的可调节范围包括5个档位,对应风量增大的语音请求的说法可包括从“风量大”到“风量大大大大大”共5个,需要将这5个风量调大的说法都映射到同一个预设意图,即风量调大。
如此,在语音交互过程中,使得对于同一车辆零部件不同调节刻度的语音请求都对应到相同的预设意图。
一个预设意图对应多个预设刻度调节精度值,例如“将车载音响的音量调大”的预设意图可以对应20个预设刻度调节精度值,若音量旋钮的可调节范围为60,即调节音量的总刻度为60,则每个预设刻度调节精度值对应调节的刻度值为3个刻度,也即是,每调节一个预设刻度调节精度值代表调节3个刻度。20个预设刻度调节精度值分别为:调节音量增大3个刻度,其对应语音请求为“音量大”;调节音量增大6个刻度,其对应语音请求为“音量大大”;调节音量增大9个档位,其对应语音请求为“音量大大大”……。
在本发明的其他实施例中,在用户允许的情况下可以关于同样预设意图对应收集不同的用户指令,如关于“音量大大大”的说法,用户可以有不同自由度的展开,如“音量增增增”,“音量升升升”,“音量高高高”,识别不同的展开词所识别得到的意图均为将音量调大。
请参阅图8,步骤005包括:
0053:将精简词设置为槽位,对车辆零部件对应的预设识别文本进行槽位提取得到重复字段;
0054:对重复字段的槽值进行重复统计得到重复数量;
0055:根据精简词可调节的范围将重复数量映射到预设意图对应的预设刻度调节精度值。
请结合图9,映射模块103包括提取单元1033、统计单元1034和映射单元1035。
步骤0053可以由提取单元1033实现,步骤0054可以由统计单元1034实现和步骤0055可以由映射单元1035实现。也即是,提取单元1033用于将精简词设置为槽位,对车辆零部件对应的预设识别文本进行槽位提取得到重复字段;统计子单元1034用于对重复字段的槽值进行重复统计得到重复数量;映射子单元1035根据精简词可调节的范围将重复数量映射到预设意图对应的预设刻度调节精度值。
精简词的重复数量可以代表对车辆零部件进行刻度调节的次数。因此,可以将精简词设置为槽位。例如,音量旋钮的精简词可调节的范围为1~10,音量旋钮对应的预设刻度调节精度范围为1~20,在精简词可调节的范围内,若语音请求对应的预设识别文本为“音量大大大大”,则可以将“大大大大”抽取为槽位,并将该槽位设置为重复字段。然后,对抽取出的重复字段的槽值进行重复统计,将其重复数量映射到对应的预设刻度调节精度,对于抽取的槽位“大大大大”,“大”的重复数量为4,则可以映射到对应的预设刻度调节精度4。
在本发明的其他实施例中,在用户允许的情况下可以关于同样刻度调节精度对应收集不同的用户语音请求,如关于“音量大大大”的说法,用户可以有不同自由度的展开,如“音量增增增”,“音量升升升”,“音量高高高”,识别不同的展开词所识别得到的刻度调节精度均为“音量调节3次”。
请参阅图10,语音交互方法包括:
006:通过意图训练数据训练得到意图识别模型,意图训练数据与车辆零部件和车辆零部件的可调节范围相关。
请结合图11,语音交互装置10包括意图训练模块104。
步骤006可以由意图训练模块104实现,也即是,意图训练模块104用于通过意图训练数据训练得到意图识别模型,意图训练数据与车辆零部件和车辆零部件的可调节范围相关。
本发明通过机器学习的方式,由可进行刻度调节的车辆零部件和车辆零部件的可调节范围对应的训练数据训练得到意图识别模型,进而对语音请求进行意图识别,实现用户意图的准确识别。
其中,意图训练数据与可进行刻度调节的车辆零部件和零部件的可调节范围相关。车辆零部件指的是在智能汽车上可以进行刻度调节的零部件,例如:“音量旋钮”,“屏幕亮度按钮”,“空调风量旋钮/按钮”,“座椅调节旋钮/按钮”等。车辆零部件的可调节范围与与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件,可调节范围可以是档位或量程。
本发明中的意图识别模型,在使用前预先训练。意图训练的数据可以在取得相关用户权限的情况下,收集一定数量的用户语音请求的历史记录,对收集到的用户语音请求进行简单的筛选得到语义明确且包含具体目的语音请求,具体为:在筛选中去掉明显语义不明确的语音请求,以及一些只包含语气词,比如“啊”,“哦”等较短的语音请求,留下语义明确同时包含具体目的语音请求。
然后,对筛选后的语音请求参照制定的预设意图进行标注,例如,语音请求为“屏幕亮亮亮”,可标注对应的意图为“屏幕调亮”,然后,对标注的数据进行质检,再次筛选去掉不符合预设意图的标注数据,留下可用于意图模型训练的标注数据。例如,语音请求为“车门开”,标注对应的意图为“打开车门”,而可进行刻度调节的零部件不用于调节车门,此时,可通过筛选将该语音请求去掉。
在训练过程中,将可用于意图模型训练的的标注数据作为意图训练数据并划分为意图训练集和意图数据集,划分比例可根据需求设定,在此不作限定。例如意图训练集80%,意图验证集为20%。利用意图训练集中的数据进行意图识别模型的训练。模型训练可以利用BERT、ALBERT、XLNet、RoBERTa等模型。
具体地,对于建立好的意图识别模型,先利用意图训练集中的至少部分数据用于训练意图识别模型,然后利用意图验证集的至少部分数据对训练后的意图识别模型的准确率进行意图验证。在意图验证的准确率没有达到意图准确率阈值的情况下,再次通过意图训练集的至少另一部分数据对意图识别模型进行训练,以及再次利用意图验证集的另一部分数据对再次训练后的意图识别模型的准确率进行意图验证,如此重复训练和意图验证的过程,直到意图验证的准确率达到意图准确率阈值时,可以认为意图识别模型已经达标,完成意图识别模型的训练。
需要说明的是,意图训练集和意图验证集中的每个数据均只使用一次,在意图识别模型遍历意图训练集和意图验证集的所有数据均未能训练达标的情况下,可以再次在用户允许的情况下收集更多的语音请求,从而筛选并标注得到更多的意图训练数据对意图识别模型进行训练,从而保证意图识别模型能够准确识别输入的语音请求对应的意图。
可以理解,上述意图识别模型可以离线进行训练,将离线训练好的意图识别模型部署到服务器或车辆后,服务器或车辆可以对接收到的语音请求,利用意图识别模型进行意图识别。
语音交互方法包括:
007:通过精度训练数据训练得到精度识别模型,精度训练数据与车辆零部件、车辆零部件的可调节范围和车辆零部件的刻度调节精度范围相关。
语音交互装置10包括精度训练模块105。
步骤007可以由精度训练模块105实现。也即是说,精度训练模块105用于通过精度训练数据训练得到精度识别模型,精度训练数据与车辆零部件、车辆零部件的可调节范围和车辆零部件的刻度调节精度范围相关。
如此,本发明通过机器学习的方式,由可进行刻度调节的车辆零部件、车辆零部件的可调节范围和零部件的刻度调节精度范围对应的训练数据训练得到精度识别模型,进而语音请求进行精度识别,实现用户刻度调节精度的准确识别。
其中,精度训练数据与可通过车辆零部件进行刻度调节的车辆零部件、零部件的可调节范围相关,指的是精度训练数据包括车辆中所有可以进行刻度调节的车辆零部件,例如“音量旋钮”,“屏幕亮度按钮”,“空调风量旋钮/按钮”,“座椅调节旋钮/按钮”等。车辆零部件的可调节范围与与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件,可调节范围可以是档位或量程,刻度调节精度范围可以是每次调节的刻度值。
其中,精度训练的数据可以在取得相关用户权限的情况下,收集一定数量的用户语音请求的历史记录,对收集到的用户语音请求进行简单的筛选得到语义明确且包含具体目的语音请求,具体为:在筛选中去掉明显语义不明确的语音请求,以及一些只包含语气词,比如“啊”,“哦”等较短的语音请求,留下语义明确同时包含具体目的语音请求。此时,精度训练时获取的用户语音请求的历史记录可以与意图训练时获取的用户语音请求的历史记录相同,以及精度训练时对收集到的用户语音请求进行筛选的步骤可以与意图训练时对收集到的用户语音请求进行筛选的步骤相同。
然后对筛选后的语音请求进行人工标注,需标注出用户想要调节的刻度调节精度值。例如,语音请求为“屏幕亮亮亮”,对应标注对车辆内屏幕亮度进行调节的刻度调节精度值为3。然后,基于槽位提取的方式建立精度识别模型,槽位提取可以使用的算法包括RNN槽填充,CRF等,将标注好的数据作为精度训练数据并划分得到精度训练集和精度数据集,划分比例可根据需求设定,在此不作限定。例如精度训练集80%,精度验证集为20%。利用精度训练集中的数据进行精度识别模型的训练。对于建立好的精度识别模型,先利用精度训练集中的至少部分数据用于训练精度识别模型,然后利用精度验证集的至少部分数据对训练后的精度识别模型的准确率进行精度验证。在精度验证的准确率没有达到精度准确率阈值的情况下,再次通过精度训练集的至少另一部分数据对精度识别模型进行训练,以及再次利用精度验证集的另一部分数据对再次训练后的精度识别模型的准确率进行精度验证,如此重复训练和精度验证的过程,直到精度验证的准确率达到精度准确率阈值时,可以认为精度识别模型已经达标,完成精度识别模型的训练。
需要说明的是,精度训练集和精度验证集中的每个数据均只使用一次,在精度识别模型遍历精度训练集和精度验证集的所有数据均未能训练达标的情况下,可以再次在用户允许的情况下收集更多的语音信息,从而筛选并标注得到更多的精度训练数据对精度识别模型进行训练,从而保证精度识别模型能够准确识别输入的语音请求对应的刻度调节精度。
如此,可以通过精度训练数据预先训练好精度识别模型对待识别文本进行精度识别,从而识别出某个车辆零部件的调节精度,得到精度识别结果,最终确定目标刻度调节精度值。
请参阅图12,预设意图为多个,步骤04包括:
041:获取意图识别的结果对应各个预设意图的意图判别概率;
042:将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图。
请结合图13,第一确定模块14还可以包括第一获取单元141和意图确定单元142。
步骤041可以由第一获取单元141实现,步骤042可以由意图确定单元142实现。也即是,第一获取单元141用于获取意图识别的结果对应各个预设意图的意图判别概率;意图确定单元142用于将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图。
使用训练好的的模型针对待识别文本进行意图识别得到意图识别的结果,意图识别的结果中包括待识别文本与各个预设意图相匹配的概率,即可以得到多个意图判别概率。若第一概率阈值为0.9,则意图识别的结果为某个类别的预设意图的意图判别概率超过0.9,那么服务端认为当前用户的语音请求为对应类别的预设意图就是目标意图。第一概率阈值也可以为其他数值,第一概率阈值可以为默认设置的数值,也可以根据用户需要自行设定,在此不作限制。
本发明的预设意图可包括:音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。
应当理解地,本发明中的预设意图仅为示意性说明,对于车辆中可进行刻度调节的对象都可以根据其实际的操作设定相应的预设意图。
如此,可根据车辆的具体情况制定多个预设意图,完善可能遇到的语音交互场景。
步骤04还包括:
043:在各个预设意图的意图判别概率均不大于第一概率阈值的情况下,确定语音请求的意图为非刻度调节意图。
步骤043可以由意图确定单元142实现,也即是,意图确定单元142用于在各个预设意图的意图判别概率均不大于第一概率阈值的情况下,确定语音请求的意图为非刻度调节意图。
例如,当多个类别的预设意图对应的判别概率均不大于第一概率阈值的情况,即根据语音请求得到用户的意图识别结果与多个类别预设意图相匹配的概率比较低,低于第一概率阈值,例如第一概率阈值为0.9,则确定该语音请求的意图为非刻度调节意图,非刻度调节意图指的是不用可进行刻度调节的车辆零部件来调节车辆预设功能的用户意图,例如,用户输入的语音请求为“车门开开开”,因为车门不能用带有刻度的车辆零部件进行调节,因此,该语音请求“车门开开开”的意图是非刻度调节意图。
请参阅图14,步骤04还包括:
044:获取精度识别的结果对应各个预设刻度调节精度值的精度判别概率;
045:将精度判别概率大于第二概率阈值的一个预设刻度调节精度值,确定为语音请求对应的目标刻度调节精度值。
请结合图15,第一确定模块14包括第二获取单元143和精度确定单元144。
步骤044可以由第二获取单元143实现,步骤045可以由精度确定单元144实现。也即是说,第二获取单元143用于获取精度识别的结果对应各个预设刻度调节精度值的精度判别概率;精度确定单元144用于将精度判别概率大于第二概率阈值的一个预设刻度调节精度值,确定为语音请求对应的目标刻度调节精度值。
精度判别概率指的是识别该语音请求的精度与各个预设刻度调节精度值相匹配的概率。第二概率阈值例如可以为0.7、0.8、0.9或其他数值,在此不作限制。
当精度判别概率为1,第二概率阈值为0.9时,即精度判别概率为1超过第二概率阈值0.9,则确定语音请求“音量大大大大大”对应音量调节的目标刻度调节精度值为5。
步骤04还包括:
046:在各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况下,确定语音请求的精度识别错误。
步骤046可以由精度确定单元144实现。也即是说,精度确定单元144用于在各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况下,确定语音请求的精度识别错误。
各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况,说明输入的语音请求的精度识别有误,可以排除非刻度调节精度相关的语音请求。
请参阅图16,步骤05包括:
051:根据目标意图和意图与默认值映射表确定默认值;
052:根据目标刻度调节精度值修改默认值。
请参阅图17,修改模块15包括默认值确定单元151和修改单元152。
步骤051可以由默认值确定单元151实现,步骤052可以由修改单元152实现。也即是,默认值确定单元151用于根据目标意图和意图与默认值映射表确定默认值;修改单元152用于根据目标刻度调节精度值修改默认值。
根据目标意图和意图与默认值映射表确定默认值,也即是,如果用户的语音请求“音量大大大”的目标意图为将音量调大,则根据意图与默认值映射表可知,此时默认值可以为3,即语音请求模拟车辆零部件对音量进行调节时,每次调节3个刻度。
根据对用户语音请求“音量大大大”进行精度识别的结果可以为:识别得到目标刻度调节精度值为3,则根据目标刻度调节精度值修改默认值为3*3=9,即,修改后与用户语音请求“音量大大大”对应调节的刻度值为9。进而根据目标意图和修改后的默认值生成控制指令,在融合语音请求传统逻辑的情况下,实现根据用户精简语音请求精确调节与语音请求对应的车辆零部件的刻度的效果。
请参阅图18,本发明还提供一种服务器20。该服务器20包括处理器21和存储器22,存储器22上存储有计算机程序221,当计算机程序221被处理器21执行时,实现上述任意一个实施例中所述的语音交互方法。
本发明的服务器20可以先对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能。然后利用意图识别模型对待识别文本进行意图识别,且利用精度识别模型对待识别文本进行精度识别,识别出语音请求对应的目标意图和目标刻度调节精度值,然后对于默认值进行修改,从而在融合语音请求传统逻辑的情况下,实现根据用户精简语音请求精准调节与语音请求相对应的车辆零部件的刻度的效果,提升用户体验。
请参阅图19,本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质30。当计算机程序31被一个或多个处理器40执行时,实现上述任意实施条例的语音交互方法。
例如,计算机程序31被处理器40执行时实现以下语音交互方法的步骤:
01:对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能;
02:利用意图识别模型对待识别文本进行意图识别;
03:利用精度识别模型对待识别文本进行精度识别;
04:根据意图识别的结果和精度识别的结果,确定语音请求对应的目标意图和目标刻度调节精度值;
05:根据意图识别的结果确定语音请求对应的目标意图,和根据精度识别的结果确定语音请求对应的目标刻度调节精度值;
06:将目标意图和修改后的默认值融合生成控制指令,以控制对应的车辆零部件。
可以理解地,计算机程序31包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
本发明的计算机可读存储介质30可以先对车辆预设功能调节的语音请求进行语音识别得到待识别文本,预设功能指模拟对车辆零部件的操作进行刻度调节的功能。然后利用意图识别模型对待识别文本进行意图识别,且利用精度识别模型对待识别文本进行精度识别,识别出语音请求对应的目标意图和目标刻度调节精度值,然后对于默认值进行修改,从而在融合语音请求传统逻辑的情况下,实现根据用户精简语音请求精准调节与语音请求相对应的车辆零部件的刻度的效果,提升用户体验。

Claims (17)

1.一种语音交互方法,其特征在于,包括:
对车辆预设功能调节的语音请求进行语音识别得到待识别文本,所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能,所述语音请求为带有精简词的语音请求,所述精简词包括叠词或重复词;
利用意图识别模型对所述待识别文本进行意图识别;
利用精度识别模型对所述待识别文本进行精度识别,所述精度识别的结果为所述精简词重复字段的重复次数;
根据所述意图识别的结果确定所述语音请求对应的目标意图,和根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值;
根据所述目标意图和所述目标刻度调节精度值修改默认值,所述默认值为预设语音请求中所述目标意图对应的调节值;
将所述目标意图和修改后的所述默认值融合生成控制指令,以控制对应的车辆零部件。
2.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
通过意图训练数据训练得到所述意图识别模型,所述意图训练数据与所述车辆零部件和所述车辆零部件的可调节范围相关。
3.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
通过精度训练数据训练得到所述精度识别模型,所述精度训练数据与所述车辆零部件、所述车辆零部件的可调节范围和所述车辆零部件的刻度调节精度范围相关。
4.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
确定所述车辆零部件的控制范围及非控制范围。
5.根据权利要求4所述的语音交互方法,其特征在于,所述语音交互方法包括:
确定每个所述车辆零部件的默认调节范围。
6.根据权利要求5所述的语音交互方法,其特征在于,所述语音交互方法包括:
确定所述车辆零部件的可调节范围;
根据所述车辆零部件的可调节范围,纠正所述预设语音请求的意图。
7.根据权利要求6所述的语音交互方法,其特征在于,所述语音交互方法包括:
将所述控制范围和所述可调节范围映射到预设意图和对应的预设刻度调节精度值。
8.根据权利要求7所述的语音交互方法,其特征在于,所述语音交互方法包括:
根据所述预设意图和所述默认调节范围,建立意图与默认值映射表。
9.根据权利要求8所述的语音交互方法,其特征在于,所述根据所述目标意图和所述目标刻度调节精度值修改默认值,包括:
根据所述目标意图和所述意图与默认值映射表确定所述默认值;
根据所述目标刻度调节精度值修改所述默认值。
10.根据权利要求8所述的语音交互方法,其特征在于,所述将所述控制范围和所述可调节范围映射到预设意图和对应的预设刻度调节精度值,包括:
将所述控制范围内每个所述可调节范围,映射到一个所述预设意图,每个所述预设意图对应多个预设刻度调节精度值。
11.根据权利要求10所述的语音交互方法,其特征在于,所述将所述控制范围和所述可调节范围映射到预设意图和对应的预设刻度调节精度值,包括:
将精简词设置为槽位,对所述车辆零部件对应的预设识别文本进行槽位提取得到重复字段;
对重复字段的槽值进行重复统计得到重复数量;
根据所述精简词可调节的范围将所述重复数量映射到所述预设刻度调节精度值。
12.根据权利要求11所述的语音交互方法,其特征在于,所述预设意图为多个,所述根据所述意图识别的结果确定所述语音请求对应的目标意图,包括:
获取所述意图识别的结果对应各个预设意图的意图判别概率;
将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述语音请求对应的目标意图。
13.根据权利要求12所述的语音交互方法,其特征在于,所述预设意图包括:音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。
14.根据权利要求12所述的语音交互方法,其特征在于,所述根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值,包括:
获取所述精度识别的结果对应各个预设刻度调节精度值的精度判别概率;
将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度值,确定为所述语音请求对应的目标刻度调节精度值。
15.一种语音交互装置,其特征在于,所述语音交互装置包括:
语音识别模块,所述语音识别模块用于对车辆预设功能调节的语音请求进行语音识别得到待识别文本,所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能,所述语音请求为带有精简词的语音请求,所述精简词包括叠词或重复词;
意图识别模块,所述意图识别模块用于利用意图识别模型对所述待识别文本进行意图识别;
精度识别模块,所述精度识别模块用于利用精度识别模型对所述待识别文本进行精度识别,所述精度识别的结果为所述精简词重复字段的重复次数;
确定模块,所述确定模块用于根据所述意图识别的结果确定所述语音请求对应的目标意图,和根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值;
修改模块,所述修改模块用于根据所述目标意图和所述目标刻度调节精度值修改默认值,所述默认值为预设语音请求中所述目标意图对应的调节值;
指令生成模块,所述指令生成模块用于将所述目标意图和修改后的所述默认值融合生成控制指令,以控制对应的车辆零部件。
16.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1-14任一项所述的语音交互方法。
17.一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-14任一项所述的语音交互方法。
CN202111593401.9A 2021-12-24 2021-12-24 语音交互方法及其装置、服务器和可读存储介质 Active CN113990298B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111593401.9A CN113990298B (zh) 2021-12-24 2021-12-24 语音交互方法及其装置、服务器和可读存储介质
PCT/CN2022/138930 WO2023116523A1 (zh) 2021-12-24 2022-12-14 语音交互方法及其装置、服务器和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111593401.9A CN113990298B (zh) 2021-12-24 2021-12-24 语音交互方法及其装置、服务器和可读存储介质

Publications (2)

Publication Number Publication Date
CN113990298A CN113990298A (zh) 2022-01-28
CN113990298B true CN113990298B (zh) 2022-05-13

Family

ID=80081347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111593401.9A Active CN113990298B (zh) 2021-12-24 2021-12-24 语音交互方法及其装置、服务器和可读存储介质

Country Status (2)

Country Link
CN (1) CN113990298B (zh)
WO (1) WO2023116523A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990298B (zh) * 2021-12-24 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质
CN115268324A (zh) * 2022-07-25 2022-11-01 青岛海尔科技有限公司 指令的修正方法及装置、存储介质及电子装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087782A (zh) * 2010-11-29 2011-06-08 青岛海信信芯科技有限公司 使遥控器持续发送无线信号的方法和遥控器
CN105578274A (zh) * 2015-12-23 2016-05-11 Tcl集团股份有限公司 智能电视的音量调整方法及装置
CN109920427A (zh) * 2019-04-23 2019-06-21 上海天诚通信技术股份有限公司 基于语音控制的音量调节方法
CN110265015A (zh) * 2019-06-24 2019-09-20 付金龙 一种通过语音控制音量的方法、系统及翻译机
CN112185369A (zh) * 2019-07-04 2021-01-05 百度在线网络技术(北京)有限公司 一种基于语音控制的音量调节方法、装置、设备和介质
CN112786039A (zh) * 2020-10-21 2021-05-11 青岛经济技术开发区海尔热水器有限公司 语音控制方法、装置、电子设备及存储介质
WO2021192991A1 (ja) * 2020-03-23 2021-09-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN113990299A (zh) * 2021-12-24 2022-01-28 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610011B2 (en) * 2004-09-19 2009-10-27 Adam Albrett Providing alternative programming on a radio in response to user input
CN102831894B (zh) * 2012-08-09 2014-07-09 华为终端有限公司 指令处理方法、装置和系统
JP6436400B2 (ja) * 2014-03-28 2018-12-12 パナソニックIpマネジメント株式会社 音声コマンド入力装置および音声コマンド入力方法
CN103941686B (zh) * 2014-04-14 2017-06-13 广东美的制冷设备有限公司 语音控制方法和系统
JP6767796B2 (ja) * 2016-07-08 2020-10-14 株式会社日立情報通信エンジニアリング 通話管理システム及びその音声認識制御方法
CN107672547B (zh) * 2017-10-10 2020-09-18 新昌县捷庭科技有限公司 新能源汽车语音控制方法、装置、移动终端及存储介质
CN108040171A (zh) * 2017-11-30 2018-05-15 北京小米移动软件有限公司 语音操作方法、装置及计算机可读存储介质
WO2020036766A1 (en) * 2018-08-14 2020-02-20 Reading Research Associates, Inc. Methods and systems for improving mastery of phonics skills
CN110047486A (zh) * 2019-05-20 2019-07-23 合肥美的电冰箱有限公司 语音控制方法、装置、服务器、系统及存储介质
CN113220839B (zh) * 2021-05-13 2022-05-24 亿咖通(湖北)技术有限公司 一种意图识别方法、电子设备及计算机可读存储介质
CN113990298B (zh) * 2021-12-24 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087782A (zh) * 2010-11-29 2011-06-08 青岛海信信芯科技有限公司 使遥控器持续发送无线信号的方法和遥控器
CN105578274A (zh) * 2015-12-23 2016-05-11 Tcl集团股份有限公司 智能电视的音量调整方法及装置
CN109920427A (zh) * 2019-04-23 2019-06-21 上海天诚通信技术股份有限公司 基于语音控制的音量调节方法
CN110265015A (zh) * 2019-06-24 2019-09-20 付金龙 一种通过语音控制音量的方法、系统及翻译机
CN112185369A (zh) * 2019-07-04 2021-01-05 百度在线网络技术(北京)有限公司 一种基于语音控制的音量调节方法、装置、设备和介质
WO2021192991A1 (ja) * 2020-03-23 2021-09-30 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN112786039A (zh) * 2020-10-21 2021-05-11 青岛经济技术开发区海尔热水器有限公司 语音控制方法、装置、电子设备及存储介质
CN113990299A (zh) * 2021-12-24 2022-01-28 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质

Also Published As

Publication number Publication date
WO2023116523A1 (zh) 2023-06-29
CN113990298A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN113990298B (zh) 语音交互方法及其装置、服务器和可读存储介质
CN113990299B (zh) 语音交互方法及其装置、服务器和可读存储介质
US10170110B2 (en) System and method for ranking of hybrid speech recognition results with neural networks
US20180261236A1 (en) Speaker recognition method and apparatus, computer device and computer-readable medium
WO2023124957A1 (zh) 语音交互方法及其装置、服务器和可读存储介质
DE102013223036B4 (de) Adaptionsverfahren für Sprachsysteme
CN104123936A (zh) 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN110119353B (zh) 测试数据生成方法、装置以及控制器和介质
WO2023125002A1 (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
CN110597082A (zh) 智能家居设备控制方法、装置、计算机设备及存储介质
CN110990702A (zh) 一种面向儿童自主阅读的推荐方法、客户端及服务器
CN111428639A (zh) 手势识别模型的训练方法、手势识别方法及装置
CN114049894A (zh) 语音交互方法及其装置、车辆和存储介质
CN114360518A (zh) 语音交互方法及其装置、服务器和可读存储介质
CN112052686B (zh) 一种用户交互式教育的语音学习资源推送方法
CN116028821B (zh) 融合领域知识的预训练模型训练方法、数据处理方法
CN106202045B (zh) 基于车联网的专项语音识别方法
CN114299929A (zh) 语音交互方法及装置、服务器及存储介质
CN115064170B (zh) 语音交互方法、服务器和存储介质
CN114360519A (zh) 语音交互方法及其装置、服务器和可读存储介质
CN116645683A (zh) 基于提示学习的签名笔迹鉴别方法、系统及存储介质
CN114005448A (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
CN115512696A (zh) 模拟训练方法及车辆
CN112907541B (zh) 一种手掌图像质量评估模型构建方法及装置
CN114299931A (zh) 语音交互方法及其装置、服务器和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant