CN113990299A - 语音交互方法及其装置、服务器和可读存储介质 - Google Patents

语音交互方法及其装置、服务器和可读存储介质 Download PDF

Info

Publication number
CN113990299A
CN113990299A CN202111593792.4A CN202111593792A CN113990299A CN 113990299 A CN113990299 A CN 113990299A CN 202111593792 A CN202111593792 A CN 202111593792A CN 113990299 A CN113990299 A CN 113990299A
Authority
CN
China
Prior art keywords
voice
intention
precision
recognition
voice request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111593792.4A
Other languages
English (en)
Other versions
CN113990299B (zh
Inventor
赵群
郭梦雪
宁洪珂
樊骏锋
潘晓彤
赵恒艺
魏子兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202111593792.4A priority Critical patent/CN113990299B/zh
Publication of CN113990299A publication Critical patent/CN113990299A/zh
Application granted granted Critical
Publication of CN113990299B publication Critical patent/CN113990299B/zh
Priority to PCT/CN2022/138574 priority patent/WO2023116500A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音交互方法及其装置、服务器和可读存储介质。该语音交互方法包括:接收车辆转发的对车辆预设功能调节的当前轮的语音请求,预设功能指模拟对车辆零部件的操作进行刻度调节的功能;读取对车辆预设功能调节的上一轮的语音请求;利用上一轮的语音请求对当前轮的语音请求进行改写;对改写后的当前轮的语音请求进行意图识别;对改写后的当前轮的语音请求进行精度识别;根据意图识别的结果和精度识别的结果完成语音交互。本发明通过指令改写,意图识别和精度识别相结合的方式识别语音请求的意图和刻度调节精度,实现多轮语音请求下,用户意图和刻度调节范围的准确识别。

Description

语音交互方法及其装置、服务器和可读存储介质
技术领域
本发明涉及语音技术领域,特别涉及一种语音交互方法及其装置、服务器和可读存储介质。
背景技术
目前在智能汽车场景中,可以应用语音交互实现用户对车辆硬件设备的控制,比如“打开车窗”,“音量调高”等,但是,对于用户希望进行连续调节的场景,在语音场景下体现为多轮交互,用户在上一轮语音交互后很自然地省略后续每轮对话的部分内容,例如以下用户跟语音助手小P的对话:
用户:今天天气怎么样
小P:广州今天晴天26-30°
用户:上海(的天气)呢
在多轮对话中,像上述第一个示例中用户字面含义是问上海,但其实是想问上海的天气,将部分内容省略符合人对话的习惯,但是这样可能会导致车辆的车载系统对某些轮次的语音请求不能准确识别,或者提示听不懂。
进一步地,如果用户需要调整音量,可以通过对车上调整汽车音量的机械旋钮进行操作,将机械旋钮旋转到想要的音量,但是如果使用语音调整音量,只能够调大或者调小。在如下第二个示例中:
用户:音量调大
小P:音量已调大
用户:大大大
从第二个示例可以看出,当前车辆的车载系统对当前轮的大大大不能准确识别,或者提示听不懂,这样情况不能满足用户对类似机械旋钮一样精准的刻度连续调节的需求。
发明内容
本发明实施方式提供一种语音交互方法及其装置、服务器和可读存储介质。
本发明实施方式提供一种语音交互方法。该语音交互方法包括:接收车辆转发的对车辆预设功能调节的当前轮的语音请求,所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能;读取对车辆预设功能调节的上一轮的语音请求;利用所述上一轮的语音请求对所述当前轮的语音请求进行改写;对改写后的所述当前轮的语音请求进行意图识别;对改写后的所述当前轮的语音请求进行精度识别;根据所述意图识别的结果和所述精度识别的结果完成语音交互。
如此,本发明的语音交互方法可以在接收到用户对于车辆预设功能的语音请求后,通过读取上一轮的语音请求,利用上一轮的语音请求改写当前轮的语音请求以使得改写后的语音请求可以被车辆的车载系统识别出相应的意图和刻度调节精度,进而根据意图识别的结果和精度识别的结果以语音交互方式实现对车辆零部件进行刻度调节。通过指令改写、意图识别和精度识别相结合的方式识别语音请求的意图和刻度调节精度,实现多轮语音请求下,用户意图和刻度调节范围的准确识别。
所述对改写后的所述当前轮的语音请求进行精度识别,包括:在所述意图识别的结果识别出所述当前轮的语音请求对应的目标意图的情况下,对改写后的所述当前轮的语音请求进行精度识别。
如此,本发明基于意图识别的结果进行精度识别,仅在意图识别的结果识别出对应的目标意图后,再进行后续精度识别的操作。
所述语音交互方法包括:在所述意图识别的结果未别出所述当前轮的语音请求对应的目标意图的情况下,确定所述当前轮的语音请求的意图为非刻度调节意图。
如此,本发明在未识别出对应目标意图的情况下,可不进行后续操作,减少非刻度调节意图下语音交互方法的处理过程。
所述利用所述上一轮的语音请求对所述当前轮的语音请求进行改写,包括:通过改写训练数据训练得到改写模型,所述改写训练数据包括相邻两轮语音请求;利用所述上一轮的语音请求和所述改写模型对所述当前轮的语音请求进行改写。
如此,本发明通过机器学习的方式,由相邻两轮语音请求训练得到改写模型,从而根据上一轮的语音请求和改写模型可以实现对当前轮的语音请求的改写,使得改写后的语音请求可以被车辆的车载系统识别出相应的意图和刻度调节精度。
所述对改写后的所述当前轮的语音请求进行意图识别,包括:通过意图训练数据训练得到意图识别模型,所述意图训练数据与可进行刻度调节的车辆零部件和所述车辆零部件的刻度调节范围相关;利用所述意图识别模型对改写后的所述当前轮的语音请求进行意图识别。
如此,本发明通过机器学习的方式,由可进行刻度调节的车辆零部件和所述车辆零部件的刻度调节范围对应的训练数据训练得到意图识别模型,进而对改写后的语音请求进行意图识别,实现用户意图的准确识别。
所述根据所述意图识别的结果和精度识别的结果完成语音交互,包括:获取所述意图识别的结果对应各个预设意图的意图判别概率;将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述当前轮的语音请求对应的目标意图;根据所述目标意图和所述精度识别的结果完成语音交互。
如此,的语音交互方法可以获取意图识别的结果对应各个预设意图的意图判别概率,将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图,从而识别用户精准调节车辆零部件的意图。
所述预设意图包括:音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。
如此,设置了多种预设意图可以进一步为识别用户的语音交互意图奠定基础。
所述语音交互方法包括:在各个所述预设意图的所述意图判别概率均不大于第一概率阈值的情况下,确定所述当前轮的语音请求的意图为非刻度调节意图。
如此,在各个预设意图的意图判别概率均不大于概率阈值的情况下,确定该语音请求为非刻度调节意图,可以排除非刻度调节意图的语音请求。
所述对改写后的所述当前轮的语音请求进行精度识别,包括:通过精度训练数据训练得到精度识别模型,所述精度训练数据与可进行刻度调节的车辆零部件、所述零部件的刻度调节范围和所述零部件的刻度调节精度范围相关;利用所述精度识别模型对改写后的所述当前轮的语音请求进行精度识别。
如此,本发明通过机器学习的方式,由可进行刻度调节的车辆零部件、所述车辆零部件的刻度调节范围和零部件的刻度调节精度范围对应的训练数据训练得到精度识别模型,进而对改写后的语音请求进行精度识别,实现用户语音请求对应刻度调节精度的准确识别。
所述根据所述意图识别的结果和所述精度识别的结果完成语音交互,包括:获取所述精度识别的结果对应各个预设刻度调节精度的精度判别概率;将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度确定为所述语音请求对应的目标刻度调节精度;根据所述意图识别的结果和所述目标刻度调节精度完成语音交互。
如此,本发明的语音交互方法可以获取精度识别的结果对应各个预设刻度调节精度的判别概率,将判别概率大于第二概率阈值的一个预设刻度调节精度确定为语音请求对应的目标刻度调节精度,从而识别用户精准调节车辆零部件的刻度调节精度。
所述语音交互方法包括:在各个所述预设刻度调节精度的所述精度判别概率均不大于第二概率阈值的情况下,确定所述当前轮的语音请求的精度识别错误。
如此,在各个预设刻度调节精度的判别概率均不大于第二概率阈值的情况下,确定该语音请求精度识别错误,可以排除非刻度调节精度相关的语音请求。
本发明还提供一种语音交互装置。所述语音交互装置包括:接收指令模块、读取指令模块、改写模块、意图识别模块、精度识别模块和交互模块。所述接收指令模块用于接收车辆转发的对车辆预设功能调节的当前轮的语音请求,所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能;所述读取指令模块用于读取对车辆预设功能调节的上一轮的语音请求;所述改写模块用于利用所述上一轮的语音请求对所述当前轮的语音请求进行改写;所述意图识别模块用于对改写后的所述当前轮的语音请求进行意图识别;所述精度识别模块用于对改写后的所述当前轮的语音请求进行精度识别;所述交互模块用于根据所述意图识别的结果和所述精度识别的结果完成语音交互。
如此,本发明的语音交互装置可以在接收到用户对于车辆预设功能的语音请求后,通过读取上一轮的语音请求,利用上一轮的语音请求改写当前轮的语音请求以使得改写后的语音请求可以被车辆的车载系统识别出相应的意图和刻度调节精度,进而根据意图识别的结果和精度识别的结果以语音交互方式实现对车辆零部件进行刻度调节。通过指令改写、意图识别和精度识别相结合的方式识别语音请求的意图和刻度调节精度,实现多轮语音请求下,用户意图和刻度调节范围的准确识别。
本发明提供一种服务器。所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述任意一项实施方式所述的语音交互方法。
如此,本发明的服务器通过处理器执行计算机程序,可以在接收到用户对于车辆预设功能的语音请求后,通过读取上一轮的语音请求,利用上一轮的语音请求改写当前轮的语音请求以使得改写后的语音请求可以被车辆的车载系统识别出相应的意图和刻度调节精度,进而根据意图识别的结果和精度识别的结果以语音交互方式实现对车辆零部件进行刻度调节。通过指令改写、意图识别和精度识别相结合的方式识别语音请求的意图和刻度调节精度,实现多轮语音请求下,用户意图和刻度调节范围的准确识别。
本发明实施方式还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时,实现上述任意一项实施方式所述的语音交互方法。
如此,本发明的可读存储介质存储的计算机程序被处理器执行时,可以在接收到用户对于车辆预设功能的语音请求后,通过读取上一轮的语音请求,利用上一轮的语音请求改写当前轮的语音请求以使得改写后的语音请求可以被车辆的车载系统识别出相应的意图和刻度调节精度,进而根据意图识别的结果和精度识别的结果以语音交互方式实现对车辆零部件进行刻度调节。通过指令改写、意图识别和精度识别相结合的方式识别语音请求的意图和刻度调节精度,实现多轮语音请求下,用户意图和刻度调节范围的准确识别。
本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明的语音交互方法的流程示意图之一;
图2是本发明的语音交互装置的结构示意图之一;
图3是本发明的语音交互方法的流程示意图之二;
图4是本发明的语音交互装置的结构示意图之二;
图5是本发明的语音交互方法的流程示意图之三;
图6是本发明的语音交互方法的流程示意图之四;
图7是本发明的语音交互装置中映射模块的结构示意图;
图8是本发明的语音交互方法的流程示意图之五;
图9是本发明的语音交互方法的流程示意图之六;
图10是本发明的语音交互装置的结构示意图之三;
图11是本发明的语音交互方法的流程示意图之七;
图12是本发明的语音交互装置的结构示意图之四;
图13是本发明的语音交互方法的流程示意图之八;
图14是本发明的语音交互装置中交互模块的结构示意图之一;
图15是本发明的语音交互方法的流程示意图之九;
图16是本发明的语音交互装置的结构示意图之五;
图17是本发明的语音交互方法的流程示意图之十;
图18是本发明的语音交互装置中交互模块的结构示意图之二;
图19是本发明的语音交互方法的流程示意图之十一;
图20是本发明的语音交互装置的结构示意图之六;
图21是本发明的语音交互方法的流程示意图之十二;
图22是本发明的语音交互方法的流程示意图之十三;
图23是本发明的语音交互方法的流程示意图之十四;
图24是本发明的语音交互装置的结构示意图之七;
图25是本发明的服务器的结构示意图;
图26是本发明的计算机可读存储介质的结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
目前,车辆的语音交互系统在用户进行多轮语音请求的情况下,例如,用户第一轮语音请求为“屏幕调亮”,而第二轮语音请求采用精简语音请求“亮亮亮”的情况下,语音交互系统不能根据用户的语音请求精准识别出用户第二轮语音请求的需求为屏幕亮度提高3个刻度,不能正确的下发车机端指令,使得屏幕亮度准确提高用户需要的三个亮度,用户体验不佳。
为了解决上述问题,请参阅图1,本发明提供了一种语音交互方法。该语音交互方法包括:
01,接收车辆转发的对车辆预设功能调节的当前轮的语音请求,预设功能指模拟对车辆零部件的操作进行刻度调节的功能;
02,读取对车辆预设功能调节的上一轮的语音请求;
03,利用上一轮的语音请求对当前轮的语音请求进行改写;
04,对改写后的当前轮的语音请求进行意图识别;
05,对改写后的当前轮的语音请求进行精度识别;
06,根据意图识别的结果和精度识别的结果完成语音交互。
请参阅图2,本发明还提供一种语音交互装置10。语音交互装置10包括:接收指令模块11、读取指令模块12、改写模块13、意图识别模块14、精度识别模块15和交互模块16。
步骤01可以由接收指令模块11实现,步骤02可以由读取指令模块12实现,步骤03可以由改写模块13实现,步骤04可以由意图识别模块14实现,步骤05可以由精度识别模块15实现和步骤06可以由交互模块16实现。也即是说,接收指令模块11用于接收车辆转发的对车辆预设功能调节的当前轮的语音请求,预设功能指模拟对车辆零部件的操作进行刻度调节的功能;读取指令模块12用于读取对车辆预设功能调节的上一轮的语音请求;改写模块13用于利用上一轮的语音请求对当前轮的语音请求进行改写;意图识别模块14用于对改写后的当前轮的语音请求进行意图识别;精度识别模块15用于对改写后的当前轮的语音请求进行精度识别;交互模块16用于根据意图识别的结果和精度识别的结果完成语音交互。
用户使用语音交互模拟对车辆零部件进行刻度调节的过程,对应的语音请求可以包括但不限于“屏幕亮亮亮”、“音量大大大”、“座椅后后后”。其中,预设功能是指通过车辆的零部件完成刻度调节的功能,其中的车辆零部件可以指机械旋钮或按钮等实体部件,这些是可以进行调节刻度的部件。目前在智能汽车中,对于用户希望进行连续调节的场景,在语音场景下体现为多轮交互,比如用户上一轮语音请求为“音量大大大”,系统音量调大后,用户又发出当前轮的语音请求“小一点小一点”,这时候系统针对第二轮语音请求会并不能精准的识别出具体刻度为音量减少2个刻度;只会提示用户无法识别当前指令或者干脆错误的调节不对的硬件等,不能满足用户对类似机械旋钮一样精准的刻度连续调节的需求。
本发明的语音交互方法可以在接收到用户对于车辆预设功能的语音请求后,通过读取上一轮的语音请求,利用上一轮的语音请求改写当前轮的语音请求以使得改写后的语音请求可以被车辆的车载系统识别出相应的意图和刻度调节精度,从而对改写后的当前轮的语音请求进行意图识别和精度识别后,可以准确识别出用户的需要调节的意图和刻度调节范围,进而可以根据意图识别的结果和精度识别的结果下发控制指令,以控制对应的车辆零部件,完成语音交互。通过指令改写和机器学习模型相结合的方式对语音请求进行意图识别和精度识别,实现多轮语音请求下,准确识别出通过语音交互来模拟对车辆零部件的操作实现刻度调节的用户意图和刻度调节精度。
需要说明的是,在接收到用户对于车辆预设功能的当前轮的语音请求后,对接收到的当前轮的语音请求进行语音识别得到当前轮语音识别文本以便后续处理,例如,对用户输入的具有对车辆预设功能调节的当前轮的语音请求“屏幕亮亮亮”进行语音识别,得到的当前轮识别文本即为“屏幕亮亮亮”。
在实际情况下可能受到车辆硬件限制,或者因为网络不稳定性,用户表述口语化或者方言化等原因导致ASR识别后的文本指令不够清晰准确,可以对接收到的当前轮的语音请求进行预处理,预处理包括对一些常规文本纠错,比如“音量深深深深深”纠正为“音量增增增增增”,以及一些无意义词语的去除等,比如“啊”,“请”等。
请参阅图3,在步骤01之前,语音交互方法包括:
011,确定车辆零部件的控制范围及非控制范围。
请结合图4,语音交互装置10还包括第一确定模块111。
步骤011可以由第一确定模块111实现。也即是说,第一确定模块111可以用于确定车辆零部件的控制范围及非控制范围。
可以理解地,车辆并非所有功能的调节都可以、能够或有需要进行精准的刻度调节。例如,座椅在各个方向上的移动可以通过车辆零部件进行调节。而车门则没有类似旋钮、按键等车辆零部件来实现刻度调节,而通常仅通过车门把手进行开关。因此,座椅调节是属于车辆零部件的控制范围、而车门调节则属于车辆零部件的非控制范围。
获取车辆零部件的信息,根据车辆零部件的信息,确定可通过零部件进行刻度调节的硬件,确定为车辆零部件的控制范围,将不可通过车辆零部件进行调节的硬件确定为非控制范围。
首先,确定在车辆上可以进行刻度调节的零部件,例如:“音量旋钮”,“屏幕亮度按钮”,“空调风量旋钮/按钮”,“座椅调节旋钮/按钮”等。进一步,确定车辆零部件的控制范围可包括:车载音响、车辆内的屏幕、车辆空调、车辆座椅、车内的氛围灯、车辆外部的车灯、或车窗等。车辆零部件的非控制范围可包括:车门、后视镜、后备箱等。
在后续语音交互的过程中,可在语音请求针对车辆零部件的非控制范围的情况下进行语音提示。
如此,通过收集车辆零部件信息,确认可通过零部件进行刻度调节的功能,从而确定车辆零部件的控制范围,也即是可通过语音交互进行刻度调节的控制范围。
语音交互方法包括:
012,确定车辆零部件的可调节范围。
语音交互装置10还包括第二确定模块112。
步骤012可以由第二确定模块112实现。也即是说,第二确定模块112可以用于确定车辆零部件的可调节范围。
可以理解,在确定车辆零部件的控制范围和非控制范围后,需要针对控制范围中的每一个车辆零部件确定可调节范围。车辆零部件的可调节范围与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件,可调节范围可以是档位或量程。例如,屏幕亮度按钮累计连续按压5次,屏幕亮度依次调整1至5个档位的亮度至最大亮度,则该屏幕亮度按钮的可调节范围为1至5个档位。又如,对座椅进行前后调节的旋钮的总刻度值为90,则该座椅调节旋钮的可调节范围为刻度值1~90。
请参阅图5,步骤012包括:
0121,确定车辆零部件对应精简词可调节的范围。
步骤0121可以由第二确定模块112实现。也即是说,第二确定模块112可以用于确定车辆零部件对应精简词可调节的范围。
具体地,精简词指的是用户使用的简化而又能精确代表调节程度的词,比如可以用叠词作为精简词,如此,用户在输入语音指令时只需输入精简化的指令即可。例如,车载显示屏的亮度调节可以精简表述为“屏幕亮亮”、“屏幕亮亮亮”、“屏幕暗暗”和“屏幕暗暗暗”…,车载音响的音量调节精简表述为“音量大大”、“音量大大大”、“音量小小”和“音量小小小”…,空调的风量调节可以精简表述为“风量大大”、“风量大大大”、“风量小小”和“风量小小小”…。当然,精简词可以是用户习惯使用的重复词,例如“亮一点”、“暗一点”、“大一点”和“小一点”等,相应地用户语音请求可以精简表述为“屏幕亮一点亮一点”、“屏幕暗一点暗一点”、“音量大一点大一点”和“音量小一点小一点”等,在此不做具体限定。
精简词对应可调节的范围可以根据车辆零部件的可调节范围进行确定。例如,对车辆内的屏幕进行调节时,屏幕亮度对应可调节范围为1~5个档位,语音识别时亮度相关的每个语音请求中可以识别最多5个精简词,则精简词可调节的范围可以为1~5。语音请求包括多个精简词时,每个精简词可以调节屏幕亮度的1个档位。
又例如,对车载音响进行调节时,音量可以调整大小,即可以使用精简词“大”、“大一点”、“小一点”或“小”进行调节,音量的总调节范围为30个刻度,而语音识别时音量相关的语音请求最多可以识别10个精简词,此时,精简词可调节的范围可以为1~10,对应的每个精简词可以调节车载音响音量的3个刻度。若语音识别出精简词超过10个的语音请求,可以直接将音量调节到最大或最小。
语音交互方法还包括:
013,将控制范围和可调节范围映射到预设意图和对应的预设刻度调节精度。
步骤013可以由映射模块113实现。也即是,映射模块113可以用于将控制范围和可调节范围映射到预设意图和对应的预设刻度调节精度。
如此,将车辆零部件的控制范围和每个车辆零部件的可调节范围,映射到意图识别模型所能够理解的意图体系。针对车辆零部件的控制范围中的对象和对应的车辆零部件的可调节范围均制定一个相应的预设意图。例如:system_volume_up代表着预设意图“音量调大”和system_volume_down代表着预设意图“音量调小”,并且包含了所有可调节的范围说法,例如“音量大大大”为预设意图对应的system_volume_up,“音量大大大大”也会对此意图。如此,针对零部件控制范围和车辆零部件的可调节范围制定了一套具体的意图映射体系。
预设意图可以包括:音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。
如此,设置了多种预设意图可以进一步为识别用户的语音交互意图奠定基础,根据用户提供的带有精简词的语音请求进行不同意图的识别,从而实现相应的目标意图。
请参阅图6,步骤013可以包括:
0131,将精简词设置为槽位,对车辆零部件对应的预设识别文本进行槽位提取得到重复字段;
0132,对重复字段的槽值进行重复统计得到重复数量;
0133,根据精简词可调节的范围将重复数量映射到预设刻度调节精度对应的预设刻度调节精度。
请结合图7,映射模块113包括提取单元1131、统计单元1132和映射单元1133。
步骤0131可以由提取单元1131实现,步骤0132可以由统计单元1132和步骤0133可以由映射单元1133实现。也即是说,提取单元1131可以用于将精简词设置为槽位,对车辆零部件对应的预设识别文本进行槽位提取得到重复字段;统计单元1132可以用于对重复字段的槽值进行重复统计得到重复数量;映射单元1133可以用于根据精简词可调节的范围将重复数量映射到预设刻度调节精度对应的预设刻度调节精度。
可以理解地,精简词的重复数量可以代表对车辆零部件进行刻度调节的次数。因此,可以将精简词设置为槽位。例如,音量旋钮的精简词可调节的范围为1~10,音量旋钮对应的预设刻度调节精度范围为1~10,若语音请求对应的预设识别文本为“音量大大大大”,则可以将“大大大大”抽取为槽位,并将该槽位设置为重复字段。然后,对抽取出的重复字段的槽值进行重复统计,将其重复数量映射到对应的预设刻度调节精度,对于抽取的槽位“大大大大”,“大”的重复数量为4,则可以映射到对应的预设刻度调节精度4。
在本发明的其他实施例中,在用户允许的情况下可以关于同样刻度调节精度对应收集不同的用户指令,如关于“音量大大大”的说法,用户可以有不同自由度的展开,如“音量增增增”,“音量升升升”,“音量高高高”,识别不同的展开词所识别得到的刻度调节精度均为“音量调节3次”。
请参阅图8,步骤05包括:
051,在意图识别的结果识别出当前轮的语音请求对应的目标意图的情况下,对改写后的当前轮的语音请求进行精度识别。
步骤051可以由精度识别模块15实现。也即是说,精度识别模块15可以用于在意图识别的结果识别出当前轮的语音请求对应的目标意图的情况下,对改写后的当前轮的语音请求进行精度识别。
如此,本发明基于意图识别的结果进行精度识别,仅在意图识别的结果识别出对应的目标意图后,再进行后续精度识别的操作。
语音交互方法包括:
052,在意图识别的结果未别出当前轮的语音请求对应的目标意图的情况下,确定当前轮的语音请求的意图为非刻度调节意图。
步骤052可以由意图识别模块14实现。也即是说,意图识别模块14可以用于在意图识别的结果未别出当前轮的语音请求对应的目标意图的情况下,确定当前轮的语音请求的意图为非刻度调节意图。
如此,本发明在未识别出对应目标意图的情况下,可不进行后续操作,减少非刻度调节意图下语音交互方法的处理过程。
请结合图9,步骤03包括:
031,通过改写训练数据训练得到改写模型,改写训练数据包括相邻两轮语音请求;
032,利用上一轮的语音请求和改写模型对当前轮的语音请求进行改写。
请结合图10,语音交互装置10包括改写训练模块114。
步骤031可以用于改写训练模块114实现,步骤032可以由改写模块13实现。也即是说,改写训练模块114可以用于通过改写训练数据训练得到改写模型。改写模块13可以用于利用上一轮的语音请求和改写模型对当前轮的语音请求进行改写。
如此,本发明通过机器学习的方式,由相邻两轮语音请求训练得到改写模型,从而根据上一轮的语音请求和改写模型可以实现对当前轮的语音请求的改写,使得改写后的语音请求可以被系统识别出相应的刻度调节精度。其中,对于改写模型,可使用BERT(Bidirectional Encoder Representation from Transformers)和序列标注的方式进行模型训练,从而获取训练好的改写模型。
首先服务器可以在用户允许的情况下收集一段时间内用户的历史语音信息,此处收集到的语音请求需要至少包含两轮语音请求。其中,预计需要收集超过1万条历史语音信息。
其次,服务器可以对收集到的历史语音信息进行简单的筛选,以筛选掉明显语义不明确的语音信息,以及一些只包含语气词,比如“啊”,“哦”等较短的语音信息,留下语义明确同时包含具体目的的语音信息,比如“导航到北大”,“帮我打开空调”,“搜一下附近的医院”,“播放周杰伦的歌曲”,“今天天气怎么样”等;并且在筛选中去掉只有一轮的语音请求。
其中,改写数据可以是上述筛选后的语音请求中的相邻两轮语音请求经过标注后得到,具体地,可以由人工对相邻两轮语音请求中的第二轮语音请求进行改写标注,例如,第一轮语音请求为“音量大一点大一点”,第二轮语音请求为“小一点”,那么可以将第二轮语音请求改写标注为“音量小一点”。如此,将标注好的相邻两轮语音请求给到建立好的改写模型,在训练过程中,改写模型可以通过特征提取学习如何通过相邻两轮语音请求将第二轮语音请求改写成标注后的第二轮语音请求。
在训练过程中,标注后的语音信息中的相邻两轮语音请求划分为改写训练集和改写验证集,划分比例可根据需求设定,在此不作限定。例如改写训练集80%,改写验证集为20%。对于建立好的改写模型,先通改写训练集中的至少部分数据用于训练改写模型,然后利用改写验证集的至少部分数据对训练后的改写模型的准确率进行改写验证。在改写验证的准确率没有达到改写准确率阈值的情况下,再次通过改写训练集的至少另一部分数据对改写模型进行训练,以及再次利用改写验证集的至少另一部分数据对再次训练后的改写模型的准确率进行改写验证,如此重复训练和改写验证的过程,直到改写验证的准确率达到改写准确率阈值时,可以认为改写模型已经达标,完成改写模型的训练。
需要说明的是,改写训练集和改写验证集中的每个数据均只使用一次,在改写模型遍历改写训练集和改写验证集的所有数据均未能训练达标的情况下,可以再次在用户允许的情况下收集更多的语音信息,从而筛选并标注得到更多的改写训练数据对改写模型进行训练,从而保证改写模型能够准确对语音请求进行改写。
请参阅图11,步骤04包括:
041,通过意图训练数据训练得到意图识别模型,意图训练数据与可件进行刻度调节的车辆零部件和车辆零部件的刻度调节范围相关;
042,利用意图识别模型对改写后的当前轮的语音请求进行意图识别。
请结合图12,语音交互装置10包括意图训练模块115。
步骤041可以由意图训练模块115实现,步骤042可以由意图识别模块14实现。也即是说,意图训练模块115可以用于通过意图训练数据训练得到意图识别模型。意图识别模块14可以用于利用意图识别模型对改写后的当前轮的语音请求进行意图识别。
如此,本发明通过机器学习的方式,由可进行刻度调节的车辆零部件和车辆零部件的刻度调节范围对应的训练数据训练得到意图识别模型,进而对改写后的当前轮的语音请求进行意图识别,实现用户意图的准确识别。其中,模型训练可以利用BERT、ALBERT、XLNet、RoBERTa等模型。
其中,意图训练数据与可进行刻度调节的车辆零部件和零部件的刻度调节范围相关。车辆零部件指的是在智能汽车上可以进行刻度调节的零部件,例如:“音量旋钮”,“屏幕亮度按钮”,“空调风量旋钮/按钮”,“座椅调节旋钮/按钮”等。车辆零部件的可调节范围与与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件,可调节范围可以是档位或量程。
其中,意图训练数据可以是上述筛选后的语音信息中的相邻两轮语音请求中第一轮语音请求经过标注后得到,具体地,可以由人工对相邻两轮语音请求中的第一轮语音请求进行意图标注,可以理解,第一轮语音请求中应当包括用户需要调节的意图相关的内容,例如,第一轮语音请求为“音量大一点大一点”,用户需要调节的是音量调大2次,此时,可以通过人工将第一轮语音请求对应的意图标注为“音量调大”。如此,将标注好的第一轮语音请求给到建立好的意图识别模型,在训练过程中,意图识别模型可以通过特征提取学习如何通过输入的语音请求识别出用户想要实现的目标意图。
在训练过程中,可以将标注后的第一轮语音请求划分为意图训练集和意图验证集,划分比例可根据需求设定,在此不作限定。例如意图训练集80%,意图验证集为20%。对于建立好的意图识别模型,先利用意图训练集中的至少部分数据用于训练意图识别模型,然后利用意图验证集的至少部分数据对训练后的意图识别模型的准确率进行意图验证。在意图验证的准确率没有达到意图准确率阈值的情况下,再次通过意图训练集的至少另一部分数据对意图识别模型进行训练,以及再次利用意图验证集的另一部分数据对再次训练后的意图识别模型的准确率进行意图验证,如此重复训练和意图验证的过程,直到意图验证的准确率达到意图准确率阈值时,可以认为意图识别模型已经达标,完成意图识别模型的训练。
需要说明的是,意图训练集和意图验证集中的每个数据均只使用一次,在意图识别模型遍历意图训练集和意图验证集的所有数据均未能训练达标的情况下,可以再次在用户允许的情况下收集更多的语音信息,从而筛选并标注得到更多的意图训练数据对意图识别模型进行训练,从而保证意图识别模型能够准确识别输入的语音请求对应的意图。
请参阅13,步骤06包括:
061,获取意图识别的结果对应各个预设意图的意图判别概率;
062,将意图判别概率大于第一概率阈值的一个预设意图确定为当前轮的语音请求对应的目标意图;
063,根据目标意图和精度识别的结果完成语音交互。
请参阅图14,交互模块16包括第一获取单元161、意图确定单元162和交互单元163。
步骤061可以由第一获取单元161实现,步骤062可以由意图确定单元162实现和步骤063可以由交互单元163实现。也即是说,第一获取单元161可以用于获取意图识别的结果对应各个预设意图的意图判别概率;意图确定单元162可以用于将意图判别概率大于第一概率阈值的一个预设意图确定为当前轮的语音请求对应的目标意图;交互单元163可以用于交互单元163根据目标意图和精度识别的结果完成语音交互。
具体地,根据多个类别的预设意图对应的每个预设意图类别的识别结果,意图识别模块14可以给出各个预设意图相匹配的意图判别概率,则可以得到多个意图判别概率。若第一概率阈值为0.9,则意图识别的结果为某个类别的预设意图的意图判别概率超过0.9,那么服务端认为该类别的预设意图就是当前用户的语音请求的目标意图。第一概率阈值也可以为其他数值,第一概率阈值可以为默认设置的数值,也可以根据用户需要自行设定,在此不作限制。
如此,本发明的语音交互方法可以获取意图识别的结果对应各个预设意图的意图判别概率,将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图,从而实现识别用户精准调节车辆零部件的意图的需求。
语音交互方法包括:
064,在各个预设意图的意图判别概率均不大于第一概率阈值的情况下,确定当前轮的语音请求的意图为非刻度调节意图。
步骤064可以由意图确定单元162实现。也即是说,意图确定单元162可以用于在各个预设意图的意图判别概率均不大于第一概率阈值的情况下,确定当前轮的语音请求的意图为非刻度调节意图。
例如,当根据各个类别的预设意图对应得到的意图判别概率均不大于第一概率阈值的情况,即根据语音请求得到用户的意图识别结果与各个类别预设意图像匹配的概率比较低,均低于第一概率阈值,例如第一概率阈值可以为0.9,则确定该语音请求为非刻度调节意图,非刻度调节意图指的是对不能用带有刻度的旋钮或按钮调节的零部件的用户意图,例如,用户输入的语音请求为“车门开开开”,因为车门不是用带有刻度的旋钮或按钮进行调节的零部件,因此,该语音请求“车门开开开”是非刻度调节意图。
如此,在各个预设意图的意图判别概率均不大于第一概率阈值的情况下,确定该语音请求为非刻度调节意图,可以排除非刻度调节意图的语音请求。
请参阅图15,步骤05包括:
053,通过精度训练数据训练得到精度识别模型,精度训练数据与可件进行刻度调节的车辆零部件、零部件的刻度调节范围和零部件的刻度调节精度范围相关;
054,利用精度识别模型对改写后的当前轮的语音请求进行精度识别。
请结合图16,语音交互装置10包括精度训练模块116。
步骤053可以由精度训练模块116实现,步骤054可以由精度识别模块15实现。也即是说,精度训练模块116可以用于通过精度训练数据训练得到精度识别模型。精度识别模块15可以用于利用精度识别模型对改写后的当前轮的语音请求进行精度识别。
如此,本发明通过机器学习的方式,由可进行刻度调节的车辆零部件、车辆零部件的刻度调节范围和零部件的刻度调节精度范围对应的训练数据训练得到精度识别模型,进而对改写后的当前轮的语音请求进行精度识别,实现用户刻度调节精度的准确识别。其中,模型训练可以利用BERT、ALBERT、XLNet、RoBERTa等模型。
其中,精度训练数据与可通过车辆零部件进行刻度调节的车辆零部件、零部件的刻度调节范围相关,指的是精度训练数据包括车辆中所有可以进行刻度调节的车辆零部件,例如“音量旋钮”,“屏幕亮度按钮”,“空调风量旋钮/按钮”,“座椅调节旋钮/按钮”等。车辆零部件的可调节范围与与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件,刻度调节范围可以是档位或量程,刻度调节精度范围可以是每次调节的刻度值。
其中,精度训练数据可以是上述筛选后的语音信息中的语音请求经过标注后得到,具体地,可以由人工对相邻两轮语音请求中的语音请求进行精度标注,可以理解,语音请求中应当包括用户需要调节的刻度调节精度相关的内容,例如,语音请求为“音量大一点大一点”,用户需要调节的是音量调大2次,此时,可以通过人工将轮语音请求对应的刻度调节精度标注为“音量调节2次”。如此,将标注好的语音请求给到建立好的精度识别模型,在训练过程中,精度识别模型可以通过特征提取学习如何通过输入的语音请求识别出用户想要实现的目标刻度调节精度。
在训练过程中,可以将标注后的语音请求划分为精度训练集和精度验证集,划分比例可根据需求设定,在此不作限定。例如精度训练集80%,精度验证集为20%。对于建立好的精度识别模型,先利用精度训练集中的至少部分数据用于训练精度识别模型,然后利用精度验证集的至少部分数据对训练后的精度识别模型的准确率进行精度验证。在精度验证的准确率没有达到精度准确率阈值的情况下,再次通过精度训练集的至少另一部分数据对精度识别模型进行训练,以及再次利用精度验证集的另一部分数据对再次训练后的精度识别模型的准确率进行精度验证,如此重复训练和精度验证的过程,直到精度验证的准确率达到精度准确率阈值时,可以认为精度识别模型已经达标,完成精度识别模型的训练。
需要说明的是,精度训练集和精度验证集中的每个数据均只使用一次,在精度识别模型遍历精度训练集和精度验证集的所有数据均未能训练达标的情况下,可以再次在用户允许的情况下收集更多的语音信息,从而筛选并标注得到更多的精度训练数据对精度识别模型进行训练,从而保证精度识别模型能够准确识别输入的语音请求对应的刻度调节精度。
请参阅图17,步骤06包括:
065,获取精度识别的结果对应各个预设刻度调节精度的精度判别概率;
066,将精度判别概率大于第二概率阈值的一个预设刻度调节精度确定为语音请求对应的目标刻度调节精度;
067,根据意图识别的结果和目标刻度调节精度完成语音交互。
请参阅图18,交互模块16还包括第二获取单元164、精度确定单元165和交互单元163。
步骤065可以由第二获取单元164实现,步骤066可以由精度确定单元165实现,步骤067可以由交互单元163实现。也即是说,第二获取单元164可以用于获取精度识别的结果对应各个预设刻度调节精度的精度判别概率。精度确定单元165可以用于将精度判别概率大于第二概率阈值的一个预设刻度调节精度确定为语音请求对应的目标刻度调节精度;交互单元163可以用于根据意图识别的结果和目标刻度调节精度完成语音交互。
具体地,根据多个预设刻度调节精度对应的每个类别车辆零部件的识别结果,精度识别模块15可以给出各个预设刻度调节精度相匹配的判别概率,则可以得到多个精度判别概率。若第二概率阈值为0.9,则精度识别的结果为某个类别车辆零部件的预设刻度调节精度的精度判别概率超过0.9,那么服务端认为该类别车辆零部件的预设刻度调节精度就是当前用户的语音请求的目标刻度调节精度。第二概率阈值也可以为其他数值,第二概率阈值可以为默认设置的数值,也可以根据用户需要自行设定,在此不作限制。
如此,本发明的语音交互方法可以获取精度识别的结果对应各个预设刻度调节精度的精度判别概率,将精度判别概率大于第二概率阈值的一个预设刻度调节精度确定为语音请求对应的目标刻度调节精度,从而识别用户精准调节车辆零部件的刻度调节精度。
语音交互方法包括:
068,在各个预设刻度调节精度的精度判别概率均不大于第二概率阈值的情况下,确定当前轮的语音请求的精度识别错误。
步骤068可以由精度确定单元165实现。也即是说,精度确定单元165可以用于在各个预设刻度调节精度的精度判别概率均不大于第二概率阈值的情况下,确定当前轮的语音请求的精度识别错误。
例如,当根据各个类别的预设刻度调节精度对应得到的精度判别概率均不大于第二概率阈值的情况,即根据语音请求得到用户的精度识别结果与各个类别预设刻度调节精度像匹配的概率比较低,均低于第二概率阈值,例如第二概率阈值可以为0.9,则确定该语音请求精度识别错误,例如,用户输入的语音请求为“车门开开开”,因为车门不是用带有刻度的旋钮或按钮进行调节的零部件,因此,该语音请求“车门开开开”精度识别错误。
如此,在各个预设刻度调节精度的精度判别概率均不大于第二概率阈值的情况下,确定该语音请求精度识别错误,可以排除非刻度调节精度相关的语音请求。
可以理解,上述改写模型、意图识别模型和精度识别模型的训练可以离线进行训练,将离线训练好的改写模块13和精度识别模型部署到服务器或车辆后,服务器或车辆可以在接收到当前轮的语音请求后利用上一轮的语音请求改写模型对当前轮的语音请求进行改写,利用意图识别模块14对改写后的当前轮的语音请求进行意图识别以及利用精度识别模型对改写后的当前轮的语音请求进行精度识别。特别地,对于获取到当前轮的语音请求为两轮语音请求之后用户输入的精简语音请求,在获取上一轮的语音请求时,可以获取改写后的上一轮的语音请求。例如,当前轮的语音请求“小一点”为第三轮语音请求的情况下,若第一轮语音请求为“音量大大大大”,第二轮语音请求为“小一点”,而第二轮语音请求在完成上一次语音交互的过程中,可通过改写模型将第二轮语音请求改写为“音量小一点”,如此,对于接收到的当前轮的语音请求,步骤02读取的上一轮的语音请求可以是改写后的第二轮语音请求“音量小一点”,以便根据第二轮语音请求和改写模型可以实现对当前轮的语音请求的改写。
另外,语音交互方法可以不限于通过意图识别模型进行意图识别,而可以通过其他方式确定当前轮的语音请求的目标意图,例如,请参阅图19,语音交互方法可以包括:
001,将出现频率大于预设频率的相邻两轮语音请求添加到缓存引擎;
002,根据当前轮的语音请求和上一轮的语音请求在缓存引擎中进行缓存查询;
003,在缓存查询的结果为查询到对应缓存的情况下,确定当前轮的语音请求对应的预设意图为目标意图;
请参阅图20,语音交互方法包括查询模块117。
步骤001、步骤002和步骤003可以由查询模块117实现。也即是说,查询模块117可以用于将使用频率大于预设频率的相邻两轮语音请求添加到缓存引擎,用于根据当前轮的语音请求和上一轮的语音请求在缓存引擎中进行缓存查询,以及用于在缓存查询的结果为查询到对应缓存的情况下,根据映射关系确定当前轮语音请求对应的预设意图为目标意图。
如此,本发明缓存引擎的缓存由使用频率高于预设频率相邻两轮语音请求构成,实现高频集语音请求的统计。
具体地,服务器可以对上述筛选后的语音请求进行高频集统计,统计相邻两轮语音请求的出现频率。其中,统计相邻两轮语音请求作为唯一值出现的次数,当出现次数大于一定次数时,可以认为对应的相邻两轮语音请求的出现频率大于预设频率。
比如,第一轮语音请求为“音量大一点大一点”,第二轮语音请求为“小一点”的情况,在筛选出来的语音信息中出现的次数超过预定次数,则可以将 “音量大一点大一点”和“小一点”的相邻两轮语音请求加入到缓存引擎中。
请参阅图21,步骤001包括:
0011,建立当前轮的语音请求与预设意图之间的映射关系。
步骤0011可以由查询模块117实现。也即是说,查询模块117可以用于建立当前轮的语音请求与预设意图之间的映射关系。
如此,本发明建立当前轮的语音请求与预设意图之间的映射关系后,将每个预设意图与对应的相邻两轮语音请求相关联,从而在缓存引擎中查询可以实现语音请求对应意图的确定。
应当理解,上一轮的语音请求和当前轮的语音请求为相邻的两轮,其中确定缓存引擎的相邻两轮语音请求中,当前轮的语音请求与预设意图之间的映射关系后,即可确定上一轮的语音请求和当前轮的语音请求结合是否属于高频集指令,以及是否可以根据高频集指令对应的预设意图确定当前轮的语音请求的目标意图。
比如,上一轮的语音请求为“音量大一点大一点”,当前轮的语音请求为“小一点”,那么可以关联“音量大一点大一点”和“小一点”这相邻两轮语音请求中,当前轮的语音请求“小一点”对应的预设意图为“音量调小”。
请参阅图22,步骤003包括:
0031,在缓存查询的结果为查询到对应缓存的情况下,根据映射关系确定当前轮的语音请求对应的预设意图为目标意图。
步骤0031可以由查询模块117实现。也即是说,查询模块117可以用于在缓存查询的结果为查询到对应缓存的情况下,根据映射关系确定当前轮的语音请求对应的预设意图为目标意图。
如此,本发明在缓存引擎中查询到与当前轮的语音请求和上一轮的语音请求相应的相邻两轮语音请求的情况下,根据建立好的当前轮的语音请求与预设意图之间的映射关系,可以直接确定当前轮的语音请求对应的目标意图,从而可以根据确定好的当前轮的语音请求对应的目标意图完成语音交互。
例如,上一轮的语音请求为“音量大一点大一点”,当前轮的语音请求为“小一点”,若在缓存引擎中查询到缓存的相邻两轮语音请求为“音量大一点大一点”和“小一点”,且“小一点”对应的预设意图为“音量调小”,则可以直接确定当前轮的语音请求的目标意图为查询到的预设意图“音量调小”,从而可以根据“音量调小”的意图通过语音交互模拟对车辆零部件的操作,实现多轮语音请求下,用户意图的准确识别。
需要说明的是,查询缓存引擎可以在利用意图识别模型进行意图识别之前进行,在缓存引擎中查询到与当前轮的语音请求和上一轮的语音请求相应的相邻两轮语音请求的情况下,根据映射关系确定当前轮语音请求对应的预设意图为目标意图,此时可以不需要通过意图识别模型对当前轮的语音请求进行意图识别,从而可以减少语音交互过程中的处理操作,通过缓存引擎和意图识别模型相结合的方式,实现语音交互过程中意图的准确识别。在缓存引擎中没有查询到与当前轮的语音请求和上一轮的语音请求相应的相邻两轮语音请求的情况下,再利用意图识别模型进行意图识别。
另外,语音交互方法也可以不限于通过精度识别模型进行精度识别,而可以通过其他方式确定当前轮的语音请求的目标意图,例如,请参阅图23,语音交互方法可以包括:
004,对出现频率大于预设频率的相邻两轮语音请求进行反向挖掘,以构建正则引擎。
请结合图24,语音交互装置10包括正则引擎模块118。
步骤004可以由正则引擎模块118实现。也即是说,正则引擎模块118可以用于对出现频率大于预设频率的相邻两轮语音请求进行反向挖掘,以构建正则引擎。
如此,本发明通过对出现频率大于预设频率相邻两轮语音请求构进行反向挖掘,实现高频集语音请求的正则引擎构建。
服务器可以对筛选后的语音请求进行高频集统计,将出现频率大于预设频率的相邻两轮语音请求通过反向挖掘可提取的抽取模板,收集到高频规则并构建正则引擎。其中,出现频率可以是指在收集到的语音信息中,对应的相邻两轮语音请求出现的次数,当出现次数大于一定次数时,可以认为对应的相邻两轮语音请求的使用频率大于预设频率。
比如,第一轮语音请求为“音量大大大”,第二轮语音请求为“小一点”,可以通过反向挖掘映射为一条规则“(音量) xxx [小一点]*”,其中中括号代表“小一点可以匹配一次或者多次重复”,从而通过各个高频规则建立正则引擎。
语音交互方法包括:
005,利用正则引擎识别当前轮的语音请求和上一轮的语音请求对应的刻度调节精度;
006,在正则引擎的识别结果为识别到对应刻度调节精度的情况下,根据意图识别结果和正则引擎识别到的刻度调节精度完成语音交互。
步骤005可以由正则引擎模块118实现。也即是说,正则引擎模块118可以用于利用正则引擎识别当前轮的语音请求和上一轮的语音请求对应的刻度调节精度。交互模块16可以用于在正则引擎的识别结果为识别到对应刻度调节精度的情况下,根据意图识别结果和正则引擎识别到的刻度调节精度完成语音交互。
如此,本发明建立正则引擎中,对于当前轮的语音请求和上一轮的语音请求进行识别可以确定是否属于高频集指令,在当前轮的语音请求和上一轮的语音请求属于高频集指令的情况下,正则引擎可识别出对应的刻度调节精度,从而可以根据识别出的刻度调节精度完成语音交互。
比如,第一轮语音请求为“音量大一点大一点”,第二轮语音请求为“小一点小一点”,那么可以映射到规则“(音量)xxx[小一点]*2”,若该规则为高频集指令对应的规则,则正则引擎可以识别到“小一点”重复了2次,从而对应的刻度调节精度为“音量调节2次”,通过语音交互模拟对车辆零部件的操作,实现多轮语音请求下,刻度调节精度的准确识别。
需要说明的是,利用正则引擎识别刻度调节精度可以在利用意图识别模型进行精度识别之前进行,在正则引擎的识别结果为识别到对应刻度调节范围的情况下,根据识别到的刻度调节范围,此时可以不需要通过精度识别模型对当前轮的语音请求进行精度识别,从而可以减少语音交互过程中的处理操作,通过正则引擎和精度识别模型相结合的方式,实现语音交互过程中刻度调节精度的准确识别。
特别地,获取上一轮的语音请求之后,可先进行缓存引擎查询和正则引擎识别,在缓存查询的结果为查询到对应缓存,且正则引擎的识别结果为识别到对应刻度调节精度的情况下,可直接根据查询到对应缓存确定的目标意图和正则引擎识别结果的刻度调节精度完成语音交互,而无需对当前轮的语音请求进行改写,也无需通过意图识别模型进行意图识别和精度识别模型进行精度识别。
请参阅图25,本发明还提供一种服务器20。该服务器20包括处理器21和存储器22,存储器22上存储有计算机程序221,当计算机程序221被处理器21执行时,实现上述任意一个实施例中的语音交互方法。
本发明的服务器20通过处理器21执行计算机程序221,可以在接收到用户对于车辆预设功能的语音请求后,通过读取上一轮的语音请求,利用上一轮的语音请求改写当前轮的语音请求以使得改写后的语音请求可以被车辆的车载系统识别出相应的意图和刻度调节精度,从而对改写后的当前轮的语音请求进行意图识别和精度识别后,可以准确识别出用户的需要调节的意图和刻度调节范围,进而可以根据意图识别的结果和精度识别的结果下发控制指令,以控制对应的车辆零部件,完成语音交互。通过指令改写和机器学习模型相结合的方式对语音请求进行意图识别和精度识别,实现多轮语音请求下,准确识别出通过语音交互来模拟对车辆零部件的操作实现刻度调节的用户意图和刻度调节精度。
请参阅图26,本发明还提供一种包含有计算机程序31的非易失性计算机可读存储介质30。当计算机程序30被一个或多个处理器40执行时,实现上述任意实施条例的语音交互方法。
例如,计算机程序31被处理器40执行时实现以下数据处理方法的步骤:
01,接收车辆转发的对车辆预设功能调节的当前轮的语音请求,预设功能指模拟对车辆零部件的操作进行刻度调节的功能;
02,读取对车辆预设功能调节的上一轮的语音请求;
03,利用上一轮的语音请求对当前轮的语音请求进行改写;
04,对改写后的当前轮的语音请求进行意图识别;
05,对改写后的当前轮的语音请求进行精度识别;
06,根据意图识别的结果和精度识别的结果完成语音交互。
可以理解地,计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
本发明的计算机可读存储介质30存储的计算机程序31被处理器40执行时,可以在接收到用户对于车辆预设功能的语音请求后,通过读取上一轮的语音请求,利用上一轮的语音请求改写当前轮的语音请求以使得改写后的语音请求可以被车辆的车载系统识别出相应的意图和刻度调节精度,从而对改写后的当前轮的语音请求进行意图识别和精度识别后,可以准确识别出用户的需要调节的意图和刻度调节范围,进而可以根据意图识别的结果和精度识别的结果下发控制指令,以控制对应的车辆零部件,完成语音交互。通过指令改写和机器学习模型相结合的方式对语音请求进行意图识别和精度识别,实现多轮语音请求下,准确识别出通过语音交互来模拟对车辆零部件的操作实现刻度调节的用户意图和刻度调节精度。

Claims (14)

1.一种语音交互方法,其特征在于,包括:
接收车辆转发的对车辆预设功能调节的当前轮的语音请求,所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能;
读取对车辆预设功能调节的上一轮的语音请求;
利用所述上一轮的语音请求对所述当前轮的语音请求进行改写;
对改写后的所述当前轮的语音请求进行意图识别;
对改写后的所述当前轮的语音请求进行精度识别;
根据所述意图识别的结果和所述精度识别的结果完成语音交互。
2.根据权利要求1所述的语音交互方法,其特征在于,所述对改写后的所述当前轮的语音请求进行精度识别,包括:
在所述意图识别的结果识别出所述当前轮的语音请求对应的目标意图的情况下,对改写后的所述当前轮的语音请求进行精度识别。
3.根据权利要求2所述的语音交互方法,其特征在于,所述语音交互方法包括:
在所述意图识别的结果未别出所述当前轮的语音请求对应的目标意图的情况下,确定所述当前轮的语音请求的意图为非刻度调节意图。
4.根据权利要求1所述的语音交互方法,其特征在于,所述利用所述上一轮的语音请求对所述当前轮的语音请求进行改写,包括:
通过改写训练数据训练得到改写模型,所述改写训练数据包括相邻两轮语音请求;
利用所述上一轮的语音请求和所述改写模型对所述当前轮的语音请求进行改写。
5.根据权利要求1所述的语音交互方法,其特征在于,所述对改写后的所述当前轮的语音请求进行意图识别,包括:
通过意图训练数据训练得到意图识别模型,所述意图训练数据与可进行刻度调节的车辆零部件和所述车辆零部件的刻度调节范围相关;
利用所述意图识别模型对改写后的所述当前轮的语音请求进行意图识别。
6.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述意图识别的结果和精度识别的结果完成语音交互,包括:
获取所述意图识别的结果对应各个预设意图的意图判别概率;
将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述当前轮的语音请求对应的目标意图;
根据所述目标意图和所述精度识别的结果完成语音交互。
7.根据权利要求6所述的语音交互方法,其特征在于,所述预设意图包括:音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。
8.根据权利要求6所述的语音交互方法,其特征在于,所述语音交互方法包括:
在各个所述预设意图的所述意图判别概率均不大于第一概率阈值的情况下,确定所述当前轮的语音请求的意图为非刻度调节意图。
9.根据权利要求1所述的语音交互方法,其特征在于,所述对改写后的所述当前轮的语音请求进行精度识别,包括:
通过精度训练数据训练得到精度识别模型,所述精度训练数据与可进行刻度调节的车辆零部件、所述零部件的刻度调节范围和所述零部件的刻度调节精度范围相关;
利用所述精度识别模型对改写后的所述当前轮的语音请求进行精度识别。
10.根据权利要求9所述的语音交互方法,其特征在于,所述根据所述意图识别的结果和所述精度识别的结果完成语音交互,包括:
获取所述精度识别的结果对应各个预设刻度调节精度的精度判别概率;
将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度确定为所述语音请求对应的目标刻度调节精度;
根据所述意图识别的结果和所述目标刻度调节精度完成语音交互。
11.根据权利要求10所述的语音交互方法,其特征在于,所述语音交互方法包括:
在各个所述预设刻度调节精度的所述精度判别概率均不大于第二概率阈值的情况下,确定所述当前轮的语音请求的精度识别错误。
12.一种语音交互装置,其特征在于,所述语音交互装置包括:
接收指令模块,所述接收指令模块用于接收车辆转发的对车辆预设功能调节的当前轮的语音请求,所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能;
读取指令模块,所述读取指令模块用于读取对车辆预设功能调节的上一轮的语音请求;
改写模块,所述改写模块用于利用所述上一轮的语音请求对所述当前轮的语音请求进行改写;
意图识别模块,所述意图识别模块用于对改写后的所述当前轮的语音请求进行意图识别;
精度识别模块,所述精度识别模块用于对改写后的所述当前轮的语音请求进行精度识别;
交互模块,所述交互模块用于根据所述意图识别的结果和所述精度识别的结果完成语音交互。
13.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1-11任一项所述的语音交互方法。
14.一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-11任一项所述的语音交互方法。
CN202111593792.4A 2021-12-24 2021-12-24 语音交互方法及其装置、服务器和可读存储介质 Active CN113990299B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111593792.4A CN113990299B (zh) 2021-12-24 2021-12-24 语音交互方法及其装置、服务器和可读存储介质
PCT/CN2022/138574 WO2023116500A1 (zh) 2021-12-24 2022-12-13 语音交互方法及其装置、服务器和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111593792.4A CN113990299B (zh) 2021-12-24 2021-12-24 语音交互方法及其装置、服务器和可读存储介质

Publications (2)

Publication Number Publication Date
CN113990299A true CN113990299A (zh) 2022-01-28
CN113990299B CN113990299B (zh) 2022-05-13

Family

ID=79734218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111593792.4A Active CN113990299B (zh) 2021-12-24 2021-12-24 语音交互方法及其装置、服务器和可读存储介质

Country Status (2)

Country Link
CN (1) CN113990299B (zh)
WO (1) WO2023116500A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990298A (zh) * 2021-12-24 2022-01-28 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质
CN115083413A (zh) * 2022-08-17 2022-09-20 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115346530A (zh) * 2022-10-19 2022-11-15 亿咖通(北京)科技有限公司 一种语音控制方法、装置、设备、介质、系统及车辆
WO2023116500A1 (zh) * 2021-12-24 2023-06-29 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108040171A (zh) * 2017-11-30 2018-05-15 北京小米移动软件有限公司 语音操作方法、装置及计算机可读存储介质
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN111008532A (zh) * 2019-12-12 2020-04-14 广州小鹏汽车科技有限公司 语音交互方法、车辆和计算机可读存储介质
CN112562684A (zh) * 2020-12-08 2021-03-26 维沃移动通信有限公司 一种语音识别方法、装置和电子设备
CN112581955A (zh) * 2020-11-30 2021-03-30 广州橙行智动汽车科技有限公司 语音控制方法、服务器、语音控制系统和可读存储介质
CN113031905A (zh) * 2020-06-28 2021-06-25 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器、系统和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699023A (zh) * 2013-11-29 2014-04-02 安徽科大讯飞信息科技股份有限公司 车载设备多候选poi的控制方法及系统
US10373611B2 (en) * 2014-01-03 2019-08-06 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification
CN105760154A (zh) * 2016-01-27 2016-07-13 广东欧珀移动通信有限公司 一种音频控制方法和装置
US20190179416A1 (en) * 2017-12-12 2019-06-13 Ford Global Technologies, Llc Interactive vehicle speech recognition and correction system
US20200047687A1 (en) * 2018-08-10 2020-02-13 SF Motors Inc. Exterior speech interface for vehicle
CN111752169A (zh) * 2019-03-27 2020-10-09 广州汽车集团股份有限公司 一种车载终端控制方法、装置及系统
KR20210072471A (ko) * 2019-12-09 2021-06-17 현대자동차주식회사 음성 명령 인식 장치 및 그 방법
CN111311948B (zh) * 2020-02-19 2021-07-13 广州小马智行科技有限公司 自动驾驶车辆的控制方法和装置、存储介质和运载工具
CN112164401B (zh) * 2020-09-18 2022-03-18 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN113435196B (zh) * 2021-06-22 2022-07-29 平安科技(深圳)有限公司 意图识别方法、装置、设备及存储介质
CN113990299B (zh) * 2021-12-24 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108040171A (zh) * 2017-11-30 2018-05-15 北京小米移动软件有限公司 语音操作方法、装置及计算机可读存储介质
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN111008532A (zh) * 2019-12-12 2020-04-14 广州小鹏汽车科技有限公司 语音交互方法、车辆和计算机可读存储介质
CN113031905A (zh) * 2020-06-28 2021-06-25 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器、系统和存储介质
CN112581955A (zh) * 2020-11-30 2021-03-30 广州橙行智动汽车科技有限公司 语音控制方法、服务器、语音控制系统和可读存储介质
CN112562684A (zh) * 2020-12-08 2021-03-26 维沃移动通信有限公司 一种语音识别方法、装置和电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990298A (zh) * 2021-12-24 2022-01-28 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质
CN113990298B (zh) * 2021-12-24 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质
WO2023116500A1 (zh) * 2021-12-24 2023-06-29 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质
CN115083413A (zh) * 2022-08-17 2022-09-20 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115083413B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115346530A (zh) * 2022-10-19 2022-11-15 亿咖通(北京)科技有限公司 一种语音控制方法、装置、设备、介质、系统及车辆

Also Published As

Publication number Publication date
CN113990299B (zh) 2022-05-13
WO2023116500A1 (zh) 2023-06-29

Similar Documents

Publication Publication Date Title
CN113990299B (zh) 语音交互方法及其装置、服务器和可读存储介质
CN113990298B (zh) 语音交互方法及其装置、服务器和可读存储介质
CN113990301B (zh) 语音交互方法及其装置、服务器和可读存储介质
DE102018128006A1 (de) Natürlichsprachliche generierung basierend auf dem benutzersprachstil
CN104123936A (zh) 对话系统自动训练方法、对话系统及用于车辆的控制装置
WO2023125002A1 (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
DE102018128003A1 (de) Neuronales netzwerk zum anwenden bei der spracherkennungsarbitrierung
CN114360518A (zh) 语音交互方法及其装置、服务器和可读存储介质
CN114049894A (zh) 语音交互方法及其装置、车辆和存储介质
US20240046931A1 (en) Voice interaction method and apparatus
CN110956967A (zh) 基于声纹识别的车辆控制方法与车辆
CN116028821B (zh) 融合领域知识的预训练模型训练方法、数据处理方法
CN114299929A (zh) 语音交互方法及装置、服务器及存储介质
CN114299931A (zh) 语音交互方法及其装置、服务器和可读存储介质
CN115064170B (zh) 语音交互方法、服务器和存储介质
CN116645683A (zh) 基于提示学习的签名笔迹鉴别方法、系统及存储介质
CN115512696A (zh) 模拟训练方法及车辆
CN114360519A (zh) 语音交互方法及其装置、服务器和可读存储介质
CN113696849B (zh) 基于手势的车辆控制方法、装置和存储介质
CN113504891B (zh) 一种音量调节方法、装置、设备以及存储介质
DE102021212744A1 (de) Dialogsystem, fahrzeug mit demselben und verfahren zum steuern eines dialogsystems
CN111008546B (zh) 一种传感器输出信号的识别方法及装置
CN114005448A (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
US20220165264A1 (en) Dialogue system, vehicle, and method of controlling dialogue system
DE102022133571A1 (de) Vorrichtung zur verarbeitung natürlicher sprache und verfahren zur verarbeitung natürlicher sprache

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant