CN117831504A - 车辆语音交互方法、服务器以及存储介质 - Google Patents
车辆语音交互方法、服务器以及存储介质 Download PDFInfo
- Publication number
- CN117831504A CN117831504A CN202311873364.6A CN202311873364A CN117831504A CN 117831504 A CN117831504 A CN 117831504A CN 202311873364 A CN202311873364 A CN 202311873364A CN 117831504 A CN117831504 A CN 117831504A
- Authority
- CN
- China
- Prior art keywords
- language
- preset
- target
- corpus
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000003993 interaction Effects 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 154
- 238000012545 processing Methods 0.000 claims abstract description 110
- 230000008569 process Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 abstract description 7
- 238000012827 research and development Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 23
- 239000013598 vector Substances 0.000 description 11
- 238000005070 sampling Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种车辆语音交互方法,包括:接收车辆转发的目标语种语音请求,其中目标语种非汉语且非英语;根据预设语料集,确定目标语种训练语料,其中预设语料集的语种为汉语和英语;根据目标语种语音请求以及预设语言处理模型,确定与目标语种语音请求对应的目标语义标签,其中预设语言处理模型根据预设提示文本以及目标语种训练语料经训练得到;根据目标语义标签,执行语音交互。本申请通过上述的方式,基于通用语以及少量的根据通用语种确定的非通用语种训练语料,对大语言模型进行训练,得到一个能够直接应用于对应非通用语种的语言处理模型,规避了可参考数据少、研发人员难以开发非通用语种内容的问题,有效提高研发效率、降低研发难度。
Description
技术领域
本申请涉及车辆语音处理技术领域,具体涉及一种车辆语音交互方法、服务器以及计算机可读存储介质。
背景技术
在目前新能源车辆出口的背景下,车机系统对非通用语种语音请求的支持变得越来越重要,比如挪威语、荷兰语等非通用语种。但非通用语种的语义标签标注数据非常少,标注的成本明显高于通用语种。而车机系统的研发者一般并不能掌握非通用语种,进而导致对车机系统非通用语种语音请求的支持存在很高的研发难度。
发明内容
本申请提供了一种车辆语音交互方法、服务器以及计算机可读存储介质。
本申请实施方式涉及的车辆语音交互方法,包括如下步骤:
接收车辆转发的目标语种语音请求,其中所述目标语种非汉语且非英语;
根据预设语料集,确定目标语种训练语料,其中所述预设语料集的语种为汉语和英语;
根据所述目标语种语音请求以及预设语言处理模型,确定与所述目标语种语音请求对应的目标语义标签,其中所述预设语言处理模型根据预设提示文本以及所述目标语种训练语料经训练得到;
根据所述目标语义标签,执行语音交互。
如此,本申请能够基于通用语言的语料集确定出对应目标语种的训练语料,并基于上述的训练语料以及预设的提示文本,引导大语言模型在车辆功能的领域内进行语义标签生成训练,生成上述的预设语言处理模型,最后利用该模型针对用户输入的非通用语种下的语音请求进行语义识别,确定出对应的目标语义标签,最终根据语义标签执行相关的车辆功能,实现交互功能。本申请通过上述的方式,基于通用语以及少量的根据通用语种确定的非通用语种训练语料,对大语言模型进行训练,得到一个能够直接应用于对应非通用语种的语言处理模型,规避了可参考数据少、研发人员难以开发非通用语种内容的问题,有效提高了研发效率、降低了研发难度。
在某些实施方式中,所述根据预设语料集,确定目标语种提示文本、以及目标语种训练语料,包括:
获取所述预设语料集当中的多条语料文本以及对应的语义标签;
根据所述语料文本、所述语义标签,确定目标语种训练语料,其中所述目标语种训练语料包括目标语种训练语料文本、以及与所述目标语种训练语料文本对应的目标语种语义标签。
如此,本申请能够根据通用语种的预设与料及确定出用于训练的语料文本以及语义标签,并进一步利用用于训练的数据翻译确定出非通用语种中对应的用于训练的语料文本以及语义标签。
在某些实施方式中,所述预设语言处理模型经过如下步骤训练得到:
根据所述预设提示文本,将预设的大语言模型的解码侧重引导至目标垂直领域;
根据所述目标语种训练语料,对已被引导的所述大语言模型执行训练处理,确定所述预设语言处理模型。
如此,本申请能够根据预设的提示文本将预设的大语言模型引导到对应垂直领域内,并基于上述非通用语种的训练语料针对预设的大语言模型进行训练处理,确定出预的设语言处理模型。
在某些实施方式中,所述根据所述目标语种训练语料,对所述大语言模型执行训练处理,确定所述预设语言处理模型,包括:
根据所述目标语种训练语料,以第一语句形式输入给所述大语言模型;
对所述大语言模型进行有监督微调的训练处理,确定所述预设语言处理模型。
如此,本申请能够通过具有输入输出示例的指令形式的非通用语种训练语料,在有监督微调的规则下对大语言模型进行训练。
在某些实施方式中,所述根据所述目标语种训练语料,对所述大语言模型执行训练处理,确定所述预设语言处理模型,还包括:
基于预设的大规模模型分布式训练工具,根据所述目标语种训练语料,对所述大语言模型执行训练处理,确定所述预设语言处理模型。
如此,本申请还能通过预设的训练工具提高训练的效率。
在某些实施方式中,所述根据所述目标语种训练语料,对所述大语言模型执行训练处理,确定所述预设语言处理模型,之后还包括:
对所述预设语言处理模型进行轻量化处理。
如此,本申请还能够对生成的语言处理模型进行轻量化处理,使训练得到的预设语言处理模型能够部署到存储空间有限、网络连接条件有限的车辆或设备上。
在某些实施方式中,所述根据所述目标语种语音请求以及预设语言处理模型,确定与所述目标语种语音请求对应的目标语义标签,包括:
根据所述目标语种语音请求对应的语音文本,确定所述预设语言处理模型的输入数据;
根据所述输入数据以及所述预设语言处理模型,确定所述目标语种语音请求对应的目标语义标签。
如此,本申请能够利用非通用语种的语音请求直接得到一个车机系统能够直接识别的目标语义标签。
在某些实施方式中,所述根据所述目标语种语音请求对应的语音文本,确定所述预设语言处理模型的输入数据,包括:
根据所述目标语种对应的预设语音识别模型,确定所述目标语种语音请求对应的语音文本。
如此,本申请还能够基于支持非通用语种的识别模型将语音请求转换为输入的文本。
本申请的实施方式的服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述的方法。
本申请实施方式的计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行的情况下,实现上述的方法。
本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施方式中的车辆语音交互方法的流程示意图;
图2为本申请实施方式中的车辆语音交互方法的流程示意图;
图3为本申请实施方式中的车辆语音交互方法的流程示意图;
图4为本申请实施方式中的车辆语音交互方法的流程示意图;
图5为本申请实施方式中的车辆语音交互方法的流程示意图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的实施方式的限制。
如图1所示,本申请实施方式中的车辆语音交互方法,具体包括如下步骤:
01:接收车辆转发的目标语种语音请求,
其中目标语种非汉语且非英语;
02:根据预设语料集,确定目标语种训练语料,
其中预设语料集的语种为汉语和英语;
03:根据目标语种语音请求以及预设语言处理模型,确定与目标语种语音请求对应的目标语义标签,
其中预设语言处理模型根据预设提示文本以及目标语种训练语料经训练得到;
04:根据目标语义标签,执行语音交互。
本申请实施方式中的车辆语音交互装置,可以实现上述的车辆语音交互方法。具体地,车辆语音交互装置包括数据接收模块、训练语料确定模块、模型处理模块以及功能交互模块。其中数据接收模块用于接收车辆转发的目标语种语音请求,训练语料确定模块用于根据预设语料集,确定目标语种训练语料,模型处理模块用于根据目标语种语音请求以及预设语言处理模型,确定与目标语种语音请求对应的目标语义标签,功能交互模块用于根据目标语义标签,执行语音交互。
本申请实施方式中的服务器,可以实现上述的车辆语音交互方法。具体地,服务器包括存储器与处理器,其中存储器存储有计算机程序,处理器用于接收车辆转发的目标语种语音请求,以及用于根据预设语料集,确定目标语种训练语料,以及用于根据目标语种语音请求以及预设语言处理模型,确定与目标语种语音请求对应的目标语义标签,以及用于根据目标语义标签,执行语音交互。
具体地,在目前新能源车辆出口的背景下,车机系统对非通用语种语音请求的支持变得越来越重要。通用语种与非通用语种在不同的语境下存在不同的定义,在车辆应用领域可以将除汉语以及英语以外的其他语种归为非通用语种,汉语与英语为通用语种。这样一来,非通用语种的语义标签标注数据相比于通用语种而言数量上少很多,语义标注的时间成本明显高于通用语种。同时,车机系统的研发者一般并不能掌握非通用语种,进而导致对车机系统非通用语种语音请求的支持存在很高的研发难度。
为了解决上述的问题,本申请提出了一种车辆语音交互方法,能够实现通过非通用语种的语音请求输入直接实现与车机系统的交互过程,同时降低上述背景中出现的研发难度较高、可参考资料较少的问题。
首先,预先接收车辆转发的、非通用语种下的目标语种语音请求。在本申请接下来的各个示例中,将以挪威语作为非通用语种的代表示例,即在本申请接下来的各个示例中,所谓“目标语种”对应于挪威语。
接下来,从一个预设的语料集当中按照预设的抽样规则,抽出部分语料并进行处理,将上述语料转变成目标语种,并利用转变后的语料对大语言模型进行训练。其中,上述预设的语料集的语种为通用语种汉语以及英语,主要目的在于扩大语料的可收集范围。
另外,在得到了用于训练的语料后,即可以针对预设的大语言模型进行定向的训练,将预设的大语言模型训练为能够针对目标语种的语言文本进行语义识别的语言处理模型。在训练得到了上述的语言处理模型后,直接将目标语种语音请求输入到语言处理模型中,得到与目标语种语音请求相对应的语义标签识别结果(对应于目标语义标签)。最后车辆根据上述的语义标签识别结果执行对应的功能,从而完成整个交互过程。
如此,本申请通过上述的方式,基于通用语以及少量的根据通用语种确定的非通用语种训练语料,对大语言模型进行训练,得到一个能够直接应用于对应非通用语种的语言处理模型,规避了可参考数据少、研发人员难以开发非通用语种内容的问题,有效提高了研发效率、降低了研发难度。
如图2所示,在某些实施方式中,步骤02包括:
021:获取预设语料集当中的多条语料文本以及对应的语义标签;
022:根据语料文本、语义标签,确定目标语种训练语料,
其中目标语种训练语料包括目标语种训练语料文本、以及与目标语种训练语料文本对应的目标语种语义标签。
在某些实施方式中,训练语料确定模块还用于获取预设语料集当中的多条语料文本以及对应的语义标签,以及用于根据语料文本、语义标签,确定目标语种训练语料。
在某些实施方式中,处理器还用于获取预设语料集当中的多条语料文本以及对应的语义标签,以及用于根据语料文本、语义标签,确定目标语种训练语料。
具体地,对于上述的预设语料集,其语种为汉语以及英语这两种通用语种。因为大语言模型(LLM,Large Language Model)有语言迁移能力,即不同语言但语义相同的词语经过词语嵌入处理(word embedding)之后,这些词语对应的词向量在语义空间中的相似度是很高的。所以通用语种的语料同样可以用来提升目标语种的效果。而汉语以及英语的车载对话系统一般比较成熟,有大量的训练语料可以使用,因此可以直接利用通用语种的语料作为原始数据,在转换成目标语种后针对模型进行训练,即可以有效扩大训练用语料的数量规模。
比如在InstructGPT语料中,英语语料占比约为96%,而除英语以外的其他语种语料占比约为4%.为了提高目标语种的训练语料的数量规模,可以采用上述语料库中的英语语料部分作为原始数据,具体解释如下:
英语语料示例“openthewindow”,根据上述语料可以确定出车辆对应的功能意图“WindowOpen”,即打开车窗功能。而对于同样的功能意图,挪威语语料示例为
在大语言模型进行语义标签识别处理时,比如针对“open the window”这一语料,模型会通过词语嵌入处理将上述语料转换为一个向量(0.5678,1.2479,5.8914,…,0.9854),该向量表示语义空间中的一个点。同样地,针对这一语料,同样会根据上述的规则生成一个用于表示语义空间中的一个点的向量,上述的两个向量代表的点越接近,也即两个向量间的相似度越高,意味着两组语料的语义也就越接近。而对于语料中的每一个词,也可以分别转换成各自对应的词向量。比如,模型计算处理可知,“open”与的词向量相近,“window”与“vinduet”的词向量接近。
因此,用于对模型进行训练的训练语料可以从英语语料库中获取,可以有效提高训练语料的数量规模。
在这样的情况下,在某些示例中,可以通过直接从通用语种下的预设语料集当中获取用于生成训练用语料数据的原始语料数据,其中每一条原始语料数据包括了语料文本自身以及与语料文本对应的语义标签。语料文本即对应于实际应用场景中的语音请求,而语义标签对应于实际应用场景中预设语言处理模型输出的目标语义标签。需要注意的是,由于预设语音识别模型输出的语义标签是用于车机系统识别的,因此目标语种训练语料中的语义标签部分的语种与车机系统的默认语种相同,一般为英语。
获取原始语料数据的过程,一般是通过均衡采样的方式进行数据收集,也即针对每个车辆功能点采集同样个数的原始语料数据。如果某些功能点对应的样本数过少,可以通过数据增强和线上数据挖掘技术增加样本数量。另外在相同功能点下,尽量采集语义形态多样性较强的样本,可以通过句向量+语义相似度+文本聚类技术来实现上述的效果。
另外,由于预设的语料库中语料繁多,有可能存在较多的无效语料,也即无法与车辆功能点相对应的语料。为了避免数据干扰,还需要针对预设语料库进行语料清洗,比如通过置信学习的方式,将置信度不满足要求的语料排除在外,在采样时对于排除在外的语料不予考虑。
在通过对预设语料集采样得到了多个语音文本以及对应的语义标签后,即可以通过翻译手段将上述的语音文本以及语义标签转换为目标语种,从而得到能够用于训练模型的目标语种训练语料,与采样得到的语料数据相对应地,目标语种训练语料也包括语音文本以及语义标签两部分。
如此,本申请能够根据通用语种的预设与料及确定出用于训练的语料文本以及语义标签,并进一步利用用于训练的数据翻译确定出非通用语种中对应的用于训练的语料文本以及语义标签。
如图3所示,在某些实施方式中,语言处理模型经过如下步骤训练得到:
001:根据预设提示文本,将大语言模型的解码侧重引导至目标垂直领域;
002:根据目标语种训练语料,对已被引导的大语言模型执行训练处理,确定预设语言处理模型。
在某些实施方式中,车辆语音交互装置还包括模型训练模块,模型训练模块具体用于根据预设提示文本,将大语言模型的解码侧重引导至目标垂直领域,以及用于根据目标语种训练语料,对已被引导的大语言模型执行训练处理,确定预设语言处理模型。
在某些实施方式中,处理器还用于根据预设提示文本,将大语言模型的解码侧重引导至目标垂直领域,以及用于根据目标语种训练语料,对已被引导的大语言模型执行训练处理,确定预设语言处理模型。
具体地,接下来对预设语言处理模型的训练过程进行示例性说明。
在上述实施方式的基础上,确定了目标语种训练语料。为了能够让大语言模型能够对输入的训练语料在车辆功能方面进行解码,避免大语言模型对于训练语料涉及的功能领域出现理解偏差的情况,在某些示例中,首先应使用预设的提示文本对大语言模型进行引导,将其解码侧重点引导到车辆功能这一领域里来。上述的预设提示文本的语种不限,可以是通用语种,也可以是非通用语种。无论是何种语种的提示文本,在语义理解以及相关的语义数据处理方面,大语言模型都能够实现相同或相近的效果,因此无需故意区分提示文本的语言类型。
比如如下的汉语提示文本示例:
“‘
我们可以通过车内显示屏上的“系统设置”功能来对声音、蓝牙、屏幕这些设备进行设置。
“声音设置”可以调节音量,音量包括:媒体音量,蓝牙耳机音量,语音播报音量,导航播报音量,通话音量。
媒体音量可以调大、调小、设为最大、设为最小、设为N(N是一个0-30的数字)。
”’
再比如如下的英语提示文本示例:
“‘
We can set up these devices through the"system setting"function onthe car'sdisplay screen.
“Audio setting”can adjust volume,volume includes:media volume,bluetooth headset volume,voice broadcast volume,navigation broadcast volume,communication volume.
Media volume can be adjusted large,adjusted small,set to maximum,setto minimum,set to N(N is a number of 0-30).
”’
又比如如下的挪威语提示文本示例:
“‘
Vi kan sette opp enheter som lyd,Bluetooth og skjerme gjennom"SystemSettings"funksjonbilutstillingsskjermen.
"Sound settings"kan justere volumet,inkludert media volum,Bluetoothearphonvolum,stemmebroadcast volum,navigasjonsbroadcast volum og kalle volum.
Media-volumet kanreduseres,sett til maksimalt,sett til minimumog settes til N(N er et nummer fra 0til 30).
”’
上述三个示例的语义以及对应的车辆功能点完全相同,在针对该车辆功能点输入对应的提示文本时,可以任选上述三者之一输入到预设的大语言模型中进行解码倾向引导。
然后,将根据上述实施方式中提出的方式获取到的目标语种训练语料,输入到已经完成了解码倾向引导的大语言模型中。大语言模型以目标语种训练语料中的一部分为训练集、一部分为测试集,以目标语种训练语料中的语音文本为输入,语义标签为输出,完成训练过程,生成的预设语言处理模型既能够实现以目标语种的语音请求为输入,输出车机系统能够支持并执行的语义标签,进而完成语音交互过程。
如此,本申请能够根据预设的提示文本将预设的大语言模型引导到对应垂直领域内,并基于上述非通用语种的训练语料针对预设的大语言模型进行训练处理,确定出预的设语言处理模型。
如图4所示,在某些实施方式中,步骤002包括:
0021:根据目标语种训练语料,以第一语句形式输入给大语言模型;
0022:对大语言模型进行有监督微调的训练处理,确定预设语言处理模型。
在某些实施方式中,模型训练模块还用于根据目标语种训练语料,以第一语句形式输入给大语言模型,以及用于对大语言模型进行有监督微调的训练处理,确定预设语言处理模型。
在某些实施方式中,处理器还用于根据目标语种训练语料,以第一语句形式输入给大语言模型,以及用于对大语言模型进行有监督微调的训练处理,确定预设语言处理模型。
具体地,在上述实施方式的基础上,为了能够使预设语言处理模型的训练过程更加符合语料的语义逻辑,在某些示例中,目标语种训练语料需要被转换为“指令(Instruction)”的形式,从而保证生成的预设语言处理模型在处理实际语音识别请求时能够同样按照“指令(Instruction)”的形式执行。
所谓“指令”形式,指将目标语种训练语料转换成输入信息(Input)以及输出信息(Output)两部分,其中训练语料的语音文本部分对应输入信息部分,语义标签部分对应输出信息部分。比如如下的示例:
Input:“av lyset av/>panel med 25%”
Output:“{"apiName":"ControlSet","arguments":{'device':'dashboard','function':'brightness','set_type':'turn up','value':'25%'}}”
输入部分为挪威语的一个训练语料的语音请求文本部分,输出部分为与输入部分的语音请求文本对应的语义识别标签。
为了配合上述的“指令”形式,同时使预设语言处理模型的训练过程更加符合语料的语义逻辑,上述的训练过程在有监督微调(SFT)机制下进行,从而使生成的模型具备相应的任务处理能力。具体而言,本申请实施方式能够根据上述的语音请求文本、与语音请求文本对应的语义标签使生成的模型能够具有符合任务需求的完成语音识别的能力,同时还能够在模型完成上述任务时符合语料的语义逻辑,提高语音交互的准确度。
如此,本申请能够通过具有输入输出示例的指令形式的非通用语种训练语料,在有监督微调的规则下对大语言模型进行训练。
在某些实施方式中,步骤002还包括:
基于预设的大规模模型分布式训练工具,根据目标语种训练语料,对大语言模型执行训练处理,确定预设语言处理模型;以及
对预设语言处理模型进行轻量化处理。
在某些实施方式中,模型训练模块还用于基于预设的大规模模型分布式训练工具,根据目标语种训练语料,对大语言模型执行训练处理,确定预设语言处理模型,以及用于对预设语言处理模型进行轻量化处理。
在某些实施方式中,处理器还用于基于预设的大规模模型分布式训练工具,根据目标语种训练语料,对大语言模型执行训练处理,确定预设语言处理模型,以及用于对预设语言处理模型进行轻量化处理。
具体地,在上述实施方式的基础上,为了能够使训练过程更高效、训练速度更快,可以采用诸如DeepSpeed等目前相关技术中的大规模模型分布式训练工具作为训练过程的运行环境。
其中,DeepSpeed是一个针对PyTorch开发的开源深度学习优化库。它的目标是减少训练大语言模型时的计算和内存开销,通过更好地利用现有硬件的并行性来加速分布式模型的训练。DeepSpeed进行了优化,可以实现低延迟和高吞吐量的训练。它使用ZeroRedundancy Optimizer(简称ZeRO)技术,可以训练超过万亿参数规模的模型。主要功能包括混合精度训练、单机多卡训练、多机分布式训练,以及自定义的模型并行训练。
除此之外,由于车辆设备相较于服务器而言存储空间以及网络连接状况均有限,训练得到的语言处理模型的数据过多,有可能会导致车辆的存储空间无法容纳上述的模型、同时网络环境不足以支持大量的数据交换。因此为了能够将上述的语言处理模型部署在车辆设备上,需要对语言处理模型中的数据进行轻量化。比如通过简并、剪枝、蒸馏、量化等手段压缩语言处理模型的数据量以及占用空间。轻量化后的语言处理模型能够部署在车辆设备的存储器中,同时由于数据量的降低,通过互联网进行数据交换的数据量同步降低,从而提高了数据传输的带宽与效率,进而使得语言处理模型进行线上数据处理的速度加快。
如此,本申请还能通过预设的训练工具提高训练的效率,同时能够对生成的语言处理模型进行轻量化处理,使训练得到的预设语言处理模型能够部署到存储空间有限、网络连接条件有限的车辆或设备上。
如图5所示,在某些实施方式中,步骤03包括:
031:根据目标语种语音请求对应的语音文本,确定预设语言处理模型的输入数据;
032:根据输入数据以及预设语言处理模型,确定目标语种语音请求对应的目标语义标签;
进一步地,步骤031包括:
根据目标语种对应的预设语音识别模型,确定目标语种语音请求对应的语音文本。
在某些实施方式中,模型处理模块还用于根据目标语种语音请求对应的语音文本,确定预设语言处理模型的输入数据,以及用于根据输入数据以及预设语言处理模型,确定目标语种语音请求对应的目标语义标签,以及用于根据目标语种对应的预设语音识别模型,确定目标语种语音请求对应的语音文本。
在某些实施方式中,处理器还用于根据目标语种语音请求对应的语音文本,确定预设语言处理模型的输入数据,以及用于根据输入数据以及预设语言处理模型,确定目标语种语音请求对应的目标语义标签以及用于根据目标语种对应的预设语音识别模型,确定目标语种语音请求对应的语音文本。
具体地,在完成了模型训练后,预设语言处理模型即可以直接应用于语音交互过程。因此,将上述实施方式中获取到的、由车辆转发来的目标语种语音请求所对应的语音文本作为输入数据,输入到训练得到的预设语言处理模型,由预设语言处理模型对输入数据进行处理,得到与上述语音文本对应的语义识别标签(对应于目标语义标签)。比如如下的示例:
Input:”av bluetooth-kopiloten“
即输入数据为挪威语的语音请求对应的语音文本,其具体语义为“关闭副驾驶位的蓝牙功能”。
预设语言处理模型接收到上述输入数据后,经过数据处理,得到如下的输出数据:
Output:“{"apiName":"BluetoothSet","arguments":{'position':'copilot','set_type':'turn off'}}”
即输出数据为对应于上述语音文本的语义识别标签,语种为车机系统默认的英语。
最后,车辆直接根据上述的语义识别标签中包括的应用程序接口以及相关参数,执行对应的车辆功能,完成语音交互。
在上述过程中,由于目标语种的非通用性,并非所有语音识别模型(ASR)都能够识别目标语种下的语音请求,因此在向预设语言处理模型输入文本前,需要预先通过支持目标语种的ASR模型将语音请求转换为对应语种的文本,再将得到的文本输入到预设语言处理模块中,按照上述方式完成语音交互。
如此,本申请能够利用非通用语种的语音请求直接得到一个车机系统能够直接识别的目标语义标签,同时还能够基于支持非通用语种的识别模型将语音请求转换为输入的文本。
本申请实施方式的计算机可读存储介质存储有计算机程序,计算机程序被一个或多个处理器执行的情况下,实现上述的方法。
在本说明书的描述中,参考术语“某些实施方式”、“一个例子中”、“示例地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。
Claims (10)
1.一种车辆语音交互方法,其特征在于,所述方法包括:
接收车辆转发的目标语种语音请求,其中所述目标语种非汉语且非英语;
根据预设语料集,确定目标语种训练语料,其中所述预设语料集的语种为汉语和英语;
根据所述目标语种语音请求以及预设语言处理模型,确定与所述目标语种语音请求对应的目标语义标签,其中所述预设语言处理模型根据预设提示文本以及所述目标语种训练语料经训练得到;
根据所述目标语义标签,执行语音交互。
2.根据权利要求1所述的方法,其特征在于,所述根据预设语料集,确定目标语种提示文本、以及目标语种训练语料,包括:
获取所述预设语料集当中的多条语料文本以及对应的语义标签;
根据所述语料文本、所述语义标签,确定目标语种训练语料,其中所述目标语种训练语料包括目标语种训练语料文本、以及与所述目标语种训练语料文本对应的目标语种语义标签。
3.根据权利要求1所述的方法,其特征在于,所述预设语言处理模型经过如下步骤训练得到:
根据所述预设提示文本,将预设的大语言模型的解码侧重引导至目标垂直领域;
根据所述目标语种训练语料,对已被引导的所述大语言模型执行训练处理,确定所述预设语言处理模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标语种训练语料,对所述大语言模型执行训练处理,确定所述预设语言处理模型,包括:
根据所述目标语种训练语料,以第一语句形式输入给所述大语言模型;
对所述大语言模型进行有监督微调的训练处理,确定所述预设语言处理模型。
5.根据权利要求3所述的方法,其特征在于,所述根据所述目标语种训练语料,对所述大语言模型执行训练处理,确定所述预设语言处理模型,还包括:
基于预设的大规模模型分布式训练工具,根据所述目标语种训练语料,对所述大语言模型执行训练处理,确定所述预设语言处理模型。
6.根据权利要求3所述的方法,其特征在于,所述根据所述目标语种训练语料,对所述大语言模型执行训练处理,确定所述预设语言处理模型,之后还包括:
对所述预设语言处理模型进行轻量化处理。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标语种语音请求以及预设语言处理模型,确定与所述目标语种语音请求对应的目标语义标签,包括:
根据所述目标语种语音请求对应的语音文本,确定所述预设语言处理模型的输入数据;
根据所述输入数据以及所述预设语言处理模型,确定所述目标语种语音请求对应的目标语义标签。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标语种语音请求对应的语音文本,确定所述预设语言处理模型的输入数据,包括:
根据所述目标语种对应的预设语音识别模型,确定所述目标语种语音请求对应的语音文本。
9.一种服务器,其特征在于,所述服务器包括存储器与处理器,所述存储器存储有计算机程序,在所述计算机程序被所述处理器执行的情况下,实现权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,在所述计算机程序被一个或多个处理器执行的情况下,实现权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311873364.6A CN117831504A (zh) | 2023-12-29 | 2023-12-29 | 车辆语音交互方法、服务器以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311873364.6A CN117831504A (zh) | 2023-12-29 | 2023-12-29 | 车辆语音交互方法、服务器以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117831504A true CN117831504A (zh) | 2024-04-05 |
Family
ID=90514983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311873364.6A Pending CN117831504A (zh) | 2023-12-29 | 2023-12-29 | 车辆语音交互方法、服务器以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117831504A (zh) |
-
2023
- 2023-12-29 CN CN202311873364.6A patent/CN117831504A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10698932B2 (en) | Method and apparatus for parsing query based on artificial intelligence, and storage medium | |
US11373049B2 (en) | Cross-lingual classification using multilingual neural machine translation | |
KR102117574B1 (ko) | 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템 | |
US10388284B2 (en) | Speech recognition apparatus and method | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
WO2022134894A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110838289A (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
JP2016009193A (ja) | ユーザ適合音声認識 | |
JP6595912B2 (ja) | 既存の単一言語プロセスからマルチ言語プロセスを構築すること | |
CN110807333A (zh) | 一种语义理解模型的语义处理方法、装置及存储介质 | |
CN109726397B (zh) | 中文命名实体的标注方法、装置、存储介质和电子设备 | |
WO2023272616A1 (zh) | 一种文本理解方法、系统、终端设备和存储介质 | |
KR20220070466A (ko) | 지능적 음성 인식 방법 및 장치 | |
Tomashenko et al. | Dialogue history integration into end-to-end signal-to-concept spoken language understanding systems | |
CN113918710A (zh) | 文本数据处理方法、装置、电子设备和可读存储介质 | |
CN109887490A (zh) | 用于识别语音的方法和装置 | |
CN112837674B (zh) | 语音识别方法、装置及相关系统和设备 | |
CN117831504A (zh) | 车辆语音交互方法、服务器以及存储介质 | |
CN110688858A (zh) | 语义解析方法、装置、电子设备及存储介质 | |
US20240005917A1 (en) | Speech interaction method ,and apparatus, computer readable storage medium, and electronic device | |
US20230178071A1 (en) | Method for determining a vehicle domain and a speech recognition system for a vehicle | |
US20230085161A1 (en) | Automatic translation between sign language and spoken language | |
CN118228021B (zh) | 一种识别模型的训练方法和相关装置 | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 | |
US20240265200A1 (en) | Conversation device and training device therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |