CN112349276B - 一种车载语音交互方法、装置及电子设备 - Google Patents
一种车载语音交互方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112349276B CN112349276B CN202011400681.2A CN202011400681A CN112349276B CN 112349276 B CN112349276 B CN 112349276B CN 202011400681 A CN202011400681 A CN 202011400681A CN 112349276 B CN112349276 B CN 112349276B
- Authority
- CN
- China
- Prior art keywords
- dialect
- vehicle
- target
- input data
- dialects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000006855 networking Effects 0.000 claims abstract description 23
- 238000012163 sequencing technique Methods 0.000 claims abstract description 16
- 230000008451 emotion Effects 0.000 claims description 28
- 238000005516 engineering process Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 19
- 241001672694 Citrus reticulata Species 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008447 perception Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 7
- 230000008909 emotion recognition Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本说明书实施例提供一种车载语音交互方法、装置及电子设备。其中,方法包括:获取目标用户进行车载语音交互的语音输入数据。对所述语音输入数据进行基于声纹标识的账户匹配,确定所述目标用户对应的目标车联网账户。基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序。按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,直至确定所述语音输入数据对应的目标方言。基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互。本申请的方案实现支持多方言且能够智能化与用户方言进行匹配的车载语音交互。
Description
技术领域
本文件涉及车载交互技术领域,尤其涉及一种车载语音交互方法、装置及电子设备。
背景技术
随着人工智能与汽车网联化的发展,车载语音交互功能已逐渐得到了普及。现有的车载系统所配置的语音识别技术只能识别单一语言,如“只能识别汉语普通话方言,但不能识别汉语其他方言。导致很多情况下,车载系统并不能准确理解用户交互内容。此外,车载系统的从文本到语音技术与语音识别技术是完全割开裂的,如果用户使用汉语方言提问,车载系统只能进行汉语普通话反馈,没有做到交互输入与交互输出的语言匹配。
有鉴于此,当前亟需一种支持多方言且能够智能化与用户方言进行匹配的车载语音交互方案。
发明内容
本说明书实施例目的是提供一种车载语音交互方法、装置及电子设备,能够实现支持多方言且智能化与用户方言进行匹配的车载语音交互。
为了实现上述目的,本说明书实施例是这样实现的:
第一方面,提供一种车载语音交互方法,包括:
获取目标用户进行车载语音交互的语音输入数据;
对所述语音输入数据进行基于声纹标识的账户匹配,确定所述目标用户对应的目标车联网账户;
基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序;
按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,直至确定所述语音输入数据对应的目标方言;
基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互。
第二方面,提供一种车载语音交互装置,包括:
获取模块,获取目标用户进行车载语音交互的语音输入数据;
匹配模块,对所述语音输入数据进行基于声纹标识的账户匹配,确定所述目标用户对应的目标车联网账户;
排序模块,基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序;
识别模块,按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,直至确定所述语音输入数据对应的目标方言;
交互模块,基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互。
第三方面,提供一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行以实现第一方面所述的车载语音交互方法步骤。
第四方面,提供一种算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器执行以实现第一方面所述的车载语音交互方法步骤。
本申请的方案支持多方言的车载语音交互,在获取到目标用户进行车载语音交互的语音输入数据后,先基于声纹标识匹配出目标用户对应的目标车联网账户。之后基于目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对车载语音交互支持的多种方言进行优先级排序,并按照优先级排序对语音输入数据进行方言识别,以快速准确地确定出语音输入数据对应的目标方言。从而后续按照目标方言与目标用户进行针对语音输入数据的车载语音交互。本说明书实施例的不仅改善交互体验,还提升了车载语音交互的适用性,使车载语音交互能够服务于不同方言的用户。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的车载语音交互方法的第一种流程示意图。
图2为本说明书实施例提供的车载语音交互方法的第二种流程示意图。
图3为本说明书实施例提供的车载语音交互装置的结构示意图。
图4为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如前所述,现有的车载系统不支持多方言的语音识别,导致很多场景下,无法准确理解用户的交互内容。此外,语音识别技术与文本到语音技术是完全割开裂的,如果用户使用方言提问,车载系统只能进行普通话反馈,没有做到交互输入与交互输出的语言匹配。为了提升用户的车载交互体验,本申请旨在提出一种支持多方言且能够智能化与用户方言进行匹配的车载语音交互方案。
图1是本说明书实施例车载语音交互方法的流程图。图1所示的方法可以由下文相对应的装置执行,包括如下步骤:
S102,获取目标用户进行车载语音交互的语音输入数据。
具体地,本步骤可以基于车载系统的麦克风设备,接收目标用户进行车载语音交互的语音输入数据。
S104,对语音输入数据进行基于声纹标识的账户匹配,确定目标用户对应的目标车联网账户。
具体地,本说明书实施例可以通过车联网服务器存储各个车联网账户与声纹标识之间的关联关系。本步骤可以通过向车联网服务器发送语音输入数据或者语音输入数据中的声纹特征,从而确定出由车联网服务器所匹配的目标车联网账户。
在实际应用中,目标用户可以是车辆的驾驶员,也可以是车辆的乘客。前者对应的车联网账户可能与车载系统当前登录的车联网账户一致,而后者对应的车联网账户则可能与车载系统当前登录的车联网账户不同。也就是说,本步骤所确定的目标车联网账户并不一定是车载系统当前登录的车联网账户。
S106,基于目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对车载语音交互支持的多种方言进行优先级排序。
应理解,方言的优先级反映了与目标用户的匹配程度。通过车载语音交互支持的多种方言进行优先级排序,是为了后续能够按照方言的优先级顺序对目标用户的语音输入数据进行高效的方言识别,保证后续按照与目标用户匹配的目标方言进行车载语音交互。
具体地,本步骤可以对车载语音交互支持的多种方言按照以下优先级由高到低的排序因素进行排序:
基于方言设置信息确定的目标用户自定义设置的方言、基于方言历史使用信息确定的目标用户使用过的方言、基于用户画像信息确定的目标用户的籍贯所对应的方言、基于行车定位信息确定的当前所处地域所对应的方言。
这里,车载语音交互所支持某个方言可能即是用户自定义设置的方言,也是目标用户的籍贯所对应的方言。在这种情况下,可以按照被确定到的最高的优先级对该方言进行排序。
此外,考虑到普通话方言是普及率最高的用户方言,本步骤还可以将普通话方言作为最高优先级的方言的基础之上,基于目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对车载语音交互支持的其他方言进行优先级排序。
此外,在上述基础之上,还可以先确定与目标用户进行车载语音交互的目标语种,再对车载语音交互支持的该目标语种的多种方言进行优先级排序。
这里,确定目标用户的语种方式并不唯一。作为示例性介绍:可以对目标用户的语音输入数据进行语种识别,将确定到的语音输入数据对应的语种作为目标语种。或者,在确定目标车联网账户后,通过目标车联网账户对应的用户画像,确定目标用户的籍贯,进而将目标用户的国籍相匹配的语种作为目标语种。
S108,按照多种方言的优先级顺序,对语音输入数据进行方言识别,直至确定语音输入数据对应的目标方言。
具体地,以上文所述的基于方言设置信息确定的目标用户自定义设置的方言、基于方言历史使用信息确定的目标用户使用过的方言、基于用户画像信息确定的目标用户的籍贯所对应的方言、基于行车定位信息确定的当前所处地域所对应的方言的优先级排序顺序为例:
本步骤中,如果目标用户自定义设置的方言,则先按照目标用户自定义设置的方言对应的识别算法对语音输入数据进行方言识别。
如果用户未自定义设置的方言或者识别失败,则再通过目标用户历史使用过的方言对应的识别算法对语音输入数据进行方言识别。
如果未记录目标用户之前使用的方言或者识别依然失败,则再进一步按照目标用户籍贯所对应的方言的识别算法对语音输入数据进行方言识别。
如果未记录目标用户的籍贯或者识别依然失败,则根据车联网针对目标车联网账户的车辆定位信息,确定车辆所属地域。之后,按照车辆所属地域对应的方言的识别算法对语音输入数据进行方言识别。
此外,本说明书实施例可以使用深度学习模型,实现智能化的方言识别。即,按照多种方言的优先级顺序,将所音输入数据输入至对应方言的识别模型,得到识别模型给出的方言识别结果。其中,上述多种方言中任意一个方言的识别模型是基于该方言的样本语音输入数据提取出的特征参数和对应的方言分类标签训练得到的。
在上述基础之上,为了使识别模型具备更好的方案识别能力,本说明书实施例可以使用不同分类的样本语音输入数据进行多样化训练。
以最为简单的白样本和黑样本两种样本分类训练四川方言的识别模型为例,本说明书实施例可以将四川方言的样本语音输入数据作为白样本,将非四川方言的样本语音输入数据作为黑样本,并通过方言分类标签标注样本语音输入数据是白样本还是黑样本。之后,通过白样本语音输入数据的特征参数对识别模型进行正例训练,通过错误的黑样本语音输入数据的特征参数对识别模型进行返例训练。
训练过程中,在将样本语音输入数据输入至识别模型后,即可得到识别模型给出的训练结果。这个训练结果是模型针对样本语音输入数据是否为四川方言的预测结果(也理解为预测是黑样本,还是白样本)。这里,训练结果可能与方言分类标签标注指示的真值结果存在差异。本说明书实施例可以基于最大似然估计所推导出的损失函数,计算出训练结果与真值结果之间的误差,并以降低误差为目的,对识别模型中的参数进行调整(例如调整模型底层向量的权重),从而达到训练效果。
此外,作为其他可行方案,也可以设置更为细分的样本语音输入数据训练识别模型。
比如,样本语音输入数据按照是否为四川方言的概率分类为:高概率样本(属于四川方言的概率为80%至100%)、普通概率样本(属于四川方言的概率为40%至79%)以及低概率样本(属于四川方言的概率为0%至39%)。高概率样本、普通概率样本和低概率样本通过方言分类标签进行区分。训练过程中,识别模型给出的训练结果是预测样本语音输入数据是高概率样本,还是普通概率样本,或者是低概率样本。同理,以降低训练结果与方言分类标签对应的真实结果之间误差为目的,对识别模型中的参数进行调整(例如调整模型底层向量的权重),从而达到训练效果。由于训练原理相同,这里不再举例赘述。
需要说明的是,方言的识别模型的模型类别并不唯一,这里本文不作具体限定。应理解,目前具有分类功能的深度学习模型都可以通过上文所示例的训练方式,训练成为本说明书实施例的方言识别模型。
S110,基于目标方言对目标用户进行针对语音输入数据的车载语音交互。
具体地,本步骤可以使用目标方言对应的语音识别技术,将语音输入数据转换为第一文本信息。之后,基于车载服务的业务逻辑,对第一文本文本信息进行分析,理解目标用户意图,从而确定相匹配需要回应的第二文本信息。最后,使用目标方言对应的从文本到语音技术,将第二文本信息换为语音输出数据,以向目标用户进行音频输出。
此外,在上述基础之上,为了给用户带来更好的体验,还可以实现具有共情表达能力的车载语音交互。
即,在进行音频输出前,先对目标用户的语音输入数据进行情绪感知分析,确定出反映目标用户情绪的第一情绪指标;之后,根据反映目标用户情绪的第一情绪指标,确定相匹配的第二情绪指标,并基于第二情绪指标对语音输出数据进行处理(如调整:音频输出声调、音频输出音量、字与字之间的音频输出停顿时间等),得到体现第二情绪指标的处理后语音输出数据,从而向目标用户音频输出该处理后语音输出数据。
比如,在情绪感知分析确定目标用户的情绪指标为“生气”时,可以使用相匹配的“道歉”情绪指标对语音输出数据进行处理,从而向目标用户音频输出具有道歉感情的语音输出数据。
同理,在实际应用中,可以根据情绪的识别模型,实现智能化的用户情绪感知。即,将目标用户进行车载语音交互的语音输入数据输入至情绪识别模型,从而得到情绪识别模型给出的目标用户的情绪识别结果。这里,情绪识别模型可以是基于目标用户在不同情绪下的样本语音输入数据的特征参数以及情绪分类标签训练得到的。应理解,情绪识别模型可以参考上述方言识别模型的训练方式进行训练,由于原理相同,本文不再举例赘述。
本说明书实施例的方法支持多方言的车载语音交互,在获取到目标用户进行车载语音交互的语音输入数据后,先基于声纹标识匹配出目标用户对应的目标车联网账户。之后基于目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对车载语音交互支持的多种方言进行优先级排序,并按照优先级排序对语音输入数据进行方言识别,以快速准确地确定出语音输入数据对应的目标方言。从而后续按照目标方言与目标用户进行针对语音输入数据的车载语音交互。本说明书实施例的不仅改善交互体验,还提升了车载语音交互的适用性,使车载语音交互能够服务于不同方言的用户。
下面结合实际的应用场景,对本说明书实施例的车辆终端系统的监控处理方法进行详细介绍。
本应用场景中,车载系统支持多语种下多方言的车载语音交互。也就是针对不同方言都设置有匹配的语音识别技术和从文本到语音技术。这里,语音识别技术用于将用户的语音输入数据转为文本输入内容,从而根据文本输入内容进行车载系统功能的相关控制;文本到语音技术用于将文本输入内容对应的文本回应内容转化为语音输出数据以音频方式输出至用户。
其中,如图2所示,流程主要包括:
获取目标用户通过车载系统麦克风进行交互的语音输入数据。
对目标用户的语音输入数据进行声纹ID的账户匹配,确定目标用户在车联网注册的目标车辆网账户。
对目标用户的语音输入数据进行语种识别,确定目标用户本次语音交互的目标语种。
尝试获取目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息,并在普通话方言作为最高优先级的方言的基础之上,按照方言设置信息确定的目标用户自定义设置的方言、基于方言历史使用信息确定的目标用户使用过的方言、基于用户画像信息确定的目标用户的籍贯所对应的方言、基于行车定位信息确定的当前所处地域所对应的方言的优先级由高到低的顺序,对车载系统支持的目标语种下的方言进行排序。
之后,按照上述优先级排序,不重复选取其中一个目标语种的方言对语音输入数据进行方言识别,直至确定出目标用户本次车载语音交互使用的目标方言。比如,先使用普通话方言对应的语音识别技术对音输入数据进行识别;如果语音输入数据不属于普通话方言,则使用目标用户自定义设置的方言对应的语音识别技术对语音输入数据进行识别;如果依然无法识别,则按照目标用户历史使用的方言对应的语音识别技术对语音输入数据进行识别。最后识别方法都失败后,可以使用目标车载账户对应的GPS定位信息,确认车辆当前所在城市,并使用该城市的方言对应的语音识别技术对语音输入数据进行识别。
基于目标方言对应的语音识别技术,将语音输入数据转换为第一文本信息;
执行第一文本信息相关的车载控制指令。这里,本文不对车载控制的应用场景作具体限定。
生成回应与语音输入数据的第二文本信息,并基于目标方言对应的从文本到语音技术,将第二文本信息转换为使用目标方言进行呼应的语音输出数据。
基于语音输出数据与目标用户进行交互。
以上应用场景是对本说明书实施例方法的示例性介绍。应理解,在不脱离本文上述原理基础之上,还可以进行适当的变化,这些变化也应视为本说明书实施例的保护范围。
此外,与上述图3所示的车载语音交互方法相对应地,本说明书实施例还提供一种车载语音交互装置。图3是本说明书实施例车载语音交互装置300的结构示意图,包括:
获取模块310,获取目标用户进行车载语音交互的语音输入数据。
匹配模块320,对所述语音输入数据进行基于声纹标识的账户匹配,确定所述目标用户对应的目标车联网账户。
排序模块330,基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序。
识别模块340,按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,直至确定所述语音输入数据对应的目标方言。
交互模块350,基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互。
本说明书实施例的装置支持多方言的车载语音交互,在获取到目标用户进行车载语音交互的语音输入数据后,先基于声纹标识匹配出目标用户对应的目标车联网账户。之后基于目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对车载语音交互支持的多种方言进行优先级排序,并按照优先级排序对语音输入数据进行方言识别,以快速准确地确定出语音输入数据对应的目标方言。从而后续按照目标方言与目标用户进行针对语音输入数据的车载语音交互。本说明书实施例的不仅改善交互体验,还提升了车载语音交互的适用性,使车载语音交互能够服务于不同方言的用户。
可选地,排序模块330具体对所述车载语音交互支持的多种方言按照以下优先级由高到低的排序因素进行排序:
基于所述方言设置信息确定的所述目标用户自定义设置的方言、基于所述方言历史使用信息确定的所述目标用户使用过的方言、基于所述用户画像信息确定的所述目标用户的籍贯所对应的方言、基于所述行车定位信息确定的当前所处地域所对应的方言。
可选地,排序模块330将所述普通话方言作为最高优先级的方言的基础之上,基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的其他方言进行优先级排序。
可选地,排序模块330可以先对所述语音输入数据进行语种识别,确定与目标用户进行车载语音交互的目标语种;或者,基于所述目标车联网账户关联的用户画像信息,确定所述目标用户所属国籍对应的语种,并将所述目标用户所属国籍对应的语种作为与目标用户进行车载语音交互的目标语种;之后,再对所述车载语音交互支持的所述目标语种下的多种方言进行优先级排序。
可选地,交互模块350具体用于:使用所述目标方言对应的语音识别技术,将所述语音输入数据转换为第一文本信息;确定针对所述第一文本信息所需回应的第二文本信息;使用所述目标方言对应的从文本到语音技术,将所述第二文本信息换为语音输出数据;向所述目标用户音频输出所述语音输出数据。
在上述基础之上,交互模块350还可以基于反映所述目标用户情绪的第一情绪指标,确定相匹配的第二情绪指标;之后,基于所述第二情绪指标对所述语音输出数据的音频输出声调、音频输出音量、字与字之间的音频输出停顿时间中的至少一者进行调整,得到体现所述第二情绪指标的处理后语音输出数据,并向所述目标用户音频输出所述处理后语音输出数据。
显然,本说明书实施例图3所示的车载语音交互装置可以实现上述图1所示的车载语音交互方法的步骤和功能。由于原理相同,本文不再赘述。
图4是本说明书的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成问答对数据挖掘装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标用户进行车载语音交互的语音输入数据。
对所述语音输入数据进行基于声纹标识的账户匹配,确定所述目标用户对应的目标车联网账户。
基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序。
按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,直至确定所述语音输入数据对应的目标方言。
基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互。
上述如本说明书图1所示实施例揭示的车载语音交互方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本说明书实施例的电子设备可以实现上述车载语音交互装置在图1和图2所示的实施例的功能,本文不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
此外,本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下方法:
获取目标用户进行车载语音交互的语音输入数据。
对所述语音输入数据进行基于声纹标识的账户匹配,确定所述目标用户对应的目标车联网账户。
基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序。
按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,直至确定所述语音输入数据对应的目标方言。
基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互。
应理解,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使上文所述的车载语音交互装置实现图1和图2所示实施例的功能,本文不再赘述。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。此外,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
Claims (9)
1.一种车载语音交互方法,包括:
获取目标用户进行车载语音交互的语音输入数据;
对所述语音输入数据进行基于声纹标识的账户匹配,确定所述目标用户对应的目标车联网账户;
基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序;
按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,直至确定所述语音输入数据对应的目标方言;
基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互;
基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序,包括:
对所述车载语音交互支持的多种方言按照以下优先级由高到低的排序因素进行排序:
基于所述方言设置信息确定的所述目标用户自定义设置的方言、基于所述方言历史使用信息确定的所述目标用户使用过的方言、基于所述用户画像信息确定的所述目标用户的籍贯所对应的方言、基于所述行车定位信息确定的当前所处地域所对应的方言。
2.根据权利要求1所述的方法,
所述车载语音交互支持的多种方言包括普通话方言,基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序,包括:
将所述普通话方言作为最高优先级的方言的基础之上,基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的其他方言进行优先级排序。
3.根据权利要求1所述的方法,
按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,包括:
按照所述多种方言的优先级顺序,将所述语音输入数据输入至对应方言的识别模型,其中,多种方言中任意一个方言的识别模型是基于该方言的样本语音输入数据提取出的特征参数和对应的方言分类标签训练得到的。
4.根据权利要求1所述的方法,
基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互,包括:
使用所述目标方言对应的语音识别技术,将所述语音输入数据转换为第一文本信息;
确定针对所述第一文本信息所需回应的第二文本信息;
使用所述目标方言对应的从文本到语音技术,将所述第二文本信息换为语音输出数据;
向所述目标用户音频输出所述语音输出数据。
5.根据权利要求1所述的方法,
在对所述车载语音交互支持的多种方言进行优先级排序前,还包括:
对所述语音输入数据进行语种识别,确定与目标用户进行车载语音交互的目标语种;或者,基于所述目标车联网账户关联的用户画像信息,确定所述目标用户所属国籍对应的语种,并将所述目标用户所属国籍对应的语种作为与目标用户进行车载语音交互的目标语种;
对所述车载语音交互支持的多种方言进行优先级排序,包括:
对所述车载语音交互支持的所述目标语种下的多种方言进行优先级排序。
6.根据权利要求4所述的方法,还包括:
对所述语音输入数据进行情绪感知分析,确定反映所述目标用户情绪的第一情绪指标;
基于反映所述目标用户情绪的第一情绪指标,确定相匹配的第二情绪指标;
向所述目标用户音频输出所述语音输出数据,包括:
基于所述第二情绪指标对所述语音输出数据的音频输出声调、音频输出音量、字与字之间的音频输出停顿时间中的至少一者进行调整,得到体现所述第二情绪指标的处理后语音输出数据;
向所述目标用户音频输出所述处理后语音输出数据。
7.一种车载语音交互装置,包括:
获取模块,获取目标用户进行车载语音交互的语音输入数据;
匹配模块,对所述语音输入数据进行基于声纹标识的账户匹配,确定所述目标用户对应的目标车联网账户;
排序模块,基于所述目标车联网账户关联的用户画像信息、方言历史使用信息、方言设置信息和行车定位信息中的至少一者,对所述车载语音交互支持的多种方言进行优先级排序;
识别模块,按照所述多种方言的优先级顺序,对所述语音输入数据进行方言识别,直至确定所述语音输入数据对应的目标方言;
交互模块,基于所述目标方言对所述目标用户进行针对所述语音输入数据的车载语音交互;
排序模块,对所述车载语音交互支持的多种方言按照以下优先级由高到低的排序因素进行排序:
基于所述方言设置信息确定的所述目标用户自定义设置的方言、基于所述方言历史使用信息确定的所述目标用户使用过的方言、基于所述用户画像信息确定的所述目标用户的籍贯所对应的方言、基于所述行车定位信息确定的当前所处地域所对应的方言。
8.一种电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行以实现如权利要求1-6任一项所述的车载语音交互方法步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的车载语音交互方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011400681.2A CN112349276B (zh) | 2020-12-03 | 2020-12-03 | 一种车载语音交互方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011400681.2A CN112349276B (zh) | 2020-12-03 | 2020-12-03 | 一种车载语音交互方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112349276A CN112349276A (zh) | 2021-02-09 |
CN112349276B true CN112349276B (zh) | 2022-10-04 |
Family
ID=74428074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011400681.2A Active CN112349276B (zh) | 2020-12-03 | 2020-12-03 | 一种车载语音交互方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112349276B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969502B (zh) * | 2021-06-21 | 2023-10-27 | 中移互联网有限公司 | 车用信息交换方法及系统、计算机可读存储介质 |
CN113470278A (zh) * | 2021-06-30 | 2021-10-01 | 中国建设银行股份有限公司 | 一种自助缴费方法和装置 |
CN113345419B (zh) * | 2021-06-30 | 2022-05-27 | 广西电网有限责任公司 | 基于方言口音的语音转译方法、系统和可读存储介质 |
CN116105308A (zh) * | 2021-11-11 | 2023-05-12 | 青岛海尔空调器有限总公司 | 用于语音空调的控制方法及装置、语音空调、存储介质 |
CN114165819A (zh) * | 2021-11-26 | 2022-03-11 | 珠海格力电器股份有限公司 | 吸油烟机及其控制方法、模组及计算机可读介质 |
CN114118930A (zh) * | 2021-12-02 | 2022-03-01 | 广州回头车信息科技有限公司 | 一种信息处理方法、装置、电子设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8635068B2 (en) * | 2008-12-23 | 2014-01-21 | At&T Intellectual Property I, L.P. | System and method for recognizing speech with dialect grammars |
WO2015047248A1 (en) * | 2013-09-25 | 2015-04-02 | Intel Corporation | Improving natural language interactions using emotional modulation |
CN103701994A (zh) * | 2013-12-30 | 2014-04-02 | 华为技术有限公司 | 一种自动应答的方法及装置 |
CN107342088B (zh) * | 2017-06-19 | 2021-05-18 | 联想(北京)有限公司 | 一种声音信息的转换方法、装置及设备 |
US11093720B2 (en) * | 2019-03-28 | 2021-08-17 | Lenovo (Singapore) Pte. Ltd. | Apparatus, method, and program product for converting multiple language variations |
CN110277098A (zh) * | 2019-07-11 | 2019-09-24 | 四川亨通网智科技有限公司 | 一种智慧景区信息服务系统 |
CN111130807A (zh) * | 2019-12-31 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 基于声纹识别的车载账户管理方法 |
CN111312214B (zh) * | 2020-03-31 | 2022-12-16 | 广东美的制冷设备有限公司 | 空调器的语音识别方法、装置、空调器和可读存储介质 |
CN111986651B (zh) * | 2020-09-02 | 2023-09-29 | 度小满科技(北京)有限公司 | 一种人机交互方法、装置及智能交互终端 |
CN111933107A (zh) * | 2020-09-04 | 2020-11-13 | 珠海格力电器股份有限公司 | 语音识别方法、装置、存储介质和处理器 |
-
2020
- 2020-12-03 CN CN202011400681.2A patent/CN112349276B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112349276A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112349276B (zh) | 一种车载语音交互方法、装置及电子设备 | |
CN109841212B (zh) | 分析具有多个意图的命令的语音识别系统和语音识别方法 | |
CN109065053B (zh) | 用于处理信息的方法和装置 | |
CN111930940A (zh) | 一种文本情感分类方法、装置、电子设备及存储介质 | |
US10861459B2 (en) | Apparatus and method for determining reliability of recommendation based on environment of vehicle | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
CN110890088B (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
CN109785831B (zh) | 检查机动车的车载语音识别器的方法、控制装置和机动车 | |
CN110097870A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN113239178A (zh) | 意图生成方法、服务器、语音控制系统和可读存储介质 | |
CN112509561A (zh) | 情绪识别方法、装置、设备及计算机可读存储介质 | |
CN111554276A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN111522937B (zh) | 话术推荐方法、装置和电子设备 | |
CN112908315A (zh) | 一种基于声音特征和语音识别的问答意图判断方法 | |
US11869488B2 (en) | Agent device, agent system, and computer-readable storage medium | |
CN108959387A (zh) | 信息获取方法及装置 | |
CN115113739A (zh) | 用于生成表情符号的装置、车辆和用于生成表情符号的方法 | |
CN115132192A (zh) | 一种智能语音交互方法、装置、电子设备及存储介质 | |
CN111414468A (zh) | 话术选择方法、装置和电子设备 | |
KR20200011160A (ko) | 음성 인식 기술을 이용한 지능형 끝말잇기 단어 학습 방법 | |
CN111723198A (zh) | 一种文本情绪识别方法、装置及存储介质 | |
US20230206922A1 (en) | Dialogue system and dialogue processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |