CN115910035B - 语音交互方法、服务器及计算机可读存储介质 - Google Patents

语音交互方法、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN115910035B
CN115910035B CN202310197529.6A CN202310197529A CN115910035B CN 115910035 B CN115910035 B CN 115910035B CN 202310197529 A CN202310197529 A CN 202310197529A CN 115910035 B CN115910035 B CN 115910035B
Authority
CN
China
Prior art keywords
language
current
result
mixed
voice request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310197529.6A
Other languages
English (en)
Other versions
CN115910035A (zh
Inventor
李云飞
巴特尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202310197529.6A priority Critical patent/CN115910035B/zh
Publication of CN115910035A publication Critical patent/CN115910035A/zh
Application granted granted Critical
Publication of CN115910035B publication Critical patent/CN115910035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种语音交互方法,包括接收车辆转发的混合语种语音请求;对混合语种语音请求进行自然语言理解,并对混合语种语音请求异步进行编码处理;根据编码处理得到的当前编码数据,对混合语种语音请求中的第一语种单词进行掩码处理得到当前掩码数据,以减少混合语种语音请求中的语言种类数量,当前掩码数据包括第一种语种单词的掩码和第二语种单词;根据当前掩码数据进行拒识处理得到当前拒识结果;根据当前拒识结果完成语音交互。本申请的语音交互方法可减少混合语种语音请求中的语言种类数量并更为准确地识别语义,完成对其的自然语言理解和拒识过程,一定程度上保证拒识结果的准确性,得到更为准确的拒识结果,提升用户的交互体验。

Description

语音交互方法、服务器及计算机可读存储介质
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种语音交互方法、服务器及计算机可读存储介质。
背景技术
目前,车载语音技术可以支持用户通过语音在车辆座舱内进行交互,例如控制车辆驶向一定目的地。在用户发出多语种语音请求的场景中,一条语音请求可能由多种语言的单词组成,而车载系统通常仅支持对设定的单一语种的语言请求进行识别,无法识别混合语种的语音请求。例如,对于混合语种的语音请求"Driveme to nearest sykehus.",为英语与挪威语的混合语音请求,相关技术无法完整提取其语义,进而可能将其视为噪声而拒识,导致语音交互失败。如此,可能影响语音处理的准确性和语音交互的流畅性,导致用户使用体验不佳。
发明内容
本申请提供了一种语音交互方法、服务器及计算机可读存储介质。
本申请的语音交互方法,包括:
接收车辆转发的混合语种语音请求;
对所述混合语种语音请求进行自然语言理解,并对所述混合语种语音请求异步进行编码处理;
根据所述编码处理得到的当前编码数据,对所述混合语种语音请求中的第一语种单词进行掩码处理得到当前掩码数据,以减少所述混合语种语音请求中的语言种类数量,所述当前掩码数据包括第一种语种单词的掩码和第二语种单词;
根据所述当前掩码数据进行拒识处理得到当前拒识结果;
根据所述当前拒识结果完成语音交互。
如此,在用户发出混合语种语音请求的场景下,可对语音请求进行编码处理,并根据得到的编码数据对语音请求进行掩码处理,将混合语种语音请求中被判定为小语种的第一语种单词替换为掩码,并根据掩码处理得到的掩码数据,最终完成语音交互。本申请的语音交互方法可减少混合语种语音请求中的语言种类数量,能较为准确地识别混合语种语音请求的语义,完成拒识,对指令放行或确认为闲聊或噪声进行过滤,一定程度上保证拒识结果的准确性,得到更为准确的拒识结果,提升用户的交互体验。
所述对所述混合语种语音请求进行自然语言理解,并对所述混合语种语音请求异步进行编码处理,包括:
对所述混合语种语音请求进行分词处理;
对分词处理后得到的每个单词进行所述编码处理以得到所述当前编码数据。
如此,对混合语种语音请求进行分词处理,并对分词处理后的每个单词进行编码处理,得到当前编码数据,以便根据当前编码数据对语音请求中相关单词进行掩码处理。
所述根据所述编码处理得到的当前编码数据,对所述混合语种语音请求中的第一语种单词进行掩码处理得到当前掩码数据,包括:
将所述当前编码数据中标记数量大于预设数量的单词,确定为所述第一语种单词;
对所述第一语种单词进行掩码处理得到所述当前掩码数据。
如此,可通过当前编码数据确定语音请求中的小语种单词,并对该单词进行掩码处理,以根据掩码处理后的结果对语音请求进行拒识处理得到拒识结果。
所述根据所述当前掩码数据进行拒识处理得到当前拒识结果的步骤之前,所述语音交互方法包括:
若所述混合语种语音请求之前存在历史语音请求,则获取所述历史语音请求对应的历史掩码数据;
所述根据所述当前掩码数据进行拒识处理得到当前拒识结果,包括:
根据所述历史掩码数据和所述当前掩码数据进行拒识处理得到所述当前拒识结果。
如此,可获取混合语种语音请求对应的历史语音请求中对应的历史掩码数据,并结合当前掩码数据进行拒识处理,以得到当前拒识结果。
所述根据所述历史掩码数据和所述当前掩码数据进行拒识处理得到所述当前拒识结果的步骤之前,所述语音交互方法包括:
获取候选特征数据,所述候选特征数据包括车辆所在国家、所述历史语音请求对应的历史语种信息、历史音区信息、历史拒识结果、所述混合语种语音请求对应的当前语种信息和/或当前音区信息;
所述根据所述历史掩码数据和所述当前掩码数据进行拒识处理得到所述当前拒识结果,包括:
根据所述历史掩码数据、所述当前掩码数据和所述候选特征数据进行拒识处理得到所述当前拒识结果。
如此,可获取混合语种语音请求对应的一项或多项候选特征数据,并结合历史掩码数据和当前掩码数据进行拒识处理,以得到当前拒识结果。
所述根据所述当前拒识结果完成语音交互,包括:
对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互。
如此,可获取混合语种语音请求的候选特征数据,并结合历史掩码数据、当前掩码数据最终完成语音交互。
所述对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互,包括:
若所述混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,则在所述当前拒识结果为拒识的情况下,对所述混合语种语音请求进行拒识处理,以完成语音交互。
如此,当混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,可根据当前拒识结果,对混合语种语音请求进行拒识处理,以完成语音交互。
所述融合所述自然语言理解的结果和所述当前拒识结果以完成语音交互,包括:
若所述混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,则在所述当前拒识结果为放行的情况下,对所述混合语种语音请求进行放行处理,根据所述自然语言理解的结果完成语音交互。
如此,当混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,可根据放行的当前拒识结果并结合自然语言理解的结果完成语音交互。
所述融合所述自然语言理解的结果和所述当前拒识结果以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在所述自然语言理解的结果命中规则引擎的情况下,对所述混合语种语音请求进放行处理,并根据所述自然语言理解的结果完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,可经拒识过程的二次筛选,得到当前拒识结果,并结合自然语言理解的结果完成语音交互。
所述融合所述自然语言理解的结果和所述当前拒识结果以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在所述自然语言理解的结果未命中规则引擎且所述当前拒识结果为拒识的情况下,对所述混合语种语音请求进拒识处理,以完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,且自然语言理解结果为未命中规则引擎,可根据当前拒识结果,对混合语种语音请求进行拒识处理,以完成语音交互。
所述融合所述自然语言理解的结果和所述当前拒识结果以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在所述当前拒识结果为放行的情况下,对所述混合语种语音请求进放行处理,并根据所述自然语言理解的结果完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,且自然语言理解结果为命中规则引擎,可根据当前拒识过程的放行结果,融合自然语言理解的结果,以完成语音交互。
所述融合所述自然语言理解的结果和所述当前拒识结果以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为非功能点意图,则在所述当前拒识结果为放行的情况下,对所述混合语种语音请求进放行处理,并根据所述自然语言理解的结果完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,可根据当前拒识结果,对混合语种语音请求进行拒识处理,融合自然语言理解的结果,以完成语音交互。
所述融合所述自然语言理解的结果和所述当前拒识结果以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为非功能点意图,则在所述当前拒识结果为拒识的情况下,对所述混合语种语音请求进拒识处理,并根据所述自然语言理解的结果完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,可根据当前拒识结果,对混合语种语音请求进行拒识处理,融合自然语言理解的结果,以完成语音交互。
本申请的服务器,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的方法。
本申请的计算机可读存储介质,存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述的方法。
本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请语音交互方法的流程示意图之一;
图2是本申请语音交互方法的流程示意图之二;
图3是本申请语音交互方法的流程示意图之三;
图4是本申请语音交互方法的流程示意图之四;
图5是本申请语音交互方法的流程示意图之五;
图6是本申请语音交互方法的流程示意图之六;
图7是本申请语音交互方法的流程示意图之七。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的实施方式的限制。
随着车辆电子技术的发展与普及,车辆可与用户进行语音交互,即可识别用户的语音请求并最终完成用户语音请求中的意图。人车语音交互功能满足了驾驶员和乘客行驶过程中的多样体验。相关技术中,对于混合语种的语音请求往往无法将用户语音请求中包含的意图完全理解,并且无法过滤其中噪声。例如,在一个示例中,用户发出语音请求"Driveme to nearest sykehus."中,除英语单词外,还包括"sykehus"这一小语种单词,可能由于语言的切换导致无法准确识别多语种单词而导致该语音请求被拒识。在其他示例中,对于用户的语音请求,也可能存在仅有一个英语单词而其他单词均为小语种的情况。上述多语言场景下,当用户单独的语音请求中存在语种切换时,可能无法持续识别语句中的单词,或无法过滤其中噪声,最终导致错误的拒识或放行,用户的交互体验不佳。
请参阅图1,本申请提供一种语音交互方法,包括:
01:接收车辆转发的混合语种语音请求;
02:对混合语种语音请求进行自然语言理解,并对混合语种语音请求异步进行编码处理;
03:根据编码处理得到的当前编码数据,对混合语种语音请求中的第一语种单词进行掩码处理得到当前掩码数据,以减少混合语种语音请求中的语言种类数量,当前掩码数据包括第一种语种单词的掩码和第二语种单词;
04:根据当前掩码数据进行拒识处理得到当前拒识结果;
05:根据当前拒识结果完成语音交互。
本申请还提供了一种服务器,服务器包括存储器和处理器。本申请的语音交互方法可以由本申请的服务器实现。具体地,存储器中存储有计算机程序,处理器用于接收车辆转发的混合语种语音请求;对混合语种语音请求进行自然语言理解,并对混合语种语音请求异步进行编码处理;根据编码处理得到的当前编码数据,对混合语种语音请求中的第一语种单词进行掩码处理得到当前掩码数据,以减少混合语种语音请求中的语言种类数量,当前掩码数据包括第一种语种单词的掩码和第二语种单词;根据当前掩码数据进行拒识处理得到当前拒识结果;根据当前拒识结果完成语音交互。
本申请是在用户发出的混合语种的语音请求时,对其中一个语种的单词做掩码处理,减少一条语音请求的语种数量,以得到该语音请求的清晰语义,最终得到拒识结果。其中,在本申请中的混合语种语音请求中,第一语种单词即相对于该语音请求中其他单词来说属于小语种的单词,需对其进行掩码处理。第二语种单词为预设的目标语种,例如,可以是英语,需要说明地,第二语种可以根据用户需求,或随车载系统服务器所在国家而改变,在此不做限制。例如当车在系统服务器所在地区为挪威,则第二语种单词为挪威语单词,英语单词即识别为需掩码处理的小语种。
具体地,在接收到用户对混合语种语音请求后,首先对语音请求进行自然语言理解,并对混合语种语音请求编码处理。根据编码处理得到的编码数据,将语音请求中被判定为小语种的第一语种单词做掩码处理,则处理结果仅包含作为目标语种的第二语种单词和第一语种单词对应的掩码,达到减少该混合语种语音请求的语言种类数量的效果。进一步地,可根据掩码数据进行拒识处理,最终完成语音交互过程。
服务器在接收到用户的混合语种语音请求后,可对语音请求进行自然语言理解,并异步进行编码处理,得到编码数据。根据编码数据,可将混合语种语音请求中被判定为小语种的第一语种单词用掩码覆盖,得到掩码结果,即将混合语种语音请求转化为仅包含第二语种单词和第一语种单词对应掩码。最终根据掩码数据对语音请求进行拒识处理得到拒识结果,完成语音交互过程。将混合语种语音请求中被判定为小语种的第一语种单词用掩码进行替换,从而减少混合语音请求中的语言种类数量,得到更为准确的拒识结果,提升用户的交互体验。
综上,本申请中,在用户发出混合语种语音请求的场景下,可对语音请求进行编码处理,并根据得到的编码数据对语音请求进行掩码处理,将混合语种语音请求中被判定为小语种的第一语种单词替换为掩码,并根据掩码处理得到的掩码数据,最终完成语音交互。本申请的语音交互方法可减少混合语种语音请求中的语言种类数量,能较为准确地识别混合语种语音请求的语义,完成拒识,对指令放行或确认为闲聊或噪声进行过滤,一定程度上保证拒识结果的准确性,得到更为准确的拒识结果,提升用户的交互体验。
请参阅图2,步骤02包括:
021:对混合语种语音请求进行分词处理;
022:对分词处理后得到的每个单词进行编码处理以得到当前编码数据。
处理器用于对混合语种语音请求进行分词处理,以及对分词处理后得到的每个单词进行编码处理以得到当前编码数据。
具体地,在接收到用户发出的混合语种语音请求后,对该混合语种语音请求进行分词处理,即将语音请求以单词为最小单位进行拆分。接着,对分词处理后得到的每个单词进行编码处理,编码处理方法可以为使用字节对编码方法对单词进行压缩。其中,每个单词对应得到一组字符串令牌(Token),称为当前编码数据。当前编码数据可为掩码处理提供依据。
在一个示例中,针对语音请求"Drive me to nearest sykehus.",分词并进行编码处理的得到结果如表1所示:
表1
Figure SMS_1
其中,经过编码处理后,得到的结果为,单词"Drive"的编码标记为1323,单词"me"的编码标记为110,单词"to"的编码标记为22,单词"nearest"的编码标记为9646,单词"sykehus"的编码标记为[17, 23, 117, 1235, 2762, 23]。
在上述示例中,每个单词对应的编码处理结果均不相同,不同的编码数据可为后续掩码处理提供依据。
如此,对混合语种语音请求进行分词处理,并对分词处理后的每个单词进行编码处理,得到当前编码数据,以便根据当前编码数据对语音请求中相关单词进行掩码处理。
请参阅图3,步骤03包括:
031:将当前编码数据中标记数量大于预设数量的单词,确定为第一语种单词;
032:对第一语种单词进行掩码处理得到当前掩码数据。
处理器用于将当前编码数据中标记数量大于预设数量的单词,确定为第一语种单词,以及对第一语种单词进行掩码处理得到当前掩码数据。
具体地,在对混合语种语音请求进行分词处理后得到的每个单词进行编码处理,得到当前编码数据。编码处理过程中,语音请求的每个单词可得到一组字符串令牌标记,其中至少存在1个字符串令牌标记,标记名称可计为"Token_id"。
为了减少混合语种语音请求的语种数量,使语音助手能够更准确地判断语义,则需对该语音请求中每个单词的语种进行区分。区分方法可以是,设置预设数量,并将当前编码数据中标记数量大于预设数量的单词确定为第一语种单词。特别地,当英语为目标语言时,第一语种单词则为非英语的其他小语种。在一个示例中,针对语音请求"Drive me tonearest sykehus.",进行编码处理的得到结果如表2所示:
表2
Figure SMS_2
其中,经过编码处理后,单词"sykehus"的编码标记为[17, 23, 117, 1235,2762, 23],共存在6个标记;而语句中的其他单词均仅存在1个标记。可以设预设数量为2,则将单词"sykehus"判断为第一语种单词,即小语种单词。
在确定语句中的第一语种单词后,可对该单词进行掩码处理。可设置参数"Is_mask",将语句中需要掩码的第一语种单词对应的参数"Is_mask"的值设为1,其余单词的"Is_mask"的值设为0,得到当前掩码数据。在上述示例中,对于语音请求"Drive me tonearest sykehus.",各单词当前掩码数据的值如表3所示:
表3
Figure SMS_3
其中,需用掩码替换语音请求中当前掩码数据值为1的单词,以得到仅存在目标语言的语音请求处理结果。在上述示例中,设掩码为"<mask>",则对语音请求"Drive metonearest sykehus."进行掩码处理后得到结果为"Drive me to nearest <mask>."
如此,可通过当前编码数据确定语音请求中的小语种单词,并对该单词进行掩码处理,以根据掩码处理后的结果对语音请求进行拒识处理得到拒识结果。
请参阅图4,语音交互方法在步骤04前还包括:
06:若混合语种语音请求之前存在历史语音请求,则获取历史语音请求对应的历史掩码数据;
请参阅图5,步骤04包括:
041:根据历史掩码数据和当前掩码数据进行拒识处理得到当前拒识结果。
处理器用于若混合语种语音请求之前存在历史语音请求,则获取历史语音请求对应的历史掩码数据,以及根据历史掩码数据和当前掩码数据进行拒识处理得到当前拒识结果。
具体地,在根据当前掩码数据进行拒识处理得到当前拒识结果前,可获取该混合语种语音请求之前存在的历史语音请求对应的历史掩码数据。可使用历史掩码数据和当前掩码数据进行拒识处理。其中,历史掩码数据和当前掩码数据为分类模型训练的必选特征,如下表4所示:
表4
Figure SMS_4
在一些示例中,拒识处理可使用XLNet模型。输入XLNet模型的内容包括:起始符(CLS)、历史掩码数据、分隔符(SEP)、当前掩码数据等。经过模型训练,最终得到当前拒识结果。
如此,可获取混合语种语音请求对应的历史语音请求中对应的历史掩码数据,并结合当前掩码数据进行拒识处理,以得到当前拒识结果。
请参阅图6,语音交互方法在步骤041前还包括:
042:获取候选特征数据,候选特征数据包括车辆所在国家、历史语音请求对应的历史语种信息、历史音区信息、历史拒识结果、混合语种语音请求对应的当前语种信息和/或当前音区信息。
步骤041包括:
根据历史掩码数据、当前掩码数据和候选特征数据进行拒识处理得到当前拒识结果。
处理器用于获取候选特征数据,候选特征数据包括车辆所在国家、历史语音请求对应的历史语种信息、历史音区信息、历史拒识结果、混合语种语音请求对应的当前语种信息和/或当前音区信息,以及根据历史掩码数据、当前掩码数据和候选特征数据进行拒识处理得到当前拒识结果。
具体地,对于用户发出的混合语种语音请求,其中包含的候选特征数据如下表5所示:
表5
Figure SMS_5
在使用XLNet模型进行拒识处理的过程中。输入XLNet模型的内容按顺序可包括:起始符(CLS)、历史掩码数据、历史候选特征(一项或多项)、分隔符(SEP)、当前掩码数据、当前候选特征(一项或多项)等。
经过模型训练,用户语音请求的当前拒识结果可包括受话人和语义强度两种预测标签。当用户语音请求的指令性较强时,该语音请求存在一定的指向对象,称为受话人。而对于语音请求的指令性,可用语义强度描述指令性强弱。如表6所示,在一个示例中,对语音请求"Driveme to nearest sykehus."的描述可表述为“大概率对受话人下指令,且意愿强烈”。
表6
Figure SMS_6
除此之外,受话人预测标签还可包括“大概率不对受话人下指令”、“明确不对受话人下指令”等;语义强度预测标签还可包括“无意愿”等。受话人预测标签与语义强度预测标签可共同描述,得到语音请求的拒识结果。
如此,可获取混合语种语音请求对应的一项或多项候选特征数据,并结合历史掩码数据和当前掩码数据进行拒识处理,以得到当前拒识结果。
请参阅图7,步骤05包括:
051:对自然语言理解的结果和当前拒识结果进行融合处理以完成语音交互。
处理器用于对自然语言理解的结果和当前拒识结果进行融合处理以完成语音交互。
具体地,可为通过自动语音识别技术(Automatic Speech Recognition)识别为语音请求的用户音频,请求自然语言理解(NLU)与拒识服务。在一般情况下,自然语言理解的过程较为繁杂,其服务时延通常不低于拒识过程的时延,若等待自然语言理解过程结束后再进行拒识过程,则可能因时延使处理效率下降。因此,可在对用户语音请求进行自然语言理解的同时,异步请求拒识服务,使用户语音请求的自然语言理解和拒识过程能够同时进行,并可在第一时间获得两个处理过程的结果。其中,对当前进行处理的语音请求拒识服务得到的结果即为当前拒识结果。
进一步地,将自然语言理解的结果与拒识处理得到的当前拒识结果经过对话管理(DM, dialogue manage)服务进行融合,并输出融合结果,最终可完成语音交互。
在一个示例中,针对语音请求"Drive me to nearest sykehus.",可得到拒识结果为放行,预测标签为“大概率对受话人下指令,且意愿强烈”。此时可融合自然语言理解的结果,将该语音请求用单一语种表示,意为"Drive me to nearest hospital."。此时车辆可结合自然语言理解的结果和当前拒识结果,执行“导航去附近的医院”动作,完成语音交互。
如此,可获取混合语种语音请求的候选特征数据,并结合历史掩码数据、当前掩码数据最终完成语音交互。
步骤051包括:
若混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,则在当前拒识结果为拒识的情况下,对混合语种语音请求进行拒识处理,以完成语音交互。
处理器用于若混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,则在当前拒识结果为拒识的情况下,对混合语种语音请求进行拒识处理,以完成语音交互。
具体地,车载系统中,自然语言理解过程中会对功能点进行垂域划分。垂域即垂直领域,语音请求的垂域指语音请求内容仅与某个专一领域相关。为了提升用户的使用体验,当用户发出混合语种语音请求时,车载系统可对不同垂域的语音请求提供不同的语种支持程度,以寻找该垂域下语音助手对用户语音请求进行语义理解的合适粒度,降低语义理解的难度。
在一些示例中,用户发出的语音请求属于车辆控制或问答垂域,车载系统仅支持单一语种,例如"Light me home. ","Canyou introduce yourself"等。而在其他示例中,用户发出的语音请求属于导航垂域或音乐垂域,由于地址名或歌曲名可能涉及多语种,在导航垂域或音乐垂域下,车载系统即可支持混合语种,例如"Navigate to Høyrejuster."、"PlayHøyrejuster's music"等。
当混合语种语音请求的垂域仅支持单语种时,判断该混合语种语音请求的意图。功能点意图包括如“打开车内空调”或“导航去附近的医院”等具有明确指示性功能的意图。当该混合语种语音请求的意图为功能点意图,且其处于仅支持单语种垂域时,需通过拒识服务对该语音请求进行二次筛选。二次筛选是根据自然语言理解结果和拒识结果的优先级提升语音请求内容交互性的过程。
特别地,当混合语种语音请求的垂域支持单语种垂域且意图为功能点意图时,拒识结果的优先级大于自然语言理解的结果。即在上述场景对混合语种语音请求的拒识判断为拒识时,无需结合自然语言处理结果即可得到当前拒识结果为拒识,完成语音交互。
如此,当混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,可根据当前拒识结果,对混合语种语音请求进行拒识处理,以完成语音交互。
步骤051包括:
若混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,则在当前拒识结果为放行的情况下,对混合语种语音请求进行放行处理,根据自然语言理解的结果完成语音交互。
处理器用于若混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,则在当前拒识结果为放行的情况下,对混合语种语音请求进行放行处理,根据自然语言理解的结果完成语音交互。
具体地,当混合语种语音请求的垂域仅支持单语种时,判断该混合语种语音请求的意图。功能点意图包括如“打开车内空调”或“导航去附近的医院”等具有明确指示性功能的意图。当该混合语种语音请求的意图为功能点意图,且其处于仅支持单语种垂域时,需通过拒识服务对该语音请求进行二次筛选,可得到的拒识结果求为放行。
特别地,当混合语种语音请求的垂域支持单语种垂域且意图为功能点意图时,拒识结果的优先级大于自然语言理解的结果。即在上述场景对混合语种语音请求的拒识判断为放行时,需要向下结合优先级较低的自然语言处理结果,最终通过将自然语言处理结果与拒识处理得到的放行结果融合得到融合结果,完成语音交互。
如此,当混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,可根据放行的当前拒识结果并结合自然语言理解的结果完成语音交互。
步骤051包括:
若混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在自然语言理解的结果命中规则引擎的情况下,对混合语种语音请求进放行处理,并根据自然语言理解的结果完成语音交互。
处理器用于若混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在自然语言理解的结果命中规则引擎的情况下,对混合语种语音请求进放行处理,并根据自然语言理解的结果完成语音交互。
具体地,当混合语种语音请求的垂域支持多语种时,判断该混合语种语音请求的意图。能够命中功能点意图的包括如“打开车内空调”或“导航去附近的医院”等具有明确指示性功能的意图。当该混合语种语音请求的意图为功能点意图,且其处于支持多语种垂域时,所有语音请求均需通过拒识服务进行二次筛选,最终通过将自然语言处理结果与拒识处理得到的放行结果融合得到融合结果,完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,可经拒识过程的二次筛选,得到当前拒识结果,并结合自然语言理解的结果完成语音交互。
步骤051包括:
若混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在自然语言理解的结果未命中规则引擎且当前拒识结果为拒识的情况下,对混合语种语音请求进拒识处理,以完成语音交互。
处理器用于若混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在自然语言理解的结果未命中规则引擎且当前拒识结果为拒识的情况下,对混合语种语音请求进拒识处理,以完成语音交互。
具体地,当混合语种语音请求的垂域支持多语种时,判断该混合语种语音请求的意图。功能点意图包括如“打开车内空调”或“导航去附近的医院”等具有明确指示性功能的意图。同时,可引入规则引擎,则用户日常对话中出现的可能被语音助手识别为闲聊的语句便可被判断为存在一定意图,避免因其被错误拒识导致用户交互体验不佳。
当该混合语种语音请求的意图为功能点意图,且其经自然语言理解的结果未命中规则引擎时,拒识结果优先级大于自然语言理解的结果。由于自然语言理解的结果未命中规则引擎,拒识过程可将其内容判断为没有明确意图,得到当前拒识结果为拒识,完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,且自然语言理解结果为未命中规则引擎,可根据当前拒识结果,对混合语种语音请求进行拒识处理,以完成语音交互。
步骤051包括:
若混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在当前拒识结果为放行的情况下,对混合语种语音请求进放行处理,并根据自然语言理解的结果完成语音交互。
处理器用于若混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在当前拒识结果为放行的情况下,对混合语种语音请求进放行处理,并根据自然语言理解的结果完成语音交互。
具体地,当混合语种语音请求的垂域支持多语种时,判断该混合语种语音请求的意图。当该混合语种语音请求的意图为功能点意图,且其经自然语言理解的结果命中规则引擎时,自然语言理解的结果优先级大于拒识结果。由于自然语言理解的结果命中规则引擎,该语音请求可被判断为存在意图,得到当前拒识结果为放行。最终,根据拒识处理得到的放行结果,可融合自然语言理解的结果,完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,且自然语言理解结果为命中规则引擎,可根据当前拒识过程的放行结果,融合自然语言理解的结果,以完成语音交互。
步骤051包括:
若混合语种语音请求的垂域支持多语种垂域且意图为非功能点意图,则在当前拒识结果为放行的情况下,对混合语种语音请求进放行处理,并根据自然语言理解的结果完成语音交互。
处理器用于若混合语种语音请求的垂域支持多语种垂域且意图为非功能点意图,则在当前拒识结果为放行的情况下,对混合语种语音请求进放行处理,并根据自然语言理解的结果完成语音交互。
具体地,当混合语种语音请求的垂域支持多语种时,判断该混合语种语音请求的意图。当该混合语种语音请求的意图为非功能点意图时,拒识结果的优先级大于自然语言理解的结果。若得到当前拒识结果为放行时,可融合自然语言理解的结果,完成语音交互。
其中,非功能点意图可称为“3N意图”,具体意图可为“未知 unknown ”、“不支持unsupport”和“不清楚unclear”。例如,当用户闲聊时,语音助手可将意图归类为非功能点意图,此时拒识结果的优先级大于自然语言理解的结果。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,可根据当前拒识结果,对混合语种语音请求进行拒识处理,融合自然语言理解的结果,以完成语音交互。
步骤051包括:
若混合语种语音请求的垂域支持多语种垂域且意图为非功能点意图,则在当前拒识结果为拒识的情况下,对混合语种语音请求进拒识处理,并根据自然语言理解的结果完成语音交互。
处理器用于若混合语种语音请求的垂域支持多语种垂域且意图为非功能点意图,则在当前拒识结果为拒识的情况下,对混合语种语音请求进拒识处理,并根据自然语言理解的结果完成语音交互。
具体地,当混合语种语音请求的垂域支持多语种时,判断该混合语种语音请求的意图。当该混合语种语音请求的意图为上述步骤中“3N意图”等非功能点意图时,拒识结果的优先级大于自然语言理解的结果。若得到当前拒识结果为拒识时,可融合自然语言理解过程的结果,完成语音交互。
如此,当混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,可根据当前拒识结果,对混合语种语音请求进行拒识处理,融合自然语言理解的结果,以完成语音交互。
以下通过一个完整场景示例,分别针对对于多语种垂域且意图为功能点意图时的语义拒识和自然语言理解的过程,进行辅助说明。如表8所示,针对混合语种语音请求"Drive me to nearest sykehus.",构建掩码数据表如下:
表7
Figure SMS_7
根据表7中整合结果,设掩码为"<mask>",则对语音请求"Drive me tonearestsykehus."进行掩码处理后得到结果为"Drive me to nearest <mask>."。
对于上述掩码处理后的混合语种语音请求,可判断其垂域仅支持单语种垂域,且其意图为功能点意图,拒识结果的优先级大于自然语言理解的结果。在上述场景对混合语种语音请求的拒识判断为放行时,需要向下结合优先级较低的自然语言处理结果,即将该语音请求用单一语种表示,意为"Drive me to nearest hospital."。此时车辆可结合自然语言理解的结果和当前拒识结果,执行“导航去附近的医院”动作,完成语音交互。
这一方案可以适应多语种语言环境,将混合语种语音请求中的单词尽可能在语种上达到统一,保证了多语种环境中语音交互过程流畅性。
本申请的计算机可读存储介质,存储有计算机程序,当计算机程序被一个或多个处理器执行时,实现上述的方法。
在本说明书的描述中,参考术语“上述”、“具体地”、“进一步地”、“特别地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (14)

1.一种语音交互方法,其特征在于,包括:
接收车辆转发的混合语种语音请求;
对所述混合语种语音请求进行自然语言理解,并对所述混合语种语音请求异步进行编码处理;
根据所述编码处理得到的当前编码数据,对所述混合语种语音请求中的第一语种单词进行掩码处理得到当前掩码数据,以减少所述混合语种语音请求中的语言种类数量,所述当前掩码数据包括第一种语种单词的掩码和第二语种单词;
根据所述当前掩码数据进行拒识处理得到当前拒识结果;
对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互。
2.根据权利要求1所述的方法,其特征在于,所述对所述混合语种语音请求进行自然语言理解,并对所述混合语种语音请求异步进行编码处理,包括:
对所述混合语种语音请求进行分词处理;
对分词处理后得到的每个单词进行所述编码处理以得到所述当前编码数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述编码处理得到的当前编码数据,对所述混合语种语音请求中的第一语种单词进行掩码处理得到当前掩码数据,包括:
将所述当前编码数据中标记数量大于预设数量的单词,确定为所述第一语种单词,其中,所述标记数量为每个单词的编码数据中标记的数量;
对所述第一语种单词进行掩码处理得到所述当前掩码数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述当前掩码数据进行拒识处理得到当前拒识结果的步骤之前,所述语音交互方法包括:
若所述混合语种语音请求之前存在历史语音请求,则获取所述历史语音请求对应的历史掩码数据;
所述根据所述当前掩码数据进行拒识处理得到当前拒识结果,包括:
根据所述历史掩码数据和所述当前掩码数据进行拒识处理得到所述当前拒识结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述历史掩码数据和所述当前掩码数据进行拒识处理得到所述当前拒识结果的步骤之前,所述语音交互方法包括:
获取候选特征数据,所述候选特征数据包括车辆所在国家、所述历史语音请求对应的历史语种信息、历史音区信息、历史拒识结果、所述混合语种语音请求对应的当前语种信息和/或当前音区信息;
所述根据所述历史掩码数据和所述当前掩码数据进行拒识处理得到所述当前拒识结果,包括:
根据所述历史掩码数据、所述当前掩码数据和所述候选特征数据进行拒识处理得到所述当前拒识结果。
6.根据权利要求1所述的方法,其特征在于,所述对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互,包括:
若所述混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,则在所述当前拒识结果为拒识的情况下,对所述混合语种语音请求进行拒识处理,以完成语音交互。
7.根据权利要求1所述的方法,其特征在于,所述对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互,包括:
若所述混合语种语音请求的垂域支持单语种垂域且意图为功能点意图,则在所述当前拒识结果为放行的情况下,对所述混合语种语音请求进行放行处理,根据所述自然语言理解的结果完成语音交互。
8.根据权利要求1所述的方法,其特征在于,所述对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在所述自然语言理解的结果命中规则引擎的情况下,对所述混合语种语音请求进行放行处理,并根据所述自然语言理解的结果完成语音交互。
9.根据权利要求1所述的方法,其特征在于,所述对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在所述自然语言理解的结果未命中规则引擎且所述当前拒识结果为拒识的情况下,对所述混合语种语音请求进行拒识处理,以完成语音交互。
10.根据权利要求1所述的方法,其特征在于,所述对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为功能点意图,则在所述当前拒识结果为放行的情况下,对所述混合语种语音请求进行放行处理,并根据所述自然语言理解的结果完成语音交互。
11.根据权利要求1所述的方法,其特征在于,所述对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为非功能点意图,则在所述当前拒识结果为放行的情况下,对所述混合语种语音请求进行放行处理,并根据所述自然语言理解的结果完成语音交互。
12.根据权利要求1所述的方法,其特征在于,所述对所述自然语言理解的结果和所述当前拒识结果进行融合处理以完成语音交互,包括:
若所述混合语种语音请求的垂域支持多语种垂域且意图为非功能点意图,则在所述当前拒识结果为拒识的情况下,对所述混合语种语音请求进行拒识处理,并根据所述自然语言理解的结果完成语音交互。
13.一种服务器,其特征在于,所述服务器包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-12任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-12任意一项所述的方法。
CN202310197529.6A 2023-03-01 2023-03-01 语音交互方法、服务器及计算机可读存储介质 Active CN115910035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310197529.6A CN115910035B (zh) 2023-03-01 2023-03-01 语音交互方法、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310197529.6A CN115910035B (zh) 2023-03-01 2023-03-01 语音交互方法、服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN115910035A CN115910035A (zh) 2023-04-04
CN115910035B true CN115910035B (zh) 2023-06-30

Family

ID=86496481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310197529.6A Active CN115910035B (zh) 2023-03-01 2023-03-01 语音交互方法、服务器及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115910035B (zh)

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7542908B2 (en) * 2002-10-18 2009-06-02 Xerox Corporation System for learning a language
US20090326945A1 (en) * 2008-06-26 2009-12-31 Nokia Corporation Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
DE102015014206B4 (de) * 2015-11-04 2020-06-25 Audi Ag Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe
US11295088B2 (en) * 2019-11-20 2022-04-05 Apple Inc. Sanitizing word predictions
KR20210081103A (ko) * 2019-12-23 2021-07-01 엘지전자 주식회사 복수의 언어를 포함하는 음성을 인식하는 인공 지능 장치 및 그 방법
CN111985252B (zh) * 2020-08-21 2024-05-07 Oppo广东移动通信有限公司 对话翻译方法及装置、存储介质和电子设备
CN112667076A (zh) * 2020-12-23 2021-04-16 广州橙行智动汽车科技有限公司 一种语音交互的数据处理方法和装置
CN114694646A (zh) * 2020-12-31 2022-07-01 华为技术有限公司 一种语音交互处理方法及相关装置
CN115132175A (zh) * 2021-03-25 2022-09-30 北京三星通信技术研究有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN113535144A (zh) * 2021-06-15 2021-10-22 北京彩彻区明科技有限公司 自然语言编程方法、装置、设备及存储介质
CN114282527A (zh) * 2021-12-22 2022-04-05 中科讯飞互联(北京)信息科技有限公司 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN114897163A (zh) * 2022-05-23 2022-08-12 阿里巴巴(中国)有限公司 预训练模型数据处理方法、电子设备及计算机存储介质
CN115132182B (zh) * 2022-05-24 2024-02-23 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质
CN115132174A (zh) * 2022-06-21 2022-09-30 深圳华策辉弘科技有限公司 一种语音数据处理方法、装置、计算机设备及存储介质
CN115292469B (zh) * 2022-09-28 2023-02-07 之江实验室 一种结合段落搜索和机器阅读理解的问答方法

Also Published As

Publication number Publication date
CN115910035A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
CN110047467B (zh) 语音识别方法、装置、存储介质及控制终端
CN105931644A (zh) 一种语音识别方法及移动终端
CN108536654A (zh) 识别文本展示方法及装置
CN115064167B (zh) 语音交互方法、服务器和存储介质
US11069351B1 (en) Vehicle voice user interface
CN115457959B (zh) 语音交互方法、服务器及计算机可读存储介质
US20190244607A1 (en) Method for providing vehicle ai service and device using the same
CN113486170B (zh) 基于人机交互的自然语言处理方法、装置、设备及介质
CN112185379A (zh) 一种语音交互的方法、装置、电子设备及存储介质
CN110556102A (zh) 意图识别和执行的方法、设备、车载语音对话系统以及计算机存储介质
CN110020429B (zh) 语义识别方法及设备
CN114676691A (zh) 一种识别方法、系统、设备以及计算机可读存储介质
CN115910035B (zh) 语音交互方法、服务器及计算机可读存储介质
CN114742032A (zh) 交互式数据分析方法、装置、设备、介质及程序产品
CN110534115A (zh) 多方言混合语音的识别方法、装置、系统和存储介质
EP1836630A1 (en) Recoding medium for point of information/news information service frame structure, and apparatus for processing application service based on tpeg protocol using the same
CN113255362A (zh) 人声过滤与识别方法、装置、电子设别及存储介质
CN113132214A (zh) 一种对话方法、装置、服务器及存储介质
US11620994B2 (en) Method for operating and/or controlling a dialog system
CN114678028A (zh) 一种基于人工智能的语音交互方法及系统
CN111554300B (zh) 音频数据处理方法、装置、存储介质及设备
JP2003223187A (ja) 音声対話システムを動作させる方法
CN115294964A (zh) 语音识别方法、服务器、语音识别系统和可读存储介质
CN115203359A (zh) 信息输出系统、服务器装置以及信息输出方法
CN115620722B (zh) 语音交互方法、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant