CN116092493B - 语音交互方法、服务器和计算机可读存储介质 - Google Patents

语音交互方法、服务器和计算机可读存储介质 Download PDF

Info

Publication number
CN116092493B
CN116092493B CN202310372939.XA CN202310372939A CN116092493B CN 116092493 B CN116092493 B CN 116092493B CN 202310372939 A CN202310372939 A CN 202310372939A CN 116092493 B CN116092493 B CN 116092493B
Authority
CN
China
Prior art keywords
slot
feature vector
voice request
voice
application program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310372939.XA
Other languages
English (en)
Other versions
CN116092493A (zh
Inventor
丁鹏傑
赵群
宁洪珂
樊骏锋
郭梦雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202310372939.XA priority Critical patent/CN116092493B/zh
Publication of CN116092493A publication Critical patent/CN116092493A/zh
Application granted granted Critical
Publication of CN116092493B publication Critical patent/CN116092493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请公开了一种语音交互方法,包括:接收车辆转发的用户语音请求,对语音请求进行槽位识别;对语音请求进行应用程序接口预测;根据槽位识别的结果和预测到的应用程序接口,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。本申请的语音交互方法可对语音请求标注处理,并合并处理标注处理结果得到标签,据此对语音请求进行槽位识别,将得到的槽位识别的结果作为预测的应用程序接口的参数填充,最终输出执行结果并下发至车辆,完成语音交互。本申请的语音交互方法采用的槽位识别模型,引入对标注处理的结果进行标签合并处理进行槽位识别,可以有效地提升槽位识别的准确性,提高用户的语音交互体验。

Description

语音交互方法、服务器和计算机可读存储介质
技术领域
本发明涉及车载语音技术领域,特别涉及一种语音交互方法、服务器和计算机可读存储介质。
背景技术
目前的对话系统利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签,并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示,根据此状态使用对话策略模块选择合适的对话动作,最后通过自然语言生成模块将对话动作转成自然语言回复。然而,用户语音请求中可能存在语句部分重叠或包含关系的情况,相关技术中的识别结果可能发生错误,无法提取到期望得到的槽位结果,导致车载环境下语音交互缺乏流畅性,难以满足车载场景下的车辆控制需求。
发明内容
本申请提供了一种语音交互方法、服务器及计算机可读存储介质。
本申请的语音交互方法,包括:
接收车辆转发的语音请求;
对所述语音请求进行槽位类型标注处理;
对所述标注处理的结果进行标签合并处理;
根据所述标签合并处理后得到的标签对所述语音请求进行槽位识别;
对所述语音请求进行应用程序接口预测;
根据所述槽位识别的结果和预测到的应用程序接口,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
如此,本申请的语音交互方法可对语音请求中所包含的槽位类型进行标注处理,并根据合并处理标注处理结果得到的标签对语音请求进行槽位识别。可根据槽位识别的结果以及槽位识别结果预测对应用程序接口进行参数填充,最终输出执行结果并下发至车辆,完成语音交互。本申请的语音交互方法采用的槽位识别模型,在槽位识别的过程中,引入对标注处理的结果进行标签合并处理的方法,可以有效地提升对嵌套槽位识别的准确性,提高用户的语音交互体验。
所述对所述语音请求进行槽位类型标注处理,包括:
对所述语音请求进行文本序列编码处理,得到与所述语音请求相对应的字符序列;
根据预设槽位类型标签集对所述字符序列中的每个字符进行槽位类型的标签标注处理。
如此,可对语音请求进行编码处理,并对得到的字符序列中每个字符进行槽位类型的标签标注处理,以便对用户语音请求中的嵌套槽位进行识别。
所述对所述标注处理的结果进行标签合并处理,包括:
对所述标注处理结果中具有至少两种槽位类型的第一字符,将所述至少两种槽位类型的标签进行合并处理,并将合并后的标签确定为与所述第一字符相对应的第一标签;
对所述标注处理结果中具有单一槽位类型的第二字符,将与所述第二字符相对应的槽位类型的标签确定为第二标签。
如此,可对标注处理的结果进行进一步处理,确认语音请求中每个字符对应的标签,以便对用户语音请求进行槽位识别。
所述方法还包括:
根据所述第一标签和所述第二标签确定与所述语音请求对应的标签特征向量。
如此,可根据对用户语音请求中的标注进行处理后得到的第一标签和第二标签确定标签特征向量,使后续槽位识别过程中能够利用标签特征向量,对嵌套槽位的槽位识别更精确,提高用户的交互体验。
所述根据合并处理后得到的标签对所述语音请求进行槽位识别,包括:
根据所述语音请求的原始特征向量和所述标签特征向量对所述语音请求进行槽位识别。
如此,可将语音请求的原始特征向量与标签特征向量相融合,以对语音请求进行槽位识别。当用户的语音请求中存在具有至少两种槽位类型的第一字符时,可提高槽位识别的精确度。
所述根据所述语音请求的原始特征向量和所述标签特征向量对所述语音请求进行槽位识别,包括:
根据对所述语音请求进行文本序列编码处理得到的字符序列,确定所述原始特征向量中的第一特征向量;
根据所述字符序列确定所述语音请求的位置向量以得到所述原始特征向量中的第二特征向量;
根据所述第一特征向量、所述第二特征向量和所述标签特征向量对所述语音请求进行槽位识别。
如此,可对语音请求进行词嵌入和编码处理,得到语音请求的第一特征向量和第二特征向量,并将第一特征向量、第二特征向量,以及标签特征向量相融合,以对语音请求进行槽位识别。可识别出用户的语音请求中具有至少两种槽位类型的第一字符对应的多个相互嵌套的槽位,提高了槽位识别的精确度。
所述根据所述第一特征向量、所述第二特征向量和所述标签特征向量对所述语音请求进行槽位识别,包括:
对所述第一特征向量、所述第二特征向量和所述标签特征向量进行预定处理以得到用于进行所述槽位识别的输入;
利用槽位识别模型对所述输入进行推理处理以得到槽位识别的结果,所述槽位识别的结果包括槽位值以及与所述槽位值相对应的槽位类型。
如此,可对用户语音请求的原始特征向量和标签特征向量进行预处理,并将预处理结果作为槽位识别模型的输入,最终得到槽位识别的结果。标签特征向量的引入,避免了对语音请求中部分特殊词语的错误识别,使槽位识别的精确度得到显著提升。
所述根据所述槽位识别的结果和预测到的应用程序接口,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,包括:
根据所述语音请求、所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;
根据所述槽位识别的结果和所述目标参数,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
如此,本发明可以根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,直接输出执行结果下发至车辆完成语音交互,可以降低车载系统的延时,提升对于用户指令的响应速度。
本申请的服务器,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的方法。
本申请的计算机可读存储介质,存储由计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述实施方式任一项所述的语音交互方法。
如此,本发明的存储介质应用上述语音交互方法采用端到端架构可以降低车载系统的延时,提升对于用户指令的响应速度,同时,融入了用户语音请求的槽位识别结果和预测到的应用程序接口的额外特征,可以有效地提升应用程序接口参数填充任务的精度,满足车辆控制需求。
本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是相关技术中对话系统的结构示意图;
图2是本申请的端到端架构的对话系统的结构示意图;
图3是本申请的语音交互方法的流程示意图之一;
图4是本申请的语音交互方法的流程示意图之二;
图5是本申请的语音交互方法的流程示意图之三;
图6是本申请的语音交互方法的流程示意图之四;
图7是本申请的语音交互方法的流程示意图之五;
图8是本申请的语音交互方法的流程示意图之六;
图9是本申请的语音交互方法的流程示意图之七;
图10是本申请的语音交互方法的槽位填充模型的结构示意图;
图11是本申请的语音交互方法的流程示意图之八。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
请参阅图1,传统的车载语音架构基于传统的模块化策略,在组件之间采用分工实现整个对话流程,例如自然语言理解、状态跟踪、对话策略和自然语言生成等。这些组件要么主要是人工按照规则制作的,要么是在有监督数据集上通过训练模型产生的。每个组件的训练都需要大量的标注数据,然而标注数据往往是很昂贵的,这也限制了系统的拓展性。同时,传统车载语音系统依赖于大量的规则和业务逻辑来保证系统的准确和稳定,也进一步限制了其规模和功能。
从对话的整体处理链路来说,传统的车载语音架构拿到用户输入后,需要先对其进行自然语言理解,即进行领域分类、意图识别和槽位识别,然后在对话管理模块中结合对话的状态和对话策略选择执行满足用户输入要求的应用程序接口(ApplicationProgramming Interface,API),并通过自然语言生成模块返回和用户交互的系统输出。
有鉴于此,请参阅图2,本发明的基于端到端的对话系统包含三个核心的算法模块:槽位识别模块用于提取出用户输入的语音请求中的槽位信息;行动预测(ActionPrediction,AP)模块用来预测用户输入所对应的实现用户当前目标的应用程序接口;参数填充(Argument Filling,AF)模块用来识别用户输入中的槽位信息对应上一步中得到的应用程序接口中的参数。
槽位识别模块用于获取需要在应用程序接口中调用的动作执行主体的槽位信息,行动预测模块决定了后续实现用户语音输入所调用的应用程序接口是否是正确的,参数填充模块则进行选择哪些车辆零部件用来作为应用程序接口的参数进行执行。
然而,对于存在的嵌套槽位的用户语音请求,槽位识别过程可能无法同时识别出多个嵌套的槽位,存在槽位识别准确性的问题。以车辆控制和图形用户界面的槽位信息为例,极容易产生槽位嵌套的现象。例如,用户语音请求“关闭副驾腿托”中,“副驾”可同时存在于车辆控制槽位“副驾”和图形用户界面槽位“副驾腿托”两个槽位中,槽位识别可能出现错误,导致用户交互体验不佳。
基于上述可能遇到的问题,请参阅图3,本发明提供了一种语音交互方法。该语音交互方法包括:
01:接收车辆转发的语音请求;
02:对语音请求进行槽位类型标注处理;
03:对标注处理的结果进行标签合并处理;
04:根据标签合并处理后得到的标签对语音请求进行槽位识别;
05:对语音请求进行应用程序接口预测;
06:根据槽位识别的结果和预测到的应用程序接口,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
本发明还提供一种服务器。服务器包括处理器和存储器,存储器上存储有计算机程序。处理器用于接收车辆转发的语音请求,以及对语音请求进行槽位类型标注处理,以及对标注处理的结果进行标签合并处理,以及根据标签合并处理后得到的标签对语音请求进行槽位识别,以及对语音请求进行应用程序接口预测,以及根据槽位识别的结果和预测到的应用程序接口,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
首先,接收车辆转发的用户语音请求,并对语音请求所包含的槽位类型进行标注处理。标注处理的方式的选择与语音请求中包含槽位类型相关。例如,用户语音请求“播放周杰伦的稻香”,可对其包含的槽位“周杰伦”和“稻香”进行标注,以区分槽位类型,即“周杰伦”属于“歌手”槽位类型,“稻香”属于“歌名”槽位类型。
特别地,当用户语音请求存在槽位嵌套问题时,无法通过一次标注处理将多个的嵌套槽位提取出来,因此需要使用两个模型对语音请求进行标注处理,并对标注处理的结果进行合并处理,再根据合并处理后得到的标签直接进行槽位识别。例如,对于语音请求“关闭副驾腿托”,其中的“副驾”和“副驾腿托”相互嵌套,则可将“副”和“驾”两个字符分别对应的两个标签进行合并处理,据此对该语音请求进行槽位识别。得到槽位识别结果为车辆控制槽位“副驾”、图形用户界面槽位“腿托”。
为了解决槽位识别中每个垂域需要单独设计槽位识别模型而造成人力成本和数据成本过高的问题,本申请的槽位识别方案采用端到端架构,不区分垂域,不需要垂域内部训练模型。
完成槽位识别后,可根据用户语音请求的槽位识别结果,对语音请求进行应用程序接口预测。首先,可根据槽位识别得到的结果,通过Action Prediction(AP)模块预测该语音请求所需要的应用程序接口(API)。例如,对用户语音请求“播放歌曲A”进行应用程序接口预测得到的应用程序接口为播放音乐的应用程序接口1。对用户语音请求“导航去目的地A”进行应用程序接口预测得到的应用程序接口为导航的应用程序接口2。
此外,Argument Filling(AF)模块可通过选择槽位识别结果来填充应用程序接口中的参数,最终输出执行结果下发至车辆完成语音交互。
本申请的端到端架构可以精简传统对话系统架构的中间模块如自然语言理解模块、对话管理模块、车机指令生成模块、自然语言生成模块等,减少对于不同垂域的多个模型的调用,降低车载系统的延时,提升对于用户指令的响应速度。
综上,本申请的语音交互方法可对语音请求中所包含的槽位类型进行标注处理,并根据合并处理标注处理结果得到的标签对语音请求进行槽位识别。可根据槽位识别的结果以及槽位识别结果预测对应用程序接口进行参数填充,最终输出执行结果并下发至车辆,完成语音交互。本申请的语音交互方法采用的槽位识别模型,在槽位识别的过程中,引入对标注处理的结果进行标签合并处理的方法,可以有效地提升对嵌套槽位识别的准确性,提高用户的语音交互体验。
请参阅图4,步骤02包括:
021:对语音请求进行文本序列编码处理,得到与语音请求相对应的字符序列;
022:根据预设槽位类型标签集对字符序列中的每个字符进行槽位类型的标签标注处理。
处理器用于对语音请求进行文本序列编码处理,得到与语音请求相对应的字符序列,以及根据预设槽位类型标签集对字符序列中的每个字符进行槽位类型的标签标注处理。
具体地,语音助手在接收到车辆转发的用户语音请求后,首先需对语音请求进行文本序列编码处理。在一个示例中,用户发出的语音请求为“关闭副驾腿托”,如表1所示,对语音请求进行文本序列编码处理,得到与语音请求相对应的字符序列Token,内容为“关,闭,副,驾,腿,托”。
表1
在进行文本序列编码处理后,需对语音请求进行槽位类型标注处理。其中,标注处理的方式的选择与语音请求中包含槽位类型相关。在自然语言理解过程中进行槽位理解时,常见的标注方式为BIO标注方式:B表示该词处于一个槽位的起始位置(Begin), I 表示该词处于一个槽位中间位置(Inside), O 表示该词不属于实体词(Outside),无法提取槽位。
对于文本序列编码处理后的得到的字符序列,如果存在对应的一般槽位,可直接按照上述BIO标注方式进行标注。特别地,如果存在对应槽位为“嵌套槽位”,例如上述语音请求“关闭副驾腿托”中,“副驾腿托”中嵌套有“副驾”槽位,则在使用BIO标注方式对槽位进行标注时,需要设置不同槽位类型的标签以区别“嵌套槽位”中的不同槽位“副驾腿托”和“副驾”。如表1所示,“副驾”槽位属于车辆控制的垂域,可将字符“副”标注为B-Device,字符“驾”标注为I-Device。
在上述示例中,语音请求“关闭副驾腿托”中还存在槽位“副驾腿托”,该槽位属于图形用户界面(GUI)垂域,如表2所示,字符“副”标注为B-GUI,字符“驾”、“腿”和“托”分别标注为I-GUI:
表2
本申请为了解决槽位嵌套的问题,可预设槽位类型标签集。槽位类型标签集包括的众多垂域,除上述的车辆控制和图形用户界面垂域外,还包括导航、音乐、百科、天气等多个垂域,以便满足识别用户多领域语音请求的需求。
如此,可对语音请求进行编码处理,并对得到的字符序列中每个字符进行槽位类型的标签标注处理,以便对用户语音请求中的嵌套槽位进行识别。
请参阅图5,步骤03包括:
031:对标注处理结果中具有至少两种槽位类型的第一字符,将至少两种槽位类型的标签进行合并处理,并将合并后的标签确定为与第一字符相对应的第一标签;
032:对标注处理结果中具有单一槽位类型的第二字符,将与第二字符相对应的槽位类型的标签确定为第二标签。
处理器用于对标注处理结果中具有至少两种槽位类型的第一字符,将至少两种槽位类型的标签进行合并处理,并将合并后的标签确定为与第一字符相对应的第一标签,以及对标注处理结果中具有单一槽位类型的第二字符,将与第二字符相对应的槽位类型的标签确定为第二标签。
具体地,在对文本序列编码后语音请求的每个字符进行槽位类型标注处理之后,需确认标注处理结果是否需要合并处理。例如。在上述语音请求“关闭副驾腿托”中,字符“副”和“驾”均存在两个槽位类型标签与之对应,则需对字符的两个标签进行处理,如表3所示:
表3
如上述“副”、“驾”两个字符,其标注处理结果中具有至少两种槽位类型,则可称为第一字符。对第一字符对应的多个槽位类型的标签进行合并处理,并将合并后的标签确定为与第一字符相对应的第一标签。因此,第一字符“副”对应的第一标签为B-Device | B-GUI,第一字符“驾”对应的第一标签为I-Device | I-GUI。
在一条用户语音请求中,还存在仅具有单一槽位类型的第二字符,如上述语音请求“关闭副驾腿托”中的“关”和“闭”,以及“腿”和“托”。对于第二字符,直接将其对应的槽位类型的标签作为第二标签。如表3所示,对于“关”和“闭”两个不属于任何槽位的标签,标签不变,仍为O,对于“腿”和“托”,保持原有的BIO标注格式的标签不变,仍为I-GUI。
如此,可对标注处理的结果进行进一步处理,确认语音请求中每个字符对应的标签,以便对用户语音请求进行槽位识别。
请参阅图6,方法还包括:
07:根据第一标签和第二标签确定与语音请求对应的标签特征向量。
处理器用于根据第一标签和第二标签确定与语音请求对应的标签特征向量。
具体地,可根据标签合并处理后得到的第一标签和标注处理结果中的第二标签,确定语音请求对应的标签特征向量。例如,在用户语音请求“帮我关掉香熏气味”中,根据标签处理结果中判定的第一字符与第二字符,确定其中的第一标签与第二标签,如表4所示:
表4
其中,第一字符“香”对应的第一标签为B-Device | B-GUI,第一字符“薰”对应的第一标签为I-Device | I-GUI。对于“帮”、“我”、“关”、“闭”四个不属于任何槽位的标签,标签不变,仍为O,对于“气”和“味”,保持原有的BIO标注格式的标签不变,仍为I-GUI。
对第一字符的多个标签处理结果合并完成后,得到第一标签,并且可将第一标签视为一个整体,对该标签整体进行赋值,得到对应的标签特征向量,最终投入模型进行训练。也即是,对于语音请求中每个字符来说,无论是否在“嵌套”槽位中,其对应的第一标签或第二标签均为单一标签,而不是“复合”标签。对于由多槽位类型的标签合并得到的第一标签,其标签特征向量的确定方法与常规的非嵌套槽位识别中标签特征向量确定方法相同。也即是,可通过向量嵌入的方法得到的特征向量,作为槽位识别模型的输入。
对标签特征向量赋值时需区别第二标签和第一标签。第一标签中的两个嵌套标签之间存在特殊字符,如|,可通过识别标签中的特殊字符确定该标签为第一标签。对于上述语音请求“帮我关掉香熏”,如表5所示,可将不属于任何槽位的标签O赋值为0,将槽位标签B-GUI赋值为1,标签I-GUI赋值为2,标签B-Device赋值为3,标签I-Device赋值为4。为了区分第一标签和第二标签,则第一标签B-Device | B-GUI可赋值为5,第二标签I-Device |I-GUI可赋值为6。标签特征向量赋值过程中具体规则以及具体取值在此不作限定。
表5
根据第一标签和第二标签确定标签特征向量,以便后续槽位识别过程中能够利用标签特征向量,对嵌套槽位进行识别时可得到更精确的槽位识别结果。
如此,可根据对用户语音请求中的标注进行处理后得到的第一标签和第二标签确定标签特征向量,使后续槽位识别过程中能够利用标签特征向量,对嵌套槽位的槽位识别更精确,提高用户的交互体验。
请参阅图7,步骤04包括:
041:根据语音请求的原始特征向量和标签特征向量对语音请求进行槽位识别。
处理器用于根据语音请求的原始特征向量和标签特征向量对语音请求进行槽位识别。
具体地,当用户发出语音请求后,需根据该语音请求预训练的结果与语音请求中每个字的顺序等原始信息,得到与原始信息对应的原始特征向量。
当用户的语音请求中存在具有至少两种槽位类型的字符时,可为该语音请求中的每个字符设置一个对应的标签特征向量,以便通过标签特征向量区分语句中具有至少两种槽位类型的第一字符和具有单一槽位信息的第二字符。
在一个示例中,用户发出语音请求“帮我关掉香熏气味”,其中,“香”和“薰”具有至少两种槽位类型,则为该语音请求中的每一个字符设置一个标签,每个标签可确定一个标签特征向量,如上表3所示,第一字符“香”对应的第一标签为B-Device | B-GUI,第一字符“薰”对应的第一标签为I-Device | I-GUI。对于“帮”、“我”、“关”、“闭”四个不属于任何槽位的标签,标签不变,仍为O,对于“气”和“味”,保持原有的BIO标注格式的标签不变,仍为I-GUI。最终得到语音请求“帮我关掉香熏气味”的标签特征向量为[CLS], 0, 0, 0, 0, 5,6, 2, 2"。
在语音交互的过程中,可根据语音请求的原始信息对应的原始特征向量,以及根据第一标签和第二标签确定的标签特征向量,对语音请求进行槽位识别。在上述示例中,语音请求“帮我关掉香熏气味”的标签特征向量为:[CLS], O, O, O, O, 5, 6, 2, 2,表示该语句中存在标签特征向量值5对应的第一标签B-Device | B-GUI,标签特征向量值6对应的第一标签I-Device | I-GUI,分别对应“香熏”和“香熏气味”两个相互嵌套的槽位。在对嵌套槽位进行槽位识别的过程中,需通过特殊符号间隔|将第一标签进行转换,得到独立的嵌套槽位信息。对上述语音请求进行槽位识别,可得到槽位识别结果为[“香熏”——车辆控制(Device)]、[“香熏气味”——图形用户界面(GUI)]。对具有至少两种槽位类型的第一字符对应的第一标签进行转换得到独立的嵌套槽位信息时,需特别注意第一字符和第二字符之间的部分重叠和包含关系,避免遗漏槽位识别结果,使语音交互过程中槽位识别的精确度提高。
需要说明的是,本申请的语音交互方法为通用的解决槽位嵌套问题的方案,槽位识别过程中不区分任何垂域信息,且不设置人工干预。适用范围除上述车辆控制和图形用户界面垂域外,还适用于导航、音乐、百科、天气等多个垂域。
如此,可将语音请求的原始特征向量与标签特征向量相融合,以对语音请求进行槽位识别。当用户的语音请求中存在具有至少两种槽位类型的第一字符时,可提高槽位识别的精确度。
请参阅图8,步骤041包括:
0411:根据对语音请求进行文本序列编码处理得到的字符序列,确定原始特征向量中的第一特征向量;
0412:根据字符序列确定语音请求的位置向量以得到原始特征向量中的第二特征向量;
0413:根据第一特征向量、第二特征向量和标签特征向量对语音请求进行槽位识别。
处理器用于根据对语音请求进行文本序列编码处理得到的字符序列,确定原始特征向量中的第一特征向量,以及根据字符序列确定语音请求的位置向量以得到原始特征向量中的第二特征向量,以及根据第一特征向量、第二特征向量和标签特征向量对语音请求进行槽位识别。
具体地,可将用户语音请求与槽位识别的结果通过拼接的方式进行文本序列编码,即通过词嵌入矩阵,得到原始特征向量中的第一特征向量。例如,语音请求“帮我关掉香熏气味”对应的第一特征向量为“[CLS] 帮我关掉香熏气味”。[CLS]字符用于文本分类,为文本起始的标志字符。对于连续多条语音请求第一特征向量,在各条语音请求之间还包括[SEP]标识符,用于分开两个句子。
可根据语音请求中每个字的字符序列,确定语音请求的位置向量,即第二特征向量。位置向量的值即为当前文字字符在语音请求中顺序位置的编号。句子前的分类标识符[CLS]或停顿标识符[SEP]的编号为0,句首字符编号为1,其余字符的编号按顺序递增。最终由字符序列组成第二特征向量。
在上述示例中,语音请求“帮我关掉香熏气味”对应的第一特征向量为“[CLS] 帮我关掉香熏气味”,第二特征向量为“0, 1, 2, 3, 4, 5, 6, 7, 8”。
特别地,连续多条语音请求中,两条语音请求之间的停顿标识符[SEP]的编号遵循按顺序递增的原则。例如,语音请求“再来一首。播放周杰伦的歌曲。”的第一特征向量计为“[CLS]再来一首[SEP]播放周杰伦的歌曲”,第二特征向量为“0, 1, 2, 3, 4, 5, 6, 7,8, 9, 10, 11, 12, 13”。
得到用户语音请求的第一特征向量和第二特征向量后,可根据第一特征向量、第二特征向量和标签特征向量对语音请求进行槽位识别。在上述示例中,语音请求“帮我关掉香熏气味”进行槽位识别的结果为[“香熏”——车辆控制(Device)]、[“香熏气味”——图形用户界面(GUI)]。
如此,可对语音请求进行词嵌入和编码处理,得到语音请求的第一特征向量和第二特征向量,并将第一特征向量、第二特征向量,以及标签特征向量相融合,以对语音请求进行槽位识别。可识别出用户的语音请求中具有至少两种槽位类型的第一字符对应的多个相互嵌套的槽位,提高了槽位识别的精确度。
请参阅图9,步骤0413包括:
04131:对第一特征向量、第二特征向量和标签特征向量进行预定处理以得到用于进行槽位识别的输入;
04132:利用槽位识别模型对输入进行推理处理以得到槽位识别的结果,槽位识别的结果包括槽位值以及与槽位值相对应的槽位类型。
处理器用于对第一特征向量、第二特征向量和标签特征向量进行预定处理以得到用于进行槽位识别的输入,以及利用槽位识别模型对输入进行推理处理以得到槽位识别的结果,槽位识别的结果包括槽位值以及与槽位值相对应的槽位类型。
具体地,首先,需对用户语音请求的第一特征向量,第二特征向量,以及标签特征向量进行预处理。预处理过程可使用BERT模型,将第一特征向量,第二特征向量,以及标签特征向量以同样的向量嵌入方式进行求和,求和计算的结果即作为该用户语音请求的整体文本特征,作为槽位识别的输入进行训练和推理,得到槽位识别的结果。其中,槽位识别的结果包括槽位值以及与槽位值相对应的槽位类型。槽位识别过程可使用线性条件随机场(Linear-CRF)模型,具体模型需根据槽位识别的精确度需求选取,在此不做限定。
在一个示例中,用户语音请求“帮我关掉香熏气味”的第一特征向量,第二特征向量,以及标签特征向量如图10所示,通过统一的向量嵌入方式进入槽位识别模型进行槽位识别,得到槽位识别的结果[“香熏”——车辆控制(Device)]、[“香熏气味”——图形用户界面(GUI)],包括槽位值“香熏”和“香熏气味”,以及与前述各槽位值相对应的槽位类型,即“车辆控制(Device)”和“图形用户界面(GUI)”。
本申请的中的槽位识别模型不但利用了用户语音请求的原始文本特征,即第一特征向量和第二特征向量,同时引入了对语句中词语嵌套关系的描述,即标签特征向量。利用标签向量特征的融合的模型相比于原来的模型,其槽位识别的精确度可以得到显著提升。
如此,可对用户语音请求的原始特征向量和标签特征向量进行预处理,并将预处理结果作为槽位识别模型的输入,最终得到槽位识别的结果。标签特征向量的引入,避免了对语音请求中部分特殊词语的错误识别,使槽位识别的精确度得到显著提升。
请参阅图11,步骤06包括:
061:根据语音请求、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;
062:根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
处理器用于根据语音请求、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数,以及根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
具体地,可根据用户语音请求、槽位识别的结果,以及预测到的应用程序接口和接口类型确定槽位填充的目标参数。目标参数即为槽位识别结果对应的槽位名称。最终,可根据槽位识别的结果和目标参数,选择预测到的应用程序接口,执行所填充的目标参数,并将输出的执行结果下发至车辆,以完成语音交互。
例如,对于用户语音请求“帮我关掉香熏气味”,槽位识别的结果为:[“香熏”——车辆控制(Device)]、[“香熏气味”——图形用户界面(GUI)],应用程序接口1的参数包括“车辆控制”,对应的应用程序接口类型为“车辆控制(Device)”类型,进而判断得到槽位识别的结果中的“香熏”需要填充到应用程序接口1中的目标参数为“车辆控制”,将槽位识别的结果中的“香熏”填充到车辆控制的应用程序接口1后,可相应地执行关闭车载香熏的动作。由于该语音请求中还存在槽位[“香熏气味”——图形用户界面(GUI)],还需进一步进行应用程序接口预测,得到应用程序接口2的参数包括“图形用户界面”,对应的应用程序接口类型为“图形用户界面(GUI)”类型,进而判断得到槽位识别的结果中的“香熏气味”需要填充到应用程序接口2中的目标参数为“图形用户界面”,将槽位识别的结果中的“香熏气味”填充到车辆控制的应用程序接口2后,可在车载系统用户交互界面相应地展示关闭车载香熏气味的动作,最终完成语音交互过程。
又如,对于用户语音请求“导航去中关村”,槽位识别的结果:[“中关村”——地名(Place)],应用程序接口2的参数包括“出发地”和“目的地”2个参数,对应的应用程序接口类型为“导航”类型,进而判断得到槽位识别的结果中的“中关村”需要填充到应用程序接口2中的目标参数为“目的地”,则将槽位识别的结果中的“中关村”填充到导航的应用程序接口2后可以相应地执行导航至中关村的导航任务,从而完成语音交互。
如此,本发明可以根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,直接输出执行结果下发至车辆完成语音交互,可以降低车载系统的延时,提升对于用户指令的响应速度。
本申请的计算机可读存储介质,存储有计算机程序,当计算机程序被一个或多个处理器执行时,实现上述的方法。
在本说明书的描述中,参考术语“上述”、“具体地”、“特别地”、“进一步地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (6)

1.一种语音交互方法,其特征在于,包括:
接收车辆转发的语音请求;
对所述语音请求进行文本序列编码处理,得到与所述语音请求相对应的字符序列;
根据预设槽位类型标签集对所述字符序列中的每个字符进行槽位类型的标签标注处理;
对所述标注处理结果中具有至少两种槽位类型的第一字符,将所述至少两种槽位类型的标签进行合并处理,并将合并后的标签确定为与所述第一字符相对应的第一标签;
对所述标注处理结果中具有单一槽位类型的第二字符,将与所述第二字符相对应的槽位类型的标签确定为第二标签;
通过向量嵌入的方法对所述第一标签和所述第二标签的标签整体进行赋值,得到与所述语音请求对应的标签特征向量;
根据所述语音请求的原始特征向量和所述标签特征向量对所述语音请求进行槽位识别,所述原始特征向量通过对所述语音请求进行词嵌入和编码处理得到;
对所述语音请求进行应用程序接口预测;
根据所述槽位识别的结果和预测到的应用程序接口,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
2.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述语音请求的原始特征向量和所述标签特征向量对所述语音请求进行槽位识别,包括:
根据对所述语音请求进行文本序列编码处理得到的字符序列,确定所述原始特征向量中的第一特征向量;
根据所述字符序列确定所述语音请求的位置向量以得到所述原始特征向量中的第二特征向量;
根据所述第一特征向量、所述第二特征向量和所述标签特征向量对所述语音请求进行槽位识别。
3.根据权利要求2所述的语音交互方法,其特征在于,所述根据所述第一特征向量、所述第二特征向量和所述标签特征向量对所述语音请求进行槽位识别,包括:
对所述第一特征向量、所述第二特征向量和所述标签特征向量进行预定处理以得到用于进行所述槽位识别的输入;
利用槽位识别模型对所述输入进行推理处理以得到槽位识别的结果,所述槽位识别的结果包括槽位值以及与所述槽位值相对应的槽位类型。
4.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述槽位识别的结果和预测到的应用程序接口,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,包括:
根据所述语音请求、所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;
根据所述槽位识别的结果和所述目标参数,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
5.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1-4任一项所述的语音交互方法。
6.一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-4任一项所述的语音交互方法。
CN202310372939.XA 2023-04-07 2023-04-07 语音交互方法、服务器和计算机可读存储介质 Active CN116092493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310372939.XA CN116092493B (zh) 2023-04-07 2023-04-07 语音交互方法、服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310372939.XA CN116092493B (zh) 2023-04-07 2023-04-07 语音交互方法、服务器和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116092493A CN116092493A (zh) 2023-05-09
CN116092493B true CN116092493B (zh) 2023-08-25

Family

ID=86202949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310372939.XA Active CN116092493B (zh) 2023-04-07 2023-04-07 语音交互方法、服务器和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116092493B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091007A (zh) * 2020-03-23 2020-05-01 杭州有数金融信息服务有限公司 一种基于舆情及企业画像识别多个企业之间关系的方法
CN111353310A (zh) * 2020-02-28 2020-06-30 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN114462412A (zh) * 2022-02-14 2022-05-10 平安科技(深圳)有限公司 实体识别方法、装置、电子设备及存储介质
CN115064166A (zh) * 2022-08-17 2022-09-16 广州小鹏汽车科技有限公司 车辆语音交互方法、服务器和存储介质
CN115470354A (zh) * 2022-11-03 2022-12-13 杭州实在智能科技有限公司 基于多标签分类识别嵌套和重叠风险点的方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353310A (zh) * 2020-02-28 2020-06-30 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN111091007A (zh) * 2020-03-23 2020-05-01 杭州有数金融信息服务有限公司 一种基于舆情及企业画像识别多个企业之间关系的方法
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
WO2022041730A1 (zh) * 2020-08-28 2022-03-03 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN114462412A (zh) * 2022-02-14 2022-05-10 平安科技(深圳)有限公司 实体识别方法、装置、电子设备及存储介质
CN115064166A (zh) * 2022-08-17 2022-09-16 广州小鹏汽车科技有限公司 车辆语音交互方法、服务器和存储介质
CN115470354A (zh) * 2022-11-03 2022-12-13 杭州实在智能科技有限公司 基于多标签分类识别嵌套和重叠风险点的方法及系统

Also Published As

Publication number Publication date
CN116092493A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN115064166B (zh) 车辆语音交互方法、服务器和存储介质
US20220222447A1 (en) Translation method and apparatus, electronic device, and computer-readable storage medium
CN115083413A (zh) 语音交互方法、服务器和存储介质
CN109902301A (zh) 基于深度神经网络的关系推理方法、装置及设备
CN110110331B (zh) 文本生成方法、装置、介质和计算设备
CN115064167A (zh) 语音交互方法、服务器和存储介质
CN110309277A (zh) 人机对话语义解析方法和系统
CN115630146A (zh) 基于人机交互的需求文档自动生成方法、装置和存储介质
CN117216212A (zh) 对话处理方法、对话模型训练方法、装置、设备及介质
WO2021117180A1 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
CN115455166A (zh) 一种智能对话系统异常检测的方法、装置、介质及设备
CN115438176A (zh) 下游任务模型生成及任务执行的方法和设备
CN116092493B (zh) 语音交互方法、服务器和计算机可读存储介质
CN116959433B (zh) 文本处理方法、装置、电子设备和存储介质
CN115294964A (zh) 语音识别方法、服务器、语音识别系统和可读存储介质
CN116092495B (zh) 语音交互方法、服务器和计算机可读存储介质
CN112597777A (zh) 一种多轮对话改写方法和装置
CN116956942A (zh) 基于槽位共享跨度预测的多领域对话状态追踪方法、装置、设备及存储介质
CN111353295A (zh) 序列标注方法、装置、存储介质及计算机设备
CN116110397B (zh) 语音交互方法、服务器和计算机可读存储介质
CN115563253A (zh) 基于问答的多任务事件抽取方法及装置
CN116092494B (zh) 语音交互方法、服务器和计算机可读存储介质
CN114064854A (zh) 查询文本处理方法、装置、设备及存储介质
CN116665667A (zh) 语音交互方法、装置、服务器和计算机可读存储介质
CN112528674A (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant