CN111402888B - 语音处理方法、装置、设备及存储介质 - Google Patents

语音处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111402888B
CN111402888B CN202010101698.1A CN202010101698A CN111402888B CN 111402888 B CN111402888 B CN 111402888B CN 202010101698 A CN202010101698 A CN 202010101698A CN 111402888 B CN111402888 B CN 111402888B
Authority
CN
China
Prior art keywords
slot
filled
text content
slots
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010101698.1A
Other languages
English (en)
Other versions
CN111402888A (zh
Inventor
李良斌
袁泽宇
陈孝良
苏少炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010101698.1A priority Critical patent/CN111402888B/zh
Publication of CN111402888A publication Critical patent/CN111402888A/zh
Application granted granted Critical
Publication of CN111402888B publication Critical patent/CN111402888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语音处理方法、装置、设备及存储介质,属于语音处理技术领域。所述方法包括:当获取到第一语音时,获取所述第一语音对应的第一文本内容和目标意图;获取所述目标意图的待填充槽位对应的词典和所述待填充槽位的关联槽位对应的词典,任一槽位对应的词典用于描述所述任一槽位的槽值,所述关联槽位的槽值能够转换得到所述待填充槽位的槽值;当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值。本申请,提高了槽位填充的效率,从而提高了语音处理的效率。

Description

语音处理方法、装置、设备及存储介质
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、设备及存储介质。
背景技术
对话系统是人工智能的重要应用和落地方向,大量应用于智能音箱、智能家居、智能玩具等应用领域。对话系统可以为面向任务的对话系统,主要引导用户输入语音来完成意图的槽位填充,并最终以用户的意图及槽位为参数,调用特定的技能服务,实现某种特定功能,从而满足用户的某种需求。
相关技术在接收到用户输入的语音时,会判断该语音所表达的意图,然后判断该语音中是否包括该意图的待填充槽位的槽值,如果包括待填充槽位的槽值,则可以完成槽位填充。但如果未包括待填充槽位的槽值,则无法完成槽位填充,这样就需要用户重试多次直至某次语音中包括该待填充槽位的槽值,才能完成槽位填充,因此,亟需一种语音处理方法,提高槽位填充的效率,从而提高语音处理的效率。
发明内容
本申请实施例提供了一种语音处理方法、装置、设备及存储介质,可以提高语音处理的效率。所述技术方案如下:
第一方面,提供一种语音处理方法,包括:
当获取到第一语音时,获取所述第一语音对应的第一文本内容和目标意图;
获取所述目标意图的待填充槽位对应的词典和所述待填充槽位的关联槽位对应的词典,任一槽位对应的词典用于描述所述任一槽位的槽值,所述关联槽位的槽值能够转换得到所述待填充槽位的槽值;
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值。
在一种可能实现方式中,所述待填充槽位的关联槽位为多个;
所述当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,包括:
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括第一关联槽位对应的词典所描述的槽值时,根据多个关联槽位中除所述第一关联槽位以外的第二关联槽位,输出询问信息;
当获取到基于所述询问信息输入的第二语音时,获取所述第二语音对应的第二文本内容;
当所述第二文本内容包括所述第二关联槽位对应的词典所描述的槽值时,对所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二文本内容所包括的所述第二关联槽位的槽值进行联合解析,得到所述待填充槽位的槽值。
在一种可能实现方式中,所述根据所述多个关联槽位中除所述第一关联槽位以外的第二关联槽位,输出询问信息,包括:
根据所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二关联槽位,输出所述询问信息。
在一种可能实现方式中,所述根据所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二关联槽位,输出所述询问信息,包括:
根据所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二关联槽位,查询已填充关联槽位的槽值、缺失关联槽位和询问信息之间的对应关系,得到对应的询问信息进行输出。
在一种可能实现方式中,所述待填充槽位的关联槽位为多个;
所述当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,包括:
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括每个关联槽位对应的词典所描述的槽值时,对所述第一文本内容所包括的多个关联槽位的槽值进行联合解析,得到所述待填充槽位的槽值。
在一种可能实现方式中,所述待填充槽位的关联槽位为一个,所述关联槽位对应的词典所描述的槽值包括多个属性;
所述当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,包括:
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,对所述第一文本内容所包括的所述关联槽位的槽值进行解析,得到对应的多个属性,将得到的多个属性作为所述待填充槽位的槽值。
在一种可能实现方式中,所述当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,包括:
根据所述第一文本内容,查询所述待填充槽位对应的词典;
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值时,根据所述第一文本内容,查询所述关联槽位对应的词典;
当所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值。
在一种可能实现方式中,所述将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值之后,所述方法还包括:
根据所述目标意图和所述待填充槽位的槽值,输出对应的反馈信息。
第二方面,提供一种语音处理方法,包括:
当获取到第一语音时,获取所述第一语音对应的第一文本内容和目标意图;
判断是否存在所述目标意图的待填充槽位;
当不存在所述待填充槽位时,根据所述目标意图输出对应的反馈信息;
当存在所述待填充槽位时,获取所述待填充槽位对应的词典,判断所述第一文本内容是否包括所述待填充槽位对应的词典所描述的槽值;
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值时,判断是否存在所述待填充槽位的关联槽位;
当存在所述关联槽位时,获取所述关联槽位对应的词典,判断所述第一文本内容是否包括所述关联槽位对应的词典所描述的槽值;
当所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,根据所述目标意图和所述待填充槽位的槽值,输出对应的反馈信息。
第三方面,提供一种语音处理装置,包括:
获取模块,用于当获取到第一语音时,获取所述第一语音对应的第一文本内容和目标意图;
所述获取模块还用于获取所述目标意图的待填充槽位对应的词典和所述待填充槽位的关联槽位对应的词典,任一槽位对应的词典用于描述所述任一槽位的槽值,所述关联槽位的槽值能够转换得到所述待填充槽位的槽值;
填充模块,用于当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值。
在一种可能实现方式中,所述待填充槽位的关联槽位为多个;所述填充模块用于:
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括第一关联槽位对应的词典所描述的槽值时,根据多个关联槽位中除所述第一关联槽位以外的第二关联槽位,输出询问信息;
当获取到基于所述询问信息输入的第二语音时,获取所述第二语音对应的第二文本内容;
当所述第二文本内容包括所述第二关联槽位对应的词典所描述的槽值时,对所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二文本内容所包括的所述第二关联槽位的槽值进行联合解析,得到所述待填充槽位的槽值。
在一种可能实现方式中,所述填充模块用于:
根据所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二关联槽位,输出所述询问信息。
在一种可能实现方式中,所述填充模块用于:
根据所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二关联槽位,查询已填充关联槽位的槽值、缺失关联槽位和询问信息之间的对应关系,得到对应的询问信息进行输出。
在一种可能实现方式中,所述待填充槽位的关联槽位为多个;所述填充模块用于:
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括每个关联槽位对应的词典所描述的槽值时,对所述第一文本内容所包括的多个关联槽位的槽值进行联合解析,得到所述待填充槽位的槽值。
在一种可能实现方式中,所述待填充槽位的关联槽位为一个,所述关联槽位对应的词典所描述的槽值包括多个属性;所述填充模块用于:
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值,且所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,对所述第一文本内容所包括的所述关联槽位的槽值进行解析,得到对应的多个属性,将得到的多个属性作为所述待填充槽位的槽值。
在一种可能实现方式中,所述填充模块用于:
根据所述第一文本内容,查询所述待填充槽位对应的词典;
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值时,根据所述第一文本内容,查询所述关联槽位对应的词典;
当所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值。
在一种可能实现方式中,所述装置还包括:
输出模块,用于根据所述目标意图和所述待填充槽位的槽值,输出对应的反馈信息。
第四方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现第一方面任一种实现方式或第二方面所述的方法步骤。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现第一方面任一种实现方式或第二方面所述的方法步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过在获取到语音时,向对语音进行语音识别和语义解析,得到对应的文本内容和目标意图,然后根据目标意图的待填充槽位对应的词典和关联槽位对应的词典,判断文本内容是否包括词典所描述的槽值,即使用户语音中未包含待填充槽位的槽值,但如果用户语音中包含了关联槽位的槽值,则可以将关联槽位的槽值转换为待填充槽位的槽值,从而完成槽位填充,提高了槽位填充的效率,从而提高了语音处理的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种交互模型的结构示意图;
图2是本申请实施例提供的一种对话系统的架构示意图;
图3是本申请实施例提供的一种语音处理方法的流程图;
图4是本申请实施例提供的一种语音处理方法的流程图;
图5是本申请实施例提供的一种语音处理装置的结构示意图;
图6是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了便于理解本申请实施例的技术方案,下面先对本申请实施例所涉及的一些名词进行解释:
交互模型(Interaction Model,IM):是描述人机交互中涉及到的各种动作的内容与进行的一种设计模型。交互模型除了包括有关特定功能服务的基本信息外,还包括意图设定、槽位设定以及追问话术的设计等。
意图(Intent):对话系统中用户想要达成的目的。以“提醒”功能为例,其交互模型中需要涉及的意图可以包括例如设置提醒、查询提醒和删除提醒等。
槽位(Slot):人机交互中用户回答的语言中包含的有效信息的抽象概括。例如定制提醒会需要时间以及事件等槽位。
词典(Dictionary):槽位对应的具体内容。如天气槽位对应的词典会包括晴天、雨天、大风等。
语料样本(Sample):对话中出现的真实语句的具体表达之一。
技能服务(SkillServer):接收预设参数并实现某种特定功能的模块。
本申请实施例提供的方法应用于面向任务的对话系统,在此类对话系统中,对话任务以交互模型的方式提前加载至对话系统。参见图1,图1是本申请实施例提供的一种交互模型的结构示意图,如图1所示,该交互模型是一个三层的结构,每个交互模型包括多个意图101。每个意图101包含多个槽位102和多个语料样本103。
每个意图可以具有一个或多个待填充槽位,可以按照槽位定义相应的语料样本。从语义的角度,意图包含的槽位是可以明确列举的,例如,查询提醒(Reminder)的意图的一个语料样本可以为“查一下${startDate}{startTime}到${endDate}{endTime}我有哪些提醒”,在语义层面上,该查询提醒的意图共有4个槽位,分别为开始日期(startDate)、开始时间(startTime)、结束日期(endDate)和结束时间(endTime),这4个槽位共同作用可以描述一个无歧义的意图执行任务供技能服务执行。
参见图2,图2是本申请实施例提供的一种对话系统的架构示意图。在一个示例中,如图2中的(a)所示,该对话系统可以包括电子设备201。电子设备201为可以与用户进行对话的任一智能设备,电子设备201的具体形式可以为智能音箱。电子设备201能够实现语音处理功能。用户可以直接与电子设备201进行对话,例如,用户在电子设备201上输入语音,电子设备201对语音进行处理后,向用户输出反馈信息。
在另一个示例中,如图2中的(b)所示,该对话系统可以包括电子设备202和服务器203。电子设备202通过与服务器203之间的交互,实现语音处理功能。电子设备202的具体形式可以为台式电脑、笔记本电脑、智能手机、平板电脑等用户设备。电子设备202上安装和运行有用于进行语音处理的目标应用,用户可以通过电子设备202上的该目标应用与服务器203进行对话。例如,用户在电子设备202上输入语音,电子设备202向服务器203发送用户的语音,服务器203在接收到用户的语音后,对语音进行处理后,向电子设备202发送反馈信息,电子设备202接收到反馈信息后输出给用户。在一个示例中,电子设备202也可以对用户的语音进行预处理后,再发送给服务器203。
图3是本申请实施例提供的一种语音处理方法的流程图。以该方法由电子设备执行为例,参见图3,该方法包括:
301、当获取到第一语音时,获取该第一语音对应的第一文本内容和目标意图。
电子设备可以获取用户输入的第一语音,对该第一语音进行语音识别,得到第一文本内容,对该第一文本内容进行语义解析,得到目标意图。例如,第一文本内容可以为“查一下我有哪些提醒”,则目标意图可以为“查询提醒”,又如第一文本内容可以为“北京的天气怎么样”,则目标意图可以为“查询天气”。
对于第一文本内容的获取过程,电子设备可以将第一语音输入语音识别模型,由语音识别模型对该第一语音进行语音识别,输出对应的文本内容,也即是该第一文本内容。对于目标意图的获取过程,电子设备可以将第一文本内容输入语义解析模型,由该语义解析模型对该第一文本内容进行语义解析,输出对应的意图,也即是目标意图。该语义解析模型可以通过多个语料样本训练得到,该多个语料样本可以标注有对应的意图。
302、获取该目标意图的待填充槽位对应的词典和该待填充槽位的关联槽位对应的词典,任一槽位对应的词典用于描述该任一槽位的槽值,该关联槽位的槽值能够转换得到该待填充槽位的槽值。
本申请实施例中,任一槽位对应的词典中可以包括该槽位的多个候选槽值,该槽位取词典中的一个值进行填充。词典中也可以包括槽值描述信息,例如,对于一些不易明确列举的槽位,可以通过槽值描述信息确定某一内容是否可以作为该槽位的槽值,用来填充该槽位。任一意图的任一槽位的词典可以由开发者预先设定并存储,例如开发者可以将目标意图的待填充槽位对应的词典和关联槽位对应的词典存储到指定路径下,这样电子设备可以从该指定路径下获取到待填充槽位和关联槽位各自对应的词典。
对于待填充槽位,待填充槽位可以称为正式槽位,该槽位完成槽值填充后,会作为参数真正传递给技能服务以实现对应的功能。待填充槽位对应的词典用于描述待填充槽位的槽值,待填充槽位对应的词典中可以包括该待填充槽位的多个候选槽值,也可以包括该待填充槽位的槽值描述信息。
对于待填充槽位的关联槽位,关联槽位的槽值不会直接作为参数传递给技能服务,但是可以通过转换后作为参数传递给技能服务。待填充槽位的关联槽位可以为一个,也可以为多个。关联槽位对应的词典用于描述关联槽位的槽值,关联槽位对应的词典中可以包括该关联槽位的多个候选槽值,也可以包括该关联槽位的槽值描述信息。
在一种可能实现方式中,待填充槽位的关联槽位为一个,该关联槽位对应的词典所描述的槽值包括多个属性。针对关联槽位为一个的情况,该情况下关联槽位可以称为间接槽位,一个间接槽位的槽值能够直接转换得到待填充槽位的槽值。例如,正式槽位的槽值可能不会在用户说的话语中准确的体现,用户说的话语中出现的内容或许无法作为正式槽位的槽值,但是依然可以符合一定的规范,并可以用特定的词典进行描述,此类内容可以作为间接槽位的槽值。间接槽位的槽值蕴含了一定的语义信息,可以通过推导得到正式槽位的槽值。例如,交互模型中可以预先设定一个后处理函数,使用该后处理函数对间接槽位的槽值进行处理,将其转换成正式槽位的槽值。
间接槽位对应的词典用于描述间接槽位的至少一个槽值,每个槽值具备多个属性,可以保证更加灵活的描述能力。例如,待填充槽位(正式槽位)为日期区间(DatePeriod),间接槽位为某个日期区间(someDatePeriod),间接槽位经过规范化处理后生成开始日期(startDate)和结束日期(endDate)这两个属性,表示如下:
someDatePeriod对象:
{
"startDate":"某开始日期",
"endDate":"某结束日期"
}
后处理函数可以对间接槽位的槽值进行处理,以填充正式槽位的槽值。例如,通过词典解析的方式返回对应的startDate和endDate来填充DatePeriod槽位后传递给技能服务。
在一种可能实现方式中,该待填充槽位的关联槽位为多个。针对关联槽位为多个的情况,该情况下关联槽位可以称为辅助槽位(Subsidiary Slot),多个辅助槽位能够共同转换得到待填充槽位的槽值。
通过提出辅助槽位的概念,可以通过多轮对话,对用户说的话语中的信息分别进行提取以完成正式槽位的填充。辅助槽位可以关联至正式槽位,针对槽位澄清的过程,交互模型的开发者可以根据辅助槽位的填充情况配置不同的询问信息(prompts)对用户进行追问。下面以设置提醒(SET_REMINDER)的意图为例,对辅助槽位的设定进行说明:
设置提醒的意图的正式槽位包括日期(date)和时间(time)两个槽位,对应的词典分别为系统日期(SYSTEM.Date)词典和系统时间(SYSTEM.Time)词典。开发者可以为时间槽位设置2个辅助槽位,分别为时间段(timePhase)槽位和12小时制时间(time12Hour)槽位,对应的词典分别为系统时间阶段(SYSTEM.TimePhase,表示每天的时间段如早上,中午,晚上)词典和系统12小时制时间(SYSTEM.Time12Hour,表示12小时制时间,无法区分上午AM和下午PM)词典。
303、当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括该关联槽位对应的词典所描述的槽值时,将该第一文本内容所包括的该关联槽位的槽值转换为该待填充槽位的槽值。
在一种可能实现方式中,电子设备可以根据第一文本内容,查询待填充槽位对应的词典,如果确定第一文本内容中未包括待填充槽位对应的词典所描述的槽值,也即是未包含待填充槽位的槽值,则可以根据第一文本内容,查询关联槽位对应的词典,如果确定第一文本内容中包括关联槽位对应的词典所描述的槽值,也即是包括关联槽位的槽值,则可以将该关联槽位的槽值转换为待填充槽位的槽值。通过先判断是否命中待填充槽位,如果未命中,再判断是否命中关联槽位,即使未命中待填充槽位,但如果命中了关联槽位,则可以将关联槽位的槽值转换为待填充槽位的槽值,从而完成槽位填充。
其中,对于根据第一文本内容查询词典的方式,电子设备可以先对第一文本内容进行分词处理,得到第一文本内容包括的多个分词,然后根据每个分词分别查询词典中是否包括该分词,或者,该分词是否与该词典中的槽值描述信息匹配,如果词典中未包括该分词或者该分词与该词典中的槽值描述信息不匹配,则可以确定该第一文本内容中未包括词典所描述的槽值,如果词典中包括该分词或者该分词与该词典中的槽值描述信息匹配,则可以确定该第一文本内容中包括词典所描述的槽值。
针对关联槽位为一个的情况,在一种可能实现方式中,该步骤303包括:当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括该关联槽位对应的词典所描述的槽值时,对该第一文本内容所包括的该关联槽位的槽值进行解析,得到对应的多个属性,将得到的多个属性作为该待填充槽位的槽值。
该情况下,关联槽位可以称为为间接槽位,间接槽位的每个槽值均包括多个属性,第一文本内容所包括的间接槽位的槽值也包括多个属性,电子设备可以对第一文本内容所包括的间接槽位的槽值进行解析或推理,得到该间接槽位的槽值包括的多个属性,如电子设备可以使用交互模型中的后处理函数对该间接槽位的槽值进行处理,得到其包括的多个属性。
例如,第一文本内容为“查询接下来一周的提醒”,目标意图为查询提醒的意图,正式槽位(待填充槽位)包括开始日期(startDate)、开始时间(startTime)、结束日期(endDate)和结束时间(endTime)这4个槽位,间接槽位为时间段槽位,第一文本内容包括间接槽位的槽值“接下来一周”,电子设备可以对“接下来一周”进行解析,得到开始日期(startDate)、开始时间(startTime)、结束日期(endDate)和结束时间(endTime)等4个属性,将这4个属性作为开始日期(startDate)、开始时间(startTime)、结束日期(endDate)和结束时间(endTime)这4个槽位的槽值。其中,对“接下来一周”进行解析得到的4个属性如下:
又如,第一文本内容为“查询明天的提醒”,目标意图为查询提醒的意图,正式槽位(待填充槽位)包括开始日期(startDate)、开始时间(startTime)、结束日期(endDate)和结束时间(endTime)这4个槽位,间接槽位为时间段槽位,第一文本内容包括间接槽位的槽值“明天”,电子设备可以对“明天”进行解析,得到开始日期(startDate)、开始时间(startTime)、结束日期(endDate)和结束时间(endTime)等4个属性,将这4个属性作为开始日期(startDate)、开始时间(startTime)、结束日期(endDate)和结束时间(endTime)这4个槽位的槽值。其中,对“明天”进行解析得到的4个属性如下:
相关技术的交互模型描述方式,要求意图的槽位的槽值必须显式地出现在用户说的话语中,这种紧耦合的方式,带来的主要问题是描述能力的有限,无法完成用户表达内容到槽位的映射,没有考虑用户表达内容到槽位的非直接映射。而本申请实施例提供的即使意图的正式槽位的槽值没有显式地出现在用户说的话语中,文本内容无法与词典完全对应,也可以经过推理过程,获得文本内容中隐含的槽位信息,将间接槽位的槽值转换为正式槽位的槽值,从而完成槽位的填充。
针对关联槽位为多个的情况,在一种可能实现方式中,该步骤303包括:当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括每个关联槽位对应的词典所描述的槽值时,对该第一文本内容所包括的多个关联槽位的槽值进行联合解析,得到该待填充槽位的槽值。
该情况下,关联槽位可以称为辅助槽位,电子设备判断第一文本内容是否包括词典所描述的槽值的方式在前面已有描述,此处不再赘述。如果第一文本内容包括每个辅助槽位对应的词典所描述的槽值,也即是,第一文本内容同时命中了多个辅助槽位的槽值,则表明有关正式槽位(待填充槽位)的完整槽值被分散在了两个辅助槽位中,则电子设备可以通过交互模型中的后处理函数,将这两个辅助槽位的槽值联合解析成正式槽位的槽值,例如,第一文本内容包括其中一个辅助槽位(timePhase)的槽值“早上”以及另一个辅助槽位(time12Hour)的槽值“八点”,则电子设备可以将这两个槽值合并成正式槽位(time)的槽值,也即是24小时制的8:00。
通过设置多个辅助槽位,如果同时命中该多个辅助槽位的槽值,则可以联合解析得到正式槽位的槽值,完成槽位的填充,提高了槽位填充的效率。
在另一种可能实现方式中,该步骤303包括下述步骤一至步骤三:
步骤一、当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括第一关联槽位对应的词典所描述的槽值时,根据多个关联槽位中除该第一关联槽位以外的第二关联槽位,输出询问信息。
如果第一文本内容包括第一关联槽位对应的词典所描述的槽值,也即是,第一文本内容仅命中了多个辅助槽位中一个辅助槽位的槽值,则表明有关正式槽位(待填充槽位)的完整槽值只被提供了部分,这时电子设备可以对用户进行追问。
在一种可能实现方式中,该步骤一中根据该多个关联槽位中除该第一关联槽位以外的第二关联槽位,输出询问信息,包括:根据该第一文本内容所包括的该第一关联槽位的槽值和该第二关联槽位,输出该询问信息。
电子设备根据已获得的辅助槽位及缺失的辅助槽位情况进行追问,例如,根据该第一文本内容所包括的该第一关联槽位的槽值和该第二关联槽位,查询已填充关联槽位的槽值、缺失关联槽位和询问信息之间的对应关系,得到对应的询问信息进行输出,该询问信息是预先定义好的澄清话术。例如,第一文本内容包括其中一个辅助槽位(timePhase)的槽值“早上”,则电子设备输出的询问信息可以为“请问早上几点”。
步骤二、当获取到基于该询问信息输入的第二语音时,获取该第二语音对应的第二文本内容。
电子设备输出询问信息后,用户可以输入第二语音,电子设备可以对该第二语音进行语音识别,得到第二语音的第二文本内容。
步骤三、当该第二文本内容包括该第二关联槽位对应的词典所描述的槽值时,对该第一文本内容所包括的该第一关联槽位的槽值和该第二文本内容所包括的该第二关联槽位的槽值进行联合解析,得到该待填充槽位的槽值。
如果第二文本内容包括第二关联槽位对应的词典所描述的槽值,也即是,第二文本内容命中了多个辅助槽位中缺失辅助槽位的槽值,则表明有关正式槽位(待填充槽位)的完整槽值提供完整了,则电子设备可以通过交互模型中的后处理函数,将这两个辅助槽位的槽值联合解析成正式槽位的槽值。
通过设置多个辅助槽位,如果命中其中一个辅助槽位的槽值,则可以进行追问得到缺失辅助槽位的槽值,然后联合解析得到正式槽位的槽值,完成槽位的填充,可以提高槽位填充的效率。
在某些场景下,语义槽位的填充既可以通过一次交互填充完毕,又可以通过多轮交互每次填充一部分的方式进行完成,典型的一种槽位类型是时间槽位。例如,第一文本内容为“帮我设置${date}的提醒”,目标意图为“设置提醒”的意图,该意图的正式槽位包括日期(date)槽位和时间(time)槽位,相关技术中对于交互模型来说,如果时间槽位缺失,系统只能按照缺失槽位进行总体发问,如针对时间槽位的追问只会是单轮的,如“订什么时间的提醒”,用户必须基于单轮的追问提供完整的时间信息才能实现时间槽位的填充,交互流程受到比较大的限制。
而本申请实施例中,时间槽位可以通过多轮交互进行完善,每轮完成部分信息,例如,如果用户说“帮我订明天下午的提醒”,则电子设备可以输出询问信息“请问订下午几点的提醒”,用户可以回答“5点”,此时完成了“设置提醒”的意图的正式槽位的填充,其中,日期槽位(date)为明天的日期,时间(time)槽位为17:00:00。可见,时间槽位是通过2轮交互,每一轮获取了槽位的一部分信息,分别是下午和5点,最终汇总为意图的时间槽位的槽值,显然这一的交互更加符合日常的语言习惯。而相关技术的交互模型下,无法实现通过多轮完成一个槽位的填充情况,也无法根据槽位的填充进展设置不同的澄清话术。
除了时间槽位可以采用类似的辅助槽位扩展方式扩展表达能力外,诸如城市(city)等地点槽位类型也同样适用,例如,查询天气的意图的正式槽位为城市(city),用户有可能说一个地理范围如“查一下江苏省的天气”,其中的“江苏省”就可以命中如省(province)的辅助槽位,进而追问“请问查江苏省哪个城市的天气”,得到“省会的天气”这样的回答时,其中的“省会”就可以命中如抽象城市(abstractCity)的辅助槽位,然后把命中的这两个辅助槽位的槽值联合解析,得到南京市,将其作为正式槽位的槽值,其这种知识类的联合解析的实现则可以通过如百科等问答完成。
本申请实施例中待填充槽位的类型除了上述内容中提到的时间槽位和地点槽位以外,还可以包括事物槽位,如球队,例如,观看足球比赛的意图的待填充槽位为球队,用户说“我想看C罗的比赛”,其中的“C罗”就可以命中如“球员”的辅助槽位,进而追问“请问C罗在的国家队还是俱乐部”,得到“俱乐部”这样的回答时,其中的“俱乐部”就可以命中如抽象球队(abstractCity)的辅助槽位,然后把命中的这两个辅助槽位的槽值联合解析,得到曼联,将其作为待填充槽位的槽值。本申请实施例对待填充槽位的类型不做限定。
本申请实施例的多轮询问不同于相关技术中的多轮询问,区别在于相关技术中的多轮询问所期望的缺失的槽位与已填槽位并无很强的关联性(比如订机票已有出发地目的地,缺失时间),而本申请实施例中辅助槽位之间有着逻辑的约束和共同的目的,并且辅助槽位并不会传递给技能服务而只作为语义层面的存在。
304、根据该目标意图和该待填充槽位的槽值,输出反馈信息。
电子设备可以将目标意图和待填充槽位(正式槽位)的槽值作为参数传递给对应的技能服务,由技能服务执行对应的操作后生成反馈信息,电子设备可以将该反馈信息输出给用户。例如,目标意图为查询天气的意图,正式槽位为城市槽位,正式槽位的槽值为南京市,则对应的技能服务为查询天气的技能服务,该技能服务可以执行查询南京市的天气的操作,然后将查询到的天气作为反馈信息。
需要说明的是,本申请实施例是以第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括该关联槽位对应的词典所描述的槽值为例进行说明,在一个可能的实施例中,如果第一文本内容中包括待填充槽位对应的词典所描述的槽值,则电子设备可以直接根据该目标意图和该第一文本内容所包括的待填充槽位的槽值,输出反馈信息。如果第一文本内容包括待填充槽位对应的词典所描述的槽值,也即是,第一文本内容包括正式槽位的槽值,则表明第一文本内容直接命中了正式槽位,则可以将第一文本内容所包括的正式槽位的槽值传递给技能服务,实现相应的功能。
需要说明的是,本申请实施例是以上述各个步骤由电子设备执行为例进行说明,可以理解的是,上述各个步骤也可以由电子设备和服务器之间的交互来实现,例如,步骤301可以由电子设备和服务器交互执行(如步骤301中电子设备获取到第一语音后,可以将第一语音发送给服务器,由服务器获取该第一语音对应的第一文本内容和目标意图),步骤302至步骤303可以由服务器执行,步骤304可以由电子设备和服务器交互执行(如服务器可以根据该目标意图和该待填充槽位的槽值,生成反馈信息,将反馈信息发送给电子设备进行输出),本申请实施例对此不做限定。
本申请实施例提供的方法,扩展了交互模型的语义描述能力,定义了一套全新的模式(schema),提供更加灵活的交互模型描述方案,支持从意图语义本身对交互模型的意图进行划分,而无需与语料样本的具体形式绑定,使得交互模型的开发者可以用简洁、灵活的表示方式对意图进行定义,通过设计间接槽位,通过交互模型中内置后处理函数将间接槽位的槽值转换为正式槽位的槽值,通过设计辅助槽位,将辅助槽位关联至正式槽位,按照辅助槽位的填充情况对用户进行多轮发问以及得到用户的回答,通过后处理函数将多个辅助槽位的槽值进行联合解析,得到正式槽位的槽值,完成槽位填充,解决相关技术中槽位无法在语料样本中精确标记、槽位无法通过多轮问询进行填充的问题,使人机交互的逻辑更加自然流畅,提升了用户的交互体验。
为了便于更清楚的理解上述技术方案的流程,下面将结合图4对上述技术方案的流程进行说明,如图4所示,上述技术方案的流程可以包括:
步骤一、当获取到第一语音时,获取该第一语音对应的第一文本内容和目标意图。
该步骤一的过程在步骤301中已有说明,此处不再赘述。
步骤二、判断是否存在该目标意图的待填充槽位。
本申请实施例中,一些意图可以设置有待填充槽位,另一些意图可以未设置有待填充槽位,电子设备可以根据目标意图,查询槽位设置信息,确定是否存在目标意图的待填充槽位,其中,该槽位设置信息用于记录多种意图的待填充槽位。
步骤三、当不存在该目标意图的待填充槽位时,根据该目标意图输出对应的反馈信息。
如果槽位设置信息中未记录目标意图的待填充槽位,则电子设备可以将目标意图作为参数传递给对应的技能服务,由技能服务执行对应的操作后生成反馈信息,电子设备可以将该反馈信息输出给用户。例如,第一语音为“我想听音乐”,则通过步骤一得到的目标意图为“听音乐”,则技能服务器可以在音乐库中随机搜索一首音乐XX进行播放,并生成反馈信息“为您播放XX”。
步骤四、当存在该目标意图的待填充槽位时,获取该目标意图的待填充槽位对应的词典,判断该第一文本内容是否包括该待填充槽位对应的词典所描述的槽值。
如果槽位设置信息中记录了目标意图的待填充槽位,则电子设备可以获取该目标意图的待填充槽位对应的词典,判断该第一文本内容是否包括该待填充槽位对应的词典所描述的槽值,具体过程在步骤302和步骤303中已有说明,此处不再赘述。
步骤五、当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值时,判断是否存在该待填充槽位的关联槽位。
在一些实施例中,当第一文本内容包括该待填充槽位对应的词典所描述的槽值时,电子设备可以将目标意图和待填充槽位的槽值作为参数传递给对应的技能服务,由技能服务执行对应的操作后生成反馈信息,电子设备可以将该反馈信息输出给用户。
本申请实施例中,一些待填充槽位可以设置有关联槽位,另一些待填充槽位可以未设置有关联槽位,电子设备可以根据待填充槽位,查询槽位设置信息,确定是否存在待填充槽位的关联槽位,其中,该槽位设置信息还用于记录多种待填充槽位的关联槽位。
步骤六、当存在该待填充槽位的关联槽位时,获取该待填充槽位的关联槽位对应的词典,判断该第一文本内容是否包括关联槽位对应的词典所描述的槽值。
如果槽位设置信息中记录了待填充槽位的关联槽位,则电子设备可以获取该待填充槽位的关联槽位对应的词典,判断该第一文本内容是否包括关联槽位对应的词典所描述的槽值,具体过程在步骤302和步骤303中已有说明,此处不再赘述。
在一些实施例中,当不存在该待填充槽位的关联槽位时,则本次无法完成槽位填充,电子设备可以提示用户重新进行语音输入,用户可以重试多次,直至某次语音中包括该待填充槽位的槽值时,完成槽位填充,将目标意图和待填充槽位的槽值作为参数传递给对应的技能服务,由技能服务执行对应的操作后生成反馈信息,电子设备可以将该反馈信息输出给用户。
步骤七、当该第一文本内容包括该关联槽位对应的词典所描述的槽值时,将该第一文本内容所包括的该关联槽位的槽值转换为该待填充槽位的槽值,根据该目标意图和该待填充槽位的槽值,输出对应的反馈信息。
具体过程在步骤302至步骤304中已有说明,此处不再赘述。
在一些实施例中,当该第一文本内容未包括该关联槽位对应的词典所描述的槽值时,则本次无法完成槽位填充,电子设备可以提示用户重新进行语音输入,用户可以重试多次,直至某次语音中包括该待填充槽位的槽值或包括该关联槽位对应的词典所描述的槽值时,完成槽位填充,将目标意图和待填充槽位的槽值作为参数传递给对应的技能服务,由技能服务执行对应的操作后生成反馈信息,电子设备可以将该反馈信息输出给用户。
上述步骤一至步骤七,通过在获取到语音对应的意图后,判断该意图是否存在对应的待填充槽位,如果不存在待填充槽位则直接根据目标意图输出对应的反馈信息,如果存在待填充槽位,则完成待填充槽位的填充后,再输出对应的反馈信息。
本申请实施例提供的方法,通过在获取到语音时,向对语音进行语音识别和语义解析,得到对应的文本内容和目标意图,然后根据目标意图的待填充槽位对应的词典和关联槽位对应的词典,判断文本内容是否包括词典所描述的槽值,即使用户语音中未包含待填充槽位的槽值,但如果用户语音中包含了关联槽位的槽值,则可以将关联槽位的槽值转换为待填充槽位的槽值,从而完成槽位填充,提高了槽位填充的效率,从而提高了语音处理的效率。
图5是本申请实施例提供的一种语音处理装置的结构示意图。参照图5,该装置包括:
获取模块501,用于当获取到第一语音时,获取该第一语音对应的第一文本内容和目标意图;
该获取模块501还用于获取该目标意图的待填充槽位对应的词典和该待填充槽位的关联槽位对应的词典,任一槽位对应的词典用于描述该任一槽位的槽值,该关联槽位的槽值能够转换得到该待填充槽位的槽值;
填充模块502,用于当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括该关联槽位对应的词典所描述的槽值时,将该第一文本内容所包括的该关联槽位的槽值转换为该待填充槽位的槽值。
在一种可能实现方式中,该待填充槽位的关联槽位为多个;该填充模块502用于:
当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括第一关联槽位对应的词典所描述的槽值时,根据多个关联槽位中除该第一关联槽位以外的第二关联槽位,输出询问信息;
当获取到基于该询问信息输入的第二语音时,获取该第二语音对应的第二文本内容;
当该第二文本内容包括该第二关联槽位对应的词典所描述的槽值时,对该第一文本内容所包括的该第一关联槽位的槽值和该第二文本内容所包括的该第二关联槽位的槽值进行联合解析,得到该待填充槽位的槽值。
在一种可能实现方式中,该填充模块502用于:
根据该第一文本内容所包括的该第一关联槽位的槽值和该第二关联槽位,输出该询问信息。
在一种可能实现方式中,该填充模块502用于:
根据该第一文本内容所包括的该第一关联槽位的槽值和该第二关联槽位,查询已填充关联槽位的槽值、缺失关联槽位和询问信息之间的对应关系,得到对应的询问信息进行输出。
在一种可能实现方式中,该待填充槽位的关联槽位为多个;该填充模块502用于:
当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括每个关联槽位对应的词典所描述的槽值时,对该第一文本内容所包括的多个关联槽位的槽值进行联合解析,得到该待填充槽位的槽值。
在一种可能实现方式中,该待填充槽位的关联槽位为一个,该关联槽位对应的词典所描述的槽值包括多个属性;该填充模块502用于:
当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值,且该第一文本内容包括该关联槽位对应的词典所描述的槽值时,对该第一文本内容所包括的该关联槽位的槽值进行解析,得到对应的多个属性,将得到的多个属性作为该待填充槽位的槽值。
在一种可能实现方式中,该填充模块502用于:
根据该第一文本内容,查询该待填充槽位对应的词典;
当该第一文本内容未包括该待填充槽位对应的词典所描述的槽值时,根据该第一文本内容,查询该关联槽位对应的词典;
当该第一文本内容包括该关联槽位对应的词典所描述的槽值时,将该第一文本内容所包括的该关联槽位的槽值转换为该待填充槽位的槽值。
在一种可能实现方式中,该装置还包括:
输出模块,用于根据该目标意图和该待填充槽位的槽值,输出对应的反馈信息。
本申请实施例中,通过在获取到语音时,向对语音进行语音识别和语义解析,得到对应的文本内容和目标意图,然后根据目标意图的待填充槽位对应的词典和关联槽位对应的词典,判断文本内容是否包括词典所描述的槽值,即使用户语音中未包含待填充槽位的槽值,但如果用户语音中包含了关联槽位的槽值,则可以将关联槽位的槽值转换为待填充槽位的槽值,从而完成槽位填充,提高了槽位填充的效率,从而提高了语音处理的效率。
需要说明的是:上述实施例提供的语音处理装置在语音处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音处理装置与语音处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请实施例提供的一种电子设备的结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processingunits,CPU)601和一个或多个存储器602,其中,所述存储器602中存储有至少一条程序代码,所述至少一条程序代码由所述处理器601加载并执行以实现上述各个方法实施例提供的方法。当然,该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该电子设备还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储有至少一条程序代码的计算机可读存储介质,例如存储有至少一条程序代码的存储器,上述至少一条程序代码由处理器加载并执行,以实现上述实施例中的语音处理方法。例如,所述计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种语音处理方法,其特征在于,所述方法包括:
当获取到第一语音时,获取所述第一语音对应的第一文本内容和目标意图;
获取所述目标意图的待填充槽位对应的词典和所述待填充槽位的关联槽位对应的词典,任一槽位对应的词典用于描述所述任一槽位的槽值,所述关联槽位的槽值能够转换得到所述待填充槽位的槽值;
根据所述第一文本内容,查询所述待填充槽位对应的词典;
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值时,根据所述第一文本内容,查询所述关联槽位对应的词典;
当所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值。
2.根据权利要求1所述的方法,其特征在于,所述待填充槽位的关联槽位为多个;
所述将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,包括:
根据多个关联槽位中除第一关联槽位以外的第二关联槽位,输出询问信息;
当获取到基于所述询问信息输入的第二语音时,获取所述第二语音对应的第二文本内容;
当所述第二文本内容包括所述第二关联槽位对应的词典所描述的槽值时,对所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二文本内容所包括的所述第二关联槽位的槽值进行联合解析,得到所述待填充槽位的槽值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个关联槽位中除所述第一关联槽位以外的第二关联槽位,输出询问信息,包括:
根据所述第一文本内容所包括的所述第一关联槽位的槽值和所述第二关联槽位,输出所述询问信息。
4.根据权利要求1所述的方法,其特征在于,所述待填充槽位的关联槽位为多个;
所述将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,包括:
对所述第一文本内容所包括的多个关联槽位的槽值进行联合解析,得到所述待填充槽位的槽值。
5.根据权利要求1所述的方法,其特征在于,所述待填充槽位的关联槽位为一个,所述关联槽位对应的词典所描述的槽值包括多个属性;
所述将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,包括:
对所述第一文本内容所包括的所述关联槽位的槽值进行解析,得到对应的多个属性,将得到的多个属性作为所述待填充槽位的槽值。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值之后,所述方法还包括:
根据所述目标意图和所述待填充槽位的槽值,输出对应的反馈信息。
7.一种语音处理方法,其特征在于,所述方法包括:
当获取到第一语音时,获取所述第一语音对应的第一文本内容和目标意图;
判断是否存在所述目标意图的待填充槽位;
当不存在所述待填充槽位时,根据所述目标意图输出对应的反馈信息;
当存在所述待填充槽位时,获取所述待填充槽位对应的词典,判断所述第一文本内容是否包括所述待填充槽位对应的词典所描述的槽值;
当所述第一文本内容未包括所述待填充槽位对应的词典所描述的槽值时,判断是否存在所述待填充槽位的关联槽位;
当存在所述关联槽位时,获取所述关联槽位对应的词典,判断所述第一文本内容是否包括所述关联槽位对应的词典所描述的槽值;
当所述第一文本内容包括所述关联槽位对应的词典所描述的槽值时,将所述第一文本内容所包括的所述关联槽位的槽值转换为所述待填充槽位的槽值,根据所述目标意图和所述待填充槽位的槽值,输出对应的反馈信息。
8.一种语音处理装置,其特征在于,所述装置包括多个功能模块,所述多个功能模块用于执行权利要求1至7任一项所述的语音处理方法。
9.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现如权利要求1至7任一项所述的语音处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至7任一项所述的语音处理方法。
CN202010101698.1A 2020-02-19 2020-02-19 语音处理方法、装置、设备及存储介质 Active CN111402888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010101698.1A CN111402888B (zh) 2020-02-19 2020-02-19 语音处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010101698.1A CN111402888B (zh) 2020-02-19 2020-02-19 语音处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111402888A CN111402888A (zh) 2020-07-10
CN111402888B true CN111402888B (zh) 2023-12-08

Family

ID=71428413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010101698.1A Active CN111402888B (zh) 2020-02-19 2020-02-19 语音处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111402888B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562658A (zh) * 2020-12-04 2021-03-26 广州橙行智动汽车科技有限公司 一种填槽方法和装置
CN113435205B (zh) * 2021-04-29 2024-09-27 北京小米移动软件有限公司 语义解析方法及装置
CN116189673A (zh) * 2021-11-29 2023-05-30 中兴通讯股份有限公司 语音控制方法、终端设备、服务器及存储介质
CN115064166B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 车辆语音交互方法、服务器和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003605A (zh) * 2018-07-02 2018-12-14 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
CN109101545A (zh) * 2018-06-29 2018-12-28 北京百度网讯科技有限公司 基于人机交互的自然语言处理方法、装置、设备和介质
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
CN109979450A (zh) * 2019-03-11 2019-07-05 青岛海信电器股份有限公司 信息处理方法、装置及电子设备
CN110111787A (zh) * 2019-04-30 2019-08-09 华为技术有限公司 一种语义解析方法及服务器
CN110232190A (zh) * 2019-06-14 2019-09-13 上海流利说信息技术有限公司 一种对话生成的方法、装置、存储介质及电子设备
CN110659970A (zh) * 2018-06-12 2020-01-07 百度在线网络技术(北京)有限公司 基于语音识别的账务信息处理方法、装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040085162A1 (en) * 2000-11-29 2004-05-06 Rajeev Agarwal Method and apparatus for providing a mixed-initiative dialog between a user and a machine

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
CN110659970A (zh) * 2018-06-12 2020-01-07 百度在线网络技术(北京)有限公司 基于语音识别的账务信息处理方法、装置和电子设备
CN109101545A (zh) * 2018-06-29 2018-12-28 北京百度网讯科技有限公司 基于人机交互的自然语言处理方法、装置、设备和介质
CN109003605A (zh) * 2018-07-02 2018-12-14 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
CN109979450A (zh) * 2019-03-11 2019-07-05 青岛海信电器股份有限公司 信息处理方法、装置及电子设备
CN110111787A (zh) * 2019-04-30 2019-08-09 华为技术有限公司 一种语义解析方法及服务器
CN110232190A (zh) * 2019-06-14 2019-09-13 上海流利说信息技术有限公司 一种对话生成的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111402888A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111402888B (zh) 语音处理方法、装置、设备及存储介质
JP6434948B2 (ja) 名前発音システム及び方法
US9263039B2 (en) Systems and methods for responding to natural language speech utterance
US8972260B2 (en) Speech recognition using multiple language models
US9626959B2 (en) System and method of supporting adaptive misrecognition in conversational speech
US9418652B2 (en) Automated learning for speech-based applications
US6999931B2 (en) Spoken dialog system using a best-fit language model and best-fit grammar
CN110970021B (zh) 一种问答控制方法、装置及系统
WO2020015479A1 (zh) 播报语音的确定方法、装置和设备
CN108962233A (zh) 用于语音对话平台的语音对话处理方法及系统
CN111199732A (zh) 一种基于情感的语音交互方法、存储介质及终端设备
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN113822506A (zh) 一种用于电力调控的多轮次语音交互智能检索系统及方法
Yang et al. Research and Design of Intelligent Voice Customer Service System
Valenta et al. Spoken dialogue system design in 3 weeks
JP7166370B2 (ja) 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体
CN117690411A (zh) 音频处理方法、装置、设备、介质和程序产品
CN113948058A (zh) 语音合成方法、系统、存储介质及其计算机设备
De Vries Effective automatic speech recognition data collection for under–resourced languages
CN118069805A (zh) 基于语音和文本协同的智能问答方法及装置
CN117668620A (zh) 一种领域外意图识别对话方法及装置
Novak et al. Evaluation of a WFST-based ASR system for train timetable information
Seydoux et al. Dialogue Management with weak speech recognition: a pragmatic approach
Stanley A Robust Architecture for Human Language Technology Systems
Wang Speech Recognition Engine for Interactive Voice Response application on Windows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant