CN113470625A - 语音对话处理方法、装置、设备及存储介质 - Google Patents

语音对话处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113470625A
CN113470625A CN202110736444.1A CN202110736444A CN113470625A CN 113470625 A CN113470625 A CN 113470625A CN 202110736444 A CN202110736444 A CN 202110736444A CN 113470625 A CN113470625 A CN 113470625A
Authority
CN
China
Prior art keywords
text
target
dialog
named entity
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110736444.1A
Other languages
English (en)
Inventor
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Lichuan Intelligent Technology Co ltd
Original Assignee
Xi'an Lichuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Lichuan Intelligent Technology Co ltd filed Critical Xi'an Lichuan Intelligent Technology Co ltd
Priority to CN202110736444.1A priority Critical patent/CN113470625A/zh
Publication of CN113470625A publication Critical patent/CN113470625A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种语音对话处理方法、装置、设备及存储介质,涉及计算机应用技术领域。该方法包括:对输入语音进行识别,确定输入语音对应的目标文本;对目标文本进行关联处理,得到至少一个目标关联文本;根据目标文本、至少一个目标关联文本,得到对话文本;输出对话文本对应的语音。本方案,主要是基于用户之前输入语音对应的目标文本、以及“用户之前输入的语音以及长连续对话”的关联文本,联合生成待反馈的对话文本,进而以保证智能客服与用户之间对话交互的上下文逻辑的连贯性,有效提高了向用户所反馈的对话文本具有较高的流利度和准确性,有效提高了用户的体验度。

Description

语音对话处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机应用技术领域,具体而言,涉及一种语音对话处理方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,智能客服机器人也得到了迅速发展。智能客服机器人,主要是基于自然语言处理(natural language processing,简称NLP)技术,实现与用户之间的语音交互。
目前,大部分智能客服机器人,主要是基于NLP的对话模型,根据用户输入的上一句话的内容,以输出处理结果,并不考虑用户之前输入的内容以及长连续对话主题,导致用户实际得到的处理结果与期望结果存在差异,进而降低了用户的体验度。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种语音对话处理方法、装置、设备及存储介质,以便解决针对智能客服与用户在交互过程中上下文逻辑不连贯的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种语音对话处理方法,包括:
对输入语音进行识别,确定所述输入语音对应的目标文本;
对所述目标文本进行关联处理,得到至少一个目标关联文本;
根据所述目标文本、所述至少一个目标关联文本,得到对话文本;
输出所述对话文本对应的语音。
可选地,所述对所述目标文本进行关联处理,得到至少一个目标关联文本,包括:
对所述目标文本进行命名实体识别分析处理,得到所述目标文本中的目标命名实体;
使用知识图谱搜索与所述目标命名实体匹配的关联信息;所述知识图谱中存储有:预先获取的各个命名实体的关联信息;
根据所述关联信息,得到所述至少一个目标关联文本。
可选地,所述使用知识图谱搜索与所述目标命名实体匹配的至少一个关联信息之后,还包括:
将所述目标命名实体与上下文管理器中预先保存的各命名实体进行比对;
若所述目标命名实体与所述各命名实体均不相似,则将所述上下文管理器中的各命名实体替换为所述目标命名实体;或者
若所述目标命名实体与所述各命名实体中的第一命名实体相似,则将所述目标命名实体添加至所述上下文管理器。
可选地,所述使用知识图谱搜索与所述目标命名实体匹配的关联信息之前,还包括:
判断是否需要对所述目标文本进行补充;
若是,则使用所述上下文管理器中预先保存的与所述目标文本中省略对象匹配的目标命名实体对所述目标文本进行补充。
可选地,所述根据所述目标文本、所述至少一个目标关联文本,得到对话文本,包括:
将所述目标文本、所述至少一个目标关联文本,输入至预先训练的对话生成模型,得到所述对话文本。
可选地,所述将所述目标文本、所述至少一个目标关联文本,输入至预先训练的对话生成模型,得到所述对话文本之前,还包括:
使用预先得的训练样本,训练得到所述对话生成模型,所述训练样本包括:包含标注信息的输入文本以及对话文本。
可选地,所述根据所述目标文本、所述至少一个文本,得到对话文本,还包括:
若所述至少一个关联文本的数量是零,则根据所述目标文本,得到所述对话文本。
第二方面,本申请实施例还提供了一种语音对话处理装置,所述装置包括:
识别模块,用于对输入语音进行识别,确定所述输入语音对应的目标文本;
关联模块,用于对所述目标文本进行关联处理,得到至少一个目标关联文本;
处理模块,用于根据所述目标文本、所述至少一个目标关联文本,得到对话文本;
输出模块,用于输出所述对话文本对应的语音。
可选地,所述关联模块,还用于:
对所述目标文本进行命名实体识别分析处理,得到所述目标文本中的目标命名实体;
使用知识图谱搜索与所述目标命名实体匹配的关联信息;所述知识图谱中存储有:预先获取的各个命名实体的关联信息;
根据所述关联信息,得到所述至少一个目标关联文本。
可选地,所述装置还包括:
比对模块,用于将所述目标命名实体与上下文管理器中预先保存的各命名实体进行比对;
替换模块,用于若所述目标命名实体与所述各命名实体均不相似,则将所述上下文管理器中的各命名实体替换为所述目标命名实体;或者
添加模块,用于若所述目标命名实体与所述各命名实体中的第一命名实体相似,则将所述目标命名实体添加至所述上下文管理器。
可选地,所述装置还包括:
判断模块,用于判断是否需要对所述目标文本进行补充;
补充模块,用于若是,则使用上下文管理器中预先保存的与目标文本中省略对象匹配的目标命名实体对目标文本进行补充。
可选地,所述处理模块,还用于:
将所述目标文本、所述至少一个目标关联文本,输入至预先训练的对话生成模型,得到所述对话文本。
可选地,所述装置还包括:
训练模块,用于使用预先得的训练样本,训练得到所述对话生成模型,所述训练样本包括:包含标注信息的输入文本以及对话文本。
可选地,所述处理模块,还用于若所述至少一个关联文本的数量是零,则根据所述目标文本,得到所述对话文本。
第三方面,本申请实施例还提供了一种处理设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当处理设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面提供的所述方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面提供的所述方法的步骤。
本申请的有益效果是:
本申请实施例提供一种语音对话处理方法、装置、设备及存储介质,该方法包括:对输入语音进行识别,确定输入语音对应的目标文本;对目标文本进行关联处理,得到至少一个目标关联文本;根据目标文本、至少一个目标关联文本,得到对话文本;输出对话文本对应的语音。在本方案中,主要是基于用户的输入语音对应的目标文本、以及与“目标文本”关联的至少一个目标关联文本,联合生成待反馈的对话文本,这样,可以使得生成的对话文本是考虑用户之前输入语音对应的目标文本、以及“用户之前输入的语音以及长连续对话”的关联文本,建立准确的上下文语境,进而以保证智能客服与用户之间对话交互的上下文逻辑的连贯性,有效提高了向用户所反馈的对话文本具有较高的流利度和准确性,有效提高了用户的体验度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种语音对话处理方法的流程示意图;
图3为本申请实施例提供的另一种语音对话处理方法的流程示意图;
图4为本申请实施例提供的又一种语音对话处理方法的流程示意图;
图5为本申请实施例提供的一种语音对话处理方法的整体流程示意图;
图6为本申请实施例提供的一种语音对话处理装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
首先,在对本申请所提供的技术方案展开具体说明之前,先对本申请提供的语音对话处理方法的应用场景进行简单说明。
本申请提供的语音对话处理方法,应用于智能客服与用户之间的对话场景,主要是针对智能客服与用户在交互过程中,上下文逻辑不连贯的问题。
针对上述技术问题,本申请方案提供了上下文管理器,可以将智能客服与用户之间的对话主题、对话主题的内容、机器人流程自动化(Robotic Process Automation,RPA)流程进度、RPA所需要提交表单都存储至上下文管理器中进行管理。其中,RPA流程是指预设的多个业务流程。
在智能客服与用户开始对话之前,需要先初始化一个上下文管理器,该上下文管理的作用是:在智能客服与用户进行对话的整个过程中,对用户的输入语音对应的文本进行维护;其中,维护信息主要包括:当前各种任务流程的状态和智能客服与用户的对话主题。
在本申请中,智能客服与用户进行交互式对话时,主要涉及到RPA任务流程和闲聊流程这两种对话流程。
(1)RPA任务流程是:若在预设的关键词库中搜索到与用户输入的语音对应的文本中的关键词匹配的目标关键词,其中,预设的关键词库包含有多个关键词,则引导用户进入与该目标关键词匹配的业务流程中,帮助用户完成待执行的操作任务。
例如,若识别到用户A输入的语音对应的文本中的关键词是“查话费”,则引导用户A进入查话费业务流程,并用预设的对话格式引导用户A完成“查话费表单”的填写和提交,以使得智能客服可以帮助用户A完成查话费的任务,有效实现了智能客服与用户交互的流畅性和准确性。
(2)闲聊流程是:若在预设的关键词库中未搜索到与用户输入的语音对应的文本中的关键词匹配的目标关键词,则引导用户A进入闲聊流程。
本申请提供的语音对话处理方法,主要针对用户与智能客服进行闲聊的对话场景,闲聊的对话场景时,用户可以采用任意方式向智能客服提问问题,以使得智能客服对用户的提问问题进行处理,并得到相应的待回复信息,即问题答案。
例如,若识别到用户A输入的语音对应的文本是:谈谈你对明星C的了解,也即,用户A输入的语音对应的文本中未包含预设的多个关键字,如预设的多个关键词是:“查话费”、“查流量”“办宽带”“人工客服”。此时,则引导用户A进入闲聊流程,使用知识图谱对用户A的文本进行关联处理,得到输入语音对应的目标关联文本,也即,目标关联文本均是与“用户A输入的语音对应的文本明星C”关联的数据集合,然后,基于用户A输入的语音对应的文本、目标关联文本,建立准确的上下文语境,以使得能够针对用户A输入的问题进行准确的回答,有效提高了智能客服与用户交互的流畅性和准确性。
另外,本申请提供的语音对话处理方法允许用户使用省略句进行提问。例如,在闲聊流程过程中,用户A输入的第一句话是:“姚明的身高是多少”,并将第一句话的文本中“姚明”的命名实体保存至上下文管理器中,当用户A输入的第二句话:“他的女儿叫什么”,此时,可以对第二句话的文本进行上下文关联处理,也即,从上下文管理器中提取到第二句话中“他的女儿”是指姚明的女儿,这样可以有效智能客服与用户之间进行人机交互的便捷性,并提供了用户的体验感。
图1为本申请实施例提供的一种电子设备的结构示意图;该电子设备如可以是计算机或者服务器等处理设备,以用于实现本申请提供的语音对话处理方法。如图1所示,电子设备包括:处理器101、存储器102。
处理器101、存储器102之间直接或间接地电性连接,以实现数据的传输或交互。例如,可通过一条或多条通信总线或信号线实现电性连接。
其中,处理器101可以是一种集成电路芯片,具有信号的处理能力。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
可以理解,图1所述的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
存储器102用于存储程序,处理器101调用存储器102存储的程序,以执行下面实施例提供的语音对话处理方法。
如下,将通过多个具体实施例对本申请所提供的语音对话处理方法的具体实现步骤和产生的有益效果进行说明。
图2为本申请实施例提供的一种语音对话处理方法的流程示意图,可选地,该方法的执行主体可以是服务器、计算机等设备,具有数据处理功能。如图2所示,该方法包括:
S201、对输入语音进行识别,确定输入语音对应的目标文本。
其中,输入语音是指和智能客服进行对话的用户输入的语音,目标文本是对用户输入的语音信号进行语音文字转换处理后得到的文本。
示例性地,例如,用户A的第一句输入语音是:谈谈明星C的个人情况,并基于NLP技术对用户A的输入语音进行识别,得到用户A的第一句输入语音对应的目标文本:“谈谈”、“明星C”、“个人情况”。
用户A的第二句输入语音是:谈谈小李的作品,其中,“小李”是“明星C”的别名,并基于NLP技术对用户A的输入语音进行识别,得到用户A的第二句输入语音对应的目标文本:“谈谈”、“小李”、“作品”。
同时,分别将上述输入语音的文本的命名实体、以及命名实体的别名,统一保存到上下文管理器中,为解决上下文连贯做准备。
S202、对目标文本进行关联处理,得到至少一个目标关联文本。
可选地,可以对上述识别得到的目标文本进行关联处理,以得到与目标文本相关联的至少一个目标关联文本。
示例性地,例如,使用知识图谱查找与“小李”关联的多个关联文本,如查找到的多个关联文本是:明星C、明星C的身高、明星C的别名、明星C的作品等。
S203、根据目标文本、至少一个目标关联文本,得到对话文本。
在上述实施例的基础上,可以基于目标文本、至少一个目标关联文本,联合生成对话文本,可以保证智能客服与用户之间对话交互的上下文逻辑的连贯性,有效提高了向用户所反馈的对话文本具有较高的流利度和准确性,有效提高了用户的体验度。
S204、输出对话文本对应的语音。
可选地,可以采用文本转换语音的方式,将“对话文本”转换为语音形式的语音信号,以向用户及时进行播报。
此外,还可以将该对话文本以文本形式反馈给用户,使得用户能够准确有效地获取到待反馈的对话文本,提高了用户的体验度。
综上所述,本申请实施例提供一种语音对话处理方法,该方法包括:对输入语音进行识别,确定输入语音对应的目标文本;对目标文本进行关联处理,得到至少一个目标关联文本;根据目标文本、至少一个目标关联文本,得到对话文本;输出对话文本对应的语音。在本方案中,主要是基于用户的输入语音对应的目标文本、以及与“目标文本”关联的至少一个目标关联文本,联合生成待反馈的对话文本,这样,可以使得生成的对话文本是考虑用户之前输入语音对应的目标文本、以及“用户之前输入的语音以及长连续对话”的关联文本,建立准确的上下文语境,进而以保证智能客服与用户之间对话交互的上下文逻辑的连贯性,有效提高了向用户所反馈的对话文本具有较高的流利度和准确性,有效提高了用户的体验度。
将通过如下实施例具体讲解上述步骤S202,如何对目标文本进行关联处理,得到至少一个目标关联文本。
图3为本申请实施例提供的另一种语音对话处理方法的流程示意图,可选地,如图3所示,上述步骤S202:对目标文本进行关联处理,得到至少一个目标关联文本,包括:
S301、对目标文本进行命名实体识别分析处理,得到目标文本中的目标命名实体。
其中,命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
以上述实施例为例进行简单说明,例如,对用户A的第二句输入语音对应的目标文本“谈谈小李的作品”进行命名实体识别分析处理,得到的命名实体是:“小李”。
S302、使用知识图谱搜索与目标命名实体匹配的关联信息。
其中,知识图谱中存储有:预先获取的各个命名实体的关联信息。其中,关联信息可以是指文本信息。
在本实施例中,知识图谱中存储的关于“小李”这一命名实体是的关联信息是:小李-身高-183cm、小李-职业-演员、小李-中文名-C、小李的曾用名CC、小李-作品-机器人、小李-作品-宇宙飞船等。
比如,可以将“小李-作品-机器人、小李-作品-宇宙飞船”作为与“小李”这一命名实体匹配的关联信息。
在本实施例中,通过从知识图谱中搜索与目标命名实体匹配的至少一个关联信息,以确保“目标命名实体”与“关联信息”之间的关联度,提高了后续生成对话文本的准确性和流畅性,从而提高了用户的体验度。
S303、根据关联信息,得到至少一个目标关联文本。
可选地,可以将上述得到的“关联信息”作为与“目标文本”关联的至少一个目标关联文本。
可选地,根据关联信息,得到至少一个目标关联文本,包括:
根据目标命名实体与关联信息的语义匹配信息,从关联信息中筛选出目标关联文本。
图4为本申请实施例提供的又一种语音对话处理方法的流程示意图,可选地,如图4所示,上述步骤S302:使用知识图谱搜索与目标命名实体匹配的关联信息之后,还包括:
S401、将目标命名实体与上下文管理器中预先保存的各命名实体进行比对。
S402、若目标命名实体与各命名实体均不相似,则将上下文管理器中的各命名实体替换为目标命名实体。
S403、若目标命名实体与各命名实体中的第一命名实体相似,则将目标命名实体添加至上下文管理器。
示例性地,上下文管理器中预先保存的多个命名实体是:“张三”、“小五”、“小李”、“机器人(小李的作品)”等,其中,每一个命名实体可以有一个(或多个)对应的别名。
在本实施例中,可以将从知识图谱中搜索到的与“小李”这一命名实体,与上下文管理器中预先保存的:“张三”、“小五”、“机器人(小李的作品)”等多个命名实体进行一一比对,经过比对后,若发现目标命名实体与上下文管理器中保存的各命名实体均不相似,则可以将上下文管理器中保存的命名实体全部替换为“小李”,这样使得可以对上下文管理器中保存的多个命名实体进行更新。
另外,在另一种可实现的方式中,比如,“小李”是“张三”的别名,则可以确定“小李”与上下文管理器中的存储的“张三”这一命名实体的相似性大于预设阈值,也即,“小李”与“张三”具有一定的相似性,此时,需要将“小李”这一命名实体补充至上下文管理器中,以对上下文管理器中保存的各命名实体进行维护。
在本实施例中,使得能够根据目标文本中的目标命名实体,对上下文管理器中的存储的各命名实体进行维护。也即,如果用户输入的下一句文本内容和上下文管理器中的存储的各命名实体中的第一命名实体存在联系,则将联合下一句文本内容和第一命名实体进行对话生成;如果用户输入的下一句文本内容和上下文管理器中的存储的各命名实体均不存在任何联系,将以下一句文本内容进行对话生成,并对上下文管理器中各命名实体进行维护,以丰富上下文管理器中各命名实体。
可选地,使用知识图谱搜索与目标命名实体匹配的关联信息之前,还包括:
结合上述实施例,比如,用户A输入的第一句话是:“姚明的身高是多少”,并将第一句话的文本中“姚明”这一命名实体保存至上下文管理器中,当用户A输入的第二句话:“他的女儿叫什么”,此时,检测到用户A输入的第二句话对应的目标文本中是否包含代词,则需要对用户A输入的第二句话对应的目标文本中的代词进行补充,比如,根据上下文管理器中保存的第一句话的文本中“姚明”命名实体,可以确定第二句话中“他”是指姚明,也即,将用户A输入的第二句话:“他的女儿叫什么”补充进行,得到用户A输入的第二句话对应的补充文本是“姚明的女儿叫什么”。
在本实施例中,通过将上下文管理器中保存的上一问句的命名实体完整地加入到当前输入语句的目标文本中,使得对当前输入语句的目标文本中的指代词进行替换、或者对省略语句进行补充,进而使得当前输入的语句中包含命名实体,保证了之前输入的语句中的命名实体获取的准确性和不易丢失,这样可以有效智能客服与用户之间进行人机交互的便捷性,并提供了用户的体验感。
将通过如下具体实施例讲解,如何根据目标文本、至少一个目标关联文本,得到对话文本。
可选地,根据目标文本、至少一个目标关联文本,得到对话文本,包括:将目标文本、至少一个目标关联文本,输入至预先训练的对话生成模型,得到对话文本。
在本申请提供的实施例中,主要有以下两种情况可以得到对话文本,具体如下:
第一种,例如,若在对目标文本进行关联处理后,得到的目标关联文本的数量大于或者等于1,则可以将目标文本、以及上述得到的至少一个目标关联文本,输入至预先训练的对话生成模型,得到对话文本,并调用“从文本到语音”(Text-To-Speech,简称TTS)技术将对话文本转换为对应的语音进行输出。也即,在本申请提供的方案中,不仅仅只是针对用户输入的上一句话的语音,确定最终向用户输出的对话文本,还考虑将用户之前输入的语音以及长连续对话的语音进行联合,一并输入至预先训练的对话生成模型,以生成符合上下文逻辑连贯要求的对话文本,以确保智能客服与用户之间对话交互的上下文的连贯性,进而提升用户的体验度。
第二种,若在对目标文本进行关联处理后,得到与“目标文本”相关联的“关联文本”的数量是零,也即,用户在与智能客服交互的初始过程中,并未检索到与用户当前的输入语音相关联的关联文本,则将使用本次对话的目标文本,作为预先训练的对话生成模型的输入,以得到对话文本,同时并调用“从文本到语音”(Text-To-Speech,简称TTS)技术将对话文本转换为对应的语音进行输出。
可选地,使用预先得的训练样本,训练得到对话生成模型,训练样本包括:包含标注信息的输入文本以及对话文本。
例如,标注信息的输入文本可以是指:用户输入的第一语句的目标文本、第二语句的目标文本、以及第一语句的标注信息和第二语句的标注信息;相应的,标注信息的对话文本可以是指:用户输入的第一语句的对话文本、第二语句的对话文本、以及第一语句的对话文本的标注信息和第二语句的对话文本的标注信息。
然后,可使用带标注的输入文本、带标注的对话文本,对初始的对话生成模型进行多次训练,比如,初始的对话生成模型是基于深度学习搭建训练模型,以训练得到最优的对话生成模型。
将通过如下具体实施例讲解,本申请提供的语音对话处理方法的整体步骤过程。
图5为本申请实施例提供的一种语音对话处理方法的整体流程示意图,可选地,如图5所示,该方法包括:
S501、对输入语音进行识别,确定输入语音对应的目标文本。
S502、对目标文本进行命名实体识别分析处理,得到目标文本中的目标命名实体。
S503、判断是否需要对目标文本进行补充;若是,则跳转至步骤S504;若否,则跳转至步骤S505。
S504、使用上下文管理器中预先保存的与目标文本中省略对象匹配的目标命名实体对目标文本进行补充。
S505、使用知识图谱搜索与目标命名实体匹配的关联信息。
S506、根据关联信息,得到至少一个目标关联文本。
S507、将目标文本、至少一个目标关联文本,输入至预先训练的对话生成模型,得到对话文本。
可选地,若至少一个关联文本的数量是零,则根据目标文本,得到对话文本。
可选地,本申请实施例提供的语音对话处理方法的整体实现步骤以及产生的有益效果已在前面具体实施例中进行了详细说明,此处不再一一赘述。
下述对用以执行本申请所提供的语音对话处理方法对应的装置及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图6为本申请实施例提供的一种语音对话处理装置的结构示意图;如图6所示,该装置包括:
识别模块601,用于对输入语音进行识别,确定输入语音对应的目标文本;
关联模块602,用于对目标文本进行关联处理,得到至少一个目标关联文本;
处理模块603,用于根据目标文本、至少一个目标关联文本,得到对话文本;
输出模块604,用于输出对话文本对应的语音。
可选地,关联模块602,还用于:
对目标文本进行命名实体识别分析处理,得到目标文本中的目标命名实体;
使用知识图谱搜索与目标命名实体匹配的关联信息;知识图谱中存储有:预先获取的各个命名实体的关联信息;
根据关联信息,得到至少一个目标关联文本。
可选地,该装置还包括:
比对模块,用于将所述目标命名实体与上下文管理器中预先保存的各命名实体进行比对;
替换模块,用于若所述目标命名实体与所述各命名实体均不相似,则将所述上下文管理器中的各命名实体替换为所述目标命名实体;或者
添加模块,用于若所述目标命名实体与所述各命名实体中的第一命名实体相似,则将所述目标命名实体添加至所述上下文管理器。
可选地,该装置还包括:
判断模块,用于判断是否需要对所述目标文本进行补充;
补充模块,用于若是,则使用上下文管理器中预先保存的与目标文本中省略对象匹配的目标命名实体对目标文本进行补充。
可选地,处理模块603,还用于:
将目标文本、至少一个目标关联文本,输入至预先训练的对话生成模型,得到对话文本。
可选地,该装置还包括:
训练模块,用于使用预先得的训练样本,训练得到对话生成模型,训练样本包括:包含标注信息的输入文本以及对话文本。
可选地,处理模块603,还用于:
若至少一个关联文本的数量是零,则根据目标文本,得到对话文本。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种语音对话处理方法,其特征在于,包括:
对输入语音进行识别,确定所述输入语音对应的目标文本;
对所述目标文本进行关联处理,得到至少一个目标关联文本;
根据所述目标文本、所述至少一个目标关联文本,得到对话文本;
输出所述对话文本对应的语音。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行关联处理,得到至少一个目标关联文本,包括:
对所述目标文本进行命名实体识别分析处理,得到所述目标文本中的目标命名实体;
使用知识图谱搜索与所述目标命名实体匹配的关联信息;所述知识图谱中存储有:预先获取的各个命名实体的关联信息;
根据所述关联信息,得到所述至少一个目标关联文本。
3.根据权利要求2所述的方法,其特征在于,所述使用知识图谱搜索与所述目标命名实体匹配的关联信息之后,还包括:
将所述目标命名实体与上下文管理器中预先保存的各命名实体进行比对;
若所述目标命名实体与所述各命名实体均不相似,则将所述上下文管理器中的各命名实体替换为所述目标命名实体;或者
若所述目标命名实体与所述各命名实体中的第一命名实体相似,则将所述目标命名实体添加至所述上下文管理器。
4.根据权利要求3所述的方法,其特征在于,所述使用知识图谱搜索与所述目标命名实体匹配的关联信息之前,还包括:
判断是否需要对所述目标文本进行补充;
若是,则使用所述上下文管理器中预先保存的与所述目标文本中省略对象匹配的目标命名实体对所述目标文本进行补充。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述目标文本、所述至少一个目标关联文本,得到对话文本,包括:
将所述目标文本、所述至少一个目标关联文本,输入至预先训练的对话生成模型,得到所述对话文本。
6.根据权利要求5所述的方法,其特征在于,所述将所述目标文本、所述至少一个目标关联文本,输入至预先训练的对话生成模型,得到所述对话文本之前,还包括:
使用预先得的训练样本,训练得到所述对话生成模型,所述训练样本包括:包含标注信息的输入文本以及对话文本。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述目标文本、所述至少一个文本,得到对话文本,还包括:
若所述至少一个关联文本的数量是零,则根据所述目标文本,得到所述对话文本。
8.一种语音对话处理装置,其特征在于,所述装置包括:
识别模块,用于对输入语音进行识别,确定所述输入语音对应的目标文本;
关联模块,用于对所述目标文本进行关联处理,得到至少一个目标关联文本;
处理模块,用于根据所述目标文本、所述至少一个目标关联文本,得到对话文本;
输出模块,用于输出所述对话文本对应的语音。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-7任一所述方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一所述方法的步骤。
CN202110736444.1A 2021-06-30 2021-06-30 语音对话处理方法、装置、设备及存储介质 Pending CN113470625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110736444.1A CN113470625A (zh) 2021-06-30 2021-06-30 语音对话处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110736444.1A CN113470625A (zh) 2021-06-30 2021-06-30 语音对话处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113470625A true CN113470625A (zh) 2021-10-01

Family

ID=77876559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110736444.1A Pending CN113470625A (zh) 2021-06-30 2021-06-30 语音对话处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113470625A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358241A (zh) * 2022-10-20 2022-11-18 科大讯飞股份有限公司 基于人机交互的标注方法及相关装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106537370A (zh) * 2014-07-14 2017-03-22 三星电子株式会社 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN109325097A (zh) * 2018-07-13 2019-02-12 海信集团有限公司 一种语音引导方法及装置、电子设备、存储介质
CN109616108A (zh) * 2018-11-29 2019-04-12 北京羽扇智信息科技有限公司 多轮对话交互处理方法、装置、电子设备及存储介质
CN111008532A (zh) * 2019-12-12 2020-04-14 广州小鹏汽车科技有限公司 语音交互方法、车辆和计算机可读存储介质
CN111723574A (zh) * 2020-07-09 2020-09-29 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112074898A (zh) * 2018-02-22 2020-12-11 美的集团股份有限公司 用于意图推理的上下文无关文法的机器生成
CN112487173A (zh) * 2020-12-18 2021-03-12 北京百度网讯科技有限公司 人机对话方法、设备和存储介质
CN112735374A (zh) * 2020-12-29 2021-04-30 北京三快在线科技有限公司 一种自动语音交互的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106537370A (zh) * 2014-07-14 2017-03-22 三星电子株式会社 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN112074898A (zh) * 2018-02-22 2020-12-11 美的集团股份有限公司 用于意图推理的上下文无关文法的机器生成
CN109325097A (zh) * 2018-07-13 2019-02-12 海信集团有限公司 一种语音引导方法及装置、电子设备、存储介质
CN109616108A (zh) * 2018-11-29 2019-04-12 北京羽扇智信息科技有限公司 多轮对话交互处理方法、装置、电子设备及存储介质
CN111008532A (zh) * 2019-12-12 2020-04-14 广州小鹏汽车科技有限公司 语音交互方法、车辆和计算机可读存储介质
CN111723574A (zh) * 2020-07-09 2020-09-29 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112487173A (zh) * 2020-12-18 2021-03-12 北京百度网讯科技有限公司 人机对话方法、设备和存储介质
CN112735374A (zh) * 2020-12-29 2021-04-30 北京三快在线科技有限公司 一种自动语音交互的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358241A (zh) * 2022-10-20 2022-11-18 科大讯飞股份有限公司 基于人机交互的标注方法及相关装置、设备和介质

Similar Documents

Publication Publication Date Title
CN108334487B (zh) 缺失语意信息补全方法、装置、计算机设备和存储介质
US11217236B2 (en) Method and apparatus for extracting information
CN110493019B (zh) 会议纪要的自动生成方法、装置、设备及存储介质
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
CN115309877B (zh) 对话生成方法、对话模型训练方法及装置
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN114416943B (zh) 对话模型的训练方法、装置、电子设备及存储介质
CN111832308A (zh) 语音识别文本连贯性处理方法和装置
CN112328758A (zh) 一种会话意图识别方法、装置、设备及存储介质
CN117332072B (zh) 对话处理、语音摘要提取以及目标对话模型训练方法
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质
CN113470625A (zh) 语音对话处理方法、装置、设备及存储介质
CN113935331A (zh) 异常语义截断检测方法、装置、设备及介质
CN110738056A (zh) 用于生成信息的方法和装置
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
CN115905497B (zh) 确定答复语句的方法、装置、电子设备和存储介质
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN115510213A (zh) 用于作业机械的问答方法及系统、作业机械
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN115098665A (zh) 一种对话数据扩展方法、装置及设备
CN115408500A (zh) 问答一致性的评估方法、装置、电子设备及介质
CN114519347A (zh) 用于语言和词汇学习训练的会话内容的生成方法及装置
CN112632241A (zh) 智能会话的方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination