CN114299959A

CN114299959A - 一种通过语音指令生成可视化多轮对话的方法及装置

Info

Publication number: CN114299959A
Application number: CN202111525976.7A
Authority: CN
Inventors: 李健; 谢园园; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-08

Abstract

本发明公开了一种通过语音指令生成可视化多轮对话的方法及装置。该发明包括：获取对话语音，并依据对话语音确定目标对话场景；获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话。通过本发明，解决了相关技术中机器人与用户的多轮对话的编写场景复杂的问题。

Description

一种通过语音指令生成可视化多轮对话的方法及装置

技术领域

本发明涉及语音识别领域，具体而言，涉及一种通过语音指令生成可视化多轮对话的方法及装置。

背景技术

相关技术中，在智能语音导航、外呼、客服等产品的应用中，用户的问题往往不是单一的问答，而是会涉及到上下文语义的理解，这就需要机器能够结合客户的上下文语义去理解客户的诉求。现有方案中是前端页面编辑对话节点及节点间的跳转关系，后台通过解析前端页面编辑的内容，自动生成机器可以处理的逻辑脚本，但是这种方案存在很多弊端，尤其是涉及正则表达式、函数公式、接口调用等录入情景时，用户录入、排版、整理函数的时间会占到训练师时间的一半以上，无疑造成了时间浪费，增加了人力成本。

相关技术中的方案存在场景编写繁琐，函数公式查找困难，排版困难，训练师编写场景的培训成本高的问题，同时，在编写过程中还存在对编写人员正则表达式，函数公式掌握程度要求高的缺点。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种通过语音指令生成可视化多轮对话的方法及装置，以解决相关技术中机器人与用户的多轮对话的编写场景复杂的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种通过语音指令生成可视化多轮对话的方法。该发明包括：获取对话语音，并依据对话语音确定目标对话场景；获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话。

进一步地，获取对话语音，并依据对话语音确定目标对话场景包括：确定对话语音中包含的指令语音，并将指令语音转换为文本；通过语意理解将文本转换为对应的文本内容，其中，文本内容中包含的具体内容至少包括以下之一：文字、正则表达式、函数公式、模式码；依据文本内容，确定目标对话场景。

进一步地，依据文本内容，确定目标对话场景，包括：提取文本内容中的信息，并将信息与多个场景触发节点包含的匹配信息进行匹配以获得多个匹配分数；将最高匹配分数对应的场景触发节点相关联的对话场景，确定为目标对话场景。

进一步地，在获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本之前，该方法还包括：获取多条对话语音转换的多个内容文本；依据多个内容文本，确定目标对话场景对应的逻辑脚本中多个对话节点对应的多个节点识别规则，其中，节点识别规则至少包括用于触发对话节点的匹配信息以及匹配格式；依据多个节点识别规则，构建初始逻辑脚本；对构建好的初始逻辑脚本进行矫正操作，将矫正后的初始逻辑脚本确定为逻辑脚本，并保存逻辑脚本。

进一步地，依据对话语音以及逻辑脚本，在图形界面上生成可视化的多轮对话，包括：获取对话语音转换的文本内容，并提取文本内容中包含的信息；判断文本内容中包含的信息是否与对话节点对应的匹配信息相匹配；在信息与匹配信息相匹配的情况下，生成与节点对应的答复内容；依据对话语音转换的文本内容以及答复内容，生成多轮对话对应的内容；将多轮对话对应的内容显示在图形界面上以形成可视化的多轮对话。

进一步地，在信息与匹配信息不匹配的情况下，该方法还包括：判断信息与意图库中包含的任意一个意图库信息是否匹配，意图库信息与对话节点对应的匹配信息之间存在预设相似度；在任意一个意图库信息与信息匹配的情况下，确定并触发与意图库信息相关联的对话节点；并生成与对话节点对应的答复内容，并依据对话语音转换的文本内容以及答复内容，生成多轮对话对应的内容；将多轮对话对应的内容显示在图形界面上以形成可视化的多轮对话。

为了实现上述目的，根据本发明的另一方面，提供了一种通过语音指令生成可视化多轮对话的装置。该装置包括：第一获取单元，获取对话语音，并依据对话语音确定目标对话场景；第二获取单元，获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；第一生成单元，依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话。

进一步地，第一获取单元包括：第一转换子单元，确定对话语音中包含的指令语音，并将指令语音转换为文本；第二转换子单元，通过语意理解将文本转换为对应的文本内容，其中，文本内容中包含的具体内容至少包括以下之一：文字、正则表达式、函数公式、模式码；确定子单元，依据文本内容，确定目标对话场景。

为了实现上述目的，根据本申请的另一方面，提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的程序，其中，该程序执行上述任意一项的一种通过语音指令生成可视化多轮对话的方法。

为了实现上述目的，根据本申请的另一方面，提供了一种处理器，处理器用于运行程序，其中，该程序执行上述任意一项的一种通过语音指令生成可视化多轮对话的方法。

通过本发明，采用以下步骤：获取对话语音，并依据对话语音确定目标对话场景；获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话，解决了相关技术中机器人与用户的多轮对话的编写场景复杂的问题，进而达到了语音录入多轮对话场景方便快捷的效果。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例提供的一种通过语音指令生成可视化多轮对话的方法的流程图；

图2是根据本发明实施例提供的一种通过语音指令生成可视化多轮对话的方法的流程示意图；

图3是根据本发明实施例提供的一种通过语音指令生成可视化多轮对话的装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明的实施例，提供了一种通过语音指令生成可视化多轮对话的方法。

图1是根据本发明实施例的一种通过语音指令生成可视化多轮对话的方法的流程图。如图1所示，该发明包括以下步骤：

步骤S101，获取对话语音，并依据对话语音确定目标对话场景。

上述地，对话语音是通过通信设备采集的用户的通话语音，对对话语音进行识别以通过识别出的内容确定用户对话语音对应的目标对话场景。例如，在用户咨询通信业务的背景下，对话场景为以下任意之一：查话费、查积分、查流量等。

步骤S102，获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点。

步骤S103，依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话。

上述地，每个对话场景对应一个逻辑脚本，逻辑脚本中包含多个对话节点，依据逻辑脚本，机器端能够按逻辑脚本中照设定的逻辑和业务规则与用户进行多轮对话交互，用户可任意改变询问的次序，引擎根据提问中包含的信息点，通过反问请求用户在后续对话中补全信息，在多次交互及上下文继承后，形成用户提问的完整表示，最终提供符合要求的回复答案或输出业务系统调用指令，进而通过用户的对话语音以及回复答案或调用指令，在可视化界面生成多轮对话。

需要注意的是，本申请还提供了一种对话场景对应的图形界面，将生成的多轮对话显示在图形界面上。

通过上述方法，本申请可以快速的应用于智能语音导航、外呼、客服等产品中，提升场景维护效率，省去训练师手动的维护多轮对话场景的繁琐工作，通过人工后编辑的模式，对可视化多轮对话场景稍作修正即可直接应用到AI产品中。同时，语音录入多轮对话场景方便快捷，学习成本低，上手快，自动生成的界面整洁美观，降低了训练师培训成本，发音规则更加贴近真实场景，不用刻意遵循规则定势浪费时间，符合大众用户的使用习惯。目前市面上没有成型的、通过语音录入多轮对话场景的设计，本申请填补了领域的空白。

在一种可选的实例中，获取对话语音，并依据对话语音确定目标对话场景包括：确定对话语音中包含的指令语音，并将指令语音转换为文本；通过语意理解将文本转换为对应的文本内容，其中，文本内容中包含的具体内容至少包括以下之一：文字、正则表达式、函数公式、模式码；依据文本内容，确定目标对话场景。

上述地，获取对话语音中的指令语音，指令语音转换成文本内容，基于对指令语音的理解生成用于表达指令语音意思的文字、正则表达式、函数公式、模式码中的任意一种。

例如，用户咨询话费使用情况，识别到指令语音时，将指令语音进行转换，根据用户不同的指令语音转换为不同的文本内容，用户的指令语音为陈述性文字，则转换为对应的文字；用户的指令语音为日期，则转换为对应表达的函数公式；用户的指令语音为密码数字，则转换为对应的模式码。

在一种可选的实例中，依据文本内容，确定目标对话场景，包括：提取文本内容中的信息，并将信息与多个场景触发节点包含的匹配信息进行匹配以获得多个匹配分数；将最高匹配分数对应的场景触发节点相关联的对话场景，确定为目标对话场景。

上述地，将文本信息与多个场景触发节点包含的匹配信息进行匹配，得到匹配分数，依据匹配分数确定对话场景。例如，用户的对话语音转换成的文本内容中包括话费，将“话费”这个信息进行提取，由于机器端不能识别话费对应的对话场景，因此将“话费”场景中的查话费、查积分、查余额等多个对话场景的触发节点中包含的匹配信息进行打分，其中，查话费的分数最高，将查话费确定为待处理的对话场景。

需要说明的是，每个对话场景对应一个场景触发节点，场景触发节点被触发后，对应的逻辑脚本按照识别到的对话语音向下进行。

在一种可选的实例中，在获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本之前，该方法还包括：获取多条对话语音转换的多个内容文本；依据多个内容文本，确定目标对话场景对应的逻辑脚本中多个对话节点对应的多个节点识别规则，其中，节点识别规则至少包括用于触发对话节点的匹配信息以及匹配格式；依据多个节点识别规则，构建初始逻辑脚本；对构建好的初始逻辑脚本进行矫正操作，将矫正后的初始逻辑脚本确定为逻辑脚本，并保存逻辑脚本。

上述地，依据文本内容，确定对应的节点识别规则。依据节点识别规则，在识别到用户输出的对话语音后，对语音进行识别进而通过识别的语音触发对应的节点，每个对话节点之间存在先后触发顺序，部分节点在相邻的上个节点被触发之后，才会相应触发，其中，每个节点在设置的时候对应有识别规则，例如：需不需要保留上下文、需不需要智能纠错等。内容文本经过程序编译后确定多个节点识别规则，构建初始逻辑脚本，如果构建初始逻辑脚本存在错误，进行矫正操作，并将矫正后的逻辑脚本进行存储，以供在遇到相应的对话场景的情况下，调用存储好的逻辑脚本。例如，触发对话节点的匹配信息与匹配格式的对应关系为：当匹配信息为陈述性文字时，则匹配内容为ASR转写的文本内容；匹配信息为日期，则匹配格式为对应表达的函数公式；匹配信息为密码数字，则匹配格式为对应的模式码。

在一种可选的实例中，依据对话语音以及逻辑脚本，在图形界面上生成可视化的多轮对话，包括：获取对话语音转换的文本内容，并提取文本内容中包含的信息；判断文本内容中包含的信息是否与对话节点对应的匹配信息相匹配；在信息与匹配信息相匹配的情况下，生成与节点对应的答复内容；依据对话语音转换的文本内容以及答复内容，生成多轮对话对应的内容；将多轮对话对应的内容显示在图形界面上以形成可视化的多轮对话。

上述地，将文本内容包含的信息与对应的匹配信息进行匹配，依据匹配度最高得分的匹配信息生成与节点对应的多轮答复内容，图形界面上显示多轮对话对应的内容。依据节点识别规则，在识别到用户输出的对话语音后，对语音进行识别进而通过识别的语音触发对应的节点，每个对话节点之间存在先后触发顺序，部分节点在相邻的上个节点被触发之后，才会相应触发。例如,识别到用户说出“我想查询话费余额”，识别到“我想查询话费余额”这个信息，找到匹配得分最高的节点，生成答复内容为“请播报您的手机号码”，在图形显示界面显示对话内容，利用每个对话节点之间存在先后触发顺序，再识别到用户播报的手机号码，找到匹配得分最高的节点，生成答复内容为“请播报您的手机号码收到的验证码”，对话同样会在图形显示界面显示，根据获取到的用户语音信息，如此反复进行，在图形界面上以形成可视化的多轮对话。

在一种可选的实例中，在信息与匹配信息不匹配的情况下，该方法还包括：判断信息与意图库中包含的任意一个意图库信息是否匹配，意图库信息与对话节点对应的匹配信息之间存在预设相似度；在任意一个意图库信息与信息匹配的情况下，确定并触发与意图库信息相关联的对话节点；并生成与对话节点对应的答复内容，并依据对话语音转换的文本内容以及答复内容，生成多轮对话对应的内容；将多轮对话对应的内容显示在图形界面上以形成可视化的多轮对话。

上述地，在提取的对话语音中包含的信息与节点匹配信息不匹配的情况下，判断信息与意图库信息是否匹配，其中，意图库信息中包括节点匹配信息对应的方言信息，谐音字信息等，例如，当用户在念一串数字的时候机器识别到了“陆”字，与匹配信息不匹配，再与意图库信息匹配后修正为“六”字。

本申请提供了一种可选的实施例，如图2所示，图2是根据本发明实施例提供的一种通过语音指令生成可视化多轮对话的方法的流程示意图，用户提供语音内容，通过自动语音识别技术(ASR)将采集到的语音内容识别成文本，通过自然语言理解模型(NLU模型)将文本内容转化为对应的文字、正则表达式、函数公式等文本内容，获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，在信息与匹配信息不匹配的情况下，进行场景内容矫正，最终得到可视化场景界面和场景资源文件。

在本申请提供的另一种可选的实例中，提供了一种人工录入规则，其中，表1为场景内容的录入规则，表2为节点的录入规则，表3为运算符号录入规则，表4为阿拉伯数字录入规则，表5为英文字母录入规则，表6为希腊字母录入规则，表7为字符串录入规则，表8为日期录入规则，表9为接口调用录入规则，表10为模式码录入规则，表1

表2

表3

代码	语音输入
		+	加，加号，加上，正
-	减，减号，减去，负
		\pm	加减、正负
\times	乘，乘以，叉乘
		\div	除以
\cdot	点乘
		>	大于
<	小于
		＝	＝
…	…

表4

代码	语音输入
		1、2、3、4、5…	2、3、4、5…

表5

代码	语音输入
		a、b、c、d、e…	a、b、c、d、e…
A、B、C、D、E…	大A、大B、大C、大D…

表6

代码	语音输入
		\alpha	α
\beta	β
		\gamma	γ
…	…
		\Gamma	Γ
\Delta	Δ
		…	…

表7

表8

表9

表10

本发明实施例提供的一种通过语音指令生成可视化多轮对话的方法，通过获取对话语音，并依据对话语音确定目标对话场景；获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话，解决了相关技术中机器人与用户的多轮对话的编写场景复杂的问题，进而达到了语音录入多轮对话场景方便快捷的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例还提供了一种通过语音指令生成可视化多轮对话的装置，需要说明的是，本发明实施例的一种通过语音指令生成可视化多轮对话的装置可以用于执行本发明实施例所提供的用于一种通过语音指令生成可视化多轮对话的方法。以下对本发明实施例提供的一种通过语音指令生成可视化多轮对话的装置进行介绍。

图3是根据本发明实施例的一种通过语音指令生成可视化多轮对话的装置的示意图。如图3所示，该装置包括：第一获取单元301，获取对话语音，并依据对话语音确定目标对话场景；第二获取单元302，获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；第一生成单元303，依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话。

在一种可选的实例中，第一获取单元301包括：第一转换子单元，确定对话语音中包含的指令语音，并将指令语音转换为文本；第二转换子单元，通过语意理解将文本转换为对应的文本内容，其中，文本内容中包含的具体内容至少包括以下之一：文字、正则表达式、函数公式、模式码；确定子单元，依据文本内容，确定目标对话场景。

在一种可选的实例中，确定子单元，包括：提取模块，提取文本内容中的信息，并将信息与多个场景触发节点包含的匹配信息进行匹配以获得多个匹配分数；确定模块，将最高匹配分数对应的场景触发节点相关联的对话场景，确定为目标对话场景。

在一种可选的实例中，该装置还包括：第三获取单元，在获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本之前，获取多条对话语音转换的多个内容文本；第一确定单元，依据多个内容文本，确定目标对话场景对应的逻辑脚本中多个对话节点对应的多个节点识别规则，其中，节点识别规则至少包括用于触发对话节点的匹配信息以及匹配格式；构建单元，依据多个节点识别规则，构建初始逻辑脚本；矫正单元，对构建好的初始逻辑脚本进行矫正操作，将矫正后的初始逻辑脚本确定为逻辑脚本，并保存逻辑脚本。

在一种可选的实例中，第一生成单元303，包括：获取子单元，用于获取对话语音转换的文本内容，并提取文本内容中包含的信息；判断子单元，用于判断文本内容中包含的信息是否与对话节点对应的匹配信息相匹配；第一生成子单元，在信息与匹配信息相匹配的情况下，生成与节点对应的答复内容；第二生成子单元，依据对话语音转换的文本内容以及答复内容，生成多轮对话对应的内容；显示子单元，将多轮对话对应的内容显示在图形界面上以形成可视化的多轮对话。

在一种可选的实例中，该装置还包括：判断单元，在信息与匹配信息不匹配的情况下，判断信息与意图库中包含的任意一个意图库信息是否匹配，意图库信息与对话节点对应的匹配信息之间存在预设相似度；第二确定单元，在任意一个意图库信息与信息匹配的情况下，确定并触发与意图库信息相关联的对话节点；第二生成单元，并生成与对话节点对应的答复内容，并依据对话语音转换的文本内容以及答复内容，生成多轮对话对应的内容；显示单元，将多轮对话对应的内容显示在图形界面上以形成可视化的多轮对话。

本发明实施例提供的一种通过语音指令生成可视化多轮对话的装置，通过获取对话语音，并依据对话语音确定目标对话场景；获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话，解决了相关技术中机器人与用户的多轮对话的编写场景复杂的问题，进而达到了语音录入多轮对话场景方便快捷的效果。

所述一种通过语音指令生成可视化多轮对话的装置包括处理器和存储器，上述第一获取单元301等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决相关技术中机器人与用户的多轮对话的编写场景复杂的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述一种通过语音指令生成可视化多轮对话的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述一种通过语音指令生成可视化多轮对话的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取对话语音，并依据对话语音确定目标对话场景；获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话。

本文中的设备可以是服务器、PC、PAD、手机等。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取对话语音，并依据对话语音确定目标对话场景；获取与目标对话场景对应的图形界面以及目标对话场景对应的逻辑脚本，其中，逻辑脚本中包含目标对话场景下的对话流程，对话流程中包括多个对话节点；依据对话语音以及逻辑脚本中的多个对话节点，在图形界面上生成可视化的多轮对话。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种通过语音指令生成可视化多轮对话的方法，其特征在于，包括：

获取对话语音，并依据所述对话语音确定目标对话场景；

获取与所述目标对话场景对应的图形界面以及所述目标对话场景对应的逻辑脚本，其中，所述逻辑脚本中包含所述目标对话场景下的对话流程，所述对话流程中包括多个对话节点；

依据所述对话语音以及所述逻辑脚本中的多个所述对话节点，在所述图形界面上生成可视化的多轮对话。

2.根据权利要求1所述的方法，其特征在于，获取对话语音，并依据所述对话语音确定目标对话场景包括：

确定所述对话语音中包含的指令语音，并将所述指令语音转换为文本；

通过语意理解将所述文本转换为对应的文本内容，其中，所述文本内容中包含的具体内容至少包括以下之一：文字、正则表达式、函数公式、模式码；

依据所述文本内容，确定所述目标对话场景。

3.根据权利要求2所述的方法，其特征在于，依据所述文本内容，确定所述目标对话场景，包括：

提取所述文本内容中的信息，并将所述信息与多个场景触发节点包含的匹配信息进行匹配以获得多个匹配分数；

将最高匹配分数对应的所述场景触发节点相关联的对话场景，确定为所述目标对话场景。

4.根据权利要求2所述的方法，其特征在于，在获取与所述目标对话场景对应的图形界面以及所述目标对话场景对应的逻辑脚本之前，所述方法还包括：

获取多条对话语音转换的多个内容文本；

依据多个所述内容文本，确定所述目标对话场景对应的所述逻辑脚本中多个所述对话节点对应的多个节点识别规则，其中，所述节点识别规则至少包括用于触发所述对话节点的匹配信息以及匹配格式；

依据多个所述节点识别规则，构建初始逻辑脚本；

对构建好的所述初始逻辑脚本进行矫正操作，将矫正后的所述初始逻辑脚本确定为所述逻辑脚本，并保存所述逻辑脚本。

5.根据权利要求3所述的方法，其特征在于，依据所述对话语音以及所述逻辑脚本，在所述图形界面上生成可视化的多轮对话，包括：

获取所述对话语音转换的文本内容，并提取所述文本内容中包含的信息；

判断所述文本内容中包含的所述信息是否与所述对话节点对应的所述匹配信息相匹配；

在所述信息与所述匹配信息相匹配的情况下，生成与所述节点对应的答复内容；

依据所述对话语音转换的文本内容以及所述答复内容，生成所述多轮对话对应的内容；

将所述多轮对话对应的内容显示在所述图形界面上以形成可视化的所述多轮对话。

6.根据权利要求5所述的方法，其特征在于，在所述信息与所述匹配信息不匹配的情况下，所述方法还包括：

判断所述信息与意图库中包含的任意一个意图库信息是否匹配，所述意图库信息与所述对话节点对应的所述匹配信息之间存在预设相似度；

在任意一个所述意图库信息与所述信息匹配的情况下，确定并触发与所述意图库信息相关联的所述对话节点；

并生成与所述对话节点对应的答复内容，并依据所述对话语音转换的文本内容以及所述答复内容，生成所述多轮对话对应的内容；

7.一种通过语音指令生成可视化多轮对话的装置，其特征在于，包括：

第一获取单元，获取对话语音，并依据所述对话语音确定目标对话场景；

第二获取单元，获取与所述目标对话场景对应的图形界面以及所述目标对话场景对应的逻辑脚本，其中，所述逻辑脚本中包含所述目标对话场景下的对话流程，所述对话流程中包括多个对话节点；

第一生成单元，依据所述对话语音以及所述逻辑脚本中的多个所述对话节点，在所述图形界面上生成可视化的多轮对话。

8.根据权利要求7所述的装置，其特征在于，所述第一获取单元包括：

第一转换子单元，确定所述对话语音中包含的指令语音，并将所述指令语音转换为文本；

第二转换子单元，通过语意理解将所述文本转换为对应的文本内容，其中，所述文本内容中包含的具体内容至少包括以下之一：文字、正则表达式、函数公式、模式码；

确定子单元，依据所述文本内容，确定所述目标对话场景。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述一种通过语音指令生成可视化多轮对话的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述一种通过语音指令生成可视化多轮对话的方法。