CN114582314B

CN114582314B - 基于asr的人机音视频交互逻辑模型设计方法

Info

Publication number: CN114582314B
Application number: CN202210187875.1A
Authority: CN
Inventors: 林雄杰; 王东; 徐杨军
Original assignee: Jiangsu Kaiwen Telecom Technology Co ltd
Current assignee: Changzhou Xiaowen Intelligent Technology Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2023-06-23
Anticipated expiration: 2042-02-28
Also published as: CN114582314A

Abstract

本发明涉及一种基于ASR的人机音视频交互逻辑模型设计方法，其包括：流程节点和离散节点的设计与解析；节点脚本的设计与解析；节点脚本的TTS转写与音视频文件的关系标记；单节点脚本最大遍历次数的设计与解析；文本意图的训练与预测；意图样本的正卷云新增与反卷云删除；节点意图路由的设定与解析；节点逃生路由的设定与解析；整体交互模型的数据表达方式，实现了将交互核心组件抽离，由用户自主添加设定，并通过结构性数据表达方式，将逻辑设计结果进行标准存储，并用相应的解析方法，在触发交互的时候，进行解析，从而输出交互内容，使用户快速搭建智能度和强错性高的交互场景，实现机器替代人与用户完成对话和信息交互。

Description

基于ASR的人机音视频交互逻辑模型设计方法

技术领域

本发明属于人机交互逻辑建模技术领域，具体涉及一种基于ASR的人机音视频交互逻辑模型设计方法。

背景技术

随着人工智能底层技术的成熟，ASR，TTS等语音相关能力也逐步投入社会生产和生活；基于语音识别和语音合成的交互场景设计，传统都需要由专业技术人员通过结合用户需求结合逻辑编码实现，往往耗时耗力，成本较大；即时开发出相应的逻辑配置系统由普通用户自主参与设定，往往也由于本身系统灵活性不足或用户理解较浅，无法设计出高智能度，高容错的交互逻辑。

因此，基于上述技术问题需要设计一种新的基于ASR的人机音视频交互逻辑模型设计方法。

发明内容

本发明的目的是提供一种基于ASR的人机音视频交互逻辑模型设计方法。

为了解决上述技术问题，本发明提供了一种基于ASR的人机音视频交互逻辑模型设计方法，包括：

流程节点和离散节点的设计与解析；

节点脚本的设计与解析；

节点脚本的TTS转写与音视频文件的关系标记；

单节点脚本最大遍历次数的设计与解析；

文本意图的训练与预测；

意图样本的正卷云新增与反卷云删除；

节点意图路由的设定与解析；

节点逃生路由的设定与解析；

整体交互模型的数据表达方式。

进一步，所述流程节点和离散节点的设计与解析的方法包括：

在以完成预设交互目的的逻辑中，需逻辑主动输出的，或由此输出返回的内容，是符合此次交互目的相关的文本意图所跳转的节点均为流程节点，并且该节点包括有来源意图路由和指向意图路由、有逃生意图路由，其节点标记节点脚本，且节点脚本数量根据节点来源路由和逻辑需要设置有开始标识和结束标识；

在以完成预设交互目的的逻辑中，无需逻辑主动输出的，返回的内容非围绕此次交互目的，但需要给予交互应答的节点均为离散节点，并且该节点包括有来源意图路由，无指向意图路由，有逃生意图路由，并且其节点标记节点脚本，且节点脚本数量根据节点来源路由和逻辑需要设置。

进一步，所述节点脚本的设计与解析的方法包括：

节点脚本在流程节点或离散节点内添加；

节点脚本以文本的方法表达；

节点脚本最终以文字和/或音频和/或视频的方式输出。

进一步，所述节点脚本的TTS转写与音视频文件的关系标记的方法包括：

节点脚本文本通过TTS转译为音频文件与之关联，并输出TTS声音；

节点脚本通过3D多模态人型渲染数据与之关联，并输出3D多模态视频；

流节点脚本通过音频文件上传并与之关联，并输出音频声音；

节点脚本通过视频文件上传并与之关联，并输出音视频图像。

进一步，所述单节点脚本最大遍历次数的设计与解析的方法包括：

在交互过程中，若意图路由设定为多次回跳历史节点，则循环输出该节点脚本；

设定最大循环次数后，若单个节点超过最大脚本循环次数，则指向节点逃生路由。

进一步，所述文本意图的训练与预测的方法包括：

意图用于连接上下游节点，根据逻辑需要添加相应意图；

文本意图需要相应文本样本，以确保文本预测置信度；

文本意图基于单个交互模型训练；

任意文本样本基于单个意图均有相应置信度系数，置信度系数越高，表示预测文本相对该意图越匹配。

进一步，所述意图样本的正卷云新增与反卷云删除的方法包括：

通过对历史交互样本作批量预测，取最高置信度意图作该意图样本新增依据，从而卷积新增意图样本；

通过对历史交互样本作批量预测，取次高置信度意图作该意图样本删除依据，从而反卷积删除意图样本。

进一步，所述节点意图路由的设定与解析的方法包括：

节点通过意图跳转路由，此路由设定实现节点与节点间的交互内容推进；

若场景意图数量为M，离散节点数量为N，则单个流程节点需要作M-N条路由跳转设定；

离散节点作1次意图路由设定。

进一步，所述节点逃生路由的设定与解析的方法包括：

节点逃生路由不通过意图连接，由节点直连节点，且仅支持一个下级节点连接。

进一步，所述整体交互模型的数据表达方式的方法包括：

通过josn格式，从上往下、从外往内，表示节点、节点默认路由、节点脚本最大遍历次数、节点脚本、节点脚本关联内容、意图和意图路由。

本发明的有益效果是，本发明通过流程节点和离散节点的设计与解析；节点脚本的设计与解析；节点脚本的TTS转写与音视频文件的关系标记；单节点脚本最大遍历次数的设计与解析；文本意图的训练与预测；意图样本的正卷云新增与反卷云删除；节点意图路由的设定与解析；节点逃生路由的设定与解析；整体交互模型的数据表达方式，实现了将交互核心组件抽离，由用户自主添加设定，并通过结构性数据表达方式，将逻辑设计结果进行标准存储，并用相应的解析方法，在触发交互的时候，进行解析，从而输出交互内容，使用户快速搭建智能度和强错性高的交互场景，实现机器替代人与用户完成对话和信息交互。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于ASR的人机音视频交互逻辑模型设计方法的流程图；

图2是本发明的交互元素信息存储结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和图2所示，本实施例提供了一种基于ASR的人机音视频交互逻辑模型设计方法，包括：流程节点和离散节点的设计与解析；节点脚本的设计与解析；节点脚本的TTS转写与音视频文件的关系标记；单节点脚本最大遍历次数的设计与解析；文本意图的训练与预测；意图样本的正卷云新增与反卷云删除；节点意图路由的设定与解析；节点逃生路由的设定与解析；整体交互模型的数据表达方式，实现了将交互核心组件抽离，由用户自主添加设定，并通过结构性数据表达方式，将逻辑设计结果进行标准存储，并用相应的解析方法，在触发交互的时候，进行解析，从而输出交互内容，其结构性数据可在交互过程中，通过输入文本，可使机器高度仿真人的思维方式，输出，文本，音频，视频内容，使用户快速搭建智能度和强错性高的交互场景，实现机器替代人与用户完成对话和信息交互。

在本实施例中，所述流程节点和离散节点的设计与解析的方法包括：在以完成预设交互目的的逻辑中，需逻辑主动输出的，或由此输出返回的内容，是符合此次交互目的相关的文本意图所跳转的节点均为流程节点，并且该节点包括有来源意图路由和指向意图路由、有逃生意图路由，其节点标记节点脚本，且节点脚本数量根据节点来源路由和逻辑需要设置有开始标识和结束标识，通过流程节点设定，承载交互目的过程脚本的标记存储。

在以完成预设交互目的的逻辑中，无需逻辑主动输出的，返回的内容非围绕此次交互目的，但需要给予交互应答的节点均为离散节点，并且该节点包括有来源意图路由，无指向意图路由，有逃生意图路由，并且其节点标记节点脚本，且节点脚本数量根据节点来源路由和逻辑需要设置，通过离散节点设定，承载非交互目答案脚本的标记存储。

在本实施例中，所述节点脚本的设计与解析的方法包括节点脚本在流程节点或离散节点内添加；节点脚本以文本的方法表达；节点脚本最终以文字和/或音频和/或视频的方式输出，通过节点脚本的设定，承载节点内文本内容的标记存储。

在本实施例中，所述节点脚本的TTS转写与音视频文件的关系标记的方法包括：节点脚本文本通过TTS转译为音频文件与之关联，并输出TTS声音；节点脚本通过3D多模态人型渲染数据与之关联，并输出3D多模态视频；流节点脚本通过音频文件上传并与之关联，并输出音频声音；节点脚本通过视频文件上传并与之关联，并输出音视频图像；通过节点脚本音视频文件的设定，交互输出由文本提升为音视频听视觉内容。

在本实施例中，所述单节点脚本最大遍历次数的设计与解析的方法包括：在交互过程中，若意图路由设定为多次回跳历史节点，则循环输出该节点脚本；设定最大循环次数后，若单个节点超过最大脚本循环次数，则指向节点逃生路由；通过单节点脚本的循环机制和最大循环次数，使被交互方在某个信息未获取完整的情况下，可重复输出该信息，直至最大输出次数。

在本实施例中，所述文本意图的训练与预测的方法包括：意图用于连接上下游节点，根据逻辑需要添加相应意图；文本意图需要相应文本样本，以确保文本预测置信度；文本意图基于单个交互模型训练；任意文本样本基于单个意图均有相应置信度系数，置信度系数越高，表示预测文本相对该意图越匹配；通过文本意图的设定，可对交互对象常见返回内容做聚类分组，从而将返回文字转为用户意图；通过对历史交互文本作批量意图预测，做正卷云样本添加和反卷云样本删除，促使意图样本分组明确，提高意图准确性。

在本实施例中，所述意图样本的正卷云新增与反卷云删除的方法包括：通过对历史交互样本作批量预测，取最高置信度意图作该意图样本新增依据，从而卷积新增意图样本；通过对历史交互样本作批量预测，取次高置信度意图作该意图样本删除依据，从而反卷积删除意图样本。

在本实施例中，所述节点意图路由的设定与解析的方法包括：节点通过意图跳转路由，此路由设定实现节点与节点间的交互内容推进；若场景意图数量为M，离散节点数量为N，则单个流程节点需要作M-N条路由跳转设定；离散节点作1次意图路由设定；通过意图连接节点，作节点路由，可将交互逻辑按照人的思维代入，设定跳转路由，即人在这类语境下，会如何回复，则如何跳转。

在本实施例中，所述节点逃生路由的设定与解析的方法包括：节点逃生路由不通过意图连接，由节点直连节点，且仅支持一个下级节点连接；通过节点逃生路由，可实现在重复输出节点下脚本信息后，被交互方仍未理解信息内容，进行话题转移。

在本实施例中，所述整体交互模型的数据表达方式的方法包括：通过josn格式，从上往下、从外往内，表示节点、节点默认路由、节点脚本最大遍历次数、节点脚本、节点脚本关联内容、意图和意图路由；通过josn数据格式，将交互核心元素分级，从上往下，从外往内，进行标准格式存储，在交互过程中，解析的时候，依照相关规则进行交互匹配与内容输出。

为了使本申请的目的，技术方案及优点更加清楚明白，以下结合实际应用场景，对本上去进行进一步详细说明。某电信运营商推出宽带故障报修自助受理通道，用户通过微信扫描接入通道智能客服；该运营商基于此受理业务设定设定流程节点[开始节点]，并于[开始节点]下设定节点脚本1[这里是宽带故障受理中心，请问您家的宽带是否有故障需要报修]，设定节点脚本2[请问您家的宽带是不是有问题，需要我这里协助处理]人机交互逻辑场景并以智能客服作为交互机器方；设定流程节点[故障接待节点]，并于[故障接待节点]下设定节点脚本1[请问具体是什么问题]，设定节点脚本2[请问您家宽带有什么问题]；并于[开始节点]节点脚本1/2上导入相应人工客服视频影像；并于[故障接待节点]节点脚本1/2上导入相应人工客服视频影像；并于[[当前时间节点]节点脚本1上导入相应人工客服视频影像；设定意图[肯定]，并于意图[肯定]设定样本{是的}；设定意图[听不懂]，并于意图[听不懂]设定样本{你刚才说什么}；设定意图[问时间]，并于意图[问时间]设定样本{现在几点了}，设定离散节点[当前时间节点]，并于[当前时间节点]下设定节点脚本1[现在是北京时间22点59分]，将意图[问时间]设定为该离散节点离散来源；设定流程节点[开始节点]意图[肯定]跳转[故障接待节点]；设定流程节点[开始节点]意图[听不懂]跳转[开始节点]；设定流程节点[开始节点]意图[问时间]跳转[当前时间节点]；基于以上设定，当用户扫描进入客服接待页面，并唤起客服视频连线，客服输出[开始节点]->脚本1->脚本1客服视频影像；用户从视频中看到，客服对用户说：这里是宽带故障受理中心，请问您家的宽带是否有故障需要报修？用户回答：“你刚才说什么”通过ASR语音识别，将音频转译为文本，返回文本通过意图模型预测，该样本最高置信度＝意图[听不懂]，按照[开始节点]意图路由设定，跳转至[开始节点]；客服输出流程节点[开始节点]->脚本2->脚本2客服视频影像，用户从视频中看到，客服对用户说：请问您家的宽带是不是有问题，需要我这里协助处理；用户回答：”是”，通过ASR语音识别，将音频转译为文本，返回文本通过意图模型预测，该样本最高置信度＝意图[肯定]，按照[开始节点]意图路由设定，跳转至[故障接待节点]；客服输出流程节点[故障接待节点]->脚本1->脚本1客服视频影像，用户从视频中看到，客服对用户说：请问具体是什么问题；用户这时间问一个非交互逻辑目的相关问题：“请问现在什么时间”通过ASR语音识别，将音频转译为文本，返回文本通过意图模型预测，该样本最高置信度＝意图[问时间]，触发离散节点；客服输出离散节点[问时间]->脚本1->脚本1客服视频影像，用户从视频中看到，客服对用户说：现在是北京时间22点59分；基于以上交互逻辑设定和交互逻辑解析方式，用户可以基于自己业务需要，自主搭建各种人机交互逻辑模型说明书附图。

综上所述，本发明通过流程节点和离散节点的设计与解析；节点脚本的设计与解析；节点脚本的TTS转写与音视频文件的关系标记；单节点脚本最大遍历次数的设计与解析；文本意图的训练与预测；意图样本的正卷云新增与反卷云删除；节点意图路由的设定与解析；节点逃生路由的设定与解析；整体交互模型的数据表达方式，实现了将交互核心组件抽离，由用户自主添加设定，并通过结构性数据表达方式，将逻辑设计结果进行标准存储，并用相应的解析方法，在触发交互的时候，进行解析，从而输出交互内容。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于ASR的人机音视频交互逻辑模型设计方法，其特征在于，包括：

流程节点和离散节点的设计与解析；

节点脚本的设计与解析；

节点脚本的TTS转写与音视频文件的关系标记；

单节点脚本最大遍历次数的设计与解析；

文本意图的训练与预测；

意图样本的正卷云新增与反卷云删除；

节点意图路由的设定与解析；

节点逃生路由的设定与解析；

整体交互模型的数据表达方式；

所述流程节点和离散节点的设计与解析的方法包括：

在以完成预设交互目的的逻辑中，无需逻辑主动输出的，返回的内容非围绕此次交互目的，但需要给予交互应答的节点均为离散节点，并且该节点包括有来源意图路由，无指向意图路由，有逃生意图路由，并且其节点标记节点脚本，且节点脚本数量根据节点来源路由和逻辑需要设置；

所述节点脚本的设计与解析的方法包括：

节点脚本在流程节点或离散节点内添加；

节点脚本以文本的方法表达；

节点脚本最终以文字和/或音频和/或视频的方式输出；

所述节点意图路由的设定与解析的方法包括：

离散节点作1次意图路由设定；

所述节点逃生路由的设定与解析的方法包括：

2.如权利要求1所述的基于ASR的人机音视频交互逻辑模型设计方法，其特征在于，

所述节点脚本的TTS转写与音视频文件的关系标记的方法包括：

3.如权利要求2所述的基于ASR的人机音视频交互逻辑模型设计方法，其特征在于，

所述单节点脚本最大遍历次数的设计与解析的方法包括：

4.如权利要求3所述的基于ASR的人机音视频交互逻辑模型设计方法，其特征在于，

所述文本意图的训练与预测的方法包括：

意图用于连接上下游节点，根据逻辑需要添加相应意图；

文本意图需要相应文本样本，以确保文本预测置信度；

文本意图基于单个交互模型训练；

5.如权利要求4所述的基于ASR的人机音视频交互逻辑模型设计方法，其特征在于，

所述意图样本的正卷云新增与反卷云删除的方法包括：

6.如权利要求5所述的基于ASR的人机音视频交互逻辑模型设计方法，其特征在于，

所述整体交互模型的数据表达方式的方法包括：