CN114582314B - 基于asr的人机音视频交互逻辑模型设计方法 - Google Patents

基于asr的人机音视频交互逻辑模型设计方法 Download PDF

Info

Publication number
CN114582314B
CN114582314B CN202210187875.1A CN202210187875A CN114582314B CN 114582314 B CN114582314 B CN 114582314B CN 202210187875 A CN202210187875 A CN 202210187875A CN 114582314 B CN114582314 B CN 114582314B
Authority
CN
China
Prior art keywords
node
intention
interaction
script
route
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210187875.1A
Other languages
English (en)
Other versions
CN114582314A (zh
Inventor
林雄杰
王东
徐杨军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Xiaowen Intelligent Technology Co ltd
Original Assignee
Jiangsu Kaiwen Telecom Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Kaiwen Telecom Technology Co ltd filed Critical Jiangsu Kaiwen Telecom Technology Co ltd
Priority to CN202210187875.1A priority Critical patent/CN114582314B/zh
Publication of CN114582314A publication Critical patent/CN114582314A/zh
Application granted granted Critical
Publication of CN114582314B publication Critical patent/CN114582314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于ASR的人机音视频交互逻辑模型设计方法,其包括:流程节点和离散节点的设计与解析;节点脚本的设计与解析;节点脚本的TTS转写与音视频文件的关系标记;单节点脚本最大遍历次数的设计与解析;文本意图的训练与预测;意图样本的正卷云新增与反卷云删除;节点意图路由的设定与解析;节点逃生路由的设定与解析;整体交互模型的数据表达方式,实现了将交互核心组件抽离,由用户自主添加设定,并通过结构性数据表达方式,将逻辑设计结果进行标准存储,并用相应的解析方法,在触发交互的时候,进行解析,从而输出交互内容,使用户快速搭建智能度和强错性高的交互场景,实现机器替代人与用户完成对话和信息交互。

Description

基于ASR的人机音视频交互逻辑模型设计方法
技术领域
本发明属于人机交互逻辑建模技术领域,具体涉及一种基于ASR的人机音视频交互逻辑模型设计方法。
背景技术
随着人工智能底层技术的成熟,ASR,TTS等语音相关能力也逐步投入社会生产和生活;基于语音识别和语音合成的交互场景设计,传统都需要由专业技术人员通过结合用户需求结合逻辑编码实现,往往耗时耗力,成本较大;即时开发出相应的逻辑配置系统由普通用户自主参与设定,往往也由于本身系统灵活性不足或用户理解较浅,无法设计出高智能度,高容错的交互逻辑。
因此,基于上述技术问题需要设计一种新的基于ASR的人机音视频交互逻辑模型设计方法。
发明内容
本发明的目的是提供一种基于ASR的人机音视频交互逻辑模型设计方法。
为了解决上述技术问题,本发明提供了一种基于ASR的人机音视频交互逻辑模型设计方法,包括:
流程节点和离散节点的设计与解析;
节点脚本的设计与解析;
节点脚本的TTS转写与音视频文件的关系标记;
单节点脚本最大遍历次数的设计与解析;
文本意图的训练与预测;
意图样本的正卷云新增与反卷云删除;
节点意图路由的设定与解析;
节点逃生路由的设定与解析;
整体交互模型的数据表达方式。
进一步,所述流程节点和离散节点的设计与解析的方法包括:
在以完成预设交互目的的逻辑中,需逻辑主动输出的,或由此输出返回的内容,是符合此次交互目的相关的文本意图所跳转的节点均为流程节点,并且该节点包括有来源意图路由和指向意图路由、有逃生意图路由,其节点标记节点脚本,且节点脚本数量根据节点来源路由和逻辑需要设置有开始标识和结束标识;
在以完成预设交互目的的逻辑中,无需逻辑主动输出的,返回的内容非围绕此次交互目的,但需要给予交互应答的节点均为离散节点,并且该节点包括有来源意图路由,无指向意图路由,有逃生意图路由,并且其节点标记节点脚本,且节点脚本数量根据节点来源路由和逻辑需要设置。
进一步,所述节点脚本的设计与解析的方法包括:
节点脚本在流程节点或离散节点内添加;
节点脚本以文本的方法表达;
节点脚本最终以文字和/或音频和/或视频的方式输出。
进一步,所述节点脚本的TTS转写与音视频文件的关系标记的方法包括:
节点脚本文本通过TTS转译为音频文件与之关联,并输出TTS声音;
节点脚本通过3D多模态人型渲染数据与之关联,并输出3D多模态视频;
流节点脚本通过音频文件上传并与之关联,并输出音频声音;
节点脚本通过视频文件上传并与之关联,并输出音视频图像。
进一步,所述单节点脚本最大遍历次数的设计与解析的方法包括:
在交互过程中,若意图路由设定为多次回跳历史节点,则循环输出该节点脚本;
设定最大循环次数后,若单个节点超过最大脚本循环次数,则指向节点逃生路由。
进一步,所述文本意图的训练与预测的方法包括:
意图用于连接上下游节点,根据逻辑需要添加相应意图;
文本意图需要相应文本样本,以确保文本预测置信度;
文本意图基于单个交互模型训练;
任意文本样本基于单个意图均有相应置信度系数,置信度系数越高,表示预测文本相对该意图越匹配。
进一步,所述意图样本的正卷云新增与反卷云删除的方法包括:
通过对历史交互样本作批量预测,取最高置信度意图作该意图样本新增依据,从而卷积新增意图样本;
通过对历史交互样本作批量预测,取次高置信度意图作该意图样本删除依据,从而反卷积删除意图样本。
进一步,所述节点意图路由的设定与解析的方法包括:
节点通过意图跳转路由,此路由设定实现节点与节点间的交互内容推进;
若场景意图数量为M,离散节点数量为N,则单个流程节点需要作M-N条路由跳转设定;
离散节点作1次意图路由设定。
进一步,所述节点逃生路由的设定与解析的方法包括:
节点逃生路由不通过意图连接,由节点直连节点,且仅支持一个下级节点连接。
进一步,所述整体交互模型的数据表达方式的方法包括:
通过josn格式,从上往下、从外往内,表示节点、节点默认路由、节点脚本最大遍历次数、节点脚本、节点脚本关联内容、意图和意图路由。
本发明的有益效果是,本发明通过流程节点和离散节点的设计与解析;节点脚本的设计与解析;节点脚本的TTS转写与音视频文件的关系标记;单节点脚本最大遍历次数的设计与解析;文本意图的训练与预测;意图样本的正卷云新增与反卷云删除;节点意图路由的设定与解析;节点逃生路由的设定与解析;整体交互模型的数据表达方式,实现了将交互核心组件抽离,由用户自主添加设定,并通过结构性数据表达方式,将逻辑设计结果进行标准存储,并用相应的解析方法,在触发交互的时候,进行解析,从而输出交互内容,使用户快速搭建智能度和强错性高的交互场景,实现机器替代人与用户完成对话和信息交互。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于ASR的人机音视频交互逻辑模型设计方法的流程图;
图2是本发明的交互元素信息存储结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本实施例提供了一种基于ASR的人机音视频交互逻辑模型设计方法,包括:流程节点和离散节点的设计与解析;节点脚本的设计与解析;节点脚本的TTS转写与音视频文件的关系标记;单节点脚本最大遍历次数的设计与解析;文本意图的训练与预测;意图样本的正卷云新增与反卷云删除;节点意图路由的设定与解析;节点逃生路由的设定与解析;整体交互模型的数据表达方式,实现了将交互核心组件抽离,由用户自主添加设定,并通过结构性数据表达方式,将逻辑设计结果进行标准存储,并用相应的解析方法,在触发交互的时候,进行解析,从而输出交互内容,其结构性数据可在交互过程中,通过输入文本,可使机器高度仿真人的思维方式,输出,文本,音频,视频内容,使用户快速搭建智能度和强错性高的交互场景,实现机器替代人与用户完成对话和信息交互。
在本实施例中,所述流程节点和离散节点的设计与解析的方法包括:在以完成预设交互目的的逻辑中,需逻辑主动输出的,或由此输出返回的内容,是符合此次交互目的相关的文本意图所跳转的节点均为流程节点,并且该节点包括有来源意图路由和指向意图路由、有逃生意图路由,其节点标记节点脚本,且节点脚本数量根据节点来源路由和逻辑需要设置有开始标识和结束标识,通过流程节点设定,承载交互目的过程脚本的标记存储。
在以完成预设交互目的的逻辑中,无需逻辑主动输出的,返回的内容非围绕此次交互目的,但需要给予交互应答的节点均为离散节点,并且该节点包括有来源意图路由,无指向意图路由,有逃生意图路由,并且其节点标记节点脚本,且节点脚本数量根据节点来源路由和逻辑需要设置,通过离散节点设定,承载非交互目答案脚本的标记存储。
在本实施例中,所述节点脚本的设计与解析的方法包括节点脚本在流程节点或离散节点内添加;节点脚本以文本的方法表达;节点脚本最终以文字和/或音频和/或视频的方式输出,通过节点脚本的设定,承载节点内文本内容的标记存储。
在本实施例中,所述节点脚本的TTS转写与音视频文件的关系标记的方法包括:节点脚本文本通过TTS转译为音频文件与之关联,并输出TTS声音;节点脚本通过3D多模态人型渲染数据与之关联,并输出3D多模态视频;流节点脚本通过音频文件上传并与之关联,并输出音频声音;节点脚本通过视频文件上传并与之关联,并输出音视频图像;通过节点脚本音视频文件的设定,交互输出由文本提升为音视频听视觉内容。
在本实施例中,所述单节点脚本最大遍历次数的设计与解析的方法包括:在交互过程中,若意图路由设定为多次回跳历史节点,则循环输出该节点脚本;设定最大循环次数后,若单个节点超过最大脚本循环次数,则指向节点逃生路由;通过单节点脚本的循环机制和最大循环次数,使被交互方在某个信息未获取完整的情况下,可重复输出该信息,直至最大输出次数。
在本实施例中,所述文本意图的训练与预测的方法包括:意图用于连接上下游节点,根据逻辑需要添加相应意图;文本意图需要相应文本样本,以确保文本预测置信度;文本意图基于单个交互模型训练;任意文本样本基于单个意图均有相应置信度系数,置信度系数越高,表示预测文本相对该意图越匹配;通过文本意图的设定,可对交互对象常见返回内容做聚类分组,从而将返回文字转为用户意图;通过对历史交互文本作批量意图预测,做正卷云样本添加和反卷云样本删除,促使意图样本分组明确,提高意图准确性。
在本实施例中,所述意图样本的正卷云新增与反卷云删除的方法包括:通过对历史交互样本作批量预测,取最高置信度意图作该意图样本新增依据,从而卷积新增意图样本;通过对历史交互样本作批量预测,取次高置信度意图作该意图样本删除依据,从而反卷积删除意图样本。
在本实施例中,所述节点意图路由的设定与解析的方法包括:节点通过意图跳转路由,此路由设定实现节点与节点间的交互内容推进;若场景意图数量为M,离散节点数量为N,则单个流程节点需要作M-N条路由跳转设定;离散节点作1次意图路由设定;通过意图连接节点,作节点路由,可将交互逻辑按照人的思维代入,设定跳转路由,即人在这类语境下,会如何回复,则如何跳转。
在本实施例中,所述节点逃生路由的设定与解析的方法包括:节点逃生路由不通过意图连接,由节点直连节点,且仅支持一个下级节点连接;通过节点逃生路由,可实现在重复输出节点下脚本信息后,被交互方仍未理解信息内容,进行话题转移。
在本实施例中,所述整体交互模型的数据表达方式的方法包括:通过josn格式,从上往下、从外往内,表示节点、节点默认路由、节点脚本最大遍历次数、节点脚本、节点脚本关联内容、意图和意图路由;通过josn数据格式,将交互核心元素分级,从上往下,从外往内,进行标准格式存储,在交互过程中,解析的时候,依照相关规则进行交互匹配与内容输出。
为了使本申请的目的,技术方案及优点更加清楚明白,以下结合实际应用场景,对本上去进行进一步详细说明。某电信运营商推出宽带故障报修自助受理通道,用户通过微信扫描接入通道智能客服;该运营商基于此受理业务设定设定流程节点[开始节点],并于[开始节点]下设定节点脚本1[这里是宽带故障受理中心,请问您家的宽带是否有故障需要报修],设定节点脚本2[请问您家的宽带是不是有问题,需要我这里协助处理]人机交互逻辑场景并以智能客服作为交互机器方;设定流程节点[故障接待节点],并于[故障接待节点]下设定节点脚本1[请问具体是什么问题],设定节点脚本2[请问您家宽带有什么问题];并于[开始节点]节点脚本1/2上导入相应人工客服视频影像;并于[故障接待节点]节点脚本1/2上导入相应人工客服视频影像;并于[[当前时间节点]节点脚本1上导入相应人工客服视频影像;设定意图[肯定],并于意图[肯定]设定样本{是的};设定意图[听不懂],并于意图[听不懂]设定样本{你刚才说什么};设定意图[问时间],并于意图[问时间]设定样本{现在几点了},设定离散节点[当前时间节点],并于[当前时间节点]下设定节点脚本1[现在是北京时间22点59分],将意图[问时间]设定为该离散节点离散来源;设定流程节点[开始节点]意图[肯定]跳转[故障接待节点];设定流程节点[开始节点]意图[听不懂]跳转[开始节点];设定流程节点[开始节点]意图[问时间]跳转[当前时间节点];基于以上设定,当用户扫描进入客服接待页面,并唤起客服视频连线,客服输出[开始节点]->脚本1->脚本1客服视频影像;用户从视频中看到,客服对用户说:这里是宽带故障受理中心,请问您家的宽带是否有故障需要报修?用户回答:“你刚才说什么”通过ASR语音识别,将音频转译为文本,返回文本通过意图模型预测,该样本最高置信度=意图[听不懂],按照[开始节点]意图路由设定,跳转至[开始节点];客服输出流程节点[开始节点]->脚本2->脚本2客服视频影像,用户从视频中看到,客服对用户说:请问您家的宽带是不是有问题,需要我这里协助处理;用户回答:”是”,通过ASR语音识别,将音频转译为文本,返回文本通过意图模型预测,该样本最高置信度=意图[肯定],按照[开始节点]意图路由设定,跳转至[故障接待节点];客服输出流程节点[故障接待节点]->脚本1->脚本1客服视频影像,用户从视频中看到,客服对用户说:请问具体是什么问题;用户这时间问一个非交互逻辑目的相关问题:“请问现在什么时间”通过ASR语音识别,将音频转译为文本,返回文本通过意图模型预测,该样本最高置信度=意图[问时间],触发离散节点;客服输出离散节点[问时间]->脚本1->脚本1客服视频影像,用户从视频中看到,客服对用户说:现在是北京时间22点59分;基于以上交互逻辑设定和交互逻辑解析方式,用户可以基于自己业务需要,自主搭建各种人机交互逻辑模型说明书附图。
综上所述,本发明通过流程节点和离散节点的设计与解析;节点脚本的设计与解析;节点脚本的TTS转写与音视频文件的关系标记;单节点脚本最大遍历次数的设计与解析;文本意图的训练与预测;意图样本的正卷云新增与反卷云删除;节点意图路由的设定与解析;节点逃生路由的设定与解析;整体交互模型的数据表达方式,实现了将交互核心组件抽离,由用户自主添加设定,并通过结构性数据表达方式,将逻辑设计结果进行标准存储,并用相应的解析方法,在触发交互的时候,进行解析,从而输出交互内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (6)

1.一种基于ASR的人机音视频交互逻辑模型设计方法,其特征在于,包括:
流程节点和离散节点的设计与解析;
节点脚本的设计与解析;
节点脚本的TTS转写与音视频文件的关系标记;
单节点脚本最大遍历次数的设计与解析;
文本意图的训练与预测;
意图样本的正卷云新增与反卷云删除;
节点意图路由的设定与解析;
节点逃生路由的设定与解析;
整体交互模型的数据表达方式;
所述流程节点和离散节点的设计与解析的方法包括:
在以完成预设交互目的的逻辑中,需逻辑主动输出的,或由此输出返回的内容,是符合此次交互目的相关的文本意图所跳转的节点均为流程节点,并且该节点包括有来源意图路由和指向意图路由、有逃生意图路由,其节点标记节点脚本,且节点脚本数量根据节点来源路由和逻辑需要设置有开始标识和结束标识;
在以完成预设交互目的的逻辑中,无需逻辑主动输出的,返回的内容非围绕此次交互目的,但需要给予交互应答的节点均为离散节点,并且该节点包括有来源意图路由,无指向意图路由,有逃生意图路由,并且其节点标记节点脚本,且节点脚本数量根据节点来源路由和逻辑需要设置;
所述节点脚本的设计与解析的方法包括:
节点脚本在流程节点或离散节点内添加;
节点脚本以文本的方法表达;
节点脚本最终以文字和/或音频和/或视频的方式输出;
所述节点意图路由的设定与解析的方法包括:
节点通过意图跳转路由,此路由设定实现节点与节点间的交互内容推进;
若场景意图数量为M,离散节点数量为N,则单个流程节点需要作M-N条路由跳转设定;
离散节点作1次意图路由设定;
所述节点逃生路由的设定与解析的方法包括:
节点逃生路由不通过意图连接,由节点直连节点,且仅支持一个下级节点连接。
2.如权利要求1所述的基于ASR的人机音视频交互逻辑模型设计方法,其特征在于,
所述节点脚本的TTS转写与音视频文件的关系标记的方法包括:
节点脚本文本通过TTS转译为音频文件与之关联,并输出TTS声音;
节点脚本通过3D多模态人型渲染数据与之关联,并输出3D多模态视频;
流节点脚本通过音频文件上传并与之关联,并输出音频声音;
节点脚本通过视频文件上传并与之关联,并输出音视频图像。
3.如权利要求2所述的基于ASR的人机音视频交互逻辑模型设计方法,其特征在于,
所述单节点脚本最大遍历次数的设计与解析的方法包括:
在交互过程中,若意图路由设定为多次回跳历史节点,则循环输出该节点脚本;
设定最大循环次数后,若单个节点超过最大脚本循环次数,则指向节点逃生路由。
4.如权利要求3所述的基于ASR的人机音视频交互逻辑模型设计方法,其特征在于,
所述文本意图的训练与预测的方法包括:
意图用于连接上下游节点,根据逻辑需要添加相应意图;
文本意图需要相应文本样本,以确保文本预测置信度;
文本意图基于单个交互模型训练;
任意文本样本基于单个意图均有相应置信度系数,置信度系数越高,表示预测文本相对该意图越匹配。
5.如权利要求4所述的基于ASR的人机音视频交互逻辑模型设计方法,其特征在于,
所述意图样本的正卷云新增与反卷云删除的方法包括:
通过对历史交互样本作批量预测,取最高置信度意图作该意图样本新增依据,从而卷积新增意图样本;
通过对历史交互样本作批量预测,取次高置信度意图作该意图样本删除依据,从而反卷积删除意图样本。
6.如权利要求5所述的基于ASR的人机音视频交互逻辑模型设计方法,其特征在于,
所述整体交互模型的数据表达方式的方法包括:
通过josn格式,从上往下、从外往内,表示节点、节点默认路由、节点脚本最大遍历次数、节点脚本、节点脚本关联内容、意图和意图路由。
CN202210187875.1A 2022-02-28 2022-02-28 基于asr的人机音视频交互逻辑模型设计方法 Active CN114582314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210187875.1A CN114582314B (zh) 2022-02-28 2022-02-28 基于asr的人机音视频交互逻辑模型设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210187875.1A CN114582314B (zh) 2022-02-28 2022-02-28 基于asr的人机音视频交互逻辑模型设计方法

Publications (2)

Publication Number Publication Date
CN114582314A CN114582314A (zh) 2022-06-03
CN114582314B true CN114582314B (zh) 2023-06-23

Family

ID=81771153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210187875.1A Active CN114582314B (zh) 2022-02-28 2022-02-28 基于asr的人机音视频交互逻辑模型设计方法

Country Status (1)

Country Link
CN (1) CN114582314B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355490A (zh) * 2007-07-25 2009-01-28 华为技术有限公司 消息路由方法、系统和节点设备
US8325880B1 (en) * 2010-07-20 2012-12-04 Convergys Customer Management Delaware Llc Automated application testing
CN108510292A (zh) * 2018-03-26 2018-09-07 国家电网公司客户服务中心 用于电力呼叫服务中故障场景问题的自动流程辅助方法
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN112256854A (zh) * 2020-11-05 2021-01-22 云南电网有限责任公司 一种基于ai自然语言理解的智能ai会话方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120003A (ja) * 1997-10-17 1999-04-30 Hitachi Ltd ループ飛び出しを含むループに対する並列実行方法および並列プログラム生成方法
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
JP2008046399A (ja) * 2006-08-17 2008-02-28 Murata Mach Ltd 音声対話装置と音声対話方法及び音声対話プログラム
US9444935B2 (en) * 2014-11-12 2016-09-13 24/7 Customer, Inc. Method and apparatus for facilitating speech application testing
US10382624B2 (en) * 2017-03-01 2019-08-13 Speech-Soft Solutions Inc. Bridge for non-voice communications user interface to voice-enabled interactive voice response system
US10956181B2 (en) * 2019-05-22 2021-03-23 Software Ag Systems and/or methods for computer-automated execution of digitized natural language video stream instructions
CN110308902B (zh) * 2019-06-28 2023-10-03 百度在线网络技术(北京)有限公司 文件生成方法、装置、设备和存储介质
CN110532515B (zh) * 2019-08-05 2021-08-03 北京交通大学 基于afc与视频数据的城市轨道交通乘客行程反演系统
CN110442701B (zh) * 2019-08-15 2022-08-05 思必驰科技股份有限公司 语音对话处理方法及装置
CN112002323B (zh) * 2020-08-24 2024-07-02 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN113935337A (zh) * 2021-10-22 2022-01-14 平安科技(深圳)有限公司 一种对话管理方法、系统、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355490A (zh) * 2007-07-25 2009-01-28 华为技术有限公司 消息路由方法、系统和节点设备
US8325880B1 (en) * 2010-07-20 2012-12-04 Convergys Customer Management Delaware Llc Automated application testing
CN108510292A (zh) * 2018-03-26 2018-09-07 国家电网公司客户服务中心 用于电力呼叫服务中故障场景问题的自动流程辅助方法
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN112256854A (zh) * 2020-11-05 2021-01-22 云南电网有限责任公司 一种基于ai自然语言理解的智能ai会话方法及装置

Also Published As

Publication number Publication date
CN114582314A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
JP7274043B2 (ja) 音声会話処理方法及び装置
CN109859736B (zh) 语音合成方法及系统
CN111739519B (zh) 基于语音识别的对话管理处理方法、装置、设备及介质
CN107766319B (zh) 序列转换方法及装置
WO2024066920A1 (zh) 虚拟场景的对话方法、装置、电子设备、计算机程序产品及计算机存储介质
CN108959388B (zh) 信息生成方法及装置
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN111539199A (zh) 文本的纠错方法、装置、终端、及存储介质
CN111858874B (zh) 对话服务处理方法、装置、设备及计算机可读存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN114582314B (zh) 基于asr的人机音视频交互逻辑模型设计方法
CN113630309A (zh) 机器人会话系统、方法、装置、计算机设备和存储介质
CN117636874A (zh) 机器人对话方法、系统、机器人和存储介质
WO2023226767A1 (zh) 模型训练方法和装置及语音含义的理解方法和装置
CN108563628A (zh) 基于hred和内外记忆网络单元的情感对话生成方法
CN116013257A (zh) 语音识别、语音识别模型训练方法、装置、介质及设备
CN113868415A (zh) 知识库的生成方法、装置、存储介质及电子设备
CN113674745A (zh) 语音识别方法及装置
CN111310847A (zh) 训练要素分类模型的方法和装置
CN113239147B (zh) 基于图神经网络的智能会话方法、系统及介质
CN115118689B (zh) 一种特定领域智能客服营销机器人的搭建方法
US20240221721A1 (en) Systems and methods for audio transcription switching based on real-time identification of languages in an audio stream
CN113782022A (zh) 基于意图识别模型的通信方法、装置、设备及存储介质
CN117059064A (zh) 语音回答的方法、装置、电子设备以及存储介质
CN118283183A (zh) 一种基于关键信息处理模型的智能应答系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230804

Address after: Room 705, Unit B, Building 15, Changzhou Tian'an Digital City, No. 588 Changwu South Road, Wujin National High tech Industrial Development Zone, Changzhou City, Jiangsu Province, 213000

Patentee after: Changzhou Xiaowen Intelligent Technology Co.,Ltd.

Address before: 213000 room 706, unit B, building B, Tian'an Digital City, No. 588, Changwu South Road, Wujin national high tech Industrial Development Zone, Changzhou City, Jiangsu Province

Patentee before: Jiangsu Kaiwen Telecom Technology Co.,Ltd.

TR01 Transfer of patent right