CN117496984A - 目标对象的交互方法、装置、设备及可读存储介质 - Google Patents

目标对象的交互方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN117496984A
CN117496984A CN202310499959.3A CN202310499959A CN117496984A CN 117496984 A CN117496984 A CN 117496984A CN 202310499959 A CN202310499959 A CN 202310499959A CN 117496984 A CN117496984 A CN 117496984A
Authority
CN
China
Prior art keywords
target object
voice
target
video
frame image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310499959.3A
Other languages
English (en)
Inventor
白安琪
蒋宁
陆全
夏粉
吴海英
肖冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202310499959.3A priority Critical patent/CN117496984A/zh
Publication of CN117496984A publication Critical patent/CN117496984A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开一种目标对象的交互方法、装置、设备及可读存储介质,属于人机交互技术领域。该方法包括:在判定目标对象适合进行交互操作的情况下,获取第一指引话术数据、示范视频和目标对象对应的语音数据;提取语音数据的音色特征,根据音色特征和第一指引话术数据合成第二指引话术数据,以语音形式输出第二指引话术数据并播放示范视频;在接收到用于表征目标对象操作失败的第一标识的情况下,根据示范视频和所采集的模仿视频,确定目标对象操作错误的目标帧图像,重复播放目标帧图像直至满足预设条件,重新以语音形式输出第二指引话术数据并播放示范视频。这样,能够帮助目标对象快速了解业务操作相关流程,缩短目标对象的训练周期。

Description

目标对象的交互方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及人机交互技术领域,特别涉及一种目标对象的交互方法、装置、设备及可读存储介质。
背景技术
目前在人机交互领域中,主流是机器人与用户进行会话交互,随着AI技术的发展,机器人与用户侧宠物、警犬等目标对象也可以进行智能交互,通过训练目标对象,使其完成指定的业务查询与办理工作,能够节省用户亲自办理无风险业务的时间和精力。
然而,对于用户而言,训练宠物、警犬等目标对象进行专业业务操作是一个费时费力的过程,其训练周期长且训练效果不理想。
发明内容
本申请实施例提供了一种目标对象的交互方法、装置、设备及可读存储介质,以解决现有技术中目标对象的训练周期长且训练效果不理想的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种目标对象的交互方法,包括:
在判定目标对象适合进行交互操作的情况下,获取业务操作对应的第一指引话术数据、示范视频和预设的与所述目标对象对应的语音数据;
提取所述语音数据的音色特征,根据所述音色特征和第一指引话术数据合成与所述第一指引话术数据对应的第二指引话术数据,以语音形式输出所述第二指引话术数据并播放所述示范视频;
在接收到用于表征所述目标对象操作失败的第一标识的情况下,根据所述示范视频和在所述示范视频播放过程中所采集的所述目标对象的模仿视频,确定目标对象操作错误的目标帧图像,重复播放所述目标帧图像直至满足预设条件,重新以语音形式输出所述第二指引话术数据并播放所述示范视频。
第二方面,本申请实施例提供了一种目标对象的交互装置,包括:
获取模块,用于在判定目标对象适合进行交互操作的情况下,获取业务操作对应的第一指引话术数据、示范视频和预设的与所述目标对象对应的语音数据;
输出模块,用于提取所述语音数据的音色特征,根据所述音色特征和第一指引话术数据合成与所述第一指引话术数据对应的第二指引话术数据,以语音形式输出所述第二指引话术数据并播放所述示范视频;
交互模块,用于在接收到用于表征目标对象操作失败的第一标识的情况下,根据所述示范视频和在所述示范视频播放过程中所采集的所述目标对象的模仿视频,确定目标对象操作错误的目标帧图像,重复播放所述目标帧图像直至满足预设条件,重新以语音形式输出所述第二指引话术数据并播放所述示范视频。
第三方面,本申请实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现上述的目标对象的交互方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现上述的目标对象的交互方法的步骤。
本申请提供的技术方案可以包括以下有益效果:
在本申请实施例中,在判定目标对象适合进行交互操作的情况下,获取业务操作对应的第一指引话术数据、示范视频和预设的与目标对象对应的语音数据;提取所述语音数据的音色特征,根据所述音色特征和第一指引话术数据合成与所述第一指引话术数据对应的第二指引话术数据,以语音形式输出所述第二指引话术数据并播放所述示范视频;在接收到用于表征所述目标对象操作失败的第一标识的情况下,根据所述示范视频和在所述示范视频播放过程中所采集的目标对象的模仿视频,确定目标对象操作错误的目标帧图像,重复播放所述目标帧图像直至满足预设条件,重新以语音形式输出所述第二指引话术数据并播放所述示范视频。
这样,在判定目标对象适合进行交互操作时,根据第二指引话术数据和示范视频对目标对象进行训练,并且在目标对象操作失败的情况下,重复播放目标对象操作错误的目标帧图像,能够对目标对象进行更加有针对性的训练,帮助目标对象快速了解业务操作相关流程,缩短目标对象的训练周期,并且能够减少用户训练目标对象进行专业业务操作和亲自办理无风险业务的时间成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1示出了本申请实施例提供的目标对象的交互方法的流程示意图;
图2示出了本申请实施例提供的目标对象适合进行交互操作判定方法的流程示意图;
图3示出了本申请实施例提供的目标对象的交互方法的另一流程示意图;
图4示出了本申请实施例提供的目标对象的交互装置的结构示意图;
图5示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
目前在人机交互领域中,主流是机器人与用户进行会话交互,随着AI技术的发展,机器人与用户侧宠物、警犬等目标对象也可以进行智能交互,通过训练目标对象,使其完成指定的业务查询与办理工作,能够节省用户亲自办理无风险业务的时间和精力。
然而,对于用户而言,训练宠物、警犬等目标对象进行专业业务操作是一个费时费力的过程,其训练周期长且训练效果不理想。
本技术方案提供的目标对象的交互方法,在判定目标对象适合进行交互操作时,根据第二指引话术数据和示范视频对目标对象进行训练,并且在目标对象操作失败的情况下,重复播放目标对象操作错误的目标帧图像,能够对目标对象进行更加有针对性的训练,帮助目标对象快速了解业务操作相关流程,缩短目标对象的训练周期,使其完成指定的业务查询与办理工作,节省了用户亲自办理无风险业务的时间和精力。
图1示出了本申请实施例提供的目标对象的交互方法的流程示意图,如图中所示,该目标对象的交互方法100包括以下步骤:
S101:在判定目标对象适合进行交互操作的情况下,获取业务操作对应的第一指引话术数据、示范视频和预设的与所述目标对象对应的语音数据。
其中,目标对象可以是宠物、警犬,或者其他对象,业务操作可以是预先存储在数据库中的信息,也可以是根据实际需要从网站上获取的信息,每一个业务操作对应有第一指引话术数据、示范视频和预设的与目标对象对应的语音数据。上述业务操作的具体操作内容在此不做限定,例如,业务操作为“核实身份”,对应的第一指引话术数据可以是用于表征“请将面部对准前方摄像头”的数据,示范视频可以是目标对象将摄像头对准用户脸部的动作的视频;业务操作为“提前还款”,对应的第一指引话术数据可以是用于表征“请将身份证件放置于识别区域”的数据,示范视频可以是包含目标对象将身份证件放置于识别区域的动作的视频;
示范视频可以直接使用人操作的视频,也可以使用现有的视频抠图技术将人替换成相同物种的目标对象的操作示范视频。需要说明的是,与目标对象对应的语音数据可以是预先录入的语音数据,也可以是在确定与目标对象具有关联关系的用户的身份之后,从预设数据库中调取与该用户身份相对应的语音数据,例如,目标对象为宠物,与目标对象对应的语音数据可以是宠物主人的语音数据,以使目标对象能够更快地理解交互命令,并做出与交互命令相对应的动作,其中,关联关系可以包括所属关系、训练关系等。
在获取业务操作对应的相关数据之前,还可以判断目标对象是否适合进行交互操作,以进一步提高交互训练的有效性。其中,可以采集包含目标对象的视频,通过识别视频中目标对象的情绪,判断目标对象是否适合进行交互操作。例如,在识别出目标对象的情绪相对稳定时,判定目标对象适合进行交互操作。
在一种可能的实施方式中,如图2所示,在步骤S101中,判定目标对象适合进行交互操作可以包括以下步骤:
S1011:获取目标对象的历史行为视频,以及所述历史行为视频对应的目标语音数据。
其中,可以在核实与目标对象具有关联关系的用户身份后,获取与用户身份相对应的目标对象的历史行为视频;也可以采集目标对象的图像,将目标对象的图像作为索引,从预设的数据库中查询并获取目标对象的历史行为视频。
在一种可能的实施方式中,所述获取目标对象的历史行为视频,包括:接收交互开启指令,输出预设的问候语音;对目标对象回应的应答语音进行语义识别,在根据语义识别结果判定所述目标对象听到所述问候语音的情况下,向所述目标对象发起身份认证命令;在所述身份认证命令对应的身份认证信息审核通过的情况下,确定与目标对象具有关联关系的用户身份信息下的关联信息,所述关联信息包括目标用户对应的历史行为视频。
其中,交互开启指令可以由用户主动触发,也可以在特定区域内识别到目标对象时触发交互开启指令,问候语句是预先设置的,例如,问候语句为“您好,尊敬的xx先生/女士”。目标对象在听到问候语句之后对问候语句进行应答,例如,应答语句为“汪汪、汪汪汪”,在目标对象听到问候语音的情况下,向所述目标对象发起身份认证命令,如“核身”,目标对象将摄像头对准用户本人,使其通过人脸识别的方式配合完成核身,确定该用户的身份信息以及身份信息下的关联信息,这里,关联信息可以包括目标对象对应的历史行为视频,也可以包括该用户的语音数据。
在一种可能的实施方式中,对目标对象回应的应答语音进行语义识别,包括:对所述应答语音的语音特征进行特征增强处理,得到目标语音文件;根据预设的语音文件与语音含义之间的映射关系,确定所述目标语音文件对应的目标语音含义;根据所述目标语音含义,确定所述应答语音对应的语义识别结果。
其中,语音特征包括但不限于音量和声带长度,使用现有的DeepSpeech2对应答语音的语音特征进行增强处理,生成多个与应答语音相对应的特征增强语音,将应答语音和多个特征增强语音合并为目标语音文件。需要说明的是,语音含义的表达可以体现在语音文件中目标对象的语音频率、音高或者情绪,语音增强处理不改变其语音含义,例如,应答语音a与语音含义a存在映射关系,那么根据应答语音a变换成的特征增强语音b,其语音含义还是a。
语音文件与语音含义之间的映射关系可以在预设数据库中存储,当获取到目标语音文件时,与数据库中的语音文件进行特征比对,计算目标语音文件与数据库中语音文件的相似度,根据相似度最高语音文件与语音含义之间的映射关系,确定应答语音对应的语义识别结果;语音文件与语音含义之间的映射关系也可以通过训练模型得到,具体为,获取特殊语音样本集,特殊语音样本集中的每个特殊语音样本带有语音含义标签;使用特殊语音样本集对朴素贝叶斯模型进行训练,将每个特殊语音样本的语音特征进行增强处理,得到语音文件;将语音文件输入至朴素贝叶斯模型进行处理,得到语音含义预测值;根据语音含义预测值和语音含义标签确定朴素贝叶斯模型的损失函数;根据损失函数调整朴素贝叶斯模型的模型参数,使朴素贝叶斯模型收敛,将收敛后的朴素贝叶斯模型确定为特殊语音识别模型。这样,通过特殊语音样本集训练朴素贝叶斯模型,使得朴素贝叶斯模型能够学习到语音文件与语音含义之间的映射关系,进而,将目标对象回应的应答语音输入至特殊语音识别模型中,输出应答语音对应的语义识别结果。
这样,获取的目标对象的历史行为视频,以及历史行为视频对应的目标语音数据为判定目标对象适合进行交互操作提供可靠的数据支持和理论依据,进而在判定目标对象适合进行交互操作的情况下,对目标对象进行交互训练,有利于提高针对目标对象进行交互训练的有效性。
S1012:提取所述历史行为视频中的多张帧图像,根据所述多张帧图像对应的目标对象的情绪特征,确定第一预测指数;将所述目标语音数据按照预设的语音切割条件分割成多个语音片段,根据所述多个语音片段的音频特征和历史行为视频,确定第二预测指数;所述第一预测指数用于表征目标对象情绪的稳定程度,所述第二预测指数用于表征目标对象反应的灵敏程度;在所述第一预测指数和所述第二预测指数的和值低于预设阈值的情况下,判定所述目标对象适合进行交互操作。
其中,历史行为视频包括目标对象的日常作息、护理、面对外界命令/刺激的视频,使用现有的opencv技术对历史行为视频进行分帧处理,提取所述历史行为视频中的多张帧图像。语音切割条件为:如果设定时间段内音量低于预设音量阈值则划分为不同的语音片段。
需要说明的是,可以通过将第一预测指数和所述第二预测指数的和值于预设阈值进行比较,判断目标对象是否适合进行交互操作;也可以人为地为第一预测指数和第二预测指数设置相应的权重,通过将第一预测指数、第二预测指数加权和值与预设阈值进行比较,判断目标对象是否适合进行交互操作,以更加准确地判断目标对象是否适合进行交互操作。
在一种可能的实施方式中,根据所述多张帧图像对应的目标对象的情绪特征,确定第一预测指数,包括:
将所述多张帧图像输入至多个稳定度检测模型进行处理,输出与所述多个稳定度检测模型一一对应的多个稳定度预估值;不同的稳定度检测模型采用不同的稳定度检测规则对所述多张帧图像对应的目标对象的情绪特征进行处理,得到稳定度预估值;
根据所述多个稳定度预估值和各稳定度检测模型对应的模型权重,确定所述第一预测指数。
其中,多个稳定度检测模型包括第一稳定度检测模型和第二稳定度检测模型,具体地,可以通过以下方式训练第一稳定度检测模型:a)准备标注数据:x为多张包含目标对象的图片,y为目标对象的情绪稳定度;b)将标注数据输入至神经网络模型中进行训练,得到第一稳定度检测模型,其中,目标对象的情绪稳定度用于表征多张帧图像中目标对象的情绪特征的变化程度,取值在[-1,1]之间,负数代表不稳定。神经网络模型包括但不限于BP神经网络、决策树、回归模型。这样,通过不断训练神经网络模型,使其学习多张图片中目标对象的情绪特征的变化程度与目标对象的情绪稳定度的对应关系,将多张帧图像输入至预先训练的第一稳定度检测模型中,输出相应的目标对象的情绪稳定度,进而得到第一稳定度预估值。
通过以下方式训练第二稳定度检测模型:a)准备标注数据:x为单张包含目标对象的图片,y为目标对象的情绪分值;b)将标注数据输入回归模型进行训练,得到第二稳定度检测模型。其中,目标对象的情绪分值用于表征目标对象情绪的强度,若目标对象没有表达情绪,则对应的情绪分值为0;若目标对象表达积极的正面情绪,则对应的情绪分值为正数;若目标对象表达消极的负面情绪,则对应的情绪分值为负数。将多张帧图像中的每张帧图像分别输入至第二稳定度检测模型进行情绪特征的识别,根据情绪特征的识别结果,确定每张帧图像对应的情绪预估值,将多张帧图像对应的多个情绪预估值的方差,确定为第二稳定度预估值。
在一种可能的实施方式中,根据所述多个语音片段的音频特征和历史行为视频,确定第二预测指数,包括:
按照时间顺序对所述多个语音片段进行排序,得到语音序列;
提取所述语音序列中的目标语音片段;
根据所述目标语音片段,从所述历史行为视频中提取预设数量的目标行为图像;
根据所述目标行为图像中识别出预设动作的图像数量和目标语音片段对应的图像数量,确定所述第二预测指数。
其中,目标行为图像包括第一目标行为图像和第二目标行为图像,根据目标语音片段对应的目标时间点,从历史行为视频中提取与目标语音片段的目标时间点对应的第一目标行为图像,以及历史行为视频中位于目标时间点之后的预设数量的第二目标行为图像。计算目标行为图像中识别出预设动作的图像数量与目标语音片段对应的图像数量之间的差值,将该差值的倒数确定为第二预测指数。
需要说明的是,可以预先设置多个动作,当目标行为图像中的目标对象符合多个动作中的任一个,则判定在目标行为图像中识别出预设动作。
在一种可能的实施方式中,所述获取业务操作对应的第一指引话术数据,包括:获取所述业务操作对应的业务操作话术;提取所述业务操作话术的目标语句,将重复预设次数的目标语句作为所述第一指引话术数据。
其中,目标语句可以是关键词,以“请将面部对准前方摄像头”为例,其关键词可以为“面部”和“摄像头”,目标语句也可以是具有预设词性的分词,例如,具有动词词性的“对准”。将重复预设次数的目标语句作为所述第一指引话术数据,以快速地帮助目标对象理解业务操作的动作执行内容,重复的次数可以根据目标对象的交互情况进行设定。
在一种可能的实施方式中,所述提取所述业务操作话术的目标语句,包括:根据预设的业务关键词词库,提取所述业务操作话术对应的关键词;将所述业务操作话术进行分词处理,提取具有预设词性的分词;将所述关键词和分词拼接成所述目标语句。
其中,预设词性可以包括动词、名词、形容词、副词等,本申请实施例将关键词与具有动词词性的分词拼接成目标语句,例如,“面部/对准/摄像头”。
S102:提取所述语音数据的音色特征,根据所述音色特征和第一指引话术数据合成与所述第一指引话术数据对应的第二指引话术数据,以语音形式输出所述第二指引话术数据并播放所述示范视频。
在本申请实施例中,采用与目标对象具有关联关系的用户的语音数据的音色特征进行音色迁移,使得第二指引话术数据与用户的语音数据具有相同的音色特征,通过第二指引话术数据和示范视频对目标对象进行交互训练,有利于帮助目标对象快速了解业务操作相关流程,提高目标对象的交互效率。
S103:在接收到用于表征目标对象操作失败的第一标识的情况下,根据所述示范视频和在所述示范视频播放过程中所采集的目标对象的模仿视频,确定目标对象操作错误的目标帧图像,重复播放所述目标帧图像直至满足预设条件,重新以语音形式输出所述第二指引话术数据并播放所述示范视频。
其中,预设条件可以是目标帧图像的重复播放次数阈值;也可以是判定目标对象正确完成目标帧图像中的动作。
在一种可能的实施方式中,所述根据所述示范视频和在所述示范视频播放过程中所采集的目标对象的模仿视频,确定目标对象操作错误的目标帧图像,包括:
对所述目标对象的模仿视频和示范视频进行分帧处理,得到所述模仿视频的第一帧图像和所述示范视频的第二帧图像;所述第一帧图像与第二帧图像相互之间一一对应;
根据所述第一帧图像对应的第一向量和所述第二帧图像对应的第二向量之间的向量距离,确定第一帧图像与第二帧图像之间的相似度值;
将所述相似度值小于预设相似度阈值的第一帧图像确定为目标对象操作错误的目标帧图像。
在一种可能的实施方式中,如图3所示,目标对象的交互方法100还包括:
S104:在接收到用于表征目标对象操作成功的第二标识时,结束对目标对象的交互训练并执行挂机操作。
其中,本申请实施例对第一标识和第二标识不做限定,例如,可以用“0”表示目标对象操作失败,用“1”表示目标对象操作成功;也可以用不同的符号或者图标表示目标对象操作成功/失败。
图4示出了本申请实施例提供的目标对象的交互装置的结构示意图,该目标对象的交互装置可以实现如图1、图2或者图3任一所示实施例中的全部或部分内容,该目标对象的交互装置400包括:
获取模块410,用于在判定目标对象适合进行交互操作的情况下,获取业务操作对应的第一指引话术数据、示范视频和预设的与所述目标对象对应的语音数据;
输出模块420,用于提取所述语音数据的音色特征,根据所述音色特征和第一指引话术数据合成与所述第一指引话术数据对应的第二指引话术数据,以语音形式输出所述第二指引话术数据并播放所述示范视频;
交互模块430,用于在接收到用于表征目标对象操作失败的第一标识的情况下,根据所述示范视频和在所述示范视频播放过程中所采集的目标对象的模仿视频,确定目标对象操作错误的目标帧图像,重复播放所述目标帧图像直至满足预设条件,重新以语音形式输出所述第二指引话术数据并播放所述示范视频。
在一种可能的实施方式中,获取模块410,包括:
获取子模块,用于获取目标对象的历史行为视频,以及所述历史行为视频对应的目标语音数据;
预测子模块,用于提取所述历史行为视频中的多张帧图像,根据所述多张帧图像对应的目标对象的情绪特征,确定第一预测指数;将所述目标语音数据按照预设的语音切割条件分割成多个语音片段,根据所述多个语音片段的音频特征和历史行为视频,确定第二预测指数;所述第一预测指数用于表征目标对象情绪的稳定程度,所述第二预测指数用于表征目标对象反应的灵敏程度;
判定子模块,用于在所述第一预测指数和所述第二预测指数的和值低于预设阈值的情况下,判定所述目标对象适合进行交互操作。
在一种可能的实施方式中,预测子模块在用于根据所述多张帧图像对应的目标对象的情绪特征,确定第一预测指数时,具体用于:
将所述多张帧图像输入至多个稳定度检测模型进行处理,输出与所述多个稳定度检测模型一一对应的多个稳定度预估值;不同的稳定度检测模型采用不同的稳定度检测规则对所述多张帧图像对应的情绪特征进行处理,得到稳定度预估值;
根据所述多个稳定度预估值和各稳定度检测模型对应的模型权重,确定所述第一预测指数。
在一种可能的实施方式中,预测子模块在用于根据所述多个语音片段的音频特征和历史行为视频,确定第二预测指数时,具体用于:
按照时间顺序对所述多个语音片段进行排序,得到语音序列;
提取所述语音序列中的目标语音片段;
根据所述目标语音片段,从所述历史行为视频中提取预设数量的目标行为图像;
根据所述目标行为图像中识别出预设动作的图像数量和目标语音片段对应的图像数量,确定所述第二预测指数。
在一种可能的实施方式中,获取子模块,包括:
接收单元,用于接收交互开启指令,输出预设的问候语音;
识别单元,用于对目标对象回应的应答语音进行语义识别,在根据语义识别结果判定所述目标对象听到所述问候语音的情况下,向所述目标对象发起身份认证命令;
确定单元,用于在所述身份认证命令对应的身份认证信息审核通过的情况下,确定目标对象对应的身份信息下的关联信息,所述关联信息包括目标对象对应的历史行为视频。
其中,识别单元在用于对目标对象回应的应答语音进行语义识别时,具体用于:
对所述应答语音的语音特征进行特征增强处理,得到目标语音文件;
根据预设的语音文件与语音含义之间的映射关系,确定所述目标语音文件对应的目标语音含义;
根据所述目标语音含义,确定所述应答语音对应的语义识别结果。
在一种可能的实施方式中,获取模块410,包括:
获取子模块,用于获取所述业务操作对应的业务操作话术;
提取子模块,用于提取所述业务操作话术的目标语句,将重复预设次数的目标语句作为所述第一指引话术数据。
其中,提取子模块,包括:
第一提取单元,用于根据预设的业务关键词词库,提取所述业务操作话术对应的关键词;
第二提取单元,用于将所述业务操作话术进行分词处理,提取具有预设词性的分词;
拼接单元,用于将所述关键词和分词拼接成所述目标语句。
在一种可能的实施方式中,交互模块430在用于根据所述示范视频和在所述示范视频播放过程中所采集的目标对象的模仿视频,确定目标对象操作错误的目标帧图像时,具体用于:
对所述模仿视频和示范视频进行分帧处理,得到所述模仿视频的第一帧图像和所述示范视频的第二帧图像;所述第一帧图像与第二帧图像相互之间一一对应;
根据所述第一帧图像对应的第一向量和所述第二帧图像对应的第二向量之间的向量距离,确定第一帧图像与第二帧图像之间的相似度值;
将所述相似度值小于预设相似度阈值的第一帧图像确定为目标对象操作错误的目标帧图像。
本申请实施例中的目标对象的交互装置可以是装置、电子设备、机器人,也可以是电子设备中的部件、集成电路或芯片。
在本申请实施例中,首先获取模块在判定目标对象适合进行交互操作的情况下,获取业务操作对应的第一指引话术数据、示范视频和预设的与目标对象对应的语音数据;然后经过输出模块提取所述语音数据的音色特征,根据所述音色特征和第一指引话术数据合成与所述第一指引话术数据对应的第二指引话术数据,以语音形式输出所述第二指引话术数据并播放所述示范视频;进而,交互模块在接收到用于表征目标对象操作失败的第一标识的情况下,根据所述示范视频和在所述示范视频播放过程中所采集的目标对象的模仿视频,确定目标对象操作错误的目标帧图像,重复播放所述目标帧图像直至满足预设条件,重新以语音形式输出所述第二指引话术数据并播放所述示范视频。这样,在目标对象适合进行交互操作时,根据第二指引话术数据和示范视频对目标对象进行交互训练,并且在目标对象操作失败的情况下,重复播放目标对象操作错误的目标帧图像,能够对目标对象进行更加有效的交互训练,帮助目标对象快速了解业务操作相关流程,缩短目标对象的交互训练周期,并且能够减少用户训练目标对象进行专业业务操作和亲自办理无风险业务的时间成本。
图5示出执行本申请实施例提供的计算机设备的硬件结构示意图,参考该图,在硬件层面,电子设备包括处理器,可选地,包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该计算机设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成定位目标用户的装置。处理器,执行存储器所存放的程序,并具体执行:图1至图3所示实施例揭示的方法并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
上述如本申请图1至图3所示实施例揭示的方法可以应处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该计算机设备还可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,所述计算机可读介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行图1至图3所示实施例揭示的方法并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
其中,所述的计算机可读存储介质包括只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,实现以下流程:图1-3所示实施例揭示的方法并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。
总之,以上所述仅为本申请的较佳实施例,并非限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (12)

1.一种目标对象的交互方法,其特征在于,包括:
在判定目标对象适合进行交互操作的情况下,获取业务操作对应的第一指引话术数据、示范视频和预设的与所述目标对象对应的语音数据;
提取所述语音数据的音色特征,根据所述音色特征和第一指引话术数据合成与所述第一指引话术数据对应的第二指引话术数据,以语音形式输出所述第二指引话术数据并播放所述示范视频;
在接收到用于表征所述目标对象操作失败的第一标识的情况下,根据所述示范视频和在所述示范视频播放过程中所采集的所述目标对象的模仿视频,确定目标对象操作错误的目标帧图像,重复播放所述目标帧图像直至满足预设条件,重新以语音形式输出所述第二指引话术数据并播放所述示范视频。
2.根据权利要求1所述的方法,其特征在于,所述判定目标对象适合进行交互操作,包括:
获取所述目标对象的历史行为视频,以及所述历史行为视频对应的目标语音数据;
提取所述历史行为视频中的多张帧图像,根据所述多张帧图像对应的目标对象的情绪特征,确定第一预测指数;将所述目标语音数据按照预设的语音切割条件分割成多个语音片段,根据所述多个语音片段的音频特征和历史行为视频,确定第二预测指数;所述第一预测指数用于表征目标对象情绪的稳定程度,所述第二预测指数用于表征目标对象反应的灵敏程度;
在所述第一预测指数和所述第二预测指数的和值低于预设阈值的情况下,判定所述目标对象适合进行交互操作。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多张帧图像对应的目标对象的情绪特征,确定第一预测指数,包括:
将所述多张帧图像输入至多个稳定度检测模型进行处理,输出与所述多个稳定度检测模型一一对应的多个稳定度预估值;不同的稳定度检测模型采用不同的稳定度检测规则对所述多张帧图像对应的情绪特征进行处理,得到稳定度预估值;
根据所述多个稳定度预估值和各稳定度检测模型对应的模型权重,确定所述第一预测指数。
4.根据权利要求2所述的方法,其特征在于,根据所述多个语音片段的音频特征和历史行为视频,确定第二预测指数,包括:
按照时间顺序对所述多个语音片段进行排序,得到语音序列;
提取所述语音序列中的目标语音片段;
根据所述目标语音片段,从所述历史行为视频中提取预设数量的目标行为图像;
根据所述目标行为图像中识别出预设动作的图像数量和目标语音片段对应的图像数量,确定所述第二预测指数。
5.根据权利要求2所述的方法,其特征在于,所述获取所述目标对象的历史行为视频,包括:
接收交互开启指令,输出预设的问候语音;
对所述目标对象回应的应答语音进行语义识别,在根据语义识别结果判定所述目标对象听到所述问候语音的情况下,向所述目标对象发起身份认证命令;
在所述身份认证命令对应的身份认证信息审核通过的情况下,确定所述目标对象对应的身份信息下的关联信息,所述关联信息包括目标对象对应的历史行为视频。
6.根据权利要求5所述的方法,其特征在于,所述对目标对象回应的应答语音进行语义识别,包括:
对所述应答语音的语音特征进行特征增强处理,得到目标语音文件;
根据预设的语音文件与语音含义之间的映射关系,确定所述目标语音文件对应的目标语音含义;
根据所述目标语音含义,确定所述应答语音对应的语义识别结果。
7.根据权利要求1所述的方法,其特征在于,所述获取业务操作对应的第一指引话术数据,包括:
获取所述业务操作对应的业务操作话术;
提取所述业务操作话术的目标语句,将重复预设次数的目标语句作为所述第一指引话术数据。
8.根据权利要求7所述的方法,其特征在于,所述提取所述业务操作话术的目标语句,包括:
根据预设的业务关键词词库,提取所述业务操作话术对应的关键词;
将所述业务操作话术进行分词处理,提取具有预设词性的分词;
将所述关键词和分词拼接成所述目标语句。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述根据所述示范视频和在所述示范视频播放过程中所采集的所述目标对象的模仿视频,确定目标对象操作错误的目标帧图像,包括:
对所述模仿视频和示范视频进行分帧处理,得到所述模仿视频的第一帧图像和所述示范视频的第二帧图像;所述第一帧图像与第二帧图像相互之间一一对应;
根据所述第一帧图像对应的第一向量和所述第二帧图像对应的第二向量之间的向量距离,确定第一帧图像与第二帧图像之间的相似度值;
将所述相似度值小于预设相似度阈值的第一帧图像确定为目标对象操作错误的目标帧图像。
10.一种目标对象的交互装置,其特征在于,包括:
获取模块,用于在判定目标对象适合进行交互操作的情况下,获取业务操作对应的第一指引话术数据、示范视频和预设的与所述目标对象对应的语音数据;
输出模块,用于提取所述语音数据的音色特征,根据所述音色特征和第一指引话术数据合成与所述第一指引话术数据对应的第二指引话术数据,以语音形式输出所述第二指引话术数据并播放所述示范视频;
交互模块,用于在接收到用于表征所述目标对象操作失败的第一标识的情况下,根据所述示范视频和在所述示范视频播放过程中所采集的所述目标对象的模仿视频,确定目标对象操作错误的目标帧图像,重复播放所述目标帧图像直至满足预设条件,重新以语音形式输出所述第二指引话术数据并播放所述示范视频。
11.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至9任一项所述的目标对象的交互方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至9任一项所述的目标对象的交互方法的步骤。
CN202310499959.3A 2023-05-05 2023-05-05 目标对象的交互方法、装置、设备及可读存储介质 Pending CN117496984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310499959.3A CN117496984A (zh) 2023-05-05 2023-05-05 目标对象的交互方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310499959.3A CN117496984A (zh) 2023-05-05 2023-05-05 目标对象的交互方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117496984A true CN117496984A (zh) 2024-02-02

Family

ID=89683566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310499959.3A Pending CN117496984A (zh) 2023-05-05 2023-05-05 目标对象的交互方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117496984A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117827013A (zh) * 2024-03-05 2024-04-05 青岛三诚众合智能设备科技有限公司 基于图像处理的生产技能智能学习方法及系统、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117827013A (zh) * 2024-03-05 2024-04-05 青岛三诚众合智能设备科技有限公司 基于图像处理的生产技能智能学习方法及系统、电子设备
CN117827013B (zh) * 2024-03-05 2024-05-14 青岛三诚众合智能设备科技有限公司 基于图像处理的生产技能智能学习方法及系统、电子设备

Similar Documents

Publication Publication Date Title
CN110148400B (zh) 发音类型的识别方法、模型的训练方法、装置及设备
US20180157960A1 (en) Scalable curation system
US10157619B2 (en) Method and device for searching according to speech based on artificial intelligence
CN108364650B (zh) 语音识别结果的调整装置及方法
CN109979450B (zh) 信息处理方法、装置及电子设备
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN114596845A (zh) 语音识别模型的训练方法、语音识别方法及装置
CN108710653B (zh) 一种绘本朗读点播方法、装置及系统
CN117496984A (zh) 目标对象的交互方法、装置、设备及可读存储介质
JP2021096847A (ja) ユーザの発言に基づくマルチメディア推奨
CN112908315B (zh) 一种基于声音特征和语音识别的问答意图判断方法
CN117520523B (zh) 数据处理方法、装置、设备及存储介质
CN114627868A (zh) 意图识别方法、装置、模型及电子设备
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN116739004B (zh) 一种意图识别方法、装置、设备及可读存储介质
CN116304046A (zh) 对话数据的处理方法、装置、存储介质及电子设备
CN116680368A (zh) 一种基于贝叶斯分类器的水利知识问答方法、设备及介质
CN112687296B (zh) 音频不流利的识别方法、装置、设备及可读存储介质
CN113792166B (zh) 信息获取方法、装置、电子设备及存储介质
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN115019295A (zh) 模型训练方法、文本行确定方法及装置
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
Basu et al. Commodity price retrieval system in bangla: An ivr based application
CN112738344A (zh) 一种识别用户身份的方法、装置、存储介质及电子设备
KR20200071996A (ko) 학습 단말기와 서버를 이용한 언어 학습 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination