CN113901189A - 一种数字人交互方法、装置、电子设备及存储介质 - Google Patents

一种数字人交互方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113901189A
CN113901189A CN202111212293.6A CN202111212293A CN113901189A CN 113901189 A CN113901189 A CN 113901189A CN 202111212293 A CN202111212293 A CN 202111212293A CN 113901189 A CN113901189 A CN 113901189A
Authority
CN
China
Prior art keywords
answer
question
information
type
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111212293.6A
Other languages
English (en)
Inventor
刘致远
穆少垒
田升
刘云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN202111212293.6A priority Critical patent/CN113901189A/zh
Publication of CN113901189A publication Critical patent/CN113901189A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数字人交互方法、装置、电子设备及存储介质,该方法包括:获取用户输入的问题信息,所述问题信息根据所述用户的问题生成;基于所述问题信息生成答案音频信息,所述答案音频信息包含对所述用户的问题的答案;基于所述答案音频信息生成数字人无声视频信息,所述数字人无声视频信息包含数字人的动作画面;将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息;返回所述数字人答案视频信息。本发明实施例能够根据用户输入的问题信息自动生成数字人答案视频信息,使得用户在得到问题答案的同时,能够有数字人与其进行更为友好的音视频互动,提高用户体验。

Description

一种数字人交互方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数字人交互方法、装置、电子设备及存储介质。
背景技术
智能问答系统以一问一答形式,精确的定位网站用户所需要的提问知识,通过与网站用户进行交互,为网站用户提供个性化的信息服务。
然而,目前的智能问答系统只提供语音信息指导和帮助用户,表现形式单一,用户不能直观地看到客服形象,用户体验大打折扣。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种数字人交互方法、装置、电子设备及存储介质。
第一方面,本申请提供了一种数字人交互方法,包括:
获取用户输入的问题信息,所述问题信息根据所述用户的问题生成;
基于所述问题信息生成答案音频信息,所述答案音频信息包含对所述用户的问题的答案;
基于所述答案音频信息生成数字人无声视频信息,所述数字人无声视频信息包含数字人的动作画面;
将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息;
返回所述数字人答案视频信息。
可选地,基于所述问题信息生成答案音频信息,包括:
基于所述问题信息生成答案文本内容;
将所述答案文本内容转换为语音,得到所述答案音频信息。
可选地,基于所述问题信息生成答案文本内容,包括:
在所述问题信息中提取关键词;
基于所述关键词确定所述问题的问题类型、所述问题所要完成的任务的任务类型及与所述问题对应的答案来源于的知识库类型;
根据所述问题类型、任务类型及所述知识库类型生成与所述问题信息对应的所述答案文本内容。
可选地,根据所述问题类型、任务类型及所述知识库类型生成与所述问题信息对应的所述答案文本内容,包括:
若所述知识库类型为预设推荐型知识库,调用预设的推荐型对话系统,以使所述推荐型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述问题类型为封闭型且所述任务类型为目的型,调用任务型对话系统,以使所述任务型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述问题类型为开放型且所述任务类型为目的型,调用知识问答型对话系统,以使所述知识问答型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述知识库类型不为预设推荐型知识库,所述问题类型不为封闭型或者开放型,且,所述任务类型不为目的型,调用闲聊型对话系统,以使所述闲聊型对话系统生成与所述问题信息对应的所述答案文本内容。
可选地,基于所述答案音频信息生成数字人无声视频信息,包括:
对所述答案音频信息按照预设采样率进行采样,得到多个音频帧;
将每个所述音频帧分别输入预设的数字人生成模型中,生成与所述音频帧对应的数字人图像;
按照多个音频帧的先后顺序将多个与所述音频帧对应的数字人图像进行排序,得到所述数字人无声视频信息。
可选地,将每个所述音频帧分别输入预设的数字人生成模型中,生成与所述音频帧对应的数字人图像,包括:
针对每个所述音频帧,将所述音频帧输入所述数字人生成模型中的表情推理子模型中,得到人脸推理图像;
将所述音频帧输入所述数字人生成模型中的肢体推理子模型中,得到肢体推理图像;
将所述人脸推理图像和所述肢体推理图像组合,得到与所述音频帧对应的数字人图像。
可选地,在返回所述数字人答案视频信息之前,所述方法还包括:
对所述答案视频信息进行渲染,得到渲染后的答案视频信息;
获取基于所述问题信息生成答案文本内容,根据所述答案文本内容生成与所述答案视频信息对应的字幕信息,返回所述字幕信息。
第二方面,本申请提供了一种数字人交互装置,包括:
第一获取模块,用于获取用户输入的问题信息,所述问题信息根据所述用户的问题生成;
第一生成模块,用于基于所述问题信息生成答案音频信息,所述答案音频信息包含对所述用户的问题的答案;
第二生成模块,用于基于所述答案音频信息生成数字人无声视频信息,所述数字人无声视频信息包含数字人的动作画面;
合并模块,用于将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息;
返回模块,用于返回所述数字人答案视频信息。
可选地,所述第一生成模块包括:
生成单元,用于基于所述问题信息生成答案文本内容;
转换单元,用于将所述答案文本内容转换为语音,得到所述答案音频信息。
可选地,所述第一生成单元包括:
提取子单元,用于在所述问题信息中提取关键词;
确定子单元,用于基于所述关键词确定所述问题的问题类型、所述问题所要完成的任务的任务类型及与所述问题对应的答案来源于的知识库类型;
生成子单元,用于根据所述问题类型、任务类型及所述知识库类型生成与所述问题信息对应的所述答案文本内容。
可选地,所述生成子单元还用于:
若所述知识库类型为预设推荐型知识库,调用预设的推荐型对话系统,以使所述推荐型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述问题类型为封闭型且所述任务类型为目的型,调用任务型对话系统,以使所述任务型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述问题类型为开放型且所述任务类型为目的型,调用知识问答型对话系统,以使所述知识问答型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述知识库类型不为预设推荐型知识库,所述问题类型不为封闭型或者开放型,且,所述任务类型不为目的型,调用闲聊型对话系统,以使所述闲聊型对话系统生成与所述问题信息对应的所述答案文本内容。
可选地,所述第二生成模块包括:
采样单元,用于对所述答案音频信息按照预设采样率进行采样,得到多个音频帧;
输入单元,用于将每个所述音频帧分别输入预设的数字人生成模型中,生成与所述音频帧对应的数字人图像;
排序单元,用于按照多个音频帧的先后顺序将多个与所述音频帧对应的数字人图像进行排序,得到所述数字人无声视频信息。
可选地,所述输入单元包括:
第一输入子单元,用于针对每个所述音频帧,将所述音频帧输入所述数字人生成模型中的表情推理子模型中,得到人脸推理图像;
第二输入子单元,用于将所述音频帧输入所述数字人生成模型中的肢体推理子模型中,得到肢体推理图像;
组合子单元,用于将所述人脸推理图像和所述肢体推理图像组合,得到与所述音频帧对应的数字人图像。
可选地,在返回模块之前,所述装置还包括:
渲染模块,用于对所述答案视频信息进行渲染,得到渲染后的答案视频信息;
第二获取模块,用于获取基于所述问题信息生成答案文本内容,根据所述答案文本内容生成与所述答案视频信息对应的字幕信息,返回所述字幕信息。
第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的数字人交互方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有数字人交互方法的程序,所述数字人交互方法的程序被处理器执行时实现第一方面任一所述的数字人交互方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例通过首先获取用户输入的问题信息,然后基于所述问题信息生成答案音频信息,再基于所述答案音频信息生成数字人无声视频信息,再将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息,最后可以返回所述数字人答案视频信息。本发明实施例能够根据用户输入的问题信息自动生成数字人答案视频信息,使得用户在得到问题答案的同时,能够有数字人与其进行更为友好的音视频互动,提高用户体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数字人交互方法的流程图;
图2为本申请实施例提供的一种数字人交互装置的结构图;
图3为本申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于目前的智能问答系统只提供语音信息指导和帮助用户,表现形式单一,用户不能直观地看到客服形象,用户体验大打折扣,为此,本申请实施例提供了一种数字人交互方法、装置、电子设备及存储介质,所述数字人交互方法可以应用于服务器中,服务器可以与客户端交互。
如图1所示,数字人交互方法可以包括以下步骤:
步骤S101,获取用户输入的问题信息。
本发明实施例中,所述问题信息根据所述用户的问题生成,用户可以通过客户端输入问题,可以通过语音输入、文字输入或者选择已有问题等方式输入问题,客户端在接收到用户输入的问题时,可以将问题音频或者问题文本发送至服务器,在服务器获取到客户端发送的问题音频时,服务器将问题音频转化为文字,在服务器获取到客户端发送的问题文本时,直接执行步骤S102。
步骤S102,基于所述问题信息生成答案音频信息。
本发明实施例中,所述答案音频信息包含对所述用户的问题的答案。
在该步骤中,可以根据问题信息生成答案文本内容,进而,可以根据答案文本内容生成答案音频信息。
步骤S103,基于所述答案音频信息生成数字人无声视频信息。
本发明实施例中,所述数字人无声视频信息包含数字人的动作画面;本发明实施例的服务器中可以预先设置数字人生成模型,该数字人生成模型是预先经过训练的神经网络模型,预先可以利用多组答案音频与数字人图像训练数字人生成模型,将答案音频输入数字人生成模型后,数字人生成模型可以预测相应的数字人图像,直至预测的数字人图像与该答案音频对应的数字人图像相似度超过预设阈值,则可以确定数字人生成模型的训练完成,训练完成的数字人生成模型,可以在输入任一答案音频信息后,预测出准确的数字人图像。
在该步骤中,可以将答案音频信息输入预先训练完毕的数字人生成模型,数字人生成模型输出预测的数字人图像,再将数字人图像按照先后顺序排列生成数字人无声视频信息。
步骤S104,将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息;
在该步骤中,可以将音频形式的答案音频信息与连续画面形式的数字人无声视频信息进行合成,得到数字人答案视频信息,该数字人答案视频信息中同时包含关于答案的音频及画面。
步骤S105,返回所述数字人答案视频信息。
在该步骤中,可以将合并得到的数字人答案视频信息返回给客户端,示例性的,可以利用UDP协议传输至客户端,以便于客户端播放该数字人答案视频信息。
本发明实施例通过首先获取用户输入的问题信息,然后基于所述问题信息生成答案音频信息,再基于所述答案音频信息生成数字人无声视频信息,再将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息,最后可以返回所述数字人答案视频信息。本发明实施例能够根据用户输入的问题信息自动生成数字人答案视频信息,使得用户在得到问题答案的同时,能够有数字人与其进行更为友好的音视频互动,提高用户体验。
在本发明的又一实施例中,步骤S102基于所述问题信息生成答案音频信息,包括:
步骤201,基于所述问题信息生成答案文本内容;
本发明实施例的服务器中可以设置自然语言处理(NLP)模块,NLP可以包括自然语言理解(NLU)和自然语言生成(NLG)两部分,NLU用于理解文本内容而NLG用于根据信息生成文本内容,该信息可以是语音、视频、图像、文字等等。
该步骤中,服务器可以利用NLU对问题信息进行文本内容的理解,然后利用NLG根据理解到的信息生成答案文本内容。
步骤202,将所述答案文本内容转换为语音,得到所述答案音频信息。
在该步骤中,可以将答案文本内容中的文字逐个转换为语音,也可以将答案文本内容输入预设的声音推理模型,利用声音推理模型基于答案文本内容进行推理,得到答案音频信息。
本发明实施例中的声音推理模型可以为预先训练的神经网络模型,可以利用多个文字及其对应的音频训练该声音推理模型,训练完毕的声音推理模型能够在输入文字时,自动预测出与该文字对应的音频,再将答案文本内容中各文字对应的音频按照文字的先后顺序排列合成后,即可得到答案音频信息。
本发明实施例能够自动根据问题信息生成答案音频信息,可以便于后续基于该答案音频信息生成数字人无声视频等,便于实现更友好的用户交互。
在本发明的又一实施例中,步骤201基于所述问题信息生成答案文本内容,包括:
步骤301,在所述问题信息中提取关键词;
在本发明实施例中,可以将问题信息进行分词,得到多个关键词,然后在多个关键词中提取符合预设条件的关键词。
本发明实施例中符合预设条件的关键词可以至与预设关键词匹配的关键词,预设关键词示例性的,可以包括:如何、怎么、系统具备的功能的名称关键词、天气、聊天、谢谢、再见等等。
步骤302,基于所述关键词确定所述问题的问题类型、所述问题所要完成的任务的任务类型及与所述问题对应的答案来源于的知识库类型;
本发明实施例中,可以预先设置多个问题类型,任务的任务类型及答案来源于的知识库类型。问题类型可以包括开放性和封闭性等,开放性的问题可能具备多种答案,封闭性的问题具备唯一答案;任务类型可以包括陪伴型和目的型等,陪伴型的任务类型指能够给用户带来陪伴式互动的问答方式,目的型的任务类型指能够帮助完成用户所要实现的目的的问答方式;知识库类型可以包括知识库型和推荐型知识库等,知识库型可以包括预先设置的多个问题及其对应的答案,问题及答案可以是一对一的关系,推荐型知识库可以包括预先设置的多个问题及其对应的答案,问题及答案可以是多对一的关系,也可以是一对多的关系。
本发明实施例可以预先设置多组关键词与问题类型、任务类型或者知识库类型之间的对应关系,这样,即可根据关键词,在对应关系中查找对应问题类型、任务类型及知识库类型。
步骤304,根据所述问题类型、任务类型及所述知识库类型生成与所述问题信息对应的所述答案文本内容。
在该步骤中,若所述知识库类型为预设推荐型知识库,调用预设的推荐型对话系统,以使所述推荐型对话系统生成与所述问题信息对应的所述答案文本内容;也就是说,若根据关键词确定的知识库类型为预设推荐型知识库,无论问题类型和任务类型是何种类型,均调用预设的推荐型对话系统,以使所述推荐型对话系统生成与所述问题信息对应的所述答案文本内容。本发明实施例中,推荐型对话系统中的NLG就是根据用户的爱好来进行兴趣匹配以及候选推荐内容排序,然后生成给用户推荐的内容。
或者,若所述问题类型为封闭型且所述任务类型为目的型,调用任务型对话系统,以使所述任务型对话系统生成与所述问题信息对应的所述答案文本内容;也就是说,若根据关键词确定的问题类型为封闭型且任务类型为目的型,则无论知识库类型为何种,均调用任务型对话系统,以使所述任务型对话系统生成与所述问题信息对应的所述答案文本内容。本发明实施例中,任务型对话中的NLG就是在NLU(领域分类和意图识别、槽填充)、对话状态追踪DST、对话策略学习DPL的基础上,根据学习到的策略来生成对话回复,一般回复包括,澄清需求、引导用户、询问、确认、对话结束语等。
或者,若所述问题类型为开放型且所述任务类型为目的型,调用知识问答型对话系统,以使所述知识问答型对话系统生成与所述问题信息对应的所述答案文本内容;也就是说,若根据关键词确定的问题类型为开放型且任务类型为目的型,则无论知识库类型为何种,均调用知识问答型对话系统,以使所述知识问答型对话系统生成与所述问题信息对应的所述答案文本内容。本发明实施例中,知识问答型对话的NLG就是根据问句类型识别与分类、信息检索或文本匹配二生成用户需要的知识(知识、实体、片段等),这类回复相比单纯的信息检索一般用户体验会更好,因为一般信息检索还需要用户根据搜索结果自己找所需信息。
或者,若所述知识库类型不为预设推荐型知识库,所述问题类型不为封闭型或者开放型,且,所述任务类型不为目的型,调用闲聊型对话系统,以使所述闲聊型对话系统生成与所述问题信息对应的所述答案文本内容。也就是说,若根据关键词确定的知识库类型不为预设推荐型知识库,问题类型不为封闭型或者开放型,且,任务类型不为目的型,则调用闲聊型对话系统,以使所述闲聊型对话系统生成与所述问题信息对应的所述答案文本内容。本发明实施例中,闲聊型对话中的NLG就是根据上下文进行意图识别、情感分析等,然后生成开放性回复。
本发明实施例能够根据不同的预设关键词,确定相应的问题类型、任务类型以及知识库类型,进而可以利用不同类型的对话系统生成答案文本内容,便于得到针对问题的准确答案,便于用户获得更准确的答案。
在本发明的又一实施例中,步骤S103基于所述答案音频信息生成数字人无声视频信息,包括:
步骤401,对所述答案音频信息按照预设采样率进行采样,得到多个音频帧;
在该步骤中,可以按照预设采样率对答案音频信息进行采样,得到多个音频帧,多个音频帧可以分别按照在答案音频信息中的先后顺序设置序号,以便于后续按照音频帧的先后顺序对数字人图像进行排序。
步骤402,将每个所述音频帧分别输入预设的数字人生成模型中,生成与所述音频帧对应的数字人图像;
数字人生成可以针对每个音频帧预测与该音频帧对应的数字人图像。
步骤403,按照多个音频帧的先后顺序将多个与所述音频帧对应的数字人图像进行排序,得到所述数字人无声视频信息。
在该步骤中,可以按照音频帧的序号对多个数字人图像进行排序,得到数字人无声视频信息。
本发明实施例能够自动根据答案音频信息生成数字人无声视频信息,便于实现利用数字人的形象与用户互动,提高用户交互体验。
在本发明的又一实施例中,步骤402将每个所述音频帧分别输入预设的数字人生成模型中,生成与所述音频帧对应的数字人图像,包括:
步骤501,针对每个所述音频帧,将所述音频帧输入所述数字人生成模型中的表情推理子模型中,得到人脸推理图像;
本发明实施例中,数字人生成模型中可以包括表情推理子模型,表情推理子模型可以用于基于音频帧预测数字人的表情,在向表情推理子模型输入音频帧时,表情推理子模型可以输出对数字人的人脸表情的预测结果,如:微笑、大笑、悲伤等等,得到人脸推理图像。
步骤502,将所述音频帧输入所述数字人生成模型中的肢体推理子模型中,得到肢体推理图像;
本发明实施例中,数字人生成模型中可以还包括肢体推理子模型,肢体推理子模型可以用于基于音频帧预测数字人的肢体动作,在向肢体推理子模型输入音频帧时,肢体推理子模型可以输出对数字人的肢体动作的预测结果,如:手指比出耶的手势,手指比出OK的手势等等,得到肢体推理图像。
步骤503,将所述人脸推理图像和所述肢体推理图像组合,得到与所述音频帧对应的数字人图像。
在该步骤中,可以将人脸推理图像导入数字人的脸部区域,将肢体推理图像导入数字人相应的肢体区域,得到与音频帧对应的数字人图像。
本发明实施例通过分别预测数字人的人脸推理图像和肢体推理图像,使得生成的数字人图像更加人性化,互动性更强。
在本发明的又一实施例中,在步骤S105返回所述数字人答案视频信息之前,所述方法还包括:
步骤601,对所述答案视频信息进行渲染,得到渲染后的答案视频信息;
在该步骤中,可以在服务器中对答案视频信息进行可视化渲染,使得渲染后的答案视频信息可直接播放。
步骤602,获取基于所述问题信息生成答案文本内容,根据所述答案文本内容生成与所述答案视频信息对应的字幕信息,返回所述字幕信息。
在该步骤中,可以将答案文本内容的文字按照预设的字幕格式,生成字幕信息,并利用TCP协议向客户端返回字幕信息,便于用户在观看答案视频信息的时候能够观看字幕信息,便于环境声音嘈杂的场景及听力障碍的人群使用。
在本发明的又一实施例中,还提供一种数字人交互装置,如图2所示,包括:
第一获取模块11,用于获取用户输入的问题信息,所述问题信息根据所述用户的问题生成;
第一生成模块12,用于基于所述问题信息生成答案音频信息,所述答案音频信息包含对所述用户的问题的答案;
第二生成模块13,用于基于所述答案音频信息生成数字人无声视频信息,所述数字人无声视频信息包含数字人的动作画面;
合并模块14,用于将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息;
返回模块15,用于返回所述数字人答案视频信息。
可选地,所述第一生成模块包括:
生成单元,用于基于所述问题信息生成答案文本内容;
转换单元,用于将所述答案文本内容转换为语音,得到所述答案音频信息。
可选地,所述第一生成单元包括:
提取子单元,用于在所述问题信息中提取关键词;
确定子单元,用于基于所述关键词确定所述问题的问题类型、所述问题所要完成的任务的任务类型及与所述问题对应的答案来源于的知识库类型;
生成子单元,用于根据所述问题类型、任务类型及所述知识库类型生成与所述问题信息对应的所述答案文本内容。
可选地,所述生成子单元还用于:
若所述知识库类型为预设推荐型知识库,调用预设的推荐型对话系统,以使所述推荐型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述问题类型为封闭型且所述任务类型为目的型,调用任务型对话系统,以使所述任务型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述问题类型为开放型且所述任务类型为目的型,调用知识问答型对话系统,以使所述知识问答型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述知识库类型不为预设推荐型知识库,所述问题类型不为封闭型或者开放型,且,所述任务类型不为目的型,调用闲聊型对话系统,以使所述闲聊型对话系统生成与所述问题信息对应的所述答案文本内容。
可选地,所述第二生成模块包括:
采样单元,用于对所述答案音频信息按照预设采样率进行采样,得到多个音频帧;
输入单元,用于将每个所述音频帧分别输入预设的数字人生成模型中,生成与所述音频帧对应的数字人图像;
排序单元,用于按照多个音频帧的先后顺序将多个与所述音频帧对应的数字人图像进行排序,得到所述数字人无声视频信息。
可选地,所述输入单元包括:
第一输入子单元,用于针对每个所述音频帧,将所述音频帧输入所述数字人生成模型中的表情推理子模型中,得到人脸推理图像;
第二输入子单元,用于将所述音频帧输入所述数字人生成模型中的肢体推理子模型中,得到肢体推理图像;
组合子单元,用于将所述人脸推理图像和所述肢体推理图像组合,得到与所述音频帧对应的数字人图像。
可选地,在返回模块之前,所述装置还包括:
渲染模块,用于对所述答案视频信息进行渲染,得到渲染后的答案视频信息;
第二获取模块,用于获取基于所述问题信息生成答案文本内容,根据所述答案文本内容生成与所述答案视频信息对应的字幕信息,返回所述字幕信息。
在本发明的又一实施例中,还提供一种电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器,用于执行存储器1130上所存放的所述计算机程序时,实现前述任一方法实施例所述的数字人交互方法。
本发明实施例提供的电子设备,处理器通过执行存储器上所存放的程序实现了首先获取用户输入的问题信息,然后基于所述问题信息生成答案音频信息,再基于所述答案音频信息生成数字人无声视频信息,再将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息,最后可以返回所述数字人答案视频信息。本发明实施例能够根据用户输入的问题信息自动生成数字人答案视频信息,使得用户在得到问题答案的同时,能够有数字人与其进行更为友好的音视频互动,提高用户体验。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明的又一实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数字人交互方法的程序,所述数字人交互方法的程序被处理器执行时实现前述任一方法实施例所述的数字人交互方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数字人交互方法,其特征在于,包括:
获取用户输入的问题信息,所述问题信息根据所述用户的问题生成;
基于所述问题信息生成答案音频信息,所述答案音频信息包含对所述用户的问题的答案;
基于所述答案音频信息生成数字人无声视频信息,所述数字人无声视频信息包含数字人的动作画面;
将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息;
返回所述数字人答案视频信息。
2.根据权利要求1所述的数字人交互方法,其特征在于,基于所述问题信息生成答案音频信息,包括:
基于所述问题信息生成答案文本内容;
将所述答案文本内容转换为语音,得到所述答案音频信息。
3.根据权利要求2所述的数字人交互方法,其特征在于,基于所述问题信息生成答案文本内容,包括:
在所述问题信息中提取关键词;
基于所述关键词确定所述问题的问题类型、所述问题所要完成的任务的任务类型及与所述问题对应的答案来源于的知识库类型;
根据所述问题类型、所述任务类型及所述知识库类型生成与所述问题信息对应的所述答案文本内容。
4.根据权利要求3所述的数字人交互方法,其特征在于,根据所述问题类型、所述任务类型及所述知识库类型生成与所述问题信息对应的所述答案文本内容,包括:
若所述知识库类型为预设推荐型知识库,调用预设的推荐型对话系统,以使所述推荐型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述问题类型为封闭型且所述任务类型为目的型,调用任务型对话系统,以使所述任务型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述问题类型为开放型且所述任务类型为目的型,调用知识问答型对话系统,以使所述知识问答型对话系统生成与所述问题信息对应的所述答案文本内容;
或者,若所述知识库类型不为预设推荐型知识库,所述问题类型不为封闭型或者开放型,且,所述任务类型不为目的型,调用闲聊型对话系统,以使所述闲聊型对话系统生成与所述问题信息对应的所述答案文本内容。
5.根据权利要求1所述的数字人交互方法,其特征在于,基于所述答案音频信息生成数字人无声视频信息,包括:
对所述答案音频信息按照预设采样率进行采样,得到多个音频帧;
将每个所述音频帧分别输入预设的数字人生成模型中,生成与所述音频帧对应的数字人图像;
按照多个音频帧的先后顺序将多个与所述音频帧对应的数字人图像进行排序,得到所述数字人无声视频信息。
6.根据权利要求1所述的数字人交互方法,其特征在于,将每个所述音频帧分别输入预设的数字人生成模型中,生成与所述音频帧对应的数字人图像,包括:
针对每个所述音频帧,将所述音频帧输入所述数字人生成模型中的表情推理子模型中,得到人脸推理图像;
将所述音频帧输入所述数字人生成模型中的肢体推理子模型中,得到肢体推理图像;
将所述人脸推理图像和所述肢体推理图像组合,得到与所述音频帧对应的数字人图像。
7.根据权利要求1所述的数字人交互方法,其特征在于,在返回所述数字人答案视频信息之前,所述方法还包括:
对所述答案视频信息进行渲染,得到渲染后的答案视频信息;
获取基于所述问题信息生成答案文本内容,根据所述答案文本内容生成与所述答案视频信息对应的字幕信息,返回所述字幕信息。
8.一种数字人交互装置,其特征在于,包括:
第一获取模块,用于获取用户输入的问题信息,所述问题信息根据所述用户的问题生成;
第一生成模块,用于基于所述问题信息生成答案音频信息,所述答案音频信息包含对所述用户的问题的答案;
第二生成模块,用于基于所述答案音频信息生成数字人无声视频信息,所述数字人无声视频信息包含数字人的动作画面;
合并模块,用于将所述答案音频信息和所述数字人无声视频信息合并,得到数字人答案视频信息;
返回模块,用于返回所述数字人答案视频信息。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~7任一所述的数字人交互方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数字人交互方法的程序,所述数字人交互方法的程序被处理器执行时实现权利要求1-7任一所述的数字人交互方法的步骤。
CN202111212293.6A 2021-10-18 2021-10-18 一种数字人交互方法、装置、电子设备及存储介质 Pending CN113901189A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111212293.6A CN113901189A (zh) 2021-10-18 2021-10-18 一种数字人交互方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111212293.6A CN113901189A (zh) 2021-10-18 2021-10-18 一种数字人交互方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113901189A true CN113901189A (zh) 2022-01-07

Family

ID=79192552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111212293.6A Pending CN113901189A (zh) 2021-10-18 2021-10-18 一种数字人交互方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113901189A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741561A (zh) * 2022-02-28 2022-07-12 商汤国际私人有限公司 动作生成方法、装置、电子设备及存储介质
CN114760425A (zh) * 2022-03-21 2022-07-15 京东科技信息技术有限公司 数字人生成方法、装置、计算机设备和存储介质
CN116708905A (zh) * 2023-08-07 2023-09-05 海马云(天津)信息技术有限公司 在电视盒子上实现数字人交互的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741561A (zh) * 2022-02-28 2022-07-12 商汤国际私人有限公司 动作生成方法、装置、电子设备及存储介质
CN114760425A (zh) * 2022-03-21 2022-07-15 京东科技信息技术有限公司 数字人生成方法、装置、计算机设备和存储介质
CN116708905A (zh) * 2023-08-07 2023-09-05 海马云(天津)信息技术有限公司 在电视盒子上实现数字人交互的方法和装置

Similar Documents

Publication Publication Date Title
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
US11551804B2 (en) Assisting psychological cure in automated chatting
CN109800306B (zh) 意图分析方法、装置、显示终端及计算机可读存储介质
CN113901189A (zh) 一种数字人交互方法、装置、电子设备及存储介质
WO2022161298A1 (zh) 信息生成方法、装置、设备、存储介质及程序产品
CN114401438B (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN113067953A (zh) 客户服务方法、系统、装置、服务器及存储介质
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
CN112399269A (zh) 视频分割方法、装置、设备及存储介质
CN112199486A (zh) 一种办公场景的任务型多轮对话方法及系统
CN114974253A (zh) 一种基于人物画像的自然语言解释方法、装置及存储介质
CN108538292B (zh) 一种语音识别方法、装置、设备及可读存储介质
CN113903338A (zh) 面签方法、装置、电子设备和存储介质
WO2021159734A1 (zh) 一种数据处理方法、装置、设备及介质
CN115221306B (zh) 自动应答评价方法及装置
CN116884282A (zh) 题目解答方法、装置、电子设备和存储介质
CN111310847B (zh) 训练要素分类模型的方法和装置
CN114239545A (zh) 自然语言生成方法、装置、设备、介质及产品
CN112667787A (zh) 基于话术标签的智能应答方法、系统及存储介质
CN113763925A (zh) 语音识别方法、装置、计算机设备及存储介质
CN117059082B (zh) 基于大模型的外呼通话方法、装置、介质和计算机设备
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
JP7426919B2 (ja) 画像から因果関係語を推定するプログラム、装置及び方法
Mehta et al. Evolution in Automated Translator for Real Time Voice to Sign Language Transformation for the Deaf and Dumb People

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination