CN109817221B

CN109817221B - 多人视频方法、装置、设备及存储介质

Info

Publication number: CN109817221B
Application number: CN201811601902.5A
Authority: CN
Inventors: 张冉
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-01-01
Anticipated expiration: 2038-12-26
Also published as: CN109817221A

Abstract

本公开提供了一种多人视频方法，包括：生成用户的声纹；生成用户的人像模型；为用户配置身份识别号码；通过身份识别号码，匹配用户的声纹和人像模型；通过获取说话人的声音识别说话人的声纹，调取说话人的声纹对应的身份识别号码，基于说话人的身份识别号码，调取说话人的人像模型；以及实时的合成说话人的声音和人像模型。本公开还提供了一种多人视频装置、电子设备及可读存储介质。

Description

多人视频方法、装置、设备及存储介质

技术领域

本公开涉及一种多人视频方法、多人视频装置、电子设备及可读存储介质。

背景技术

视频是远程解决问题和交流感情最重要直观的方式。但现实中很多场景下，由于网速或没有摄像头等原因，无法实现视频交流。

现有技术中的视频方法或系统需要用户在摄像头范围内，不能在无摄像头情况下工作，网速要快，在有网速且有摄像头的情况下，用户也必须盯着屏幕，无法同时处理其他事情或者离开摄像头范围。

声纹是携带言语信息的声波频谱。声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种多人视频方法、多人视频装置、电子设备及可读存储介质。

根据本公开的一个方面，一种多人视频方法，包括：生成用户的声纹；生成用户的人像模型；为用户配置身份识别号码；通过身份识别号码，匹配用户的声纹和人像模型；通过获取说话人的声音识别说话人的声纹，调取说话人的声纹对应的身份识别号码，基于说话人的身份识别号码，调取说话人的人像模型；以及实时的合成说话人的声音和人像模型。

根据本公开的至少一个实施方式，生成用户的声纹包括：录入用户的多个声音，并对多个声音进行训练，生成用户的声纹。

根据本公开的至少一个实施方式，生成用户的人像模型包括：录入用户的多个照片和/或视频，提取每个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征，基于多个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征，生成用户的人像模型。

根据本公开的至少一个实施方式，如果多人说话或者对话，基于各个说话人的声音识别各个说话人的声纹，基于各个说话人的声纹获取各个说话人的身份识别号码，基于各个说话人的身份识别号码，调取各个说话人的人像模型。

根据本公开的至少一个实施方式，还包括：如果多人说话或者对话，基于各个说话人的声音识别各个说话人的声纹，基于各个说话人的声纹识别各个说话人的性别，基于各个说话人的性别将说话人分为两组，对于每组说话人，基于各个说话人的声纹获取各个说话人的身份识别号码，基于各个说话人的身份识别号码，调取各个说话人的人像模型。

根据本公开的至少一个实施方式，用户的声纹和/或用户的人像模型存储在终端和/或云端。

根据本公开的至少一个实施方式，合成的说话人的声音和人像模型配置在虚拟场景中。

根据本公开的另一方面，一种多人视频装置，包括：声纹生成模块，声纹生成模块生成用户的声纹；人像模型生成模块，人像模型生成模块生成用户的人像模型；身份识别号码配置模块，身份识别号码配置模块为用户配置身份识别号码；视频模块，视频模块通过获取说话人的声音识别说话人的声纹，调取说话人的声纹对应的身份识别号码，基于说话人的身份识别号码，调取说话人的人像模型；以及实时的合成说话人的声音和人像模型。

根据本公开的又一方面，一种电子设备，包括：存储器，存储器存储计算机执行指令；以及处理器，处理器执行存储器存储的计算机执行指令，使得处理器执行上述的方法。

根据本公开的再一方面，一种可读存储介质，可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是根据本公开一个实施方式的多人视频方法的示意性流程图。

图2是根据本公开一个实施方式的多人视频方法的示意性流程图。

图3是根据本公开一个实施方式的多人视频方法的生成用户的声纹的示意性流程图。

图4是根据本公开一个实施方式的多人视频方法的生成用户的人像模型的示意性流程图。

图5是根据本公开一个实施方式的多人视频方法的对多个说话人进行分离的示意性流程图。

图6是根据本公开一个实施方式的多人视频方法的对多个说话人进行分离的示意性流程图。

图7是根据本公开一个实施方式的多人视频装置的示意性框图。

图8是根据本公开一个实施方式的具有多人视频装置的多人视频系统的示意性框图。

图9是根据本公开一个实施方式的电子设备的示意性视图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。

本公开提供了一种多人视频方法，如图1和图2所示，多人视频方法包括步骤S11、S12、S13、S14、S15、S16、S17和S18。多人视频方法包括：生成用户的声纹S11；生成用户的人像模型S12；为用户配置身份识别号码S13；通过身份识别号码，匹配用户的声纹和人像模型S14；获取说话人的声音识别说话人的声纹S15，调取说话人的声纹对应的身份识别号码S16，基于说话人的身份识别号码，调取说话人的人像模型S17；以及实时的合成说话人的声音和人像模型18。

在本公开的一个实施方式中，如图3所示，生成用户的声纹包括以下步骤：录入用户的多个声音S31，对多个声音进行训练S32，生成用户的声纹S33。其中，对多个声音进行训练可以是本领域常规的训练方法。

在本公开的一个实施方式中，如图4所示，生成用户的人像模型包括以下步骤：录入用户的多个照片和/或视频S41，提取每个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征S42，基于每个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征生成用户的人像模型S43。其中，可以单独使用用户的照片中的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征生成用户的人像模型，也可以单独使用用户的视频中的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征生成用户的人像模型，还可以同时使用用户的照片和视频中的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征生成用户的人像模型。

在本公开的一个实施方式中，如图5所示，如果多人说话或者对话，需要进行说话人分离，包括以下步骤：基于各个说话人的声音识别各个说话人的声纹S51，基于各个说话人的声纹获取各个说话人的身份识别号码S52，基于各个说话人的身份识别号码，调取各个说话人的人像模型S53。

在本公开的一个实施方式中，用户的声纹和/或用户的人像模型存储在终端和/或云端。

在本公开的一个实施方式，合成的说话人的声音和人像模型配置在虚拟场景中。

在本公开的一个实施方式中，如图6所示，如果多人说话或者对话，需要进行说话人分离，包括以下步骤：基于各个说话人的声音识别各个说话人的声纹S61，基于各个说话人的声纹识别各个说话人的性别S62，基于各个说话人的性别将说话人分为两组S63，对于每组说话人，基于各个说话人的声纹获取各个说话人的身份识别号码S64，基于各个说话人的身份识别号码，调取各个说话人的人像模型S65。

本公开还提供了多人视频装置，图7示出了多人视频装置10的一个示意性结构框图，多人视频装置10包括声纹生成模块、人像模型生成模块、身份识别号码配置模块和视频模块，其中，声纹生成模块生成用户的声纹；人像模型生成模块生成用户的人像模型；身份识别号码配置模块为用户配置身份识别号码；视频模块通过获取说话人的声音识别说话人的声纹，调取说话人的声纹对应的身份识别号码，基于说话人的身份识别号码，调取说话人的人像模型，以及实时的合成说话人的声音和人像模型。

在本公开的一个实施方式中，多人视频装置10配置在多人视频系统100中，如图8所示，多人视频系统100还具有声音采集装置20和视频呈现装置30。声音采集装置20用于实时采集说话人的声音，将说话人的声音传输给视频模块，以供视频模块获取说话人的声音，视频模块基于声纹生成模块生成并储存的声纹识别说话人的声纹，视频模块从身份识别号码配置模块中调取说话人的声纹对应的身份识别号码，并基于该身份识别号码从人像模型生成模块中调取该身份识别号码对应的人像模型(即说话人的人像模型)，视频模块实时的将说话人的声音和人像模型合成，并传输给视频呈现装置30。该实施方式中，声纹存储在声纹生成模块中，人像模型存储在人像模型生成模块中，身份识别号码存储在身份识别号码配置模块中。在另外的实施方式中，声纹、人像模型和身份识别号码可以分别存储在声纹存储模块、人像模型存储模块和身份识别号码存储模块中(附图中未示出声纹存储模块、人像模型存储模块和身份识别号码存储模块)。

在本公开的一个实施方式中，多人视频系统100还包括图片/视频录入装置和声音录入装置(附图中未示出)，图片/视频录入装置用于录入用户的图片/视频，从而使得人像模型生成模块提取每个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征，基于每个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征生成用户的人像模型。声音录入装置用于录入用户的声音，从而使得声纹生成模块对用户录入的多个声音进行训练，生成用户的声纹。

本公开还提供一种电子设备，如图9所示，该设备包括：通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信，进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。处理器3000执行所述计算机程序时实现上述实施方式中方法。所述存储器2000和处理器3000的数量可以为一个或多个。

存储器2000可以包括高速RAM存储器，也可以还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果通信接口1000、存储器2000及处理器3000独立实现，则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上，则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种多人视频方法，其特征在于，包括：

生成用户的声纹；

生成用户的人像模型；

为所述用户配置身份识别号码；

通过所述身份识别号码，匹配所述用户的声纹和人像模型；

通过获取说话人的声音识别说话人的声纹，调取说话人的声纹对应的身份识别号码，基于说话人的身份识别号码，调取说话人的人像模型；以及

实时的合成说话人的声音和人像模型。

2.根据权利要求1所述的多人视频方法，其特征在于，生成用户的声纹包括：

录入用户的多个声音，并对多个声音进行训练，生成用户的声纹。

3.根据权利要求1或2所述的多人视频方法，其特征在于，生成用户的人像模型包括：

录入用户的多个照片和/或视频，提取每个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征，基于多个照片和/或视频的头部姿态特征、唇部姿态特征、脸部姿态特征和/或眼部姿态特征，生成用户的人像模型。

4.根据权利要求2或3所述的多人视频方法，其特征在于，

如果多人说话或者对话，基于各个说话人的声音识别各个说话人的声纹，基于各个说话人的声纹获取各个说话人的身份识别号码，基于各个说话人的身份识别号码，调取各个说话人的人像模型。

5.根据权利要求2或3所述的多人视频方法，其特征在于，还包括：

如果多人说话或者对话，基于各个说话人的声音识别各个说话人的声纹，基于各个说话人的声纹识别各个说话人的性别，基于各个说话人的性别将说话人分为两组，对于每组说话人，基于各个说话人的声纹获取各个说话人的身份识别号码，基于各个说话人的身份识别号码，调取各个说话人的人像模型。

6.根据权利要求4或5所述的多人视频方法，其特征在于，

用户的声纹和/或用户的人像模型存储在终端和/或云端。

7.根据权利要求3至6中任一项所述的多人视频方法，其特征在于，合成的说话人的声音和人像模型配置在虚拟场景中。

8.一种多人视频装置，其特征在于，包括：

声纹生成模块，所述声纹生成模块生成用户的声纹；

人像模型生成模块，所述人像模型生成模块生成用户的人像模型；

身份识别号码配置模块，所述身份识别号码配置模块为所述用户配置身份识别号码；以及

视频模块，所述视频模块通过获取说话人的声音识别说话人的声纹，调取说话人的声纹对应的身份识别号码，基于说话人的身份识别号码，调取说话人的人像模型；以及实时的合成说话人的声音和人像模型。

9.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如权利要求1至7中任一项所述的方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。