CN117743628A - 身份信息的处理方法、装置和电子设备 - Google Patents
身份信息的处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN117743628A CN117743628A CN202311725116.7A CN202311725116A CN117743628A CN 117743628 A CN117743628 A CN 117743628A CN 202311725116 A CN202311725116 A CN 202311725116A CN 117743628 A CN117743628 A CN 117743628A
- Authority
- CN
- China
- Prior art keywords
- identity
- voice
- query
- face
- description text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title description 8
- 238000003672 processing method Methods 0.000 title description 7
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims description 47
- 238000012986 modification Methods 0.000 claims description 39
- 230000004048 modification Effects 0.000 claims description 39
- 238000012216 screening Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 abstract description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Collating Specific Patterns (AREA)
Abstract
本申请提供了一种身份信息的处理方法、装置和电子设备,该方法通过根据发声者的人声特点描述文本和人脸特点描述文本,来分别生成语音和人像,并根据语音和人像生成的多个查询身份,来综合确定未知身份人的身份信息,提高了身份确认的准确度,从而解决了现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种身份信息的处理方法、装置、计算机可读存储介质和电子设备。
背景技术
现有方案在身份识别上只有两种方式,通过采样语音来确定未知身份人的身份,或者通过发声者描述未知身份人的特征,根据这些特征由人工来绘画出人像从而确定未知身份的人的身份,尤其是人工绘画导致效率较低,从而导致现有技术中缺少根据过发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案。
发明内容
本申请的主要目的在于提供一种身份信息的处理方法、装置、计算机可读存储介质和电子设备,以至少解决现有技术中缺少根据过发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种身份信息的处理方法,该方法包括:
获取用户端发送的发声者的描述文本,并将所述发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,所述发声者的描述文本为所述发声者描述的未知身份人的特征的文本;
确定与所述人声特点描述文本对应的第一人声音频,并确定与所述人脸特点描述文本对应的目标人脸图像,并确定与所述目标人脸图像对应的第二人声音频;
根据人声数据库,确定与所述第一人声音频对应的第一查询身份以及与所述第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,所述人声数据库存储有多个人声音频和多个身份,所述人脸数据库存储有多个人脸图像和多个身份,所述人声音频和所述身份一一对应,所述人脸图像和所述身份,所述人脸图像和所述身份一一对应,所述人脸数据库中存储的身份和所述人声数据库中存储的身份一一对应;
至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,所述未知身份人的身份信息为查询身份中重复度最高的一个。
可选地,确定与所述人声特点描述文本对应的第一人声音频,包括:第一修改步骤:在接收到所述用户端发送的人声文本修改信息的情况下,采用所述人声文本修改信息对所述人声特点描述文本进行修正,并确定与修正后的所述人声特点描述文本对应的所述第一人声音频;重复执行至少一次所述第一修改步骤,直到接收到所述用户端发送的人声音频正确指令为止,所述人声音频正确指令用于提示所述第一人声音频符合所述未知身份人的声音。
可选地,至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,包括:将所述人声数据库中的所有的人声分别转换为多个预设人声描述文本;在接收到所述用户端发送的所述人声音频正确指令的情况下,将当前时刻的修正后的所述人声特点描述文本分别与各所述预设人声描述文本进行相似度比较处理,得到多个第一相似度;确定第四查询身份为所有的所述第一相似度的中的最大值对应的所述预设人声描述文本对应的身份;根据所述第一查询身份、所述第二查询身份、所述第三查询身份和所述第四查询身份,确定所述未知身份人的身份信息。
可选地,确定与所述人脸特点描述文本对应的目标人脸图像,包括:第二修改步骤:在接收到所述用户端发送的人脸文本修改信息的情况下,采用所述人脸文本修改信息对所述人脸特点描述文本进行修正,并确定与修正后的所述人脸特点描述文本对应的所述目标人脸图像;重复执行至少一次所述第二修改步骤,直到接收到所述用户端发送的人脸正确指令为止,所述人脸正确指令用于提示所述目标人脸图像符合所述未知身份人的脸部形象。
可选地,至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,包括:将所述人脸数据库中的所有的人脸图像分别转换为多个预设人脸描述文本;在接收到所述用户端发送的所述人脸正确指令的情况下,将当前时刻的修正后的所述人脸特点描述文本分别与各所述预设人脸描述文本进行相似度比较处理,得到多个第二相似度;确定第五查询身份为所有的所述第二相似度的中的最大值对应的所述预设人脸描述文本对应的身份;根据所述第一查询身份、所述第二查询身份、所述第三查询身份和所述第五查询身份,确定所述未知身份人的身份信息。
可选地,至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,包括:在所述第一查询身份、所述第二查询身份和所述第三查询身份均不相同的情况下,确定所述未知身份人的身份信息为所述第一查询身份。
可选地,至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,包括:根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息为所述第一查询身份、所述第二查询身份和所述第三查询身份中重复度最大的一个。
根据本申请的另一方面,提供了一种身份信息的处理装置,该装置包括:
获取单元,用于获取用户端发送的发声者的描述文本,并将所述发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,所述发声者的描述文本为所述发声者描述的未知身份人的特征的文本;
第一确定单元,用于确定与所述人声特点描述文本对应的第一人声音频,并确定与所述人脸特点描述文本对应的目标人脸图像,并确定与所述目标人脸图像对应的第二人声音频;
第二确定单元,用于根据人声数据库,确定与所述第一人声音频对应的第一查询身份以及与所述第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,所述人声数据库存储有多个人声音频和多个身份,所述人脸数据库存储有多个人脸图像和多个身份,所述人声音频和所述身份一一对应,所述人脸图像和所述身份,所述人脸图像和所述身份一一对应,所述人脸数据库中存储的身份和所述人声数据库中存储的身份一一对应;
第三确定单元,用于至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,所述未知身份人的身份信息为查询身份中重复度最高的一个。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的方法。
根据本申请的另一方面,提供了一种电子设备,电子设备包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的方法。
应用本申请的技术方案,通过根据发声者的人声特点描述文本和人脸特点描述文本,来分别生成语音和人像,并根据语音和人像生成的多个查询身份,来综合确定未知身份人的身份信息,提高了身份确认的准确度,从而解决了现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的实施例提供的一种身份信息的处理方法的流程示意图;
图2示出了根据本申请的实施例提供的另一种身份信息的处理方法的流程示意图;
图3示出了根据本申请的实施例提供的一种身份信息的处理装置的结构框图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
正如背景技术中所介绍的,现有方案在身份识别上只有两种方式,通过采样语音来确定未知身份人的身份,或者通过发声者描述未知身份人的特征,根据这些特征由人工来绘画出人像从而确定未知身份的人的身份,尤其是人工绘画导致效率较低,从而导致现有技术中缺少根据过发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案,为解决现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题,本申请的实施例提供了一种身份信息的处理方法、装置、计算机可读存储介质和电子设备。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本实施例中提供了一种身份信息的处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请的实施例提供的一种身份信息的处理方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S101,获取用户端发送的发声者的描述文本,并将上述发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,上述发声者的描述文本为上述发声者描述的未知身份人的特征的文本;
具体地,通过发生者的描述文本,筛选出人声特点描述文本和人脸特点描述文本;
步骤S102,确定与上述人声特点描述文本对应的第一人声音频,并确定与上述人脸特点描述文本对应的目标人脸图像,并确定与上述目标人脸图像对应的第二人声音频;
具体地,确定与上述人声特点描述文本对应的第一人声音频的具体实施方式可以采用神经网络模型的技术方案来实现,确定与上述人脸特点描述文本对应的目标人脸图像,以及确定与上述目标人脸图像对应的第二人声音频,也与确定与上述人声特点描述文本对应的第一人声音频的具体实施方式同理,均可以采用神经网络模型的技术方案来实现,在此不再及以赘述。
步骤S102中的确定与上述人声特点描述文本对应的第一人声音频,包括:第一修改步骤:在接收到上述用户端发送的人声文本修改信息的情况下,采用上述人声文本修改信息对上述人声特点描述文本进行修正,并确定与修正后的上述人声特点描述文本对应的上述第一人声音频;重复执行至少一次上述第一修改步骤,直到接收到上述用户端发送的人声音频正确指令为止,上述人声音频正确指令用于提示上述第一人声音频符合上述未知身份人的声音。
具体地,为了保证第一人声音频能够准确地呈现未知身份人的声音特色,需要发声人对人声特点描述文本进行不断修正,直到第一人声音频能够呈现未知身份人的声音特色为止。
步骤S102中的确定与上述人脸特点描述文本对应的目标人脸图像,包括:第二修改步骤:在接收到上述用户端发送的人脸文本修改信息的情况下,采用上述人脸文本修改信息对上述人脸特点描述文本进行修正,并确定与修正后的上述人脸特点描述文本对应的上述目标人脸图像;重复执行至少一次上述第二修改步骤,直到接收到上述用户端发送的人脸正确指令为止,上述人脸正确指令用于提示上述目标人脸图像符合上述未知身份人的脸部形象。
具体地,为了保证目标人脸图像能够准确地呈现未知身份人的样貌,需要发声人对人脸特点描述文本进行不断的修正,直到目标人脸图像能够呈现出未知身份人的样貌为止。
步骤S103,根据人声数据库,确定与上述第一人声音频对应的第一查询身份以及与上述第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,上述人声数据库存储有多个人声音频和多个身份,上述人脸数据库存储有多个人脸图像和多个身份,上述人声音频和上述身份一一对应,上述人脸图像和上述身份,上述人脸图像和上述身份一一对应,上述人脸数据库中存储的身份和上述人声数据库中存储的身份一一对应;
具体地,在人声数据库找到与上述第一人声音频对应的身份为第一查询身份,在人声数据库找到与上述第二人声音频对应的身份为第二查询身份,在人脸数据库找到与目标人脸图像对应的身份为第三查询身份,两个数据库中的身份是一一对应的,一一对应的身份是一样的,即人脸数据库存储有身份A、身份B、身份C,人声数据库中也存储有身份A、身份B、身份C。
步骤S104,至少根据上述第一查询身份、上述第二查询身份和上述第三查询身份,确定上述未知身份人的身份信息,上述未知身份人的身份信息为查询身份中重复度最高的一个。
上述步骤中,通过根据发声者的人声特点描述文本和人脸特点描述文本,来分别生成语音和人像,并根据语音和人像生成的多个查询身份,来综合确定未知身份人的身份信息,提高了身份确认的准确度,从而解决了现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
步骤S104,至少根据上述第一查询身份、上述第二查询身份和上述第三查询身份,确定上述未知身份人的身份信息,包括多个具体实现方式:
第一种具体实现方式为:将上述人声数据库中的所有的人声分别转换为多个预设人声描述文本;在接收到上述用户端发送的上述人声音频正确指令的情况下,将当前时刻的修正后的上述人声特点描述文本分别与各上述预设人声描述文本进行相似度比较处理,得到多个第一相似度;确定第四查询身份为所有的上述第一相似度的中的最大值对应的上述预设人声描述文本对应的身份;
具体地,每个预设人声描述文本对应一个人声数据库中存储的身份,即通过相似度来找出相似度的最大值对应的预设人声描述文本,再找到该预设人声描述文本对应的人声数据库中存储的身份,该身份就是第四查询身份。
将上述人脸数据库中的所有的人脸图像分别转换为多个预设人脸描述文本;在接收到上述用户端发送的上述人脸正确指令的情况下,将当前时刻的修正后的上述人脸特点描述文本分别与各上述预设人脸描述文本进行相似度比较处理,得到多个第二相似度;确定第五查询身份为所有的上述第二相似度的中的最大值对应的上述预设人脸描述文本对应的身份;
具体地,每个预设人脸描述文本对应一个人脸数据库中存储的身份,即通过相似度来找出相似度的最大值对应的预设人脸描述文本,再找到该预设人脸描述文本对应的人脸数据库中存储的身份,该身份就是第五查询身份;
根据上述第一查询身份、上述第二查询身份、上述第三查询身份、上述第四查询身份和上述第五查询身份,确定上述未知身份人的身份信息。
具体地,例如第一查询身份、上述第二查询身份、上述第三查询身份均为A,、上述第四查询身份和上述第五查询身份为B,那么未知身份人的身份信息为A,即选取重复度最高的身份为未知身份人的身份信息,从而提高了身份确认的准确度。
第二种具体实现方式为:在上述第一查询身份、上述第二查询身份和上述第三查询身份均不相同的情况下,确定上述未知身份人的身份信息为上述第一查询身份;根据上述第一查询身份、上述第二查询身份和上述第三查询身份,确定上述未知身份人的身份信息为上述第一查询身份、上述第二查询身份和上述第三查询身份中重复度最大的一个。
具体地,第一查询身份的优先级最高,第一查询身份和第二查询身份相同,第三查询身份与第一查询身份不同的情况下,确定未知身份人的身份信息为第一查询身份或者第二查询身份。
为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实施例对本申请的身份信息的处理方法的实现过程进行详细说明。
本实施例涉及一种具体的身份信息的处理方法,如图2所示,包括如下步骤:
步骤S1:获取用户端发送的发声者的描述文本,并将发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,发声者的描述文本为发声者描述的未知身份人的特征的文本;
步骤S2:确定与人声特点描述文本对应的第一人声音频,并确定与人脸特点描述文本对应的目标人脸图像,并确定与目标人脸图像对应的第二人声音频;
具体地,确定与人声特点描述文本对应的第一人声音频,包括:第一修改步骤:在接收到用户端发送的人声文本修改信息的情况下,采用人声文本修改信息对人声特点描述文本进行修正,并确定与修正后的人声特点描述文本对应的第一人声音频;重复执行至少一次第一修改步骤,直到接收到用户端发送的人声音频正确指令为止,人声音频正确指令用于提示第一人声音频符合未知身份人的声音;
确定与人脸特点描述文本对应的目标人脸图像,包括:第二修改步骤:在接收到用户端发送的人脸文本修改信息的情况下,采用人脸文本修改信息对人脸特点描述文本进行修正,并确定与修正后的人脸特点描述文本对应的目标人脸图像;重复执行至少一次第二修改步骤,直到接收到用户端发送的人脸正确指令为止,人脸正确指令用于提示目标人脸图像符合未知身份人的脸部形象;
步骤S3:根据人声数据库,确定与第一人声音频对应的第一查询身份以及与第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,人声数据库存储有多个人声音频和多个身份,人脸数据库存储有多个人脸图像和多个身份,人声音频和身份一一对应,人脸图像和身份,人脸图像和身份一一对应,人脸数据库中存储的身份和人声数据库中存储的身份一一对应;
步骤S4:将人声数据库中的所有的人声分别转换为多个预设人声描述文本;在接收到用户端发送的人声音频正确指令的情况下,将当前时刻的修正后的人声特点描述文本分别与各预设人声描述文本进行相似度比较处理,得到多个第一相似度;确定第四查询身份为所有的第一相似度的中的最大值对应的预设人声描述文本对应的身份;
步骤S5:将人脸数据库中的所有的人脸图像分别转换为多个预设人脸描述文本;在接收到用户端发送的人脸正确指令的情况下,将当前时刻的修正后的人脸特点描述文本分别与各预设人脸描述文本进行相似度比较处理,得到多个第二相似度;确定第五查询身份为所有的第二相似度的中的最大值对应的预设人脸描述文本对应的身份;
步骤S6:根据第一查询身份、第二查询身份、第三查询身份、第四查询身份和第五查询身份,确定未知身份人的身份信息,未知身份人的身份信息为查询身份中重复度最高的一个。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种身份信息的处理装置,需要说明的是,本申请实施例的身份信息的处理装置可以用于执行本申请实施例所提供的用于身份信息的处理方法。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
以下对本申请实施例提供的身份信息的处理装置进行介绍。
图3是根据本申请的实施例提供的一种身份信息的处理装置的结构框图。如图3所示,该装置包括:
获取单元31,用于获取用户端发送的发声者的描述文本,并将上述发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,上述发声者的描述文本为上述发声者描述的未知身份人的特征的文本;
第一确定单元32,用于确定与上述人声特点描述文本对应的第一人声音频,并确定与上述人脸特点描述文本对应的目标人脸图像,并确定与上述目标人脸图像对应的第二人声音频;
第二确定单元33,用于根据人声数据库,确定与上述第一人声音频对应的第一查询身份以及与上述第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,上述人声数据库存储有多个人声音频和多个身份,上述人脸数据库存储有多个人脸图像和多个身份,上述人声音频和上述身份一一对应,上述人脸图像和上述身份,上述人脸图像和上述身份一一对应,上述人脸数据库中存储的身份和上述人声数据库中存储的身份一一对应;
第三确定单元34,用于至少根据上述第一查询身份、上述第二查询身份和上述第三查询身份,确定上述未知身份人的身份信息,上述未知身份人的身份信息为查询身份中重复度最高的一个。
上述装置中,通过根据发声者的人声特点描述文本和人脸特点描述文本,来分别生成语音和人像,并根据语音和人像生成的多个查询身份,来综合确定未知身份人的身份信息,提高了身份确认的准确度,从而解决了现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
在本申请的一种实施例中,第一确定单元包括第一处理模块和第二处理模块,第一处理模块用于第一修改步骤:在接收到上述用户端发送的人声文本修改信息的情况下,采用上述人声文本修改信息对上述人声特点描述文本进行修正,并确定与修正后的上述人声特点描述文本对应的上述第一人声音频;第二处理模块用于重复执行至少一次上述第一修改步骤,直到接收到上述用户端发送的人声音频正确指令为止,上述人声音频正确指令用于提示上述第一人声音频符合上述未知身份人的声音。
在本申请的一种实施例中,第三确定单元包括第三处理模块、第四处理模块、第一确定模块和第二确定模块,第三处理模块用于将上述人声数据库中的所有的人声分别转换为多个预设人声描述文本;第四处理模块用于在接收到上述用户端发送的上述人声音频正确指令的情况下,将当前时刻的修正后的上述人声特点描述文本分别与各上述预设人声描述文本进行相似度比较处理,得到多个第一相似度;第一确定模块用于确定第四查询身份为所有的上述第一相似度的中的最大值对应的上述预设人声描述文本对应的身份;第二确定模块用于根据上述第一查询身份、上述第二查询身份、上述第三查询身份和上述第四查询身份,确定上述未知身份人的身份信息。
在本申请的一种实施例中,第一确定单元包括第五处理模块和第六处理模块,第五处理模块用于第二修改步骤:在接收到上述用户端发送的人脸文本修改信息的情况下,采用上述人脸文本修改信息对上述人脸特点描述文本进行修正,并确定与修正后的上述人脸特点描述文本对应的上述目标人脸图像;第六处理模块用于重复执行至少一次上述第二修改步骤,直到接收到上述用户端发送的人脸正确指令为止,上述人脸正确指令用于提示上述目标人脸图像符合上述未知身份人的脸部形象。
在本申请的一种实施例中,第三确定单元包括第七处理模块、第八处理模块、第三确定模块和第四确定模块,第七处理模块用于将上述人脸数据库中的所有的人脸图像分别转换为多个预设人脸描述文本;第八处理模块用于在接收到上述用户端发送的上述人脸正确指令的情况下,将当前时刻的修正后的上述人脸特点描述文本分别与各上述预设人脸描述文本进行相似度比较处理,得到多个第二相似度;第三确定模块用于确定第五查询身份为所有的上述第二相似度的中的最大值对应的上述预设人脸描述文本对应的身份;第四确定模块用于根据上述第一查询身份、上述第二查询身份、上述第三查询身份和上述第五查询身份,确定上述未知身份人的身份信息。
在本申请的一种实施例中,第三确定单元包括第五确定模块,第五确定模块用于在上述第一查询身份、上述第二查询身份和上述第三查询身份均不相同的情况下,确定上述未知身份人的身份信息为上述第一查询身份。
在本申请的一种实施例中,第三确定单元包括第六确定模块,第六确定模块用于确定上述未知身份人的身份信息,包括:根据上述第一查询身份、上述第二查询身份和上述第三查询身份,确定上述未知身份人的身份信息为上述第一查询身份、上述第二查询身份和上述第三查询身份中重复度最大的一个。
上述身份信息的处理装置包括处理器和存储器,上述获取单元、第一确定单元、第二确定单元和第三确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述身份信息的处理方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述身份信息的处理方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:获取用户端发送的发声者的描述文本,并将上述发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,上述发声者的描述文本为上述发声者描述的未知身份人的特征的文本;确定与上述人声特点描述文本对应的第一人声音频,并确定与上述人脸特点描述文本对应的目标人脸图像,并确定与上述目标人脸图像对应的第二人声音频;根据人声数据库,确定与上述第一人声音频对应的第一查询身份以及与上述第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,上述人声数据库存储有多个人声音频和多个身份,上述人脸数据库存储有多个人脸图像和多个身份,上述人声音频和上述身份一一对应,上述人脸图像和上述身份,上述人脸图像和上述身份一一对应,上述人脸数据库中存储的身份和上述人声数据库中存储的身份一一对应;至少根据上述第一查询身份、上述第二查询身份和上述第三查询身份,确定上述未知身份人的身份信息,上述未知身份人的身份信息为查询身份中重复度最高的一个。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:获取用户端发送的发声者的描述文本,并将上述发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,上述发声者的描述文本为上述发声者描述的未知身份人的特征的文本;确定与上述人声特点描述文本对应的第一人声音频,并确定与上述人脸特点描述文本对应的目标人脸图像,并确定与上述目标人脸图像对应的第二人声音频;根据人声数据库,确定与上述第一人声音频对应的第一查询身份以及与上述第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,上述人声数据库存储有多个人声音频和多个身份,上述人脸数据库存储有多个人脸图像和多个身份,上述人声音频和上述身份一一对应,上述人脸图像和上述身份,上述人脸图像和上述身份一一对应,上述人脸数据库中存储的身份和上述人声数据库中存储的身份一一对应;至少根据上述第一查询身份、上述第二查询身份和上述第三查询身份,确定上述未知身份人的身份信息,上述未知身份人的身份信息为查询身份中重复度最高的一个。
本申请还提供了一种电子设备,电子设备包括:一个或多个处理器,存储器,以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的方法。通过根据发声者的人声特点描述文本和人脸特点描述文本,来分别生成语音和人像,并根据语音和人像生成的多个查询身份,来综合确定未知身份人的身份信息,提高了身份确认的准确度,从而解决了现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的身份信息的处理方法,通过根据发声者的人声特点描述文本和人脸特点描述文本,来分别生成语音和人像,并根据语音和人像生成的多个查询身份,来综合确定未知身份人的身份信息,提高了身份确认的准确度,从而解决了现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
2)、本申请的身份信息的处理装置,通过根据发声者的人声特点描述文本和人脸特点描述文本,来分别生成语音和人像,并根据语音和人像生成的多个查询身份,来综合确定未知身份人的身份信息,提高了身份确认的准确度,从而解决了现有技术中缺少根据发声者描述未知身份人的特征的文本来直接生成语音和人像,并同时根据语音和人像来确定未知身份人的身份的技术方案的问题。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种身份信息的处理方法,其特征在于,包括:
获取用户端发送的发声者的描述文本,并将所述发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,所述发声者的描述文本为所述发声者描述的未知身份人的特征的文本;
确定与所述人声特点描述文本对应的第一人声音频,并确定与所述人脸特点描述文本对应的目标人脸图像,并确定与所述目标人脸图像对应的第二人声音频;
根据人声数据库,确定与所述第一人声音频对应的第一查询身份以及与所述第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,所述人声数据库存储有多个人声音频和多个身份,所述人脸数据库存储有多个人脸图像和多个身份,所述人声音频和所述身份一一对应,所述人脸图像和所述身份,所述人脸图像和所述身份一一对应,所述人脸数据库中存储的身份和所述人声数据库中存储的身份一一对应;
至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,所述未知身份人的身份信息为查询身份中重复度最高的一个。
2.根据权利要求1所述的方法,其特征在于,确定与所述人声特点描述文本对应的第一人声音频,包括:
第一修改步骤:在接收到所述用户端发送的人声文本修改信息的情况下,采用所述人声文本修改信息对所述人声特点描述文本进行修正,并确定与修正后的所述人声特点描述文本对应的所述第一人声音频;
重复执行至少一次所述第一修改步骤,直到接收到所述用户端发送的人声音频正确指令为止,所述人声音频正确指令用于提示所述第一人声音频符合所述未知身份人的声音。
3.根据权利要求2所述的方法,其特征在于,至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,包括:
将所述人声数据库中的所有的人声分别转换为多个预设人声描述文本;
在接收到所述用户端发送的所述人声音频正确指令的情况下,将当前时刻的修正后的所述人声特点描述文本分别与各所述预设人声描述文本进行相似度比较处理,得到多个第一相似度;
确定第四查询身份为所有的所述第一相似度的中的最大值对应的所述预设人声描述文本对应的身份;
根据所述第一查询身份、所述第二查询身份、所述第三查询身份和所述第四查询身份,确定所述未知身份人的身份信息。
4.根据权利要求1所述的方法,其特征在于,确定与所述人脸特点描述文本对应的目标人脸图像,包括:
第二修改步骤:在接收到所述用户端发送的人脸文本修改信息的情况下,采用所述人脸文本修改信息对所述人脸特点描述文本进行修正,并确定与修正后的所述人脸特点描述文本对应的所述目标人脸图像;
重复执行至少一次所述第二修改步骤,直到接收到所述用户端发送的人脸正确指令为止,所述人脸正确指令用于提示所述目标人脸图像符合所述未知身份人的脸部形象。
5.根据权利要求4所述的方法,其特征在于,至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,包括:
将所述人脸数据库中的所有的人脸图像分别转换为多个预设人脸描述文本;
在接收到所述用户端发送的所述人脸正确指令的情况下,将当前时刻的修正后的所述人脸特点描述文本分别与各所述预设人脸描述文本进行相似度比较处理,得到多个第二相似度;
确定第五查询身份为所有的所述第二相似度的中的最大值对应的所述预设人脸描述文本对应的身份;
根据所述第一查询身份、所述第二查询身份、所述第三查询身份和所述第五查询身份,确定所述未知身份人的身份信息。
6.根据权利要求1至5中任一项所述的方法,其特征在于,至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,包括:
在所述第一查询身份、所述第二查询身份和所述第三查询身份均不相同的情况下,确定所述未知身份人的身份信息为所述第一查询身份。
7.根据权利要求1至5中任一项所述的方法,其特征在于,至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,包括:
根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息为所述第一查询身份、所述第二查询身份和所述第三查询身份中重复度最大的一个。
8.一种身份信息的处理装置,其特征在于,包括:
获取单元,用于获取用户端发送的发声者的描述文本,并将所述发声者的描述文本进行筛选处理,分别得到人声特点描述文本和人脸特点描述文本,所述发声者的描述文本为所述发声者描述的未知身份人的特征的文本;
第一确定单元,用于确定与所述人声特点描述文本对应的第一人声音频,并确定与所述人脸特点描述文本对应的目标人脸图像,并确定与所述目标人脸图像对应的第二人声音频;
第二确定单元,用于根据人声数据库,确定与所述第一人声音频对应的第一查询身份以及与所述第二人声音频对应的第二查询身份,并根据人脸数据库,确定与目标人脸图像对应的第三查询身份,所述人声数据库存储有多个人声音频和多个身份,所述人脸数据库存储有多个人脸图像和多个身份,所述人声音频和所述身份一一对应,所述人脸图像和所述身份,所述人脸图像和所述身份一一对应,所述人脸数据库中存储的身份和所述人声数据库中存储的身份一一对应;
第三确定单元,用于至少根据所述第一查询身份、所述第二查询身份和所述第三查询身份,确定所述未知身份人的身份信息,所述未知身份人的身份信息为查询身份中重复度最高的一个。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的方法。
10.一种电子设备,其特征在于,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311725116.7A CN117743628A (zh) | 2023-12-14 | 2023-12-14 | 身份信息的处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311725116.7A CN117743628A (zh) | 2023-12-14 | 2023-12-14 | 身份信息的处理方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117743628A true CN117743628A (zh) | 2024-03-22 |
Family
ID=90253804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311725116.7A Pending CN117743628A (zh) | 2023-12-14 | 2023-12-14 | 身份信息的处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743628A (zh) |
-
2023
- 2023-12-14 CN CN202311725116.7A patent/CN117743628A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109616108B (zh) | 多轮对话交互处理方法、装置、电子设备及存储介质 | |
JP7008638B2 (ja) | 音声認識 | |
US20180182377A1 (en) | Method and device for extracting speech feature based on artificial intelligence | |
CN109299476B (zh) | 问答方法、装置、电子设备及存储介质 | |
CN108831498B (zh) | 多波束波束成形的方法、装置及电子设备 | |
CN107705782B (zh) | 用于确定音素发音时长的方法和装置 | |
US11282514B2 (en) | Method and apparatus for recognizing voice | |
CN110473519B (zh) | 一种语音处理方法及装置 | |
CN112749299A (zh) | 确定视频类型的方法、装置、电子设备及可读存储介质 | |
CN114022955A (zh) | 一种动作识别方法及装置 | |
KR20220020351A (ko) | 사운드 분리 방법 및 장치, 전자 기기 | |
CN112992190B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
EP3176785A1 (en) | Method and apparatus for audio object coding based on informed source separation | |
CN111354344B (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN111354350B (zh) | 语音处理方法及装置、语音处理设备、电子设备 | |
CN117743628A (zh) | 身份信息的处理方法、装置和电子设备 | |
CN109285536B (zh) | 一种语音特效合成方法、装置、电子设备及存储介质 | |
CN111402918A (zh) | 一种音频处理方法、装置、设备及存储介质 | |
CN113032374A (zh) | 数据处理方法、装置、介质及设备 | |
JP6233625B2 (ja) | 音声処理装置および方法、並びにプログラム | |
WO2023102930A1 (zh) | 语音增强方法、电子设备、程序产品及存储介质 | |
US20220150624A1 (en) | Method, Apparatus and Computer Program for Processing Audio Signals | |
CN113012680B (zh) | 一种语音机器人用话术合成方法及装置 | |
CN108922547B (zh) | 身份的识别方法、装置及电子设备 | |
CN110109697B (zh) | 神经网络模型的sdk输出方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |