CN108908377B - 说话人识别方法、装置和机器人 - Google Patents
说话人识别方法、装置和机器人 Download PDFInfo
- Publication number
- CN108908377B CN108908377B CN201810736710.9A CN201810736710A CN108908377B CN 108908377 B CN108908377 B CN 108908377B CN 201810736710 A CN201810736710 A CN 201810736710A CN 108908377 B CN108908377 B CN 108908377B
- Authority
- CN
- China
- Prior art keywords
- speaker
- sound
- features
- identity
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本申请实施例涉及一种说话人识别方法、装置和机器人。所述方法包括:确定说话人的方位信息;如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;根据所述识别结果和所述历史交互信息确定所述说话人的身份。本申请实施例在说话人位于机器人视觉范围外时,通过获取说话人的声音特征,并将所述声音特征基于预设数据库进行识别确定所述说话人的身份。在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度,也提升了用户体验。
Description
技术领域
本申请实施例涉及人工智能领域,例如涉及一种说话人识别方法、装置和机器人。
背景技术
随着人工智能技术的发展,机器人为人类的生产生活带来了很多便利。当前用户对机器人进行控制时,可对机器人预先设置唤醒词,通过“唤醒词+命令内容”的方式发布语音命令,当机器人听到一个特定的唤醒词(例如机器人的名字)时,就知道用户在呼唤自己,从而执行用户的语音命令。
在研究现有技术过程中,发明人发现相关技术中至少存在如下问题:现有技术中机器人只能单纯的执行用户发布的任务,而无法结合用户的身份与用户进行智能对话,智能度较低。如果机器人能通过识别用户的面部特征而确定用户的身份,并进一步针对用户的身份与用户进行交谈,将能很好的提升用户体验,提高智能度。但是如果用户在对机器人说话时不在机器人的视觉范围内,机器人将无法识别用户的身份。
发明内容
本申请实施例的一个目的是提供一种说话人识别方法、装置和机器人,在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度。
第一方面,本申请实施例提供了一种说话人识别方法,所述方法应用于机器人,所述方法包括:
确定说话人的方位信息;
如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;
将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;
根据所述识别结果和所述历史交互信息确定所述说话人的身份。
第二方面,本申请实施例还提供了说话人识别装置,所述装置应用于机器人,所述装置包括:
方位确定模块,用于确定说话人的方位信息;
声音特征获取模块,用于如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;
声音识别模块,用于将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;
身份确认模块,用于根据所述识别结果和所述历史交互信息确定所述说话人的身份。
第三方面,本申请实施例还提供了一种机器人,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
第四方面,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被机器人执行时,使所述机器人执行上述的方法。
本申请实施例提供的说话人识别方法、装置和机器人,在说话人位于机器人视觉范围外时,通过获取说话人的声音特征,并将所述声音特征基于预设数据库进行识别并获得识别结果,然后根据所述识别结果和机器人的历史交互信息确定所述说话人的身份。在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度,也提升了用户体验。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请说话人识别方法和装置的应用场景示意图;
图2是本申请的一个实施例的预设数据库存储示意图;
图3是本申请说话人识别方法的一个实施例的流程图;
图4是本申请说话人识别方法的一个实施例的流程图;
图5是本申请说话人识别装置的一个实施例的结构示意图;
图6是本申请说话人识别装置的一个实施例的结构示意图;
图7是本申请实施例提供的机器人的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的说话人识别方法和装置适用于图1所示的应用场景,包括机器人10和用户20。机器人10可以为可移动机器人或者不可移动机器人,用户10可以为任意数量的、具有相同或者相近操作行为的群体,例如家庭、工作组或者个人。用户20可以对机器人10进行设置或者发布命令。
在一些实施例中,机器人10具有存储和运算能力,其可以存储有预设数据库,所述预设数据库中可以事先存储已知用户的声音特征(例如声纹特征)、面部特征和用户信息等(请参照图2)。机器人10具有声音特征识别能力,能够将说话人的声音特征与预设数据库中已知用户的声音特征进行对比,识别出说话人的身份。在另一些实施例中,机器人10还具有面部识别能力,能够将用户的面部特征与预设数据库中已知用户的面部特征进行对比,识别出用户的身份。
其中,当说话人位于机器人视觉范围内时,可以通过识别说话人面部特征的方法识别说话人的身份,当说话人位于机器人视觉范围外时,可以通过识别说话人的声音特征识别说话人的身份。具体的,可以通过传声器阵列定位说话人的位置,然后通过判断该位置是否位于机器人视觉范围内来判断所述说话人是否在机器人视觉范围内。机器人10识别出说话人的身份后,可以根据说话人的身份与说话人进行对话,提高机器人的智能度,也提高用户体验。
在另一些实施例中,该预设数据库也可以设置在云端服务器或者其他服务器上,机器人10通过网络访问该预设数据库。图1中仅示例性的示出了一个用户和一个机器人,在实际应用中,还可以包括更多的用户和机器人。
图3为本申请实施例提供的说话人识别方法的流程示意图,所述方法可由图1中的机器人10执行,如图3所示,所述方法包括:
101:确定说话人的方位信息。
具体的,可以通过麦克风阵列定位声源位置,即说话人的位置。
102:如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征。
如果所述说话人位于所述机器人的视觉范围外,则可以通过识别声音特征的方法识别说话人的身份。其中,所述声音特征例如声纹特征,可以通过例如麦克风阵列采集说话人的语音信号,然后机器人10基于预先训练好的声纹模型(例如神经网络模型)对语音信号进行声纹特征提取。
103:将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息。
其中,所述预设数据库可以预先存储一个或者多个已知用户的声音特征和该声音特征对应的用户信息,机器人10将说话人的声音特征与预设数据库中的声音特征进行对比识别,以识别说话人的身份。其中,在一些实施例中,预设数据库中的数据存储格式可以采取图2所示的格式,每条数据包括ID、称呼、面部特征、声纹特征和历史交互次数中的一个或者多个。通常预先存储的场合,可以存储每条数据的完善信息。在机器人与用户的交互过程中,还可以不断更新和完善所述预设数据库,增加新的数据,在一次交互中,可能只能更新一条数据的部分信息,可以通过多次交互逐步完善数据的完整信息。
104:根据所述识别结果和所述历史交互信息确定所述说话人的身份。
将所述说话人的声音特征与预设数据库中的各个声音特征进行比对,将获得至少一个识别结果和所述识别结果对应的相似度。其中,所述历史交互信息包括历史交互次数,可以根据所述识别结果的相似度和历史交互次数确定说话人的身份。例如,如果所述识别结果中仅有一个声音特征的相似度大于预设相似度阈值,则确定该声音特征对应的用户为说话人。
在实际应用中,可以设置一个候选集合,将相似度大于预设相似度阈值的声音特征加入到该候选集合中。如果候选集合中仅有一个声音特征,则该声音特征对应的用户为说话人。如果候选集合中包括两个或者两个以上的声音特征,且第二大的相似度与最大的相似度之间的差值大于或者等于预设差值阈值(即包括0个疑似声音特征),则将相似度最大的声音特征对应的用户确定为说话人。如果候选集合中包括一个或者多个声音特征的相似度与最大相似度的差值小于预设差值阈值(即包括至少一个疑似声音特征),则针对候选集合中的相似度最大的声音特征和疑似声音特征,可以叠加相似度和历史交互次数进行说话人身份判定。
例如,可以通过公式(1)计算上述各个声音特征的相似度判定概率,如下:
C1=C0+lgN/100 (1)
其中,C1表示相似度判定概率,C0表示相似度,N表示历史交互次数。例如,某个声音特征的相似度为93%,历史交互次数为100,则相似度判定概率C1为95%。
如果获得的各相似度判定概率中,第二大的相似度判定概率与最大的相似度判定概率的差值大于或者等于预设差值阈值(即包括0个第二疑似声音特征),则确定该相似度判定概率最大的声音特征对应的用户为说话人。如果具有至少一个相似度判定概率与最大相似度判定概率的差值小于预设差值阈值的声音特征(即包括至少一个第二疑似声音特征),则将相似度判定概率最大的声音特征对应的用户、以及相似度判定概率与最大相似度判定概率的差值小于预设差值阈值的声音特征对应的用户,均确定为所述说话人。
需要说明的是,本实施例中仅以公式(1)举例说明相似度判定概率的计算方式,但并不限于该计算方式,只要是叠加相似度和历史交互次数的计算方式均可以实现本申请的发明目的。其中,预设相似度阈值和预设差值阈值可以事先设定,预设相似度阈值例如80%,预设差值阈值例如2%。
如果通过识别声音特征获得的所有识别结果的相似度均小于相似度阈值,则说明通过识别声音特征的方法无法识别出说话人的身份,则可以采用面部特征识别方法,因为说话人不在机器人的视觉范围内,机器人需要不停转动方向寻找说话的人,以使说话人位于机器人的视觉范围内。
如果通过识别声音特征的方法确定出所述说话人的身份,为了进一步确保身份的正确性,在一些实施例中,还可以采用面部特征识别方法进行验证,请参照图4,所述方法除了201-204之外,还包括:
205:如果确定出所述说话人的身份,则使机器人头部转向所述方位信息指示的方向。
如果机器人通过识别声音特征的方法确定出说话人的身份,则向说话人方向转动(此实施例中机器人需有转动功能),在机器人向说话人方向转动的过程中,机器人即可以开始与说话人的对话。如果通过上一步骤确定的说话人身份仅有一个,则可以根据该身份直接回应用户,例如识别出的身份是Mike,则机器人可以发出类似语音“Mike是你吗?咱们好久不见了”。如果通过上一步骤确定出多个说话人身份,例如识别出的身份是Mike和Steven,则可以采用另一种方式回应用户,类似“让我猜猜是谁来了,嗯…,不是Mike就是Steven,你们两个声音好像”。
206:根据确定出的身份对应的面部特征验证所述身份的正确性,如果所述身份对应的面部特征位于所述机器人的视觉范围内,则所述身份正确,如果所述身份对应的面部特征不位于所述机器人的视觉范围内,则所述身份错误。
在机器人转向说话人的方向后,调用识别出的身份在预设数据库中的对应的面部特征,寻找该面部特征并锁定。如果找到了面部特征,即面部特征位于机器人视觉范围内,则该面部特征对应的身份识别正确,如果没有找到面部特征,即面部特征不在机器人的视觉范围内,则该面部特征对应的身份识别错误。
在一些实施例中,在利用面部特征进行身份验证后,如果经验证存在正确的身份,则机器人还可以进一步与正确身份对应的用户进行对话。如果经验证不存在正确的身份,则说明通过声音特征识别的身份是错误的,实际说话人的声音可能与被识别出的用户的声音很相似。此时可以获取实际说话人的声音特征和面部特征并加入预设数据库,以丰富预设数据库中的数据提高后续识别的准确率。请参照图4,所述方法还包括:
207:如果存在验证正确的身份,则根据所述身份与所述身份对应的用户进行对话。
208:如果不存在验证正确的身份,则获取所述机器人视觉范围内说话人的面部特征,并将该面部特征基于所述预设数据库进行识别。
209:如果识别成功,则获取所述视觉范围内说话人的声音特征,并根据该声音特征在预设数据库内更新或者创建识别成功的面部特征对应的声音特征;
210:如果识别失败,则将所述视觉范围内说话人的面部特征和声音特征对应的加入所述预设数据库内。
在通过识别声音特征确定的身份只有一个的场合,如果该身份对应的面部特征位于机器人的视觉范围内,则该身份经验证是正确的,机器人可以根据该身份继续与该身份对应的用户对话。如果该身份对应的面部特征不在机器人的视觉范围内,则该身份经验证是错误的,即不存在验证正确的身份,说明通过声音特征识别身份错误。在通过识别声音特征确定的身份具有多个的场合,如果多个身份中仅有一个身份对应的面部特征在机器人的视觉范围内,即只存在一个验证正确的身份,则机器人可以对该身份对应的用户继续对话,例如“看,我就说是你吧,你要多来和我聊聊天喔”。如果多个身份对应的面部特征均位于机器人的视觉范围内,或者多个身份中存在至少两个身份的面部特征在机器人的视觉范围内,即存在至少两个验证正确的身份的场合,机器人可以跟该至少两个用户对话,例如“原来你们都来了,太好了,好想你们呢”。如果多个身份对应的面部特征均不在机器人的视觉范围内,即不存在验证正确的身份,说明通过声音特征识别身份错误。
在通过声音特征识别身份错误的场合,为了提高后续识别的准确率,可以将真实说话人的信息更新到预设数据库中。可以先获得当前机器人视觉范围内(基于机器人转动之后的位置)说话人的面部特征,针对该面部特征基于预设数据库进行识别,以确定该面部特征是否已经存在于预设数据库中。如果识别成功,说明该面部特征已经存在于预设数据库中,则在预设数据库列表中查看该面部特征是否具有对应的声音特征。如果有,则可以根据接下来更多对话的语音数据训练得到更精准的声音特征,在预设数据库中更新该面部特征对应的声音特征。如果没有,则可以通过对话捕获用户语音并构建声音特征,在预设数据库中创建该面部特征对应的声音特征。如果面部特征识别失败,则说明所述预设数据库中不存在该面部特征,则在预设数据库中新建一行加入该面部特征,并通过接下来对话捕获用户语音构建声音特征,并对应的加入预设数据库。在机器人的每次交互中,均可对应的更新历史交互次数。
本申请实施例在说话人位于机器人视觉范围外时,通过获取说话人的声音特征,并将所述声音特征基于预设数据库进行识别并获得识别结果,然后根据所述识别结果和机器人的历史交互信息确定所述说话人的身份。在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度,也提升了用户体验。
如果确定的说话人的方位信息位于机器人的视觉范围内,即用户说话时位于所述机器人的视觉范围内,则可以直接通过面部特征识别的方式识别说话人的身份。为了提高后续识别的准确率,可以将该说话人声音特征更新到预设数据库中。
可以先获得该说话人的面部特征,针对该面部特征基于预设数据库进行识别,以确定该面部特征是否已经存在于预设数据库中。如果识别成功,说明该面部特征已经存在于预设数据库中,则在预设数据库列表中查看该面部特征是否具有对应的声音特征。如果有,则可以根据接下来更多对话的语音数据训练得到更精准的声音特征,在预设数据库中更新该面部特征对应的声音特征。如果没有,则可以通过对话捕获用户语音并构建声音特征,在预设数据库中创建该面部特征对应的声音特征。如果面部特征识别失败,则说明所述预设数据库中不存在该面部特征,则在预设数据库中新建一行加入该面部特征,并通过接下来对话捕获用户语音构建声音特征,并对应的加入预设数据库。
相应的,本申请实施例还提供了一种说话人识别装置,所述说话人识别装置用于图1所示的服务器10,如图5所示,所述说话人识别装置500包括:
方位确定模块501,用于确定说话人的方位信息;
声音特征获取模块502,用于如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;
声音识别模块503,用于将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;
身份确认模块504,用于根据所述识别结果和所述历史交互信息确定所述说话人的身份。
本申请实施例提供在说话人位于机器人视觉范围外时,通过获取说话人的声音特征,并将所述声音特征基于预设数据库进行识别并获得识别结果,然后根据所述识别结果和机器人的历史交互信息确定所述说话人的身份。在用户不在机器人视觉范围内对机器人说话时,能识别说话人的身份,提高机器人的智能度,也提升了用户体验。
在说话人识别装置500的一些实施例中,所述历史交互信息包括历史交互次数;
身份确认模块504具体用于:
如果所述识别结果中相似度大于预设相似度阈值的声音特征为一个,则确定该声音特征对应的用户为说话人;
如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括0个疑似声音特征,则确定相似度最大的声音特征对应的用户为说话人,所述疑似声音特征为相似度与最大相似度的差值小于预设差值阈值的声音特征;
如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括至少一个疑似声音特征,则结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人。
具体的,在其中一些实施例中,身份确认模块504具体用于:
根据相似度最大的声音特征和疑似声音特征的相似度和历史交互次数获得各声音特征的相似度判定概率;
如果相似度最大的声音特征和疑似声音特征中,包括0个第二疑似声音特征,则确定相似度判定概率最大的声音特征对应的用户为所述说话人,所述第二疑似声音特征为与最大相似度判定概率的差值小于预设差值阈值的相似度判定概率对应的声音特征;
如果相似度最大的声音特征和疑似声音特征中,包括至少一个第二疑似声音特征,则确定相似度判定概率最大的声音特征和第二疑似声音特征对应的用户为所述说话人。
在说话人识别装置500的一些实施例中,请参照图6,所述预设数据库还包括声音特征对应的面部特征;
说话人识别装置500还包括:
方向转动模块505,用于如果确定出所述说话人的身份,则使机器人头部转向所述方位信息指示的方向;
验证模块506,用于根据确定出的身份对应的面部特征验证所述身份的正确性,如果所述身份对应的面部特征位于所述机器人的视觉范围内,则所述身份正确,如果所述身份对应的面部特征不位于所述机器人的视觉范围内,则所述身份错误。
其中,在说话人识别装置500的一些实施例中,说话人识别装置500还包括:
对话模块507,用于如果存在验证正确的身份,则根据所述身份与所述身份对应的用户进行对话;
数据库更新模块508,用于如果不存在验证正确的身份,则获取所述机器人视觉范围内说话人的面部特征,并将该面部特征基于所述预设数据库进行识别;
如果识别成功,则获取所述视觉范围内说话人的声音特征,并根据该声音特征在预设数据库内更新或者创建识别成功的面部特征对应的声音特征;
如果识别失败,则将所述视觉范围内说话人的面部特征和声音特征对应的加入所述预设数据库内。
在说话人识别装置500的其他实施例中,说话人识别装置500还包括:
第二数据库更新模块509,用于如果所述方位信息位于所述机器人的视觉范围内,则获取所述说话人的面部特征,并将所述面部特征基于所述预设数据库进行识别;
如果识别成功,则获取所述说话人的声音特征,并根据所述说话人的声音特征在所述预设数据库中创建或者更新所述面部特征对应的声音特征;
如果识别失败,则获取所述说话人的声音特征,将所述说话人的声音特征和所述面部特征对应的加入所述预设数据库内。
需要说明的是,上述说话人识别装置可执行本申请实施例所提供的说话人识别方法,具备执行方法相应的功能模块和有益效果。未在说话人识别装置实施例中详尽描述的技术细节,可参见本申请实施例所提供的说话人识别方法。
图7是本申请实施例提供的机器人10的硬件结构示意图,如图7所示,该机器人10包括:
一个或多个处理器11以及存储器12,图7中以一个处理器11为例。
处理器11和存储器12可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器12作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的说话人识别方法对应的程序指令/模块(例如,附图5所示的方位确定模块501、声音特征获取模块502、声音识别模块503和身份确认模块504)。处理器11通过运行存储在存储器12中的非易失性软件程序、指令以及模块,从而执行机器人的各种功能应用以及数据处理,即实现上述方法实施例的说话人识别方法。
存储器12可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据说话人识别装置的使用所创建的数据等。此外,存储器12可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器12可选包括相对于处理器11远程设置的存储器,这些远程存储器可以通过网络连接至说话人识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器12中,当被所述一个或者多个处理器11执行时,执行上述任意方法实施例中的说话人识别方法,例如,执行以上描述的图3中的方法步骤101至步骤104,图4中的方法步骤201至步骤210;实现图5中的模块501-504、图6中模块501-509的功能。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例提供了一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如图7中的一个处理器11,可使得上述一个或多个处理器可执行上述任意方法实施例中的说话人识别方法,例如,执行以上描述的图3中的方法步骤101至步骤104,图4中的方法步骤201至步骤210;实现图5中的模块501-504、图6中模块501-509的功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (12)
1.一种说话人识别方法,所述方法应用于机器人,其特征在于,所述方法包括:
确定说话人的方位信息;
如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;
将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;
根据所述识别结果和所述历史交互信息确定所述说话人的身份;
所述历史交互信息包括历史交互次数;
所述根据所述识别结果和所述历史交互信息确定所述说话人的身份,包括:
如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括至少一个疑似声音特征,则结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人;
所述结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人,包括:
根据相似度最大的声音特征和疑似声音特征的相似度和历史交互次数获得各声音特征的相似度判定概率;
如果相似度最大的声音特征和疑似声音特征中,包括0个第二疑似声音特征,则确定相似度判定概率最大的声音特征对应的用户为所述说话人,所述第二疑似声音特征为与最大相似度判定概率的差值小于预设差值阈值的相似度判定概率对应的声音特征;
如果相似度最大的声音特征和疑似声音特征中,包括至少一个第二疑似声音特征,则确定相似度判定概率最大的声音特征和第二疑似声音特征对应的用户为所述说话人。
2.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果和所述历史交互信息确定所述说话人的身份,还包括:
如果所述识别结果中相似度大于预设相似度阈值的声音特征为一个,则确定该声音特征对应的用户为说话人;
如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括0个疑似声音特征,则确定相似度最大的声音特征对应的用户为说话人,所述疑似声音特征为相似度与最大相似度的差值小于预设差值阈值的声音特征。
3.根据权利要求1或2所述的方法,其特征在于,所述预设数据库还包括声音特征对应的面部特征;
所述方法还包括:
如果确定出所述说话人的身份,则使机器人头部转向所述方位信息指示的方向;
根据确定出的身份对应的面部特征验证所述身份的正确性,如果所述身份对应的面部特征位于所述机器人的视觉范围内,则所述身份正确,如果所述身份对应的面部特征不位于所述机器人的视觉范围内,则所述身份错误。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果存在验证正确的身份,则根据所述身份与所述身份对应的用户进行对话;
如果不存在验证正确的身份,则获取所述机器人视觉范围内说话人的面部特征,并将该面部特征基于所述预设数据库进行识别;
如果识别成功,则获取所述视觉范围内说话人的声音特征,并根据该声音特征在预设数据库内更新或者创建识别成功的面部特征对应的声音特征;
如果识别失败,则将所述视觉范围内说话人的面部特征和声音特征对应的加入所述预设数据库内。
5.根据权利要求1所述的方法,其特征在于,所述预设数据库还包括声音特征对应的面部特征;
所述方法还包括:
如果所述方位信息位于所述机器人的视觉范围内,则获取所述说话人的面部特征,并将所述面部特征基于所述预设数据库进行识别;
如果识别成功,则获取所述说话人的声音特征,并根据所述说话人的声音特征在所述预设数据库中创建或者更新所述面部特征对应的声音特征;
如果识别失败,则获取所述说话人的声音特征,将所述说话人的声音特征和所述面部特征对应的加入所述预设数据库内。
6.一种说话人识别装置,所述装置应用于机器人,其特征在于,所述装置包括:
方位确定模块,用于确定说话人的方位信息;
声音特征获取模块,用于如果所述方位信息位于所述机器人的视觉范围外,获取所述说话人的声音特征;
声音识别模块,用于将所述声音特征基于预设数据库进行识别并获得识别结果,所述预设数据库包括声音特征、声音特征对应的用户信息和声音特征对应的历史交互信息;
身份确认模块,用于根据所述识别结果和所述历史交互信息确定所述说话人的身份;
所述历史交互信息包括历史交互次数;
所述身份确认模块具体用于:如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括至少一个疑似声音特征,则结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人;
所述结合历史交互次数和相似度、从相似度最大的声音特征和疑似声音特征中、确定一个或至少两个声音特征对应的用户为说话人,具体包括:
根据相似度最大的声音特征和疑似声音特征的相似度和历史交互次数获得各声音特征的相似度判定概率;
如果相似度最大的声音特征和疑似声音特征中,包括0个第二疑似声音特征,则确定相似度判定概率最大的声音特征对应的用户为所述说话人,所述第二疑似声音特征为与最大相似度判定概率的差值小于预设差值阈值的相似度判定概率对应的声音特征;
如果相似度最大的声音特征和疑似声音特征中,包括至少一个第二疑似声音特征,则确定相似度判定概率最大的声音特征和第二疑似声音特征对应的用户为所述说话人。
7.根据权利要求6所述的装置,其特征在于,所述历史交互信息包括历史交互次数;
所述身份确认模块具体还用于:
如果所述识别结果中相似度大于预设相似度阈值的声音特征为一个,则确定该声音特征对应的用户为说话人;
如果所述识别结果中包括至少两个相似度大于预设相似度阈值的声音特征,且包括0个疑似声音特征,则确定相似度最大的声音特征对应的用户为说话人,所述疑似声音特征为相似度与最大相似度的差值小于预设差值阈值的声音特征。
8.根据权利要求6或7所述的装置,其特征在于,所述预设数据库还包括声音特征对应的面部特征;
所述装置还包括:
方向转动模块,用于如果确定出所述说话人的身份,则使机器人头部转向所述方位信息指示的方向;
验证模块,用于根据确定出的身份对应的面部特征验证所述身份的正确性,如果所述身份对应的面部特征位于所述机器人的视觉范围内,则所述身份正确,如果所述身份对应的面部特征不位于所述机器人的视觉范围内,则所述身份错误。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
对话模块,用于如果存在验证正确的身份,则根据所述身份与所述身份对应的用户进行对话;
数据库更新模块,用于如果不存在验证正确的身份,则获取所述机器人视觉范围内说话人的面部特征,并将该面部特征基于所述预设数据库进行识别;
如果识别成功,则获取所述视觉范围内说话人的声音特征,并根据该声音特征在预设数据库内更新或者创建识别成功的面部特征对应的声音特征;
如果识别失败,则将所述视觉范围内说话人的面部特征和声音特征对应的加入所述预设数据库内。
10.根据权利要求6所述的装置,其特征在于,所述预设数据库还包括声音特征对应的面部特征;
所述装置还包括:
第二数据库更新模块,用于如果所述方位信息位于所述机器人的视觉范围内,则获取所述说话人的面部特征,并将所述面部特征基于所述预设数据库进行识别;
如果识别成功,则获取所述说话人的声音特征,并根据所述说话人的声音特征在所述预设数据库中创建或者更新所述面部特征对应的声音特征;
如果识别失败,则获取所述说话人的声音特征,将所述说话人的声音特征和所述面部特征对应的加入所述预设数据库内。
11.一种机器人,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任一项所述的方法。
12.一种非易失性计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被机器人执行时,使所述机器人执行权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810736710.9A CN108908377B (zh) | 2018-07-06 | 2018-07-06 | 说话人识别方法、装置和机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810736710.9A CN108908377B (zh) | 2018-07-06 | 2018-07-06 | 说话人识别方法、装置和机器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108908377A CN108908377A (zh) | 2018-11-30 |
CN108908377B true CN108908377B (zh) | 2020-06-23 |
Family
ID=64425732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810736710.9A Active CN108908377B (zh) | 2018-07-06 | 2018-07-06 | 说话人识别方法、装置和机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108908377B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020089947A (ja) * | 2018-12-06 | 2020-06-11 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN111856399B (zh) * | 2019-04-26 | 2023-06-30 | 北京嘀嘀无限科技发展有限公司 | 基于声音的定位识别方法、装置、电子设备及存储介质 |
CN111899743A (zh) * | 2020-07-31 | 2020-11-06 | 斑马网络技术有限公司 | 获取目标声音的方法、装置、电子设备及存储介质 |
CN115168643B (zh) * | 2022-09-07 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091340A (zh) * | 2016-11-22 | 2018-05-29 | 北京京东尚科信息技术有限公司 | 声纹识别方法和声纹识别系统 |
CN108171032A (zh) * | 2017-12-01 | 2018-06-15 | 平安科技(深圳)有限公司 | 一种身份鉴定方法、电子装置及计算机可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4685712B2 (ja) * | 2006-05-31 | 2011-05-18 | 日本電信電話株式会社 | 話者顔画像決定方法及び装置及びプログラム |
JP2008126329A (ja) * | 2006-11-17 | 2008-06-05 | Toyota Motor Corp | 音声認識ロボットおよび音声認識ロボットの制御方法 |
CN104504408A (zh) * | 2015-01-12 | 2015-04-08 | 吴建忠 | 一种人脸识别比对方法和实现该方法的系统 |
CN105069426B (zh) * | 2015-07-31 | 2018-09-04 | 小米科技有限责任公司 | 相似图片判断方法以及装置 |
CN106972990B (zh) * | 2016-01-14 | 2020-06-02 | 芋头科技(杭州)有限公司 | 基于声纹识别的智能家居设备 |
CN105892829A (zh) * | 2016-04-02 | 2016-08-24 | 上海大学 | 一种基于身份识别的人-机器人交互装置和方法 |
CN106599866B (zh) * | 2016-12-22 | 2020-06-02 | 上海百芝龙网络科技有限公司 | 一种多维度用户身份识别方法 |
CN107274892A (zh) * | 2017-04-24 | 2017-10-20 | 乐视控股(北京)有限公司 | 说话人识别方法及装置 |
CN107393527A (zh) * | 2017-07-17 | 2017-11-24 | 广东讯飞启明科技发展有限公司 | 说话人数目的判断方法 |
CN107480246B (zh) * | 2017-08-10 | 2021-03-12 | 北京中航安通科技有限公司 | 一种关联人员的识别方法及装置 |
-
2018
- 2018-07-06 CN CN201810736710.9A patent/CN108908377B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091340A (zh) * | 2016-11-22 | 2018-05-29 | 北京京东尚科信息技术有限公司 | 声纹识别方法和声纹识别系统 |
CN108171032A (zh) * | 2017-12-01 | 2018-06-15 | 平安科技(深圳)有限公司 | 一种身份鉴定方法、电子装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108908377A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108908377B (zh) | 说话人识别方法、装置和机器人 | |
CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
US10186264B2 (en) | Promoting voice actions to hotwords | |
US10706852B2 (en) | Confidence features for automated speech recognition arbitration | |
US10255922B1 (en) | Speaker identification using a text-independent model and a text-dependent model | |
US10311863B2 (en) | Classifying segments of speech based on acoustic features and context | |
US9401148B2 (en) | Speaker verification using neural networks | |
US9542948B2 (en) | Text-dependent speaker identification | |
US10733986B2 (en) | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium | |
JP6968908B2 (ja) | コンテキスト取得方法及びコンテキスト取得デバイス | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
US11557301B2 (en) | Hotword-based speaker recognition | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
CN104143326A (zh) | 一种语音命令识别方法和装置 | |
EP3956884B1 (en) | Identification and utilization of misrecognitions in automatic speech recognition | |
WO2019060160A1 (en) | VOICE TRANSLATION DEVICE AND METHOD THEREOF | |
US20200075044A1 (en) | System and method for performing multi-model automatic speech recognition in challenging acoustic environments | |
CN112002349B (zh) | 一种语音端点检测方法及装置 | |
CN112634911B (zh) | 人机对话方法、电子设备及计算机可读存储介质 | |
CN109785846A (zh) | 单声道的语音数据的角色识别方法及装置 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN111816216A (zh) | 语音活性检测方法和装置 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN111344783A (zh) | 说话人识别系统中的注册 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |