CN111833882A - 声纹信息管理方法、装置、系统及计算设备、存储介质 - Google Patents

声纹信息管理方法、装置、系统及计算设备、存储介质 Download PDF

Info

Publication number
CN111833882A
CN111833882A CN201910244648.6A CN201910244648A CN111833882A CN 111833882 A CN111833882 A CN 111833882A CN 201910244648 A CN201910244648 A CN 201910244648A CN 111833882 A CN111833882 A CN 111833882A
Authority
CN
China
Prior art keywords
voice
information
voiceprint
user
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910244648.6A
Other languages
English (en)
Inventor
林文彬
余康
张平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910244648.6A priority Critical patent/CN111833882A/zh
Publication of CN111833882A publication Critical patent/CN111833882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种声纹信息管理方法、装置、系统及计算设备、存储介质。该方法包括:获取用户的至少两段语音信息,所述至少两段语音信息分别对应于至少两种语音录制策略;基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息;与所述用户关联地存储所述至少两个声纹信息。由此,从不同维度进行语音录制,以丰富用户声纹信息库,从而为提高基于声纹的声纹服务的准确率和稳定性提供支持和保障。

Description

声纹信息管理方法、装置、系统及计算设备、存储介质
技术领域
本公开涉及声纹识别技术领域,特别涉及一种声纹信息管理方法、装置、系统及计算设备、存储介质。
背景技术
声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。不同人说相同的话,其产生的声波不同,相应的声波频谱,即声纹信息也不同。因此,通过比对声纹信息可以判断对应的说话人是否相同,即实现基于声纹识别的身份认证。目前,基于声纹识别的身份认证方式已广泛应用于多种场景中,以为用户提供方便、安全的技术支持。
然而,目前市场上的一些基于声纹识别的产品,采用同一个声纹信息进行识别,这在很大程度上影响基于该声纹信息的声纹识别的准确率。
由此,需要一种声纹信息管理方案,以便提高声纹识别的准确率。
发明内容
本公开的目的是提供一种声纹信息管理方法、装置和系统,以为提高声纹识别的准确率提供支持。
根据本公开的一个方面,提供了一种声纹信息管理方法,包括:获取用户的至少两段语音信息,所述至少两段语音信息分别对应于至少两种语音录制策略;基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息;与所述用户关联地存储所述至少两个声纹信息。
可选地,与所述用户的身份信息关联地存储所述至少两个声纹信息;或者与为所述用户创建的声纹账号关联地存储所述至少两个声纹信息。
可选地,所述至少两种语音录制策略在至少一个维度上不同。
可选地,所述至少一个维度包括如下的至少一项:空间维度;场景维度;语音内容维度;以及设备类型维度。
可选地,所述空间维度包括:所述用户相对于采集所述语音信息的电子设备的方位角;和/或所述用户相对于采集所述语音信息的电子设备的距离。
可选地,该方法还可以包括:与所述用户关联地存储采集所述语音信息的电子设备的设备类型。
可选地,该方法还可以包括:分别向所述用户的客户端设备和/或采集所述语音信息的电子设备发送所述至少两种语音录制策略。
可选地,该方法还可以包括:将从所述语音信息中获取的声纹信息与已经存储的至少两个声纹信息进行匹配;以及在匹配成功的情况下,向所述用户提供所述语音信息对应的服务。
可选地,在所述语音信息用于声纹服务的情况下,将从所述语音信息中获取的声纹信息与已经存储的至少两个声纹信息进行匹配。
根据本公开的另一个方面,还提供了一种声纹信息管理方法,包括:获取用户的语音信息;将从所述语音信息中获取的声纹信息与已经存储的至少两个声纹信息进行匹配;在匹配成功的情况下,向所述用户提供所述语音信息对应的服务。
可选地,所述已经存储的至少两个声纹信息分别对应于至少两种语音录制策略,所述至少两种语音录制策略在至少一个维度上不同。
根据本公开的又一个方面,提供了一种声纹信息管理方法,包括:发送声纹注册请求;输出第一语音录制策略;响应于对应于所述第一语音录制策略的语音信息被上传,向所述用户输出第二语音录制策略。
可选地,第一语音录制策略和第二语音录制策略是从本地或者服务器获取的;并且/或者所述第一语音录制策略和第二语音录制策略在至少一个维度上不同。
可选地,所述至少一个维度包括如下的至少一项:空间维度;场景维度;语音内容维度;以及设备类型维度。
可选地,所述空间维度包括:所述用户相对于采集所述语音信息的电子设备的方位角;和/或所述用户相对于采集所述语音信息的电子设备的距离。
可选地,所述方法在如下的至少一项设备或模块上执行:电子设备;客户端设备;以及语音模组。
根据本公开的另一个方面,提供了一种声纹信息管理系统,包括:电子设备,用于采集用户的至少两段语音信息,所述至少两段语音信息分别对应于至少两种语音录制策略;以及服务器,获取所述至少两段语音信息,并基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息,以及与所述用户关联地存储所述至少两个声纹信息。
可选地,所述系统还可以包括客户端设备,所述客户端设备与所述电子设备关联,所述电子设备和/或所述客户端设备用于向服务器发送声纹注册请求,并向用户输出语音录制策略。
可选地,与所述用户的身份信息关联地存储所述至少两个声纹信息;或者与为所述用户创建的声纹账号关联地存储所述至少两个声纹信息。
根据本公开的第四个方面,提供了一种执行声纹信息管理方法的服务器,包括:语音获取装置,用于获取用户的至少两段语音信息,所述至少两段语音信息分别对应于至少两种语音录制策略;声纹信息提取装置,用于基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息;以及声纹账号管理装置,用于与所述用户关联地存储所述至少两个声纹信息。
可选地,与所述用户的身份信息关联地存储所述至少两个声纹信息;或者与为所述用户创建的声纹账号关联地存储所述至少两个声纹信息。
可选地,所述至少两种语音录制策略在至少一个维度上不同。
可选地,所述至少一个维度包括如下的至少一项:空间维度;场景维度;语音内容维度;以及设备类型维度。
可选地,所述空间维度包括:所述用户相对于采集所述语音信息的电子设备的方位角;和/或所述用户相对于采集所述语音信息的电子设备的距离。
根据本公开的另一个方面,提供了一种声纹信息管理装置,包括:语音获取装置,用于获取用户的语音信息;声纹匹配装置,用于将从所述语音信息中获取的声纹信息与已经存储的至少两个声纹信息进行匹配;服务装置,用于在匹配成功的情况下,向所述用户提供所述语音信息对应的服务。
根据本公开的另一个方面,提供了一种执行声纹信息管理方法的装置,包括:声纹注册装置,用于发送声纹注册请求;第一录制策略输出装置,用于输出第一语音录制策略;以及第二录制策略输出装置,用于响应于对应于所述第一语音录制策略的语音信息被上传,向所述用户输出第二语音录制策略。
可选地,所述装置是如下的至少一种:电子设备;客户端设备;以及语音模组。
根据本公开的另一个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
根据本公开的另一个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本公开的技术方案,通过从不同维度进行语音录制和声纹信息采集,以丰富用户的声纹信息库,从而为提高基于声纹的声纹服务的稳定性和准确率提供支持。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本公开一个实施例的声纹信息管理系统的示意图。
图2示出了根据本公开一个实施例的声纹信息管理方法的流程示意图。
图3示出了根据本公开一个实施例的声纹信息管理方法的流程示意图。
图4A-4C示出了根据本公开一个实施例的声纹注册流程的示意图。
图5示出了根据本公开一个实施例的服务器的示意性框图。
图6示出了根据本公开一个实施例的客户端设备的示意性框图。
图7示出了根据本公开一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了根据本公开一个实施例的声纹信息管理系统的示意图。
在一个实施例中,本公开的声纹信息管理系统100可以包括至少一个服务器130和多个客户端设备110以及多个电子设备120。
如图1所示,客户端设备110和/或电子设备120可以经由网络实现与服务器130的信息收发。服务器130例如可以通过访问数据库来获取客户端设备和/或电子设备所需的内容。客户端设备110和电子设备120之间的连线表示这两者之间可以存在信息交互,上述连线可以是有线连接、无线连接,或是能够进行信息传送的任何形式的连接。
在其中,客户端设备110是可用来进行网络访问的任何合适的便携式电子设备,包括但不限于智能电话、平板电脑或是其他便携式客户端。电子设备120是可用来进行网络访问并且具有语音交互功能的电子设备,包括但不限于智能音箱、智能家电设备等。服务器130则是能够通过网络访问提供交互服务所需信息的任何服务器。网络可以是广义上的用于信息传递的网络,可以包括一个或多个通信网络,诸如无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等。应当注意,如果向图示环境中添加附加模块或从其中去除个别模块,不会改变本发明的示例实施例的底层概念。
在随后的描述中会选择其中的一个或部分客户端设备或电子设备加以描述,但是本领域技术人员应该理解的是,上述多个客户端设备或电子设备旨在表示真实网络中存在的大量终端,示出的单个服务器旨在表示本发明的技术方案涉及服务器的操作。对单个客户端设备或单个电子设备以及单个服务器加以详述至少为了说明方便,而非暗示对移动端和服务器的类型或是位置等具有限制。
在一个实施例中,用户可以经由电子设备120(例如智能音箱)向服务器发送声纹注册请求,和/或向用户输出来自服务器的语音录制策略,以及在随后经由该电子设备采集用户响应于语音录制策略的至少两段语音信息,并将所采集的至少两端语音信息上传至服务器,其中,所述至少两段语音信息分别对应于至少两种语音录制策略。服务器130可以获取用户的至少两段语音信息,并基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息,以及与所述用户关联地存储所述至少两个声纹信息。
在另一个实施例中,电子设备120可以与上述客户端设备110协同实现上述处理过程。例如,用户可以经由客户端设备110(例如智能电话)发出声纹注册请求,并向用户输出语音录制策略。该语音录制策略可以在客户端设备本地存储的也可以是从服务器获取的。用户可以基于客户端设备110所输出的语音录制策略进行语音信息的录制。电子设备120可以采集用户响应于语音录制策略的至少两段语音信息,所述至少两段语音信息分别对应于至少两种语音录制策略。服务器130可以获取用户的至少两段语音信息,并基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息,以及与所述用户关联地存储所述至少两个声纹信息。
上述的至少两种语音录制策略可以在至少一个维度上不同。所述至少一个维度可以包括但不限于下表1所示的空间维度、场景维度、语音内容维度、设备类型维度等。不同的维度相应的还可以包括子维度或维度因素,例如空间维度可以包括用户相对于采集语音信息的电子设备的方位角、距离等;例如场景维度可以包括安静环境场景、带背景噪声环境场景等;例如语音内容维度可以包括文字、数字、音调或其任意组合等;例如设备类型维度可以包括采集语音信息的设备的设备类型和/或该设备所配置的语音模组的模组类型等。应当理解的是,上述维度和/或维度因素仅是对本公开的不同维度的示意性举例,而非对本公开的维度和/或维度因素的任何限定。
表1
Figure BDA0002010723140000061
Figure BDA0002010723140000071
如下将结合附图及实施例详细说明本公开的声纹信息管理方案。
图2示出了根据本公开一个实施例的声纹信息管理方法的流程示意图。图5示出了根据本公开一个实施例的服务器的示意性框图。其中,图5所示的服务器500可以用于实现图2所示的声纹信息管理方法,并且,该方法可以用于用户进行声纹注册(即提取用户的声纹信息,与该用户进行关联)的阶段。应当理解的是,图2所述的声纹信息管理方法也可以是在设备侧本地执行的,本公开对此不做限制。
在用户需要进行声纹注册的情况下,用户可以通过与电子设备的交互(例如语音交互)以请求声纹注册,电子设备可以响应于该交互向服务器发送声纹注册请求。响应于该声纹注册请求,服务器可以向用户的电子设备提供语音录制策略,以便为用户录制语音信息提供支持和/或引导。
在一个实施例中,电子设备可以向用户输出(例如以语音输出方式)语音录制策略,以引导用户根据该语音录制策略录制声纹注册所需的语音信息,并将所录制的语音信息上传至服务器。
如前所述,由于电子设备的设备类型和/或进行语音录制时所处的环境和/或场景不同,均可能会造成从所采集的语音信息中提取的声纹信息的差异,从而影响基于该声纹信息的识别、认证等声纹服务的准确率。
因此,在本公开实施例中,在声纹注册阶段,例如可以通过分段式多轮录制语音的方式完成整个声纹注册流程。其中,可以分段式采集用户的至少两段语音信息,每段语音信息均可以是基于一种语音录制策略录制的,并且,所述至少两段语音信息可以分别对应于至少两种语音录制策略。
参见图2,在步骤S210,例如可以由图5所示的语音获取装置510,获取用户的至少两段语音信息。
该语音信息以及下述的第一/二/三/四语音信息可以是由图1所示的电子设备采集的,该电子设备可以具有音频采集/录制功能,能够采集/录制用户的语音信息。并且,该电子设备可以将所采集的用户的语音信息上传至服务器,以便于服务器能够从所接收到的语音信息中获取用户的声纹信息。应当理解的是,本文中述及的“第一”、“第二”、“第三”、“第四”的描述,旨在对描述对象加以区分,而非对其顺序和大小有任何明示或是暗示的规定。
随后,在步骤S220,例如可以由图5所示的声纹信息提取装置520,基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息。
在步骤S230,例如可以由图5所示的声纹账号管理装置530,与所述用户关联地存储所述至少两个声纹信息。
其中,可以通过多种方式实现用户声纹信息的存储。例如,可以与用户的身份信息关联地存储所述至少两个声纹信息,或者,也可以通过为用户创建声纹账号,并与为该用户创建的声纹账号关联地存储用户的至少两个声纹信息。具体存储声纹信息的方式可根据具体的应用场景确定,本公开对此不做限制。
由此,通过基于不同的语音录制策略采集多段语音信息以获取用户的多个声纹信息,进一步丰富用户的声纹信息库,以为提高基于声纹的识别、认证、支付等声纹服务的准确率和安全性提供支持。
在一个实施例中,服务器可以分别向所述用户的电子设备发送所述至少两种语音录制策略,以基于分段式录制的方式实现至少两段语音信息的采集。
具体地,例如可以首先向用户输出第一语音录制策略,并响应于电子设备录制的语音信息被上传,向所述用户输出第二语音录制策略。
由此,分段式采集的至少两段语音信息可以并上传至服务器,而从这至少两段语音信息中获取的至少两个声纹信息也能够被与用户关联存储,以丰富用户的声纹信息库。
为充分考虑多种应用场景,可以预设多种维度以便于制定上述语音录制策略,并且,所述至少两种语音录制策略在至少一个维度上不同。其中,至少一个维度例如可以包括空间维度、场景维度、语音内容维度、设备类型维度等。
如前所述,不同维度可以分别对应于其各自对应的子维度或维度因素。例如,空间维度可以对应于用户与采集语音信息的电子设备之间的距离、方位角度等空间因素,场景维度可以对应于安静场景、带背景噪声的场景(例如看电视、在跑步机上跑步、厨房做饭、播放音乐等)等场景因素、语音内容维度可以对应于不同的语音内容(包括语言、文字、数字、音调或其任意组合等)的语音内容因素,设备类型维度可以对应于采集语音信息的设备的设备类型因素和/或该设备所配置的语音模组的模组类型等。
应当理解的是,上述维度和/或维度因素仅是对本公开的不同维度的示意性举例,而非对本公开的维度和/或维度因素的任何限定,本公开的维度和/或维度因素还可以是其它维度及其对应的维度因素。并且,语音录制策略可以对应于预设的多种维度中的任意一种单一维度,也可以分别对应于预设的多种维度中的至少两种或多种,并且,不同的语音录制策略可以对应于至少两种或多种维度的随机组合。本公开对此均不做限制。
在本公开实施例中,上述至少两种语音录制策略可以是预先制定并存储的,也可以是响应于用户的声纹注册请求而实时生成的,至少两种语音录制策略可以是从本地或者服务器获取的。
在一个实施例中,至少两种语音录制策略可以预先制定并存储在电子设备本地或服务器或服务器能够访问的其它设备中。在用户经由该电子设备发起声纹注册请求时,电子设备可以从本地或服务器中分别获取至少两种语音录制策略并向用户输出,以引导用户分别进行语音录制。
在一个实施例中,至少两种语音录制策略也可以由服务器响应于电子设备的声纹注册请求而实时生成,并下发给该电子设备以向用户输出,从而引导用户分别进行语音录制。其中,在用户经由该电子设备发起声纹注册请求时,该电子设备可以实时采集其当前所处的场景的信息(例如背景噪声信息等)并上报给服务器,以使得服务器可以根据该电子设备当前所处的场景实时制定语音录制策略,并下发给该电子设备以向用户实时输出。
由此,本公开实施例中可以基于预先制定和存储的至少两种语音录制策略进行语音录制,也可以根据用户及其电子设备所处的场景或环境实时生成个性化语音录制策略以进行语音录制,从而为声纹信息的获取提供多种可能,从而为基于声纹的声纹服务的准确率、安全性等提供支持和保障。
在一些应用场景(例如智能家居)下,可以与用户(例如用户身份信息)关联地存储了多个声纹信息,不同的声纹信息可能是经由不同的电子设备采集的。为便于对用户的声纹信息进行管理,可以基于某一个维度(例如进行语音录制的电子设备的设备类型维度)对这多个声纹信息进行关联采集以及分类存储。在一个实施例中,也可以为用户创建声纹账号,该声纹账号可以对应于基于多个不同类型的电子设备分别获取的声纹信息。
具体地,在该用户的声纹账号尚未注册的情况下,响应于声纹注册请求,服务器可以为该用户创建声纹账号,并且可以与为所述用户创建的声纹账号关联地存储所述电子设备的设备类型(例如设备标识)以及对应采集到的声纹信息。在该用户的声纹账号已创建的情况下,响应于声纹注册请求,服务器可以与该声纹账号关联地创建对应于发起该声纹注册请求的电子设备的子声纹账号,并与该子声纹账号关联地存储基于该电子设备获取的声纹信息。
由此,即可通过向用户提供一个声纹账号实现对通过不同电子设备采集的多个声纹信息的管理,从而在一定程度上避免在单一声纹信息采集机制下由于不同构造类型的语音设备具有不同的外观、麦克风阵列以及语音处理能力等而导致的用户的声纹信息的差异,以为提高基于声纹的服务的准确率和安全性提供支持。
在用户完成声纹注册后,与该用户关联存储的声纹信息可以用于一些具体的声纹服务,例如声纹锁、身份认证、声纹支付等服务。
具体地,在获取了用户的语音信息之后,可以首先对该语音信息进行解析、识别,在判定该语音信息用于声纹注册的情况下,可以基于如前所述的方案实现对用户的声纹信息的提取和存储。在判定该语音信息用于进行声纹服务的情况下,可以将从所述语音信息中获取的声纹信息分别与已经存储的至少两个声纹信息逐一进行匹配,从语音信息中提取的声纹信息与已经存储的任一声纹信息匹配即可视为匹配成功,在匹配成功的情况下,可以向所述用户提供所述语音信息对应的服务。而在匹配失败的情况下,也可以如前所述通过向用户提供至少两种语音录制策略,来引导用户进行声纹注册,在此不再赘述。
由此,本公开通过在声纹注册阶段采集的至少两段语音信息以丰富用户的声纹信息库,从而为之后基于声纹信息的声纹服务的准确率以及安全性等提供支持和保障,以为用户提供更好的声纹体验。
在另一个实施例中,本公开如上所述的声纹信息管理方案也可由图1所示的电子设备、客户端设备以及服务器协同实现。
其中,该电子设备可以与客户端设备关联。客户端设备上可以安装或运行有相关应用程序客户端,用户可以例如登录该客户端设备侧的应用程序,并实现对其声纹的管理。电子设备可以具有音频录制功能和网络通信功能。在一个实施例中,用户可以通过与客户端设备的交互以向服务器发起声纹注册请求,并基于客户端设备侧输出的获取语音录制策略,通过与电子设备的语音交互实现语音信息的录制。
图3示出了根据本公开一个实施例的声纹信息管理方法的流程示意图。图6示出了根据本公开一个实施例的声纹信息管理装置的示意性框图。其中,图3所示的方法可在图6所示的声纹信息管理装置600上执行。在一个实施例中,该声纹信息管理装置可以是图1所述的电子设备和/或客户端设备,也可以是预定的语音模组,并且该语音模组可以被设置在任何可以进行网络访问的终端设备上,本公开对此不做限制。
参见图3,在步骤S310,例如可以由图6所示的声纹注册装置610,向服务器发送声纹注册请求。
在步骤S320,例如可以由图6所示的第一录制策略输出装置620,向用户输出第一语音录制策略。
第一语音录制策略可以是在声纹信息管理装置本地存储的也可以是从服务器接收的。声纹信息管理装置可以基于显示屏幕向用户呈现第一语音录制策略,也可以以语音播报的方式向用户播放第一语音录制策略,具体输出方式可以基于该声纹信息管理装置的实现形式确定,本公开对此不做限制。
根据所输出的第一语音录制策略,用户可以与电子设备进行语音交互以实现语音信息的录制。该电子设备可以将所录制的语音信息上传至服务器。在一个实施例中,当该声纹信息管理装置是图1所示的客户端设备时,该电子设备可以是与该客户端设备关联的电子设备,基于该关联的客户端设备和电子设备可以协同实现本公开的声纹信息管理方案。
之后,在步骤S330,例如可以由图6所示的第二录制策略输出装置630,响应于对应于所述第一语音录制策略的语音信息被上传,向所述用户输出第二语音录制策略。
与第一语音录制策略相同或相似,第二语音录制策略也可以是声纹信息管理装置本地存储的也可以是从服务器获取的。声纹信息管理装置可以例如基于显示屏幕向用户呈现第二语音录制策略,也可以以语音播报的方式向用户播放第二语音录制策略。
在一个实施例中,所述第一语音录制策略和第二语音录制策略可以在至少一个维度上不同。其中,至少一个维度包括如下的至少一项:空间维度;场景维度;语音内容维度;以及设备类型维度。该维度或其相关内容可参见上文的相关描述,在此不再赘述。
为了更清楚地理解本公开的声纹信息管理方案的实现流程,图4A-4C示出了根据本公开一个实施例的声纹注册流程示意图,以进行示意性说明。其中,该声纹注册过程由用户、客户端设备、电子设备以及服务器协同实现,并且,整个声纹注册过程可以分段完成,声纹注册第一阶段之后的阶段采集到的声纹信息均可以作为声纹注册第一阶段的声纹信息的补充,以实现对用户的声纹信息的增强。应当理解的是,图4A-4C所示流程图仅是对本公开的声纹信息管理方案的示例性说明而非限定。
参见图4A,在步骤S401,用户可以在客户端设备上呈现的声纹注册界面上输入其身份信息、欲创建的声纹账号的声纹名称等。
之后,在步骤S402,客户端设备可以响应于用户的声纹注册操作,发起声纹注册请求,以向服务器请求声纹注册。
在步骤S403,客户端设备接收服务器发送的第一语音录制策略,该语音录制例如可以包括“保持环境安静”、“与电子设备间隔距离1”、“相对于电子设备的方位角1”、“语音内容1”等。
在步骤S404,用户根据第一语音录制策略,通过将语音采集环境调整至安静场景中,并调整用户本人与采集语音信息的电子设备的相对位置(例如用户相对于电子设备的方位角1、距离1),并通过向电子设备发出第一语音以进行语音内容1的录制,之后,电子设备将所录制的第一语音信息发送至服务器。
在步骤S405,服务器对接收到的第一语音信息进行解析,并在该第一语音信息的内容与向客户端设备发送的语音内容1匹配的情况下,基于接收到的第一语音信息进行声纹信息提取。在该第一语音信息的内容与向客户端设备发送的语音内容1不匹配的情况下,在返回步骤S403,并提醒用户再次根据第一语音录制策略进行语音内容1的录制,直至能够采集到与语音内容1匹配的第一语音信息。
在步骤S406,判断声纹信息是否提取成功。在声纹信息提取成功的情况下,进入步骤S407,将所提取到的声纹信息与用户(例如与用户身份信息或者与为用户创建的声纹账号等,下同)关联存储,完成声纹注册第一阶段。
在声纹信息提取失败的情况下,返回步骤S403,并提醒用户再次根据第一语音录制策略进行语音内容1的录制,直至声纹信息提取成功。
在完成声纹注册第一阶段之后,客户端设备还可以向用户提供“声纹增强”服务,例如,可以向用户提供“从空间维度增强声纹”、“从场景维度增强声纹”、“从设备类型维度增强声纹”等,以使得可以通过录制同一个用户除声纹注册第一阶段以外的多段第一语音,提取更多的声纹信息作为补充,实现对用户的声纹信息的增强。
在一个实施例中,参见图4B,在步骤S408,用户例如可以在客户端设备上向其提供的声纹注册界面上选择“从空间维度增强声纹”。在步骤S409,客户端设备可以向服务器发起声纹增强请求,以请求增强用户的声纹信息。在其它实施例中,在用户完成声纹注册第一阶段之后,服务器也可以直接向用户的客户端设备发送第二语音录制策略,并引导用户完成对其声纹信息的增强,本公开对其具体实现方式不做限制。
在步骤S410,服务器向客户端设备发送第二语音录制策略,该语音录制例如可以包括“保持环境安静”、“与电子设备间隔距离2”、“相对于电子设备的方位角2”、“语音内容2”等。
在步骤S411,用户根据第二语音录制策略,通过将语音采集环境调整至安静场景中,并调整用户本人与电子设备的相对位置(例如用户相对于电子设备方位角2、距离2),通过向电子设备发出第一语音以进行语音内容2的录制。之后,电子设备将所录制的第二语音信息发送至服务器。在该第二语音信息的内容与向客户端设备发送的语音内容2不匹配的情况下,在返回步骤S410,并提醒用户再次根据第二语音录制策略进行语音内容2的录制,直至能够采集到与语音内容2匹配的第二语音信息。
在步骤S412,服务器对接收到的第二语音信息进行解析,并在该第二语音信息的内容与向客户端设备发送的语音内容2匹配的情况下,基于接收到的第二语音信息进行声纹信息提取。
在步骤S413,判断声纹信息是否提取成功。在声纹信息提取成功的情况下,进入步骤S414,将所提取到的声纹信息与用户进行关联存储,完成声纹注册第二阶段即声纹增强阶段。
在声纹信息提取失败的情况下,返回步骤S410,并提醒用户再次根据第二语音录制策略进行语音内容2的录制,直至声纹信息提取成功。
在另一个实施例中,参见图4C,在步骤S415,用户可以在客户端设备上向其提供的声纹注册界面上选择“从场景维度增强声纹”。
在步骤S416,客户端设备向服务器发起声纹增强请求,以请求增强用户的声纹信息。在其它实施例中,在用户完成声纹注册第一阶段和/或上述声纹注册第二阶段之后,服务器也可以直接向用户的客户端设备发送第三语音录制策略,并引导用户完成对其声纹信息的增强,本公开对其具体实现方式不做限制。
在步骤S417,服务器向客户端设备发送第三语音录制策略,该语音录制例如可以包括“添加场景干扰(例如打开电视机,将电视机音量调整到日常使用的音量)”、“与电子设备间隔距离1”、“相对于电子设备的方位角1”、“语音内容1”等。
在步骤S418,用户根据第三语音录制策略,使用户本人以及采集语音信息的电子设备处于第三语音录制策略所指示的场景,如将电视机音量调整到日常使用的音量,并调整用户本人与电子设备的相对位置,如用户与电子设备间隔距离1、相对于电子设备的方位角1,并通过向电子设备发出第三语音以进行语音内容1的录制。之后,电子设备将所录制的第三语音信息发送至服务器。
在步骤S419,服务器对接收到的第三语音信息进行解析,并在该第三语音信息中的场景信息(例如背景噪声)与第三语音录制策略中的场景干扰匹配、并且第三语音信息中的内容与向客户端设备发送的语音内容1匹配的情况下,基于接收到的第三语音信息进行声纹信息提取。在该第三语音信息中的场景信息(例如背景噪声)与第三语音录制策略中的场景干扰匹配、和/或第三语音信息中的内容与向客户端设备发送的语音内容1不匹配的情况下,在返回步骤S417,并提醒用户再次根据第三语音录制策略进行语音内容1的录制,直至能够采集到基于第三语音录制策略的场景干扰采集的并与语音内容1匹配的第三语音信息。
在步骤S420,判断声纹信息是否提取成功。在声纹信息提取成功的情况下,进入步骤S421,将所提取到的声纹信息与用户进行关联存储,完成声纹注册第三阶段即声纹增强阶段。
在声纹信息提取失败的情况下,返回步骤S417,并提醒用户再次根据第三语音录制策略进行语音内容1的录制,直至声纹信息提取成功。
由此,本公开的技术方案中,可以通过从不同维度进行分段式语音录制,以实现用户的声纹注册,丰富用户的声纹信息库,从而为基于用户声纹的服务的准确率和稳定性提供支持和保障。
应当理解的是,上述仅是对本公开的举例说明而非对本公开的任何限定。上述空间维度,不局限于固定的距离、方位角度和语音内容,也可以是这几个因素的随机组合。上述场景维度,不局限于所举例的看电视场景,还可以包括跑步、做饭等场景,以及可以是这多个场景的随机组合。上述从空间维度或场景维度进行声纹增强,也不局限于单一维度的语音录制,也可以是其它维度,或者也可以是空间维度、场景维度或其它维度的随机组合。本公开对此不作限制。
由此,通过本公开如上所述的声纹信息管理方案,在声纹注册阶段,通过采用分段式多轮录制的方式进行语音采集,以为用户存储对应于不同维度的丰富的声纹信息库,从而为在之后用户的基于声纹信息的声纹服务的准确率和安全性提供支持和保障。
图7示出了根据本发明一实施例的计算设备的结构示意图。
参见图7,计算设备700包括存储器710和处理器720。
处理器720可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器720可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器710可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器710可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器710可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器710上存储有可处理代码,当可处理代码被处理器720处理时,可以使处理器720执行上文述及的声纹信息管理方法。
上文中已经参考附图详细描述了根据本发明的声纹信息管理方法、装置和系统。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (28)

1.一种声纹信息管理方法,其特征在于,包括:
获取用户的至少两段语音信息,所述至少两段语音信息分别对应于至少两种语音录制策略;
基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息;
与所述用户关联地存储所述至少两个声纹信息。
2.根据权利要求1所述的方法,其特征在于,
与所述用户的身份信息关联地存储所述至少两个声纹信息;或者
与为所述用户创建的声纹账号关联地存储所述至少两个声纹信息。
3.根据权利要求1所述的方法,其特征在于,所述至少两种语音录制策略在至少一个维度上不同。
4.根据权利要求3所述的方法,其特征在于,所述至少一个维度包括如下的至少一项:
空间维度;
场景维度;
语音内容维度;以及
设备类型维度。
5.根据权利要求4所述的方法,其特征在于,所述空间维度包括:
所述用户相对于采集所述语音信息的电子设备的方位角;和/或
所述用户相对于采集所述语音信息的电子设备的距离。
6.根据权利要求1所述的方法,其特征在于,还包括:
与所述用户关联地存储采集所述语音信息的电子设备的设备类型。
7.根据权利要求1所述的方法,其特征在于,还包括:
分别向所述用户的客户端设备和/或采集所述语音信息的电子设备发送所述至少两种语音录制策略。
8.根据权利要求1所述的方法,其特征在于,还包括:
将从获取的语音信息中获取的声纹信息与已经存储的至少两个声纹信息进行匹配;以及
在匹配成功的情况下,向所述用户提供所述语音信息对应的服务。
9.根据权利要求8所述的方法,其特征在于,
在所述语音信息用于声纹服务的情况下,将从所述语音信息中获取的声纹信息与已经存储的至少两个声纹信息进行匹配。
10.一种声纹信息管理方法,其特征在于,包括:
获取用户的语音信息;
将从所述语音信息中获取的声纹信息与已经存储的至少两个声纹信息进行匹配;
在匹配成功的情况下,向所述用户提供所述语音信息对应的服务。
11.根据权利要求10所述的方法,其特征在于,
所述已经存储的至少两个声纹信息分别对应于至少两种语音录制策略,所述至少两种语音录制策略在至少一个维度上不同。
12.一种声纹信息管理方法,其特征在于,包括:
发送声纹注册请求;
输出第一语音录制策略;
响应于对应于所述第一语音录制策略的语音信息被上传,向所述用户输出第二语音录制策略。
13.根据权利要求12所述的方法,其特征在于,
第一语音录制策略和第二语音录制策略是从本地或者服务器获取的;并且/或者
所述第一语音录制策略和第二语音录制策略在至少一个维度上不同。
14.根据权利要求13所述的方法,其特征在于,所述至少一个维度包括如下的至少一项:
空间维度;
场景维度;
语音内容维度;以及
设备类型维度。
15.根据权利要求14所述的方法,其特征在于,所述空间维度包括:
所述用户相对于采集所述语音信息的电子设备的方位角;和/或
所述用户相对于采集所述语音信息的电子设备的距离。
16.根据权利要求14所述的方法,其特征在于,所述方法在如下的至少一项设备或模块上执行:
电子设备;
客户端设备;以及
语音模组。
17.一种声纹信息管理系统,其特征在于,包括:
电子设备,用于采集用户的至少两段语音信息,并将所述至少两段语音信息发送给服务器,所述至少两段语音信息分别对应于至少两种语音录制策略;以及
服务器,获取所述至少两段语音信息,并基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息,以及与所述用户关联地存储所述至少两个声纹信息。
18.根据权利要求17所述的系统,其特征在于,还包括:
客户端设备,与所述电子设备关联,
所述电子设备和/或所述客户端设备用于向服务器发送声纹注册请求,并向用户输出语音录制策略。
19.一种执行声纹信息管理方法的服务器,其特征在于,包括:
语音获取装置,用于获取用户的至少两段语音信息,所述至少两段语音信息分别对应于至少两种语音录制策略;
声纹信息提取装置,用于基于所述至少两段语音信息,分别获取所述用户的至少两个声纹信息;以及
声纹账号管理装置,用于与所述用户关联地存储所述至少两个声纹信息。
20.根据权利要求19所述的服务器,其特征在于,
与所述用户的身份信息关联地存储所述至少两个声纹信息;或者
与为所述用户创建的声纹账号关联地存储所述至少两个声纹信息。
21.根据权利要求19所述的服务器,其特征在于,所述至少两种语音录制策略在至少一个维度上不同。
22.根据权利要求21所述的服务器,其特征在于,所述至少一个维度包括如下的至少一项:
空间维度;
场景维度;
语音内容维度;以及
设备类型维度。
23.根据权利要求22所述的服务器,其特征在于,所述空间维度包括:
所述用户相对于采集所述语音信息的电子设备的方位角;和/或
所述用户相对于采集所述语音信息的电子设备的距离。
24.一种声纹信息管理装置,其特征在于,包括:
语音获取装置,用于获取用户的语音信息;
声纹匹配装置,用于将从所述语音信息中获取的声纹信息与已经存储的至少两个声纹信息进行匹配;
服务装置,用于在匹配成功的情况下,向所述用户提供所述语音信息对应的服务。
25.一种声纹信息管理装置,其特征在于,包括:
声纹注册装置,用于发送声纹注册请求;
第一录制策略输出装置,用于输出第一语音录制策略;以及
第二录制策略输出装置,用于响应于对应于所述第一语音录制策略的语音信息被上传,向所述用户输出第二语音录制策略。
26.根据权利要求25所述的装置,其特征在于,所述装置是如下的至少一种:
电子设备;
客户端设备;以及
语音模组。
27.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-16中任何一项所述的方法。
28.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至16中任一项所述的方法。
CN201910244648.6A 2019-03-28 2019-03-28 声纹信息管理方法、装置、系统及计算设备、存储介质 Pending CN111833882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910244648.6A CN111833882A (zh) 2019-03-28 2019-03-28 声纹信息管理方法、装置、系统及计算设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910244648.6A CN111833882A (zh) 2019-03-28 2019-03-28 声纹信息管理方法、装置、系统及计算设备、存储介质

Publications (1)

Publication Number Publication Date
CN111833882A true CN111833882A (zh) 2020-10-27

Family

ID=72915057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910244648.6A Pending CN111833882A (zh) 2019-03-28 2019-03-28 声纹信息管理方法、装置、系统及计算设备、存储介质

Country Status (1)

Country Link
CN (1) CN111833882A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382299A (zh) * 2020-11-18 2021-02-19 江西台德智慧科技有限公司 一种智能眼镜的语音交互方法、语音交互系统及智能眼镜

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
US20150249664A1 (en) * 2012-09-11 2015-09-03 Auraya Pty Ltd. Voice Authentication System and Method
CN106373575A (zh) * 2015-07-23 2017-02-01 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
US20170140760A1 (en) * 2015-11-18 2017-05-18 Uniphore Software Systems Adaptive voice authentication system and method
CN108449323A (zh) * 2018-02-14 2018-08-24 深圳市声扬科技有限公司 登录认证方法、装置、计算机设备和存储介质
CN108831484A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的且与语言种类无关的声纹识别方法及装置
CN109036435A (zh) * 2018-08-15 2018-12-18 深圳平安综合金融服务有限公司上海分公司 基于声纹信息的身份认证及识别方法
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
CN109473108A (zh) * 2018-12-15 2019-03-15 深圳壹账通智能科技有限公司 基于声纹识别的身份验证方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
US20150249664A1 (en) * 2012-09-11 2015-09-03 Auraya Pty Ltd. Voice Authentication System and Method
CN106373575A (zh) * 2015-07-23 2017-02-01 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
US20170140760A1 (en) * 2015-11-18 2017-05-18 Uniphore Software Systems Adaptive voice authentication system and method
CN108449323A (zh) * 2018-02-14 2018-08-24 深圳市声扬科技有限公司 登录认证方法、装置、计算机设备和存储介质
CN108831484A (zh) * 2018-05-29 2018-11-16 广东声将军科技有限公司 一种离线的且与语言种类无关的声纹识别方法及装置
CN109036435A (zh) * 2018-08-15 2018-12-18 深圳平安综合金融服务有限公司上海分公司 基于声纹信息的身份认证及识别方法
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
CN109473108A (zh) * 2018-12-15 2019-03-15 深圳壹账通智能科技有限公司 基于声纹识别的身份验证方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382299A (zh) * 2020-11-18 2021-02-19 江西台德智慧科技有限公司 一种智能眼镜的语音交互方法、语音交互系统及智能眼镜

Similar Documents

Publication Publication Date Title
US11568876B2 (en) Method and device for user registration, and electronic device
US11955125B2 (en) Smart speaker and operation method thereof
JP6060155B2 (ja) 受信データの比較を実行しその比較に基づいて後続サービスを提供する方法及びシステム
US9721287B2 (en) Method and system for interacting with a user in an experimental environment
US8560309B2 (en) Remote conferencing center
CN108810296B (zh) 一种智能外呼方法及装置
CN105659324A (zh) 协作音频对话证明
CN106549947A (zh) 一种即时更新的声纹认证方法及系统
CN105577603B (zh) 一种播放多媒体消息的方法及装置
CN111833882A (zh) 声纹信息管理方法、装置、系统及计算设备、存储介质
GB2519571A (en) Audiovisual associative authentication method and related system
US10460698B2 (en) Method for rendering an electronic content on a rendering device
CN111611571A (zh) 一种实名认证方法及装置
WO2017080217A1 (zh) 通过蓝牙推荐视频的方法、移动终端和车载视频播放器
EP4300493A1 (en) Audio data processing method and apparatus, device and medium
CN110875905A (zh) 账号管理方法、装置及存储介质
CN111279330B (zh) 用于在区块链上存储和管理音频数据的方法和设备
US10572636B2 (en) Authentication by familiar media fragments
CN111785280A (zh) 身份认证方法和装置、存储介质和电子设备
CN112447174A (zh) 服务提供方法、装置和系统、计算设备和存储介质
US20170295495A1 (en) Multimedia exchange system
US10536729B2 (en) Methods, systems, and media for transforming fingerprints to detect unauthorized media content items
US11605139B1 (en) Method of collating, abstracting, and delivering worldwide viewpoints
US20140125456A1 (en) Providing an identity
CN115482824A (zh) 说话人识别方法和装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination