CN110188338B - 文本相关的说话人确认方法和设备 - Google Patents

文本相关的说话人确认方法和设备 Download PDF

Info

Publication number
CN110188338B
CN110188338B CN201810155360.7A CN201810155360A CN110188338B CN 110188338 B CN110188338 B CN 110188338B CN 201810155360 A CN201810155360 A CN 201810155360A CN 110188338 B CN110188338 B CN 110188338B
Authority
CN
China
Prior art keywords
speaker
view
text
component
covariance matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810155360.7A
Other languages
English (en)
Other versions
CN110188338A (zh
Inventor
石自强
刘柳
林慧镔
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201810155360.7A priority Critical patent/CN110188338B/zh
Publication of CN110188338A publication Critical patent/CN110188338A/zh
Application granted granted Critical
Publication of CN110188338B publication Critical patent/CN110188338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本相关的说话人确认方法和设备。该方法包括:利用识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。

Description

文本相关的说话人确认方法和设备
技术领域
本发明一般地涉及信息处理技术领域。具体而言,本发明涉及一种能够充分利用各种信息进行文本相关的说话人确认的方法和设备。
背景技术
近年来,文本相关的说话人确认已经应用于许多领域中,例如,智能用户接口、国土安全、电话银行等。
传统的文本相关的说话人确认分立地利用捕获的信息,因此,效果有待提高。具体地,在包括文本相关的说话人确认在内的各种模式识别技术中,所提取和利用的特征往往是较为直观和可分立的特征。比如一个物体的形状特征和纹理特征就是可以分立的,对于一个物体可以仅考虑其形状而不考虑其纹理(纹理项为0),或者反过来仅考虑其纹理而不考虑其形状(形状项为0)。对于这样的情形,对于每一个独立的特征可以分别建模,然后简单叠加即可。现有技术往往仅依赖于与所要提取和利用的特征相关联的特征来建模。比如语音识别,只能以识别内容为训练目标提取各种特征来进行大量训练,但总是无法剔除不同人的影响,从而使得语音识别产品在由不同的人使用时,总是需要经过一段不短时间的训练适应。其中的原因在于语音内容和具体的人的发声器官是不可分立的。比如在语音内容识别中,一句话说出来,必然是某个人说某句话,一句话不可能脱离人而存在;而在人的身份识别中,声纹也必然从具体的话语中提取。同样,对于说话人识别,也是以识别人为训练目标提取特征,无法剔除不同文本的影响。传统的文本相关的说话人确认是对内容识别和说话人识别的简单叠加,即对文本和说话人分别提取特征,分别建模,首先判断文本是否正确,然后判断说话人是否正确,最后叠加得出是否是特定说话人在进行特定文本的发言。
与此类似的情形还包括语种、年龄、性别、语音内容以及具体人的身份的交织。换句话说,如果用一个特征向量来表达一个人的语音时,上述各种因素必然同时存在于该特征向量中,本文称之为“多视角向量”,其中,例如语音内容、语种、年龄、性别、种族等,都是一个不可分立的“视角”:每一个视角必然存在某种选项而不可能为零。具体来说,一句话必然是人A或者人B或者……说出,不可能是“无人”说出;要提取声纹,一个人必然要发声说话,他不可能不说话,也就是说语音内容的视角也不可能为0。
因此,本发明旨在能够利用多视角向量中的所有信息进行文本相关的说话人确认。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是提出一种能够利用多视角向量中的所有信息进行文本相关的说话人确认的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种文本相关的说话人确认方法,该方法包括:利用识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;以及当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。
根据本发明的另一个方面,提供了一种文本相关的说话人确认设备,该设备包括:识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;以及确认装置,当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明的实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的文本相关的说话人确认方法的流程图;
图2示出了说话人和文本的各种情形示例;
图3示出了根据本发明的实施例的文本相关的说话人确认设备的结构方框图;以及
图4示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
在以下示例中,以文本和说话人为例,对多视角向量及基于多视角向量的识别模型进行描述。即多视角向量包括说话人和文本两个视角。应理解,多视角向量还可包括诸如语种、年龄、性别之类的其它信息(视角)。
多视角向量本身可以用任何传统的方式获取。例如,可以直接将待处理的对象或者信息用任何方式向量化而得到多视角向量。例如,可以采用下述方法对收集的语音数据进行处理,语音数据分割成帧长25毫秒、帧移10毫秒的信号,提取13维的梅尔频率倒谱系数(MFCCs),以及该系数的一阶差分和二阶差分连接起来共39维作为特征。同时联合上下文共39帧(左25帧,右13帧)作为最终的特征共1521维(39*39)。这样就得到了1521维的向量,可以作为本公开的技术方案的处理对象。当然,本领域技术人员可以理解,对语音数据的处理也可以采用本领域公知的其它方法,在此不做赘述。
利用多视角向量的训练数据,采用最大期望算法EM,可以获得多视角向量的总体均值μ、说话人视角的分量u的协方差矩阵∑u、文本视角的分量v的协方差矩阵∑υ、以及噪声∈的协方差矩阵∑
由于引入了协方差矩阵,不需要人工设定多视角向量的各个视角的空间的维度。从训练数据得到的协方差矩阵更加准确,能够提高文本相关的说话人确认的准确度。
假设训练数据中有I个说话人,J种文本,每种文本每人对应Hij段语音。记第i个人第j种文本的第k段语音对应的多视角声纹为xijk。假设xijk满足如下的双重联合贝叶斯模型(即本申请所说的识别模型):
xijk=μ+ui+vj+∈ijk
其中μ表示所有xijk的平均值,ui和vj分别表示说话人特征和文本特征,并分别服从以对角矩阵∑u和∑υ为协方差的高斯分布,∈ijk表示噪声信号,假设其为满足以对角矩阵∑为协方差的高斯分布。设θ={μ,∑u,∑υ,∑},包含双重联合贝叶斯模型中所有的参数。假设模型中的参数符合下列分布:
Figure BDA0001581169170000051
Figure BDA0001581169170000052
p(υj)=(υj|0,∑υ).
其中,
Figure BDA0001581169170000053
是均值为μ、方差为∑的正态分布。
最大期望算法的基本过程如下:
首先,随机初始化参数θ={μ,∑u,∑υ,∑}。
然后,对于训练数据中所有的I个说话人,J种文本,每种文本每人对应Hij段语音提取声纹X={xijk:i=1,...,I;j=1,...,J;k=1,...,Hij}。
然后,(1)计算:
Figure BDA0001581169170000061
Figure BDA0001581169170000062
Figure BDA0001581169170000063
Figure BDA0001581169170000064
其中,B=[I I],I为单位阵。diag()表示以括号中内容为对角线元素的对角矩阵。
然后,(2)计算:
Figure BDA0001581169170000065
Figure BDA0001581169170000066
Figure BDA0001581169170000067
重复上述(1)、(2)直至收敛,输出参数θ={μ,∑u,∑υ,∑}。
下面将参照图1描述根据本发明的实施例的文本相关的说话人确认方法的流程。
图1示出了根据本发明的实施例的文本相关的说话人确认方法的流程图。如图1所示,该方法包括如下步骤:利用识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率(步骤S1);当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人(步骤S2);其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。
具体地,在步骤S1中,利用识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。
图2示出了说话人和文本的各种情形示例。
u1、u2表示说话人视角的特定选择,v1、v2表示文本视角的特定选择。xt表示测试语音样本(即测试声纹),xs表示正确的说话人说正确的文本的语音样本(即目标声纹),εt、εs为噪声项。左侧的模式M0表示两段语音的说话人和说话内容均相同的情形,记作H0,右侧的M1、M2、M3分别表示说话人不同且文本相同的情形、说话人相同且文本不同的情形、说话人不同且文本不同的情形,即说话人和文本至少有一个不同的所有情形,记作H1
那么,可以计算两段声纹(目标声纹xs,测试声纹xt)属于模式H0中的情形的似然性(第一概率),即:
Figure BDA0001581169170000071
可以计算两段声纹(目标声纹xs,测试声纹xt)属于模式H1中的三种情形的似然性(第二概率),即:
Figure BDA0001581169170000081
在步骤S2中,当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人。
如果第一概率
Figure BDA0001581169170000082
第二概率
Figure BDA0001581169170000083
则两段声纹属于同一个人,同一种文本;如果第一概率
Figure BDA0001581169170000084
第二概率
Figure BDA0001581169170000085
则两段声纹不属于同一个人,或者不是同一种文本。
当然,也可计算第一概率与第二概率之差或第一概率与第二概率之商,当差大于预定阈值或商大于预定阈值时,确认说话人身份,否则拒识说话人。
下面,将参照图3描述根据本发明的实施例的文本相关的说话人确认设备。
图3示出了根据本发明的实施例的文本相关的说话人确认设备的结构方框图。如图3所示,根据本发明的文本相关的说话人确认设备300包括:识别模型31,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;以及确认装置32,当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声∈。
在一个实施例中,文本相关的说话人确认设备300还包括:训练装置,利用多视角向量的训练数据获得所述多视角向量的总体均值μ、说话人视角的分量u的协方差矩阵∑u、文本视角的分量v的协方差矩阵∑υ、以及噪声∈的协方差矩阵∑
在一个实施例中,噪声∈被设定为满足以对角矩阵∑为协方差的高斯分布。
在一个实施例中,设θ={μ,∑u,∑υ,∑},则满足以下分布:
Figure BDA0001581169170000091
Figure BDA0001581169170000092
Figure BDA0001581169170000093
其中,
Figure BDA0001581169170000094
是均值为μ、方差为∑的正态分布,多视角向量xijk表示第i个说话人就j种文本的第k个样本的声纹,ui为第i个说话人的系数,vj为第j种文本的系数,∑u、∑υ、∑分别表示说话人视角的分量u的协方差矩阵、文本视角的分量v的协方差矩阵、以及噪声∈的协方差矩阵。
由于在根据本发明的文本相关的说话人确认设备300中所包括的处理与上面描述的文本相关的说话人确认方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些处理的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图4所示的通用计算机400)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图4示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM 403中,还根据需要存储当CPU 401执行各种处理等等时所需的数据。CPU 401、ROM 402和RAM 403经由总线404彼此连接。输入/输出接口405也连接到总线404。
下述部件连接到输入/输出接口405:输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比如因特网执行通信处理。根据需要,驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上,使得从中读出的计算机程序根据需要被安装到存储部分408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 402、存储部分408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

Claims (5)

1.一种文本相关的说话人确认方法,包括:
利用识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;以及
当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;
其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声
Figure FDA0003949901250000017
所述方法还包括:
利用多视角向量的训练数据获得所述多视角向量的总体均值μ、说话人视角的分量u的协方差矩阵∑u、文本视角的分量v的协方差矩阵∑v、以及噪声
Figure FDA0003949901250000018
的协方差矩阵∑
其中,设θ={μ,∑u,∑v,∑},则满足以下分布:
Figure FDA0003949901250000011
Figure FDA0003949901250000012
Figure FDA0003949901250000013
其中,
Figure FDA0003949901250000014
是均值为μ、方差为∑的正态分布,多视角向量xijk表示第i个说话人就j种文本的第k个样本的声纹,ui为第i个说话人的系数,vj为第j种文本的系数,∑u、∑v、∑分别表示说话人视角的分量u的协方差矩阵、文本视角的分量v的协方差矩阵、以及噪声
Figure FDA0003949901250000015
的协方差矩阵,
其中,所述识别模型是双重联合贝叶斯模型,以及
其中,利用最大期望算法得到θ={μ,∑u,∑v,∑}。
2.如权利要求1所述的方法,其中,噪声
Figure FDA0003949901250000016
被设定为满足以对角矩阵∑为协方差的高斯分布。
3.一种文本相关的说话人确认设备,包括:
识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;以及
确认装置,当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;
其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声
Figure FDA0003949901250000021
所述设备还包括:
训练装置,利用多视角向量的训练数据获得所述多视角向量的总体均值μ、说话人视角的分量u的协方差矩阵∑u、文本视角的分量v的协方差矩阵∑v、以及噪声
Figure FDA0003949901250000022
的协方差矩阵∑
其中,设θ={μ,∑u,∑v,∑},则满足以下分布:
Figure FDA0003949901250000023
Figure FDA0003949901250000024
Figure FDA0003949901250000025
其中,
Figure FDA0003949901250000026
是均值为μ、方差为∑的正态分布,多视角向量xijk表示第i个说话人就j种文本的第k个样本的声纹,ui为第i个说话人的系数,vj为第j种文本的系数,∑u、∑v、∑分别表示说话人视角的分量u的协方差矩阵、文本视角的分量v的协方差矩阵、以及噪声
Figure FDA0003949901250000027
的协方差矩阵,
其中,所述识别模型是双重联合贝叶斯模型,以及
其中,利用最大期望算法得到θ={μ,∑u,∑v,∑}。
4.如权利要求3所述的设备,其中,噪声
Figure FDA0003949901250000028
被设定为满足以对角矩阵∑为协方差的高斯分布。
5.一种计算机可读存储介质,其上存储有程序,该程序在被信息处理设备执行时,使得信息处理设备执行以下操作:
利用识别模型,根据输入音频数据,得到表明说话人和文本都正确的第一概率和表明说话人和文本中的至少一个不正确的第二概率;
当第一概率与第二概率的差异大于预定阈值时,确认说话人身份,否则拒识说话人;
其中,识别模型基于至少包括说话人视角和文本视角的多视角向量,所述多视角向量包括如下分量:多视角向量的总体均值μ、说话人视角的分量u、文本视角的分量v、以及噪声
Figure FDA0003949901250000031
所述程序还使得信息处理设备执行以下操作:
利用多视角向量的训练数据获得所述多视角向量的总体均值μ、说话人视角的分量u的协方差矩阵∑u、文本视角的分量v的协方差矩阵∑v、以及噪声
Figure FDA0003949901250000032
的协方差矩阵∑
其中,设θ={μ,∑u,∑v,∑},则满足以下分布:
Figure FDA0003949901250000033
Figure FDA0003949901250000034
Figure FDA0003949901250000035
其中,
Figure FDA0003949901250000036
是均值为μ、方差为∑的正态分布,多视角向量xijk表示第i个说话人就j种文本的第k个样本的声纹,ui为第i个说话人的系数,vj为第j种文本的系数,∑u、∑v、∑分别表示说话人视角的分量u的协方差矩阵、文本视角的分量v的协方差矩阵、以及噪声
Figure FDA0003949901250000037
的协方差矩阵,
其中,所述识别模型是双重联合贝叶斯模型,以及
其中,利用最大期望算法得到θ={μ,∑u,∑v,∑}。
CN201810155360.7A 2018-02-23 2018-02-23 文本相关的说话人确认方法和设备 Active CN110188338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810155360.7A CN110188338B (zh) 2018-02-23 2018-02-23 文本相关的说话人确认方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810155360.7A CN110188338B (zh) 2018-02-23 2018-02-23 文本相关的说话人确认方法和设备

Publications (2)

Publication Number Publication Date
CN110188338A CN110188338A (zh) 2019-08-30
CN110188338B true CN110188338B (zh) 2023-02-21

Family

ID=67713416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810155360.7A Active CN110188338B (zh) 2018-02-23 2018-02-23 文本相关的说话人确认方法和设备

Country Status (1)

Country Link
CN (1) CN110188338B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081255B (zh) * 2019-12-31 2022-06-03 思必驰科技股份有限公司 说话人确认方法和装置
CN111583919B (zh) * 2020-04-15 2023-10-13 北京小米松果电子有限公司 信息处理方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879968B1 (en) * 1999-04-01 2005-04-12 Fujitsu Limited Speaker verification apparatus and method utilizing voice information of a registered speaker with extracted feature parameter and calculated verification distance to determine a match of an input voice with that of a registered speaker
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN102237089A (zh) * 2011-08-15 2011-11-09 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
CN103810996A (zh) * 2014-02-21 2014-05-21 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统
WO2017076222A1 (zh) * 2015-11-06 2017-05-11 阿里巴巴集团控股有限公司 语音识别方法及装置
CN106782560A (zh) * 2017-03-06 2017-05-31 海信集团有限公司 确定目标识别文本的方法及装置
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181393B2 (en) * 2002-11-29 2007-02-20 Microsoft Corporation Method of real-time speaker change point detection, speaker tracking and speaker model construction
EP2216775B1 (en) * 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
WO2016137042A1 (ko) * 2015-02-27 2016-09-01 삼성전자 주식회사 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879968B1 (en) * 1999-04-01 2005-04-12 Fujitsu Limited Speaker verification apparatus and method utilizing voice information of a registered speaker with extracted feature parameter and calculated verification distance to determine a match of an input voice with that of a registered speaker
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
CN102129860A (zh) * 2011-04-07 2011-07-20 魏昕 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法
CN102237089A (zh) * 2011-08-15 2011-11-09 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
CN103810996A (zh) * 2014-02-21 2014-05-21 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统
WO2017076222A1 (zh) * 2015-11-06 2017-05-11 阿里巴巴集团控股有限公司 语音识别方法及装置
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN106782560A (zh) * 2017-03-06 2017-05-31 海信集团有限公司 确定目标识别文本的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种新型的与文本相关的说话人识别方法研究;周雷等;《上海师范大学学报(自然科学版)》;20170415(第02期);第224-230页 *

Also Published As

Publication number Publication date
CN110188338A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN108288470B (zh) 基于声纹的身份验证方法和装置
CN108875463B (zh) 多视角向量处理方法和设备
EP2713367B1 (en) Speaker recognition
CN109801634B (zh) 一种声纹特征的融合方法及装置
US6401063B1 (en) Method and apparatus for use in speaker verification
US9355642B2 (en) Speaker recognition method through emotional model synthesis based on neighbors preserving principle
US7684986B2 (en) Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes
CN109346088A (zh) 身份识别方法、装置、介质及电子设备
CN107274904A (zh) 说话人识别方法和说话人识别设备
CN112053695A (zh) 声纹识别方法、装置、电子设备及存储介质
CN113223536B (zh) 声纹识别方法、装置及终端设备
JP7160095B2 (ja) 属性識別装置、属性識別方法、およびプログラム
CN111613230A (zh) 声纹验证方法、装置、设备及存储介质
CN110188338B (zh) 文本相关的说话人确认方法和设备
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
CN111028847A (zh) 一种基于后端模型的声纹识别优化方法和相关装置
CN109872725B (zh) 多视角向量处理方法和设备
AU2021302874B2 (en) Synthesizing patient-specific speech models
CN113299295B (zh) 声纹编码网络的训练方法及装置
CN109872721A (zh) 语音认证方法、信息处理设备以及存储介质
US11996086B2 (en) Estimation device, estimation method, and estimation program
CN108630207B (zh) 说话人确认方法和说话人确认设备
CN113035230A (zh) 认证模型的训练方法、装置及电子设备
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant