CN108875463B - 多视角向量处理方法和设备 - Google Patents
多视角向量处理方法和设备 Download PDFInfo
- Publication number
- CN108875463B CN108875463B CN201710343390.6A CN201710343390A CN108875463B CN 108875463 B CN108875463 B CN 108875463B CN 201710343390 A CN201710343390 A CN 201710343390A CN 108875463 B CN108875463 B CN 108875463B
- Authority
- CN
- China
- Prior art keywords
- view
- vector
- views
- view vector
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 159
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种多视角向量处理方法和设备。其中,所述多视角向量x用于表征包含至少两个不可分立的视角的信息的对象,该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声∈;以及训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数。该设备包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如前所述的方法。
Description
技术领域
本申请涉及信息处理领域,具体地涉及多视角向量的分析和比较。
背景技术
在各种模式识别技术中,所提取和利用的特征往往是较为直观和可分立的特征。比如一个物体的形状特征和纹理特征就是可以分立的,对于一个物体可以仅考虑其形状而不考虑其纹理(纹理项为0),或者反过来仅考虑其纹理而不考虑其形状(形状项为0)。又比如,对于频域的波形叠加,叠加的结果的波形看起来似乎是不可分割的,但是其高频成分和低频成分可以被分离且独立存在,也就是说相应的另一个成分为0。对于这样的情形,对于每一个独立的特征可以分别建模,然后简单叠加即可。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个方面,提供了一种多视角向量处理方法,其中,所述多视角向量x用于表征包含至少两个不可分立的视角的信息的对象,该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声;以及训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声的参数。
还提供了一种多视角向量处理设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如前所述的方法。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
根据本申请的多视角向量处理方法和设备,能够将相对不可分立的多个视角通过建模的方式分离出来,进而利用所建立的模型来进行有关每一个视角分量在不同的多视角向量之间是否相同的判断,例如用于声纹确认。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:
图1是相对不可分立的分量的示意图表;
图2是相对可分立的分量的示意图表;
图3是根据被公开的多视角向量处理方法的一种实施方式的示意流程图;;
图4是根据被公开的多视角向量处理方法的另一种实施方式的示意流程图;
图5是根据被公开的多视角向量处理方法的两种场景示意图;
图6A是根据被公开的多视角向量处理方法的又一种实施方式的示意流程图;
图6B是根据被公开的多视角向量处理方法的再一种实施方式的示意流程图;
图7是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
下文中的描述按如下顺序进行:
1.多视角向量的建模
2.多视角向量模型的运用
3.多视角向量的提取
4.多视角向量处理设备
5.用以实施本申请的装置和方法的计算设备
[1.多视角向量的建模]
背景技术部分提到,对于较为直观和可分立的特征,可以分别建模,然后简单叠加即可。但是存在需提取和利用的特征不可分立的情况。在这种情况下,现有技术往往仅依赖于与所要提取和利用的特征相关联的特征来建模。比如语音识别,只能以识别内容为训练目标提取各种特征来进行大量训练,但总是无法剔除不同人的影响,从而使得语音识别产品在由不同的人使用时,总是需要经过一段不短时间的训练适应。其中的原因在于语音内容和具体的人的发声器官是不可分立的。比如在语言内容识别中,一句话说出来,必然是某个人说某句话,一句话不可能脱离人而存在;而在人的身份识别中,声纹也必然从具体的话语中提取。
与此类似的情形还包括语种、年龄、性别、语音内容以及具体人的身份的交织。又如在与图像识别相关联的应用中,年龄、性别、种族与具体身份的交织,等等。
换句话说,如果用一个特征向量来表达一个人的语音或者图像的时候,上述各种因素必然同时存在于该特征向量中,称之为“多视角向量”,其中,例如语音内容、语种、年龄、性别、种族等,都是一个不可分立的“视角”:每一个视角必然存在某种选项而不可能为零。具体来说,一句话必然是人A或者人B或者……说出,不可能是“无人”说出(在这个意义上,机器人也是“人”,换句话说,一句话必然由某个实体发出);要提取声纹,一个人必然要发声说话,他不可能不说话,也就是说语音内容的视角也不可能为0。
图1和图2进一步图解了不可分立的视角与可分立的视角。图1表示不可分立的两个视角u和v,即二者总是相关联地、不可分立地同时存在。视角u总是存在某个选项如u1或者u2,而不可能为空或者零,视角v也总是存在某个选项如v1,v2或者v3,而不可能为空或者为零(当然u或者v的视角的数量未必是受限制的)。两个视角的共同作用将产生待研究对象或者信息x:例如u1和v1将产生x11n(n为自然数,表示不同的样本),以此类推。
而在图2中,两个视角u和v是可以分立的。这意味着每一个视角都有可能为空或者为零而另一个视角可以独立存在。此时,两个视角同时存在时所形成的研究对象或者信息事实上可以简单地表示为两个视角的和。例如视角u的具体选择u2与视角v的具体选择v1所产生的信息样本x21n可以表示为u2单独产生的信息x20n和v1单独产生的信息x01n的和。
当然,本公开所说的可分立、不可分立的概念不可过于绝对化,也会存在一些虽然不可绝对分立,但是二者的纠缠程度不那么高的情况。对于这种情形,是将其视为可分立的,还是将其视为不可分立的,则可以视实际需要而定。
本公开所针对的,即为包含(相对)不可分立的多个视角的信息的多视角向量。多视角向量本身可以用任何传统的方式获取。例如,见图3,可以直接将待处理的对象302或者信息用任何方式向量化304而得到多视角向量306。例如,可以采用下述方法对收集的语音数据进行处理,语音数据分割成帧长25毫秒、帧移10毫秒的信号,提取13维的梅尔频率倒谱系数(MFCCs),以及该系数的一阶差分和二阶差分连接起来共39维作为特征。同时联合上下文共39帧(左25帧,右13帧)作为最终的特征共1521维(39*39)。这样就得到了1521维的向量,可以作为本公开的技术方案的处理对象。当然,本领域技术人员可以理解,对语音数据的处理也可以采用本领域公知的其它方法,在此不做赘述。同时,可以进行向量化处理的当然也不仅限于语音数据。
获得多视角向量306以后,即可运用本发明提出的方法进行向量分解308,以进行具体的应用310。本申请也针对向量化304的方法、向量分解308的方法(即多视角向量的建模)以及应用310提出了新的方案。下面先讨论本申请提出的新的向量分解方法,换句话说也就是多视角向量建模方法。根据本申请,对于多视角向量306,运用本申请提出的方式建立或者训练508向量分解模型,从而得到向量分解模型参数510,运用该模型参数510即可进行向量分解308。在应用层面来讲,所述模型参数510也可以直接加以应用310,因为在得到了模型参数510以后,有没有“显性”的向量分解308并不重要。在某些模型中直接将模型参数510应用于被研究对象信息的某种应用中,相当于是对对象信息进行分解之后再加以应用。
根据本申请的一种实施方式,提出了一种多视角向量处理方法,其中,所述多视角向量x用于表征包含至少两个不可分立的视角的信息的对象,该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声;以及训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声的参数。根据该实施方式,亦即对多视角向量x建立了下面这样的模型并通过训练获得模型参数从而能够获得该多视角向量x中各个分量的影响:
其中Ci为各个视角的分量,i为视角的序号。
发明人认识到,所述总体均值也可以被分配到每一个视角的分量中去,因此在一种实施方式中,可以将所述总体均值μ设定为0。从而该模型可以变为:
另外,每一个视角的分量Ci可以视为相应视角空间基Si与该视角的特定选择的系数ui之积,其中i为视角的序号。即
对于所述噪声,可以认为其满足以对角矩阵∑为协方差的高斯分布。
所述训练步骤可以利用最大期望算法,利用所述训练数据获得所述总体均值μ、每一个视角的空间基Si和所述Σ。具体来说,可以基于μ、Si和∑计算针对所述每一个视角分量的特定选择,x的所有样本的均值期望,以及针对所述每一个视角分量的特定选择的与协方差相关的期望,并基于所述期望值重新计算μ、Si和∑,直至收敛。
为了说明方便,仅以两种视角为例,比如以包含说话人和文本两个视角的语音提取出来的声纹(即多视角向量)为例。假设训练数据中有I个说话人,J种文本,每种文本每人对应Hij段语音。记第i个人第j种文本的第k段语音对应的多视角声纹为xijk。则式(3)可以写为:
其中μ表示所有xijk的平均值即总体均值,S和T分别代表说话人视角的空间基和文本视角的空间基,S视角的第i种选择的系数为ui,T视角的第j种选择的系数为vj。表示噪声信号(为满足以对角矩阵∑为协方差的高斯分布)。k表示在前述选择的情况下的第k种样本。设θ={μ,S,T,∑},包含多视角向量模型中所有的参数,并为了简化下面的描述,假设B=[S T]。假设模型中的参数符合下列分布:
其中是均值为μ方差为∑的正态分布。也就是说,在参数θ的前提下,对于S和T两个视角的特定选择ui和vj,多视角向量xijk的分布为以μ+Sui+Tvj为均值,Σ为方差的正态分布。ui和vj自身则分别是均值为0,方差为单位矩阵I的正态分布。
前述最大期望算法的基本过程如下:
首先随机初始化参数θ={μ,S,T,∑};
然后,对于训练数据中所有的I个说话人,J种文本,每种文本每人对应Hij段语音的多视角向量(声纹)X={xijk:i=1,...,I;j=1,...,J;k=1,...,Hij},计算:
以及
其中,式(6)为X的所有样本的均值期望,式(7)为针对所述每一个视角分量的特定选择的与协方差相关的期望。其中θt为第t步的参数θ。对于初次循环也就是t=1时,其为如前所述任意选取的初值。其中Z={zij:i=1,...,I;j=1,...,J},U表示变量ui的集合,V表示变量vj的集合,其中Z和U、V的关系可以表示成×乘的关系,也就是Z=U×V。
然后,基于前述计算出来的期望值,计算新的参数值:
然后再利用新的参数值计算式(6)和式(7)的期望值,一直循环直至收敛,得到θ={μ,S,T,∑}。得到了模型参数,也就意味着得到了各个视角的分量:
[2.多视角向量模型的运用]
本申请提出的多视角向量的建模可以应用于表征任何信息的向量,比如表征图像或者声音的向量。其中表征声音的多视角向量可以称之为声纹。声纹确认已在许多领域有着广泛的应用,包括智能用户接口,国土安全,电话银行等。基于本申请提出的多视角声纹的建模方法,进一步提出了声纹的识别方法,即计算两个多视角声纹属于或者不属于同一个人和同一种文本的似然度,然后使用该似然度做进一步的决策。
具体来说,在前文所讨论的方案中,所述多视角向量xijk可以表示第i个说话人就j种文本的第k个样本的声纹,ui为第i个说话人的系数,vj为第j种文本的系数。那么在一种实施方式中,可以利用所述总体均值μ、每一个视角的分量的参数和所述噪声的参数,计算两个多视角向量的至少一个视角分量相同和不同的似然性,依据该似然性判断两个多视角向量的至少一个视角分量是否相同。例如,可以用来判断说话人是否相同,即用于身份识别;也可以用来判断说话内容是否相同,即用于语音识别,或者口令鉴别。也可以用来进行更为准确的声纹识别,例如要求正确的人说出正确的内容。
利用前文所获得的模型参数,可以基于上述不同场景来进行应用。
图5图示了判断两个视角是否均相同的场景的示意图。作为具体示例但是不构成限制,例如用于判断包含说话人和说话内容两个视角特征的声纹是否完全一致。图5与式(4)相对应,u1、u2表示说话人视角的特定选择,v1、v2表示说话内容视角的特定选择。x为各种组合的语音样本,ε为式(4)中的最后的噪声项。那么左侧的模式M0表示出了四段语音当中,说话人和说话内容的当中有一个不同或者两个均不同的所有的情形。右侧的模式M1则表示出了两段语音的说话人和说话内容均相同的情形。
那么,可以计算两段声纹(目标声纹xs,测试声纹xt)属于模式M0中的四种情形的似然性,即两段声纹不属于同一个人,或者不是同一种文本的似然性B:
以及两段声纹(目标声纹xs,测试声纹xt)属于模式M1的情形的似然性,即两段声纹属于同一个人,同一种文本的似然性A:
如果A>B,则两段声纹属于同一个人,同一种文本;如果A<B,则两段声纹不属于同一个人,或者不是同一种文本。
可以进一步利用所述似然性计算每种情况下的概率,依据该概率判断两个多视角向量的两个视角分量是否均相同,还是至少有一个视角分量不同。例如:
如前所述,利用所确定的多视角向量模型参数,也可以计算两个多视角向量的两个视角分量中的一个视角分量相同或不相同的似然性,依据该似然性判断两个多视角向量的该一个视角分量是否相同。还可以进一步利用所述似然性计算每种情况下的概率,依据该概率判断该一个视角分量是否相同。
如果A>B,则视角分量ui相同。反之则不同。视角分量vj的似然性计算是类似的。
[3.多视角向量的提取]
所述多视角向量可以是通过对要表征的对象直接进行向量化获得的。作为示例而非限制,例如可以采用下述方法对收集的语音数据进行处理,以得到多视角向量的例子之一:声纹。声纹的提取例如可以采用前文所述的提取梅尔频率倒谱系数(MFCCs)的方法。当然,本领域技术人员可以理解,对语音数据的处理也可以采用本领域公知的其它方法,在此不做赘述。
直接从包含多个不可分立的视角信息的对象提取多视角向量时,能够全面地表征该对象,之后可以利用本申请提出的建模方法基于大量对象样本对所述多视角向量建模,以反映不同视角的特征对所述多视角向量的影响,从而能够将建模所得模型应用于测试对象,以识别或者利用测试对象的某个或者多个视角的特征。
也就是说,例如一个对象的特征受不可分立的A视角和B视角的影响,本公开不再追求直接从对象中提取尽量不受B视角影响的A视角特征,或者直接提取尽量不受A视角影响的B视角特征,也不再追求分别用A视角和B视角来标记样本从而训练出分别针对A视角和B视角的分类器。相反,本公开对对象特征的提取承认A视角和B视角不可分立的现实,从而一同提取对象的特征,形成多视角向量,然后利用本公开的建模方法来衡量A视角和B视角各自的影响。
但是,在某些情况下,未经任何处理的对象,影响它的可能有多重因素,这些因素中有些是相对可以分立的,有些则是相对不可分立的。此时,如果把本来相对可以分立的视角也包括进来,则会无谓地增加建模和向量分解的计算量,甚至由于变量的过度增加而使问题的求解变得不可能。在这种情况下,可以考虑在提取多视角向量时首先将相对不可分立的视角分离出去。
其中一种方法是利用分类器对直接向量化对象所获得的特征向量进行处理而得到排除了相对可分立的视角而保留了相对不可分立的视角的多视角向量。换言之,被排除的视角与所述多视角向量的多个视角之间的可分立性,高于所述多个视角之间的可分立性。需要注意,这里的相对可分立,相对不可分立,都是相对的概念,并非绝对的“分立”和“不可分立”。甚至,在某些情况下,例如在视角很多的情况下,可能都是不可分立的,此时则取决于用户的选择来确定哪些视角被排除,哪些视角被保留。
如图6A所示,所述分类器可以通过以下方法训练得到:首先,同时对训练样本即研究对象302的不可分立的所述多个视角的特征进行标记404,其中,未标记的视角与标记的视角之间的可分立性,可以高于所标记的视角之间的可分立性。然后,用所标记的训练样本训练所述分类器406,从而得到训练后的分类器408。
上述分类器可以采用神经网络。在训练阶段,对训练样本进行标记,比如对感兴趣的每一个视角进行标记。例如对于人的图像,可以标记感兴趣的年龄、性别。用这些标记了的图像样本对神经网络进行训练。那么用训练完成的神经网络对测试图像进行处理,即可得到该图像的包含年龄和性别两个视角的多视角向量。也可以提取语音的多视角向量。取决于训练神经网络时的样本所标记的特征视角,例如年龄、性别、种族、具体的个人身份、语种、具体的语音内容等,用训练好的神经网络处理测试语音样本所获的多视角向量就包括了所选取的这些视角的特征。
图6B图示了从分类器的训练到多视角向量分解的整体架构。其中,在分类器训练阶段,相对来说可分立的视角S1和S2不用来标记训练样本,而用不可分立的视角S3和S4的特征来同时标记训练样本,得到训练样本集合410,来训练分类器408。分类器408对测试样本集合412中的测试样本进行处理,得到包含视角S3和S4的信息的多视角向量集合414。基于多视角向量集合414中的向量来训练多视角向量分解模型的过程在图6B中未示出。基于该模型,可以分解每一个多视角向量,比如向量x1和向量x2(向量x1和x2可以来自多视角向量集合414,也可以是在实际应用中用分类器408新提取的多视角向量),可以将它们分解为视角S3和S4的分量。这种视角分量的分解可以是显性的,比如某些应用需要直接获得某个或者每个视角的分量;但也可以是隐性的,比如在本申请中已经讨论的声纹对比的实施方式中,未明确分解声纹,但是在计算声纹中每一个视角相同或者不同的似然性时,相当于已经对声纹进行了分解。
[4.多视角向量处理设备]
以上所讨论的方法可以完全由计算机可执行的程序来实现,也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时,或者将计算机可执行的程序载入可运行程序的硬件设备时,则实现了下文将要描述的多视角向量处理设备。下文中,在不重复上文中已经讨论的一些细节的情况下给出这些装置的概要,但是应当注意,虽然这些装置可以执行前文所描述的方法,但是所述方法不一定采用所描述的装置的那些部件或不一定由那些部件执行。
据一种实施方式,提供了多视角向量处理设备,其中,所述多视角向量x用于表征包含至少两个不可分立的视角的信息的对象。该设备包括用于对多视角向量模型进行训练的训练装置,该多视角向量的模型至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声;该训练装置利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声的参数。
同样地,所述总体均值μ可以设定为0。每一个视角的分量可以基于相应视角空间基Si与该视角的特定选择的系数ui之积,其中i为视角的序号。可以将所述噪声设定为满足以对角矩阵∑为协方差的高斯分布。
在一种实施方式中,所述训练装置可以被配置为利用最大期望算法,利用所述训练数据获得所述总体均值μ、每一个视角的空间基Sn和所述∑。在所述最大期望算法中,可以基于μ、Sn和∑计算针对所述每一个视角分量的特定选择,x的所有样本的均值期望,以及针对所述每一个视角分量的特定选择的与协方差相关的期望,并基于所述期望值重新计算μ、Sn和∑,直至收敛。
所述多视角向量包括两个视角的情况下所述多视角向量模型的表达,模型中各种参数和变量的分布,可参见前文对方法的说明,不再赘述。
在另一种实施方式中,提供了一种判断至少一个视角分量是否相同的设备,其包括:似然性评估装置,利用所述总体均值μ、每一个视角的分量的参数和所述噪声的参数,计算两个多视角向量的至少一个视角分量相同和不同的似然性;以及判断装置,依据该似然性判断两个多视角向量的至少一个视角分量是否相同。
该设备还可以包括概率计算装置,其进一步包括利用所述似然性计算两个多视角向量的至少一个视角分量相同和不同的概率,所述判断装置被配置为依据该概率判断两个多视角向量的至少一个视角分量是否相同。
在判断两个视角分量是否均相同的应用下,该设备的工作方式已在前面的方法部分加以描述,不再赘述。此时,该设备可以是声纹确认设备,用来确认测试声纹与目标声纹是否完全相同,即两个视角分量(说话人和说话内容)是否完全相同。
以上实施例中的相关细节已经在对多视角向量处理方法的描述中详细给出,在此不再赘述。
[5.用以实施本申请的装置和方法的计算设备]
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可移除介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质711。可移除介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
包括上述存储介质的计算设备也包括本发明的公开中,例如一种多视角向量处理设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如前所述的方法。
通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于此。
附记:
1.一种多视角向量处理方法,其中,所述多视角向量x用于表征包含至少两个不可分立的视角的信息的对象,该方法包括:
2.如附记1所述的方法,其中,将所述总体均值μ设定为0。
3.如附记1所述的方法,其中,每一个视角的分量基于相应视角空间基Si与该视角的特定选择的系数ui之积,其中i为视角的序号。
4.如附记3所述的方法,其中,将所述噪声设定为满足以对角矩阵Σ为协方差的高斯分布。
5.如附记4所述的方法,其中,所述训练步骤包括:利用最大期望算法,利用所述训练数据获得所述总体均值μ、每一个视角的空间基Sn和所述Σ。
6.如附记5所述的方法,其中,在所述最大期望算法中,基于μ、Sn和Σ计算针对所述每一个视角分量的特定选择,x的所有样本的均值期望,以及针对所述每一个视角分量的特定选择的与协方差相关的期望,并基于所述期望值重新计算μ、Sn和∑,直至收敛。
7.如附记4所述的方法,其中所述多视角向量包括两个视角,记相应视角的空间基为S和T,则多视角向量被表示为:
8.如附记7所述的方法,其中,设θ={μ,S,T,Σ},B=[S T],则满足以下分布:
9.如附记7所述的方法,其中,所述多视角向量xijk表示第i个说话人就j种文本的第k个样本的声纹,ui为第i个说话人的系数,vj为第j种文本的系数。
10.如附记1-9之一所述的方法,还包括:
11.如附记10所述的方法,进一步包括利用所述似然性计算两个多视角向量的至少一个视角分量相同和不同的概率,依据该概率判断两个多视角向量的至少一个视角分量是否相同。。
12.如附记10所述的方法,用于判断两个多视角向量中的所有视角分量是否均相同。
13.如附记8所述的方法,还包括:
利用所确定的多视角向量模型参数,计算两个多视角向量的两个视角分量均相同和不均相同的似然性,依据该似然性判断两个多视角向量的两个视角分量是否均相同,其中:
其中,xt表示测试向量,xs表示目标向量。
14.如附记8所述的方法,还包括:
利用所确定的多视角向量模型参数,计算两个多视角向量的两个视角分量中的一个视角分量相同和不相同的似然性,依据该似然性判断两个多视角向量的该一个视角分量是否相同,其中:
其中,xt表示测试向量,xs表示目标向量,vj的计算与ui是对称的。
15.如附记1-9之一所述的方法,其中,所述多视角向量是通过对要表征的对象直接进行向量化获得的。
16.如附记1-9之一所述的方法,其中,所述多视角向量是运用分类器对直接向量化对象所获得的特征向量进行处理得到的。
17.如附记16所述的方法,其中,所述分类器能够将所述多视角向量从对要表征的对象直接进行向量化获得的特征向量中相对分离出来,其中,被排除的视角与所述多视角向量的多个视角之间的可分立性,高于所述多个视角之间的可分立性。
18.如附记16所述的方法,其中,所述分类器通过以下方法训练:
同时对训练样本的不可分立的所述多个视角的特征进行标记,其中,未标记的视角与标记的视角之间的可分立性,高于所标记的视角之间的可分立性;
用所标记的训练样本训练所述分类器。
19.一种多视角向量处理设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如附记1-17之一所述的方法。
20.一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现如附记1-18之一所述的方法。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是被配置为说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
Claims (8)
1.一种用于声纹识别的多视角向量处理方法,其中,所述多视角向量x用于表征包含至少两个不可分立的视角的信息的对象并且所述对象是声纹,该方法包括:
建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声∈;以及
训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数,
其中,所述多视角向量是运用分类器对直接向量化对象所获得的特征向量进行处理得到的,
其中,所述分类器能够将所述多视角向量从对要表征的对象直接进行向量化获得的特征向量中相对分离出来,其中,被排除的视角与所述多视角向量的多个视角之间的可分立性,高于所述多个视角之间的可分立性,其中两个视角之间可分立表示每一个视角都有可能为空或者为零而另一个视角能够独立存在,并且
其中,所述分类器通过以下方法训练:
同时对训练样本的不可分立的所述多个视角的特征进行标记,其中,未标记的视角与标记的视角之间的可分立性,高于所标记的视角之间的可分立性;以及
用所标记的训练样本训练所述分类器。
2.如权利要求1所述的方法,其中,每一个视角的分量基于相应视角空间基Si与该视角的特定选择的系数ui之积,其中i为视角的序号。
3.如权利要求2所述的方法,其中,将所述噪声设定为满足以对角矩阵∑为协方差的高斯分布。
4.如权利要求3所述的方法,其中,所述训练步骤包括:利用最大期望算法,利用所述训练数据获得所述总体均值μ、每一个视角的空间基Sn和所述∑。
5.如权利要求3所述的方法,其中所述多视角向量包括两个视角,记相应视角的空间基为S和T,则多视角向量被表示为:
xijk=μ+Sui+Tvj+∈ijk
其中μ表示所述总体均值,ui为与空间基S对应的视角的第i种选择的系数,vj为与空间基T对应的视角的第j种选择的系数,∈ijk表示所述噪声,k表示在前述选择的情况下的第k种样本。
6.如权利要求1-5之一所述的方法,还包括:
利用所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数,计算两个多视角向量的至少一个视角分量相同和不同的似然性,依据该似然性判断两个多视角向量的至少一个视角分量是否相同。
7.如权利要求6所述的方法,用于判断两个多视角向量中的所有视角分量是否均相同。
8.一种用于声纹识别的多视角向量处理设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如权利要求1-7之一所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710343390.6A CN108875463B (zh) | 2017-05-16 | 2017-05-16 | 多视角向量处理方法和设备 |
US15/971,549 US10796205B2 (en) | 2017-05-16 | 2018-05-04 | Multi-view vector processing method and multi-view vector processing device |
EP18170784.5A EP3404584A1 (en) | 2017-05-16 | 2018-05-04 | Multi-view vector processing method and multi-view vector processing device |
JP2018089844A JP7124427B2 (ja) | 2017-05-16 | 2018-05-08 | マルチビューベクトルの処理方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710343390.6A CN108875463B (zh) | 2017-05-16 | 2017-05-16 | 多视角向量处理方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875463A CN108875463A (zh) | 2018-11-23 |
CN108875463B true CN108875463B (zh) | 2022-08-12 |
Family
ID=62222380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710343390.6A Active CN108875463B (zh) | 2017-05-16 | 2017-05-16 | 多视角向量处理方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10796205B2 (zh) |
EP (1) | EP3404584A1 (zh) |
JP (1) | JP7124427B2 (zh) |
CN (1) | CN108875463B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10847177B2 (en) | 2018-10-11 | 2020-11-24 | Cordio Medical Ltd. | Estimating lung volume by speech analysis |
US11024327B2 (en) | 2019-03-12 | 2021-06-01 | Cordio Medical Ltd. | Diagnostic techniques based on speech models |
US11011188B2 (en) | 2019-03-12 | 2021-05-18 | Cordio Medical Ltd. | Diagnostic techniques based on speech-sample alignment |
CN110059465B (zh) * | 2019-04-24 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 身份验证方法、装置及设备 |
US11484211B2 (en) | 2020-03-03 | 2022-11-01 | Cordio Medical Ltd. | Diagnosis of medical conditions using voice recordings and auscultation |
CN111782159B (zh) * | 2020-05-19 | 2023-01-06 | 上汽大众汽车有限公司 | 一种图片分屏同步浏览系统及方法 |
US11417342B2 (en) | 2020-06-29 | 2022-08-16 | Cordio Medical Ltd. | Synthesizing patient-specific speech models |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5130851B2 (ja) * | 2007-09-27 | 2013-01-30 | 富士通株式会社 | モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム |
US9141676B2 (en) * | 2013-12-02 | 2015-09-22 | Rakuten Usa, Inc. | Systems and methods of modeling object networks |
KR20150105231A (ko) * | 2014-03-07 | 2015-09-16 | 주식회사 케이티 | 다시점 비디오 신호 처리 방법 및 장치 |
CN104036296B (zh) * | 2014-06-20 | 2017-10-13 | 深圳先进技术研究院 | 一种图像的表示和处理方法及装置 |
CN105868324B (zh) * | 2016-03-28 | 2019-08-27 | 天津大学 | 一种基于隐含状态模型的多视角目标检索方法 |
-
2017
- 2017-05-16 CN CN201710343390.6A patent/CN108875463B/zh active Active
-
2018
- 2018-05-04 US US15/971,549 patent/US10796205B2/en active Active
- 2018-05-04 EP EP18170784.5A patent/EP3404584A1/en not_active Ceased
- 2018-05-08 JP JP2018089844A patent/JP7124427B2/ja active Active
Non-Patent Citations (1)
Title |
---|
Multi-view learning overview: Recent progress and new challenges;Jing Zhao et al.;《Information Fusion》;20170221;43-54 * |
Also Published As
Publication number | Publication date |
---|---|
US10796205B2 (en) | 2020-10-06 |
CN108875463A (zh) | 2018-11-23 |
JP2018194828A (ja) | 2018-12-06 |
JP7124427B2 (ja) | 2022-08-24 |
US20180336438A1 (en) | 2018-11-22 |
EP3404584A1 (en) | 2018-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875463B (zh) | 多视角向量处理方法和设备 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
JP7000865B2 (ja) | 声紋に基づく身分確認方法及び装置 | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
US20170011741A1 (en) | Method for Distinguishing Components of an Acoustic Signal | |
CN112992126B (zh) | 语音真伪的验证方法、装置、电子设备及可读存储介质 | |
CN112053695A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
JP2000081894A (ja) | 音声評価方法 | |
Mannepalli et al. | FDBN: Design and development of Fractional Deep Belief Networks for speaker emotion recognition | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
CN111613230A (zh) | 声纹验证方法、装置、设备及存储介质 | |
El-Moneim et al. | Text-dependent and text-independent speaker recognition of reverberant speech based on CNN | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
CN115101077A (zh) | 一种声纹检测模型训练方法及声纹识别方法 | |
CN110188338B (zh) | 文本相关的说话人确认方法和设备 | |
Mallikarjunan et al. | Text-independent speaker recognition in clean and noisy backgrounds using modified VQ-LBG algorithm | |
CN111028847A (zh) | 一种基于后端模型的声纹识别优化方法和相关装置 | |
Mohammed et al. | Speech Emotion Recognition Using MELBP Variants of Spectrogram Image. | |
CN109872725B (zh) | 多视角向量处理方法和设备 | |
Panda et al. | Study of speaker recognition systems | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
CN117475360B (zh) | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |