CN101661754B - 数据处理单元和数据处理单元控制方法 - Google Patents
数据处理单元和数据处理单元控制方法 Download PDFInfo
- Publication number
- CN101661754B CN101661754B CN2009101663947A CN200910166394A CN101661754B CN 101661754 B CN101661754 B CN 101661754B CN 2009101663947 A CN2009101663947 A CN 2009101663947A CN 200910166394 A CN200910166394 A CN 200910166394A CN 101661754 B CN101661754 B CN 101661754B
- Authority
- CN
- China
- Prior art keywords
- speech data
- data
- pattern
- model
- pattern model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 210
- 238000012545 processing Methods 0.000 title claims description 586
- 230000010365 information processing Effects 0.000 claims description 204
- 238000004364 calculation method Methods 0.000 claims description 75
- 238000006243 chemical reaction Methods 0.000 claims description 57
- 238000003860 storage Methods 0.000 claims description 22
- 238000003672 processing method Methods 0.000 claims description 16
- 230000005055 memory storage Effects 0.000 claims description 13
- 238000002360 preparation method Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 92
- 238000009826 distribution Methods 0.000 abstract description 34
- 239000013598 vector Substances 0.000 description 228
- 230000000694 effects Effects 0.000 description 116
- 230000014509 gene expression Effects 0.000 description 96
- 238000004891 communication Methods 0.000 description 61
- 230000008859 change Effects 0.000 description 60
- 230000006870 function Effects 0.000 description 60
- 241001269238 Data Species 0.000 description 36
- 238000013500 data storage Methods 0.000 description 36
- 238000012360 testing method Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 30
- 238000012797 qualification Methods 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 23
- 239000000284 extract Substances 0.000 description 22
- 230000006978 adaptation Effects 0.000 description 15
- 238000012854 evaluation process Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 12
- 238000003909 pattern recognition Methods 0.000 description 12
- 241001465754 Metazoa Species 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 230000005484 gravity Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 230000000977 initiatory effect Effects 0.000 description 6
- 239000003607 modifier Substances 0.000 description 6
- 238000013179 statistical model Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000002493 microarray Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013316 zoning Methods 0.000 description 4
- 241000238631 Hexapoda Species 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000037396 body weight Effects 0.000 description 2
- 238000011157 data evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 238000012252 genetic analysis Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 229910001416 lithium ion Inorganic materials 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
提供一种数据处理单元和数据处理单元控制程序,所述数据处理单元和数据处理单元控制程序适合于在诸如讲话者的类型,口语语汇,说话风格和说话环境之类的特定条件下,考虑到多样化的特征参数的分布,产生非特指讲话者的声学模型,并且适合于提供供非特指讲话者用且适用于特定人员的语音的声学模型。数据处理单元1包括数据分类部分1a,数据存储部分1b,模式模型产生部分1c,数据控制部分1d,数学距离计算部分1e,模式模型转换部分1f,模式模型显示部分1g,区域划分部分1h,划分改变部分1i,区域选择部分1j,和特定模式模型产生部分1k。
Description
本申请是申请号为200480028717.1、申请日期为2004年7月22日、发明名称为“数据处理单元和数据处理单元控制程序”的申请的分案申请。
技术领域
本发明涉及用于关于非特指对象的预定数据的模式识别的模式模型的产生。更具体地说,本发明涉及适合于在由诸如对象类型和预定数据的测量环境之类因素的组合构成的特定条件下,考虑到多样化的特征参数的分布,产生非特指对象的模式模型,并且适合于提供供非特指讲话者用的、且适用于关于指定对象的预定数据的模式识别的模式模型的数据处理单元、数据处理单元控制程序、模式模型搜索单元、模式模型搜索单元控制程序和特定模式模型提供系统;适合于利用关于多个讲话者的语音数据产生的模式模型,评估非特指讲话者的语音数据的值的数据处理单元、数据处理系统、数据处理方法和数据处理单元控制程序;以及适合于从多个讲话者中检测出在语音上与目标讲话者类似的讲话者,并且适合于提供为提高目标讲话者和检测到的讲话者之间的语音相似性而需要的信息的数据处理单元、数据处理系统、数据处理方法和数据处理单元控制程序。
背景技术
存在一种称为模式识别的信息处理技术,它涉及观察或测量对象的一些性质,并根据作为观察或测量的结果而获取的数据,识别对象和对对象分类。
一般来说,语音识别(它是模式识别的一种)包括声音分析器,该声音分析器将从讲话者得到的语音样本转换成一系列的特征参数, 以及语音匹配器,它匹配声音分析器获取的一系列特征参数与预先存储在存储单元,比如存储器或硬盘中的词汇表单词的特征参数信息,并选择具有最高相似性的词汇表单词作为识别结果。
已知的将语音样本转换成一系列的特征参数的声音分析方法包括在非专利文献1中描述的倒频谱分析和线性预测分析。
在语音识别中,识别非特指讲话者的语音的技术一般被称为非特定语者语音识别。由于词汇表单词的特征参数信息被预先存储在存储单元中,因此不同于特定语者语音识别,非特定语者语音识别使用户免除记录希望要被识别的单词的任务。
就准备词汇表单词的特征参数信息,并将其与通过转换输入语音而获取的一系列特征参数进行匹配的方法来说,普遍使用基于隐含马尔可夫模型(HMM)的方法。在基于HMM的方法中,利用HMM模拟语音单元,比如音节、半音节、音位、双音素和三音素。这种语音单元的模式模型一般被称为声学模型。
在非专利文献1中详细说明了创建声学模型的方法。
另外,根据在非专利文献1的第4章中描述的维特比算法,本领域的技术人员能够容易地构成非特定语者语音识别单元。
按照惯例,通常根据性别(男/女)、年龄(儿童/成人/老年人)、和语音环境(它取决于噪声)创建一个以上的声学模型。
非专利文献2公开一种利用声学模型之间的距离,自动使高维声学模型形成群集的方法。群集方法涉及通过指定大量的群集条件,基于反复试验地重复进行群集,直到获取良好的群集结果为止。
(非专利文献1)L.Rabiner等,“Fundamentals of SpeechRecognition”,Prentice Hall,Inc.,1993。
(非专利文献1)T.Kosaka等,“Tree-Structured SpeakerClustering for Fast Speaker Adaptation”,Proc.ICASSP,Vol.I,pp.I-245-248,Adelaide,Australia,1994。
但是,如上所述,通常最多根据性别(男/女)、年龄(儿童/成人/老年人)以及语音环境(它取决于噪声)创建少量的声学模型。从而为了划分声学模型,除了使用基于先验技术的试探法之外别无选择。 由此,可获取的识别率有限。
就非专利文献2而论,由于没有以可视的方式等容易地掌握声学模型间的相互关系,例如声学模型间的相对距离、或者声学模型群的数量和大小,因此必须在大量的群集条件下重复计算许多次,直到获取良好的群集结果为止。这需要大量的计算时间。
一般来说,为了实现高精度的语音识别,由于利用倒频谱(上面说明的)、MFCC(Mel频标倒频系数)或者其它高维(10~30维)特征参数产生声学模型,因此难以可视地表现多个声学模型间的相互关系。
上述问题不仅适用于声学模型,而且适用于图像识别和其它领域中的模式模型。
鉴于常规技术的上述问题做出了本发明,本发明的目的是提供适合于在由各种因素的组合构成的特定条件下,考虑到多样化的特征参数的分布,产生非特指对象的模式模型,并且适合于提供供非特指讲话者用的、且适用于关于指定对象的预定数据的模式识别的模式模型的数据处理单元、数据处理单元控制程序、模式模型搜索单元、模式模型搜索单元控制程序和特定模式模型提供系统;适合于利用关于多个讲话者的语音数据产生的模式模型,评估非特指讲话者的语音数据的值的数据处理单元、数据处理系统、数据处理方法和数据处理单元控制程序;以及适合于从多个讲话者中检测出在语音上与目标讲话者类似的讲话者,并且适合于提供为提高目标讲话者和检测到的讲话者之间的语音相似性而需要的信息的数据处理单元、数据处理系统、数据处理方法和数据处理单元控制程序。
发明内容
为了实现上述目的,本发明的母案原权利要求1限定了一种数据处理单元,包括:
数据分类装置,用于根据多个特定条件,将关于多个对象的多个预定数据分类到多个组中;
模式模型产生装置,用于根据所述数据分类装置所分类的预定数据,为每组预定数据产生具有4维或更高维元素的多个模式模型;
数学距离计算装置,用于计算相应各组的、由所述模式模型产生装置产生的模式模型之间的数学距离;
模式模型转换装置,用于根据所述数学距离计算装置所计算的数学距离,将多个模式模型转换成低维空间中的、与模式模型相对应的相同数量的低维向量,同时保持这些模式模型之间的距离关系;和
对应于模式模型的低维向量显示装置,用于根据低维元素的值,将对应于模式模型的多个低维向量,显示成与对应于模式模型的低维向量具有相同维数的低维空间中的坐标点,同时保持这些距离关系。
就这种结构来说,数据分类装置能够根据多个特定条件,将关于多个对象的多个预定数据分类到多个组中,模式模型产生装置能够根据由数据分类装置分类的预定数据,为每组预定数据产生包含4维或更高维元素的多个模式模型,数学距离计算装置能够计算相应各组的由模式模型产生装置产生的模式模型间的数学距离,模式模型转换装置能够将多个模式模型转换成低维空间中的与模式模型对应的相同数量的低维向量,同时根据数学距离计算装置计算的数学距离,保持模式模型间的距离关系,对应于模式模型的低维向量显示装置能够根据低维元素的值,将对应于模式模型的多个低维向量显示成与对应于模式模型的低维向量相同维数的低维空间中的坐标点,同时保持距离关系。
这使得易于直观地掌握模式模型间的距离关系(相似性)。另外,由于4维或更高维的模式模型可被转换成3维或更低维的模式模型,因此能够更容易地进行群集和各种其它处理。
就模式模型而论,当预定数据是语音数据时,通过模拟与语音数据相配的模式,获取所述模式模型,并且所述模式模型被表述成统计模型等。
预定数据可以是关于人话音、家庭噪声、工厂噪声、交通噪声等的声数据;野生动物,比如野鸟、昆虫、青蛙、蝙蝠或者其它动物的动物声音数据;图像数据;红外传感器数据,加速度传感器数据,方位传感器数据,压力传感器数据,来自压电元件或者振动计的振动传感器数据,或者任何其它传感器数据;关于电池,比如锂离子蓄电池或燃料电池的充电状态的物理数据;生物医学信号数据,比如心电图, 肌电图,血压或体重;基因分析用微阵列(microarray)数据;气象数据,比如温度、湿度或者气压;环境数据,比如氧浓度或者氧化氮浓度;经济趋势数据,比如股票价格或物价,或者其它时序数据;等等。
如上所述模式模型包含4维或者更高维的元素。这是因为例如在诸如语音识别之类的模式识别中,高的识别性能需要4维或更高维的特征参数,以及因为不存在能够实际获取有效的识别性能的已知3维或更低维的特征参数。
另外,所述预定数据由例如可从多个对象测得的数据本身,从数据抽取的特征值,根据特征值产生的模式模型,和描述它们的文本文件的组合组成。一个实例是关于多个讲话者发出的语音的数据,从语音数据抽取的特征值,根据特征值产生的模式模型,和描述它们的文本文件的组合。
数学距离代表根据关于指定对象的预定数据产生的模式模型与多个对象的模式模型之间的相似性。可存在各种各样的数学距离,取决于相似性的量度。例如,这些量度对应于可用普通标尺测量的距离,比如欧几里得距离,或者不能用普通标尺测量的距离,比如Mahalanobis广义距离,Mahalanobis广义距离将对应于相似性的距离表示成两个向量的内积,并将这两个向量之间的角度用作相似性的量度。根据本发明,其它可能的数学距离包括Bhattacharrya距离,平方欧几里得距离,余弦距离,Pearson相关性,Chebyshev距离,城市-街区(city-block)距离(或者Manhattan距离),Minkowski和,Kullback信息,和Chernov距离。总之,尽管称为距离,根据本发明的数学距离可以是任何事物,只要它代表相似性。
上述模式模型转换装置将4维或更高维的信息转换成适合于容易地处理,比如利用投射或类似处理的2维、3维或者其它低维信息。例如,按照这样的方式将所有模式模型投射到低维空间(例如2维或3维空间)中,以致其间具有较小数学距离的两个模式模型将被安置成相互接近,其间具有较大数学距离的两个模式模型将被安置成相互远离。
例如,如果欧几里得距离被用作数学距离,那么在模式模型被投 射到的低维空间中,相互间具有较小欧几里得距离的模式模型被认为彼此相似。
将高维模式模型转换成对应于低维模式模型的低维向量,并将结果显示在低维空间中的已知技术包括Sammon方法(参见J.W.Sammon,“A nonlinear mapping for data structure analysis”,IEEE Trans.Computer,Vol.C-18,No.5,pp.401-409,May 1969),判别分析方法(参见R.A.Fisher,“The use of multiple measurements intaxonomic Problems”,Ann.Eugenics,Vol.7,no.Part II,pp.179-188,1936),Aladjam方法(参见M.Aladjem,“Multiclass discriminantmappings”,Signal Process.,Vol.35,pp.1-18,1994),神经网络技术(参见J.Mao等,“Artificial neural networks for feature extractionand multivariate data projection”,IEEE Trans.Neural Networks,Vol.6,No.2,pp.296-317,1995),基于图表的技术(参见Y.Mori等,“Comparison of low-dimensional mapping techniques based ondiscriminatory information”,Proc.2nd International ICSCSymposium on Advances in Intelligent Data Analysis(AIDA′2001),CD-ROM Paper No.1724-166,Bangor,United Kingdom,2001),投射追踪法(参见J.H.Freidman等,“A proj ection pursuit algorithmfor exploratory data analysis”,IEEE Trans.Comput.,Vol.C-18,No.5,pp.401-409,1969),SOM法(参见T.Kohonen,“Self-OrganizingMaps”,Springer Series in Information Scien ces,Vol.30,Berlin,1995)。
本发明的母案原权利要求2限定了按照母案原权利要求1所述的数据处理单元,其中关于多个对象的多个预定数据是人话音数据、环境噪声数据、动物声音数据、图像数据、红外数据和加速度数据的其中一个。
这样,数据处理单元能够根据出自人话音数据;环境噪声数据,比如家庭噪声;野生动物,比如野鸟、昆虫、青蛙、蝙蝠或者其它动物的动物声音数据;图像数据;红外传感器数据;并且加速度传感器数据的一种数据产生模式模型。
本发明的母案原权利要求3限定了按照母案原权利要求1所述的 数据处理单元,其中:
关于多个对象的多个预定数据是关于由多个讲话者产生的多个语声的数据;和
所述多个特定条件至少包括讲话者的类型、口语语汇、说话风格和说话环境。
这使得能够至少考虑到讲话者的类型,包括讲话者的姓名、性别(男/女)、年龄(儿童/成人/老人);口语语汇,比如数字、句子和单词;说话风格,比如语速、讲话的音量和方言特征;以及说话环境,比如室内、车内、厂内或者室外环境(位置分类),产生语音数据的模式模型。
本发明的母案原权利要求4限定了按照母案原权利要求1-3任意之一所述的数据处理单元,其中按照从所述多个特定条件中任意选择的多个特定条件的每种组合,所述数据分类装置形成一组预定数据。
这样,按照从多个特定条件中任意选择的特定条件的每种组合,数据分类装置能够形成一组预定数据。
因此,例如如果预定数据是人话音数据,那么可按照特定条件的所需组合,比如成年男性(讲话者的类型)在室内(说话环境)快速(说话风格)说出的单词(口语语汇),形成一组预定数据。当然,数据可按照更宽的条件,比如成年男性(讲话者的类型)在室内(说话环境)说话来分组。
本发明的母案原权利要求5限定了按照母案原权利要求1-4任意之一所述的数据处理单元,其中利用HMM(隐含马尔可夫模型)产生模式模型。
这样,通过利用HMM(隐含马尔可夫模型)产生模式模型。
例如,语音随语速而在时间间隔方面发生变化,并且根据说话的内容,在频域中具有特有的形状(频谱包络)。该形状随特定的条件而波动。HMM是能够吸收所述波动的统计模型。
本发明的母案原权利要求6限定了按照母案原权利要求5所述的数据处理单元,其中所述数学距离计算装置利用下述之一计算数学距离:
利用HMM产生,并根据模式模型的正态分布的均值向量而确定 的欧几里得距离,
利用HMM产生,并根据由模式模型的正态分布的标准偏差归一化的、模式模型的正态分布的均值向量而确定的欧几里得距离,和
利用HMM产生,并根据模式模型的正态分布确定的Bhattacharrya距离。
这样,通过利用下述之一:利用HMM产生,并根据模式模型的正态分布的均值向量确定的欧几里得距离,利用HMM产生,并根据由模式模型的正态分布的标准偏差归一化的模式模型的正态分布的均值向量确定的欧几里得距离,以及利用HMM产生,并根据模式模型的正态分布确定的Bhattacharrya距离,数学距离计算装置能够计算数学距离。
从而,通过使用任意上述距离,能够计算模式模型之间更适当的数学距离。
本发明的母案原权利要求7限定了按照母案原权利要求1-6任意之一所述的数据处理单元,其中所述模式模型转换装置利用Sammon方法,将模式模型转换成对应于模式模型的低维向量。
这样,通过利用Sammon方法,模式模型转换装置能够将模式模型转换成对应于模式模型的低维向量。
从而,已知的Sammon方法的使用使得能够将模式模型转换成对应于模式模型的相对数量的低维向量,同时保持模式模型间的距离关系。
本发明的母案原权利要求8限定了按照母案原权利要求1-7任意之一所述的数据处理单元,包括区域划分装置,用于自动地将对应于这样模式模型的多个低维向量的坐标点划分到低维空间中的多个区域,即所述模式模型由对应于所述模式模型显示装置的低维向量显示在低维空间中。
借助这些结构,区域划分装置能够自动地将对应于这样模式模型的多个低维向量的坐标点划分到低维空间中的多个区域,即所述模式模型由对应于所述模式模型显示装置的低维向量显示在低维空间中。
从而,能够容易地划分对应于模式模型的多个低维向量的坐标点,使得易于直观地了解特定的模式模型属于哪个区域。
本发明的母案原权利要求9公开了按照母案原权利要求8所述的数据处理单元,其中所述区域划分装置借助一个外圆和n个内圆划分对应于模式模型的多个低维向量,其中n是等于或大于1的整数,并且
借助径向延伸的线条,进一步将由同心外圆和内圆在它们之间形成的环状区域分成多个区域,其中外圆以对应于模式模型的所有低维向量的坐标点的重心为中心,外圆的半径等于所述重心与离所述重心最远的、对应于模式模型的低维向量的坐标点之间的距离,内圆以所述重心为中心,内圆的半径小于外圆的半径。
从而,由同心的外圆和内圆形成的环状区域可被分成多个扇形区域。
本发明的母案原权利要求10限定了按照母案原权利要求8或9所述的数据处理单元,包括划分改变装置,用于改变所述区域划分装置自动产生的划分结果。
就这种结构来说,划分改变装置能够改变区域划分装置自动产生的划分结果。
从而,如果划分结果不适当,或者增加了新的模式模型,那么可适当地改变划分结果。另外,由于模式模型的直观划分结果被改变,因此能够容易地改变划分的结果。
本发明的母案原权利要求11公开了按照母案原权利要求8-10任意之一所述的数据处理单元,包含:区域选择装置,它能够选择所述区域划分装置产生的每个区域的、对应于模式模型的多个低维向量;以及
区域模式模型产生装置,用于根据与对应于这样的低维向量的模式模型相关的预定数据,产生模式模型,即所述低维向量对应于位于所述区域选择装置选择的区域中的模式模型。
就这种结构来说,区域选择装置能够选择区域划分装置产生的每个区域的对应于模式模型的多个低维向量,区域模式模型产生装置能够根据与对应于这样的低维向量的模式模型相关的预定数据,产生模式模型,即所述低维向量对应于位于所述区域选择装置选择的区域中的模式模型。
因此,例如通过利用与包含对应于指定对象的模式模型的低维向量的区域对应的预定数据,产生模式模型,能够为指定对象产生适当的模式模型。
另外,由于利用特定分段区域上的预定数据产生模式模型,因此能够减小模式模型的规模,和模式模型的存储器需求。
本发明的母案原权利要求12限定了一种数据处理单元控制程序,它是用于控制按照母案原权利要求1所述的数据处理单元的计算机可执行程序,包括:
数据分类步骤,用于根据多个特定条件,将关于多个对象的多个预定数据分类到多个组中;
模式模型产生步骤,用于根据在所述数据分类步骤中分类的预定数据,为每组预定数据产生具有4维或更高维元素的多个模式模型;
数学距离计算步骤,用于计算相应各组的、在所述模式模型产生步骤中产生的多个模式模型之间的数学距离;
模式模型转换步骤,用于根据在所述数学距离计算步骤中计算的数学距离,将多个模式模型转换成与模式模型对应的相同数量的低维向量,同时保持模式模型之间的距离关系;和
对应于模式模型的低维向量显示步骤,用于根据低维元素的值,将对应于模式模型的多个低维向量,显示成与对应于模式模型的低维向量具有相同维数的低维空间中的坐标点,同时保持这些距离关系。
由于本发明是控制按照母案原权利要求1所述的数据处理单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求13限定了按照母案原权利要求12所述的数据处理单元控制程序,包括:
区域划分步骤,用于自动地将对应于这样的模式模型的多个低维向量,划分到低维空间中的多个区域,即所述模式模型在所述对应于模式模型的低维向量显示步骤中被显示在低维空间中;
划分改变步骤,用于改变在所述区域划分步骤中自动产生的划分结果;
区域选择步骤,它能够选择在所述区域划分步骤产生的、每个区域的对应于模式模型的多个低维向量;和
区域模式模型产生步骤,用于根据与对应于这样的低维向量的模式模型相关的预定数据,产生对应于所选择区域的模式模型,即所述低维向量对应于位于所述区域选择步骤选择的区域中的模式模型。
由于本发明是控制按照母案原权利要求11所述的数据处理单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求14限定了一种模式模型搜索单元,包括:
区域划分装置,用于自动将由按照母案原权利要求1-7中任意一个所述的数据处理单元显示在低维空间中的坐标点,划分到低维空间中的多个区域;
区域模式模型产生装置,用于根据与这样的低维向量的坐标点对应的预定数据,产生每个区域的模式模型,即所述低维向量对应于包含在分段区域中的模式模型;
预定数据获取装置,用于获取关于新对象的预定数据;和
区域模式模型搜索装置,用于计算各个分段区域的区域模式模型相对于所获取的预定数据的似然性,并根据所述计算的似然性,搜索具有适合于识别关于所述新对象的预定数据的识别性能的区域模式模型。
就这种结构来说,区域划分装置能够自动将低维空间中的坐标点分成低维空间中的多个区域,区域模式模型产生装置能够根据与包含在分段区域中的对应于模式模型的低维向量的坐标点对应的预定数据,产生每个区域的模式模型,预定数据获取装置能够获取关于新对象的预定数据,区域模式模型搜索装置能够计算各个分段区域的区域模式模型相对于获取的预定数据的似然性,并根据计算的似然性,搜索具有适合于识别关于新对象的预定数据的识别性能的区域模式模型。
从而,能够根据对应于各个分段区域的区域模式模型相对于获取的关于新对象的预定数据的似然性,搜索区域模式模型,寻找适合于识别关于新对象的预定数据的模式的区域模式模型。
本发明的母案原权利要求15公开了一种模式模型搜索单元控制程序,它是用于控制按照母案原权利要求14所述的模式模型搜索单元 的计算机可执行程序,包括:
区域划分步骤,用于自动将由按照母案原权利要求1-7中任意一个所述的语音数据处理单元显示在低维空间中的坐标点,划分到低维空间中的多个区域;
区域模式模型产生步骤,用于根据与这样的低维向量的坐标点对应的预定数据,产生每个区域的模式模型,即所述低维向量对应于包含在分段区域中的模式模型;
预定数据获取步骤,用于获取关于新对象的预定数据;和
区域模式模型搜索步骤,用于计算对应于各个分段区域的区域模式模型相对于所获取的预定数据的似然性,并根据所述计算的似然性,搜索具有适合于识别关于所述新对象的预定数据的识别性能的区域模式模型。
由于本发明是控制按照母案原权利要求14所述的模式模型搜索单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
另一方面,为了达到上述目的,本发明的母案原权利要求16公开了一种数据处理单元,包含:
数据分类装置,用于根据多个特定条件,将关于多个对象的多个预定数据分类到多个组中;
模式模型产生装置,用于根据所述数据分类装置分类的预定数据,为每组预定数据产生具有4维或更高维元素的多个模式模型;
数学距离计算装置,用于计算相应各组的、由所述模式模型产生装置产生的多个模式模型之间的数学距离;
模式模型转换装置,用于根据所述数学距离计算装置计算的数学距离,将多个模式模型转换成低维空间中的、与模式模型对应的相同数量的低维向量,同时保持模式模型之间的距离关系;和
对应于模式模型的低维向量显示装置,用于根据低维元素的值,将对应于模式模型的多个低维向量,显示成与对应于模式模型的低维向量具有相同维数的低维空间中的坐标点,同时保持这些距离关系,其中
当计算这些数学距离时,所述数学距离计算装置使用每个模式单元在关于多个对象的多个预定数据中的出现频率。
就这种结构来说,数据分类装置能够根据多个特定条件,将关于多个对象的多个预定数据分类到多个组中,模式模型产生装置能够根据由数据分类装置分类的预定数据,为每组预定数据产生包含4维或更高维元素的多个模式模型,数学距离计算装置能够计算相应各组的由模式模型产生装置产生的模式模型间的数学距离,模式模型转换装置能够根据数学距离计算装置计算的数学距离,将多个模式模型转换成与模式模型对应的相同数量的低维向量,同时保持模式模型间的距离关系,对应于模式模型的低维向量显示装置能够根据低维元素的值,将对应于模式模型的多个低维向量显示成与对应于模式模型的低维向量相同维数的低维空间中的坐标点,同时保持距离关系,当计算数学距离时,数学距离计算装置能够使用每个模式单元在关于多个对象的多个预定数据中的出现频率。
这使得易于直观地掌握模式模型间的距离关系(相似性)。另外,由于4维或更高维的模式模型可被转换成3维或更低维的模式模型,因此能够更容易地进行群集和各种其它处理。此外,由于每个模式单元的出现频率被用于计算数学距离,因此如果利用出现频率对数学距离加权,那么通过考虑到模式模型中的所有模式单元,能够定义模式模型间的距离,从而更准确地计算模式模型间的距离关系。
这里,如果预定数据是人话音数据,那么诸如音节、音位、双音素、三音素之类的语音单元被用作模式单元。
本发明的母案原权利要求17限定了按照母案原权利要求16所述的数据处理单元,其中所述模式单元的出现频率是这样的模式单元的出现频率,即所述模式单元在使用模式模型的多个预定数据的模式识别时,在与多个对象相关的多个预定数据之中,其识别性能低于预定阈值。
这样,由于在数学距离的计算中,使用其识别性能低于预定阈值的模式单元的出现频率,因此可在低维层次以准确的距离关系,显示具有低识别性能的对象的模式模型。这使得易于群集具有低识别性能的对象的模式模型。
所述预定阈值可以是在0%(包含)-100%范围中的值。
另外,为了达到上述目的,本发明的母案原权利要求18限定了一 种数据处理单元,包括:
数据分类装置,用于根据多个特定条件,将关于多个对象的多个预定数据分类到多个组中;
模式模型产生装置,用于根据所述数据分类装置分类的预定数据,为每组预定数据产生具有4维或更高维元素的多个模式模型;
数学距离计算装置,用于计算相应各组的、由所述模式模型产生装置产生的模式模型之间的数学距离;
模式模型转换装置,用于根据所述数学距离计算装置计算的数学距离,将多个模式模型转换成与模式模型对应的相同数量的低维向量,同时保持模式模型之间的距离关系;
对应于模式模型的低维向量显示装置,用于根据低维元素的值,将对应于模式模型的多个低维向量,显示成与对应于模式模型的低维向量具有相同维数的低维空间中的坐标点,同时保持这些距离关系;
区域划分装置,用于自动地将对应于这样的模式模型的多个低维向量的坐标点,划分到低维空间中的多个区域,即所述模式模型由所述对应于模式模型的低维向量显示装置显示在低维空间中;
区域模式模型产生装置,用于根据与这样的低维向量的坐标点对应的预定数据,产生每个区域的区域模式模型,即所述低维向量对应于包含在分段区域中的模式模型;
预定数据获取装置,用于获取关于新对象的预定数据;和
区域模式模型搜索装置,用于计算各个分段区域的区域模式模型相对于所获取的预定数据的似然性,并根据所述计算的似然性,搜索由所述区域模式模型产生装置产生的区域模式模型,寻找具有适合于识别关于所述新对象的预定数据的识别性能的区域模式模型。
就这种结构来说,数据分类装置能够根据多个特定条件,将关于多个对象的多个预定数据分类到多个组中,模式模型产生装置能够根据由数据分类装置分类的预定数据,为每组预定数据产生包含4维或更高维元素的多个模式模型,数学距离计算装置能够计算相应各组的由模式模型产生装置产生的模式模型间的数学距离,模式模型转换装置能够根据数学距离计算装置计算的数学距离,将多个模式模型转换成与模式模型对应的相同数量的低维向量,同时保持模式模型间的距 离关系,对应于模式模型的低维向量显示装置能够根据低维元素的值,将对应于模式模型的多个低维向量,显示成与对应于模式模型的低维向量具有相同维数的低维空间中的坐标点,同时保持这些距离关系,区域划分装置能够自动地将对应于这样的模式模型的多个低维向量的坐标点,划分到低维空间中的多个区域,即所述模式模型由所述对应于模式模型的低维向量显示装置显示在低维空间中,区域模式模型产生装置能够根据与这样的低维向量的坐标点对应的预定数据,产生每个区域的区域模式模型,即所述低维向量对应于包含在分段区域中的模式模型,预定数据获取装置能够获取关于新对象的预定数据,区域模式模型搜索装置能够计算各个分段区域的区域模式模型相对于获取的预定数据的似然性,并根据计算的似然性,搜索具有适合于识别关于新对象的预定数据的识别性能的区域模式模型。
这使得易于直观地掌握模式模型之间的距离关系(相似性)。另外,由于能够容易地划分对应于模式模型的多个低维向量的坐标点,因此易于直观地了解特定的模式模型属于哪个区域。此外,能够根据各个分段区域的区域模式模型相对于关于新对象的预定数据的似然性,搜索具有适合于识别关于新对象的预定数据的识别性能的区域模式模型。
本发明的母案原权利要求19限定了按照母案原权利要求18所述的数据处理单元,当计算数学距离时,所述数学距离计算装置使用每个模式单元在关于多个对象的多个预定数据中的出现频率。
由于每个模式单元的出现频率被用于计算数学距离,因此如果利用出现频率对数学距离加权,那么通过考虑到模式模型中的所有模式单元,能够定义模式模型间的距离,从而更准确地计算模式模型间的距离关系。
本发明的母案原权利要求20限定了按照母案原权利要求19所述的数据处理单元,其中所述模式单元的出现频率是这样的模式单元的出现频率,即所述模式单元在使用模式模型的关于多个对象的多个预定数据的模式识别时,在与所述多个对象相关的多个预定数据之中,其识别性能低于预定阈值。
这样,由于在数学距离的计算中,使用其识别性能低于预定阈值 的模式单元的出现频率,因此可在低维层次以准确的距离关系,显示具有低识别性能的对象的模式模型。这使得易于群集具有低识别性能的对象的模式模型。
本发明的母案原权利要求21限定了按照母案原权利要求18-20任意之一所述的数据处理单元,其中所述区域划分装置借助一个外圆和n个内圆划分对应于模式模型的多个低维向量,n是等于或大于1的整数,并且
借助径向延伸的线条,进一步将由同心外圆和内圆在它们之间形成的环状区域分成多个区域,外圆以对应于模式模型的所有低维向量的坐标点的重心为中心,外圆的半径等于所述重心与离所述重心最远的、对应于模式模型的低维向量的坐标点之间的距离,内圆以所述重心为中心,内圆的半径小于外圆的半径。
从而,由同心外圆和内圆形成的环状区域可被分成多个扇形区域。
本发明的母案原权利要求22限定了按照母案原权利要求21所述的数据处理单元,其中随着到最内侧圆的径向距离不断增大,所述区域划分装置更细致地划分对应于模式模型的低维向量。
当模式模型二维可视时,由于随着离中心的径向距离的增大,模式模型的识别性能(与其它模型的相似性)会降低,因此通过细微地划分包含具有低识别性能的模式模型的区域,能够更准确地对数据分组。
本发明的母案原权利要求23限定了按照母案原权利要求21或22所述的数据处理单元,其中所述区域划分装置按照这样的方式划分区域,即使得在相邻区域中的对应于模式模型的低维向量之间存在部分重叠。
这使得能够容易地处理当产生指定对象的模式模型时,关于指定对象的预定数据位于分段区域间的边界上的情况。
本发明的母案原权利要求24限定了按照母案原权利要求21-23任意之一所述的数据处理单元,其中所述区域模式模型搜索装置能够从最内侧圆开始,并移动到最外侧圆,计算各个分段区域的区域模式模型相对于所获取的预定数据的似然性,并根据所述计算的似然性,搜 索由所述区域模式模型产生装置产生的区域模式模型,以寻找具有适合于识别关于新对象的预定数据的识别性能的区域模式模型。
这样,由于通过从最内侧圆开始,并移向最外侧圆,计算关于新对象的预定数据的区域模式模型的似然性,因此能够快速搜索适合于关于新对象的预定数据的分段区域的区域模式模型。
本发明的母案原权利要求25限定了按照母案原权利要求24所述的数据处理单元,其中所述区域模式模型搜索装置计算与最内侧圆内的区域对应的区域模式模型相对于所获取的预定数据的似然性,
计算与正好在最内侧圆外的环状区域中的分段区域相对应的区域模式模型的似然性,
计算对应于正好在这样区域之外的区域的区域模式模型的似然性,即所述区域在接下来的内部区域之中包含具有最高似然性的区域模式模型,
随后顺序向外移动按此方式计算似然性。
这样,由于通过从最内侧圆开始,并移向最外侧圆,搜索包含具有最高似然性(识别性能)的区域模式模型的分段区域,因此能够快速搜索适合于关于新对象的预定数据的分段区域的区域模式模型。
本发明的母案原权利要求26限定了按照母案原权利要求24所述的数据处理单元,其中所述区域模式模型搜索装置计算与最内侧圆内的区域相对应的区域模式模型相对于所获取的预定数据的似然性,
计算与正好在最内侧圆外的环状区域中的分段区域相对应的区域模式模型的似然性,
计算对应于正好在这样区域之外的区域的区域模式模型的似然性,即所述区域在接下来的内部区域之中包含具有前m个似然性的区域模式模型,m是大于1的整数,
随后顺序向外移动按此方式计算似然性。
这样,由于通过从最内侧圆开始,并移向最外侧圆,搜索包含具有前m个似然性的区域模式模型的分段区域,因此能够快速搜索适合于关于新对象的预定数据的分段区域的区域模式模型。
本发明的母案原权利要求27限定了按照母案原权利要求18-26任意之一所述的数据处理单元,其中:
所述关于多个对象的多个预定数据是关于由多个讲话者产生的多个语声的数据;和
所述多个特定条件至少包括讲话者的类型、口语语汇、说话风格和说话环境。
这使得能够至少考虑到讲话者的类型,包括讲话者的姓名、性别(男/女)、年龄(儿童/成人/老人);口语语汇,比如数字、句子和单词;说话风格,比如语速、讲话的音量和方言特征;以及说话环境,比如室内、车内、厂内或者室外环境(位置分类),产生语音数据的模式模型。
本发明的母案原权利要求28限定了按照母案原权利要求18-27任意之一所述的数据处理单元,其中按照从所述多个特定条件中任意选择的多个特定条件的每种组合,所述数据分类装置形成一组预定数据。
从而,例如如果预定数据是人话音数据,那么可按照特定条件的所需组合,比如成年男性(讲话者的类型)在室内(说话环境)快速(说话风格)说出的单词(口语语汇),形成一组预定数据。当然,数据可按照更宽的条件,比如成年男性(讲话者的类型)在室内(说话环境)说话来分组。
本发明的母案原权利要求29限定了按照母案原权利要求18-28任意之一所述的数据处理单元,其中利用HMM(隐含马尔可夫模型)产生模式模型。
这样,通过利用HMM(隐含马尔可夫模型)产生模式模型。
例如,语音随语速而在时间间隔方面发生变化,并且根据说话的内容,在频域中具有特有的形状(频谱包络)。该形状随特定的条件而波动。HMM是能够吸收所述波动的统计模型。
本发明的母案原权利要求30限定了按照母案原权利要求29所述的数据处理单元,其中所述数学距离计算装置利用下述之一计算数学距离:
利用HMM产生,并根据模式模型的正态分布的均值向量而确定的欧几里得距离,
利用HMM产生,并根据由模式模型的正态分布的标准偏差归一化的、模式模型的正态分布的均值向量而确定的欧几里得距离,以及
利用HMM产生,并根据模式模型的正态分布确定的Bhattacharrya距离。
从而,通过使用任意上述距离,能够计算模式模型之间更适当的数学距离。
本发明的母案原权利要求31限定了按照母案原权利要求18-30任意之一所述的数据处理单元,其中所述模式模型转换装置利用Sammon方法,将模式模型转换成对应于模式模型的低维向量。
这样,通过利用Sammon方法,模式模型转换装置能够将模式模型转换成对应于模式模型的低维向量。
从而,已知的Sammon方法的使用使得能够将模式模型转换成对应于模式模型的相对数量的低维向量,同时保持模式模型间的距离关系。
本发明的母案原权利要求32限定了按照母案原权利要求18-31任意之一所述的数据处理单元,包括用于改变区域划分装置自动产生的划分结果的划分改变装置。
从而,如果划分结果不适当,或者增加了新的模式模型,那么可适当地改变划分结果。另外,由于模式模型的直观划分结果被改变,因此能够容易地改变划分的结果。
本发明的母案原权利要求33限定了按照母案原权利要求18-32任意之一所述的数据处理单元,包括根据所述关于新对象的预定数据,使所述模式模型搜索装置找到的区域模式模型适应新对象的模式模型适应装置。
就这种结构来说,模式模型适应装置能够根据关于新对象的预定数据,使模式模型搜索装置找到的区域模式模型适应新对象。
从而,能够为新对象产生适当的模式模型。另外,由于利用特定 分段区域上的预定数据产生模式模型,因此能够减小模式模型的规模,和模式模型的存储器需求。这里,MLLR讲话者适应技术可被用于所述适应。
本发明的母案原权利要求34公开了按照母案原权利要求33所述的数据处理单元,其中:
所述模式模型转换装置能够将对应于多个低维向量的高维模式模型转换成对应于模式模型的低维向量,所述多个低维向量与包含在这样区域中的模式模型相对应,即所述区域对应于所述模式模型搜索装置找到的区域模式模型;
所述对应于模式模型的低维向量显示装置能够根据低维元素的值,将转换后的对应于模式模型的多个低维向量,显示成和对应于模式模型的低维向量具有相同维数的低维空间中的坐标点,同时保持距离关系;和
所述区域划分装置能够自动将对应于在低维空间中显示的模式模型的多个低维向量的坐标点,划分到低维空间中的多个区域。
这样,由于对应于多个低维向量的高维模式模型被再次转换成对应于模式模型的低维向量,所述多个低维向量与包含在这样区域中的模式模型相对应,即所述区域对应于所述模式模型搜索装置找到的区域模式模型,随后通过关于适合于新对象的区域模式模型搜索分段区域,转换后的对应于模式模型的低维向量被划分,因此能够产生更适合于关于新对象的预定数据的模式识别的特定模式模型。
本发明的母案原权利要求35限定了一种数据处理单元控制程序,它是控制按照母案原权利要求16所述的数据处理单元的计算机可执行程序,包括:
它是用于控制按照母案原权利要求16所述的数据处理单元的计算机可执行程序,包括:
数据分类步骤,用于根据多个特定条件,将关于多个对象的多个预定数据分类到多个组中;
模式模型产生步骤,用于根据在所述数据分类步骤中分类的预定 数据,为每组预定数据产生具有4维或更高维元素的多个模式模型;
数学距离计算步骤,用于计算相应各组的、在所述模式模型产生步骤中产生的模式模型之间的数学距离;
模式模型转换步骤,用于根据在所述数学距离计算步骤中计算的数学距离,将多个模式模型转换成低维空间中的与模式模型对应的相同数量的低维向量,同时保持模式模型之间的距离关系;和
对应于模式模型的低维向量显示步骤,用于根据低维元素的值,将对应于模式模型的多个低维向量,显示成与对应于模式模型的低维向量具有相同维数的低维空间中的坐标点,同时保持距离关系,其中
当计算数学距离时,所述数学距离计算步骤使用每个模式单元在关于多个对象的多个预定数据中的出现频率。
由于本发明是控制按照母案原权利要求16所述的数据处理单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求36公开了一种数据处理单元控制程序,它是用于控制按照母案原权利要求18所述的数据处理单元的计算机可执行程序,包括:
数据分类步骤,用于根据多个特定条件,将关于多个对象的多个预定数据划分到多个组中;
模式模型产生步骤,用于根据在所述数据分类步骤中分类的预定数据,为每组预定数据产生具有4维或更高维元素的多个模式模型;
数学距离计算步骤,用于计算相应各组的、在所述模式模型产生步骤中产生的模式模型之间的数学距离;
模式模型转换步骤,用于根据在所述数学距离计算步骤中计算的数学距离,将所述多个模式模型转换成低维空间中的与模式模型对应的相同数量的低维向量,同时保持模式模型之间的距离关系;
对应于模式模型的低维向量显示步骤,用于根据低维元素的值,将对应于模式模型的多个低维向量,显示成与对应于模式模型的低维向量具有相同维数的低维空间中的坐标点,同时保持距离关系;
区域划分步骤,用于自动地将对应于这样的模式模型的多个低维 向量的坐标点,划分到低维空间中的多个区域,即所述模式模型在所述对应于模式模型的低维向量显示步骤中被显示在低维空间中;
区域模式模型产生步骤,用于根据与这样的低维向量的坐标点对应的预定数据,产生每个区域的区域模式模型,即所述低维向量对应于包含在分段区域中的模式模型;
预定数据获取步骤,用于获得关于新对象的预定数据;和
区域模式模型搜索步骤,用于计算各个分段区域的、区域模式模型相对于所获取的预定数据的似然性,并根据所述计算的似然性,搜索具有适合于识别关于新对象的预定数据的识别性能的区域模式模型。
由于本发明是控制按照母案原权利要求18所述的数据处理单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求37限定了一种特定模式模型提供系统,包括:
受到系统用户控制的信息处理终端;和
按照母案原权利要求18-34中任意一个所述的数据处理单元,
其中所述信息处理终端和所述数据处理单元彼此可通信地互连,
在所述数据处理单元中,关于多个对象的多个预定数据是由多个讲话者产生的多个语声,
所述信息处理终端包括:
语音数据发送装置,用于获取关于所述系统用户产生的语声的数据,并将所述获取的语音数据发送给所述数据处理单元,和
特定模式模型获取装置,用于从所述数据处理单元获取这样的特定模式模型,即所述特定模式模型适合于所述系统用户的语音数据的模式识别,
所述数据处理单元使所述预定数据获取装置从所述信息处理终端获取语音数据,并且根据所述获取的语音数据,产生所述系统用户的特定模式模型,并且
所述数据处理单元还包括特定模式模型发送装置,用于将所述产 生的特定模式模型发送给所述信息处理终端。
就这种结构来说,信息处理终端能够获取关于讲话者产生的语声的数据,通过语音数据发送装置将获取的语音数据发送给数据处理单元,并且能够通过特定模式模型获取装置,从数据处理单元获取适合于系统用户的语音数据的模式识别的特定模式模型。
另外,数据处理单元能够通过预定数据获取装置,从信息处理终端获取语音数据,根据获取的语音数据产生系统用户的特定模式模型,并通过特定模式模型发送装置,将产生的特定模式模型发送给信息处理终端。
从而,系统用户能够通过因特网等,使诸如PC、蜂窝电话机或PDA之类的信息处理终端与数据处理单元连接,将他/她的语音数据发送给数据处理单元,从而容易地获取适合于他/她的语音数据的语音识别的特定模式模型。
另一方面,为了达到上述目的,本发明的母案原权利要求38限定了一种数据处理单元,包括:
声学空间存储装置,用于存储由根据多个讲话者的语音数据产生的多个模式模型组成的声学空间;
语音数据获取装置,用于获取目标讲话者的语音数据;
位置计算装置,用于根据所述语音数据获取装置获取的目标讲话者的语音数据、以及所述声学空间存储装置存储的声学空间中的多个模式模型,计算所述目标讲话者的语音数据在声学空间中的位置;
语音数据评估装置,用于根据所述位置计算装置计算的位置,评估所述目标讲话者的语音数据的值;
评估结果显示装置,用于显示由所述语音数据评估装置产生的评估结果;和
位置关系信息显示装置,用于根据所述计算的位置,显示所述声学空间中的、语音数据和环绕所述语音数据的模式模型之间的位置关系的信息。
就这种结构来说,语音数据获取装置能够获取目标讲话者的语音 数据,位置计算装置能够根据语音数据获取装置获取的语音数据,以及声学空间存储装置存储的声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置,语音数据评估装置能够根据位置计算装置计算的位置,评估目标讲话者的语音数据的值,评估结果显示装置能够显示语音数据评估装置产生的评估结果,位置关系信息显示装置能够根据计算的位置,显示声学空间中的、语音数据和环绕该语音数据的模式模型之间的位置关系的信息。
从而,能够根据声学空间中,目标讲话者的语音数据与其它模式模型之间的位置关系,评估目标讲话者的语音数据的值,显示评估结果以及显示语音数据和其它模式模型之间的位置关系。即,该系统使得能够直观地确定目标讲话者产生的语音数据是否具有较高的值,并且使得易于直观地了解目标讲话者的语音数据在声学空间中的位置。
对照语音数据匹配模式模型,并且模式模型被表示成统计模型或类似模型。
另外,语音数据例如由多个讲话者产生的语声数据,从语音数据抽取的特征值,根据特征值产生的模式模型以及描述说话的内容的文本文件的组合组成。从而,语音数据获取装置包含通过麦克风等获取讲话者产生的语声,将获取的语声转换成数据,并根据需要通过分析该数据,抽取特征值的各种处理装置。
本发明的母案原权利要求39限定了按照母案原权利要求38所述的数据处理单元,其中所述语音数据评估装置根据这样的模式模型的数量而评估语音数据的值,即所述模式模型存在于与所述位置计算装置计算的目标讲话者的语音数据的位置相距预定距离之内。
这样,语音数据评估装置能够根据存在于离位置计算装置计算的讲话者的语音数据的位置预定距离内的模式模型的数量,评估语音数据的值。
从而,如果在目标讲话者的语音数据周围,不存在其它讲话者的许多模式模型,那么能够确定语音数据的值较高,如果在该语音数据的周围,存在许多模式模型,那么能够确定该语音数据的值较低。
本发明的母案原权利要求40限定了按照母案原权利要求38或39所述的数据处理单元,其中:
所述预定距离被步进地设置;和
所述语音数据评估装置根据存在于步进设置的每个距离范围内的模式模型的数量,评估语音数据的值。
这样,预定距离被按照语音数据的值步进设置,并且语音数据评估装置能够根据存在于步进设置的每个距离范围内的模式模型的数量,评估语音数据的值。
这使得能够按照每个距离范围中模式模型的数量,步进地评估目标讲话者的语音数据的值。
本发明的母案原权利要求41限定了按照母案原权利要求38-40任意之一所述的数据处理单元,其中所述语音数据评估装置根据所述位置计算装置计算的位置,将多个模式模型中的特征与目标讲话者的语音数据类似的模式模型,用作目标讲话者的模式模型以便评估。
这样,语音数据评估装置能够根据位置计算装置计算的位置,将多个模式模型中,特征与目标讲话者的语音数据类似的模式模型用作目标讲话者的模式模型用于评估。
由于代替产生目标讲话者产生的语声的模式模型,本发明使用相似模式模型的位置作为目标讲话者产生的语音数据在声学空间中的位置,因此,能够减少计算工作量,并且能够使用适合于实时处理等的配置。
本发明的母案原权利要求42限定了按照母案原权利要求41所述的数据处理单元,其中所述语音数据评估装置将多个模式模型中的特征与目标讲话者的语音数据类似的前几个模式模型,用作目标讲话者的模式模型,以便进行所述评估。
这样,语音数据评估装置能够将特征与目标讲话者的语音数据类似的前几个模式模型用作目标讲话者的模式模型,用于所述评估。
从而,与当选择单一模式模型时相比,通过选择按相似性降序排列的前几个模式模型,并将这些模式模型的平均值用于评估,能够降 低其中被认为相似的模式模型实际证明是不相似的任何错误选择的影响。
本发明的母案原权利要求43限定了按照母案原权利要求41或42所述的数据处理单元,其中所述位置计算装置将所述语音数据获取装置获取的语音数据转换成高维特征数据,计算所述特征数据与多个讲话者的多个模式模型中的每一个之间的匹配似然性,根据所述计算的似然性,从多个讲话者的多个模式模型中选择特定的模式模型,计算所述选择的特定模式模型与其它模式模型之间的数学距离,并且根据所述计算的数学距离,计算所述获取的语音数据在声学空间中的位置。
这样,通过计算目标讲话者的语音数据与多个讲话者的多个模式模型之间的匹配似然性,能够确定相似性。这使得易于选择特征与目标讲话者的语音数据相似的模式模型。
这里,数学距离代表根据目标讲话者的语音数据产生的声学模型与多个讲话者的声学模型之间的相似性。可存在各种各样的数学距离,取决于相似性的量度。例如,这些量度对应于可用普通标尺测量的距离,比如欧几里得距离,或者不能用普通标尺测量的距离,比如Mahalanobis广义距离,Mahalanobis广义距离将对应于相似性的距离表示成两个向量的内积,并将这两个向量之间的角度用作相似性的量度。根据本发明,其它可能的数学距离包括Bhattacharrya距离,平方欧几里得距离,余弦距离,Pearson相关性,Chebyshev距离,城市-街区(city-block)距离(或者Manhattan距离),Minkowski和,Kullback信息,和Chernov距离。总之,尽管称为距离,根据本发明的数学距离可以是任何事物,只要它代表相似性。这也适用于后面的母案原权利要求。
本发明的母案原权利要求44限定了按照母案原权利要求38-40任意之一所述的数据处理单元,其中所述位置计算装置将所述语音数据获取装置获取的语音数据转换成高维特征数据,根据所述特征数据产生目标讲话者的模式模型,计算所述产生的模式模型与多个讲话者的多个模式模型之间的数学距离,并且根据所述计算的数学距离,计算 所述获取的语音数据在声学空间中的位置。
这样,位置计算装置能够将语音数据获取装置获取的语音数据转换成高维特征数据,根据特征数据产生目标讲话者的模式模型,计算产生的模式模型与多个讲话者的多个模式模型之间的数学距离,并根据计算的数学距离计算获取的语音数据在声学空间中的位置。
这使得能够更准确地评估目标讲话者的语音数据的值。
本发明的母案原权利要求45限定了按照母案原权利要求43或44所述的数据处理单元,其中:
所述模式模型由4维或者更高维的元素组成;和
所述位置关系信息显示装置将声学空间中的多个这样模式模型转换成低维模式模型,即所述模式模型包括与目标讲话者的语音数据相对应的多个模式模型,同时保持所述距离关系,并将所述转换后的模式模型显示成低维空间中的坐标点。
这样,评估结果显示装置能够将包括对应于目标讲话者的语音数据的多个模式模型的声学空间中的多个模式模型转换成低维模式模型,同时保持位置关系,并将转换后的模式模型显示成低维空间中的坐标点。
这使得易于直观地了解目标讲话者的语音数据在声学空间中的位置。
这里,如果语音数据和模式模型包含多维(4维或者更高维)信息,那么关于它们的位置信息也是多维的。这种情况下,评估结果显示装置能够例如通过利用投射等,将关于语音数据和模式模型的多维信息转换成2维或者更低维的信息,并将它们显示成低维空间中的坐标点。已知的投射方法包括Sammon方法。
本发明的母案原权利要求46限定了按照母案原权利要求38-45任意之一所述的数据处理单元,其中利用HMM(隐含马尔可夫模型)产生模式模型。
这样,利用HMM,一种已知技术产生模式模型。
这里,语音随语速而在时间间隔方面发生变化,并且根据说话的 内容,在频域中具有特有的形状(频谱包络)。该形状随讲话者、环境、内容等而波动。HMM是能够吸收所述波动的统计模型。
本发明的母案原权利要求47限定了按照母案原权利要求38-46任意之一所述的数据处理单元,其中:
所述语音数据评估装置逐个音素地评估目标讲话者的语音数据的值;和
所述评估结果显示装置逐个音素地显示目标讲话者的语音数据的评估结果。
这样,由于逐个音位地,而不是逐字地或者逐句地评估目标讲话者的语音数据,并且评估结果被逐个音位地显示,因此易于确定每个音位的值。
本发明的母案原权利要求48限定了按照母案原权利要求38-47任意之一所述的数据处理单元,其中当所述语音数据评估装置将目标讲话者的语音数据评估为具有较低的值时,所述评估结果显示装置显示语音数据的补充信息。
这样,通过显示提示诸如发音方式、语速或者需要被评估的(或者获取)的其它语音数据之类的信息的补充信息,能够获取和评估同一目标讲话者的各种语音数据。这考虑到相同讲话者的语音数据可能随发音方式等而升值的事实。
本发明的母案原权利要求49限定了按照母案原权利要求38-48任意之一所述的数据处理单元,包括:
协商装置,用于与目标讲话者协商语音数据是否可被提供;和
语音数据存储装置,用于存储被所述协商装置成功完成的协商的语音数据。
这样,协商装置能够与目标讲话者协商语音数据是否可被提供,语音数据存储装置能够存储协商装置成功完成协商的语音数据。
这使得能够与目标讲话者协商由目标讲话者产生,并且被评估为例如具有较高值的任意语音数据的获取。
本发明的母案原权利要求50限定了一种数据处理系统,包括:
受到目标讲话者控制的信息处理终端;和
按照母案原权利要求38-49中任意一个所述的数据处理单元,其中:
所述信息处理终端和所述数据处理单元彼此可通信地互连,
所述信息处理终端包括:
语音数据发送装置,用于获取目标讲话者的语音数据,并将所述获取的语音数据发送给所述数据处理单元,和
评估信息显示装置,用于显示从所述数据处理单元获取的目标讲话者的语音数据的评估结果信息,
其中所述数据处理单元包括评估信息发送装置,用于将所述评估结果信息发送给所述信息处理终端。
这样,信息处理终端能够获取目标讲话者的语音数据,并通过语音数据发送装置,将获取的语音数据发送给数据处理单元。另外,借助评估信息显示装置,它能够显示与从数据处理单元获取的目标讲话者的语音数据的评估结果相关的信息。另一方面,通过评估信息发送装置,数据处理单元能够将有关评估结果的信息发送给信息处理终端。
从而,如果信息处理终端通过因特网等与数据处理单元连接,那么能够通过因特网评估许多目标讲话者的语音数据,从而使得易于获取值较高的语音数据。
本发明的母案原权利要求51限定了一种数据处理方法,包括下述步骤:
准备由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
获取目标讲话者的语音数据;
根据所述获取的语音数据和所述声学空间中的多个模式模型,计算目标讲话者的语音数据在所述声学空间中的位置;
根据所述计算的位置,评估目标讲话者的语音数据的值;和
显示评估结果。
由于本发明由按照母案原权利要求38-50任意之一所述的数据处 理单元实现,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求52限定了一种数据处理单元控制程序,它是用于控制按照母案原权利要求38所述的数据处理单元的计算机可执行程序,包括:
声学空间存储步骤,用于存储由根据多个讲话者的语音数据产生的多个模式模型组成的声学空间;
语音数据获取步骤,用于获取目标讲话者的语音数据;
位置计算步骤,用于根据在所述语音数据获取步骤中获取的语音数据、以及在所述声学空间存储步骤中存储的声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
语音数据评估步骤,用于根据在所述位置计算步骤中计算的位置,评估目标讲话者的语音数据的值;和
评估结果显示步骤,用于显示在所述语音数据评估步骤中产生的评估结果。
由于本发明是控制按照母案原权利要求38所述的数据处理单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求53限定了一种适用于按照母案原权利要求50所述的数据处理系统的数据处理单元,包括:
声学空间存储装置,用于存储由根据多个讲话者的语音数据产生的多个模式模型组成的声学空间;
语音数据获取装置,用于获取目标讲话者的语音数据;
位置计算装置,用于根据所述语音数据获取装置获取的语音数据、以及所述声学空间存储装置存储的声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
语音数据评估装置,用于根据所述位置计算装置计算的位置,评估目标讲话者的语音数据的值;
评估结果显示装置,用于显示所述语音数据评估装置产生的评估结果;
位置关系信息显示装置,用于根据所述计算的位置,显示所述声 学空间中的、所述语音数据和环绕所述语音数据的模式模型之间的位置关系的信息;和
评估信息发送装置,用于将所述评估结果信息发送给所述信息处理终端。
由于本发明提供和按照母案原权利要求50所述的数据处理系统中的数据处理单元相同的效果,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求54限定了一种适用于按照母案原权利要求50所述的数据处理系统的信息处理终端,包括:
语音数据发送装置,用于获取目标讲话者的语音数据,并且将所述获取的语音数据发送给所述数据处理单元;和
评估信息显示装置,用于显示从所述数据处理单元获取的目标讲话者的语音数据的评估结果信息。
由于本发明提供和按照母案原权利要求50所述的数据处理系统中的信息处理终端相同的效果,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求55限定了一种数据处理单元控制程序,它是用于控制按照母案原权利要求53所述的数据处理单元的计算机可执行程序,
其中所述数据处理单元包括由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间,
所述程序包括:
语音数据获取步骤,用于获取目标讲话者的语音数据;
位置计算步骤,用于根据在所述语音数据获取步骤中获取的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
语音数据评估步骤,用于根据在所述位置计算步骤中计算的位置,评估目标讲话者的语音数据的值;
评估结果显示步骤,用于显示在所述语音数据评估步骤中产生的 评估结果;
位置关系信息显示步骤,用于根据所述计算的位置,显示声学空间中的、所述语音数据和环绕所述语音数据的模式模型之间的位置关系的信息;和
评估信息发送步骤,用于将评估结果信息发送给所述信息处理终端。
由于本发明是控制按照母案原权利要求53所述的数据处理单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求56公开了一种信息处理终端控制程序,它是用于控制按照母案原权利要求54所述的信息处理终端的计算机可执行程序,包括:
语音数据发送步骤,用于获取目标讲话者的语音数据,并将所述获取的语音数据发送给所述数据处理单元;和
评估信息显示步骤,用于显示从所述数据处理单元获取的目标讲话者的语音数据的评估结果信息。
由于本发明是控制按照母案原权利要求54所述的信息处理终端的程序,因此其效果的描述将被省略,以避免不必要的重复。
另一方面,为了达到上述目的,本发明的母案原权利要求57限定了一种数据处理单元,包括:
声学空间存储装置,用于存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
语音数据获取装置,用于获取目标讲话者的语音数据;
位置计算装置,用于根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
相似讲话者检测装置,用于根据语音数据的位置以及多个模式模型,检测多个讲话者中语音与目标讲话者类似的相似讲话者;和
位置关系信息显示装置,用于根据语音数据的位置和相似讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和相似讲话者的模式模型之间的位置关系的信息。
就这种结构来说,声学空间存储装置能够存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间,语音数据获取装置能够获取目标讲话者的语音数据,位置计算装置能够根据目标讲话者的语音数据和声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置,相似讲话者检测装置能够根据语音数据的位置和多个模式模型,检测多个讲话者中语音与目标讲话者类似的相似讲话者,位置关系信息显示装置能够根据语音数据的位置和相似讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和相似讲话者的模式模型之间的位置关系的信息。
这使得易于直观地了解多个讲话者中的哪一个在语音方面与目标讲话者类似。
本发明的母案原权利要求58限定了按照母案原权利要求57所述的数据处理单元,包括:
特定讲话者指定装置,用于指定多个讲话者中的特定讲话者;
相似性评估装置,用于根据声学空间中的语音数据的位置和特定讲话者的模式模型,评估特定讲话者和目标讲话者之间语音上的相似性;和
评估结果显示装置,用于显示所述相似性评估装置产生的评估结果,
其中所述位置关系信息显示装置根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和特定讲话者的模式模型之间的位置关系的信息。
这样,特定讲话者指定装置能够指定多个讲话者中的特定讲话者,相似性评估装置能够根据声学空间中,语音数据的位置和特定讲话者的模式模型,评估特定讲话者和目标讲话者之间语音上的相似性,评估结果显示装置能够显示相似性评估装置产生的评估结果,位置关系信息显示装置能够根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和特定讲话者的模式模型之间的位置关系的信息。
这使得易于直观地了解指定的特定讲话者与目标讲话者之间语音上的相似性,以及目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系。
本发明的母案原权利要求59限定了一种数据处理单元,包括:
声学空间存储装置,用于存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
特定讲话者指定装置,用于指定多个讲话者中的特定讲话者;
语音数据获取装置,用于获取目标讲话者的语音数据;
位置计算装置,用于根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据的位置;
相似性评估装置,用于根据语音数据的位置和特定讲话者的模式模型,评估特定讲话者和目标讲话者之间语音上的相似性;
评估结果显示装置,用于显示所述相似性评估装置产生的评估结果;和
位置关系信息显示装置,用于根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和特定讲话者的模式模型之间的位置关系的信息。
就这种结构来说,声学空间存储装置能够存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间,语音数据获取装置能够获取目标讲话者的语音数据,位置计算装置能够根据目标讲话者的语音数据和声学空间中的多个模式模型,计算目标讲话者的语音数据的位置,相似性评估装置能够根据语音数据的位置和特定讲话者的模式模型,评估特定讲话者和目标讲话者之间语音上的相似性,评估结果显示装置能够显示相似性评估装置产生的评估结果,位置关系信息显示装置能够根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和特定讲话者的模式模型之间的位置关系的信息。
这使得易于直观地了解指定的特定讲话者与目标讲话者之间语音上的相似性,以及目标讲话者的语音数据与特定讲话者的模式模型之 间的位置关系。
本发明的母案原权利要求60限定了按照母案原权利要求58或59所述的数据处理单元,包括:
校正信息产生装置,用于根据所述相似性评估装置产生的评估结果,产生校正信息,所述校正信息指示将对目标讲话者的语音进行的校正,以便提高目标讲话者与特定讲话者之间语音上的相似性;和
校正信息显示装置,用于显示所述校正信息。
这样,校正信息产生装置能够根据相似性评估装置产生的评估结果,产生校正信息,所述校正信息指示将对目标讲话者的语音进行的校正,以便提高目标讲话者与特定讲话者之间语音上的相似性,校正信息显示装置能够显示校正信息。
这允许目标讲话者通过查看校正信息,纠正他/她的说话方式。
本发明的母案原权利要求61限定了按照母案原权利要求58所述的数据处理单元,其中:
根据语音数据的位置,所述相似讲话者检测装置将多个模式模型中的特征与目标讲话者的语音数据类似的模式模型,用作目标讲话者的模式模型;和
根据语音数据的位置,所述相似性评估装置将多个模式模型中的特征与目标讲话者的语音数据类似的模式模型,用作目标讲话者的模式模型。
这样,根据语音数据的位置,相似讲话者检测装置能够将多个模式模型中,特征与目标讲话者的语音数据类似的模式模型用作目标讲话者的模式模型,根据语音数据的位置,相似性评估装置能够将多个模式模型中,特征与目标讲话者的语音数据类似的模式模型用作目标讲话者的模式模型。
由于相似讲话者检测装置将相似的模式模型的位置用作声学空间中,目标讲话者产生的语音数据的位置,而不是产生由目标讲话者产生的语声的模式模型,因此本发明能够降低计算工作量。另外,由于相似性评估装置将相似的模式模型的位置用作声学空间中,目标讲话 者产生的语音数据的位置,而不是产生由目标讲话者产生的语声的模式模型,因此本发明能够进一步降低计算工作量。从而,本发明适合于实时处理等。
本发明的母案原权利要求62限定了按照母案原权利要求58所述的数据处理单元,其中:
根据语音数据的位置,所述相似讲话者检测装置将多个模式模型中的特征与目标讲话者的语音数据类似的前几个模式模型,用作目标讲话者的模式模型;和
根据语音数据的位置,所述相似性评估装置将多个模式模型中的特征与目标讲话者的语音数据类似的前几个模式模型,用作目标讲话者的模式模型。
这样,根据语音数据的位置,相似讲话者检测装置能够将多个模式模型中,特征与目标讲话者的语音数据类似的前几个模式模型用作目标讲话者的模式模型,根据语音数据的位置,相似性评估装置能够将多个模式模型中,特征与目标讲话者的语音数据类似的前几个模式模型用作目标讲话者的模式模型。
从而,与当选择单一模式模型时相比,通过选择按相似性降序排列的前几个模式模型,并将这些模式模型的平均值用于检测处理,评估处理等,能够降低其中被认为相似的模式模型实际证明是不相似的任何错误选择的影响。
本发明的母案原权利要求63限定了按照母案原权利要求61或62所述的数据处理单元,其中所述位置计算装置将所述语音数据获取装置获取的语音数据转换成高维特征数据,计算所述特征数据与多个讲话者的多个模式模型中的每一个之间的似然性,根据所述计算的似然性,从多个讲话者的模式模型中选择特定的模式模型,计算所述选择的特定模式模型和其它模式模型之间的数学距离,并且根据所述计算的数学距离,计算所述获取的语音数据在声学空间中的位置。
这样,通过计算目标讲话者的语音数据与多个讲话者的多个模式模型之间的匹配似然性,能够确定相似性。这使得易于选择特征与目 标讲话者的语音数据相似的模式模型。
这里,数学距离代表根据目标讲话者的语音数据产生的声学模型与多个讲话者的声学模型之间的相似性。可存在各种各样的数学距离,取决于相似性的量度。例如,这些量度对应于可用普通标尺测量的距离,比如欧几里得距离,或者不能用普通标尺测量的距离,比如Mahalanobis广义距离,Mahalanobis广义距离将对应于相似性的距离表示成两个向量的内积,并将这两个向量之间的角度用作相似性的量度。根据本发明,其它可能的数学距离包括Bhattacharrya距离,平方欧几里得距离,余弦距离,Pearson相关性,Chebyshev距离,城市-街区(city-block)距离(或者Manhattan距离),Minkowski和,Kullback信息,和Chernov距离。总之,尽管称为距离,根据本发明的数学距离可以是任何事物,只要它代表相似性。
本发明的母案原权利要求64公开了按照母案原权利要求57-60任意之一所述的数据处理单元,其中所述位置计算装置将所述语音数据获取装置获取的语音数据转换成高维特征数据,根据所述特征数据产生目标讲话者的模式模型,计算所述产生的模式模型与多个讲话者的多个模式模型之间的数学距离,并且根据所述计算的数学距离,计算所述获取的语音数据在声学空间中的位置。
这样,位置计算装置能够将语音数据获取装置获取的语音数据转换成高维特征数据,根据该特征数据产生目标讲话者的模式模型,计算产生的模式模型与多个讲话者的多个模式模型之间的数学距离,并根据计算的数学距离,计算获取的语音数据在声学空间中的位置。
这使得能够直接对目标讲话者的语音数据进行检测处理或者评估处理。
本发明的母案原权利要求65限定了按照母案原权利要求63或64所述的数据处理单元,其中:
所述模式模型由4维或更高维的元素组成;和
所述位置关系信息显示装置将声学空间中的多个这样模式模型转换成低维模式模型,即所述模式模型包括与目标讲话者的语音数据相 对应的多个模式模型,同时保持所述距离关系,并将所述转换后的模式模型显示成低维空间中的坐标点。
这使得易于直观地了解语音数据在声学空间中的位置。
这里,如果语音数据和模式模型包含多维(4维或者更高维)信息,那么关于它们的位置信息也是多维的。这种情况下,评估结果显示装置能够通过利用例如投射等,将关于语音数据和模式模型的多维信息转换成2维或者更低维的信息,并将它们显示成低维空间中的坐标点。已知的投射方法包括Sammon方法。
本发明的母案原权利要求66限定了按照母案原权利要求58-65任意之一所述的数据处理单元,其中所述相似性评估装置逐个音素地评估目标讲话者的语音数据的相似性。
这样,由于相似性评估装置能够逐个音位地评估目标讲话者的语音数据的相似性,因此目标讲话者的语音数据的相似性被逐个音位地评估,而不是被逐字或逐句地评估,并且评估结果被逐个音位地显示。这使得易于逐个音位地了解相似性评估结果。
本发明的母案原权利要求67限定了按照母案原权利要求58-66任意之一所述的数据处理单元,其中:
所述声学空间由根据多种说话风格的多个讲话者的语音数据产生的多个模式模型构成;和
所述相似性评估装置评估就所述多种说话风格中的每一种而论的相似性。
这样,声学空间由根据采用多种说话风格的多个讲话者的语音数据产生的多个模式模型组成,相似性评估装置能够按所述多种说话风格中的每一种评估相似性。
从而,能够评估目标讲话者说出的语音与特定讲话者以各种说话风格,例如大声、低声、快速和慢速说出的语音的相似性。这允许目标讲话者以适合他/她的说话风格模仿特定讲话者说出的语音。
本发明的母案原权利要求68限定了按照母案原权利要求67所述的数据处理单元,所述位置关系信息显示装置根据多个模式模型的说 话风格,建立低维空间的坐标轴。
具体地说,通过按照语速,声高等确定低维空间的轴,能够容易地掌握目标讲话者的语音数据的特征,以及他/她周围的讲话者或者特定讲话者的语音数据的特征。
本发明的母案原权利要求69限定了按照母案原权利要求57-68任意之一所述的数据处理单元,其中利用HMM(隐含马尔可夫模型)产生模式模型。
这样,利用HMM,一种已知技术产生模式模型。
这里,语音随语速而在时间间隔方面发生变化,并且根据说话的内容,在频域中具有特有的形状(频谱包络)。该形状随讲话者、环境、内容等而波动。HMM是能够吸收所述波动的统计模型。
本发明的母案原权利要求70限定了一种数据处理系统,包含:
受到目标讲话者控制的信息处理终端;和
按照母案原权利要求57-69中任意一个所述的数据处理单元,其中:
所述信息处理终端和所述数据处理单元可通信地相互连接,
所述信息处理终端包括:
语音数据发送装置,用于获取目标讲话者的语音数据,并将所述获取的语音数据发送给所述数据处理单元,和
信息显示装置,用于显示从所述数据处理单元获取的语音数据的处理结果信息,和
所述数据处理单元包括信息发送装置,用于将语音数据的处理结果信息发送给所述信息处理终端。
这样,通过语音数据发送装置,信息处理终端能够获取目标讲话者的语音数据,并将获取的语音数据发送给数据处理单元。另外,通过信息显示装置,它能够显示从数据处理单元获取的目标讲话者的语音数据的处理结果信息。
另一方面,通过信息发送装置,数据处理单元能够将语音数据的处理结果信息发送给信息处理终端。
从而,如果信息处理终端通过因特网等与数据处理单元连接,那么能够通过因特网对目标讲话者的语音数据进行检测处理、评估处理等,使得目标讲话者易于在家里或者类似场所对他/她的语音进行检测处理或者评估处理。
本发明的母案原权利要求71限定了一种数据处理方法,包括下述步骤:
准备由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
获取目标讲话者的语音数据;
根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
根据语音数据的位置以及多个模式模型,检测多个讲话者中的语音类似于目标讲话者的相似讲话者;和
根据语音数据的位置以及相似讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与相似讲话者的模式模型之间的位置关系的信息。
由于本发明由按照母案原权利要求57所述的数据处理单元实现,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求72限定了按照母案原权利要求71所述的数据处理方法,包括下述步骤:
指定多个讲话者中的特定讲话者;
根据声学空间中的语音数据的位置和特定讲话者的模式模型,评估特定讲话者和目标讲话者之间语音上的相似性;和
显示评估结果。
由于本发明由按照母案原权利要求59所述的数据处理单元实现,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求73限定了一种数据处理方法,包括下述步骤:
准备由根据多个讲话者的语音数据产生的多个模式模型构成的声 学空间;
指定多个讲话者中的特定讲话者;
获取目标讲话者的语音数据;
根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据的位置;
根据语音数据的位置以及特定讲话者的模式模型,评估特定讲话者与目标讲话者之间语音上的相似性;
显示评估结果;和
根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系的信息。
由于本发明由按照母案原权利要求60所述的数据处理单元实现,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求74限定了一种数据处理单元控制程序,包括:
声学空间存储步骤,用于存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
语音数据获取步骤,用于获取目标讲话者的语音数据;
位置计算步骤,用于根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
相似讲话者检测步骤,用于根据语音数据的位置以及多个模式模型,检测多个讲话者中语音上类似于目标讲话者的相似讲话者;
位置关系信息显示步骤,用于根据语音数据的位置以及相似讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与相似讲话者的模式模型之间的位置关系的信息;
讲话者指定步骤,用于指定特定的讲话者;
相似性评估步骤,用于根据声学空间中的语音数据的位置和特定讲话者的模式模型,评估特定讲话者与目标讲话者之间语音上的相似性;
评估结果显示步骤,用于显示所述相似性评估步骤产生的评估结果,其中
所述位置关系信息显示步骤根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系的信息。
由于本发明是控制按照母案原权利要求58所述的数据处理单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
本发明的母案原权利要求75限定了一种数据处理单元控制程序,包括:
声学空间存储步骤,用于存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
特定讲话者指定步骤,用于指定多个讲话者中的特定讲话者;
语音数据获取步骤,用于获取目标讲话者的语音数据;
位置计算步骤,用于根据目标讲话者的语音数据和声学空间中的多个模式模型,计算目标讲话者的语音数据的位置;
相似性评估步骤,用于根据语音数据的位置和特定讲话者的模式模型,评估特定讲话者与目标讲话者之间语音上的相似性;
评估结果显示步骤,用于显示所述相似性评估步骤产生的评估结果;
位置关系信息显示步骤,用于根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系的信息。
由于本发明是控制按照母案原权利要求59所述的数据处理单元的程序,因此其效果的描述将被省略,以避免不必要的重复。
附图说明
图1是表示根据本发明的数据处理单元1的结构的方框图;
图2是表示其中在二维空间中显示两维的声学模型兼容低维向量的实例的图;
图3是表示显示的坐标点如何被分成二维空间中的多个区域的实例的图;
图4是表示第一分段区域的图;
图5是表示第二分段区域的图;
图6是表示第三分段区域的图;
图7是表示第四分段区域的图;
图8是表示第五分段区域的图;
图9是表示图3中所示的划分的结果的改进形式的图;
图10是表示数据处理单元1执行的操作和处理的流程图;
图11是表示数据处理单元1执行的产生特定模式模型的处理的流程图;
图12是表示数据处理单元1执行的改变划分的结果的处理的流程图;
图13是表示根据一个实例的声学模型兼容低维向量的显示的图;
图14是表示关于不同分段区域产生的区域声学模型和关于整个区域产生的声学模型的识别率的图;
图15是表示说话风格的图;
图16是表示其中关于图15中所示的说话风格的不同组合而创建的声学模型被二维投射的实例的图;
图17是表示其中利用关于日常生活噪声、野鸟的叫声和人类声音的数据创建的声学模型被二维投射的实例的图;
图18是表示其中利用人类嘴唇的图像数据创建的模式模型被二维投射的实例的图;
图19是表示其中利用红外传感器的输出数据创建的模式模型被二维投射的实例的图;
图20是表示其中利用加速度传感器的输出数据创建的模式模型被二维投射的实例的图;
图21是表示根据本发明的数据处理单元21的结构的方框图;
图22是表示在区域划分的方法方面,数据处理单元1和数据处理 单元2之间的差别的图;
图23是表示在以二维坐标的形式显示高维声学模型的情况下,用高识别速率标记的讲话者和用低识别率标记的讲话者的分布的图;
图24是表示不同的分段区域的结构的图;
图25是表示关于区域模式模型的第一搜索方法的图;
图26是表示关于区域模式模型的第二搜索方法的图;
图27是表示区域模式模型搜索部分21c利用第一搜索方法进行的搜索处理的流程图;
图28是表示区域模式模型搜索部分21c利用第二搜索方法进行的搜索处理的流程图;
图29A是表示用于产生声学模型的说话风格的类型的图,图29B是表示由根据本发明的数据处理单元21显示在二维表面中的声学模型兼容低维向量的图;
图30是利用由根据本发明的数据处理单元21的搜索方法选择的声学模型,和由常规的MLLR讲话者适应技术选择的声学模型,表示识别性能和讲话者之间的关系的图;
图31是表示在对声学模型的搜索期间产生的话语的数量与按照话语的数量选择的声学模型的识别性能之间的关系的图;
图32是利用由第一搜索方法搜索的声学模型,和根据计算的与关于整个区域产生的声学模型的似然性搜索的声学模型,表示识别性能和讲话者之间的关系的图;
图33是表示识别性能和讲话者之间的关系的图,其中两种出现频率被用作权重,标准出现频率被用作权重,或者包含在词汇表单词中的其识别性能低于预定阈值的语音单元的出现频率被用作权重;
图34A表示利用简单双音素的出现频率产生的声学空间图,图34B表示利用具有低识别性能的双音素的出现频率产生的声学空间图;
图35是表示根据本发明的数据处理系统的结构的方框图;
图36是表示信息处理终端350的详细结构的图;
图37是表示数据处理单元37的详细结构的方框图;
图38是表示当传送适合于系统用户的声学模型时,显示的信息的实例的图;
图39是表示当评估系统用户使用的声学模型的性能,并传送新的声学模型时,显示的信息的实例的图;
图40是表示由信息处理终端350执行的数据发送处理的流程图;
图41是表示由数据处理单元37执行的操作和处理的流程图;
图42是表示当接收显示信息时,由信息处理终端350执行的操作和处理的流程图;
图43是表示根据本发明的数据处理系统的结构的方框图;
图44是表示信息处理终端2的详细结构的图;
图45是表示数据处理单元3的详细结构的图;
图46A和46B是表示数据处理系统7上的初始数据库构成处理和数据评估处理的流程的图;
图47是表示其中声学空间被二维投射的实例的图;
图48是表示由信息处理终端2执行的操作和处理的流程图;
图49是表示由数据处理单元3执行的操作和处理的流程图;
图50是表示由第二信息显示部分3f执行的通过二维投射显示坐标信息的处理的流程图;
图51表示根据本发明的数据处理系统的结构的方框图;
图52是表示信息处理终端9的详细结构的图;
图53是表示数据处理单元10的详细结构的方框图;
图54A和54B是表示在数据处理系统8上的初始数据库构成处理和数据评估处理的流程的图;
图55是表示其中声学空间被二维投射的一个实例的图,图55A表示当逐字处理HMM时的HMM的坐标点,图55B表示当逐个音位(图中“a”、“i”、“u”、“e”和“o”)地处理HMM时的HMM的坐标点;
图56是表示二维投射的一个实例的图,轴代表说话风格;
图57是表示由信息处理终端9执行的操作和处理的流程图;
图58是表示由数据处理单元10执行的操作和处理的流程图;
图59是表示由第二信息显示部分10g执行的通过二维投射显示坐标信息的处理的流程图。
具体实施方式
(第一实施例)
下面参考附图说明本发明的第一实施例。图1-14是表示根据本发明的第一实施例的数据处理单元的图。
首先,将参考图1说明根据本发明的数据处理单元的结构。图1是表示根据本发明的数据处理单元1的结构的方框图。
数据处理单元1包括数据分类部分1a、数据存储部分1b、模式模型产生部分1c、数据控制部分1d、数学距离计算部分1e、模式模型转换部分1f、模式模型显示部分1g、区域划分部分1h、划分改变部分1i、区域选择部分1j和特定模式模型产生部分1k。
数据分类部分1a根据多个特定条件,将关于多个对象的未指定数量的数据分成多个组。根据本实施例,它按照四个特定条件:讲话者的类型,包括讲话者的姓名、性别(男/女)、年龄(儿童/成人/老人);口语语汇,比如数字、句子和单词;说话风格,比如语速、讲话的音量、和方言特征;和说话环境,比如室内、车内、厂内或者室外环境(位置分类),将从多个讲话者获取的未指定数量的语音数据分成多个组。所述特定条件可由用户自由组合(通过组合特定条件的要素或者组合特定条件)。
数据存储部分1b存储关于多个对象的数据,以及与根据关于多个对象的数据产生的模式模型等的数据处理相关的数据。根据本实施例,存储的数据包括语音数据,根据语音数据产生的模式模型(下面称为声学模型),和与语音数据处理相关的其它数据。
模式模型产生部分1c根据由数据分类部分1a分类的数据,产生每个组的4维或更高维模式模型。根据本实施例,它根据由数据分类部分1a分类的语音数据,产生每个组的4维或更高维的声学模型(下 面称为高维声学模型)。
数据控制部分1d控制数据处理单元1的组件间的数据的流动,以及组件间的操作的流动。
数学距离计算部分1e计算模式模型产生部分1c产生的模式模型间的数学距离。根据本实施例,它计算高维声学模型间的数学距离。
模式模型转换部分1f根据数学距离计算部分1e计算的数学距离,将模式模型产生部分1c产生的模式模型转换成低维模型(下面称为对应于模式模型的低维向量)。根据本实施例,它根据数学距离计算部分1e计算的数学距离,将模式模型产生部分1c产生的高维模式模型转换成低维模型(下面称为声学模型兼容的低维向量)。
模式模型显示部分1g将由模式模型转换部分1f从模式模型转换来的对应于模式模型的低维向量显示成和对应于模式模型的低维向量相同维数的低维空间中的坐标点。根据本实施例,它将由模式模型转换部分1f从声学模型转换来的声学模型兼容低维向量显示成和声学模型兼容低维向量相同维数的低维空间中的坐标点。
区域划分部分1h自动地将由模式模型显示部分1g显示成低维空间中的坐标点的对应于模式模型的低维向量的坐标点划分成低维空间中的多个区域。根据本实施例,它自动将由模式模型显示部分1g显示成低维空间中的坐标点的声学模型兼容低维向量划分成低维空间中的多个区域。另外,根据本实施例,由所述划分产生的多个区域被称为分段区域。
根据来自数据处理单元1的输入装置(未示出)的信息,划分改变部分1i改变区域划分部分1h产生的划分结果。
根据来自数据处理单元1的输入装置(未示出)的信息,区域选择部分1j从区域划分部分1h产生的多个分段区域中选择一个特定的分段区域。
特定模式模型产生部分1k根据与模式模型相关的数据产生高维模式模型,所述模式模型与位于区域选择部分1j选择的特定区域中的对应于模式模型的低维向量对应。根据本实施例,它根据与高维声学 模型相关的数据产生高维声学模型,所述高维声学模型对应于位于区域选择部分1j选择的特定区域中的声学模型兼容低维向量。另外,根据本实施例,特定模式模型产生部分1k产生的高维声学模型被称为特定模式模型(根据本实施例的特定声学模型)。
顺便提及,尽管未示出,但是数据处理单元配有处理器,RAM(随机存取存储器)和存储专用程序的ROM(只读存储器)。当处理器执行所述专用程序时,上述组件实现它们的功能:它们中的一些仅仅通过专用程序的执行来实现它们的功能,另一些将它们的功能实现成专用程序控制硬件。
下面参考图2-9说明数据处理单元1的具体操作。
图2是表示其中在二维空间中显示声学模型兼容低维向量的实例的图,图3是表示显示的坐标点如何被分成二维空间中的多个区域的实例的图,图4-8是表示在图3中产生的分段区域的图,图9是表示图3中所示的划分结果的改进形式的图。
首先,数据分类部分1a根据上面描述的四种具体条件:讲话者的类型,口语语汇,说话风格和说话环境,将存储在数据存储部分1b中的多个讲话者的语音数据分组。按照所有四种具体条件的组合组织各组:例如,由讲话者的姓名,单词,急速说话,和室内环境识别一组,由讲话者的姓名,单词,大声说话,和室内环境识别另一组,由讲话者的姓名,单词,急速说话,和室外环境识别又一组,等等。这里关于分组的信息被附到语音数据上。
随后,模式模型产生部分1c产生每组语音数据的高维声学模型。利用诸如HMM之类的已知技术产生声学模型。产生的高维声学模型与对应的语音数据相关地被存储在数据存储部分1b中。
接着,数学距离计算部分1e计算产生的高维声学模型间的数学距离。一般来说,高维声学模型由语音单元的一组HMM组成。高维声学模型i和j之间的距离由下面的等式(1)定义。
(公式1)
在上面的等式(1)中,d* ij是高维声学模型i和j之间的距离,d(i,j,k)是包含在高维声学模型i中的语音单元k的模型与包含在高维声学模型j中的语音单元k的模型之间的距离,w(k)是语音单元k的出现频率,可按照其应用任意设置,K是用于计算数学距离的语音单元的数量。
至于用于计算数学距离的语音单元,可根据用途选择所有语音单元,一组声学上类似的语音单元,或者特殊的语音单元。
至于d(i,j,k),可以使用已知的距离量度,比如根据正态分布的均值向量确定的欧几里德距离,Bhattacharrya距离或者Kullback信息。但是,由于根据由正态分布的标准偏差的乘积归一化的均值向量确定的欧几里德距离已知对识别性能的效应与Kullback信息相同,因此这里将使用所述欧几里德距离。假定所有高维声学模型的语音单元的HMM都遵守污染正态分布。另外假定声学模型的状态对准为1∶1。那么,d(i,j,k)可由下面的等式(2)-(5)定义。
公式(2)
其中μ(i,k,s,l,m)、δ(i,k,s,l,m)和p(i,k,s,l,m)分别是第m个正态分布的平均值,标准偏差和权重,i表示高维声学模型,k表示语音单元,s表示状态,l表示维。另外,S(k)是语音单元k的状态的数量,L是维数,Mi和Mj是高维声学模型i和j的正态分布的污染的数量。至于声学参数,10维的mel频标倒频系数(MFCC),其一阶差分(ΔMFCC),和功率的一阶差分(Δlog-Power)被用于例如总共21维。从模型规模的观点来看,在假定高维声学模型基于简单正态分布的情况下,如果简单正态分布之间的距离被用于距 离计算,那么上面的等式(2)-(5)可被简化成下面的等式(6)
(公式3)
随后,模式模型转换部分1f利用计算的数学距离,将多个高维声学模型转换成相同数量的声学模型兼容低维向量。它将所有高维声学模型转换成声学模型兼容低维向量(二维或三维),同时保持它们间的距离关系,以致其间数学距离较小的两个高维声学模型将被布置成彼此接近,其间数学距离较大的两个高维声学模型将被布置成彼此远离。根据本实施例,假定模式模型转换部分1f将高维声学模型转换成二维的声学模型兼容低维向量。
本领域的技术人员已知的Sammon方法可用作将高维声学模型转换成二维的声学模型兼容低维向量,同时保持距离关系的转换方法。
Sammon方法是一种非线性映射技术,它涉及利用最速下降法优化低维空间中的映射位置坐标,以使高维空间中的高维信息间的距离的总和与低维空间中的映射位置坐标间的欧几里德距离的总和之间的差值最小化。所有高维信息被这样投射到低维空间中,以致其间距离较小的两条高维信息在低维空间中也被布置成彼此接近,其间数学距离较大的两条高维信息在低维空间中也被布置成彼此远离。在Sammon方法中将被最小化的误差函数E(t)由下面的等式(7)给出。
(公式4)
根据本实施例,模式模型转换部分1f利用Sammon方法,将高维声学模型转换成二维空间中的声学模型兼容低维向量。从而,这里该转换过程涉及通过将低维空间中的坐标分配给高维声学模型,将多个高信声学模型投射到低维空间。
从而,如果在与声学模型兼容低维向量相同维数的低维空间中,声学模型兼容低维向量在数学距离(例如,欧几里德距离)方面彼此 接近,那么对应的高维声学模型被认为彼此相似,于是它们的特定条件被认为相似。另外,高维声学模型离中心越近,那么对应的特定条件被认为越典型。
根据本实施例,坐标信息构成声学模型兼容低维向量的元素的值。附加的坐标信息与对应的声学模型兼容低维向量相联系地被存储在数据存储部分1b中。
随后,根据多个声学模型兼容低维向量的元素的值(坐标信息),模式模型显示部分1g将多个声学模型兼容低维向量显示成二维空间中的坐标点,所述二维空间的中心(原点)位于坐标信息的重心,如图2中所示。下面将这样产生的图称为声学空间图。
随后,区域划分部分1h将存在于二维空间中,并且包含坐标点的区域分成五个分段区域-第一~第五个分段区域30-34--如图3中所示。
具体地说,区域划分部分1h用外圆和内圆划分存在于二维空间中,并且包含坐标点的区域,并进一步将由外圆和内圆形成的环形区域分成四个区域(第二~第五分段区域31-34),这里外圆的半径等于圆心与离圆心最远的点之间的距离,而内圆围绕位于外圆内的第一分段区域30。
从而,模式模型显示部分1g将坐标点显示在由区域划分部分1h产生的划分结果中,如图3中所示。从而,位于外圆内的多个声学模型兼容低维向量被分成图4-8中所示的第一~第五分段区域30-34中的组。
之后,区域选择部分1j根据来自输入装置,比如鼠标或键盘的输入信息,选择第一~第五分段区域30-34之一。一旦选择了特定的分段区域,那么特定模式模型产生部分1k根据用于产生对应于选择的分段区域中的声学模型兼容低维向量的高维声学模型的语音数据,产生特定的声学模型。和上面的关于高维声学模型的情况一样,利用已知的技术,比如HMM产生所述特定的声学模型。产生的特定声学模型被存储在数据存储部分1b中。
此外,根据本实施例,划分改变部分1i能够改变区域划分部分1h 自动产生的划分结果。例如,可能的改变包括根据来自输入装置,比如鼠标或键盘的输入信息,沿图9中的箭头方向旋转整个区域,同时保持区域划分部分1h产生的划分结果,增加新的内圆35,或者形成新的分段区域30a-30d。划分改变部分1i对应于在母案原权利要求10中限定的划分改变装置。
现在,参考图10说明数据处理单元1进行的操作和处理的流程。图10是表示数据处理单元1执行的操作和处理的流程图。顺便提及,虽然在图10中所示的流程图中,被处理的数据是语音数据,产生的模式模型是根据本实施例的声学模型,不过这不是限制性的,根据应用,可使用各种数据和模式模型。
如图10中所示,首先在步骤S100中,数据处理单元1使数据分类部分1a通过数据控制部分1d,从数据存储部分1b读出多个讲话者的语音数据。随后,它进入步骤S102。
在步骤S102中,数据处理单元1使数据分类部分1a根据(上面说明的)特定条件的组合,将语音数据分组。随后,它进入步骤S104。
在步骤S104中,数据处理单元1使数据控制部分1d判断数据分类部分1a是否完成了分组处理。如果发现分组处理已完成(Yes),那么数据处理单元1进入步骤S106。否则(No),它进入步骤S100。
在步骤S106,数据处理单元1使模式模型产生部分1c读出每组的语音数据,并产生每组的高维声学模型。随后,它进入步骤S108。
在步骤S108中,数据处理单元1使数学距离计算部分1e利用上面的等式(1),计算各组的高维声学模型间的数学距离。随后,它进入步骤S110。
在步骤S110中,数据处理单元1使模式模型转换部分1f根据高维声学模型间的数学距离,利用Sammon方法,将高维声学模型转换成声学模型兼容低维向量。随后,它进入步骤S112。
在步骤S112中,数据处理单元1使数据控制部分1d判断模式模型转换部分1f是否已完成转换处理。如果发现转换处理已完成(Yes),那么数据处理单元1进入步骤S114。否则(No),它进入步骤S110, 继续所述转换处理。
在步骤S114中,数据处理单元1使模式模型显示部分1g将多个声学模型兼容低维向量显示在低维空间中。随后,它进入步骤S116。
在步骤S116中,数据处理单元1使区域划分部分1h将存在于低维空间中,并且包含声学模型兼容低维向量的一个区域划分成多个分段区域,随后它结束处理。
现在,参考图11说明数据处理单元1执行的产生特定模式模型的处理的流程。图11是表示数据处理单元1执行的产生特定模式模型的处理的流程图。顺便提及,虽然在图11中所示的流程图中,被处理的数据是语音数据,产生的特定模式模型是根据本实施例的特定声学模型,不过这不是限制性的,根据应用,可使用各种数据和模式模型。
如图11中所示,首先在步骤S200中,数据处理单元1使数据控制部分1d判断区域选择部分1j是否选择了某一分段区域。如果发现选择了一个分段区域(Yes),那么数据处理单元进入步骤S202。否则(No),它等待,直到选择了一个分段区域为止。
在步骤S202中,数据处理单元1使特定模式模型产生部分1k通过数据控制部分1d从数据存储部分1b读出和高维声学模型相关的语音数据,所述高维声学模型与位于区域选择部分1j选择的分段区域中的声学模型兼容低维向量对应。随后,它进入步骤S204。
在步骤S204中,数据处理单元1使特定模式模型产生部分1k根据上面读出的语音数据,产生特定模式模型。随后,它进入步骤S206。
在步骤S206中,数据处理单元1使特定模式模型1k通过数据控制部分1d,将产生的特定模式模型存储在数据存储部分1b中,随后它结束处理。
下面参考图12说明数据处理单元1执行的改变划分结果的处理的流程。图12是表示数据处理单元1执行的改变划分的结果的处理的流程图。
如图12中所示,首先在步骤S300中,划分改变部分1i判断是否选择了改变模式。如果发现改变模式已被选择(Yes),那么划分改变 部分1i进入步骤S302。否则(No),它等待,直到改变模式被选择为止。根据本实施例,选择改变模式能够启动划分结果改变处理。
在步骤S302中,划分改变部分1i判断变化是否已被输入。如果发现变化已被输入(Yes),那么划分改变部分1i进入步骤S304。否则(No),它等待,直到变化被输入为止。
在步骤S304中,划分改变部分1i根据输入的变化,改变划分结果。随后,它进入步骤S306。
在步骤S306中,划分改变部分1i根据来自输入装置的输入,判断改变处理是否已完成。如果发现改变处理已结束(Yes),那么划分改变部分1i进入步骤S308。否则(No),它进入步骤S302。
在步骤S308中,划分改变部分1i通过数据控制部分1d,将和改变后的划分结果相关的信息存储在数据存储部分1b中。根据本实施例,如果从输入装置收到结束改变模式的命令,那么数据处理单元1自己结束改变模式。
从而,数据分类部分1a能够根据特定的条件,将关于多个对象的预定数据(多个讲话者的语音数据)分成多个组。
模式模型产生部分1c能够根据分组的预定数据(按照上面的实施例,语音数据),产生每组的模式模型(按照上面的实施例,高维声学模型)。
数学距离计算部分1e能够计算多个模式模型(按照上面的实施例,高维声学模型)间的数学距离。
模式模型转换部分1f能够根据多个模式模型(按照上面的实施例,高维声学模型)和模式模型(按照上面的实施例,高维声学模型)间的数学距离,将多个模式模型(按照上面的实施例,高维声学模型)转换成相同数量的对应于模式模型的低维向量(按照上面的实施例,声学模型兼容低维向量)。
模式模型显示部分1g能够将多个对应于模式模型的低维向量(按照上面的实施例,声学模型兼容低维向量)显示成和对应于模式模型的低维向量相同维数的低维空间(按照上面的实施例,二维空间)中 的坐标点。这样产生的图将被称为声学空间图。
区域划分部分1h能够以这样的方式自动划分存在地低维空间中,并且包含坐标点的区域,以致随着离最内侧圆的径向距离的增大,更细致地划分包含对应于模式模型的低维向量(按照上面的实施例,声学模型兼容低维向量)的环形区域。
划分改变部分1i能够根据输入信息,改变由区域划分部分1h自动产生的划分结果。
区域选择部分1j能够根据输入信息,从显示的分段区域中选择一个分段区域。
特定模式模型产生部分1k能够根据与模式模型(按照上面的实施例,高维声学模型)相关的数据(按照上面的实施例,语音数据),产生特定的模式模型(按照上面的实施例,特定的声学模型),所述模式模型(按照上面的实施例,高维声学模型)与位于区域选择部分1i选择的区域中的多个对应于模式模型的低维向量(按照上面的实施例,声学模型兼容低维向量)对应。
(第一实例)
现在,参考附图说明数据处理单元1如何产生特定声学模型的实例。图13和14是表示该实例的图。图13是表示根据该实例的声学模型兼容低维向量的显示的图,而图14是表示关于不同分段区域产生的特定声学模型和关于整个区域产生的声学模型的识别率的图。
根据本例,多个讲话者被提供五种说话风格--“标准地”(用目标讲话者的平常语调),“快速地”,“大声地”,“清晰地”(清晰地发出每个假名的音),和“小声地”--并被要求说出相同的日语单词。由于讲话者未被强制准确地按照提供的说话风格发出单词,因此实际的说话风格不一定与提供的说话风格一致。在这样的情况下,如果根据预期的信息,比如提供的说话风格绝对正确的假设,只按照提供的说话风格产生声学模型,那么不能保证能够获取最大的性能。从而,下面将说明其中以这样的方式实现本发明,以便获取最大性能的一个实例。
首先,多个讲话者被提供五种说话风格--“标准地”,“快速地”,“大 声地”,“清晰地”和“小声地”--并被要求说出相同的日语单词。所得到的语音数据被存储在数据存储部分1b中。
数据分类部分1a通过将提供的说话风格与讲话者(姓名等)的组合用作特定条件的组合,将语音数据分组。随后,模式模型产生部分1c产生每组的基于HMM的高维声学模型,从而获取大量的高维声学模型。
根据本实施例,使用的语音单元是双音素,HMM状态的数量为3,每个状态具有一个正态分布。
随后,数学距离计算部分1e利用上面的等式(1),计算高维声学模型之间的数学距离。根据由模式模型的正态分布的标准偏差归一化的模式模型的正态分布的均值向量确定的欧几里德距离被用作正态分布之间的数学距离。双音素中单词中的出现频率w(k)也被用在基于上面的等式(1)的计算处理中。
随后,模式模型转换部分1f根据数学距离,利用Sammon方法将高维声学模型转换成声学模型兼容低维向量。模式模型显示部分1g将该结果显示成二维空间中的坐标点,如图3中所示。这些点代表具有讲话者和说话风格的组合的高维声学模型间的距离关系。
随后,如图13中所示,区域划分部分1h将存在于该二维空间中,并且包含所述坐标点的区域分成五个分段区域--第一~第五分段区域30-34--和上面的实施例的情况一样。
在本例中,对应于图13中的声学模型兼容低维向量的相应特定条件,产生四个特定声学模型A-D。由于A-D存在于第三分段区域32中,因此区域选择部分1j选择第三分段区域32。
一旦选择了第三分段区域32,特定模式模型产生部分1k就根据与对应于位于第三分段区域32中的各个声学模型兼容低维向量的高维声学模型相关的语音数据,产生一个区域声学模型。
为了便于比较,利用与对应于位于每个分段区域中的各个声学模型兼容低维向量的高维声学模型相关的语音数据,为第一、第二、第四和第五分段区域30、31、33和34分别产生一个区域声学模型。
随后,为了便于与常规的声学模型比较,根据与对应于位于整个区域中的所有声学模型兼容低维向量的高维声学模型相关的语音数据,产生一个区域声学模型。
随后,利用所述六个区域声学模型测量四个特定声学模型A-D相对于所有语音数据的语音识别率,结果示于图14中。词典规模为176个单词。
从图14中所示的测量结果可看到:
(1)在所有四种特定条件(A、B、C和D)下,属于第三分段区域32的区域声学模型给出最高的识别率。次高的识别率由整个区域的区域声学模型提供。
(2)就整个区域的区域声学模型来说,当在四种特定的声学模型A-D之间比较所有语音数据的识别率时,可看出识别率与图13中(点A-D)离中心点的欧几里德距离具有线性关系。即,离中心点的距离越远,识别率越低。
根据上面的实例,本发明的效果总结如下。
(1)通过将包含坐标点的区域分成多个分段区域,并为每个分段区域产生一个区域声学模型,能够产生比根据整个区域内的所有语音数据产生的声学模型更高的识别率。
(2)离中心点的距离的使用使得能够预测每种特定条件下的识别率。在每种特定条件下,远离中心的声学模型兼容低维向量给出较低的识别率。相反,在每种特定条件下,接近中心的声学模型兼容低维向量给出较高的识别率。
(第二实例)
现在参考图15和16说明其中根据本发明,二维投射为说话风格的每种组合产生的声学模型的实例。图15是表示说话风格的图,而图16是表示其中关于图15中所示的说话风格的每种组合而创建的声学模型被二维投射的实例的图。
本例中,表1中所示的一些说话风格被指定,145名男性讲话者被要求说出5240个单词中的176个单词的列表。
当记录语音数据时,使用图15中所示的七种说话风格,包括标准地(以平常速度读单词表),快速地(比平常快地读单词表),高声地(比平常声音更高地读单词表),小声地(以附近的人们甚至听不见的方式读单词表),大声地(大声地读单词表,以致即使是很远的人也能够听到),Lombard(在听到汽车噪声的时候读单词表),和清晰地(通过清晰地发出每个假名的音,读单词表)。在记录之前,将上面括号中的指示提供给讲话者。
首先,利用所有的记录数据,创建非特定男性讲话者的声学模型。随后,利用该模型作为初始模型,通过联系(connection)学习,为讲话者和记录前指定的说话风格的每种组合创建一个声学模型(下面,这样的模型将被称为讲话者-说话风格声学模型)。利用Sammon方法,这样创建的讲话者-说话风格声学模型被二维投射,并显示坐标点,如图15中所示。5240个单词中语音单元的出现频率被用作上面的等式(1)中的w(k)。接近中心的符号“▲”代表用作初始模型的非特定男性讲话者的声学模型的坐标点。
从图16中可看出:
1)即使指定了相同的说话风格,实际的说话风格仍然随讲话者而变化。这指出通过毫无疑问地接受预定的说话风格,为每种说话风格创建非特定讲话者的声学模型的缺陷。
2)在语速和音量方面相反的(例如清晰对快速,小声对大声/Lombard)的说话风格围绕原点被对称定位。
发现当图16中所示的坐标点被区域划分部分1h分成多个同心区域,并且由特定模式模型产生部分1k为各个分段区域重建声学模型时,与根据整个区域的数据创建的非特定讲话者的声学模型相比,就位于外围的讲话者来说,性能被显著改进。
顺便提及,虽然在上面的第一实施例和第一及第二实例中列举了人声,不过本发明并不只适用于人声。当将本发明应用于除人声之外的数据时,本发明能够解决类似的问题并提供类似的效果。
除人声之外的数据例如包括音频数据,比如家庭噪声,工厂噪声, 交通噪声等;野生动物,比如野鸟、昆虫、青蛙、蝙蝠和其它动物的动物声音数据;图像数据;红外传感器数据,加速度传感器数据,方位传感器数据,压力传感器数据,来自压电元件或者振动计的振动传感器数据,或者任何其它传感器数据;关于电池,比如锂离子蓄电池或燃料电池的充电状态的物理数据;生物医学信号,比如心电图,肌电图,血压或体重;基因分析用微阵列(microarray)数据;气象数据,比如温度、湿度或者气压;环境数据,比如氧浓度或者氧化氮浓度;经济趋势数据,比如股票价格或物价,或者其它时序数据;等等。
(第三实例)
现在参考图17,说明其中利用关于日常生活噪声、野鸟的叫声和人类声音的数据创建声学模型,并且利用数据处理单元1二维投射创建的声学模型的实例。图17是表示其中利用关于日常生活噪声、野鸟的叫声和人类声音的数据创建的声学模型被二维投射的实例的图。
在本例中,根据33种家庭噪声,包括拖鞋的声音,外重门的声音,和钢笔落在木地板上的声音;40种野鸟,包括乌鸦、夜莺和斑鸠的叫声;日本人发出的25个日语音位(5个元音,2个半元音,和18个辅音)的频谱数据,创建基于HMM的模式模型。产生的模式模型由模式模型转换部分1f转换成二维的对应于模式模型的低维向量,所得到的向量被显示成图17中所示的二维空间中的坐标点。
在图17中,日常生活噪声的模式模型,野鸟的叫声的模式模型,日本男人发出的日语音位的模式模型,日本女人发出的日语音位的模式模型分别由▲、×、■和□表示。
从显示结果可以看出日常生活噪声、野鸟的叫声和人类声音被粗略分成三个区域,从而,易于区分日常生活噪声、野鸟的叫声和人类声音。
从而,当确定各种声音,比如音频数据、野生动物的叫声和人类声音是否可被识别时,如同本发明的情况那样,在低维空间(这种情况下,二维空间)中显示模式模型是非常有益的。
(第四实例)
现在参见图18,说明其中利用人类嘴唇的图像数据创建模式模型,并且利用数据处理单元1二维投射创建的模式模型的实例。图18是表示其中利用人类嘴唇的图像数据创建的模式模型被二维投射的实例的图。
本例中,按照说话产生的嘴唇的张开和闭合,将从九名男性的面部图像抽取的嘴唇的运动图像数据分成四个静止图像组:闭合状态,从闭合到张开的转变状态,张开状态,和从张开到闭合的转变状态。通过将二维倒频谱和差分用作特征向量,创建基于HMM的模式模型。随后,产生的模式模型由声学模型转换部分1f转换成对应于模式模型的低维向量,所得到的向量被显示成图18中所示的二维空间中的坐标点。
图18中,闭合状态下的9种模式模型,从闭合到张开的转变状态下的9种模式模型,张开状态下的9种模式模型,和从张开到闭合的转变状态下的9种模式模型分别用■、▲□和△表示。
从显示结果可看出,闭合状态、从闭合到张开的转变状态、张开状态和从张开到闭合的转变状态下的四个静止图像组被彼此明显分离地群集,从而易于区分嘴唇的四种状态。
从而,当确定表示嘴唇图像的各种状态,比如张开状态和闭合状态的图像是否可被识别时,如同本发明的情况那样,在低维空间(这种情况下,二维空间)中显示模式模型是非常有益的。
(第五实例)
现在参考图19,说明其中利用红外传感器数据创建模式模型,并且创建的模式模型被二维投射的实例。图19是表示其中利用红外传感器的输出数据创建的模式模型被二维投射的实例的图。
本例中,在安装在2.4米高的天花板上的模拟输出红外传感器(本例中,热电传感器)下方,人行走3144次,狗行走632次,红外传感器的输出数据经历FFT(快速傅里叶变换),根据FFT结果创建基于HMM的模式模型。随后,产生的模式模型由声学模型转换部分1f转换成对应于模式模型的低维向量,所得到的向量被显示成图19中所示 的二维空间中的坐标点。
图19中,人的模式模型和狗的模式模型分别由×和▲表示。
从显示结果可看出,狗和人形成不同的群集,从而易于利用红外传感器区分人和狗。
从而,当确定是否可利用来自红外传感器的关于对象的条件(例如工作条件等)的输出数据,比如来自红外传感器的关于人和狗的行为的输出数据识别对象时,如同本发明的情况那样,在低维空间(这种情况下,二维空间)中显示模式模型是非常有益的。
(第六实例)
现在参考图20,说明其中利用加速度传感器的输出数据创建模式模型,并且二维投射创建的模式模型的实例。图20是表示其中利用红外传感器的输出数据创建的模式模型被二维投射的实例的图。
本例中,一位男性对象被要求带着在其裤包中的加速度传感器走下楼梯,走上楼梯,和沿着走廊直行。对加速度传感器的三个轴(X轴、Y轴和Z轴)的时序数据进行FFT处理,根据FFT结果创建基于HMM的模式模型。当所述男性对象走下楼梯,走上楼梯,和沿着走廊直行时,产生的模式模型的数量分别为29、28和24。随后,产生的模式模型由声学模型转换部分1f转换成对应于模式模型的低维向量,所得到的向量被显示成图20中所示的二维空间中的坐标点。
图20中,当男性对象走下楼梯时创建的模式模型,当男性对象走上楼梯时创建的模式模型,和当男性对象沿着走廊直行时创建的模式模型分别由■、▲和×表示。
从显示结果可看出,当男性对象走下楼梯时创建的多数模式模型被群集在由位于坐标点的显示区的顶部的椭圆围绕的区域中,但是它们中的一些分散在由位于所述显示区的底部的椭圆围绕的区域中。这指出走下楼梯的男性对象到达楼梯平台,引起三个轴的加速度模式的变化,导致接近于直走的行走状况。
从而,当确定利用来自加速度传感器的关于人的行为的输出数据,比如来自红外传感器的关于人的行走方式的输出数据,是否可识别对 象的行为时,如同本发明的情况那样,在低维空间(这种情况下,二维空间)中显示模式模型是非常有益的。
图1中,数据分类部分1a对应于在母案原权利要求1、4和12任意之一中限定的数据分类装置;模式模型产生部分1c对应于在母案原权利要求1、11和12任意之一中限定的模式模型产生装置;数学距离计算部分1e对应于在母案原权利要求1、6和12任意之一中限定的数学距离计算装置;模式模型转换部分1f对应于在母案原权利要求1或7中限定的模式模型转换装置;模式模型显示部分1g对应于在母案原权利要求1或8中限定的对应于模式模型的低维向量显示装置;区域划分部分1h对应于在母案原权利要求8-11任意之一中限定的区域划分装置;划分改变部分1i对应于在母案原权利要求10中限定的划分改变装置;区域选择部分1j对应于在母案原权利要求11中限定的区域选择装置;特定模式模型产生部分1k对应于在母案原权利要求11中限定的特定模式模型产生装置。
顺便提及,虽然在上述第一实施例中说明由模式模型转换部分1f产生的声学模型兼容低维向量是二维的,不过这不是限制性的,也可使用一维或者三维向量。
另外,虽然在上面的实施例中,区域划分部分1h以这样的方式划分区域,以致在不同分段区域中的声学模型兼容低维向量之间不存在任何重叠,不过这不是限制性的,在不同的分段区域间,声学模型兼容低维向量可重叠。
此外,在上面的第一实施例中,不言而喻,通过本发明的应用,通过只将对应于声学模型兼容低维向量的高维声学模型转换成新的声学模型兼容低维向量,再次在新的低维空间中显示它们,并利用更小的分段区域产生区域声学模型,能够获取更高的识别性能。
(第二实施例)
下面将参考附图,说明本发明的第二实施例。图21-39是表示根据本发明的第二实施例的数据处理单元的图。
首先,参考图21说明根据本发明的数据处理单元的结构。图21 是表示根据本发明的数据处理单元21的结构的方框图。顺便提及,与第一实施例中的数据处理单元1的功能组件类似的那些功能组件将用与第一实施例中相同的附图标记表示,与数据处理单元1的功能相同的功能的说明将被省略。
数据处理单元21包括数据分类部分1a、数据存储部分1b、模式模型产生部分1c、数据控制部分1d、数学距离计算部分1e′、模式模型转换部分1f、模式模型显示部分1g、区域划分部分1h、划分改变部分1i、区域选择部分1j、特定模式模型产生部分1k、区域模式模型产生部分21a、数据获取部分21b和区域模式模型搜索部分21c。
数学距离计算部分1e′计算模式模型产生部分1c产生的模式模型间的数学距离。根据本实施例,它计算高维声学模型间的数学距离。它与根据第一实施例的数学距离计算部分1e的不同在于在数学距离的计算中使用的等式(1)中的语音单元k的出现频率w(k)是相对于模式模型产生部分1c产生的模式模型,其识别性能低于预定阈值的语音单元的出现频率。根据第一实施例,简单的出现频率(例如语音数据中音位“a”的出现频率)被用作w(k)。
区域模式模型产生部分21a具有根据与模式模型(该模式模型和区域划分部分1h自动产生的分段区域的对应于模式模型的低维向量对应)的产生相关的数据,产生区域模式模型(它们是各个分段区域的模式模型)的功能。根据本实施例,它根据与对应于区域划分部分1h自动产生的分段区域的声学模型兼容低维向量的高维声学模型的产生相关的数据,产生区域模式模型(它们是各个分段区域的高维声学模型)。
数据获取部分21b具有获取关于将为其产生模式模型的对象的预定数据的功能。这使得能够获取关于新对象(未知对象)的预定数据。根据本实施例,数据获取部分21b包括获取讲话者发出的语音(模拟数据)的装置,比如麦克风,和将模拟数据(语音)转换成数字数据的装置,比如A/D转换器。
区域模式模型搜索部分21c具有计算各个分段区域的区域模式模 型相对于数据获取部分21b获取的关于新对象的预定数据的似然性,并根据计算的似然性,搜索识别性能适合于识别关于新对象的预定数据的区域模式模型的功能。根据本实施例,它计算对应于各个分段区域的区域声学模型相对于数据获取部分21b获取的新讲话者的语音数据的似然性,并根据计算的似然性,搜索具有适合于识别关于新讲话者的预定数据的识别性能的区域声学模型。
现在,参考图22-26说明数据处理单元21的具体操作。
图22是表示在区域划分的方法方面,数据处理单元1和数据处理单元2间的差别的图。图23是表示在以二维坐标的形式显示高维声学模型的情况下,用高识别速率标记的讲话者和用低识别率标记的讲话者的分布的图。图24是表示不同的分段区域的结构的图。图25是表示关于区域模式模型的第一搜索方法的图,而图26是表示关于区域模式模型的第二搜索方法的图。
首先,数据分类部分1a根据四种特定条件:讲话者的类型,口语语汇,说话风格和说话环境,将存储在数据存储部分1b中的多个讲话者的语音数据分组。按照所有四种特定条件的组合组织各组:例如,由讲话者的姓名,单词,急速说话,和室内环境识别一组,由讲话者的姓名,单词,大声说话,和室内环境识别另一组,由讲话者的姓名,单词,急速说话,和室外环境识别又一组,等等。这里关于分组的信息被附到语音数据上。
随后,如前所述,模式模型产生部分1c产生每组语音数据的高维声学模型。利用诸如HMM之类的已知技术产生声学模型。产生的高维声学模型与对应的语音数据相关地被存储在数据存储部分1b中。
随后,数学距离计算部分1e′利用例如上面的等式(1),计算产生的高维声学模型间的数学距离。
在上面的等式(1)中,通过计算由模式模型产生部分1c产生高维声学模型与存储在数据存储部分1b中的多个讲话者的语音数据之间的似然性,其似然性(识别性能)低于预定阈值的语音单元的出现频率被用作语音单元k的出现频率w(k)。
通常,讲话者间的声学距离随音位而变化。如果逐个音位地确定距离,那么不存在任何问题,但是当通过考虑到所有音位来定义讲话者之间的距离时,某种类型的加权是必需的。重要的是采用对识别性能有贡献的权重。在第一实施例中,语音单元(音位等)的出现频率被用作权重。这是因为具有高出现频率的语音单元被认为对识别来说是重要的,从而出现频率为“0”的音位不是识别所必需的,并且被认为对于距离计算来说也是不必要的。
本实施例使用其识别性能低于预定阈值的语音单元的出现频率。这是因为即使具有高出现频率的语音单元也不需要特殊考虑,并且如果当它们被任何讲话者说出时,以较高的概率被识别,那么它们被认为对于距离计算来说是不必要的,以及因为本实施例意图通过在距离计算中采用具有低识别性能的语音单元,从而考虑到误识别趋势和声学特性,着重于由低识别性能标记的讲话者进行群集。
至于用于计算数学距离的语音单元,可根据用途选择所有语音单元,一组声学上类似的语音单元,或者特定的语音单元。
随后,模式模型转换部分1f利用计算的数学距离,将多个高维声学模型转换成相同数量的声学模型兼容低维向量。它将所有高维声学模型转换成声学模型兼容低维向量(二维或三维),同时保持它们间的距离关系,以致其间数学距离较小的两个高维声学模型将被布置成彼此接近,其间数学距离较大的两个高维声学模型将被布置成彼此远离。根据本实施例,假定模式模型转换部分1f将高维声学模型转换成二维的声学模型兼容低维向量。如同第一实施例中一样,本领域的技术人员已知的Sammon方法可用作将高维声学模型转换成二维的声学模型兼容低维向量,同时保持距离关系的转换方法。
也就是说,如同第一实施例中一样,模式模型转换部分1f利用Sammon方法,将高维声学模型转换成声学模型兼容低维向量。从而,这里的转换处理涉及通过将低维空间中的坐标分配给高维声学模型,将多个高维声学模型投射到低维空间。
如同第一实施例中一样,如果在和声学模型兼容低维向量相同维 数的低维空间中,声学模型兼容低维向量在数学距离(例如欧几里德距离)方面相互接近,那么对应的高维声学模型被认为彼此相似,至于它们的特定条件也是如此。另外,高维声学模型离中心越近,那么对应的特定条件被认为越典型。
根据本实施例,坐标信息构成声学模型兼容低维向量的元素的值。附加的坐标信息与对应的声学模型兼容低维向量相联系地被存储在数据存储部分1b中。
随后,根据多个声学模型兼容低维向量的元素的值(坐标信息),模式模型显示部分1g将多个声学模型兼容低维向量显示成二维空间中的坐标点,所述二维空间的中心(原点)位于重心,如图2中所示。
随后,区域划分部分1h将存在于二维空间中,并且包含坐标点的区域分成多分段区域。不同于根据第一实施例的数据处理单元使用的方法(参见图22A),根据本实施例的区域划分方法随着离最内侧圆220的径向距离的增大,更细致地划分由外圆和内圆形成的环形区域,如图22B中所示。在所谓的极坐标系中,包含在某一区域中的坐标点的半径r越大,那么该区域被更加细分,在所述极坐标系中,在由水平轴x和垂直轴y形成的,并且其原点O位于最内侧圆220的中心的二维空间中的坐标点P(x,y)由代表半径的r和代表x轴与P形成的角度的θ来表示。
下面将参考图23说明随着离中心的距离不断增大,更细致地划分坐标点分布的优点。图23表示通过利用根据从多个讲话者获取的所有语音数据创建的与讲话者无关声学模型,对包括评估讲话者在内的多个讲话者进行的语音识别的结果。在二维显示的高维声学模型中,由80%或更低的识别性能标记的讲话者的坐标点由“×”表示,其它讲话者的坐标点由“○”表示。
如图23中所示,在坐标点分布的边缘附近,由低识别性能标记的讲话者(图23中由“×”表示)变得越来越显著。从而,为了提高声学模型相对于位于外围的讲话者的识别性能,必须创建更准确(专用的)声学模型。具体地说,通过随着到由低识别性能标记的讲话者所位于 的外围的距离的降低,更细致地划分区域,能够降低不同分段区域间,声学模型的特性的变化,通过根据包含在分段区域中的语音数据创建讲话者无关声学模型,能够提高识别性能。
区域划分部分1h以这样的方式划分区域,以致每个分段区域将部分重叠相邻的分段区域,如图24中的虚线,而不是分段区域的初始划分线条所示。这使得能够处理位于分段区域的边界的坐标点,否则当创建区域声学模型时,位于分段区域的边界的坐标点会引起问题。
一旦区域被如上所述那样划分,那么模式模型显示部分1g将坐标点显示在区域划分部分1h产生的划分结果中,如图22B中所示。从而,区域中的多个声学模型兼容低维向量被分为不同分段区域中的声学模型兼容低维向量。
之后,区域选择部分1j根据来自输入装置,比如鼠标或键盘的输入信息,选择分段区域中的一个特定分段区域。随后,特定模式模型产生部分1k根据用于产生对应于选择的分段区域中的声学模型兼容低维向量的高维声学模型的语音数据,产生区域声学模型。和关于高维声学模型的情况一样,利用已知技术,比如HMM产生所述区域声学模型。产生的特定声学模型被存储在数据存储部分1b中。
一旦区域选择部分1j选择了分段区域中的一个特定分段区域,那么通过利用Sammon方法,模式模型转换部分1f能够将与选择的分段区域中的声学模型兼容低维向量对应的多个高维声学模型再次转换成二维的声学模型兼容低维向量。由于这样再次进行变换,坐标点的分布被改变,如果区域划分部分1h再次划分所述分布,那么能够产生更专用的讲话者无关声学模型。
顺便提及,该数据处理单元的用户可以自由选择产生所选分段区域的区域声学模型的处理,或者将高维声学模型再次转换成声学模型兼容低维向量的处理。
此外,根据本实施例,划分改变部分1i能够改变区域划分部分1h自动产生的划分结果。例如,像上面的第一实施例中一样,可能的改变包括根据来自输入装置,比如鼠标或键盘的输入信息,旋转所有划 分线,同时保持区域划分部分1h产生的划分结果,增加内圆35,形成新的分段区域30a-30d,或者改变划分的结果的数量。
现在参考图25和26,说明由区域模式模型产生部分21a,数据获取部分21b和区域模式模型搜索部分21c执行的搜索适合于识别关于新的讲话者(和评估讲话者相同)的语音数据的区域模式模型(按照本实施例,区域声学模型)的处理。
根据本实施例,关于是否搜索区域模式模型的方式设置可留给数据处理单元21的用户决定。如果启动区域模式模型的搜索方式,那么区域划分处理由区域划分部分1h执行,区域模式模型产生部分21a利用与包含在每个区域中的声学模型兼容低维向量对应的语音数据,产生每个分段区域的区域声学模型。随后,当数据获取部分21b获取新讲话者的语音数据时,区域模式模型搜索部分21c根据获取的语音数据和每个分段区域的区域声学模型,搜索适合于新讲话者的语音数据的语音识别的区域声学模型。根据本实施例,存在第一种和第二种搜索方法,选择使用哪种方法由数据处理单元21的用户决定(也可同时使用这两种方法)。
首先,参考图25说明借助第一种搜索方法的搜索处理。如图25(1)中所示,区域模式模型搜索部分21c计算对应于最内侧圆250中的区域的区域声学模型与新讲话者的语音数据间的匹配似然性,并通过使计算的似然性与区域声学模型相联系,将其存储在RAM中。
随后,如图25(2)中所示,相对于由最内侧圆250和下一外圆形成的环形区中的四个分段区域,区域模式模型搜索部分21c计算对应于这四个分段区域的区域声学模型与新讲话者的语音数据之间的匹配似然性,比较四个计算的似然性,并通过使计算的似然性中的最高者与区域声学模型相联系,将其存储在RAM中。另外,区域模式模型搜索部分21c通过选择与对应于区域声学模型的分段区域相邻并且在其外面的分段区域,确定接下来的搜索方向。
具体地说,根据本实施例,与图25(3)所示的环形区域中的四个扇形分段区域中的右上方分段区域对应的区域声学模型具有最高似 然性,与该分段区域相邻并且在其外面的两个分段区域被选择,以确定接下来的搜索方向。随后,区域模式模型搜索部分21c计算对应于这两个分段区域的区域声学模型与新讲话者的语音数据之间的匹配似然性。随后,像上面的图25(2)的情况一样,区域模式模型搜索部分21c比较这两个似然性,并通过使计算的似然性中的较高者与区域声学模型相联系,将其存储在RAM中。另外,区域模式模型搜索部分21c通过选择与对应于区域声学模型的分段区域相邻并且在其外面的分段区域,确定接下来的搜索方向。
具体地说,根据本实施例,对应于图25(4)中所示的两个扇形分段区域中左边一个扇形分段区域的区域声学模型具有较高的似然性,与该分段区域相邻并且在其外面的两个分段区域被选择,以确定接下来的搜索方向。随后,区域模式模型搜索部分21c计算对应于这两个分段区域的区域声学模型与新讲话者的语音数据之间的匹配似然性。随后,像上面的图25(3)的情况一样,区域模式模型搜索部分21c比较这两个似然性,并通过使计算的似然性中的较高者与区域声学模型相联系,将其存储在RAM中。另外,区域模式模型搜索部分21c通过选择与对应于区域声学模型的分段区域相邻并且在其外面的分段区域,确定接下来的搜索方向。
具体地说,根据本实施例,如图25(5)中所示,与在图25(4)中选择的确定搜索方向的两个扇形分段区域中右边一个对应的区域声学模型具有较高的似然性,与该分段区域相邻并且在其外面的两个分段区域被选择,以确定接下来的搜索方向。随后,区域模式模型搜索部分21c计算对应于这两个分段区域的区域声学模型与新讲话者的语音数据之间的匹配似然性。随后,区域模式模型搜索部分21c比较这两个似然性,并通过使计算的似然性中的较高者与区域声学模型相联系,将其存储在RAM中。根据本实施例,图25(6)中所示的分段区域具有较高似然性。另外,由于此时搜索已到达最外侧的环形区域,因此结束搜索处理。
最后,区域模式模型搜索部分21c比较存储在RAM中的似然性, 并将具有最高似然性的区域声学模型选为适合于新讲话者的语音数据的语音识别的声学模型。
这样,当从最内侧圆到外侧圆计算似然性时,区域模式模型搜索部分21c通过选择与具有最高似然性的分段区域相邻的分段区域,确定接下来的搜索方向,相互比较每个环形区域中的分段区域的计算似然性,并根据比较的结果存储最高的似然性。重复该处理,直到到达最外侧的环形区为止,最后,从存储的似然性中,选择具有最大似然性的区域声学模型作为适合于新讲话者的声学模型。
顺便提及,尽管第一搜索方法顺序计算似然性,直到到达最外侧的环形区域为止,随后从已被搜索的分段区域的最大似然性中选择最高的似然性,从而选择适合于新讲话者的区域声学模型,不过这不是限制性的。还可比较指定分段区域的似然性与下一内部分段区域的似然性,如果任意指定分段区域的最大似然性大于下一内部分段区域的最大似然性,那么如同第一搜索方法一样,沿向外的方向继续搜索,或者如果下一内部分段区域的任意似然性较大,那么停止所述搜索,并将下一内部分段区域的最大似然性选为适合于新讲话者的区域声学模型的似然性。
下面参考图26说明借助第二种搜索方法的搜索处理。如图26(1)中所示,区域模式模型搜索部分21c计算对应于最内侧圆250中的区域的区域声学模型与新讲话者的语音数据间的匹配似然性,并通过使计算的似然性与区域模式模型相联系,将计算的似然性存储在RAM中。随后,如图26(2)中所示,关于由最内侧圆250和下一外圆形成的环形区域中的四个分段区域,区域模式模型搜索部分21c计算与这四个分段区域对应的区域声学模型与新讲话者的语音数据之间的匹配似然性,并通过使计算的似然性中的最高者与区域声学模型相联系,将其存储在RAM中。另外,区域模式模型搜索部分21c通过选择与对应于区域声学模型的分段区域相邻,并且在其外面的分段区域,确定接下来的搜索方向。
具体地说,根据本实施例,与图26(3)中所示的环形区域中的 四个扇形分段区域中右上方和右下方的两个分段区域对应的区域声学模型具有最高和次高似然性,选择与该分段区域相邻并且在其外面的四个分段区域,以确定接下来的搜索方向。随后,区域模式模型搜索部分21c计算对应于这四个分段区域的区域声学模型和新讲话者的语音数据间的匹配似然性。随后,像上面图26(2)的情况一样,区域模式模型搜索部分21c比较这四个似然性,并通过使计算的似然性中的最高值和次高值与相应的区域声学模型相联系,将它们存储在RAM中。另外,区域模式模型搜索部分21c通过选择与对应于区域声学模型的分段区域相邻并且在其外面的分段区域,确定接下来的搜索方向。
具体地说,根据本实施例,与图26(4)中所示右上方两个扇形分段区域中的右侧分段区域,以及右下方两个分段区域中的左侧分段区域对应的区域声学模型具有最高和次高的似然性,选择与这两个分段区域相邻并且在其外面的四个分段区域,以确定接下来的搜索方向。随后,区域模式模型搜索部分21c计算对应于这四个分段区域的区域声学模型和新讲话者的语音数据间的匹配似然性。随后,像上面的图26(3)的情况一样,区域模式模型搜索部分21c比较这四个似然性,并通过使计算的似然性中的最高值和次高值与相应的区域声学模型相联系,将它们存储在RAM中。另外,区域模式模型搜索部分21c通过选择与对应于区域声学模型的分段区域相邻并且在其外面的分段区域,确定接下来的搜索方向。
具体地说,根据本实施例,如图26(5)中所示,与包含在图26(4)中选择的以确定搜索方向的四个分段区域的两个扇形区域中的下面一个对应的两个区域声学模型具有最高和次高的似然性,选择与这两个分段区域相邻并且在其外面的四个分段区域,以确定接下来的搜索方向。随后,区域模式模型搜索部分21c计算对应于这四个分段区域的区域声学模型和新讲话者的语音数据间的匹配似然性。随后,区域模式模型搜索部分21c比较这四个似然性,并通过使计算的似然性中的最高值和次高值与相应的区域声学模型相联系,将它们存储在RAM中。根据本实施例,图26(6)中所示的分段区域具有最高和次 高的似然性。另外,由于此时搜索已到达最外侧的环形区域,因此结束搜索处理。
最后,区域模式模型搜索部分21c比较存储在RAM中的似然性,并将具有最高似然性的区域声学模型选为适合于新讲话者的语音数据的语音识别的声学模型。
这样,当从最内侧圆到外圆计算似然性时,区域模式模型搜索部分21c通过选择与具有最高或次高似然性的分段区域相邻的分段区域,确定接下来的搜索方向,相互比较每个环形区域中的分段区域的计算似然性,并根据计算结果存储最高和次高的似然性。重复该处理,直到到达最外侧的环形区域为止,最后,从存储的似然性中,选择具有最大似然性的区域声学模型作为适合于新讲话者的声学模型。
顺便提及,尽管第二种搜索方法通过选择与对应于前两个似然性的分段区域相邻并且在其外面的分段区域,确定接下来的搜索方向,并按分段区域存储前两个似然性,不过这不是限制性的。还可通过选择与对应于前n个(n是小于指定环形区域的划分结果的数量的整数)似然性的分段区域相邻并且在其外面的分段区域,确定接下来的搜索方向,并按分段区域存储前n个似然性。
另外,用第一和第二搜索方法选择的声学模型可通过电缆等,被传送给新讲话者的信息处理终端,比如蜂窝电话机或者PDA。
另外,尽管对通过利用其识别性能低于预定阈值的语音单元的出现频率作为w(k),二维投射的搜索空间进行按照第一和第二搜索方法的区域声学模型搜索,不过这不是限制性的。还可利用其识别性能低于预定阈值的语音单元的出现频率和简单的出现频率,产生独立的搜索空间,利用第一或第二搜索每个搜索空间中的区域声学模型,比较搜索空间之间区域声学模型的似然性,并选择具有更高似然性的搜索空间中的区域模式模型。
现在参考图27,说明数据处理单元21的区域模式模型搜索部分21c利用第一搜索方法执行的搜索处理。图27是表示区域模式模型搜索部分21c利用第一搜索方法进行的搜索处理的流程图。
如图27中所示,当在步骤S400中,数据处理单元21的用户利用输入装置选择第一搜索方法时,区域模式模型搜索部分21c进入步骤S402。
在步骤S402中,区域模式模型搜索部分21c判断数据获取部分21b是否获取了新数据。如果发现已获取新数据(Yes),那么区域模式模型搜索部分21c进入步骤S404。否则(No),它继续所述判断处理,直到新数据被获取为止。这里,新数据意味着关于新对象,比如新的讲话者的数据。这样的数据可以是,例如新讲话者的语音数据。
在步骤S404中,区域模式模型搜索部分21c将获取的新数据存储在数据存储部分1b中。随后,它进入步骤S406。
在步骤S406中,区域模式模型搜索部分21c判断数据控制部分1d是否已通过输入装置,接受来自数据处理单元21的用户的搜索开始命令。如果发现已获取搜索开始命令(Yes),那么区域模式模型搜索部分21c进入步骤S408。否则(No),它继续所述判断处理,直到接受搜索开始命令为止。
在步骤S408中,区域模式模型搜索部分21c从数据存储部分1b读出存储的新数据,并计算新数据和与对应于区域划分部分1h产生的区域之中,最内侧圆中的区域对应的区域模式模型间的匹配似然性。随后,它进入步骤S410。
在步骤S410,区域模式模型搜索部分21c将在步骤S408中计算的似然性存储在RAM中。随后,它进入步骤S412。
在步骤S412中,区域模式模型搜索部分21c计算新数据和与邻近最内侧圆的环形区域中的分段区域对应的区域模式模型间的匹配似然性。随后,它进入步骤S414。
在步骤S414中,区域模式模型搜索部分21c比较计算的分段区域的似然性。随后,它进入步骤S416。
在步骤S416中,区域模式模型搜索部分21c根据在步骤S414中的比较结果,通过使最高的似然性与区域模式模型相联系,将所述最高的似然性存储在RAM中。随后,它进入步骤S418。
在步骤S418中,区域模式模型搜索部分21c判断似然性计算是否已到达最外侧的环形区域。如果发现已到达最外侧的环形区域(Yes),那么区域模式模型搜索部分21c进入步骤S420。否则(No),它进入步骤S424。
在步骤S420中,区域模式模型搜索部分21c比较存储在RAM中的所有似然性。随后,它进入步骤S422。
在步骤S422中,区域模式模型搜索部分21c根据步骤S420中的比较结果,选择对应于最高似然性的区域模式模型,随后它结束处理。
另一方面,如果由于在步骤S418中,发现还未到达最外侧的环形区域,因此区域模式模型搜索部分21c进入步骤S424,那么它根据步骤S414中的比较结果,计算和与包含具有最高似然性的区域模式模型的区域邻近且在其外面的区域对应的区域模式模型的似然性。随后,它进入步骤S414。
现在,参考图28说明数据处理单元21的区域模式模型搜索部分21c利用第二搜索方法进行的搜索处理的流程。图28是表示区域模式模型搜索部分21c利用第二搜索方法进行的搜索处理的流程图。
如图28中所示,当在步骤S500中,数据处理单元21的用户利用输入装置选择第二搜索方法时,区域模式模型搜索部分21c进入步骤S502。
在步骤S502中,区域模式模型搜索部分21c判断数据获取部分21b是否获取了新数据。如果发现已获取新数据(Yes),那么区域模式模型搜索部分21c进入步骤S504。否则(No),它继续所述判断处理,直到新数据被获取为止。这里,新数据意味着关于新对象,比如新的讲话者的数据。这样的数据可以是,例如新讲话者的语音数据。
在步骤S504中,区域模式模型搜索部分21c将获取的新数据存储在数据存储部分1b中。随后,它进入步骤S506。
在步骤S506中,区域模式模型搜索部分21c判断数据控制部分1d是否已通过输入装置,接受来自数据处理单元21的用户的搜索开始命令。如果发现已获取搜索开始命令(Yes),那么区域模式模型搜 索部分21c进入步骤S508。否则(No),它继续所述判断处理,直到接受搜索开始命令为止。
在步骤S508中,区域模式模型搜索部分21c从数据存储部分1b读出存储的新数据,并计算新数据和与对应于区域划分部分1h产生的区域之中,最内侧圆中的区域对应的区域模式模型间的匹配似然性。随后,它进入步骤S510。
在步骤S510,区域模式模型搜索部分21c将在步骤S508中计算的似然性存储在RAM中。随后,它进入步骤S412。
在步骤S512中,区域模式模型搜索部分21c计算新数据和与邻近最内侧圆的环形区域中的分段区域对应的区域模式模型间的匹配似然性。随后,它进入步骤S514。
在步骤S514中,区域模式模型搜索部分21c比较计算的分段区域的似然性。随后,它进入步骤S516。
在步骤S516中,区域模式模型搜索部分21c根据在步骤S514中的比较结果,通过使前n个似然性与区域模式模型相联系,将所述前n个似然性存储在RAM中。随后,它进入步骤S518。
在步骤S518中,区域模式模型搜索部分21c判断似然性计算是否已到达最外侧的环形区域。如果发现已到达最外侧的环形区域(Yes),那么区域模式模型搜索部分21c进入步骤S520。否则(No),它进入步骤S524。
在步骤S520中,区域模式模型搜索部分21c比较存储在RAM中的所有似然性。随后,它进入步骤S522。
在步骤S522中,区域模式模型搜索部分21c根据步骤S520中的比较结果,选择对应于最高似然性的区域模式模型,随后它结束处理。
另一方面,如果由于在步骤S518中,发现还未到达最外侧的环形区域,因此区域模式模型搜索部分21c进入步骤S524,那么它根据步骤S514中的比较结果,计算和与包含对应于前n个似然性的区域模式模型的区域邻近且在其外面的区域对应的区域模式模型的似然性。随后,它进入步骤S514。
数据分类部分1a能够根据特定的条件,将关于多个预定对象的预定数据(多个讲话者的语音数据)分组。
模式模型产生部分1c能够根据分组的预定数据(按照上面的实施例,语音数据),产生每组的模式模型(按照上面的实施例,高维声学模型)。
通过将其识别性能低于预定阈值的模式单元(按照上面的实施例,语音单元)的出现频率用作上面的等式(1)中的w(k),数学距离计算部分1e′能够计算多个模式模型(按照上面的实施例,高维声学模型)间的数学距离。
模式模型转换部分1f能够根据模式模型(按照上面的实施例,高维声学模型)间的数学距离,将多个模式模型(按照上面的实施例,高维声学模型)转换成相同数量的对应于模式模型的低维向量(按照上面的实施例,声学模型兼容低维向量)。
模式模型显示部分1g能够将对应于模式模型的低维向量(按照上面的实施例,声学模型兼容低维向量)显示成和对应于模式模型的低维向量相同维数的低维空间(按照上面的实施例,二维空间)中的坐标点。
区域划分部分1h能够以这样的方式自动划分存在于低维空间中,并且包含坐标点的区域,以致随着离最内侧圆的径向距离的增大,更细致地划分包含对应于模式模型的低维向量(按照上面的实施例,声学模型兼容低维向量)的环形区域。
划分改变部分1i能够根据输入信息,改变区域划分部分1h自动产生的划分的结果。
区域选择部分1j能够根据输入信息,从显示的分段区域中选择一个分段区域。
特定模式模型产生部分1k能够根据和模式模型(按照上面的实施例,高维声学模型)相关的数据(按照上面的实施例,语音数据),产生特定的模式模型(按照上面的实施例,特定声学模型),所述模式模型(按照上面的实施例,高维声学模型)和位于区域选择部分1i 选择的区域中的多个对应于模式模型的低维向量(按照上面的实施例,声学模型兼容低维向量)相对应。
区域模式模型产生部分21a能够产生由区域划分部分1h产生的每个分段区域的区域模式模型(按照上面的实施例,区域声学模型)。
数据获取部分21b能够获取关于新对象的预定数据(按照上面的实施例,新的讲话者的语音数据)。
利用第一或第二搜索方法,区域模式模型搜索部分21c能够搜索与区域划分部分1h产生的分段区域对应的区域模式模型(按照上面的实施例,区域声学模型),寻找适合于识别数据获取部分21b获取的预定数据(按照上面的实施例,语音数据)的区域模式模型。
(第七实例)
参考图29-31,说明一个实例,其中根据第二实施例的数据处理单元21二维投射每种说话风格的多个高维声学模型(下面称为声学模型库),将它们分成多个分段区域,产生各个分段区域的多个区域声学模型,利用第一搜索方法从多个区域声学模型中选择一个区域声学模型,并比较这样获取的区域声学模型与常规的MLLR(最大似然线性回归)获取的声学模型间的性能。
图29A是表示用于产生声学模型的说话风格的类型的图,而图29B是表示由根据本发明的数据处理单元21显示在二维表面中的声学模型兼容低维向量的图。图30是利用由根据本发明的数据处理单元21的搜索方法选择的声学模型,和由常规的MLLR讲话者适应技术选择的声学模型,表示识别性能和讲话者之间的关系的图。图31是表示在对声学模型的搜索期间产生的话语的数量与按照话语的数量选择的声学模型的识别性能之间的关系的图。
对于性能比较来说,5240个音位均衡的单词被分成均由175个单词组成的单词表,145名男性讲话者被要求以多种说话风格说话,所得到的语音数据被使用。参与的讲话者总共561名,其中533名讲话者是学习数据讲话者,28名讲话者是评估数据讲话者。有关评估讲话者的选择的细节将在后面说明。以20dB的S/N比将在展览会录制的 背景噪声重叠在语音数据上。采样频率为11.025kHz。使用了七种说话风格,如图29A中所示:正常地(以正常速度说话),快速地(比正常更快地说话),高声地(比平常声音更高地说话),小声地(以附近的人们甚至听不见的方式说话),大声地(大声地说话,以致即使是很远的人也能听到),Lombard(在听到汽车噪声的时候说话),和清晰地(清晰地发出每个假名的音)。利用简单正态分布,通过双音素的基于HMM的建模,创建声学模型。
图29B表示当数据处理单元21将533名男性学习数据讲话者的讲话者声学模型显示成二维平面中的坐标点时得到的声学空间图。学习数据中的双音素的出现频率被用作等式(1)中的语音单元k的出现频率w(k)。本例中,在数据处理单元21上,两种出现频率--即,简单双音素的出现频率和其识别性能低于预定阈值的双音素的出现频率--被用作上面的等式(1)中的出现频率w(k),在对区域声学模型的搜索期间,比较包含在利用相应的出现频率产生的两种声学空间图中的搜索结果,并选择产生较高似然性的区域声学模型。
所使用的坐标点的符号示于图29A中。
从图29B可看出,坐标点按照说话风格形成多个组。这被认为指出声学特性随着说话风格而变化。由于“正常”说话风格的坐标点集中于分布的中心,因此认为当被数据处理单元21映射到二维平面时,具有更平均的特性的说话风格出现在中心。虚线箭头表示同一讲话者在不同说话风格间的差异。这指出如果在声学分析后再次进行统计处理,那么与随着讲话者而变化相比,声学特性随着说话风格而更大地变化。
从图29B的(总共28名评估讲话者)的分布的内缘和外缘中,选择每种说话风格的两个讲话者作为评估讲话者。HTK(HiddenMarkov Model Toolkit)被用于评估(参见http://htk.eng.cam.ac.uk/,2004/7/12),并且并行的一套175个记录单词的列表被提供给评估讲话者。作为一种评估量度,除了单词准确度(下面简单称为识别性能)之外,还使用识别性能低于X%的评估讲话者的比例(下面称为Population)。这是语音识别厂家需要嵌入式设备制造商作出的性能 保证指标之一。
利用评估数据评估声学模型库。基于少量的语音样本,由第一搜索方法从声学模型库选择的声学模型被称为定制声学模型。首先,在定制声学模型和讲话者无关声学模型之间比较性能,以确定基线性能,另外在定制声学模型和由常规的MLLR讲话者适应技术获取的讲话者适应声学模型之间比较性能。随后,利用模型选择所需的语音样本的数量比较性能,并检查对于足够的性能改进来说所需的语音样本的数量。至少用于模型选择或者基于MLLR的讲话者适应的语音样本,由于认为在任务中使用单词是通例,因此使用从每个评估讲话者的评估数据中任意选择的语音样本。
图30表示相对于不同的讲话者,在讲话者无关声学模型,讲话者适应声学模型(适应的话语的数量为10(由图30中的MLLR_N10表示)),讲话者适应声学模型(适应的话语的数量为30(由图30中的MLLR_N30表示)),和定制声学模型(用于模型选择的话语的数量为5(由图30中的Custom_N5表示))间的识别性能的比较。在图30中,水平轴代表讲话者数量,而垂直轴代表依据讲话者标绘的每个声学模型的识别率。另外,假定讲话者适应声学模型已适合于利用提供最高性能的学习会话的数量的讲话者。适应话语的数量加上和于模型选择的话语的数量等于模型选择所需的每个讲话者的语音样本的数量。
从图30可看出,定制声学模型(图30中的“■”)显示出远高于讲话者无关声学模型(图30中的“×”)的性能,尤其是就讲话者1-11来说更是如此,并提供与具有30个适应话语的基于MLLR的讲话者适应声学模型(图30中的“◇”)相等或更高的性能。与常规方法相比,这减少了搜索所需的语音样本的(即,和常规的方法相比,需要的计算量较少),使得能够比常规方法更快地搜索适合于每个讲话者的定制声学模型。定制声学模型向在讲话者无关声学模型和基于MLLR的讲话者适应声学模型的情况下,特定在于识别性能差的讲话者(图30中的讲话者1-4)提供80%或者更高的高性能。从而,它还可用于在 利用声学模型间的距离创建的声学空间图中有选择地搜索区域声学模型,所述声学模型间的距离又是通过将两种出现频率--即,简单双音素的出现频率和其识别性能氏于预定阈值的双音素的出现频率--用作上面的等式(1)中的出现频率w(k)计算的。
图31表示话语的数量和平均识别性能间的关系(图31中的“■”),以及话语的数量和具有为80%或更低的识别率的总体(population)之间的关系(图31中的“●”),以举例说明在根据本发明的数据处理单元21进行的对定制声学模型的搜索期间,定制声学模型的识别性能与语音样本的数量之间的关系。在图31中,当N-0时获取的结果可归因于讲话者无关声学模型(Base_Line)。另外,水平轴代表话语的数量,第一垂直轴(左侧)代表(讲话者的平均)识别率,第二垂直轴(右侧)代表具有为80%或更低的识别率的比例。
在图31中,话语的数量与平均识别性能(水平轴和第一垂直轴)之间的关系指出只在三五个单词内识别性能被提高,话语的数量与具有为80%或更低的识别率的总体(水平轴和第二垂直轴)之间的关系指出只在三个单词内,具有为80%或更低的识别率的总体的比例被减小到0。从而,可认为即使只说出三五个单词,根据本发明的数据处理单元21也能够搜索相对于讲话者,具有足够的识别性能的声学模型。
(第八实例)
参见图32,说明一个实例,其中根据本发明的数据处理单元21比较适合于新讲话者的两种区域声学模型间的识别性能,所述两种区域声学模型是:第一搜索方法搜索的区域声学模型,和根据计算的与关于整个区域产生的声学模型的匹配似然性搜索的区域声学模型。本例中使用的说话风格、评估讲话者等和上面的第七实例中相同。
图32是利用由第一搜索方法搜索的声学模型,和根据计算的与关于整个区域产生的声学模型的匹配似然性搜索的声学模型,表示识别性能和讲话者之间的关系的图。
在图32中,和上面的第七实例的情况一样,任意选择每个讲话者 的五个语音样本供搜索之用。从图32可看出,当比较两个条件,即按其计算语音样本和所有区域声学模型间的匹配似然性,并通过计算的似然性的比较,选择具有最大似然性的区域声学模型的条件(图32中▲),和按其使用上面的第一方法的条件(图32中的“●”)时,总体上,在这两个条件间不存在识别率方面的较大差异,不过局部上,一个条件的识别率优于或劣于另一条件的识别率。从而,可看出通过利用上面的第一方法,能够在不计算与所有区域声学模型的匹配似然性的情况下,搜索适合于每个讲话者的区域声学模型。从而,在对区域声学模型的搜索中使用所述第一或第二搜索方法是有益的,使得能够快速地搜索适合于每个讲话者的区域声学模型。
(第九实例)
参考图33-34,说明一个实例,其中通过改变上面的等式(1)中的出现频率w(k),比较识别性能。本例中使用的说话风格、评估讲话者等和上面的第七实例中相同。
图33是表示识别性能和讲话者之间的关系的图,其中两种出现频率被用作权重,标准出现频率被用作权重,或者其识别性能低于预定阈值的语音单元的出现频率被用作权重。图34A表示将简单双音素的出现频率用作距离的权重而产生的声学空间图,图34B表示将其识别性能低于预定阈值的双音素的出现频率用作距离的权重而产生的声学空间图。
在图33中,Base_Line(“×”)代表按其利用整个区域的声学模型产生讲话者无关声学模型的条件,Custom_N5(“■”)代表按其在利用和上面的第七实例一样的两种出现频率--即,简单双音素的出现频率和其识别性能最低的双音素的出现频率--作为上面的等式(1)中的出现频率w(k)而产生的声学空间图中,有选择地搜索区域声学模型的条件,Frequency(“○”)代表按其在利用简单双音素的出现频率而创建的声学空间图中搜索区域声学模型的条件,BadphonemeFrequency(“◇”)代表按其在利用其识别性能最低的双音素的出现频率而产生的声学空间图中搜索区域声学模型的条件。
从图33中可看出,就讲话者1来说,Frequency条件表示识别率低于75%的低识别性能,Badphoneme Frequency条件表示识别率高于80%的高识别性能。另一方面,就讲话者2来说,Frequency条件表示识别率高于80%的高识别性能,Badphoneme Frequency条件表示识别率低于70%的低识别性能。这样,尽管使用了少量的样本,可看出根据讲话者,识别性能随着用作权重的出现频率而显著变化。从而,可认为Custom_N5条件适合于各种各样的讲话者,在Custom_N5条件下,通过从属于Frequency条件和Badphoneme Frequency条件的那些区域声学模型中选择具有高似然性的区域声学模型,Frequency条件和Badphoneme Frequency条件弥补彼此的缺陷(对付处理时另一方较差的讲话者1)
在图34A中,存在彼此接近的五个被环绕的坐标点。另一方面,与图34A中的坐标点相比,图34B中的被环绕的坐标点更分散。这里,图34A中的五个被环绕的坐标点和图34B中的五个被环绕的坐标点对应于相同的声学模型。从而,可看出声学模型的分布随使用的出现频率的类型而显著变化。如前所述,讲话者间的声学距离随语音单元(音位)而变化。即使使用出现频率也没有完全解决该问题。依据一种出现频率确定的声学距离并不适用于所有语音单元。一些语音单元并不给出准确的声学距离,即使它们对识别来说较重要。从而,和按其利用两种出现频率计算距离的Custom_N5条件的情况一样,通过利用多种出现频率计算声学模型间的距离,为每种出现频率产生多个声学空间图,并以这样的方式利用声学空间图,以致当搜索区域声学模型时,弥补彼此的缺陷,可减轻上述问题。
在上面的第二实施例中,数据分类部分1a对应于在母案原权利要求16、18和28任意之一中限定的数据分类装置;模式模型产生部分1c对应于在母案原权利要求16、18、24、33和37任意之一中限定的模式模型产生装置数学距离计算部分1e′对应于在母案原权利要求16、19和30任意之一中限定的数学距离计算装置。模式模型转换部分1f 对应于在母案原权利要求16、18和31任意之一中限定的模式模型转换装置;模式模型显示部分1g对应于在母案原权利要求16、18和34任意之一中限定的对应于模式模型的低维向量显示装置;区域划分部分1h对应于在母案原权利要求18、21-23、32、34和37任意之一中所述的区域划分装置;区域模式模型产生部分21a对应于在母案原权利要求18、24和37任意之一中限定的区域模式模型产生装置;数据获取部分21b对应于在母案原权利要求18或37中限定的预定数据获取装置;区域模式模型搜索部分21c对应于在母案原权利要求18、24-26、33、34和37任意之一中限定的区域模式模型搜索装置;划分改变部分1i对应于在母案原权利要求32中限定的划分改变装置;模式模型适应部分1k对应于在母案原权利要求33中限定的模式模型适应装置。
顺便提及,虽然在上面描述的第二实施例中列举了人类声音,不过本发明并不仅仅适用于人类声音。当被应用于除人类声音之外的数据时,本发明能够解决类似的问题和提供类似的效果。
另外,虽然在上述第二实施例中说明由模式模型转换部分1f产生的声学模型兼容低维向量是二维的,不过这不是限制性的,也可使用一维或者三维向量。
(第三实施例)
下面参考附图说明本发明的第三实施例。图35-42是表示根据本发明的第三实施例的数据处理系统的图。
首先,参考图35说明根据本发明的数据处理系统的结构。图35是表示根据本发明的数据处理系统的结构的方框图。
如图35中所示,数据处理系统5包括信息处理终端350A、350B和350C…,数据处理单元37和网络6。
信息处理终端350A-350C受系统用户A-C控制。它们具有获取相应系统用户的语音数据,和通过网络6将语音数据发送给数据处理单元37的功能,以及显示从数据处理单元37获取的信息的功能。根据本实施例,硬件和软件被安装在信息处理单元,比如蜂窝电话机、PDA、 PC和WS上,以实现上述功能。详细的结构将在后面描述。
数据处理单元37包含根据通过网络6,从信息处理终端350A-350C获取的语音数据,从分成多个区域的声学空间图搜索适合于获取的语音数据的讲话者的区域声学模型的功能;显示关于获取的语音数据在由多个讲话者的声学模型构成的声学空间图中的位置信息以及搜索结果的功能;和将取回的声学模型发送给系统用户的功能。详细的结构将在后面描述。
网络6是连接多个信息处理设备,以便准备好相互进行数据通信的LAN或WAN。本实施例使用因特网。
现在参考图36,说明信息处理终端350A-350C的详细结构。图36是表示信息处理终端350的详细结构的图。根据本实施例,信息处理终端350A-350C(可存在其它信息处理终端)具有相同的结构,它们将被统称为信息处理终端350。下面,信息处理终端350A-350C所共有的项目将涉及到统称的信息处理终端350。另外,如图35中所示,信息处理终端并不局限于这三个信息处理终端350A-350C,并且可连接受其它系统用户控制的其它信息处理终端。
如图36中所示,信息处理终端350包括语音数据获取部分350a,第一数据控制部分350b,第一数据通信部分350c,信息显示部分350d和操作部分350e。
语音数据获取部分350a包括获取目标讲话者发出的语音(模拟数据)的装置,比如麦克风,以及将模拟数据(语音)转换成数字数据的装置,比如A/D转换器。
第一数据控制部分350b包括控制各个组件的处理的功能,包括控制通过第一数据通信部分350c,将语音数据获取部分350a获取的语音数据发送给数据处理单元37的处理的功能,和控制信息显示部分350d中,显示从数据处理单元37获取的信息的处理的功能。
第一数据通信部分350c具有在第一数据控制部分350b的控制下,通过网络6与数据处理单元37进行各种数据通信的功能。
信息显示部分350d具有在第一数据控制部分350b的控制下,显 示信息,包括从数据处理单元37获取的各种信息的功能。
操作部分350e允许系统用户输入信息,以指定特定的讲话者,或者完成对语音数据处理控制程序的设置。
根据本实施例,尽管未示出,但是信息处理终端350配有处理器、RAM(随机存取存储器)和存储专用程序的ROM(只读存储器)。当处理器执行专用程序时,信息处理终端350控制上述组件。
下面将参考图37,说明数据处理单元37的详细结构。图37是表示数据处理单元37的详细结构的方框图。顺便提及,和第二实施例中的数据处理单元21的功能组件类似的那些功能组件将用和第二实施例中相同的附图标记表示,和数据处理单元21相同的功能的描述将被省略。
数据处理单元37包括数据分类部分1a、数据存储部分1b、模式模型产生部分1c、数据控制部分1d′、数学距离计算部分1e′、模式模型转换部分1f、模式模型显示部分1g、区域划分部分1h、划分改变部分1i、区域选择部分1j、特定模式模型产生部分1k、区域模式模型产生部分21a、第二数据通信部分37a和区域模式模型搜索部分21c。
也就是说,不同于数据处理单元21的数据获取部分21b,数据处理单元37包括第二数据通信部分37a。
除了根据第二实施例的数据控制部分1d的功能之外,数据控制部分1d′还具有控制从信息处理终端350接收系统用户的语音数据,计算语音数据在预先产生的声学空间图上的位置,计算恰当区域的值,和将计算结果及关于它们的注释数据发送给信息处理终端350的处理的功能。另外,它具有控制根据新获取的系统用户的语音数据,评估系统用户当前使用的声学模型的性能,并将评估结果以及关于它们的注释数据发送给信息处理终端350的处理的功能。
第二数据通信部分37a具有在第二数据控制部分1d′的控制下,通过网络6,与信息处理终端350进行各种数据通信的功能。
下面将参考图38和39说明数据处理系统5的更具体操作。图38是表示当传送适合于系统用户的声学模型时,显示的信息的实例的图。 图39是表示当评估系统用户使用的声学模型的性能,并传送新的声学模型时,显示的信息的实例的图。
首先,数据处理单元37按照和上述第二实施例相同的程序,根据多个讲话者的语音数据,产生高维声学模型,将它们转化成声学模型兼容低维向量,并将向量显示成二维平面中的坐标点。随后,它划分其中声学模型兼容低维向量被显示成坐标点的声学空间,并根据与指定分段区域中的声学模型兼容低维向量对应的语音数据,产生每个分段区域的区域声学模型。一旦产生了区域声学模型,数据处理单元37等待来自信息处理终端350的传送适合于系统用户的声学模型的请求,或者评估声学模型的请求。
另一方面,为了获取适合于识别他/她自己的语音的声学模型,系统用户通过操纵信息处理终端350的操作部分350e,指令第一数据控制部分350b启动语音数据获取程序。系统用户通过语音数据获取部分350a,获取他/她自己的语音。随后,通过操纵操作部分350e,系统用户指令第一数据控制部分350b将获取的语音数据和传送请求信息及评估请求信息一起发送给数据处理单元37。
当从信息处理终端350收到语音数据、传送请求信息和评估请求信息时,数据处理单元37利用根据上述第二实施例的第一搜索方法,搜索适合于获取的语音数据的语音识别的区域声学模型。语音数据还提供关于系统用户的语音数据具有何种说话风格的信息。关于这样获取的系统用户的语音数据的信息连同预先准备的注释数据一起作为显示信息被发送给信息处理终端350。根据本实施例,数据处理单元37存储过去传送给系统用户的声学模型的历史,根据历史评估过去的声学模型相对于当前语音数据的性能,比较所述性能与此时新发现的声学模型的性能。这样做的原因在于由于新讲话者的语音数据的添加等,在数据处理单元37中累积的语音数据被逐日更新,从而声学空间图被更新。性能比较使得能够判断在新的声学空间图中找到的声学模型是否提供高于过去的声学模型的识别性能,从而获取具有高识别性能的声学模型。从而,根据本实施例,评估结果信息也作为显示信息被发 送给信息处理终端350。另外,传送请求信息包含用于识别系统用户的标识信息。
当信息处理终端350从数据处理单元37收到显示信息时,第一数据控制部分350b在信息显示部分350d的控制下,根据接收的显示信息显示信息。显示的信息包括,例如如图38中所示,每种说话风格的声学空间,系统用户的语音数据在声学空间中,以及在通过利用根据上述第二实施例的技术,将包含系统用户的语音数据的声学空间分成多个区域而获取的分段区域中的相对位置,关于每种说话风格的大分区中的声学模型的值计算公式,划分成多个区域的每个环形区域(这里称为BAND)中的声学模型的值计算公式,适合于系统用户的声学模型的说明文本,供系统用户决定是否购买的菜单,或者供系统用户选择所需的声学模型的菜单,和与选择的声学模型的数量及累积量相关的信息。
通过阅读图38中所示的说明文本,系统用户知道与目前使用的声学模型相比,这次新找到的声学模型提供更高的识别性能。通过查看新的声学模型的价格,系统用户自己决定是否购买新的声学模型,或者是否选择新的声学模型。随后,系统用户通过操纵操作部分350e,选择并应用所需的菜单项。如果他/她选择并应用“我想购买声学模型:Yes”,那么该信息被发送给数据处理单元37。当收到该信息时,数据处理单元37将选择的声学模型传送给信息处理终端350。另一方面,如果系统用户选择并应用“我想选择要购买的声学模型”,那么他/她被允许通过将光标放在所需说话风格的声学空间上,以及放在通过用根据上述第二实施例的技术划分包含系统用户的语音数据的声学空间而获取的分段区域中的所需分段区域上,选择所需的声学模型。从而,关于所选声学模型的信息被发送给数据处理单元37,数据处理单元37随后将选择的声学模型发送给信息处理终端350。
现在将说明数据处理系统5被用于评估和替换系统用户目前使用的声学模型的另一种形式。
为了评估他/她目前使用的声学模型,系统用户通过操纵信息处理 终端350的操作部分350e,指令第一数据控制部分350b启动语音数据获取程序。系统用户通过语音数据获取部分350a获取他/她自己的语音。随后,通过操纵操作部分350e,系统用户指令第一数据控制部分350b将获取的语音数据连同评估请求信息一起发送给数据处理单元37。评估请求信息包括关于系统用户的标识信息。
当从信息处理终端50收到语音数据和评估请求信息时,数据处理单元37利用按照上述第二实施例的第一搜索方法,搜索适合于获取的语音数据的语音识别的区域声学模型。语音数据还提供关于系统用户的语音数据具有哪种说话风格的信息。根据包含在评估请求信息中的标识信息,数据处理单元37获取和过去传送的声学模型相关的信息,相对于获取的语音数据,计算过去的声学模型的当前识别率和取回的声学模型的识别率,并根据计算结果产生注释。关于这样获取的系统用户的语音数据的信息和预先准备的注释数据一起作为显示信息被发送给信息处理终端350。
当信息处理终端350从数据处理单元37收到显示信息时,在第一数据控制部分350b的控制下,信息显示部分350d根据接收的显示信息显示信息。显示的信息包括,例如如图39中所示,每种说话风格的声学空间,系统用户的语音数据在声学空间中,以及在通过利用根据上述第二实施例的技术,将包含系统用户的语音数据的声学空间分成多个区域而获取的分段区域中的相对位置,系统用户使用的当前声学模型的评估细节,供系统用户决定是否替换当前的声学模型的菜单,或者供系统用户选择所需的声学模型的菜单,和与选择的声学模型的数量相关的信息。
通过阅读图39中所示的评估细节,系统用户知道与目前使用的声学模型相比,这次新找到的声学模型提供更高的识别性能。系统用户自己决定是否用新找到的声学模型替换当前的声学模型,或者是否选择新的声学模型。随后,系统用户通过操纵操作部分350e,选择并应用所需的菜单项。如果他/她选择并应用“我希望声学模型被替换:Yes”,那么该信息被发送给数据处理单元37。当收到该信息时,数据 处理单元37将选择的声学模型传送给信息处理终端350。另一方面,如果系统用户选择并应用“我要选择供替换的新的声学模型”,那么他/她被允许通过将光标放在所需说话风格的声学空间上,以及放在通过用根据上述第二实施例的技术划分包含系统用户的语音数据的声学空间而获取的分段区域中的所需分段区域上,选择所需的声学模型。从而,关于所选声学模型的信息被发送给数据处理单元37,数据处理单元37随后将选择的声学模型发送给信息处理终端350。由于声学模型的性能随着例如目标讲话者的说话方式,目标讲话者发出的单词的类型,说话的时间选择,说话的环境,目标讲话者的身体状况等而变化,因此如果目标讲话者身体状况较差或者说话的环境急剧变化,那么当前的声学模型可能不能提供足够的识别性能。这种情况下,通过评估当前使用的声学模型,并根据评估结果用新的声学模型替换它们,能够提高识别性能。
现在将参考图40,说明信息处理终端350执行的数据发送处理的流程。图40是表示由信息处理终端350执行的数据发送处理的流程图。
如图40中所示,首先在步骤S600中,第一数据控制部分350b判断语音获取模式是否有效。如果发现语音获取模式有效(Yes),那么第一数据控制部分350b进入步骤S602。否则(No),它等到语音获取模式被激活为止。
在步骤S602中,第一数据控制部分350b判断是否已通过语音数据获取部分350a获取语音数据。如果发现已获取语音数据(Yes),那么第一数据控制部分350b进入步骤S604。否则(No),它等到获取语音数据为止。
在步骤S604中,第一数据控制部分350b将获取的语音数据(模拟数据)转换成数字数据。随后,它进入步骤S606。
在步骤S606中,第一数据控制部分350b判断系统用户是否通过操纵操作部分350e,表示他/她的购买声学模型的意图。如果发现系统用户想购买声学模型(Yes),那么第一数据控制部分350b进入步骤S608。否则(No),它进入步骤S610。
在步骤608中,第一数据控制部分350b通过第一数据通信部分350c,将数字语音数据连同传送请求信息(包含标识信息)和评估请求信息一起发送给数据处理单元37,随后它结束处理。
另一方面,在步骤S610中,第一数据控制部分350b判断系统用户是否通过操纵操作部分350e,产生了评估请求。如果发现系统用户产生了评估请求(Yes),那么第一数据控制部分350b进入步骤S612。否则(No),它进入步骤S614。
在步骤S612中,第一数据控制部分350b通过第一数据处理部分350c,将数字语音数据连同包含标识信息的评估请求信息一起发送给数据处理单元37,随后它结束处理。
另一方面,在步骤S614中,第一数据控制部分350b判断系统用户是否已通过操作部分350e,指定结束处理。如果发现已指定要结束处理(Yes),那么第一数据控制部分350b结束处理。否则(No),它进入步骤S606。
现在参考图41,说明在产生区域模式模型之后,数据处理单元37进行的操作和处理的流程。图41是表示由数据处理单元37进行的操作和处理的流程图。
如图41中所示,首先在步骤S700中,第二数据控制部分1d′判断是否已从信息处理终端350收到了信息。如果发现收到了信息(Yes),那么第二数据控制部分1d′进入步骤S702。否则(No),它等到收到信息为止。
在步骤S702中,第二数据控制部分1d′判断收到的信息是否包含传送请求信息和评估请求信息。如果发现包含传送请求信息和评估请求信息(Yes),那么第二数据控制部分1d′进入步骤S704。否则(No),它进入步骤S710。
在步骤S704中,第二数据控制部分1d′进行语音数据处理,包括搜索声学模型和声学模型的评估。随后,它进入步骤S706。
在步骤S706中,第二数据控制部分1d′根据步骤S704中的语音数据处理的结果,产生显示信息。随后,它进入步骤S708。
在步骤S708中,第二数据控制部分1d′通过第二数据通信部分37a,将在步骤S706中产生的显示信息发送给适当的信息处理终端350。随后,它进入步骤S700。
另一方面,如果在步骤S702中发现接收的信息不包含传送请求信息,那么在步骤S710中,第二数据控制部分1d′判断接收的信息是否包含评估请求信息。如果发现包含评估请求信息(Yes),那么第二数据控制部分1d′进入步骤S712。否则(No),它进入步骤S718。
在步骤S712中,第二数据控制部分1d′进行语音数据处理,包括搜索区域声学模型和声学模型的评估。随后,它进入步骤S714。
在步骤S714,第二数据控制部分1d′根据步骤S712中的语音数据处理的结果,产生显示信息。随后,它进入步骤S716。
在步骤S716中,第二数据控制部分1d′通过第二数据通信部分37a,将在步骤S714中产生的显示信息发送给信息处理终端350。随后,它进入步骤S700。
另一方面,如果在步骤S710中,发现收到的信息也不包含评估请求信息,那么第二数据控制部分1d′在步骤S718中丢弃接收的信息。随后,它进入步骤S700。
现在参考图42,说明当收到显示信息时,信息处理终端350执行的操作和处理的流程。图42是表示当接收显示信息时,由信息处理终端350执行的操作和处理的流程图。
如图42中所示,首先在步骤S800中,第一数据控制部分350b判断是否已从数据处理单元37收到显示信息。如果发现收到了显示信息(Yes),那么第一数据控制部分350b进入步骤S802。否则(No),它等到收到显示信息为止。
在步骤S802中,第一数据控制部分350b根据接收的显示信息,使信息显示部分350d显示信息。随后,它进入步骤S804。
在步骤S804中,第一数据控制部分350b判断系统用户是否通过操纵操作部分350e,从显示的菜单中选择了一个声学模型。如果发现选择了一个声学模型(Yes),那么第一数据控制部分350b进入步骤 S806。否则(No),它进入步骤S812。
在步骤S806中,第一数据控制部分350b通过第一数据通信部分350c,将在于所选模式模型的信息发送给数据处理单元37。随后,它进入步骤S808。
在步骤S808中,第一数据控制部分350b判断是否从数据处理单元37收到了选择的声学模型。如果发现已收到选择的声学模型(Yes),那么第一数据控制部分350b进入步骤S810。否则(No),它等到收到了选择的声学模型为止。
在步骤S810中,第一数据控制部分350b将收到的声学模型存储在存储器部分(未示出)中,随后它结束处理。
另一方面,如果在步骤S804中发现没有选择任何声学模型,那么第一数据控制部分350b在步骤S812中判断系统用户是否通过操纵操作部分350e,从显示的菜单中选择声学模型的替换。如果发现系统用户已选择声学模型替换(Yes),那么第一数据控制部分350b进入步骤S814。否则(No),它进入步骤S804。
在步骤S814中,第一数据控制部分350b通过第一数据通信部分350c,将关于声学模型替换的选择的信息发送给数据处理单元37。随后,它进入步骤S816。
在步骤S816中,第一数据控制部分350b判断是否从数据处理单元37收到选择的声学模型。如果发现收到了选择的声学模型(Yes),那么第一数据控制部分350b进入步骤S818。否则(No),它等到收到选择的声学模型为止。
在步骤S818中,第一数据控制部分350b用收到的声学模型更新当前的声学模型,随后它结束处理。
在上述第三实施例中,由第一数据控制部分350b和第一数据通信部分350c执行的语音数据发送处理对应于在母案原权利要求37中限定的语音数据发送装置,由第一数据控制部分350b和第一数据通信部分350c执行的声学模型接收处理对应于在母案原权利要求37中限定的特定模式模型获取装置,由第二数据控制部分1d′和第二数据通信 部分37a执行的声学模型传送处理对应于在母案原权利要求37中限定的特定模式模型发送装置。
(第四实施例)
下面参考附图说明本发明的第四实施例。图43-50是表示根据本发明的第四实施例的数据处理系统的图。
首先,参考图43,说明根据本发明的数据处理系统的结构。图43是表示根据本发明的数据处理系统的结构的方框图。
如图43中所示,数据处理系统7包含信息处理终端2A-2C,数据处理单元3和网络4。
信息处理终端2A-2C受系统用户A-C控制。它们具有获取相应系统用户的语音数据,和通过网络4将语音数据发送给数据处理单元3的功能,显示从数据处理单元3获取的信息的功能,和与数据处理单元3协商语音数据是否可被提供的功能。根据本实施例,硬件和软件被安装在信息处理单元,比如PC和WS上,以实现上述功能。详细的结构将在后面描述。
数据处理单元3包括用于评估通过网络4而从信息处理终端2A-2C获取的语音数据的值的功能,显示获取的语音数据在由多个讲话者的模式模型构成的声学空间中的位置信息以及评估结果的功能,和与信息处理终端2A-2C协商是否能够通过网络4提供语音数据的功能。详细的结构将在后面描述。
网络4是连接多个信息处理设备,以便准备好相互进行数据通信的LAN或WAN。本实施例使用因特网,这是一种WAN。
现在参考图44,说明信息处理终端2A-2C的详细结构。图44是表示信息处理终端2的详细结构的图。根据本实施例,信息处理终端2A-2C具有相同的结构,它们将被统称为信息处理终端2。下面,信息处理终端2A-2C所共有的项目将涉及到统称的信息处理终端2。另外,如图43中所示,信息处理终端并不局限于这三个信息处理终端2A-2C,可连接受其它系统用户控制的其它信息处理终端。
如图44中所示,信息处理终端2包括第一数据获取部分2a,第 一数据控制部分2b,第一数据通信部分2c,第一信息显示部分2d和第一协商部分2e。
第一数据获取部分2a包括获取目标讲话者发出的语音(模拟数据)的装置,比如麦克风,和将模拟数据(语音)转换成数字数据的装置,比如A/D转换器。
第一数据控制部分2b包括控制各个组件的处理的功能,包括控制通过第一数据通信部分2c,将第一数据获取部分2a获取的语音数据发送给数据处理单元3的处理的功能,控制第一信息显示部分2d中,显示从数据处理单元3获取的信息的处理的功能,和控制第一协商部分2e与数据处理单元3之间的协商处理的功能。
第一数据通信部分2c具有在第一数据控制部分2b的控制下,通过网络4与数据处理单元3进行各种数据通信的功能。
第一信息显示部分2d具有在第一数据控制部分2b的控制下,显示信息,包括从数据处理单元3获取的各种信息的功能。
第一协商部分2e具有在第一数据控制部分2b的控制下,与数据处理单元3协商是否能够通过网络4提供语音数据的功能。这里进行所述协商,以便系统用户利用具有聊天能力的软件与数据处理单元3的操作员交换信息,或者以便数据处理单元3自动将预先关于有价值的语音数据准备的信息(评估结果、消息等)发送给信息处理终端2,和以便查看所述信息的系统用户返回响应。总之,为了使系统用户判断他/她的语音数据是否可被提供和向数据处理单元3返回判断结果,进行所述协商。
现在参考图45,说明数据处理单元3的详细结构。图45是表示数据处理单元3的详细结构的图。
如图45中所示,数据处理单元3包括第二数据通信部分3a、第二数据获取部分3b、第二数据控制部分3c、位置计算部分3d、数据评估部分3e、第二信息显示部分3f、第二协商部分3g、操作部分3h和数据存储部分3i。
第二数据通信部分3a具有在第二数据控制部分3c的控制下,通 过网络4,与信息处理终端2进行各种数据通信的功能。
第二数据获取部分3b具有通过第二数据通信部分3a从信息处理终端2获取语音数据的功能,还具有分析获取的语音数据并抽取为语音数据的特有部分的特征数据的装置。它还具有通过根据抽取的特征数据构成HMM,产生目标讲话者的模式模型的装置。顺便提及,根据本实施例,特征数据和目标讲话者的模式模型都被称为语音数据。
第二数据控制部分3c具有控制数据处理单元3的各个组件之间的数据交换,以及控制处理的流程的功能。
位置计算部分3d具有计算获取的语音数据和多个讲话者的模式模型之间的位置关系的功能。
具体地说,如果特征数据是语音数据,那么计算语音数据和存储在数据存储部分3i(后面说明)中的多个讲话者的模式模型之间的匹配似然性,根据计算结果从多个讲话者的模式模型中选择具有最高似然性的模式模型,该模式模型被看作与目标讲话者的语音数据等同。根据本实施例,多个讲话者的模式模型由HMM组成,根据从它们中选择的特定模式模型(或者可能根据对应于目标讲话者的语音数据的模式模型),确定它们的相对位置。随后,由具有关于它们的相对位置的信息的模式模型形成声学空间。
从而,在这种情况下,关于所选模式模型的相对位置的信息被用作关于目标讲话者的语音数据的位置信息。
另一方面,如果通过根据特征数据构成HMM而产生的模式模型是语音数据,那么计算语音数据和模式模型间的相对位置,计算结果被用作关于语音数据的位置信息。
如果特征数据是语音数据,那么数据评估部分3e计算选择的模式模型与多个讲话者的其它模式模型间的数学距离,比较计算的距离与数学距离的预定阈值Th,根据比较结果评估目标讲话者的语音数据的值。例如,如果存在于阈值Th内的模式模型的数量较小,那么目标讲话者的语音数据存在于非密集空间中,其中不存在具有相似特征的大量语音数据,稀缺值被认为较高。另一方面,如果存在于阈值Th 内的模式模型的数量较大,那么目标讲话者的语音数据存在于密集空间中,其中存在具有相似特征的大量语音数据,稀缺值被认为较低。根据本实施例,由下面的等式(8)给出的欧几里德距离或由下面的等式(9)给出的Bhattacharrya距离被用作数学距离。
(公式5)
其中J是维数,L是状态的数量HMM,μ是平均HMM输出概率,∑是HMM输出概率的方差。
这里,可逐个音位地计算数学距离,同样可逐个音位地评估语音数据的值。本实施例允许系统用户自由地启用和禁用这样的设置。
第二信息显示部分3f具有显示信息,比如数据评估部分3e产生的评估结果的功能。这里,显示的信息包括通过评估结果的量化而获取的信息,通过根据计算的模式模型间的数学距离,利用Sammon方法二维地投射基于HMM的模式模型间的距离关系而获取的信息,以及其它信息。
第二协商部分3g具有在第二数据控制部分3c的控制下,与信息处理终端2协商是否可通过网络4提供语音数据的功能。
当确定是否与系统用户协商或者与系统用户交换消息时,操作部分3h由查看在第二信息显示部分3f中显示的信息的操作者用于输入输入数据。
数据存储部分3i存储多个讲话者的模式模型,对其成功完成协商的语音数据,和其它必要的数据。
根据本实施例,尽管未示出,但是数据处理单元3配有处理器、RAM(随机存取存储器)和存储专用程序的ROM(只读存储器)。当处理器执行专用程序时,上述组件被控制。
下面将参考图46和47,说明数据处理单元系统7的更具体操作。 图46A和46B是表示数据处理系统7执行的初始数据库构成处理和数据评估处理的流程的图。图47是表示其中声学空间被二维投射的实例的图。
参见图46A和47,下面说明在特征数据由语音数据构成的初始数据库构成处理和数据评估处理的第一结构。
首先,说明评估处理所需的初始数据库构成处理的流程--示于图46A中的(1)-(4)中。如果初始数据库已存在,那么步骤(1)-(4)不是必需的。
(1)第二数据获取部分3b获取N个(N为整数)注册讲话者的语音。
(2)第二数据获取部分3b分析获取的语音并抽取特征值。
(3)第二数据获取部分3b根据抽取的特征值产生特定讲话者和非特定讲话者的HMM,并利用预定的学习技术进行学习,以产生每个特定讲话者的一个模式模型和非特定讲话者的一个模式模型。
(4)第二数据获取部分3b将N个特定讲话者的多个模式模型(HMM)和非特定讲话者的一个模式模型(HMM)存储在数据存储部分3i中。
下面,说明在图46A的(5)-(10)中表示的语音数据评估处理的流程。
(5)第二数据获取部分3b从信息处理终端2获取系统用户的语音数据。
(6)第二数据获取部分3b分析获取的语音数据,并抽取特征值。
(7)位置计算部分3d计算抽取的特征数据和多个特定讲话者的模式模型间的匹配似然性。这里假定说话的内容已知(在说话时被输入)。
(8)位置计算部分3d根据计算的似然性,选择具有最高似然性的模式模型,并计算该模式模型与其它特定讲话者的模式模型间的数学距离。前M个模式模型可被使用(M是小于N的整数)。这种情况下,为选择的M个模式模型中的每一个计算到其它特定讲话者的模 式模型的数学距离。根据本实施例,当计算了数学距离时,可根据计算的数学距离,通过后面说明的步骤(11)和(12),利用二维投射显示坐标数据(如图47中所示),以致操作者能够直观地了解语音数据的位置关系。
(9)数据评估部分3e根据计算的数学距离,评估语音数据的值。具体地说,如果存在其介于阈值Th和目标讲话者的模式模型间的数学距离低于阈值Th的许多模式模型,那么数据评估部分3e确定在目标讲话者的模式模型周围,存在许多具有类似声学特性的模式模型。另一方面,如果存在其数学距离低于阈值Th的少量模式模型,那么数据评估部分3e确定在指定的模式模型周围,存在少量声学上类似的模式模型。
从而,周围存在大量具有类似声学特性的模式模型的语音数据被认为具有低的稀缺值,周围存在少量具有类似声学特性的模式模型的语音数据被认为具有高的稀缺值。
通过第二数据通信部分3a,评估结果信息被发送给例如信息处理终端2A,如果目标讲话者是系统用户A的话。
根据本实施例,如果稀缺值被认为较高,那么评估结果信息包含关于二维投射的位置关系的信息,指示评估结果的信息(数字、稀缺值的度数等),和关于获取语音数据的意图的信息,如果稀缺值被认为较低,那么评估结果信息包含关于二维投射的位置关系的信息,指示评估结果的信息(数字、稀缺值的度数等),关于不获取语音数据的意图的信息,和希望获取的语音数据的特性信息。希望获取的语音数据的特性信息包括关于说话方式的信息,比如私语,卧位发出的语音等。
使用前M个模式模型来计算数学距离考虑了选择的模式模型中的错误。关于所述M个模式模型中的每一个确定在阈值Th内的其它讲话者的数量,平均值被用于上面所述的评估。
顺便提及,尽管根据本实施例,所述评估由数据评估部分3e自动进行,不过操作者可根据由二维投射显示的声学空间和其它显示信息, 自己进行评估。
如果语音数据被认为具有高的稀缺值,那么数据处理系统7进入图46A的步骤(10)。
(10)第二协商部分3g与信息处理终端2协商谁是希望获取的语音数据的发送者。根据本实施例,数据处理单元3通过网络4向信息处理终端2发送预定消息,并通过网络4从系统用户接收对所述消息的响应。假如系统用户无论如何拒绝提供希望获取的语音数据,那么通过经网络4,在数据处理单元3和信息处理终端2之间交换消息,允许操作者和系统用户进行基于消息的协商。
(11)第二信息显示部分3f根据计算的数学距离,利用Sammon方法(一种已知方法)二维投射所有模式模型(HMM)间的距离关系。
(12)第二信息显示部分3f将关于HMM的二维投射的坐标信息显示成平面上的点,如图55A和55B中所示。图55A表示当逐个单词(或者逐句)处理HMM时的HMM坐标点。即,每个点代表每个讲话者的模式模型,两点之间的距离代表它们的相似性。
在图55A中,在点40周围可存在多个点,意味着存在具有相似声学特性的大量模式模型,从而可直观地了解稀缺值较低。
另一方面,点41位于声学空间的边缘,其周围存在很少的点,从而可直观地了解稀缺值较高。
图55B表示当逐个音位(图中的“a”、“i”、“u”、“e”和“o”)地处理HMM时的HMM坐标点。这使得能够逐个音位地直观评估语音数据的值。
此外,如上所述,模式模型的密度或评估结果被量化,所得到的数字被原样显示或者被显示成图。如果系统用户A的语音数据位于位置☆52,如图55A中所示,那么该语音数据的值由示于该图右下角的数字70表示。如果该值的平均值为57,那么易于看出该语音数据的值高于平均值。
(13)如果在(10)中成功完成与系统用户的协商,那么第二数 据控制部分3c将目标的语音数据存储在数据存储部分3i中。根据本实施例,在被转换成基于HMM的模式模型之后,语音数据被加入,从而被存储在(上面产生的)初始数据库中。
现在参考图46B和55,说明在根据特征数据产生的模式模型由语音数据构成的情况下,初始数据库构成处理和核实性能检测处理的第二结构。
首先,讲话者核实所需的示于图46B中的(1)-(4)中的初始数据库构成处理和图46A的(1)-(4)中的第一结构相同,从而其说明将被省略。
下面,说明在图46B中的(5)-(11)中所示的语音数据评估处理的流程。
(5)第二数据获取部分3b从信息处理终端2获取系统用户的语音数据。
(6)第二数据获取部分3b分析获取的语音数据并抽取特征值。
(7)第二数据获取部分3b根据抽取的特征数据构成HMM,并利用预定的学习技术进行学习。
(8)第二数据获取部分3b通过HMM学习产生目标讲话者的模式模型,并将其存储在数据存储部分3i中。
(9)位置计算部分3d计算产生的目标讲话者的模式模型与其它特定讲话者的模式模型之间的数学距离。根据本实施例,当数学距离被计算时,根据计算的数学距离,通过后面说明的步骤(12)和(13),可利用二维投射显示坐标数据(如图47中所示),从而操作者能够直观地了解语音数据的位置关系。
(10)数据评估部分3e根据计算的数学距离,评估语音数据的值。具体地说,如果存在其介于阈值Th和目标讲话者的模式模型间的数学距离低于阈值Th的许多模式模型,那么数据评估部分3e确定在目标讲话者的模式模型周围,存在许多具有类似声学特性的模式模型。另一方面,如果存在其数学距离低于阈值Th的少量模式模型,那么数据评估部分3e确定在指定的模式模型周围,存在少量声学上类似的 模式模型。
从而,周围存在大量具有相似声学特性的模式模型的语音数据被认为具有低的稀缺值,周围存在少量具有类似声学特性的模式模型的语音数据被认为具有高的稀缺值。
通过第二数据通信部分3a,评估结果信息被发送给例如信息处理终端2B,如果目标讲话者是系统用户B的话。
使用前M个模式模型来计算数学距离考虑了选择的模式模型中的错误。关于所述M个模式模型中的每一个确定在阈值Th内的其它讲话者的数量,平均值被用于上面所述的评估。
顺便提及,尽管根据本实施例,所述评估由数据评估部分3e自动进行,不过操作者可根据由二维投射显示的声学空间和其它显示信息,自己进行评估。
如果语音数据被认为具有高的稀缺值,那么数据处理系统7进入图46B的步骤(11)。
(11)第二协商部分3g与信息处理终端2协商谁是希望获取的语音数据的发送者。根据本实施例,数据处理单元3通过网络4向信息处理终端2发送预定消息,并通过网络4从系统用户接收对所述消息的响应。假如系统用户无论如何拒绝提供希望获取的语音数据,那么通过经网络4,在数据处理单元3和信息处理终端2之间交换消息,允许操作者和系统用户进行基于消息的协商(例如关于金额的协商)。
利用二维投射在声学空间中显示数据的处理和显示评估结果的处理(示于图46B中的(12)和(13)中)与按照上述第一结构的图46A中的(11)和(12)相同,从而其说明将被省略。
现在参考图48,说明信息处理终端2执行的操作和处理的流程。图48是表示由信息处理终端2执行的操作和处理的流程图。
如图48中所示,首先在步骤S900中,信息处理终端2使第一数据控制部分2b判断语音数据的获取是否已开始。如果发现所述获取已开始(Yes),那么信息处理终端2进入步骤S902。否则(No),它使第一数据控制部分2b继续所述判断处理,直到开始所述获取为止。
在步骤S902中,信息处理终端2使第一数据获取部分2a获取目标讲话者(按照本实施例,系统用户A-C中的任意一个)发出的语音(模拟数据)。随后,它进入步骤S904。
在步骤S904中,信息处理终端2使第一数据获取部分2a将获取的语音(模拟数据)转换成数字数据。随后,它进入步骤S906。
在步骤S906中,信息处理终端2使第一数据控制部分2b通过第一数据通信部分2c将数字语音数据发送给数据处理单元3。随后它进入步骤S908。
在步骤S908中,信息处理终端2使第一数据控制部分2b判断是否通过第一数据通信部分2c,从数据处理单元3收到了语音数据的评估结果。如果发现收到了所述评估结果(Yes),那么信息处理终端2进入步骤S910,否则(No),它使第一数据控制部分2b继续所述判断处理,直到收到评估结果为止。
在步骤S910中,信息处理终端2使第一信息显示部分2d在第一数据控制部分2b的控制下显示接收的评估结果。随后,它进入步骤S912。
在步骤S912中,信息处理终端2使第一数据控制部分2b判断是否存在关于接收的评估结果的协商请求。如果发现存在协商请求(Yes),那么信息处理终端2进入步骤S914。否则(No),它进入步骤S918。
在步骤S914中,信息处理终端2使第一数据控制部分2b,第一协商部分2e和第一数据通信部分2c开始协商处理,与数据处理单元3协商是否能够通过网络4提供语音数据。随后,它进入步骤S916。
在步骤S916中,信息处理终端2使第一数据控制部分2b,第一协商部分2e和第一数据通信部分2c根据来自目标讲话者的输入信息,向数据处理单元3发送关于语音数据是否可被提供的决定。随后,它进入步骤S918。
在步骤S918中,信息处理终端2使第一数据控制部分2b判断语音数据获取处理是否应被结束。如果发现所述处理应被结束(Yes), 那么信息处理终端2进入步骤S900。否则(No),它进入步骤S902。
这里,根据经由诸如鼠标或键盘(未示出)之类的输入装置,来自系统用户的输入信息,判断所述处理是否应被结束。
现在参考图49,说明由数据处理单元3执行的操作和处理的流程。图49是表示由数据处理单元3执行的操作和处理的流程图。
如图49中所示,首先在步骤S1000中,数据处理单元3使第二数据控制部分3c判断是否已通过第二数据通信部分3a从信息处理终端2获取了语音数据。如果发现已获取所述语音数据(Yes),那么数据处理单元3进入步骤S1002。否则(No),它使第二数据控制部分3c继续所述判断处理,直到获取语音数据为止。
在步骤S1002中,数据处理单元3使第二数据获取部分3b从获取的语音数据抽取特征值。随后,它进入步骤S1004。顺便提及,按照第一种结构,根据似然性计算,从多个讲话者的模式模型中选择具有最相似的声学特性的模式,并将其指定为获取的语音数据的模式模型。另一方面,按照第二种结构,根据抽取的特征值产生获取的语音的模式模型。
在步骤S1004中,数据处理单元3使位置计算部分3d计算获取的语音的模式模型与其它讲话者的模式模型之间的数学距离。随后,它进入步骤S1006。
在步骤S1006中,数据处理单元3使数据评估部分3e根据计算的数学距离,评估获取的语音数据的值。随后,它进入步骤S1008。
在步骤S1008中,数据处理单元3使第二信息显示部分3f显示评估结果。随后,它进入步骤S1010。
在步骤S1010中,数据处理单元3使第二数据控制部分3c通过第二数据通信部分3a,将评估结果发送给指定的信息处理终端2。随后,它进入步骤S1012。
在步骤S1012中,数据处理单元3使第二数据控制部分3c根据评估结果,判断是否进行关于语音数据的供给的协商。如果发现应进行所述协商(Yes),那么数据处理单元3进入步骤S1014。否则(No), 它进入步骤S1000。
在步骤S1014中,数据处理单元3使第二数据控制部分3c、第二协商部分3g和第二数据通信部分3a通过网络4与信息处理终端2进入所述协商。随后,它进入步骤S1016。
在步骤S1016中,数据处理单元3使第二数据控制部分3c判断是否从指定的信息处理终端2获取了协商结果。如果发现获取了协商结果(Yes),那么数据处理单元3进入步骤S1018。否则(No),它使第二数据控制部分3c继续所述判断处理,直到获取协商结果为止。
在步骤S1018中,数据处理单元3使第二数据控制部分3c根据协商结果,判断协商是否已成功完成。如果发现协商已成功完成(Yes),那么数据处理单元3进入步骤S1020。否则(No),它进入步骤S1022。
在步骤S1020中,数据处理单元3使第二数据控制部分将关于其的协商已成功完成的语音数据存储在数据存储部分3i中。随后,它进入步骤S1000。
另一方面,在步骤S1022中,数据处理单元3使第二数据控制部分3c丢弃关于其的协商不成功的语音数据。随后,它进入步骤S1000。
现在参见图50,说明由第二信息显示部分3f执行的通过二维投射显示坐标信息的显示处理的流程。图50是表示由第二信息显示部分3f执行的通过二维投射显示坐标信息的处理的流程图。
如图50中所示,首先在步骤S1100中,第二信息显示部分3f判断位置计算部分3d是否计算了数学距离。如果发现数学距离已被计算(Yes),那么第二信息显示部分3f进入步骤S1102。否则(No),它等到数学距离被计算为止。
在步骤S1102中,第二信息显示部分3f利用Sammon方法(一种已知方法),二维投射目标讲话者的语音的模式模型与其它讲话者的模式模型之间的数学距离。随后,它进入步骤S1104。
在步骤S1104中,第二信息显示部分3f根据数学距离(现在它是由二维投射产生的二维信息),将关于模式模型的坐标信息显示成平面上的点。随后,它结束处理。
这样,第二数据获取部分3b能够获取目标讲话者的语音数据,位置计算部分3d和数据评估部分3e能够评估语音数据的值,第二信息显示部分3f能够显示评估结构,以及将目标讲话者的语音的模式模型与其它讲话者的模式模型之间的位置关系显示成二维坐标。
另外,数据处理单元3的第二协商部分3g能够与信息处理终端2的第一协商部分2e协商是否能够提供语音数据。
另外,数据处理单元3能够将关于其已成功完成协商的语音数据存储在数据存储部分3i中。
在图44中,由第一数据获取部分2a、第一数据控制部分2b和第一数据通信部分2c执行的语音数据获取处理和传输处理对应于在母案原权利要求50或54中限定的语音数据发送装置;由第一数据控制部分2b和第一信息显示部分2d执行的显示评估结果信息的信息处理对应于在母案原权利要求50或54中限定的评估结果显示装置。
在图45中,由第二数据通信部分3a和第二数据获取部分3b执行的语音数据获取处理对应于在母案原权利要求38、43、44和53任意之一中限定的语音数据获取装置;位置计算部分3d对应于在母案原权利要求3、39、41、43、44和53任意之一中限定的位置计算装置;数据评估部分3e对应于在母案原权利要求38-42、47、48和53任意之一中限定的语音数据评估装置;第二信息显示部分3f对应于在母案原权利要求38、47、48和53任意之一中限定的评估结果显示装置,和在母案原权利要求38、45和53任意之一中限定的位置关系信息显示装置;第二协商部分3g对应于在母案原权利要求49中限定的协商装置;数据存储部分3i对应于在母案原权利要求49中限定的语音数据存储装置。
(第五实施例)
下面参考附图说明本发明的第五实施例。图51-59是表示根据本发明的第五实施例的数据处理系统的图。
首先,参考图51说明根据本发明的数据处理系统的结构。图51表示根据本发明的数据处理系统的结构的方框图。
如图51中所示,数据处理系统8包括信息处理终端9A-9C、数据处理单元10和网络11。
信息处理终端9A-9C受系统用户A-C控制。它们具有获取相应系统用户的语音数据,和通过网络11将语音数据发送给数据处理单元10的功能,和显示从数据处理单元10获取的信息的功能。根据本实施例,硬件和软件被安装在信息处理单元,比如PC和WS上,以实现上述功能。详细的结构将在后面描述。
数据处理单元10包含评估通过网络11,从信息处理终端9A-9C获取的语音数据与其它讲话者的语音数据之间的相似性的功能,和显示获取的语音数据在由多个讲话者的模式模型构成的声学空间中的位置信息以及评估结果的功能。详细的结构将在后面描述。
网络11是连接多个信息处理设备,以便准备好相互进行数据通信的LAN或WAN。本实施例使用因特网,这是一种WAN。
现在参考图52,说明信息处理终端9A-9C的详细结构。图52是表示信息处理终端9的详细结构的图。根据本实施例,信息处理终端9A-9C具有相同的结构,它们将被统称为信息处理终端9。下面,信息处理终端9A-9C所共有的项目将涉及到统称的信息处理终端9。另外,如图51中所示,信息处理终端并不局限于这三个信息处理终端2A-2C,可连接受其它系统用户控制的其它信息处理终端。
如图52中所示,信息处理终端9包含第一数据获取部分9a、第一数据控制部分9b、第一数据通信部分9c、第一信息显示部分9d和操作部分9e。
第一数据获取部分9a包括获取目标讲话者发出的语音(模拟数据)的装置,比如麦克风,和将模拟数据(语音)转换成数字数据的装置,比如A/D转换器。
第一数据控制部分9b包括控制各个组件的处理的功能,包括控制通过第一数据通信部分9c,将第一数据获取部分9a获取的语音数据发送给数据处理单元10的处理的功能,和控制在第一信息显示部分9d中显示从数据处理单元10获取的信息的处理的功能。
第一数据通信部分9c具有在第一数据控制部分9b的控制下,通过网络11与数据处理单元10进行各种数据通信的功能。
第一信息显示部分9d具有在第一数据控制部分9b的控制下,显示信息,包括从数据处理单元10获取的各种信息的功能。
操作部分9e允许系统用户输入指定特定讲话者的信息,或者完成对语音数据处理控制程序的设置。
现在参考图53,说明数据处理单元10的详细结构。图53是表示数据处理单元10的详细结构的方框图。
如图53中所示,数据处理单元10包括第二数据通信部分10a、第二数据获取部分10b、第二数据控制部分10c、位置计算部分10d、相似讲话者检测部分10e、相似性评估部分10f、第二信息显示部分10g、校正信息产生部分10h和数据存储部分10i。
第二数据通信部分10a具有在第二数据控制部分10c的控制下,通过网络11,与信息处理终端9进行各种数据通信的功能。
第二数据获取部分10b具有通过第二数据通信部分10a从信息处理终端9获取语音数据的功能,还具有分析获取的语音数据并抽取为语音数据的特有部分的特征数据的装置。它还具有通过根据抽取的特征数据构成HMM,产生目标讲话者的模式模型的装置。顺便提及,根据本实施例,特征数据和目标讲话者的模式模型都被称为语音数据。
第二数据控制部分1oc具有控制数据处理单元10的各个组件之间的数据交换,以及控制处理的流程的功能。
位置计算部分10d具有计算获取的语音数据和多个讲话者的模式模型之间的位置关系的功能。
具体地说,如果特征数据是语音数据,那么计算语音数据和存储在数据存储部分10i(后面说明)中的多个讲话者的模式模型之间的匹配似然性,根据计算结果从多个讲话者的模式模型中选择具有最高似然性的模式模型,该模式模型被看作与目标讲话者的语音数据等同。根据本实施例,多个讲话者的模式模型由HMM组成,根据从它们中选择的特定模式模型(或者可能根据对应于目标讲话者的语音数据的 模式模型),确定它们的相对位置。随后,由具有关于它们的相对位置的信息的模式模型形成声学空间。
从而,在这种情况下,关于所选模式模型的相对位置的信息被用作关于目标讲话者的语音数据的位置信息。
另一方面,如果通过根据特征数据构成HMM而产生的模式模型是语音数据,那么计算语音数据和特定模式模型间的相对位置,计算结果被用作关于该语音数据的位置信息。
如果特征数据是语音数据,那么相似讲话者检测部分10e计算选择的模式模型与多个讲话者的其它模式模型间的数学距离,比较计算的距离与数学距离的预定阈值Th,根据比较结果检测在目标讲话者的语音数据的阈值Th距离内的语音数据,并将其语音数据在阈值Th距离内的讲话者指定为相似讲话者。
例如,在其模式模型存在于阈值Th内的讲话者中,其语音数据最接近于目标讲话者的语音数据的讲话者可被指定为相似讲话者,或者按照与目标讲话者的语音数据的接近度排列的前几个讲话者可被指定为相似讲话者。另一方面,如果在阈值Th内不存在任何模式模型,那么可在改变阈值之后再次进行比较,或者可确定没有相似讲话者。根据本实施例,由上面的等式(8)给出的欧几里德距离或由上面的等式(9)给出的Bhattacharrya距离被用作数学距离。
这里,可逐个音位地计算数学距离,同样可逐个音位地评估语音数据的值。本实施例允许系统用户自由地启用和禁用这样的设置。
相似性评估部分10f计算通过操作部分3h指定的特定讲话者的模式模型与目标讲话者的语音数据间的数学距离,根据计算的距离,评估特定讲话者和目标讲话者在语音上的相似性。
当建立声学空间时,根据以各种说话风格,例如高声地、低声地、快速地和慢速地产生的语音数据构成模式模型。
从而,相对于以多种说话风格产生的模式模型,进行相似性评估。
第二信息显示部分10g具有显示信息,比如相似讲话者检测部分10e产生的检测结果和相似性评估部分10f产生的评估结果的功能。这 里,显示的信息包括通过评估结果的量化而获取的信息,通过根据计算的模式模型间的数学距离,利用Sammon方法二维地投射基于HMM的模式模型间的距离关系而获取的信息,以及其它信息。
校正信息产生部分10h根据相似性评估部分10f产生的评估结果,产生校正信息,所述校正信息指示将对目标讲话者的语音进行的校正,以便提高目标讲话者和特定讲话者之间语音上的相似性。产生的校正信息由第一数据控制部分9b和第二数据通信部分10a发送给适当的信息处理终端9。这里校正信息基于预先从目标讲话者的话语获取的特征数据,以及基于评估结果而产生,并且包含指示当形成单词时嘴的形状,重音的位置等的信息,以便提高目标讲话者与特定讲话者之间语音上的相似性。
数据存储部分10i存储多个讲话者的模式模型和其它必要的数据。
根据本实施例,尽管未示出,但是数据处理单元10配有处理器、RAM(随机存取存储器)和存储专用程序的ROM(只读存储器)。当处理器执行专用程序时,上述组件被控制。
现在参考图54-56说明数据处理系统8的更具体操作。图54A和54B是表示由数据处理系统8执行的初始数据库构成处理和数据评估处理的流程的图。图55是表示其中声学空间被二维投射的一个实例的图,其中图55A表示当逐字(或者逐句)处理HMM时的HMM的坐标点,图55B表示当逐个音位(图中“a”、“i”、“u”、“e”和“o”)地处理HMM时的HMM的坐标点。图56是表示二维投射的一个实例的图,轴代表说话风格。
参见图54A和55,下面说明在特征数据由语音数据构成的情况下,初始数据库构成处理,相似讲话者检测处理和相似性评估处理的第一结构。
首先,说明评估处理所需的初始数据库构成处理的流程--示于图54A中的(1)-(4)中。如果初始数据库已存在,那么步骤(1)-(4)不是必需的。
(1)第二数据获取部分10b获取N个(N为整数)注册讲话者 的语音。如上所述,第二数据获取部分10b获取按照各种说话风格,比如高声地、低声地、快速地和慢速地产生的语音数据。
(2)第二数据获取部分10b分析获取的语音并抽取特征值。
(3)第二数据获取部分10b根据抽取的特征值产生特定讲话者和非特定讲话者的HMM,并利用预定的学习技术进行学习,以产生每个特定讲话者的一个模式模型和非特定讲话者的一个模式模型。
(4)第二数据获取部分10b将N个特定讲话者的多个模式模型(HMM)和非特定讲话者的一个模式模型(HMM)存储在数据存储部分10i中。
下面,说明在图54A的(5)-(10)中表示的相似讲话者检测处理和相似性评估处理的流程。
(5)第二数据获取部分10b从信息处理终端9获取系统用户的语音数据。
(6)第二数据获取部分10b分析获取的语音数据,并抽取特征值。
(7)位置计算部分10d计算抽取的特征数据和多个特定讲话者的模式模型间的匹配似然性。这里假定说话的内容已知(在说话时被输入)。
(8)位置计算部分10d根据计算的似然性,选择具有最高似然性的模式模型,并计算该模式模型与其它特定讲话者的模式模型间的数学距离。前M个模式模型可被使用(M是小于N的整数)。这种情况下,为选择的M个模式模型中的每一个计算到其它特定讲话者的模式模型的数学距离。根据本实施例,当计算了数学距离时,可根据计算的数学距离,通过后面说明的步骤(11)和(12),利用二维投射显示坐标数据(如图55中所示),以致操作者能够直观地了解语音数据的位置关系。
(9)相似讲话者检测部分10e根据计算的数学距离,检测相似的讲话者。具体地说,它检测在目标讲话者的模式模型的阈值Th距离内的模式模型。例如,如果目标讲话者的模式模型由图55A中的坐标点50(由“×”表示)代表,那么从存在于以目标讲话者的模式模型为 中心,半径为Th的圆内的模式模型中检测相似讲话者。这种情况下,按照到图55A中的坐标点50的接近度的顺序,选择三个模式模型50a-50c。
与这样选择的模式模型对应的讲话者被检测为语音与目标讲话者类似的相似讲话者。检测结果由第二数据控制部分2c和第二信息显示部分10g显示。
通过第二数据通信部分10a,关于检测结果的信息被发送给例如信息处理终端9A,如果目标讲话者是系统用户A的话。
根据本实施例,关于检测结果的信息包括关于相似讲话者的信息,比如对应于所选模式模型的讲话者的姓名,和关于二维投射的目标讲话者的模式模型与相似讲话者的模式模型间的位置关系的信息。
使用前M个模式模型来计算数学距离考虑了选择的模式模型中的错误(例如,选择的模式模型的特性与目标讲话者的语音的模式模型的特性大不相同的情况)。这种情况下,其模式模型存在于阈值Th距离内的其它讲话者被选择并被指定为相似讲话者。
顺便提及,尽管根据本实施例,所述评估由相似讲话者检测部分10e自动进行,不过操作者可根据由二维投射显示的声学空间和其它显示信息,自己进行所述评估。
另外,由于可对与如上所述的多种说话风格中的每一种对应的模式模型单独进行检测处理,因此能够按照每个说话风格检测相似讲话者,使得能够检测在说话风格A方面,而不是在说话风格B方面类似目标讲话者的讲话者。从而,能够将在最多数的语音方面类似目标讲话者的讲话者指定为相似讲话者,或者将在每种说话风格方面单独类似目标讲话者的讲话者指定为相似讲话者。
一旦相似讲话者被检测,并且关于它们的数据被发送给信息处理终端9,信息处理终端9显示获取的信息。具体地说,信息处理终端9显示关于相似讲话者的信息和关于二维投射的目标讲话者的模式模型与相似讲话者的模式模型间的位置关系的信息。当查看显示的信息时,系统用户通过操纵操作部分9e,指定他/她想要模仿其语音的特定讲话 者。指定的信息被发送给数据处理单元10,数据处理系统8进入图54A中的步骤(10)。
(10)相似性评估部分10f评估系统用户(目标讲话者)指定的特定讲话者的模式模型与目标讲话者的模式模型间的相似性。
例如,如果特定讲话者的模式模型与目标讲话者的模式模型间的数学距离较短,那么认为相似性较高,如果该数学距离较长,那么认为相似性较低。
根据本实施例,当两个模式模型的坐标一致时,它们的相似率被认为是100%(完全相似),如果特定讲话者的模式模型离目标讲话者的模式模型的坐标点52的距离为S或者更远,那么相似率被认为是0%(完全不似)。目标讲话者的坐标点52与特定讲话者的坐标点52a之间的距离被显示成关于相似率(%)的评估结果,如图55A中所示。
这里,在评估特定讲话者的模式模型的相似性时,多个说话风格中的每一种被独立处理。
通过第二数据通信部分10a,评估结果信息被发送给例如信息处理终端9B,如果目标讲话者是系统用户B的话。
根据本实施例,评估结果信息各种说话风格下特定讲话者的模式模型的评估结果,关于二维投射的特定讲话者的模式模型与目标讲话者的模式模型间的位置关系的信息,和校正信息(后面描述)。
(11)校正信息产生部分10h根据由相似性评估部分10f产生的评估结果,产生目标讲话者的语音的校正信息,以便提高目标讲话者与特定讲话者之间语音上的相似性。
当产生校正信息时,可重新获取目标讲话者的语音数据,或者使用在步骤(5)和(6)中获取的语音数据。
通过被包含在评估结果信息中,产生的校正信息被发送给恰当的信息处理终端9。
当收到校正信息时,信息处理终端9通过第一信息显示部分9d显示它。从而,通过查看显示的校正信息,目标讲话者能够进行训练,以提高他/她自己的语音与特定讲话者的语音的相似性。
(12)第二信息显示部分10g根据计算的数学距离(相对距离),利用Sammon方法(一种已知方法),二维投射所有模式模型(HMM)的距离关系。
(13)第二信息显示部分10g将关于HMM的二维投射的坐标信息显示成平面上的点,如图55A和55B中所示。即,每个点代表每个讲话者的模式模型,两点间的距离代表它们的相似性(距离越短,相似性相大)。
图55B表示当逐个音位(图中的“a”、“i”、“u”、“e”和“o”)地处理HMM时的HMM坐标点。这使得能够逐个音位地直观进行相似讲话者的检测和相似性的评估。
通过将关于说话风格的信息加入到相应说话风格的模式模型中,利用说话风格的元素(这种情况下,语速和声高)作为轴,能够形成二维的声学空间,如图56中所示。由于通过利用说话风格的元素作为轴,信息处理终端9实时地进行二维投射,因此目标讲话者能够直观地了解他/她自己的语音数据的位置的变化,从而易于学习模仿希望的特定讲话者的语音所需的说话方式。但是,与其中信息处理终端9通过因特网9与数据处理单元10连接的结构相比,其中目标讲话者直接将他/她的语音输入数据处理单元10的结构更适合于实时显示。
现在参考图54B和55,说明在根据特征数据产生的模式模型由语音数据构成的情况下,初始数据库构成处理和核实性能检测处理的第二结构。
首先,讲话者核实所需的示于图54B中的(1)-(4)中的初始数据库构成处理和图54A的(1)-(4)中的第一结构相同,从而其说明将被省略。
下面,说明在图54B中的(5)-(11)中所示的相似讲话者检测处理和相似性评估处理的流程。
(5)第二数据获取部分10b从信息处理终端9获取系统用户的语音数据。
(6)第二数据获取部分10b分析获取的语音数据并抽取特征值。
(7)第二数据获取部分10b根据抽取的特征数据构成HMM,并利用预定的学习技术进行学习。
(8)第二数据获取部分10b通过HMM学习产生目标讲话者的模式模型,并将其存储在数据存储部分10i中。
(9)位置计算部分10d计算产生的目标讲话者的模式模型与其它特定讲话者的模式模型之间的数学距离。根据本实施例,当数学距离被计算时,根据计算的数学距离,通过后面说明的步骤(13)和(14),可利用二维投射显示坐标数据(如图55中所示),从而操作者能够直观地了解语音数据的位置关系。
(10)相似讲话者检测部分10e根据计算的数学距离,检测相似讲话者。具体地说,它检测在目标讲话者的模式模型的阈值Th距离内的模式模型。例如,如果目标讲话者的模式模型由图55A中的坐标点50(由“×”表示)代表,那么从存在于以目标讲话者的模式模型为中心,半径为Th的圆内的模式模型中检测相似讲话者。这种情况下,按照到图55A中的坐标点50的接近度的顺序,选择三个模式模型50a-50c。
与这样选择的模式模型对应的讲话者被检测为语音与目标讲话者类似的相似讲话者。检测结果由第二数据控制部分2c和第二信息显示部分10g显示。
通过第二数据通信部分10a,关于检测结果的信息被发送给例如信息处理终端9A,如果目标讲话者是系统用户A的话。
根据本实施例,关于检测结果的信息包括关于相似讲话者的信息,比如对应于所选模式模型的讲话者的姓名,和关于二维投射的目标讲话者的模式模型与相似讲话者的模式模型间的位置关系的信息。
使用前M个模式模型来计算数学距离考虑了选择的模式模型中的错误(例如,选择的模式模型的特性与目标讲话者的语音的模式模型的特性大不相同的情况)。这种情况下,在其模式模型存在于阈值Th距离内的其它讲话者中检测相似讲话者。
顺便提及,尽管根据本实施例,所述评估由相似讲话者检测部分 10e自动进行,不过操作者可根据由二维投射显示的声学空间和其它显示信息,自己进行所述评估。
另外,由于可对与如上所述的多种说话风格中的每一种对应的模式模型单独进行检测处理,因此能够按照每个说话风格检测相似讲话者,使得能够检测在说话风格A方面,而不是在说话风格B方面类似目标讲话者的讲话者。从而,能够将在最多数的语音方面类似目标讲话者的讲话者指定为相似讲话者,或者将在每种说话风格方面单独类似目标讲话者的讲话者指定为相似讲话者。
一旦相似讲话者被检测,并且关于它们的数据被发送给信息处理终端9,信息处理终端9显示获取的信息。具体地说,信息处理终端9显示关于相似讲话者的信息和关于二维投射的目标讲话者的模式模型与相似讲话者的模式模型间的位置关系的信息。当查看显示的信息时,系统用户通过操纵操作部分9e,指定他/她想要模仿其语音的特定讲话者。指定的信息被发送给数据处理单元10,数据处理系统8进入图54B中的步骤(11)。
(11)相似性评估部分10f评估系统用户(目标讲话者)指定的特定讲话者的模式模型与目标讲话者的模式模型间的相似性。
例如,如果特定讲话者的模式模型与目标讲话者的模式模型间的数学距离较短,那么认为相似性较高,如果该数学距离较长,那么认为相似性较低。
根据本实施例,当两个模式模型的坐标一致时,它们的相似率被认为是100%(完全相似),如果特定讲话者的模式模型离目标讲话者的模式模型的坐标点52的距离为S或者更远,那么相似率被认为是0%(完全不似)。目标讲话者的坐标点52与特定讲话者的坐标点52a之间的距离被显示成关于相似率(%)的评估结果,如图55A中所示。
这里,在评估特定讲话者的模式模型的相似性时,多个说话风格中的每一种被独立处理。
通过第二数据通信部分10a,评估结果信息被发送给例如信息处理终端9B,如果目标讲话者是系统用户B的话。
根据本实施例,评估结果信息各种说话风格下特定讲话者的模式模型的评估结果,关于二维投射的特定讲话者的模式模型与目标讲话者的模式模型间的位置关系的信息,和校正信息(后面描述)。
(12)校正信息产生部分10h根据由相似性评估部分10f产生的评估结果,产生目标讲话者的语音的校正信息,以便提高目标讲话者与特定讲话者之间语音上的相似性。
当产生校正信息时,可重新获取目标讲话者的语音数据,并将该语音数据用于对应于该语音数据的模式模型,或者使用在步骤(5)和(6)中获取的语音数据。
通过被包含在评估结果信息中,产生的校正信息被发送给恰当的信息处理终端9。
当收到校正信息时,信息处理终端9通过第一信息显示部分9d显示它。从而,通过查看并遵循显示的校正信息,目标讲话者能够进行训练,以提高他/她自己的语音与特定讲话者的语音的相似性。
利用二维投射在声学空间中显示数据的处理和显示评估结果的处理(示于图54B中的(13)和(14)中)与根据上述第一结构的图54A中的(12)和(13)相同,从而其说明将被省略。
现在参考图57,说明由信息处理终端9执行的操作和处理。图57是表示由信息处理终端9执行的操作和处理的流程图。
如图57中所示,首先在步骤S1200中,信息处理终端9使第一数据控制部分9b判断语音数据的获取是否已开始。如果发现所述获取已开始(Yes),那么信息处理终端9进入步骤S1202。否则(No),它使第一数据控制部分9b继续所述判断处理,直到开始所述获取为止。
在步骤S1202中,信息处理终端9使第一数据获取部分9a获取目标讲话者(按照本实施例,系统用户A-C中的任意一个)发出的语音(模拟数据)。随后,它进入步骤S1204。
在步骤S1204中,信息处理终端9使第一数据获取部分9a将获取的语音(模拟数据)转换成数字数据。随后,它进入步骤S1206。
在步骤S1206中,信息处理终端9使第一数据控制部分9b通过 第一数据通信部分9c将数字语音数据发送给数据处理单元10。随后它进入步骤S1208。
在步骤S1208中,信息处理终端9使第一数据控制部分9b判断是否通过第一数据通信部分9c,从数据处理单元10收到了相对于该语音数据的相似讲话者的检测结果信息。如果发现收到了所述检测结果信息(Yes),那么信息处理终端9进入步骤S1210,否则(No),它使第一数据控制部分b继续所述判断处理,直到收到检测结果信息为止。
在步骤S1210中,信息处理终端9使第一信息显示部分2d在第一数据控制部分9b的控制下显示接收的检测结果信息。随后,它进入步骤S1212。
在步骤S1212中,信息处理终端9使第一数据控制部分9b判断是否通过操作部分9e选择了特定的讲话者。如果发现选择了特定的讲话者(Yes),那么信息处理终端9进入步骤S1214。否则(No),它等到选择了特定讲话者为止。
在步骤S1214中,信息处理终端9使第一数据控制部分9b通过第一数据通信部分9c,将关于选择的讲话者的信息发送给数据处理单元10。随后,它进入步骤S1216。
在步骤S1216中,信息处理终端9使第一数据控制部分9b判断是否通过第一数据通信部分9c,从数据处理单元10收到了语音数据以及关于选择的讲话者的评估结果信息。如果发现已收到它们(Yes),那么信息处理终端9进入步骤S1218。否则(No),它等到收到它们为止。
在步骤S1216中,信息处理终端9使第一信息显示部分9d在第一数据控制部分9b的控制下,显示接收的评估结果信息。随后,它进入步骤S1200。
现在参考图58,说明由数据处理单元10执行的操作和处理。图58是表示由数据处理单元10执行的操作和处理的流程图。
如图58中所示,首先在步骤S1300中,数据处理单元10使第二 数据控制部分10c判断是否已通过第二数据通信部分10a从信息处理终端9获取了语音数据。如果发现已获取所述语音数据(Yes),那么数据处理单元10进入步骤S1302。否则(No),它使第二数据控制部分10c继续所述判断处理,直到获取语音数据为止。
在步骤S1302中,数据处理单元10使第二数据获取部分10b从获取的语音数据抽取特征值。随后,它进入步骤S1304。顺便提及,按照第一种结构,根据似然性计算,从多个讲话者的模式模型中选择具有最相似的声学特性的模式,并将其指定为获取的语音的模式模型。另一方面,按照第二种结构,根据抽取的特征值产生获取的语音的模式模型。
在步骤S1304中,数据处理单元10使位置计算部分10d计算获取的语音的模式模型与其它讲话者的模式模型之间的数学距离。随后,它进入步骤S1306。
在步骤S1306中,数据处理单元10使相似讲话者检测部分10e根据计算的数学距离,检测相对于获取的语音数据的相似讲话者。随后,它进入步骤S1308。
在步骤S1308中,数据处理单元10使第二信息显示部分10g显示检测结果信息,即关于检测结果的信息。随后,它进入步骤S1310。
在步骤S1310中,数据处理单元10使第二数据控制部分10c通过第二数据通信部分10a,将检测结果信息发送给恰当的信息处理终端9。随后,它进入步骤S1312。
在步骤S1312中,数据处理单元10使第二数据控制部分10c判断是否通过第二数据通信部分10a,从信息处理终端9获取了关于选择的讲话者的信息。如果发现获取了所述信息(Yes),那么数据处理单元10进入步骤S1314。否则(No),它使第二数据控制部分10c继续所述判断处理,直到获取所述信息为止。
在步骤S1314中,数据处理单元10使相似性评估部分10f评估目标讲话者的模式模型与选择的讲话者的模式模型之间的相似性。随后,它进入步骤S1316。在相似性评估之后,校正信息产生部分10h根据 评估结果,产生校正信息,用于提高目标讲话者和特定讲话者间语音上的相似性。
在步骤S1316中,数据处理单元10使第二信息显示部分10g显示评估结果信息,即关于评估结果的信息。随后,它进入步骤S1318。
在步骤S1318中,数据处理单元10使第二数据控制部分10c通过第二数据通信部分10a,将评估结果信息发送给适当的信息处理终端9。随后,它进入步骤S1300。
现在参见图59,说明由信息显示部分10g执行的通过二维投射显示坐标信息的显示处理的流程。图59是表示由信息显示部分10g执行的通过二维投射显示坐标信息的处理的流程图。
如图59中所示,首先在步骤S1400中,第二信息显示部分10g判断位置计算部分10d是否计算了数学距离。如果发现数学距离已被计算(Yes),那么第二信息显示部分10g进入步骤S1402。否则(No),它等到数学距离被计算为止。
在步骤S1402中,第二信息显示部分10g利用Sammon方法(一种已知方法),二维投射目标讲话者的语音的模式模型与其它讲话者的模式模型之间的数学距离。随后,它进入步骤S1404。
在步骤S1404中,第二信息显示部分10g根据数学距离(现在它是由二维投射产生的二维信息),将关于模式模型的坐标信息显示成平面上的点。随后,它结束处理。
这样,在数据处理单元10中,第二数据获取部分10b能够获取目标讲话者的语音数据,位置计算部分10d和数据评估部分3e能够检测语音上和语音数据类似的讲话者,第二信息显示部分10g能够显示关于检测结果的检测结果信息,以及将目标讲话者的语音的模式模型与相似讲话者或其它讲话者的模式模型之间的位置关系显示成二维坐标。
另外,信息处理终端9能够从数据处理单元10获取检测结果信息,使第一信息显示部分9d显示检测结果信息,允许目标讲话者利用操作部分9e,根据显示的检测结果信息,选择和指定特定的讲话者。
另外,数据处理单元10能够获取关于指定的特定讲话者的信息,使相似性评估部分10f评估目标讲话者的模式模型与所选讲话者的模式模型之间在语音上的相似性,并使第二信息显示部分10g显示关于评估结果的信息。
另外,信息处理终端9能够从数据处理单元10获取评估结果信息,并使第一信息显示部分9d显示评估结果信息。
在图52中,第一数据获取部分9a、第一数据控制部分9b和第一数据通信部分9c执行的语音数据获取处理和传输处理对应于在母案原权利要求70中限定的语音数据发送装置;第一数据控制部分9b和第一信息显示部分9d执行的显示检测结果信息和评估结果信息的显示处理对应于在母案原权利要求70中限定的信息显示装置;经由操作部分9e选择特定讲话者的处理对应于在母案原权利要求59中限定的特定讲话者指定装置。
在图53中,第二数据通信部分10a和第二数据获取部分10b执行的语音数据获取处理对应于在母案原权利要求57、63和64任意之一中限定的语音数据获取装置;位置计算部分10d对应于在母案原权利要求57、63和64任意之一中限定的位置计算装置;相似讲话者检测部分10e对应于在母案原权利要求57、61和62任意之一中限定的相似讲话者检测装置;相似性评估装置10f对应于在母案原权利要求58、60、61、62、66和67任意之一中限定的相似性评估装置;第二信息显示部分10g对应于在母案原权利要求57中限定的检测结果显示装置,在母案原权利要求58中限定的评估结果显示装置,和在母案原权利要求57、58、60和65任意之一中限定的位置关系信息显示装置;校正信息产生部分10h对应于在母案原权利要求60中限定的校正信息产生装置。
顺便提及,尽管在上面的实施例中,信息处理终端9通过因特网与数据处理单元10连接,不过这不是限制性的。目标讲话者的语音可被直接输入数据处理单元10。这将使得易于适应要求高响应速度的处理,比如实时地显示输入的目标讲话者的语音与特定讲话者的语音之 间的相似性的评估结果的处理。
工业应用性
如上所述,在母案原权利要求1-7任意之一中限定的数据处理单元将对应于模式模型的多个低维向量显示成与对应于模式模型的低维向量相同维数的低维空间中的坐标点,同时根据低维元素的值,保持距离关系。这使得易于直观地掌握模式模型间的距离关系(相似性)。另外,由于4维或更高维的模式模型可被转换成3维或更低维的模式模型,因此能够更容易地进行群集和各种其它处理。
母案原权利要求8或9中限定的数据处理单元自动将由对应于模式模型的低维向量显示装置在低维空间中显示的对应于模式模型的多个低维向量的坐标点分成低维空间中的多个区域。从而,能够容易地划分对应于模式模型的多个低维向量的坐标点,使得易于直观地了解特定的模式模型属于哪个区域。
母案原权利要求10中限定的数据处理单元能够改变区域划分装置自动产生的划分结果。从而,如果划分结果不适当,或者增加了新的模式模型,那么可适当地改变划分结果。
母案原权利要求11中限定的数据处理单元根据和低维向量对应的关于对象的预定数据,产生特定的模式模型,所述低维向量对应于为每个分段区域选择的模式模型。从而,通过利用对应于低维向量的关于对象的预定数据来产生模式模型,能够为指定对象产生恰当的模式模型,所述低维向量对应于包含关于特定对象的模式模型的分段区域中的模式模型。另外,由于利用特定分段区域上的预定数据产生模式模型,因此能够降低维式模型的存储器需求。
母案原权利要求12中限定的数据处理单元控制程序用于控制按照母案原权利要求1所述的数据处理单元,从而其效果的描述将被省略,以避免不必要的重复。
母案原权利要求13中限定的数据处理单元控制程序用于控制按照母案原权利要求11所述的数据处理单元,从而其效果的描述将被省略,以避免不必要的重复。
母案原权利要求14中限定的模式模型搜索单元能够根据各个分段区域的区域模式模型相对于关于新对象的预定数据的似然性,搜索具有适合于识别关于新对象的预定数据的识别性能的区域模式模型。
母案原权利要求15中限定的模式模型搜索单元控制程序用于控制按照母案原权利要求14所述的模式模型搜索单元,从而其效果的描述将被省略,以避免不必要的重复。
母案原权利要求16中限定的数据处理单元使得易于直观地掌握模式模型间的距离关系(相似性)。另外,由于4维或更高维的模式模型可被转换成3维或更低维的模式模型,因此能够更容易地进行群集和各种其它处理。此外,由于预定数据的出现频率被用于计算数学距离,因此如果利用出现频率对数学距离加权,那么通过考虑到所有预定数据,能够定义模式模型间的距离,从而更准确地计算模式模型间的距离关系。
除了母案原权利要求16的效果之外,在母案原权利要求17中限定的数据处理单元提供下述效果:由于在数学距离的计算中,使用其识别性能低于预定阈值的模式单元的出现频率,因此可在低维层次以准确的距离关系,显示具有低识别性能的对象的模式模型。这使得易于群集具有低识别性能的对象的模式模型。
母案原权利要求18中限定的数据处理单元使得易于直观地掌握模式模型之间的距离关系(相似性)。另外,由于能够容易地划分对应于模式模型的多个低维向量的坐标点,因此易于直观地了解特定的模式模型属于哪个区域。此外,能够根据各个分段区域的区域模式模型相对于关于新对象的预定数据的似然性,搜索具有适合于识别关于新对象的预定数据的识别性能的区域模式模型。
除了母案原权利要求18的效果之外,在母案原权利要求19中限定的数据处理单元提供下述效果:由于语音数据的出现频率被用于计算数学距离,因此如果利用出现频率对数学距离加权,那么通过考虑到模式模型上的所有预定数据,能够定义模式模型间的距离,从而更准确地计算模式模型间的距离关系。
除了母案原权利要求19的效果之外,在母案原权利要求20中限定的数据处理单元提供下述效果:由于在数学距离的计算中,使用其识别性能低于预定阈值的模式单元的出现频率,因此可在低维层次以准确的距离关系,显示具有低识别性能的对象的模式模型。这使得易于群集具有低识别性能的对象的模式模型。
除了母案原权利要求18-20任意之一的效果之外,在母案原权利要求21中限定的数据处理单元提供下述效果:由同心外圆和内圆形成的环状区域可被分成多个扇形区域。
除了母案原权利要求21的效果之外,在母案原权利要求22中限定的数据处理单元提供下述效果:当模式模型二维可视时,由于随着离中心的径向距离的增大,模式模型的识别性能(与其它模型的相似性)会降低,因此通过细微地划分包含具有低识别性能的模式模型的区域,能够更准确地对数据分组。
除了母案原权利要求21或22的效果之外,在母案原权利要求23中限定的数据处理单元提供下述效果:能够容易地处理当产生指定对象的模式模型时,关于指定对象的预定数据位于分段区域间的边界上的情况。
除了母案原权利要求21-23任意之一的效果之外,在母案原权利要求24中限定的数据处理单元提供下述效果:由于通过从最内侧圆开始,并移向最外侧圆,计算关于新对象的预定数据的区域模式模型的似然性,因此能够快速搜索适合于关于新对象的预定数据的分段区域的区域模式模型。
除了母案原权利要求24的效果之外,在母案原权利要求25中限定的数据处理单元提供下述效果:由于通过从最内侧圆开始,并移向最外侧圆,搜索包含具有最高似然性(识别性能)的区域模式模型的分段区域,因此能够快速搜索适合于关于新对象的预定数据的分段区域的区域模式模型。
除了母案原权利要求24的效果之外,在母案原权利要求26中限定的数据处理单元提供下述效果:由于通过从最内侧圆开始,并移向最外侧圆,搜索包含具有前m个似然性的区域模式模型的分段区域, 因此能够快速搜索适合于关于新对象的预定数据的分段区域的区域模式模型。
除了母案原权利要求18-26任意之一的效果之外,在母案原权利要求27中限定的数据处理单元提供下述效果:能够至少考虑到讲话者的类型,包括讲话者的姓名、性别(男/女)、年龄(儿童/成人/老人);口语语汇,比如数字、句子和单词;说话风格,比如语速、讲话的音量、和方言特征;和说话环境,比如室内、车内、厂内或者室外环境(位置分类),产生语音数据的模式模型。
除了母案原权利要求18-27任意之一的效果之外,在母案原权利要求28中限定的数据处理单元提供下述效果:例如,如果预定数据是人话音数据,那么可按照特定条件的所需组合,比如成年男性(讲话者的类型)在室内(说话环境)快速(说话风格)说出的单词(口语语汇),形成一组预定数据。当然,数据可按照更宽的条件,比如成年男性(讲话者的类型)在室内(说话环境)说话来分组。
在母案原权利要求30中限定的数据处理单元使得能够计算模式模型之间更适当的数学距离。
除了母案原权利要求18-30任意之一的效果之外,在母案原权利要求31中限定的数据处理单元提供下述效果:能够将模式模型转换成对应于模式模型的相同数量的低维向量,同时保持模式模型间的距离关系。
除了母案原权利要求18-31任意之一的效果之外,在母案原权利要求32中限定的数据处理单元提供下述效果:如果划分结果不适当,或者增加了新的模式模型,那么可适当地改变划分结果。另外,由于模式模型的直观划分结果被改变,因此能够容易地改变划分的结果。
除了母案原权利要求18-32任意之一的效果之外,在母案原权利要求33中限定的数据处理单元提供下述效果:由于可使特定分段区域中的区域模式模型适合于所述新对象,因此能够降低维式模型的存储器需求。
除了母案原权利要求33的效果之外,在母案原权利要求34中限定的数据处理单元提供下述效果:由于对应于多个低维向量的高维模式模型被再次转换成对应于模式模型的低维向量,所述多个低维向量 与包含在对应于模式模型搜索装置找到的区域模式模型的区域中的模式模型对应,随后通过关于适合于新对象的区域模式模型搜索分段区域,转换后的对应于模式模型的低维向量被划分,因此能够产生更适合于关于新对象的预定数据的模式识别的特定模式模型。
在母案原权利要求35中限定的数据处理单元控制程序用于控制按照母案原权利要求16所述的数据处理单元,从而其效果将被省略,以避免不必要的重复。
在母案原权利要求36中限定的数据处理单元控制程序用于控制按照母案原权利要求18所述的数据处理单元,从而其效果将被省略,以避免不必要的重复。
在母案原权利要求37中限定的特定模式模型提供系统允许系统用户通过因特网等,使诸如PC、蜂窝电话机或PDA之类的信息处理终端与数据处理单元连接,将他/她的语音数据发送给数据处理单元,从而容易地获取适合于他/她的语音数据的语音识别的特定模式模型。
在母案原权利要求38中限定的数据处理单元根据声学空间中,目标讲话者的语音数据与其它模式模型之间的位置关系,评估目标讲话者的语音数据的值,显示评估结果以及显示语音数据和其它模式模型之间的位置关系。这使得能够直观地确定目标讲话者产生的语音数据是否具有较高的值,并且使得易于直观地了解目标讲话者的语音数据在声学空间中的位置。
除了母案原权利要求38的效果之外,在母案原权利要求39中限定的数据处理单元提供下述效果:由于根据存在于离讲话者的语音数据在声学空间中的位置预定距离内的模式模型的数量,评估语音数据的值,因此如果在目标讲话者的语音数据周围,不存在其它讲话者的许多模式模型,那么能够确定语音数据的值较高,如果在该语音数据的周围,存在许多模式模型,那么能够确定该语音数据的值较低。
除了母案原权利要求38或39的效果之外,在母案原权利要求40中限定的数据处理单元提供下述效果:由于预定距离被按照语音数据的值步进设置,因此能够根据存在于步进设置的每个距离范围内的模式模型的数量,评估语音数据的值。这使得能够按照每个距离范围中模式模型的数量,步进地评估目标讲话者的语音数据的值。
除了母案原权利要求38-40任意之一的效果之外,在母案原权利要求41中限定的数据处理单元提供下述效果:由于数据处理单元将多个模式模型中,特征与目标讲话者的语音数据类似的模式模型用作目标讲话者的模式模型用于评估,随后使用相似模式模型的位置作为目标讲话者产生的语音数据在声学空间中的位置,而不是产生目标讲话者产生的语声的模式模型,因此,能够减少计算工作量,并且使用适合于实时处理等的配置。
除了母案原权利要求41的效果之外,在母案原权利要求42中限定的数据处理单元提供下述效果:由于特征与目标讲话者的语音数据类似的前几个模式模型被用作目标讲话者的模式模型,用于所述评估,因此,与当选择单一模式模型时相比,通过选择按相似性降序排列的前几个模式模型,并将这些模式模型的平均值用于评估,能够降低其中被认为相似的模式模型实际证明是不相似的任何错误选择的影响。
除了母案原权利要求41或42的效果之外,在母案原权利要求43中限定的数据处理单元提供下述效果:数据处理单元通过计算目标讲话者的语音数据与多个讲话者的多个模式模型之间的匹配似然性,确定相似性,使得易于选择特征与目标讲话者的语音数据相似的模式模型。
除了母案原权利要求38-40任意之一的效果之外,在母案原权利要求44中限定的数据处理单元提供下述效果:数据处理单元将语音数据获取装置获取的语音数据转换成高维特征数据,根据特征数据产生目标讲话者的模式模型,计算产生的模式模型与多个讲话者的多个模式模型之间的数学距离,并根据计算的数学距离计算获取的语音数据在声学空间中的位置,使得能够更准确地评估目标讲话者的语音数据的值。
除了母案原权利要求43或44的效果之外,在母案原权利要求45中限定的数据处理单元提供下述效果:由于数据处理单元将包括对应于目标讲话者的语音数据的多个模式模型的声学空间中的多个模式模型转换成低维模式模型,同时保持位置关系,并将转换后的模式模型显示成低维空间中的坐标点,因此易于直观地了解语音数据在声学空间中的位置。
除了母案原权利要求38-45任意之一的效果之外,在母案原权利要求46中限定的数据处理单元提供下述效果:由于利用HMM(隐含马尔可夫模型),一种已知技术来产生模式模型,因此能够恰当地模拟语音数据。
除了母案原权利要求38-46任意之一的效果之外,在母案原权利要求47中限定的数据处理单元提供下述效果:由于逐个音位地,而不是逐字地或者逐句地评估目标讲话者的语音数据,并且评估结果被逐个音位地显示,因此易于确定每个音位的值。
除了母案原权利要求38-47任意之一的效果之外,在母案原权利要求48中限定的数据处理单元提供下述效果:通过显示提示诸如发音方式、语速或者需要被评估的(或者获取)的其它语音数据之类的信息的补充信息,能够获取和评估同一目标讲话者的各种语音数据。
除了母案原权利要求38-48任意之一的效果之外,在母案原权利要求49中限定的数据处理单元提供下述效果:由于数据处理单元与目标讲话者协商语音数据是否可被提供,并且存储成功完成协商的语音数据,因此能够与目标讲话者协商由目标讲话者产生,并且被评估为例如具有较高值的任意语音数据的获取。
在母案原权利要求50中限定的数据处理单元提供下述效果:通过借助因特网等使信息处理终端与数据处理单元连接,能够通过因特网评估许多目标讲话者的语音数据,使得易于获取值较高的语音数据。
在母案原权利要求51中限定的数据处理方法由按照母案原权利要求38-50任意之一所述的数据处理单元实现,从而其效果的描述将被省略,以避免不必要的重复。
在母案原权利要求52中限定的数据处理单元控制程序用于控制按照母案原权利要求39所述的数据处理单元,从而其效果的描述将被省略,以避免不必要的重复。
在母案原权利要求53中限定的数据处理单元提供和按照母案原权利要求50所述的数据处理系统中的数据处理单元相同的效果,从而其描述将被省略,以避免不必要的重复。
在母案原权利要求54中限定的信息处理终端提供和按照母案原权利要求50所述的数据处理系统中的信息处理终端相同的效果,从而 其描述将被省略,以避免不必要的重复。
在母案原权利要求55中限定的数据处理单元控制程序用于控制按照母案原权利要求53所述的数据处理单元,从而其效果的描述将被省略,以避免不必要的重复。
在母案原权利要求56中限定的信息处理终端控制程序用于控制按照母案原权利要求54所述的信息处理终端,从而其效果的描述将被省略,以避免不必要的重复。
在母案原权利要求57中限定的数据处理单元提供下述效果:易于直观地了解多个讲话者中的哪一个在语音方面与目标讲话者类似。
除了母案原权利要求57的效果之外,在母案原权利要求58中限定的数据处理单元提供下述效果:易于直观地了解指定的特定讲话者与目标讲话者之间语音上的相似性,以及目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系。
在母案原权利要求59中限定的数据处理单元提供下述效果:易于直观地了解指定的特定讲话者与目标讲话者之间语音上的相似性,以及目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系。
除了母案原权利要求58或59的效果之外,在母案原权利要求60中限定的数据处理单元提供下述效果:目标讲话者能够通过查看校正信息,纠正他/她的说话方式。
除了母案原权利要求57或58的效果之外,在母案原权利要求61中限定的数据处理单元提供下述效果:由于相似讲话者检测装置和相似性评估装置都将相似的模式模型的位置用作目标讲话者产生的语音数据在声学空间中的位置,而不是产生由目标讲话者产生的语声的模式模型,因此能够进一步降低计算工作量,从而,本发明适合于实时处理等。
除了母案原权利要求57或58的效果之外,在母案原权利要求62中限定的数据处理单元提供下述效果:与当选择单一模式模型时相比,通过选择按相似性降序排列的前几个模式模型,并将这些模式模型的平均值用于检测处理,评估处理等,能够降低其中被认为相似的模式模型实际证明是不相似的任何错误选择的影响。
除了母案原权利要求61或62的效果之外,在母案原权利要求63 中限定的数据处理单元提供下述效果:由于数据处理单元通过计算目标讲话者的语音数据与多个讲话者的多个模式模型之间的匹配似然性,确定相似性,因此易于选择特征与目标讲话者的语音数据相似的模式模型。
除了母案原权利要求57-60任意之一的效果之外,在母案原权利要求64中限定的数据处理单元提供下述效果:能够直接对目标讲话者的语音数据进行检测处理或者评估处理。
除了母案原权利要求63或64的效果之外,在母案原权利要求65中限定的数据处理单元提供下述效果:易于直观地了解语音数据在声学空间中的位置。
除了母案原权利要求58-65任意之一的效果之外,在母案原权利要求66中限定的数据处理单元提供下述效果:由于目标讲话者的语音数据的值被逐个音位地评估,而不是被逐字或逐句地评估,并且评估结果被逐个音位地显示。因此易于逐个音位地了解相似性评估结果。
除了母案原权利要求58-66任意之一的效果之外,在母案原权利要求67中限定的数据处理单元提供下述效果:由于数据处理单元评估目标讲话者说出的语音与特定讲话者以各种说话风格,例如大声、低声、快速和慢速说出的语音的相似性,因此目标讲话者能够以适合他/她的说话风格模仿特定讲话者说出的语音。
除了母案原权利要求58-67任意之一的效果之外,在母案原权利要求68中限定的数据处理单元提供下述效果:通过按照语速,声高等确定低维空间的轴,能够容易地掌握目标讲话者的语音数据的特征,以及他/她周围的讲话者或者特定讲话者的语音数据的特征。
除了母案原权利要求57-68任意之一的效果之外,在母案原权利要求69中限定的数据处理单元提供下述效果:由于利用HMM,一种已知技术来产生模式模型,因此能够吸收获取的语音数据的波形的波动。
按照母案原权利要求70所述的数据处理单元提供下述效果等:如果信息处理终端通过因特网等与数据处理单元连接,那么能够通过因特网对目标讲话者的语音数据进行检测处理、评估处理等,使得目标讲话者易于在家里或者类似场所对他/她的语音进行检测处理或者评 估处理。
在母案原权利要求71中限定的数据处理方法由按照母案原权利要求57所述的数据处理单元实现,从而其效果的描述将被省略,以避免不必要的重复。
在母案原权利要求72中限定的数据处理方法由按照母案原权利要求58所述的数据处理单元实现,从而其效果的描述将被省略,以避免不必要的重复。
在母案原权利要求73中限定的数据处理方法由按照母案原权利要求59所述的数据处理单元实现,从而其效果的描述将被省略,以避免不必要的重复。
在母案原权利要求74中限定的数据处理单元控制程序用于控制按照母案原权利要求58所述的数据处理单元,从而其效果的描述将被省略,以避免不必要的重复。
在母案原权利要求75中限定的数据处理单元控制程序用于控制按照母案原权利要求59所述的数据处理单元,从而其效果的描述将被省略,以避免不必要的重复。
Claims (37)
1.一种数据处理单元,包括:
声学空间存储装置,用于存储由根据多个讲话者的语音数据产生的多个模式模型组成的声学空间;
语音数据获取装置,用于获取目标讲话者的语音数据;
位置计算装置,用于根据所述语音数据获取装置获取的目标讲话者的语音数据、以及所述声学空间存储装置存储的声学空间中的多个模式模型,计算所述目标讲话者的语音数据在声学空间中的位置;
语音数据评估装置,用于根据所述位置计算装置计算的位置,评估所述目标讲话者的语音数据的稀缺值;
评估结果显示装置,用于显示由所述语音数据评估装置产生的评估结果;和
位置关系信息显示装置,用于根据所述计算的位置,显示所述声学空间中的、语音数据和环绕所述语音数据的模式模型之间的位置关系的信息。
2.按照权利要求1所述的数据处理单元,其中所述语音数据评估装置根据这样的模式模型的数量而评估语音数据的稀缺值,即所述模式模型存在于与所述位置计算装置计算的目标讲话者的语音数据的位置相距预定距离之内。
3.按照权利要求2所述的数据处理单元,其中:
所述预定距离被步进地设置;和
所述语音数据评估装置根据存在于步进设置的每个距离范围内的模式模型的数量,评估语音数据的稀缺值。
4.按照权利要求1-3中任一项所述的数据处理单元,其中所述语音数据评估装置根据所述位置计算装置计算的位置,将多个模式模型中的特征与目标讲话者的语音数据类似的模式模型,用作目标讲话者的模式模型以便评估。
5.按照权利要求4所述的数据处理单元,其中所述语音数据评估装置将多个模式模型中的特征与目标讲话者的语音数据类似的前几个模式模型,用作目标讲话者的模式模型,以便进行所述评估。
6.按照权利要求5所述的数据处理单元,其中所述位置计算装置将所述语音数据获取装置获取的语音数据转换成高维特征数据,计算所述高维特征数据与多个讲话者的多个模式模型中的每一个之间的匹配似然性,根据所述计算的似然性,从多个讲话者的多个模式模型中选择特定的模式模型,计算所述选择的特定模式模型与其它模式模型之间的数学距离,并且根据所述计算的数学距离,计算所述获取的语音数据在声学空间中的位置。
7.按照权利要求1-3中任一项所述的数据处理单元,其中所述位置计算装置将所述语音数据获取装置获取的语音数据转换成高维特征数据,根据所述特征数据产生目标讲话者的模式模型,计算所述产生的模式模型与多个讲话者的多个模式模型之间的数学距离,并且根据所述计算的数学距离,计算所述获取的语音数据在声学空间中的位置。
8.按照权利要求7所述的数据处理单元,其中:
所述模式模型由4维或者更高维的元素组成;和
所述位置关系信息显示装置将声学空间中的多个这样模式模型转换成低维模式模型,即所述模式模型包括与目标讲话者的语音数据相对应的多个模式模型,同时保持所述距离关系,并将所述转换后的模式模型显示成低维空间中的坐标点。
9.按照权利要求1-3中任一项所述的数据处理单元,其中利用隐含马尔可夫模型HMM产生模式模型。
10.按照权利要求1-3中任一项所述的数据处理单元,其中:
所述语音数据评估装置逐个音素地评估目标讲话者的语音数据的稀缺值;和
所述评估结果显示装置逐个音素地显示目标讲话者的语音数据的评估结果。
11.按照权利要求1-3中任一项所述的数据处理单元,其中当所述语音数据评估装置将目标讲话者的语音数据评估为具有较低的稀缺值时,所述评估结果显示装置显示语音数据的补充信息。
12.按照权利要求1-3中任一项所述的数据处理单元,包括:
协商装置,用于与目标讲话者协商语音数据是否能够被提供;和
语音数据存储装置,用于存储被所述协商装置成功完成的协商的语音数据。
13.一种数据处理系统,包括:
受到目标讲话者控制的信息处理终端;和
按照权利要求1-12中任一项所述的数据处理单元,其中:
所述信息处理终端和所述数据处理单元彼此可通信地互连,
所述信息处理终端包括:
语音数据发送装置,用于获取目标讲话者的语音数据,并将所述获取的语音数据发送给所述数据处理单元,和
评估信息显示装置,用于显示从所述数据处理单元获取的目标讲话者的语音数据的评估结果信息,
所述数据处理单元包括评估信息发送装置,用于将所述评估结果的信息发送给所述信息处理终端。
14.一种数据处理方法,包括下述步骤:
存储由根据多个讲话者的语音数据产生的多个模式模型组成的声学空间;
获取目标讲话者的语音数据;
根据在所述获取步骤获取的目标讲话者的语音数据、以及所述存储步骤存储的声学空间中的多个模式模型,计算所述目标讲话者的语音数据在声学空间中的位置;
根据所述计算步骤计算的位置,评估所述目标讲话者的语音数据的稀缺值;
显示由所述评估步骤产生的评估结果;和
根据所述计算的位置,显示所述声学空间中的、语音数据和环绕所述语音数据的模式模型之间的位置关系的信息。
15.一种数据处理单元控制方法,用于控制按照权利要求1所述的数据处理单元,包括:
声学空间存储步骤,用于存储由根据多个讲话者的语音数据产生的多个模式模型组成的声学空间;
语音数据获取步骤,用于获取目标讲话者的语音数据;
位置计算步骤,用于根据在所述语音数据获取步骤中获取的语音数据、以及在所述声学空间存储步骤中存储的声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
语音数据评估步骤,用于根据在所述位置计算步骤中计算的位置,评估目标讲话者的语音数据的稀缺值;和
评估结果显示步骤,用于显示在所述语音数据评估步骤中产生的评估结果。
16.一种用于按照权利要求13所述的数据处理系统的信息处理终端,包括:
语音数据发送装置,用于获取目标讲话者的语音数据,并且将所述获取的语音数据发送给所述数据处理单元;和
评估信息显示装置,用于显示从所述数据处理单元获取的目标讲话者的语音数据的评估结果的信息。
17.一种数据处理单元控制方法,用于控制按照权利要求13所述的数据处理单元,
其中所述数据处理单元包括由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间,
所述方法包括:
语音数据获取步骤,用于获取目标讲话者的语音数据;
位置计算步骤,用于根据在所述语音数据获取步骤中获取的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
语音数据评估步骤,用于根据在所述位置计算步骤中计算的位置,评估目标讲话者的语音数据的稀缺值;
评估结果显示步骤,用于显示在所述语音数据评估步骤中产生的评估结果;
位置关系信息显示步骤,用于根据所述计算的位置,显示声学空间中的、所述语音数据和环绕所述语音数据的模式模型之间的位置关系的信息;和
评估信息发送步骤,用于将评估结果的信息发送给所述信息处理终端。
18.一种信息处理终端控制方法,用于控制按照权利要求16所述的信息处理终端,包括:
语音数据发送步骤,用于获取目标讲话者的语音数据,并将所述获取的语音数据发送给所述数据处理单元;和
评估信息显示步骤,用于显示从所述数据处理单元获取的目标讲话者的语音数据的评估结果的信息。
19.一种数据处理单元,包括:
声学空间存储装置,用于存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
语音数据获取装置,用于获取目标讲话者的语音数据;
位置计算装置,用于根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
相似讲话者检测装置,用于根据语音数据的位置以及多个模式模型,检测多个讲话者中的语音上与目标讲话者类似的相似讲话者;和
位置关系信息显示装置,用于根据语音数据的位置和相似讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和相似讲话者的模式模型之间的位置关系的信息。
20.按照权利要求19所述的数据处理单元,包括:
特定讲话者指定装置,用于指定所述多个讲话者中的特定讲话者;
相似性评估装置,用于根据声学空间中的语音数据的位置和特定讲话者的模式模型,评估特定讲话者和目标讲话者之间语音上的相似性;和
评估结果显示装置,用于显示所述相似性评估装置产生的评估结果,
其中所述位置关系信息显示装置根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和特定讲话者的模式模型之间的位置关系的信息。
21.一种数据处理单元,包括:
声学空间存储装置,用于存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
特定讲话者指定装置,用于指定多个讲话者中的特定讲话者;
语音数据获取装置,用于获取目标讲话者的语音数据;
位置计算装置,用于根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据的位置;
相似性评估装置,用于根据语音数据的位置和特定讲话者的模式模型,评估特定讲话者和目标讲话者之间语音上的相似性;
评估结果显示装置,用于显示所述相似性评估装置产生的评估结果;和
位置关系信息显示装置,用于根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据和特定讲话者的模式模型之间的位置关系的信息。
22.按照权利要求20或21所述的数据处理单元,包括:
校正信息产生装置,用于根据所述相似性评估装置产生的评估结果,产生校正信息,所述校正信息指示将对目标讲话者的语音进行的校正,以便提高目标讲话者与特定讲话者之间语音上的相似性;和
校正信息显示装置,用于显示所述校正信息。
23.按照权利要求21所述的数据处理单元,其中:
根据语音数据的位置,所述相似讲话者检测装置将多个模式模型中的特征上与目标讲话者的语音数据类似的模式模型,用作目标讲话者的模式模型;和
根据语音数据的位置,所述相似性评估装置将多个模式模型中的特征上与目标讲话者的语音数据类似的模式模型,用作目标讲话者的模式模型。
24.按照权利要求21所述的数据处理单元,其中:
根据语音数据的位置,所述相似讲话者检测装置将多个模式模型中的特征与目标讲话者的语音数据类似的前几个模式模型,用作目标讲话者的模式模型;和
根据语音数据的位置,所述相似性评估装置将多个模式模型中的特征与目标讲话者的语音数据类似的前几个模式模型,用作目标讲话者的模式模型。
25.按照权利要求23或24所述的数据处理单元,其中所述位置计算装置将所述语音数据获取装置获取的语音数据转换成高维特征数据,计算所述高维特征数据与多个讲话者的多个模式模型中的每一个之间的似然性,根据所述计算的似然性,从多个讲话者的模式模型中选择特定的模式模型,计算所述选择的特定模式模型和其它模式模型之间的数学距离,并且根据所述计算的数学距离,计算所述获取的语音数据在声学空间中的位置。
26.按照权利要求19-21中任一项所述的数据处理单元,其中所述位置计算装置将所述语音数据获取装置获取的语音数据转换成高维特征数据,根据所述特征数据产生目标讲话者的模式模型,计算所述产生的模式模型与多个讲话者的多个模式模型之间的数学距离,并且根据所述计算的数学距离,计算所述获取的语音数据在声学空间中的位置。
27.按照权利要求25所述的数据处理单元,其中:
所述模式模型由4维或更高维的元素组成;和
所述位置关系信息显示装置将声学空间中的多个这样模式模型转换成低维模式模型,即所述模式模型包括与目标讲话者的语音数据相对应的多个模式模型,同时保持所述距离关系,并将所述转换后的模式模型显示成低维空间中的坐标点。
28.按照权利要求20-21中任一项所述的数据处理单元,其中所述相似性评估装置逐个音素地评估目标讲话者的语音数据的相似性。
29.按照权利要求20-21中任一项所述的数据处理单元,其中:
所述声学空间由根据多种说话风格的多个讲话者的语音数据产生的多个模式模型构成;和
所述相似性评估装置评估所述多种说话风格中的每一种中的相似性。
30.按照权利要求29所述的数据处理单元,其中所述位置关系信息显示装置根据多个模式模型的说话风格,建立低维空间的坐标轴。
31.按照权利要求19-21中任一项所述的数据处理单元,其中利用隐含马尔可夫模型HMM产生模式模型。
32.一种数据处理系统,包含:
受到目标讲话者控制的信息处理终端;和
按照权利要求19-31中任一项所述的数据处理单元,其中:
所述信息处理终端和所述数据处理单元可通信地相互连接,
所述信息处理终端包括:
语音数据发送装置,用于获取目标讲话者的语音数据,并将所述获取的语音数据发送给所述数据处理单元,和
信息显示装置,用于显示从所述数据处理单元获取的语音数据的处理结果的信息,和
所述数据处理单元包括信息发送装置,用于将语音数据的处理结果的信息发送给所述信息处理终端。
33.一种数据处理方法,包括下述步骤:
准备由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
获取目标讲话者的语音数据;
根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
根据语音数据的位置以及多个模式模型,检测多个讲话者中的语音上类似于目标讲话者的相似讲话者;和
根据语音数据的位置以及相似讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与相似讲话者的模式模型之间的位置关系的信息。
34.按照权利要求33所述的数据处理方法,包括下述步骤:
指定多个讲话者中的特定讲话者;
根据声学空间中的语音数据的位置和特定讲话者的模式模型,评估特定讲话者和目标讲话者之间语音上的相似性;和
显示评估结果。
35.一种数据处理方法,包括下述步骤:
准备由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
指定多个讲话者中的特定讲话者;
获取目标讲话者的语音数据;
根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据的位置;
根据语音数据的位置以及特定讲话者的模式模型,评估特定讲话者与目标讲话者之间语音上的相似性;
显示评估结果;和
根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系的信息。
36.一种数据处理单元控制方法,包括:
声学空间存储步骤,用于存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
语音数据获取步骤,用于获取目标讲话者的语音数据;
位置计算步骤,用于根据目标讲话者的语音数据以及声学空间中的多个模式模型,计算目标讲话者的语音数据在声学空间中的位置;
相似讲话者检测步骤,用于根据语音数据的位置以及多个模式模型,检测多个讲话者中的语音上类似于目标讲话者的相似讲话者;
位置关系信息显示步骤,用于根据语音数据的位置以及相似讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与相似讲话者的模式模型之间的位置关系的信息;
讲话者指定步骤,用于指定特定的讲话者;
相似性评估步骤,用于根据声学空间中的语音数据的位置和特定讲话者的模式模型,评估特定讲话者与目标讲话者之间语音上的相似性;
评估结果显示步骤,用于显示所述相似性评估步骤产生的评估结果,其中
所述位置关系信息显示步骤根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系的信息。
37.一种数据处理单元控制方法,包括:
声学空间存储步骤,用于存储由根据多个讲话者的语音数据产生的多个模式模型构成的声学空间;
特定讲话者指定步骤,用于指定多个讲话者中的特定讲话者;
语音数据获取步骤,用于获取目标讲话者的语音数据;
位置计算步骤,用于根据目标讲话者的语音数据和声学空间中的多个模式模型,计算目标讲话者的语音数据的位置;
相似性评估步骤,用于根据语音数据的位置和特定讲话者的模式模型,评估特定讲话者与目标讲话者之间语音上的相似性;
评估结果显示步骤,用于显示所述相似性评估步骤产生的评估结果;
位置关系信息显示步骤,用于根据语音数据的位置和特定讲话者的模式模型,显示声学空间中的、目标讲话者的语音数据与特定讲话者的模式模型之间的位置关系的信息。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003345984 | 2003-10-03 | ||
JP2003345984 | 2003-10-03 | ||
JP2003-345984 | 2003-10-03 | ||
JP2003-370980 | 2003-10-30 | ||
JP2003370980 | 2003-10-30 | ||
JP2003370980 | 2003-10-30 | ||
JP2003428015 | 2003-12-24 | ||
JP2003428015 | 2003-12-24 | ||
JP2003-428015 | 2003-12-24 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800287171A Division CN1867966B (zh) | 2003-10-03 | 2004-07-22 | 数据处理单元、模式模型搜索单元和特定模式模型提供系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101661754A CN101661754A (zh) | 2010-03-03 |
CN101661754B true CN101661754B (zh) | 2012-07-11 |
Family
ID=34396848
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101663947A Expired - Fee Related CN101661754B (zh) | 2003-10-03 | 2004-07-22 | 数据处理单元和数据处理单元控制方法 |
CN2004800287171A Expired - Fee Related CN1867966B (zh) | 2003-10-03 | 2004-07-22 | 数据处理单元、模式模型搜索单元和特定模式模型提供系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800287171A Expired - Fee Related CN1867966B (zh) | 2003-10-03 | 2004-07-22 | 数据处理单元、模式模型搜索单元和特定模式模型提供系统 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7548651B2 (zh) |
EP (2) | EP1669979B1 (zh) |
JP (3) | JP4413867B2 (zh) |
KR (1) | KR100814143B1 (zh) |
CN (2) | CN101661754B (zh) |
DE (2) | DE602004020527D1 (zh) |
WO (1) | WO2005034086A1 (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107735833A (zh) * | 2015-06-07 | 2018-02-23 | 苹果公司 | 自动口音检测 |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
Families Citing this family (177)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4550882B2 (ja) * | 2004-11-25 | 2010-09-22 | シャープ株式会社 | 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム |
EP1852847A4 (en) * | 2005-01-17 | 2008-05-21 | Nec Corp | VOICE RECOGNITION SYSTEM, VOICE RECOGNITION METHOD, AND VOICE RECOGNITION PROGRAM |
US10417700B2 (en) | 2005-03-03 | 2019-09-17 | Refinitiv Us Organization Llc | System and method for graphical display of multivariate data |
US7805300B2 (en) * | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
GB0514555D0 (en) * | 2005-07-15 | 2005-08-24 | Nonlinear Dynamics Ltd | A method of analysing separation patterns |
GB0514553D0 (en) * | 2005-07-15 | 2005-08-24 | Nonlinear Dynamics Ltd | A method of analysing a representation of a separation pattern |
JP4763387B2 (ja) * | 2005-09-01 | 2011-08-31 | 旭化成株式会社 | パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070076001A1 (en) * | 2005-09-30 | 2007-04-05 | Brand Matthew E | Method for selecting a low dimensional model from a set of low dimensional models representing high dimensional data based on the high dimensional data |
JP4825014B2 (ja) * | 2006-01-24 | 2011-11-30 | 旭化成株式会社 | 評価用データ生成装置、認識性能分布情報生成装置およびシステム |
US8036896B2 (en) * | 2006-04-18 | 2011-10-11 | Nuance Communications, Inc. | System, server and method for distributed literacy and language skill instruction |
KR100901640B1 (ko) * | 2006-05-10 | 2009-06-09 | 주식회사 케이티 | 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법 |
JP4728972B2 (ja) * | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2008149547A1 (ja) * | 2007-06-06 | 2008-12-11 | Panasonic Corporation | 声質編集装置および声質編集方法 |
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
WO2009057739A1 (ja) * | 2007-10-31 | 2009-05-07 | Nec Corporation | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム |
US8503721B2 (en) * | 2007-12-14 | 2013-08-06 | Panasonic Corporation | Image judgment device |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100290642A1 (en) * | 2008-01-17 | 2010-11-18 | Tomomi Hasegawa | Speaker characteristic correction device, speaker characteristic correction method and speaker characteristic correction program |
US20090198602A1 (en) * | 2008-01-31 | 2009-08-06 | Intuit Inc. | Ranking commercial offers based on user financial data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
US20090319916A1 (en) * | 2008-06-24 | 2009-12-24 | Microsoft Corporation | Techniques to auto-attend multimedia conference events |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
EP2182512A1 (en) * | 2008-10-29 | 2010-05-05 | BRITISH TELECOMMUNICATIONS public limited company | Speaker verification |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US8386251B2 (en) * | 2009-06-08 | 2013-02-26 | Microsoft Corporation | Progressive application of knowledge sources in multistage speech recognition |
JP5611546B2 (ja) * | 2009-06-30 | 2014-10-22 | 株式会社東芝 | 自動診断支援装置、超音波診断装置及び自動診断支援プログラム |
US9031243B2 (en) * | 2009-09-28 | 2015-05-12 | iZotope, Inc. | Automatic labeling and control of audio algorithms by audio recognition |
JP5644772B2 (ja) * | 2009-11-25 | 2014-12-24 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8490056B2 (en) * | 2010-04-28 | 2013-07-16 | International Business Machines Corporation | Automatic identification of subroutines from test scripts |
US8949125B1 (en) * | 2010-06-16 | 2015-02-03 | Google Inc. | Annotating maps with user-contributed pronunciations |
US8812310B2 (en) * | 2010-08-22 | 2014-08-19 | King Saud University | Environment recognition of audio input |
CN101923854B (zh) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
DE102010047444B4 (de) * | 2010-10-04 | 2014-04-03 | Audi Ag | Verfahren zur Visualisierung von Maßabweichungen zwischen einer Ist- und Soll-Geometrie eines Bauteils |
CN101950564A (zh) * | 2010-10-13 | 2011-01-19 | 镇江华扬信息科技有限公司 | 一种远程数字化语音采集分析识别系统 |
KR101791907B1 (ko) * | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
CN102509548B (zh) * | 2011-10-09 | 2013-06-12 | 清华大学 | 一种基于多距离声传感器的音频索引方法 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
KR102029055B1 (ko) * | 2013-02-08 | 2019-10-07 | 삼성전자주식회사 | 고차원 데이터의 시각화 방법 및 장치 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR102158210B1 (ko) * | 2013-09-04 | 2020-09-22 | 엘지전자 주식회사 | 음성 인식 장치 및 그 방법 |
GB2517952B (en) * | 2013-09-05 | 2017-05-31 | Barclays Bank Plc | Biometric verification using predicted signatures |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP6241612B2 (ja) * | 2014-02-26 | 2017-12-06 | トヨタ自動車株式会社 | シリンダブロックの加工方法及び装置 |
JP6413263B2 (ja) * | 2014-03-06 | 2018-10-31 | 株式会社デンソー | 報知装置 |
JP6150340B2 (ja) * | 2014-03-14 | 2017-06-21 | Kddi株式会社 | データ交換装置およびデータ価値評価装置 |
CN103905650A (zh) * | 2014-04-28 | 2014-07-02 | 深圳市中兴移动通信有限公司 | 移动终端及基于语音识别调节通话音量的方法 |
US9633649B2 (en) | 2014-05-02 | 2017-04-25 | At&T Intellectual Property I, L.P. | System and method for creating voice profiles for specific demographics |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
KR102559199B1 (ko) * | 2015-11-02 | 2023-07-25 | 삼성전자주식회사 | 배터리 관리 방법 및 배터리 관리 장치 |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN106887230A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种基于特征空间的声纹识别方法 |
CN108369451B (zh) * | 2015-12-18 | 2021-10-29 | 索尼公司 | 信息处理装置、信息处理方法及计算机可读存储介质 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN106971730A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于信道补偿的声纹识别方法 |
CN106971729A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于声音特征范围提高声纹识别速度的方法及系统 |
CN106971737A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于多人说话的声纹识别方法 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10635800B2 (en) * | 2016-06-07 | 2020-04-28 | Vocalzoom Systems Ltd. | System, device, and method of voice-based user authentication utilizing a challenge |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10565513B2 (en) * | 2016-09-19 | 2020-02-18 | Applied Materials, Inc. | Time-series fault detection, fault classification, and transition analysis using a K-nearest-neighbor and logistic regression approach |
JP6904361B2 (ja) * | 2016-09-23 | 2021-07-14 | ソニーグループ株式会社 | 情報処理装置、及び情報処理方法 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR101926837B1 (ko) | 2017-02-20 | 2018-12-07 | 아주대학교산학협력단 | 데이터 빈도수 기반의 단일 클래스 모델 생성 방법 및 장치 |
EP3599604A4 (en) * | 2017-03-24 | 2020-03-18 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US20190019500A1 (en) * | 2017-07-13 | 2019-01-17 | Electronics And Telecommunications Research Institute | Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same |
US10229092B2 (en) | 2017-08-14 | 2019-03-12 | City University Of Hong Kong | Systems and methods for robust low-rank matrix approximation |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10984795B2 (en) * | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
KR102043342B1 (ko) * | 2018-05-14 | 2019-11-12 | 고려대학교 세종산학협력단 | 소리감지 센서를 이용한 반려견 소리 분류 시스템 및 방법 |
KR102562227B1 (ko) * | 2018-06-12 | 2023-08-02 | 현대자동차주식회사 | 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법 |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
KR20190136578A (ko) | 2018-05-31 | 2019-12-10 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10210860B1 (en) | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
KR102225984B1 (ko) * | 2018-09-03 | 2021-03-10 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 서버 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US20210232567A1 (en) * | 2018-10-10 | 2021-07-29 | Toor Inc. | Analyzer, analysis system, and analysis method |
US10720149B2 (en) * | 2018-10-23 | 2020-07-21 | Capital One Services, Llc | Dynamic vocabulary customization in automated voice systems |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109348359B (zh) * | 2018-10-29 | 2020-11-10 | 歌尔科技有限公司 | 一种音响设备及其音效调整方法、装置、设备、介质 |
KR102236458B1 (ko) * | 2018-11-05 | 2021-04-06 | 고려대학교 세종산학협력단 | 보간법과 lstm-fcn 기법을 적용한 분리불안 증세의 반려견 소리 분류를 위한 방법 및 그 시스템 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US10785171B2 (en) | 2019-02-07 | 2020-09-22 | Capital One Services, Llc | Chat bot utilizing metaphors to both relay and obtain information |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2020246638A2 (ko) * | 2019-06-05 | 2020-12-10 | 엘지전자 주식회사 | 음성인식 기기를 위한 지능형 음성인식 모델을 제공하는 방법 |
US11545132B2 (en) | 2019-08-28 | 2023-01-03 | International Business Machines Corporation | Speech characterization using a synthesized reference audio signal |
US11900246B2 (en) | 2019-09-02 | 2024-02-13 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing user based on on-device training |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
DE102021209106A1 (de) | 2021-08-19 | 2023-02-23 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zur Durchführung eines Ladevorgangs einer Gerätebatterie |
CN118103836A (zh) * | 2021-10-20 | 2024-05-28 | 索尼集团公司 | 信息处理装置、信息处理方法和程序 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3163185B2 (ja) * | 1992-11-27 | 2001-05-08 | 株式会社東芝 | パターン認識装置およびパターン認識方法 |
KR100247969B1 (ko) * | 1997-07-15 | 2000-03-15 | 윤종용 | 대용량패턴정합장치및방법 |
US6990238B1 (en) * | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
DE10047724A1 (de) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern |
JP2002162989A (ja) * | 2000-11-28 | 2002-06-07 | Ricoh Co Ltd | 音響モデル配信システムおよび音響モデル配信方法 |
EP1505573B1 (en) * | 2002-05-10 | 2008-09-03 | Asahi Kasei Kabushiki Kaisha | Speech recognition device |
JP2004199377A (ja) * | 2002-12-18 | 2004-07-15 | Toshiba Corp | 遠隔監視診断システム |
KR101011713B1 (ko) * | 2003-07-01 | 2011-01-28 | 프랑스 텔레콤 | 화자의 압축된 표시를 위한 음성 신호 분석 방법 및 시스템 |
KR20050063299A (ko) * | 2003-12-22 | 2005-06-28 | 한국전자통신연구원 | 최대 사후 고유공간에 근거한 화자적응 방법 |
JP4769536B2 (ja) * | 2005-10-07 | 2011-09-07 | Juki株式会社 | ボタン付けミシン |
JP4890964B2 (ja) * | 2006-06-23 | 2012-03-07 | ゼブラ株式会社 | リフィール構成部材の接続構造及び該接続構造の製造方法 |
-
2004
- 2004-07-22 DE DE602004020527T patent/DE602004020527D1/de active Active
- 2004-07-22 US US10/896,317 patent/US7548651B2/en not_active Expired - Fee Related
- 2004-07-22 CN CN2009101663947A patent/CN101661754B/zh not_active Expired - Fee Related
- 2004-07-22 CN CN2004800287171A patent/CN1867966B/zh not_active Expired - Fee Related
- 2004-07-22 WO PCT/JP2004/010390 patent/WO2005034086A1/ja active IP Right Grant
- 2004-07-22 DE DE602004011545T patent/DE602004011545T2/de active Active
- 2004-07-22 JP JP2005514358A patent/JP4413867B2/ja not_active Expired - Fee Related
- 2004-07-22 EP EP04747802A patent/EP1669979B1/en not_active Expired - Fee Related
- 2004-07-22 KR KR1020067005832A patent/KR100814143B1/ko not_active IP Right Cessation
- 2004-07-22 EP EP07021419A patent/EP1881443B1/en not_active Expired - Fee Related
-
2008
- 2008-12-30 US US12/318,494 patent/US8606580B2/en not_active Expired - Fee Related
-
2009
- 2009-06-15 JP JP2009142417A patent/JP5155943B2/ja not_active Expired - Fee Related
- 2009-06-15 JP JP2009142418A patent/JP5155944B2/ja not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
Anil K. Jain et al.Statistical Pattern Recognition: A Review.《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》.2000,第22卷(第1期), * |
Arkadiusz Nagorski et al.Optimal Selection of Speech Data For Automatic Speech Recognition Systems.《7th International Conference on Spoken Language Processing》.2002, * |
JP特开2002-162989A 2002.06.07 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
CN107735833A (zh) * | 2015-06-07 | 2018-02-23 | 苹果公司 | 自动口音检测 |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
Also Published As
Publication number | Publication date |
---|---|
CN1867966B (zh) | 2012-05-30 |
EP1669979A4 (en) | 2006-12-27 |
US7548651B2 (en) | 2009-06-16 |
JP5155943B2 (ja) | 2013-03-06 |
EP1881443A2 (en) | 2008-01-23 |
US20090138263A1 (en) | 2009-05-28 |
US8606580B2 (en) | 2013-12-10 |
DE602004011545T2 (de) | 2009-01-08 |
JP4413867B2 (ja) | 2010-02-10 |
WO2005034086A1 (ja) | 2005-04-14 |
CN1867966A (zh) | 2006-11-22 |
EP1669979B1 (en) | 2008-01-23 |
EP1669979A1 (en) | 2006-06-14 |
JP2009205178A (ja) | 2009-09-10 |
JPWO2005034086A1 (ja) | 2007-10-04 |
US20050075875A1 (en) | 2005-04-07 |
EP1881443A3 (en) | 2008-02-27 |
DE602004020527D1 (de) | 2009-05-20 |
DE602004011545D1 (de) | 2008-03-13 |
EP1881443B1 (en) | 2009-04-08 |
JP2009205177A (ja) | 2009-09-10 |
KR100814143B1 (ko) | 2008-03-14 |
KR20060087585A (ko) | 2006-08-02 |
JP5155944B2 (ja) | 2013-03-06 |
CN101661754A (zh) | 2010-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101661754B (zh) | 数据处理单元和数据处理单元控制方法 | |
CN108701453B (zh) | 模块化深度学习模型 | |
US11056096B2 (en) | Artificial intelligence (AI)-based voice sampling apparatus and method for providing speech style in heterogeneous label | |
KR102410914B1 (ko) | 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법 | |
KR20160030168A (ko) | 음성 인식 방법, 장치 및 시스템 | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
KR20190083629A (ko) | 음성 인식 방법 및 음성 인식 장치 | |
Birch et al. | Environmental effects on reliability and accuracy of MFCC based voice recognition for industrial human-robot-interaction | |
Chauhan et al. | Using spoken words to guide open-ended category formation | |
Lee et al. | Off-Topic Spoken Response Detection Using Siamese Convolutional Neural Networks. | |
CN108364655A (zh) | 语音处理方法、介质、装置和计算设备 | |
KR101889809B1 (ko) | 중요 화제 선별을 이용한 자동 방향 선택 음성인식시스템 및 음성인식방법 | |
Sati et al. | An Intelligent Virtual System using Machine Learning | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
Minematsu et al. | Speaker-basis Accent Clustering Using Invariant Structure Analysis and the Speech Accent Archive. | |
KR102418232B1 (ko) | 보이스 유사도 평가 방법 및 그 장치 | |
WO2023188827A1 (ja) | 推論装置、質問回答装置、対話装置、及び推論方法 | |
Özkartal | Development of a system for human language commands and control for a quadcopter application | |
KR20230149894A (ko) | 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템 | |
Azis et al. | XGBoost and Convolutional Neural Network Classification Models on Pronunciation of Hijaiyah Letters According to Sanad | |
Геращенко | Speech recognition technologies | |
CN116737914A (zh) | 用于云客服中心的交互数据处理方法及系统 | |
Van Roey | A spoken human-machine interface that learns from demonstration | |
Gorin et al. | An experiment in spoken language acquisition | |
Becker | A general perceptual model for eldercare robots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120711 Termination date: 20200722 |