CN1287657A - 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置 - Google Patents

声音识别装置和方法、导航装置、便携电话装置以及信息处理装置 Download PDF

Info

Publication number
CN1287657A
CN1287657A CN99801879A CN99801879A CN1287657A CN 1287657 A CN1287657 A CN 1287657A CN 99801879 A CN99801879 A CN 99801879A CN 99801879 A CN99801879 A CN 99801879A CN 1287657 A CN1287657 A CN 1287657A
Authority
CN
China
Prior art keywords
evaluation
sequence
estimate
model
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN99801879A
Other languages
English (en)
Inventor
南野活树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1287657A publication Critical patent/CN1287657A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

声音识别装置,具有分析声音信号的声分析部、利用声模型和语言模型进行识别处理的识别处理部,识别处理部具有:按正向顺序制约评价对象模型的同时对评价模型进行评价的第一评分部;同样按反向顺序进行评价的第二评分部;和根据这些第一和第二评分部的评价选择候选单词的选择部。声音识别装置通过这样构成,可以高速求得对声音信号进行识别的候选单词。

Description

声音识别装置和方法、导航装置、便携电话装置 以及信息处理装置
技术领域
本发明涉及自动确定与输入声音信号对应的单词序列的声音识别装置和方法,具体来说,涉及高速求得作为识别结果的单词序列的声音识别装置和方法,以及利用上述声音识别的导航装置、便携电话装置以及信息处理装置。
背景技术
以往提供一种自动确定与输入声音信号对应的单词序列的声音识别技术。
这种声音识别技术,用于通过声音对数据库进行检索或对机器进行操作,或者以声音向各种信息设备输入数据。
例如可考虑一数据库检索装置,在用声音输入关于某一地名的问询时,对它进行识别,根据其结果选出相对应地名,并输出与该地名有关的地图等信息。
或者,可考虑用声音输入某一命令时便对此进行识别、进行相应动作的装置,还可考虑不用键盘输入数据而能够以声音输入数据这种系统等。
现具体说明涉及这种声音识别的现有技术。
图1示出声音识别装置的构成。声音识别装置通常由从声音信号当中提取特征量的声分析(acoustic analysis)部101,根据特征序列确定单词序列的识别处理(recognition process)部102,对音韵等建模的声模型(acoustic model)103,对声模型103的连接关系建模的语言模型(language model)104所构成。
首先,输入声音信号送至声分析部101,这里,以极其微小的时间间隔提取识别所需的特征量。例如提取信号能量、过零次数、音调、频率特性及其变化量等。频率分析采用线性预测分析(LPC)、快速傅里叶变换(FFT)、带通滤波器(BPF)等。而且,这些特征量提取作为向量,或者进行量化提取作为标量。接着,该特征量序列送至识别处理部102。
识别处理部102利用声模型103和语言模型104确定与声分析部101送来的特征量序列对应的单词序列,并将它输出。关于识别方法,广泛采用DP匹配、神经网络、隐含马尔可夫模型(Hidden Markov Model;HMM)等。
DP匹配,就是通过与称为模板的标准图谱相比较进行识别。神经网络,则是利用模仿人类脑结构的网络模型进行识别。而HMM则利用状态变迁几率和具有码元输出几率的状态变迁模型,按该几率模型进行识别。
不论哪一种,都需要在学习过程中预先确定与声模型103和语言模型104相应的模板、网络模型权重系数、HMM几率·统计值等。这时,对于声模型103来说,能够在音韵、音节、单词、短语、语法等各种层面上建模。
而语言模型104则是对声模型103的连接关系进行建模,用于能够识别若干声模型103经连接得到的单词、短语、语法等。
识别处理过程102进行时,利用这些声音模型103和语言模型104,对各种单词序列加分值,将该分值最高的单词序列或靠前的多个单词序列作为假设的识别结果选出。
另外,有时对于1个输入声音,将选出对应的一个单词的情形称为单词识别,选出对应的单词序列的情形称为连续单词识别或连续声音识别,但这里对它们不加区别,输出全部作为单词序列处理。
这里,对利用HMM的声音识别稍作详细说明。
首先,构成与日语假名对应的HMM,将它预先求出作为声模型103。这是建模以形成用路径联系多个状态的状态变迁模型,称为状态变迁几率和码元输出几率的几率参数可定义为确定使得某个评价值最大的参数。
通常,分析相应的声音信号,确定参数使这样得到的特征量序列的发生几率较高。例如,与“ぁ”对应的HMM确定参数,使根据发出“ぁ”声音的声音信号所得到的特征量序列其发生几率较高。能够利用这种HMM对各个假名实行发生几率的计算。
向语言模型104提供例如“今日(さょぅ)”、“明日(ぁす)”、“1(いち)”、“2(に)”、“3(さん)”等词汇时,可分别使假名连接构成,因而,通过使假名对应的声模型(HMM)相联系,能够实现对于各词语的发生几率(分值)进行计算。
同样,也能够实现对于可将假名连接的任意词语的分值计算。因此,语言模型104中增加新词语、或与别的词汇互换都可以很容易进行。若属于象“4(ょん)”和“4(し)”这种同一词语具有多个读法的情形,便通过分别作为词汇条目包含于语言模型104中,能够对任一发声进行分值计算。
同样,“从9时至10时(くしからしゅぅしまで)”这种短句也能作为1个词语处理,作为词汇的1个条目包含于语言模型中。但一般识别处理部102其处理能力有限,大多数情况下所处理词语数受到限制。
因此采用这样一种方法,在语言模型104中存储词语连接关系和含义上的联系等,利用该限制的同时,通过对连续的词语排列进行分值计算,来处理较大规模、复杂的情形。
上面例子场合,语言模型104中作为词汇具有“0(ぜろ)”至“24(にしゅぅょん)”这些数字和“时(し)”、“从(ガら)”、“至(まで)”这类词语,由此表示以假名为单位的声模型的连接关系,还通过具有“从”+“(数字)”+“时”+“至”+“(数字)”+“时”这种规则来表示单词连接关系,便可完整处理“从(数字)时至(数字)时”这种短句。
另外,作为语言模型104,还广泛采用在连接关系中嵌入变迁几率等几率值来形成精密模型的方法。
如上所述,利用HMM的声音识别,通过按照语言模型104连接声模型103,从这样处理的全部单词序列当中选出分值最高的或靠前的多个候选,来确定与输入声音信号对应的单词序列。
另外,这里示出的是用与假名对应的HMM的例子,但也能通过连接实现音韵、音节等其他识别单位的HMM,或利用以单词为单位的HMM等。而且,作为声模型103,也能够不用HMM,而利用DP匹配中用到的模板、神经网络等。
这里,将声音识别问题一般化。令声分析部101送来的特征量序列为
    X={x1,x2,…,xT}
这时,对能够按声模型103和语言模型104处理的全部单词序列加分值时,便对各单词序列
    w1,w2,…,wT
求分值
    S(w1,w2,…,wN| x1,x2,…,xT)。
因而,可以对求出使该分值最大的单词序列或靠前的多个候选的问题,形成公式。
分值计算方法或分值随声模型103或语言模型104的不同而有所不同,但这里对于利用状态变迁模型的分值计算方法进行简单说明。
声模型103用某一状态变迁模型表示时,可通过按照语言模型104连接声模型103,来构成大规模状态变迁网络以表达可处理的全部单词序列。
例如给定3个单词w1,w2,w3,对于各单词的连接,给出如图2所示的有关单词间变迁的制约。具体来说,从一开始(start)向w1,w2,w3变迁,再从w1,w2,w3向结束(end)和w1,w2,w3变迁。这时,能够处理可将单词w1,w2,w3组合的全部单词序列。将这种网络称为单词网络。
另一方面设定,作为声模型103提供p1,p2,p3,…,p9,建模形成各个声模型pi具有n个状态的状态变迁模型。例如,对于pi可考虑对音韵、音节、或假名等建模。图3示出一例按3个状态建模的声模型103。
这里设定,对各个单词w1,w2,w3,加上与如下声模型103的连接有关的制约。例如是对各单词提供音韵标注、音节标注、或假名标注等的情形。
w1:p1,p2,p4,p7,p9
w2:p1,p2,p5,p8,p9
w3:p1,p3,p6,p8,p9
这时,可构成如图4所示的以pi为节点的网络。此外,将各个pi与相应的声模型103的状态变迁模型互换的话,可获得如图5所示的状态变迁网络。
通常,这种状态变迁网络可设定初始节点和最终节点。接着,由网络制作方法也可知道,能够对初始节点和最终节点相连的全部路径,使某一单词序列对应。
接下来,该状态变迁网络上各节点可获得一评价尺度,用以评价与声分析部101送来的特征量xi的类似性。例如,有的作为与称为模板的标准图谱间的距离给出,或利用预先进行了学习的神经网络或几率密度函数并对该相似性进行数值化的方法等,来给出其评价尺度。
这里,用s1,s2,…,sn表示网络上各个状态。这时,某一状态si的时刻t的累加分值α1(t)可利用例如下述递归式计算。
1.t=0时,对αi(0)(i=1,2,…,N)进行初始化。
2.t=1,2,…,N时,
αi(t)=∑jj(t-1)+αji+di(xt)}                        …(1)
其中,αji为从状态sj变迁至si时给定的分值,di(xt)为如上所述表示与状态si时所给定特征量xt的相似度的分值。
具体来说,就是通过一面加上状态变迁时的分值αji,一面随时间累加在各状态si时所计算的局部相似度di(xt),来计算累加分值αi(t)。
另外,对于αi(t)的计算,也可由下式替代式(1)进行计算。
αi(t)=maxjj(t-1)+αji+di(xt)}                       …(2)
这就是所说的维特比算法(Viterbi algorithm)的计算方法,为一较好的用于减少运算量的方法。
接着,在最终时刻t=T,求得状态变迁网络上最终节点的累加分值后,发现给出该分值的初始节点至最终节点的路径,对于与该路径对应的单词序列w1,w2,…,wN,按
S(w1,w2,…,wN| x1,x2,…,xT)给出所得到的分值。
αji的数值或di(xt)的计算方法、以及αi(t)分值的累加算法随给定的声模型103或语言模型104有所不同,但如上所述在状态变迁网络上进行的分值计算,和根据分值最佳路径或靠前的多个路径求得相应单词序列这种方法,均广泛用于声音识别。
另外,有时可随状态变迁网络构成方式,尤其是初始节点和最终节点设定方式,只在一个单词序列上附加分值,或可以在多个单词序列上附加分值。
而且,还考虑一种不是一开始就生成完全的状态变迁网络,而是一面随时间经过逐渐生成,一面进行分值计算的方法。
但考虑这种状态变迁网络上的分值计算时,从原理上来说,能够对声分析部101送来的特征量xt在全部状态si下计算累加分值αi(t),但词汇数多或所处理单词序列种类增加的话,状态变迁网络节点数会非常多,因此,产生计算量会非常庞大这种问题。
作为对此的解决方法,到目前为止提出过种种方案。其中之一是已经提出过的减小状态变迁网络本身这种方法。这是对状态网络上的冗长部分加以约束进行兼并这种方法。
例如,给定“京都(きょぅと)”和“竞争(きょぅそぅ)”这种单词时,词头“きょぅ”部分是共同的。因此,由于在网络上会约束这种词头共同部分,因而能够减少状态变迁网络节点数。
在上述图2所示的3个单词w1,w2,w3构成的网络例中,词头p1,p2共同,因而能够如图6所示压缩图4所示的网络。具体来说,可通过约束图4中词头p1或p2按图6所示进行兼并,来压缩网络。
同样,词尾具有共同部分的单词也有很多。也能够对这些单词加以约束来进一步减少状态变迁网络的节点数。上一例中,词尾p8或p9也共同,可加以约束,因而还能将图6所示的网络压缩至图7所示的网络。具体来说,可通过对图4中词尾p8或p9加以约束,如图7所示进行兼并,来压缩网络。
而且,对于所压缩的网络,用声模型状态变迁模型替换各节点pi的话,便可得到更小的状态变迁网络。由此,可稍稍缓和上述计算量问题。
即便这样对状态变迁网络进行压缩,但如果这里所含的状态数目较多,对累加分值进行计算所需的计算量仍然很大,因而屡屡产生想要进一步减少其计算量的要求。
因此,作为其解决方法,普遍采用一种称为定向搜索的修剪技术。这不是对状态变迁网络所含的全部状态si计算分值αi(t),而是选择根据某些标准应进行分值计算的状态,只在选定状态下计算分值这种方法。
对于选择哪一状态si进行分值计算的标准来说,有根据某一时刻t的累加分值,从分值最佳的状态当中仅留下靠前的k个的方法,或设定某一阈值仅留下比它好的分值的方法等。
这里必须注意的是,与对于全部状态进行累加分值计算的话便必然可以在状态变迁网络上确定给出最佳分值的路径有所不同,有的会发生无法保证对应进行分值计算的状态si的数目受到限制、或是得到该给出最佳分值的路径这种新问题。
对此的解决方法,是使得应计算分值的状态si数目尽可能多这种方法为最简单方法。通常,应计算分值状态si数目增加的话,越是增加就越可能获得给出最佳分值的路径。另一方面,可将声模型103或语言模型104设计成,根据正确单词序列所对应的路径可求得最佳分值。
因而可以期待,应计算分值状态si数目增加的话,越是增加,获得正确单词序列的可能性越高。因此,以往采取对定向搜索中阈值等进行调整的方法,使得正确单词序列获得比例即识别率尽可能高,而且应计算分值状态si数目尽可能少。而且,根据情况,因系统所具有计算能力等的制约,多多少少允许识别率下降,但也有的进行更严的制约,使得应计算分值的状态数目比所需数目还要少。
但基本上存在计算量和识别率权衡的问题,进行过严制约的话,便会造成识别率大幅下降,因而并非所希望的。因此,作为在尽可能不降低识别率的情况下减小计算量的方法,提出的还有限制应计算分值状态数目用的阈值动态变化而非设定为一定数值的方法,或利用稍稍前一时刻为止的特征量序列进行简单评价,根据此结果在当前时刻对应计算分值的状态进行制约的方法等。
而且,还提出利用特征量序列整体进行限制的方法,具体来说,按当前时间至最终时刻的特征量序列推定所累加的分值,求出当前时刻为止已经计算得到的累加分值再加上其推定值的和,根据此数值对应计算分值的状态进行限制这种方法。
例如按最大第一为基础进行累加分值计算的方法(A*搜索)或上述定向搜索那样,为一面对应计算分值的状态进行限制,一面在时间上同步进行累加分值计算的方法(A*定向搜索)等。尤其,在A*搜索当中,该推定值满足并不比实际所求的数值严格这种条件时,可保证与对全部状态进行累加分值计算时相同的结果,即在状态变迁网络上求出给出最佳分值的路径。
而且,这些方法可以期望,该推定值接近实际进行计算时数值的话,越是接近,减少累加分值计算所需计算量的效果越高。
但推定值的计算变得多余,希望该计算量尽可能少,在此基础上获得精度高的推定值非常困难。
相反,推定值精度低的话,由于接近于A*搜索按幅度第一(breadth-first)为基础进行累加分值计算的方法,因而大幅增加累加分值计算所需的计算量,而A*定向搜索也接近于上述定向搜索,因而会再次发生计算量和识别率权衡的问题。
另外,A*搜索或A*定向搜索中,还提出了从特征量序列终端至始端进行分值累加的方法。
这时,变为根据当前时刻至初始时刻的特征量序列推定所累加的分值,并求得当前时刻为止已计算的最终时刻起的累加分值与该推定值的相加值,根据其数值限制应计算分值的状态。
但只要进行处理的方向不同,就无法解决上述A*搜索或A*定向搜索所存在的问题。
发明概述
本发明正是鉴于上述情况,其目的在于提供一种识别精度不降低,可以比以往更为高速地求得分值最佳的单词序列的这类声音识别装置和方法,以及利用上述声音识别的导航装置,便携电话装置以及信息处理装置。
本发明的声音识别装置,具有:从声音信号当中提取声特征量序列的声分析部;和根据所述声分析部所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理部,其中具有:根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价手段;根据所述多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价手段;和选择在所述第一评价手段和第二评价手段所得到的评价值当中提供最大评价值的评价模型的选择手段。
本发明的声音识别方法,具有:从声音信号当中提取声特征量序列的声分析工序;和根据所述声分析工序所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理工序,其中具有:根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价工序;根据所述多个评价模型对作为进行评价的评价对象的模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价工序;和选择在所述第一评价工序和第二评价工序所得到的评价值当中提供最大评价值的评价模型的选择工序。
本发明的导航装置具有:用以检出车辆当前位置的当前位置检出装置;检出车辆行驶方向的方向检出装置;存储道路地图信息的存储手段;根据所述当前位置检出手段检出的车辆当前位置和从所述存储手段当中读出的道路地图信息,计算将所述车辆当前位置修正为位于道路上的当前位置信息的运算处理手段;输入声音信号的声音输入手段;一声音识别手段具有:从所述声音输入手段所输入的声音信号当中提取声特征量序列的声分析部;和根据所述声分析部所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理部,其中具有:根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价手段;根据所述多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价手段;和选择在所述第一评价手段和第二评价手段所得到的评价值当中提供最大评价值的评价模型的选择手段,对所述声音输入手段所输入的声音信号进行识别的声音识别手段;根据所述运算处理手段计算出的当前位置信息从所述记录手段当中读出道路地图信息,同时根据所述声音识别手段得到的声音识别信息控制工作状态的控制手段;和在所述存储手段当中读出的道路地图上显示依据所述当前位置信息的当前位置的显示手段。
本发明的便携电话装置,利用无线频率电磁波在基站间进行通信,其中具有:输入声音信号的声音输入手段;靠键操作输入信息的键输入手段;将所述声音输入手段输入的声音信号调制为无线频率信号的调制手段;发送所述调制手段送出的无线频率信号,同时接收无线频率信号的天线;将所述天线所接收的无线频率信号解调为声音信号的解调手段;将所述解调手段解调为声音信号的由所述天线接收的无线频率信号输出的声音输出手段;一声音识别手段具有:从声音信号当中提取声特征量序列的声分析部;和根据所述声分析部所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理部,其中具有:根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价手段;根据所述多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价手段;和选择在所述第一评价手段和第二评价手段所得到的评价值当中提供最大评价值的评价模型的选择手段,对所述声音输入手段所输入的声音信号进行识别的声音识别手段;和根据所述键输入手段输入的信息或所述声音识别手段识别的声音识别信息,对通信动作进行控制的控制手段。
本发明的信息处理装置,其中包括:存储程序的存储手段;根据键操作输入信息的键输入手段;输入声音信号的声音输入手段;一声音识别手段具有:从所述声音输入手段所输入的声音信号当中提取声特征量序列的声分析部;和根据所述声分析部所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理部,其中具有:根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价手段;根据所述多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价手段;和选择在所述第一评价手段和第二评价手段所得到的评价值当中提供最大评价值的评价模型的选择手段,对所述声音输入手段所输入的声音信号进行识别的声音识别手段;和根据所述存储手段存储的程序执行处理,根据所述键输入手段输出的信息或所述声音识别手段输出的声音识别信息,控制所述程序处理状态的运算手段。
附图简要说明
图1是示意声音识别装置概要构成的框图。
图2示出的是关于3个单词w1,w2,w3连接的制约例。
图3示出的是按状态变迁模型建模的声音模型例。
图4示出的是声音模型网络例。
图5示出的是状态变迁网络例。
图6示出的是对网络词头共同部分进行了约束的网络。
图7示出的是从图6网络起进一步对词尾共同部分约束得到的网络。
图8是示意声音识别装置概要构成的框图。
图9是示意声音识别装置识别部内部构成的框图。
图10是示意声音识别处理过程的流程图。
图11示出的是利用单词w1,w2,w3的单词声音识别所用的网络。
图12示出的是利用单词w1,w2,w3的单词声音识别所用的网络。
图13示出的是单词识别实验的结果。
图14示出的是一例状态变迁网络。
图15是改进了处理过程的流程图。
图16A示出的是对状态变迁网络上全部状态计算分值的情形。
图16B示出的是利用正向分值计算和反向分值计算进行分值计算的情形。
图16C示出的是单纯限制对累加分值进行计算的状态数的同时进行分值计算的情形。
图17是示意导航装置概要构成的框图。
图18是示意导航装置组装到汽车上状态的立体图。
图19是示意导航装置组装到汽车上情形驾驶席附近的立体图。
图20是示意便携电话装置概要构成的框图。
图21是示意便携电话装置外观的立体图。
图22是示意信息处理装置概要构成的框图。
实施发明的最佳方式
下面参照附图说明本发明较佳构成例。
本实施例的声音识别装置如图8所示,包括下列构成:从声音信号当中进行特征量提取的声分析部1;根据声分析部1提供的特征量序列确定单词序列的识别处理部2;对音韵等建模的声模型3;以及对声模型3连接关系建模的语言模型4。
另外,本发明实施例中,作为声音识别方法采用隐含马尔可夫模型(HiddenMarkov Model;HMM)。所谓HMM,是指通过具有状态变迁几率和码元输出几率的状态变迁模型,按照此几率模型进行识别。
输入声音识别装置的声音信号送至声分析部1,这里按微小时间间隔进行识别所需特征量的提取。而且,这些特征量作为向量提取,或进行量化作为标量提取。靠声分析部1提取的特征量序列送至识别处理部2。
识别处理部2利用声模型3和语言模型4,确定与声分析部1送来的特征量序列相对应的单词序列,将它输出。识别处理部2如图9所示,具有:为在前方进行评分的第一评价手段的前方评分部11;为在后方进行评分的第二评价手段的后方评分部12;和根据这些前方评分部11和后方评分部12输出的评价值选择单词序列的选择部13,作为单词序列评价用功能性模块。
前方评分部11和后方评分部12中,可利用声模型3和语言模型4,对各种单词序列进行加分,将其分值最高的单词序列、或靠前的多个单词序列作为假设的识别结果选出。
此时,对于声模型3来说,可按音韵、音节、单词、短语、语句等各种层次建模。而语言模型4则是对声模型3连接关系建模,用于能够识别若干声模型3连接所得到的单词、短语或语句等。
另外,有时对一个输入声音选出相对应的一个单词时称为单词识别,而选出相对应的单词序列时称为连续单词识别或连续声音识别,但这里,对这些不加区别,输出全部按单词序列进行处理。
声音识别问题,可对声分析部1送来的特征量序列
X1={x1,x2,…,xT},
在可按声模型3和语言模型4处理的全部单词序列当中,按求得使其分值
S(w1,w2,…,wN| x1,x2,…,xT)。
最大的单词序列
w1,w2,…,wN
或靠前的多个候选的问题,进行公式化。该分值计算方法可利用状态变迁网络进行。
先说明本发明第一实施例。
可考虑从w1,w2,w3当中确定与输入声音相对应的单词这种简单单词声音识别问题。
这里,各单词连接下列声模型:
p1,p2,p3,…,p9
并给出如下
w1:p1,p2,p4,p7,p9
w2:p1,p2,p5,p8,p9
w3:p1,p3,p6,p8,p9
此外,各声模型pi设定为按图3所示状态变迁模型建模。具体来说,各声模型p1设定为按3个状态组成的状态变迁模型建模。
参照图10所示的流程图说明第一实施例语言识别流程。
可对这种状态变迁模型,分别另外构成图11所示的词头兼并的网络和图12所示的词尾兼并的网络。
而且,可通过用声模型的状态变迁模型调换各自网络上的节点,制作2个状态变迁网络。
这里,从声分析部1送来特征量序列
X1={x1,x2,…,xT}
时,识别处理部2先利用图11构成的状态变迁网络,从时刻t=1起按时间方向进行累加分值的计算。
这里,可以与上述定向搜索一样,限制应计算分值状态进行计算。
具体来说,在图10最初步骤S11,作为第一评价工序,若最终时刻t=T为止的分值计算结束,便对各单词将作为其结果求得的初始节点至最终节点的累加分值,设定作为正向分值。在识别处理部的前方评分部11中进行这种正向分值计算。
此时,对于因修剪路径而未求得累加分值的单词,作为无分值处理。
步骤S12中,作为第二评价工序,利用图12构成的状态变迁网络,从时刻t=T起按时间相反方向进行分值计算。这时,也限制应计算分值状态进行计算。
因此,现在步骤S12中便求得从最终节点至初始节点的累加分值。重新对各单词将它设定作为反向分值。在识别处理部2的后方评分部12中进行这种反向分值计算。
此时,对于因修剪路径而未求得累加分值的单词,作为无分值处理。
另外,对于步骤S11的前方评分和步骤S12的后方评分来说,也可以先进行步骤S12的后方评分,再进行步骤S11的前方评分。
接着,步骤S13中,就每一单词比较正向分值和反向分值,并改为将其分值较佳的重新设定为该单词最终分值。
最后,步骤S14中进行的是选出全部单词当中最终分值最佳的或靠前的多个候选。在识别处理部2的选择部13中进行这种后方选择。
这里应注意的是,正向分值和反向分值只是分值累加从t=1起按时间方向进行和从时刻t=T起按时间相反方向进行的不同,如果不对应计算分值状态数目加以限制,就会成为完全相等的分值。
以上处理流程与以往大不相同之处在于,增加了进行反向分值计算的步骤S12的处理,和比较正向分值和反向分值、对单词将较佳的分值给出作为最终分值的步骤S13的处理。
通过增加这种处理,进行正向分值计算时,会从状态变迁网络上修剪分值最佳的路径,但希望进行反向分值计算时,也发现该路径。
同样,进行反向分值计算时,会修剪分值最佳的路径,但也希望进行正向分值计算时,该路径分值计算已经结束。
也就是说,是因为通过两者独立进行正向分值计算和反向分值计算,能够相互提高求得分值最佳路径的比例。
利用此性质,正向分值计算过程中,未必一定要发现分值最佳的路径,因此能够大幅度限制应计算分值状态数目。
尤其是初始时刻输入累加分值较低的那种特征量序列X时,如果属于最终的分值最高的,便可希望特征量序列后半段累加的分值较高,这意味着反向分值计算过程中修剪的可能性很低,所以正向分值计算过程中能够对于应计算分值状态数目加上决定过的制约。
实际,可利用此方法获得进行一下单词识别试验的结果、图13所示的结果。试验是利用5075个单词词典的单词识别试验,男女组合20名对词典中包含的303词发音时,对正确识别的比例进行调查。
纵轴表示正确识别的比例[%]。而横轴则表示实际进行分值计算的总状态数目除以所输入的特征量序列
X={x1,x2,…,xT)的长度T的结果,即某一时刻内进行分值计算的平均状态数目。
实线表示的是象以往那样利用图11构成的状态变迁网络仅在正向进行分值计算时的结果。虚线表示的是进行该第一实施例所示的分值计算时的结果。其中,该方式中,对进行正向和反向两者分值计算时的总状态数目全部相加,将它除以所输入的特征量序列长度T的结果作为横轴数值。
顺便说一下,图11构成的状态变迁网络其状态数目全部为73873个状态,利用此网络对进行分值计算的状态不加制约时的正确率为96.39%。
由该试验结果可知,无论用现有方法,还是用该第一实施例方式的方法,只要使应计算分值状态数目增加,正确率便提高,并逐渐接近对全部状态进行分值计算时的正确率96.39%。
但对两者方式比较时可以显示,第一实施例方式更加快地收敛于96.39%。这便显示出,就达到同样程度正确率所需的计算量来说,本方式较少便能完成。
另外,这里是以单词声音识别为例进行说明的,即便根据图2所示的语言制约求出与输入声音对应的单词序列时也能够进行同样的分值计算。
首先,为了进行正向分值计算,准备图6所示共同词头经约束即经过兼并的网络。接着,为了与此分别另外计算反向分值,如图6所示还准备共同词尾经约束的网络。接下来,通过在各自网络中用声模型调换各节点,便可获得两个状态变迁网络。
作为预处理进行如上处理,识别过程中,采用各自状态变迁网络,进行如图10所示步骤S11中的正向分值计算和步骤S12中的反向分值计算。
此时,靠正向分值计算求得正向分值最高的单词序列及其分值。同样,在反向分值计算中,求得反向分值最高的单词序列及其分值。
因此,步骤S13中比较各自最高的分值,步骤S14中最终选出具有较高分值的单词序列即可。
而且,图2以外,对具有多个初始节点或最终节点的语言制约,也可以利用进行同样分值计算的方法。此时,步骤S11中正向分值计算和步骤S12中反向分值计算过程中,分别求得多个单词序列和与之对应的分值。
因而,如果两者含有相同单词序列时,步骤S13中与上述单词识别情形相同,将正向分值和反向分值中较佳的设定为该单词序列的最终分值即可。接着,最后在步骤S14中从所求得的全部单词序列当中选出最终分值中最佳的或靠前的多个候选即可。
接下来,对上述第一实施例进行补充说明。作为第一实施例的补充说明,稍稍具体地说明状态变迁网络。
上述第一实施例中给出的是就分值计算所用的状态变迁网络准备两个用于正向分值和反向分值计算的方法。
这基于这样一种原因,从独立进行正向分值计算和反向分值计算这种观点来看,制作各自最佳的状态变迁网络可提高各自分值计算的精度。
尤其是第一实施例中,利用对语言模型3中所含有的单词共同词头进行约束的方法和对共同词尾进行约束的方法来实现它。
通常,对于状态变迁网络,在某一变迁条件下,可考虑可唯一确定从某一状态开始的变迁目标的情形,和无法唯一确定从某一状态开始的变迁目标即存在多个变迁目标的情形。
例如,图4所示的网络当中,无法唯一确定开始至p1的变迁。该图4是对图2所示的单词间的变迁,就如上所述下面给出的声模型表达的。
w1:p1,p2,p4,p7,p9
w2:p1,p2,p5,p8,p9
w3:p1,p3,p6,p8,p9
图5示出的是图4中各声模型如图3所示在3个状态下建模的场合。与此不同,图6所示的网络中,可唯一确定开始至p1的变迁。
而且,对于将无法唯一确定变迁目标的那种网络变换为可唯一确定的网络的方法来说,已经提出了通过约束如上所述的共同词头和词尾,按树结构进行组织这种方法,除此以外还提出了从不确定性自动逻辑模型变换为确定性自动逻辑模型的方法等若干算法。
因此,考虑适合上述步骤S11中正向分值计算和步骤S12中反向分值计算的状态变迁网络。
正向分值的计算,从时刻t=1起按时间方向正向顺序,可获取计算初始节点起累加分值的过程。其含义表明,从初始节点起按顺序,将通过约束无法唯一确定的变迁目标所得到的状态变迁网络用于正向分值计算即可。
同样,反向分值的计算,从最终时刻t=T起按时间反向顺序,可获取计算最终节点起累加分值的过程。其含义表明,从最终节点起按顺序,将通过约束无法唯一确定的变迁目标所得到的状态变迁网络用于反向分值计算即可。
所以,应准备的2个状态变迁网络,制作成从初始节点起的变迁中模糊性尽可能小的以及从最终节点起的变迁中模糊性尽可能小的即可。
上述第一实施例中给出的图11或图12中的网络为其中一例。
而且,欲用小规模硬件实现声音识别的场合,之所以用这种完全不同的2个状态变迁网络,是因为可对存储器有效利用,也许是不怎么希望的。
这种时候,也可用一个状态变迁网络来替代。例如,对于第一实施例中说明的连续声音识别问题,即在图2所示语言制约下,从可组合w1,w2,w3的单词序列当中确定一个与输入声音相对应的单词序列这种问题,还能够通过构成图7所示的词头和词尾兼并的网络,用为声模型的状态变迁模型调换该网络上的节点,仅制作一个状态变迁网络。
该网络包含全部的如上所述并且下面给出的各个单词所对应的路径。
w1:p1,p2,p4,p7,p9
w2:p1,p2,p5,p8,p9
w3:p1,p3,p6,p8,p9
所以,用它能够进行图10所示步骤S11中的正向分值计算和步骤S12中的反向分值计算。此后进行的步骤S13中的分值比较和步骤S14中的单词序列选定,与第一实施例相同即可。
以下说明本发明第二实施例。
在上述第一实施例中,如图10所示给出独立进行步骤S11中正向分值的计算和步骤S12中反向分值的计算,步骤S13中将正向分值和反向分值中较佳的设定为最终分值,设定为相对应的单词序列,最后选出并输出最终分值中最高的单词序列或靠前的多个候选这种方式。
完全独立进行步骤S11中正向分值的计算和步骤S12中反向分值的计算时,存在各自进行重复计算的情况,这里在第二实施例中说明对此进行兼并的方法。
首先,现有技术说明中给出的是累加分值的计算式采用式(1)或式(2)的计算方法,在这些表达式中已经说明了累加局域相似度di(xt)这种情况。
这种局域相似度di(xt),通过利用状态变迁网络中各状态si所定义的评价尺度,作为表示与特征量xt相似性的数值进行计算。
接着,对于各状态si定义的评价尺度,例如作为根据与模板的距离、几率密度函数或神经网络等所计算的数值给出,因而,有时用以求出其评价值的计算量也相当大。
实际上,其计算式中有的还采用下式所示的多维正态分布。 d i ( x ) = 1 ( 2 π ) n / 2 | Σ i | 1 / 2 e - 1 2 ( x - μi ) T Σ i - 1 ( x - μi ) 为了就各状态i对利用此式(3)这种函数的评价值进行计算,需要非常大的计算量。因此,μi和∑i分别表示状态i定义的平均向量和协方差矩阵。
但某一时刻t,步骤S11中正向分值计算和步骤S12中反向分值计算当中所需的的局域相似度di(xt)的计算,若用相同评价式计算,应该是完全相同的。
例如,正向分值计算过程中,需要进行某个状态si评价值di(xt)的计算,而反向分值计算过程中,需要进行某个状态sj评价值dj(xt)的计算时,若评价式di(xt)和dj(xt)相同,便进行完全相同的计算。因此,可首先考虑将此计算兼并。
通常,用到的是用于步骤S11中正向分值计算的状态变迁网络上定义的全部评价式的组合
di(x)(i=1,2,…,N),和用于步骤S12中反向分值计算的状态变迁网络上定义的全部评价式的组合
dj(x)(j=1,2,…,N)相同的声模型时,应该为完全相同。
因此,正向分值计算和反向分值计算中任一种,对评价值di(xt)进行计算时,在数据表中存储其结果,另一方要进行相同计算时,其计算结果则参照数据表。通过这样进行,便可避免重复相同的计算。
具体来说,对于用来对与各特征量的声相似性进行评价的评价式,对特征量序列所含的某个特征量进行过一次评价值计算的,设法将其计算结果存储于数据表中,此后需要对相同特征量利用相同评价式进行计算时,采用数据表存储的计算结果。
而且,对受话器所输入的声音信号,一边取得声音一边进行识别处理时,步骤S12中的反向分值计算,可以只从说话结束时刻起开始计算,但若能够对状态变迁网络上定义的全部评价式组合
dj(x)(j=1,2,…,N)一边与声音取得保持同步,一边计算每一时刻评价值dj(xt)的话,便通过将其计算结果全部存储在数据表中,可以在反向分值计算时仅参照数据表得到评价值dj(xt)的数值。
当然,反向分值计算过程中,是对应计算分值状态加以制约的,因而本来不需要对全部评价式进行评价值dj(xt)的计算,但是否需要计算该评价值,是在反向分值计算过程中确定的,因而在说话结束时间之前起码是无法确定的。
因而,若能够对于全部评价式在说话当中进行评价值dj(xt)计算的话,通过全部进行这种计算,便能够缩短步骤S14中说话结束后到确定分值最高的单词序列所需的时间。
具体来说,对于用来进行与各特征量的声相似性进行评价的全部评价式,独立进行对与特征量序列所含的各特征量的评价值进行计算、对评价值进行累加的处理,并将它存储于数据表。
此外,通过用预先的大量测试数据,实际进行反向分量计算,可对状态变迁网络上定义的全部评价式
dj(x)(j=1,2,…,N)调查进行各评价式dj(xt)计算的频度。
因此,设法一边与声音的取得保持同步,一边根据其频度分布,仅进行频度高的评价式dj(xt)的计算,并设法将其计算结果存储于数据表中。
具体来说,并非对全部评价式进行评价值计算,而是在对评价值进行累加过程中预先推定进行数据表参照的频度,仅对该频度高的评价式,对实际得到的特征量的评价值进行计算,并将它存储于数据表。
而且,对于正向分值计算当中求得的评价值di(xt)也存储于数据表中。接下来,进行反向分值计算时,计算好的参照数据表,其他的则实际进行计算。
因此,可省略进行反向分值计算时所需评价值dj(xt)的部分计算,仍然能够缩短步骤S14中说话结束后到确定分值最高的单词序列所需的时间。
此外,进行正向分值和反向分值计算时,有时累加分值的计算本身重复。
考虑利用例如图14所示状态变迁网络的计算。利用该网络进行步骤S11中正向分值计算时,变成对时刻t进行分值计算的状态si求得该状态的累加分值αi(t),可以将它存储于数据表。同时,还可以存储该累加分值从哪一路径进行了累加。
例如利用现有技术中说明的式(2)的累加分值计算,即利用维特比算法进行计算时,αi(t)计算的同时可确定从哪一状态sj变迁来,只要将该变迁源状态sj和αi(t)同时存储就行。将此用Bi(t)表示。
通常,通过从时刻t=1至时刻t=T进行累加分值的计算,来求最终状态s16的累加分值α16(T),因而通过将它设定为正向分值,从其最终状态s16由最终时刻t=T所确定的变迁源B16(T)起按时间相反方向搜索变迁源,来确定一条给出正向分值α16(T)的路径。
另外,下面以全部状态为对象,就存储累加分值αi(t)和变迁源Bi(t)进行说明,但也能仅在表示例如单词词尾的状态下存储这些数值。
这里着眼于状态s5。若假定进行的是某一时刻t=t1对该状态计算分值,便存储累加分值α5(t1)和变迁源B5(T1)。
α5(t1)表示时刻t=1至时刻t=t1的累加分值,给出该分值的路径可通过从B5(T1)起按时间相反方向搜索变迁源获得。具体来说,在本例中可以唯一确定从初始节点s0至状态s5的路径。
正向分值的计算是每一时刻对于应计算分值状态一边加以制约一边进行的,因而该累加分值α5(t1)未必与对于全部状态进行分值计算时所得到的结果一致。
但进行分值计算这种情形,在高分值下可进行变迁的可能性较高,因而可以期望为接近于对全部状态进行分值计算时所获得结果的数值。
所以,若从时刻t=t1至时刻t=1按时间相反方向从状态s5至s0进行累加分值计算,也能够期望该数值仍然接近α5(t1)数值。
此外,若该数值与α5(t1)一致的话,便意味着该计算完全重复。
因此,对于图14给出的状态变迁网络进行步骤S12中反向分值计算时,已经在正向分值计算过程中求得某一状态si时刻t1的累加分值αi(t1)的话,便省略从该状态si至初始节点s0对累加分值进行计算。
但仅在初始节点s0至状态s5的路径在状态变迁网络上唯一确定时,才进行这种省略。例如,s0至s5的路径可唯一确定,而s0至s13的路径无法唯一确定,因而,即便假定状态s13可求得α13(t1),也省略不了此前的分值计算。
接着,省略这种累加分值计算时,通过使正向分值计算过程中获得的αi(t1)和反向分值计算过程中该时刻t1变迁至状态si的分值累加值相加,存储作为一个候选的反向分值。
接着,通过使初始节点s0至状态s1的路径和反向分值计算过程中确定的状态s1至最终节点s16的路径结合,可获得一条初始节点至最终节点的路径,因而将该路径所表示的单词序列设定为刚才存储的分值所对应的单词序列。
因此,反向分值计算结束时,便求出若干个候选单词序列和分别对应的反向分值。
因此,将其中分值最高的重新选定为步骤S12中反向分值计算所确定的单词序列。此后进行的步骤S13中正向分值和反向分值之间的比较,和步骤S14中对最终单词序列的确定均如上所述。
另外,已经说明过,如图14中状态s13所示,至初始节点s0的路径在状态变迁网络上无法唯一确定时,此后的累加分值计算不省略,其原因在于,考虑多个路径时,通过进行反向分值计算,很可能对与正向分值计算所得到的路径不同的路径给出较高的分值。
本发明目的在于,通过反向分值的计算求得这种正向分值计算得不到的路径,因而不可以省略这种计算。
以下说明本发明第三实施例。
上述第二实施例中,对于步骤S11中正向分值计算和步骤S12中反向分值计算,说明对重复的计算加以兼并的方法。这里,再稍稍说明对受话器输入的声音信号,一边取得声音一边进行识别处理的实施例。
如上所述,步骤S12中反向分值的计算,只能从说话结束时刻起开始计算。因而,假定说话结束的同时正向分值计算也结束,还是会使识别结果的输出延迟反向分值计算所需的计算时间。
这意味着,利用声音识别结果来操作设备等时候,将造成其响应延迟。这种意思也可以说,较好是使反向分值计算所需的计算量尽可能少。
因此,可考虑进行正向分值计算时放宽对于应计算分值状态的制约,而进行反向分值计算时则对于应计算分值状态进行严格制约的方法。
而且,如图15所示,步骤S21中为结束正向分值计算时,便在步骤S23求得正向分值最佳的单词序列或靠前的多个候选单词序列,并输出其结果,然后步骤S22中为结束反向分值计算时,便在步骤S24对如上所述的正向分值和反向分值进行比较,假如得到的结果与正向分值计算所确定的识别结果不同时,便在步骤S25将它纠正输出,假如结果没有不同,便输出已输出的识别结果为正确结果这种信号。
通过这样构成,即便步骤S22中反向分值计算尚未结束,也能利用步骤S21的正向分值计算结果进行处理。
例如识别地名后检索相应的地图进行显示的系统中,可以根据正向分值计算结果进行完成显示所必须进行的检索或地图信息读出等处理。
假如正向分值计算结果有误时,对地图的检索改一下就行,而没有什么错误的话,根据正向分值计算结果进行地图显示就行。
因此,没有错的时候,便可缩短说话结束后至显示地图所需的时间。
最后,参照图16A、图16B和图16C说明本发明实施例概念。这些图当中,令斜线部分表示求得正确单词序列的说话,其他则表示未求得正确单词序列的说话。
图16A示出的是对状态变迁网络上全部状态进行分值计算的情形。
通常,通过限制进行分值计算的状态数目,求得正确单词序列的比例减小。因而,为了提高该比例,以往采用的是放宽制约的方法。
与此不同,上述实施例中说明的与图16B对应。具体来说,本发明实施例中,设法靠正向分值计算和反向分值计算两者的结果,提高求得正确单词序列的比例。
因此,正向分值计算或反向分值计算当中,即便大大地限制进行累加分值计算的状态数目,也能使最终所得到的正确率不致于下降到这种程度。
图16C示出的是如以往那样一边单纯地对计算累加分值的状态数目加以限制一边进行分值计算的情形。因而,与现有报导相对应的图16B相比较时,达到相同正确率所需的总计算量较小。
接下来参照图17说明汽车导航中应用上述声音识别的具体例。
本具体例将声音识别装置210与导航装置220连接构成,声音识别装置210连接有受话器211。作为该受话器211采用的是例如指向性设定得相对较窄、仅对汽车驾驶席位坐者的话音具有良好拾音的受话器。
接着,将该受话器211拾取的声音信号提供给模拟/数字变换器212,并变换为规定取样频率的数字声音信号。接着,将该模拟/数字变换器212输出的数字声音信号提供给称为DSP(模拟数字处理器)集成电路构成的数字声音处理电路213。该数字声音处理电路213中靠分频段、滤波等处理,将数字声音信号形成为例如向量数据,并将该向量数据提供给声音识别电路214。
该声音识别电路214连接有声音识别数据存储用ROM215,按照规定的声音识别算法(例如HMM:隐含马尔可夫)对数字声音处理电路213提供的向量数据进行识别动作,从ROM215存储的声音识别用音韵模型选定多个候选,读出与该候选中一致性最高的音韵模型相对应存储的文字数据。
这里,对本例声音识别数据存储用ROM215的数据存储状态进行说明,本例场合仅识别地名和导航装置操作指令语言,作为地名仅登录国内都道府县和市区町村的名称,存储作为数据的音韵模型,用以就每一都道府县和市区町村对其地名的文字码和地名进行声音识别。
接着,声音识别电路214中根据输入向量数据,与经规定声音识别算法得到的识别结果相一致的与音韵模型所对应的文字码为地名文字码时,从ROM215当中读出该文字代码。接着,该读出的文字码提供给经纬度变换电路216。该经纬度变换电路216连接有经纬度变换数据存储用ROM217,与声音识别电路214提供的文字数据相对应从ROM217读出经纬度数据及其附属数据。
声音识别装置214中声音识别算法如上所述,为对声音进行分析,利用声模型和语言模型进行识别处理,第一评分一边按正向顺序对评价对象模型加以制约一边对评价模型进行评价,第二评分则同样按反向顺序进行评价,根据这些第一和第二评分中的评价选择候选单词。先前已详细说明该声音识别,因而省略这里的说明。
通过采用这种声音识别算法,声音识别装置可高速求得为识别结果的单词序列,可减轻输入时用户负担。
接着,将经纬度变换数据存储用ROM217读出的经纬度数据及其附属数据,作为声音识别装置210的输出提供给输出端子210a。接下来,将声音识别电路214检测出一致的输入声音的文字码数据,作为声音识别装置210的输出提供给输出端子210b。该输出端子210a、210b得到的数据提供给导航装置220。
另外,本具体例的声音识别装置210设有常开的开闭开关(即仅当按压时才处于导通状态的开关)的说话开关218,靠模拟/数字变换器212至经纬度变换电路216的电路仅对该说话开关18按压期间受话器211拾取的声音信号,进行上面所述的处理。
接下来说明与声音识别装置210连接的导航装置220的构成。该导航装置220包括GPS用天线221,由当前位置检测电路222对该天线221接收的GPS用卫星发出的定位用信号进行接收处理,分析此接收到的数据,来检测当前位置。对于这样检测出的当前位置的数据来说,为此时绝对位置即纬度和经度数据。
接着,将这样检测出的当前位置数据提供给运算电路223。这种运算电路223是使导航装置220的动作起到所说明的系统控制器作用的电路,并安装存储道路地图数据的CD-ROM(光盘),连接有读出该CD-ROM存储数据的CD-ROM驱动器224,存储数据处理所需的各种数据的RAM225,检测装上该导航装置的车辆其运行的车速传感器226和操作键227。此外,获得当前位置等经纬度座标数据时,便控制CD-ROM驱动器224读出该座标位置附近的道路地图数据。接着,将CD-ROM驱动器224读出的道路地图数据暂时存储在RAM225中,利用这样存储的道路地图数据制作显示数据,用以显示道路地图。这时,所形成的显示数据通过对汽车内规定位置配置的操作键227的操作等按所设定的显示标尺(比例标尺)显示地图。
而且,运算电路223根据声音识别装置210识别的声音识别信息,控制各种模式的切换。就该模式来说,例如有地图图形信息的显示或该位置相关文字信息的显示等。
而且,将运算电路223制作的显示数据提供给图像生成电路228,由该图像信号生成电路228根据显示数据生成规定格式的图像信号,将该图像信号提供给输出端子220c。
接下来,将该输出端子220c输出的图像信号提供给显示装置240,由该显示装置240根据图像信号进行显像处理,在显示装置240的显示屏240上显示道路地图等。
而且,除了显示这种当前位置附近的道路地图以外,还设法可显示靠操作键227的操作等指令位置的道路地图等,并根据运算电路223的控制进行显示。而且,根据操作键227的操作等,在登录了“目的地”、“出发地”、“途经地”、“自家宅第”等特定座标位置时,在RAM225中存储这些登录的座标位置数据(经度和纬度)。
而且,车速传感器226检测出汽车行驶时,运算电路223不受理操作键227操作当中除了相对简单操作以外的其他操作。
而且,该导航装置220包括自动导航部229,根据汽车一侧引擎控制用计算机等提供的与车速相对应的脉冲信号,运算汽车正确的行驶速度,并且根据自动导航部229内陀螺仪的输出检测行驶方向,根据速度和行驶方向所确定的位置对自动导航的当前位置进行定位。例如,当处于当前位置检测电路222无法检测位置的状态时,便根据最后当前位置检测电路222检测出的位置,进行自动导航的定位。
而且,运算电路223连接有声音合成电路231,当运算电路需要声音的某种指令时,声音合成电路231便执行该指令的声音合成处理,由声音合成电路231连接的扬声器232输出声音。用声音进行例如“接近目的地”、“行驶方向朝左”等导航装置所需的各种提示。而且,该声音合成电路231还根据所提供的文字数据对声音识别装置210识别的声音进行声音合成处理,由扬声器232按声音方式输出。下面说明该处理。
这里,该导航装置220包括输入端子220a、220b提供由声音识别装置210输出端子210a、210b输出的经纬度数据及其附属数据和文字码数据,并向运算电路223提供该输入端子220a、220b得到的经纬度数据及其附属数据和文字码数据。
接着,运算电路从声音识别装置210一侧提供该经纬度等数据时,控制CD-ROM驱动器224从盘中读出该经度和纬度附近的道路地图。接着,将CD-ROM驱动器224读出的道路地图数据暂时存储在RAM225中,利用这样存储的道路地图数据制作显示数据,用以显示道路地图。这时,所形成的显示数据以所提供的纬度和经度为中心进行显示,并按附属于经纬度数据的显示标尺所指令的标尺(比例尺)显示地图。
接下来,由图像信号生成电路228根据该显示数据生成图像信号,显示装置240显示声音识别装置210指令的座标位置的道路地图。
而由声音识别装置210输出端子210b提供对导航装置操作的指令的语言文字码时,由运算电路223判别对该操作进行指令的语言文字码的话,运算电路223便进行相应的控制。这时,为指令“目的地”、“出发地”、“途经地”、“自家宅第”等显示位置的语言文字码时,判断是否在RAM225中登录该显示位置座标后,为登录时便控制CD-ROM驱动器224从盘中读出该位置附近的道路地图。
而且,登录“目的地、“出发地”、“途经地”、“自家宅第”等显示位置时,还可通过识别“目的地登录”等声音来设定。登录这些位置时,存在该指定时便将显示装置240显示的地图上的光标位置(由操作键227的规定操作在地图任意位置上显示的标记)设定为所登录位置。另外,声音运算电路223登录过目的地或途经地等地方时,便自动设定至该位置的线路。具体来说,以登录为自家的位置或当前位置检测电路22检测出的当前位置为起点,对认为是到达该位置的最佳线路进行运算处理,并自动进行。这时,从外部可获得拥堵信息等道路状况数据时,还可以考虑该数据进行线路设定。
接着当声音识别装置210将表示所识别的声音发音的文字码数据提供给运算电路233时,该文字码所表示的语言由声音合成电路231合成处理,从声音合成电路231连接的扬声器232按声音形式输出。例如声音识别装置210一侧声音识别为“トゥキョゥトブンキョゥク(东京都文京区)”,根据这样识别的发音文字序列数据,由声音合成电路231进行合成处理以生成发音为“トゥキョゥトブンキョゥク”的声音信号,由扬声器232输出这样生成的声音信号。
这时,本具体例由声音识别装置210进行声音识别时,向导航装置220的端子220a提供的是纬度、经度数据,因而向端子220b提供表示所识别的声音发音的文字码数据,大致是同时的,但运算电路223对最初声音合成电路231所识别的语言执行声音合成处理,接着再根据经度、纬度数据执行道路地图显示数据的制作处理。
接下来说明本具体例装到汽车上时的设置状态。
如图18所示,汽车250其方向盘251设置在驾驶席位252的前方,基本上设定为由坐在驾驶席位252上的驾驶员对导航装置进行操作。但也有在该汽车250内由其他同座人进行操作的情形。而且,与该导航装置主体220连接的声音识别装置210设置于汽车250内的任意空间(例如后部的后背箱内),在车体外侧(或后背窗内侧等车辆内部)安装定位信号接收用天线221。
而且,如图19驾驶席位附近所示,在方向盘251的肋部配置后面述及的说话开关218或导航装置的操作键227,这些开关或按键配置成即便在驾驶过程中操作也毫无障碍。而且,与导航装置连接的显示装置240也配置于驾驶员前方不妨碍视场的位置。而且,导航装置220内输出经过声音合成的声音信号的扬声器232安装在输出声音可达驾驶员的位置(例如显示装置240的肋部等)。
而且,本具体例的导航装置可进行声音输入,此用途的受话器211安装在驾驶席位前方前窗玻璃上部配置的遮阳板253上,以拾取坐在驾驶席位252上的驾驶者的话音。
而且,本具体例的导航装置主体220与该汽车引擎控制用计算机254连接,由引擎控制用计算机254提供与车速成正比的脉冲信号。
如上所述,本具体例具有:用以检测车辆当前位置的当前位置检测电路222;车速传感器226;根据自动导航部229等检测车辆行驶方向的方向检测手段;放置存储有道路地图信息的CD-ROM的CD-ROM驱动器224;输入声音信号的受话器211和声音识别装置210。
而且,本具体例还具有:根据当前位置检测电路222检测出的车辆当前位置和从CD-ROM当中读出的道路地图信息,计算出修正车辆当前位置位于道路上的当前位置信息,根据所计算出的当前位置信息从CD-ROM当中读出道路地图信息,并根据从声音识别装置210得到的声音识别信息控制动作状态的运算电路223;以及在存储手段读出的道路地图上显示基于当前位置信息的当前位置的显示装置240。
以下参照图20说明便携电话装置应用上述声音识别的具体例。
便携电话装置中,天线315与高频模块322连接。高频模块322分别依次连接有调制解调等效电路323,信道编码解码电路324,声音编码解码电路325,以及音频电路326。音频电路326连接有受话器311和扬声器312。CPU329控制总体动作。存储器328随机存储所需数据。
便携电话装置中,声音识别电路327识别的是由受话器311经过音频电路326输入的声音信号。
声音识别电路327中的声音识别如上所述,对声音进行分析、用声模型和语言模型进行识别处理,第一评分一边按正向顺序对评价对象模型加以制约一边对评价模型进行评价,第二评分则同样按反向顺序进行评价,根据这些第一和第二评分中的评价选择候选单词。先前已详细说明该声音识别,因而省略这里的说明。
便携电话装置中,显示部313显示文字等信息。输入部314靠键操作输入信息。电池管理器330与对电源开关316的操作相对应,由内置电池向各个部分提供所需电力。
若接通电源开关316由电池管理器330向各个部分提供所需电力,CPU329便将待机模式设定为初始状态。设定了该待机模式时,CPU329在显示部313上显示表示IDLE(待机)的符号以表明处于待机模式。
在此状态下呼叫信号到来的话,该呼叫信号由高频模块322接收,并由调制解调等效电路323解调。解调输出送至信道编码解码电路324解码。CPU329判定经解码的数据为该装置呼叫信号时,便控制声音编码解码电路325,产生呼叫音。该呼叫音经过音频电路326由扬声器312输出。而且,此时CPU329还控制显示部313,闪亮显示一表示有呼叫的CALL(呼叫)标记。
用户根据扬声器312发出的呼叫音或文字CALL的闪亮显示,意识到有呼叫。用户据此进行例如“电话接收”这种发音。该声音信号经受话器311和音频电路326输入至声音识别电路327。
声音识别电路327判断该“电话接收”这种声音信号为用户接电话这种意思,并传送至CPU329。
CPU329据此对信道编码解码电路324进行控制,产生一接收电话这种意图的信号。该信号由调制解调等效电路323调制,从高频模块322经天线315发送。作为基站的电话局接收到此检测信号时便接通电话线路。
另外,用户按住输入部314的键,也能输入受理电话这种意思。具体来说,用户一旦按住输入部314的接收键,CPU329便同样处理以便接通电话线路。
电话线路接通后,高频模块322经天线315接收的电波在调制解调等效电路323中解调,在信道编码解码电路324中解码。信道编码解码电路324输出的声音数据输入至声音解码电路325中解码。声音解码电路325输出的声音数据输入到音频电路326中经过D/A变换后由扬声器312输出。
另一方面,受话器311输入的声音信号经音频电路326A/D变换后,输入到声音编码解码电路325中编码。该声音数据经信道编码解码电路324输入到调制解调等效电路323中调制。该调制信号提供给高频模块322,由天线315按RF(射频)信号输出。这样,就可进行通常的对话。
对话结束时,用户进行例如“对话结束”这种发音。该声音信号通过受话器311和音频电路326输入声音识别电路327。
声音识别电路327判断该“对话结束”这种声音信号为用户挂断电话这种意思,并传送至CPU329。CPU329输出一挂断电话这种意图的信号。作为基站的电话局接收到该信号时,便使电话线路断开。
另外,用户按住输入部314的键,也能输入受理电话的意思。具体来说,用户一旦按住输入部314的结束键,CPU329便同样处理以便断开电话线路。
CPU329一旦输入声音识别电路327输出的断开电话线路这种意图的声音识别信息,便使模式从接收模式过渡至待机模式。因此,CPU329便使显示部313的显示自动地还原为待机模式的显示。
待机模式中,用户进行例如“拨号模式”这种发音,该声音信号便经受话器311和音频电路326输入至声音识别部327,通过识别将此意图传送给CPU329。CPU329使模式从待机模式改变为拨号模式。
设定拨号模式时,对输入部314的数字键进行操作输入规定电话号码后,进行例如“电话发送”这种发音的话,便与上述步骤相同始发对该电话被叫方的主叫动作。通话结束时,同样进行“对话结束”这种发音即可。
另外,在拨号方式中,电话号码也可以通过例如“1234…”这种发音输入,来替代对输入部314进行的键输入。而且,也可以通过进行例如被叫方姓名的发音,来输入电话被叫方电话号码。
这时,电话号码的声音信号通过受话器311和音频电路326输入声音识别部327,声音信号可识别为电话号码。所识别的电话号码送至CPU329。
如上所述,声音识别部327高速识别单词序列,可减轻用户用便携电话装置时的负担。便携电话装置中,根据声音识别装置327中的识别结果对待机模式或拨号模式进行切换,对电话接收或发送等通信动作进行控制。
接着参照图21说明便携电话装置的外观。
便携电话装置正面的上方配置有扬声器312,而下方配置有受话器311。受话器311的上面配置有包含进行主叫动作所需的种种按键的输入部314。而且这些输入部314和扬声器312之间还设有液晶显示部313。通过操作输入部314所具有的按键或向受话器311输入规定的声音信号,对规定电话号码进行主叫动作电话,便由天线315发射电波,该电波被最近的电话局天线315所接收,并呼叫被叫方。一旦被叫方应答便接通电话线路,能够通话。
而待机模式中一旦经天线315检测出呼叫信号,便由扬声器312产生呼叫音。这时,向受话器311输入规定声音信号或操作输入部314中规定按键的话,便接通电话线路而能够通话。
液晶显示部313可显示自己输入的对方被叫电话号码或与操作相关的种种短消息等。而且,随时显示声音识别部327对声音信号输入的信息进行识别的识别结果。
接着参照图22说明将上述声音识别应用于信息处理装置的具体例。
本信息处理装置具有:执行运算的CPU402;为非易失性存储元件的ROM403;为易失性存储元件的RAM404;以及为大容量固定盘片装置的硬盘411。
这些CPU402、ROM403、RAM404、硬盘411靠总线401相互连接。
CPU402根据ROM403或RAM404所存储的程序步骤执行运算处理。例如执行应用程序步骤。CPU402具有声音识别功能,下面对此加以说明。
ROM403例如存储的是信息处理装置启动时所执行的程序等。RAM404中有时读取应用程序,有时读取CPU402所处理的数据。硬盘411中存储例如声音数据这种大容量数据。
信息处理装置具有:在输入输出设备和总线401之间作为接口的输入输出接口405;显示文字或图像的显示部406;靠键操作输入信息的输入部407;与外部设备进行通信的通信部408;驱动所谓FD等可存储盘片的驱动器409;以及输入声音信号的声音输入部410。
显示部406采用例如CRT,在CPU控制下显示文字或图像。输入部407采用例如键盘,利用键操作输入信息。
通信部408是进行与外部设备通信的部分,按照例如TCP/IP进行通信。驱动器409是对例如FD这种可存储盘片进行数据记录/回放的部分。
声音输入部410是利用受话器输入声音的部分。声音输入部410输入的声音信号由CPU402进行声音识别。
具体来说,CPU402对声音输入部410输入的声音进行分析,利用声模型和语言模型进行识别处理,第一评分一边按正向顺序对评价对象模型加以制约一边对评价模型进行评价,第二评分则同样按反向顺序进行评价,根据这些第一和第二评分中的评价选择候选单词。先前已详细说明过该声音识别,因而省略这里的说明。
CPU402执行应用程序时,对声音输入部410输入的声音信号进行识别,根据声音识别信息控制程序处理状态。例如,声音输入部410输入“执行”这种声音信号的话,便执行特定处理,而输入“停止”这种声音的话,便停止特定处理。靠这种声音识别高速识别用户的声音输入,因而与用户对输入部407进行键操作输入信息的时候相比,可减轻用户的负担。
综上所述,本发明实施例的声音识别装置,具有对输入声音信号进行声特征量序列提取的声分析部,并具有声模型,它可以利用对于与声分析部所提取的各个特征量之间声相似性进行评价用的评价式,对于与声音部分或整体特征量序列图谱的相似性进行评价,而且具有用以提供关于声模型连接制约的语言模型,此外还具有从按照语言模型连接声模型所能构成的全部声模型排列当中选出与声分析部所提取特征量序列最相似的候选或靠前的多个候选的识别处理部,其中,以按照语言模型连接声模型所能构成的全部声模型排列为评价对象,从特征量序列始端至终端,一边逐次对于与各特征量的声相似性进行评价,一边从声模型排列的前方至后方累加评价值,来进行处理提供对若干声模型排列所累加的评价值,对于与上述处理相同的评价对象,具体来说,以按照语言模型连接声模型所能构成的全部声模型排列为评价对象,与上述处理相反方向即从特征量序列终端至始端,一边逐次对于与各特征量的声相似性进行评价,一边从声模型排列的后方至前方累加评价值,来进行处理提供对若干声模型排列所累加的评价值,此外进行上述两项处理时,仅对于按照语言模型连接声模型所能构成的全部声模型排列中经过某种制约的部分,进行与各特征量的声相似性评价和对该评价值进行累加,具体来说,在应成为对象的全部声模型排列当中,一边限制应进行与各特征量声相似性评价的部分,一边对该评价值进行计算和累加处理,使上述两项处理各自获得的声模型排列和累加评价值的组合全部满足,该结果获得的全部声模型排列和累加评价值的组合当中,选出累加评价值最高的声模型排列或累加评价值高的靠前的多个声模型排列。
而且,按照语言模型连接声模型时,从意味语言开始的声模型至意味语言结束的声模型对共同部分进行约束,利用由此得到的网络,对特征量序列始端至终端的评价值进行累加,与其独立地从意味语言结束的声模型至意味语言开始的声模型对共同部分进行约束,利用由此得到的另一网络,对特征量序列终端至始端的评价值进行累加。
此外,按照语言模型连接声模型时,从意味语言开始的声模型至意味语言结束的声模型对共同部分进行约束,同时从意味语言结束的声模型至意味语言开始的声模型对共同部分进行约束,利用由此得到的一个网络,对特征量序列始端至终端的评价值进行累加,对特征量序列终端至始端的评价值进行累加。
而且,对特征量序列始端至终端的评价值进行累加的处理过程中,存储的是从始端起所累加的评价值的中间结果,和给出其中间结果评价值的声模型排列,另一处理过程即对特征量序列终端至始端的评价值进行累加的处理过程中,如果产生利用相同特征量序列对相同声模型排列的评价值进行累加的需要时,即发生对于利用所剩的到始端为止的特征量序列的声模型排列进行评价值累加的处理,而且将相反方向即始端至终端已经计算的所累加的评价值,作为与之对应的累加评价值存储该数值时,通过采用这样存储的数值,省略对用到所剩的到始端为止的特征量序列的评价值进行累加的计算。
而且,对于与各特征量的声相似性进行评价时所加的制约,即对按语言模型连接的声模型当中哪一部分进行评价这种制约,减弱从特征量序列始端至终端对评价值进行累加时所加的制约,加强相反从终端至始端对评价值进行累加时所加的制约。
此外,从特征量序列始端至终端对评价值进行累加的处理结束时,选出并输出累加评价值最高的声模型排列或从累加评价值高的起算靠前的多个声模型排列,从特征量序列终端至始端进行评价值累加后,组合始端至终端的处理和终端至始端的处理得到的结果假如与先前的结果相同时,便输出具有此含义的信号,假如不同时,便转而改选输出累加评价值最高的声模型排列或从累加评价值高的起算靠前的多个声模型排列。
综上所述,所提出的声音识别装置和方法,用来在对输入声音信号自动求出相对应单词序列进行输出的声音识别装置中,高速地求得作为识别结果的单词序列。
另外,上述实施例中,对于识别方法是以HMM为例说明的,但本发明不限于此。本发明对于识别方法除了HMM以外,还可以应用例如DP匹配、神经网络。
本发明中,通过独立进行正向分值计算和反向分值计算并综合两者的结果,来实现相对于以往更为高速地求得输入声音信号所对应的单词序列。
例如,视为状态变迁网络上分值计算时,象以往那样一边单纯地对进行累加分值计算的状态数目加以限制一边进行分值计算的话,正确率和计算量之间的权衡便会成为问题,因此产生为了达到高的正确率而需要大计算量,或正确率因计算能力的制约而不得不下降这种问题。
但本发明靠反向分值计算结果进行修正,因而正向分值不需要达到高的正确率,结果能大幅度削减总计算量。尤其是计算量等存在限制的情况下要实现声音识别装置时,本发明方法非常有效。
而且,本发明给出对反向分值计算所造成的响应延迟问题进行缓和、从而对正向分值和反向分值计算过程中共同进行的部分加以兼并的方法,或使正向分值和反向分值计算当中所用的制约改变的方法,此外还给出先输出正向分值的计算结果、再用反向分值计算结果进行订正处理等方法。因此,能够进一步提高边读取声音边进行处理时的响应速度。

Claims (17)

1.一种声音识别装置,具有:从声音信号当中提取声特征量序列的声分析部;和根据所述声分析部所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理部,其特征在于,具有:
根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价手段;
根据所述多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价手段;和
选择在所述第一评价手段和第二评价手段所得到的评价值当中提供最大评价值的评价模型的选择手段。
2.如权利要求1所述的声音识别装置,其特征在于,所述选择手段按评价值大小顺序选择多个评价模型。
3.如权利要求1所述的声音识别装置,其特征在于,所述第一评价手段对所述多个评价模型按所述正向顺序使可兼并的部分兼并,所述第二评价手段对所述多个评价模型按所述反向顺序使可兼并的部分兼并。
4.如权利要求1所述的声音识别装置,其特征在于,所述第一评价手段和所述第二评价手段对所述多个模型按所述正向顺序和反向顺序依据可兼并的部分实现兼并。
5.如权利要求1所述的声音识别装置,其特征在于,具有一存储所述多个评价模型可兼并部分评价值的数据表,所述第一评价手段和第二评价手段在所述多个评价模型评价时,所述数据表未存储评价值时存储该评价值,而所述数据表存储有评价值时则读出该评价值。
6.如权利要求1所述的声音识别装置,其特征在于,具有:存储所述多个评价模型可兼并部分评价值的数据表;和预先计算所述多个共同模型可兼并部分的评价值并存储于所述数据表的手段。
7.如权利要求6所述的声音识别装置,其特征在于,具有对所述数据表参照的频度进行检出的频度检出手段,所述第一评价手段和第二评价手段根据所述频度检出手段输出的频度,由所述多个评价模型对作为评价对象的评价模型进行制约。
8.如权利要求4所述的声音识别装置,其特征在于,所述第一评价手段按所述声模型单位存储所述多个评价模型的所述正向顺序的评价值,所述第二评价手段按所述声模型单位存储所述多个评价模型的所述反向顺序的评价值,可兼并部分按所述多个评价模型的评价值实现兼并。
9.如权利要求1所述的声音识别装置,其特征在于,所述第一评价手段中对所述多个评价模型的制约,比所述第二评价手段中对所述多个评价模型的制约弱。
10.如权利要求1所述的声音识别装置,其特征在于,具有:根据所述第一评价手段的结果按评价值大小顺序输出规定数的评价模型的第一输出手段;判断所述第二评价手段的结果是否与所述第一评价手段一致的比较手段;通过所述比较手段一致时输出信号的信号输出手段;和通过所述比较手段未一致时则根据所述第一评价手段和所述第二评价手段的结果按评价值大小顺序输出规定数评价值的第二输出手段。
11.一种声音识别方法,具有:从声音信号当中提取声特征量序列的声分析工序;和根据所述声分析工序所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理工序,其特征在于,具有:
根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价工序;
根据所述多个评价模型对作为进行评价的评价对象的模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价工序;和
选择在所述第一评价工序和第二评价工序所得到的评价值当中提供最大评价值的评价模型的选择工序。
12.一种导航装置,其特征在于,具有:
用以检出车辆当前位置的当前位置检出装置;
检出车辆行驶方向的方向检出装置;
存储道路地图信息的存储手段;
根据所述当前位置检出手段检出的车辆当前位置和从所述存储手段当中读出的道路地图信息,计算将所述车辆当前位置修正为位于道路上的当前位置信息的运算处理手段;
输入声音信号的声音输入手段;
一声音识别手段,具有:从所述声音输入手段所输入的声音信号当中提取声特征量序列的声分析部;和根据所述声分析部所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理部,其中具有:根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价手段;根据所述多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价手段;和选择在所述第一评价手段和第二评价手段所得到的评价值当中提供最大评价值的评价模型的选择手段,对所述声音输入手段所输入的声音信号进行识别的声音识别手段;
根据所述运算处理手段计算出的当前位置信息从所述记录手段当中读出道路地图信息,同时根据所述声音识别手段得到的声音识别信息控制工作状态的控制手段;和
在所述存储手段当中读出的道路地图上显示依据所述当前位置信息的当前位置的显示手段。
13.如权利要求12所述的导航装置,其特征在于,所述声音识别手段根据所述声音输入手段所输入的声音信号,识别给出都道府县名和市区町村名和特定操作指令的声音,所述控制手段根据所述声音识别手段识别的声音识别信息,对从所述记录手段读出进行控制。
14.如权利要求12所述的导航装置,其特征在于,所述声音识别手段根据所述声音输入手段所输入的声音信号,识别给出切换各种模式指令的声音,所述控制手段根据所述声音识别手段识别的声音识别信息,对模式切换进行控制。
15.一种便携电话装置,利用无线频率电磁波在基站间进行通信,其特征在于,具有:
输入声音信号的声音输入手段;
靠键操作输入信息的键输入手段;
将所述声音输入手段输入的声音信号调制为无线频率信号的调制手段;
发送所述调制手段送出的无线频率信号,同时接收无线频率信号的天线;
将所述天线所接收的无线频率信号解调为声音信号的解调手段;
将所述解调手段由所述天线接收的无线频率信号解调为声音信号输出的声音输出手段;
一声音识别手段,具有:从声音信号当中提取声特征量序列的声分析部;和根据所述声分析部所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理部,其中具有:根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价手段;根据所述多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价手段;和选择在所述第一评价手段和第二评价手段所得到的评价值当中提供最大评价值的评价模型的选择手段,对所述声音输入手段所输入的声音信号进行识别;和
根据所述键输入手段输入的信息或所述声音识别手段识别的声音识别信息,对通信动作进行控制的控制手段。
16.如权利要求15所述的便携电话装置,其特征在于,电话号码作为所述键输入手段输出的信息或所述声音识别手段输出的声音识别信息,提供给所述控制手段。
17.一种信息处理装置,其特征在于,包括:
存储程序的存储手段;
根据键操作输入信息的键输入手段;
输入声音信号的声音输入手段;
一声音识别手段,具有:从所述声音输入手段所输入的声音信号当中提取声特征量序列的声分析部;和根据所述声分析部所提供的特征量序列,利用声特征量的声模型和规定所述声模型连接关系的语言模型,提供与所述声音信号对应的候选单词的识别处理部,其中具有:根据按所述语言模型连接所述声模型而成的声模型序列所组成的多个评价模型对进行评价的评价对象模型进行制约,同时按所述特征序列始端至终端的正向顺序存储与所述特征序列的相似性评价值的第一评价手段;根据所述多个评价模型对进行评价的对象评价模型进行制约,同时按所述特征序列终端至始端的反向顺序存储与所述特征序列的相似性的评价值的第二评价手段;和选择在所述第一评价手段和第二评价手段所得到的评价值当中提供最大评价值的评价模型的选择手段,对所述声音输入手段所输入的声音信号进行识别;和
根据所述存储手段存储的程序执行处理,根据所述键输入手段输出的信息或所述声音识别手段输出的声音识别信息,控制所述程序处理状态的运算手段。
CN99801879A 1998-08-17 1999-08-17 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置 Pending CN1287657A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP23098298 1998-08-17
JP230982/1998 1998-08-17

Publications (1)

Publication Number Publication Date
CN1287657A true CN1287657A (zh) 2001-03-14

Family

ID=16916383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99801879A Pending CN1287657A (zh) 1998-08-17 1999-08-17 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置

Country Status (4)

Country Link
EP (1) EP1024476A1 (zh)
KR (1) KR20010024521A (zh)
CN (1) CN1287657A (zh)
WO (1) WO2000010160A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1311422C (zh) * 2003-09-04 2007-04-18 株式会社东芝 语音识别评价装置和语音识别评价方法
CN101257680B (zh) * 2008-03-26 2012-04-25 宇龙计算机通信科技(深圳)有限公司 一种具有导航功能的移动终端及导航方法
CN104021788A (zh) * 2013-03-01 2014-09-03 联发科技股份有限公司 声控装置和声控方法
CN104064184A (zh) * 2014-06-24 2014-09-24 科大讯飞股份有限公司 异构解码网络的构建方法及系统、语音识别方法及系统
CN108028043A (zh) * 2015-09-24 2018-05-11 微软技术许可有限责任公司 在参与者之间的对话中检测可行动项
CN110046045A (zh) * 2019-04-03 2019-07-23 百度在线网络技术(北京)有限公司 语音唤醒的数据包处理方法和装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612882B1 (ko) * 2004-12-29 2006-08-14 삼성전자주식회사 시계열 신호의 패턴 인식 가능성 판단 방법 및 장치
KR20090107365A (ko) 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
CN102374864B (zh) * 2010-08-13 2014-12-31 国基电子(上海)有限公司 语音导航设备及语音导航方法
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
CN104732968B (zh) * 2013-12-20 2018-10-02 上海携程商务有限公司 语音操控系统的评价系统及方法
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
CN112146660B (zh) * 2020-09-25 2022-05-03 电子科技大学 一种基于动态词向量的室内地图定位方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60172100A (ja) * 1984-02-16 1985-09-05 電子計算機基本技術研究組合 音声認識装置
JPH02305159A (ja) * 1989-05-19 1990-12-18 Toshiba Corp 無線電話装置
JPH077273B2 (ja) * 1989-10-27 1995-01-30 三菱電機株式会社 連続音声認識用構文処理装置
JPH0440557A (ja) * 1990-06-06 1992-02-10 Seiko Epson Corp 携帯型音声認識電子辞書
JPH09114489A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1311422C (zh) * 2003-09-04 2007-04-18 株式会社东芝 语音识别评价装置和语音识别评价方法
CN101257680B (zh) * 2008-03-26 2012-04-25 宇龙计算机通信科技(深圳)有限公司 一种具有导航功能的移动终端及导航方法
CN104021788A (zh) * 2013-03-01 2014-09-03 联发科技股份有限公司 声控装置和声控方法
US9691382B2 (en) 2013-03-01 2017-06-27 Mediatek Inc. Voice control device and method for deciding response of voice control according to recognized speech command and detection output derived from processing sensor data
CN104021788B (zh) * 2013-03-01 2017-08-01 联发科技股份有限公司 声控装置和声控方法
CN104064184A (zh) * 2014-06-24 2014-09-24 科大讯飞股份有限公司 异构解码网络的构建方法及系统、语音识别方法及系统
CN104064184B (zh) * 2014-06-24 2017-03-08 科大讯飞股份有限公司 异构解码网络的构建方法及系统、语音识别方法及系统
CN108028043A (zh) * 2015-09-24 2018-05-11 微软技术许可有限责任公司 在参与者之间的对话中检测可行动项
CN108028043B (zh) * 2015-09-24 2021-11-19 微软技术许可有限责任公司 在参与者之间的对话中检测可行动项
CN110046045A (zh) * 2019-04-03 2019-07-23 百度在线网络技术(北京)有限公司 语音唤醒的数据包处理方法和装置

Also Published As

Publication number Publication date
KR20010024521A (ko) 2001-03-26
EP1024476A1 (en) 2000-08-02
WO2000010160A1 (fr) 2000-02-24

Similar Documents

Publication Publication Date Title
CN1162838C (zh) 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN1244902C (zh) 语音识别装置和语音识别方法
CN1453767A (zh) 语音识别装置以及语音识别方法
CN1159704C (zh) 信号分析装置
CN1242376C (zh) 声音识别系统、装置、声音识别方法
CN1287657A (zh) 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置
CN1409527A (zh) 终端器、服务器及语音辨识方法
CN1241168C (zh) 识别装置和识别方法,以及机器人设备
CN1462428A (zh) 语音处理装置
CN1842702A (zh) 声音合成装置和声音合成方法
CN1194337C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN101046960A (zh) 处理语音中的话音的装置和方法
CN1228762C (zh) 用于语音识别的方法、组件、设备及服务器
CN1941077A (zh) 识别语音输入中的字符串的语音识别设备和方法
CN1238833C (zh) 语音识别装置以及语音识别方法
CN1229775C (zh) 宽带语音和音频信号解码器中的增益平滑
CN1237502C (zh) 生成声音模型的方法、装置和生成声音模型的计算机程序
CN1734445A (zh) 用于对话的方法、装置和程序及其中存储程序的存储介质
CN1725295A (zh) 语音处理装置、语音处理方法、程序、和记录介质
CN1151573A (zh) 声音识别方法,信息形成方法,声音识别装置和记录介质
CN1898721A (zh) 设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法和程序
CN1629898A (zh) 导航装置
CN1864204A (zh) 用来完成语音识别的方法、系统和程序
CN1731509A (zh) 移动语音合成方法
CN1473322A (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication