CN102224542A - 权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法、以及权重系数生成程序 - Google Patents

权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法、以及权重系数生成程序 Download PDF

Info

Publication number
CN102224542A
CN102224542A CN2009801476794A CN200980147679A CN102224542A CN 102224542 A CN102224542 A CN 102224542A CN 2009801476794 A CN2009801476794 A CN 2009801476794A CN 200980147679 A CN200980147679 A CN 200980147679A CN 102224542 A CN102224542 A CN 102224542A
Authority
CN
China
Prior art keywords
weight coefficient
name
identifying object
stratum
subordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801476794A
Other languages
English (en)
Other versions
CN102224542B (zh
Inventor
宫崎敏幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Kogyo KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Kogyo KK filed Critical Asahi Kasei Kogyo KK
Publication of CN102224542A publication Critical patent/CN102224542A/zh
Application granted granted Critical
Publication of CN102224542B publication Critical patent/CN102224542B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种可以提高地名的声音识别性能的权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法、以及权重系数生成程序。为了解决上述问题,地址数据库(12)对地址信息进行管理,该地址信息具有国名、城市名、街道名、门牌号码作为地址信息数据,并具有显示从广域至狭域的地名的阶层关系的树结构。将存储于地址数据库(12)的各地名作为声音的识别候补,权重系数生成装置(10)的权重系数计算部(11)根据属于所述候补的城市名的下级阶层的街道名的数量,计算出所述识别候补的似然比的权重系数。

Description

权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法、以及权重系数生成程序
技术领域
本发明涉及一种用于提高地名的声音识别性能的权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法以及权重系数生成程序。
背景技术
以往,在汽车导航系统中,对驾驶员说出的目的地进行声音识别,并显示目的地周边的地图。例如,在欧洲,目的地一般能够确定为国家、城市、街道以及门牌号码。汽车导航系统在以声音识别技术进行欧洲的目的地设定时,首先确定国家,然后通过进行城市名的声音识别来确定城市。接下来,对属于该城市的街道限定词汇并进行街道名的声音识别,确定街道。然后,如果需要则进行门牌号码的声音识别,确定目的地的地点信息。不进行门牌号码的识别时,一般以该街道的代表地点为目的地。
以这样的方法对法国的城市进行声音识别时,作为识别对象词汇的城市名大约有5万个城市之多,其结果是识别对象词汇数量变多。而且,由于还存在发音类似的城市名,一般来说,往往将声音识别的似然比的值排位靠前的多个识别候补(也称为“N-Best”)输出到画面上,使用者从多个识别候补中选择出所要的城市。这里,似然比是表示识别对象词汇相对于所发出的声音的准确度的值。使用者选择城市的情况下,作为在1个画面显示的识别候补的数量优选为5个左右。因此,优选是直至第5候补的识别率较高。但是,采用目前的声音识别技术,在作为识别对象的城市名的发音类似的情况较多,或者识别对象词汇接近5万或者超过5万的情况下,使用者所发音的城市名不能显示至第5候补,必须在另外的画面(页)中寻找下一个识别候补,明显欠缺便利性。
具体来说,例如,巴黎(PARIS)的发音记号可以表示为/paRi/,具有类似的发音记号的城市显示在图12中。
另外,在其它的实例中,里昂(LYON)的发音记号可以表示为/ljo/,作为具有类似的发音记号的城市显示在图13中。
这样地发音记号类似的城市名存在较多的情况下,难以根据说话者的发声来区分声音识别的似然比差,即使将至第5候补的识别结果列表显示,在该列表中存在所发声的词语的概率也较低。尤其是汽车在100km/h左右的高速下行驶时,行驶的杂音与说话的声音叠加,该发声的词语在列表中存在的概率也越来越低。其结果是,使用者为了从列表中找到所要的城市名,需要进行翻页,从而导致便利性的下降。
为了解决这样的问题,已知有采用声音识别的似然比以外的信息,进行识别结果的加权。例如,在专利文献1中公开了如下技术,在声音输入目的地名时,根据目前位置和目的地之间的距离进行似然比的加权,目的地距汽车位置越近其似然比加权(以下也称为“似然比操作”)越大。
现有技术文献
专利文献
专利文献1:日本特开2004-117063号公报
发明内容
发明要解决的技术问题
但是,在目的地较远的情况下,若适用该专利文献1所记载的技术,可能反而会导致识别率的下降。
因此,谋求一种在汽车导航系统进行目的地的声音识别时,采用不根据汽车位置和目的地之间的距离进行加权的手段来提高N-Best的识别率的方法。
本发明正是鉴于上述的以往的问题点而做出的,其目的在于提供一种用于提高地名的声音识别性能的权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法以及权重系数生成程序。
解决问题的技术手段
为了解决上述问题,技术方案1所述的权重系数生成装置将地址数据库所存储的各地名作为声音的识别候补,并生成所述识别候补相对于使用者发出的声音的似然比的权重系数,所述地址数据库对具有表示地名的阶层关系的树结构的地址信息进行管理,所述权重系数生成装置具有权重系数计算单元,该权重系数计算单元根据属于所述识别对象词汇的下级阶层的所述地址数据库的信息量对所述识别对象词汇的似然比的权重系数进行计算。
采用本发明,权重系数生成装置根据属于存储于地址数据库的识别候补的地名的下级阶层的所述地址数据库的信息量,对该识别候补的似然比的权重系数进行计算,因此可以使假设为使用频率高的地名的似然比的加权增大,从而能够生成地名的似然比的权重系数以提高声音识别性能。
技术方案2所述的权重系数生成装置中,技术方案1的属于所述识别对象词汇的下级阶层的所述地址数据库的信息量是指属于所述识别对象词汇的下级阶层的地名的数量。
技术方案3所述的权重系数生成装置中,所述地址数据库存储有城市名和属于该城市名的下级阶层的街道名,所述权重系数计算单元根据属于所述城市名的下级阶层的街道名的数量对所述城市名的似然比的权重系数进行计算。
技术方案4所述的权重系数生成装置中,属于所述识别对象词汇的下级阶层的所述地址数据库的信息量是指属于所述识别对象词汇的下级阶层的设施的数量。
技术方案5所述的权重系数生成装置中,所述地址数据库存储有城市名和属于该城市名的下级阶层的设施名,所述权重系数计算单元根据属于所述城市名的下级阶层的设施名的数量,计算所述城市名的似然比的权重系数。
技术方案6所述的权重系数生成装置中,属于所述识别对象词汇的下级阶层的所述地址数据库的信息量是指属于所述识别对象词汇的下级阶层的设施的电话号码的数量。
技术方案7所述的权重系数生成装置中,所述地址数据库存储有城市名或者设施名、以及属于该城市名或者设施名的下级阶层的电话号码,所述权重系数计算单元根据属于所述城市名或者设施名的下级阶层的电话号码的数量,计算所述城市名或者设施名的似然比的权重系数。
技术方案8所述的权重系数生成装置中,属于所述识别对象词汇的下级阶层的所述地址数据库的信息量是指所述识别对象词汇的下级阶层的使用存储容量。
技术方案9所述的权重系数生成装置中,还具有信息量计算单元,该信息量计算单元对属于所述识别对象词汇的下级阶层的所述地址数据库的信息量进行计算。
采用本发明可以提高城市名的声音识别的性能。
技术方案10所述的声音识别装置中,其对使用者说出的地名进行识别,该声音识别装置包括:用于进行使用者的声音输入的声音输入单元;声音识别词典,其将具有从广域至狭域的阶层结构的使用于地址的地名登记作为识别对象词汇;识别结果输出单元,其对相对于登记于所述声音识别词典的各识别对象词汇的所述声音输入的似然比进行计算,在所述声音识别词典中,还登记有对于所述识别对象词汇的、由技术方案1至技术方案9中的任意一项所述的权重系数生成装置所生成的权重系数,所述识别结果输出单元根据所述计算出的似然比乘以所述权重系数之后的加权似然比输出声音识别结果。
采用本发明,声音识别装置根据基于地名的数量的加权似然比,输出声音识别结果,因此可以提高声音识别性能。
技术方案11所述识别结果输出单元从所述加权似然比中选择值从高到低排序时靠前的多个加权似然比,为了通过使用者的选择输入确定1个识别对象词汇,将分别与所述选择的多个加权似然比相对应的多个识别对象词汇作为识别候补来显示。
采用本发明,根据基于地名的数量的加权似然比,显示多个识别对象词汇作为识别候补,因此,可以提高在多个识别候补中包含使用者说出的地名的概率,从而可以提高使用者的便利性。
技术方案12所述的导航装置中,其显示出根据从技术方案10或者11所述的声音识别装置输出的声音识别结果确定的地区的地图信息。采用本发明,导航装置可以显示使用者所要的地区的地图信息
采用本发明,导航装置可以显示使用者所要的地区的地图信息。
技术方案13所述的车辆中,装载有技术方案10或者技术方案11所述的声音识别装置以及技术方案12所述的导航装置。
采用本发明,使用者在车辆内进行声音识别,可以看到所要的地区的地图信息。
技术方案14所述的权重系数生成方法中,其是权重系数生成装置所执行的权重系数生成方法,所述权重系数生成装置将存储于地址数据库的各地名作为声音的识别对象词汇,并生成相对于使用者发出的声音的所述识别对象词汇的似然比的权重系数,所述地址数据库对具有表示从广域至狭域的地名的阶层关系的树结构的地址信息进行管理,所述权重系数生成方法包括权重系数计算步骤,其根据属于所述识别对象词汇的下级阶层的地名的数量,对所述识别对象词汇的似然比的权重系数进行计算。
技术方案15所述权重系数生成程序中,其将存储于地址数据库的各地名作为声音的识别对象词汇,并生成相对于使用者发出的声音的所述识别对象词汇的似然比的权重系数,所述地址数据库对具有表示从广域至狭域的地名的阶层关系的树结构的地址信息进行管理,所述权重系数生成程序使计算机执行权重系数计算步骤,所述权重系数计算步骤根据属于所述识别对象词汇的下级阶层的地名的数量,对所述识别对象词汇的似然比的权重系数进行计算。
采用本发明,通过在计算机存储权重系数生成程序并执行,能够对似然比的权重系数进行计算。
发明的效果
采用本发明,权重系数生成装置根据属于存储于地址数据库的识别对象词汇的地名的下级阶层的所述地址数据库的信息量,对该识别候补的似然比的权重系数进行计算,因此可以使对于被假设为使用频率高的地名的似然比的加权增大,从而能够生成地名的似然比的权重系数以提高声音识别性能。
附图说明
图1是示出本发明的实施形态的汽车导航系统的整体构成的框图。
图2是示出权重系数生成装置的其它的构成的框图。
图3是示出同一实施形态的地址数据库的数据结构的图。
图4是示出同一实施形态的地址数据库的数据结构的图。
图5是示出同一实施形态的城市名识别词典的数据结构的一例的图。
图6是示出在不进行似然比操作的情况下的、属于人口从多到少排序时前300位以内的城市名的声音识别结果的图。
图7是示出在不进行似然比操作的情况下的、人口从多到少排序时在前300位以外的城市名的声音识别结果的图。
图8是示出权重系数的图表。
图9是示出在进行了似然比操作的情况下的、属于人口从多到少排序时前300位以内的城市名的声音识别结果的图。
图10是示出在进行了似然比操作的情况下的、人口从多到少排序时在前300位以外的城市名的声音识别结果的图。
图11是示出存储有日本的地址的地址数据库的一例的图。
图12是示出具有与巴黎的发音记号类似的发音记号的城市的一例的图。
图13是示出具有与里昂的发音记号类似的发音记号的城市的一例的图。
符号说明
10权重系数生成装置,11权重系数计算部,12地址数据库,13信息量计算部,20声音识别装置,21声音识别词典,21A城市名识别词典,21B街道名识别词典,21C门牌号码识别词典,22识别似然比计算部,23识别结果输出部,30导航装置,31地图数据库,32地图显示部
具体实施方式
下面,参照附图对本发明的实施形态进行说明。在本实施形态中,说明的是对搭载于车辆的汽车导航系统设定目的地并显示目的地周边的地图信息的情形,该目的地是对驾驶员的声音进行了声音识别所得到的结果。
图1是表示本发明的实施形态的汽车导航系统的整体结构的框图。如该图所示,汽车导航系统包括权重系数生成装置10、声音识别装置20以及导航装置30。
(权重系数生成装置的构成)
权重系数生成装置10包括权重系数计算部11作为功能构成,该功能是通过权重系数生成装置10所包括的未图示的CPU(中央处理器)读取并执行存储于硬盘、ROM(只读存储器)等的存储装置中的权重系数生成程序来实现的。
权重系数计算部11根据属于识别候补地名的下级阶层的地名的数量,计算出该识别对象词汇的似然比的权重系数。似然比是表示识别对象词汇相对于声音的准确度的值。这里,作为识别对象词汇的地名以及属于该地名的下级阶层的地名的数量从地址数据库12所管理的地址信息中取得。
但识别对象词汇的似然比的权重系数也可以根据属于识别候补地名的下级阶层的地址数据库12中的信息量来计算。具体地说,所谓“属于识别候补地名的下级阶层的地址数据库12中的信息量”,除了指上述的属于识别候补地名的下级阶层的地名的数量以外,还例如是属于识别候补地名的下级阶层的设施的数量、关联于设施的电话号码的数量等。另外,考虑到地名的数量等与其在地址数据库12中所占的存储容量成比例,因此,“属于识别候补地名的下级阶层的地址数据库12中的信息量”也可以是地名、设施、或者设施的电话号码等在地址数据库12中的使用存储量。即,“在地址数据库12中的信息量”只要表示地址数据库12中的地址信息所包含的属于识别候补地名的下级阶层的信息的多少即可。
而且,“地址数据库12中的信息量”可以以某种程度的准确度来表示属于识别候补地名的下级阶层的信息的多少。例如,可以是地名、设施、或者设施的电话号码等的数量除以规定的数(例如“10”)所得到的数,或者地名、设施、或者设施的电话号码等在地址数据库12中的使用存储量除以规定的存储容量(例如“100Kbyte”)所得到的数等。另外,属于识别候补地名的下级阶层的信息量也可以以表示信息的多少的“级别”这样的指标来表示。
图3是表示地址数据库12所管理的地址信息的数据构成的一例的图。如该图所示,地址数据库12具有树结构,该树结构表示从作为上级阶层的国家、城市等的广域的地名至作为下级阶层的门牌号码等的狭域的地名的地名阶层关系。在图3所示例中,地址数据库12管理法国的地址信息,存储国名、城市名、街道名、门牌号码作为阶层状的结构。
另外,图4是表示地址数据库12所管理的地址信息的数据结构的其他的实例的图。在该图中,地址数据库12具有树结构,该树结构表示从作为上级阶层的国家、城市等的广域的地名至作为下级阶层的设施名等的狭域的地名的地名阶层关系。在图4所示例中,地址数据库12管理日本的地址信息,存储国名、城市名、设施类别、设施名作为阶层状的结构。
在本实施形态中,在识别城市名时利用似然比,该似然比是基于城市的街道名的数量进行加权的。因此,权重系数计算部11对属于地址数据库12所管理的各城市的下级阶层的街道名的数量进行计数,计算所述城市名的似然比的加权系数,使得该街道名的数量越多则加权越大。在图3所示例中,与实际的街道名的数量不同,属于“巴黎”的下级阶层的街道名的数量为4,属于“马赛”的下级阶层的街道名的数量为3,因此计算出权重系数,使得“巴黎”的似然比的加权程度大于“马赛”的似然比的加权程度。另外,在本实施形态中,不对所有的城市名的似然比进行加权,而是按照属于下级阶层的街道名的数量从多到少的顺序,对从第1位至第N位(N是自然数)的城市的似然比进行加权。此时,确定权重系数,使得加权的程度从第1位至第N位依次减少。
在识别城市名时,利用基于该城市的街道名的数量进行加权的似然比的含义是指,考虑不特定多数的驾驶员的目的地的设定频率的情况下,城市越大目的地的设定频率也越大,一般地,城市越大街道名的数量也越多。因此,街道名的数量与使用频率相对应。
作为属于城市名的下级阶层的街道名的数量的取得方法,权重系数计算部11除了对存储于地址数据库12的属于各城市名的下级阶层的街道名的数量进行计算,还可以在地址数据库12中预先存储属于城市名的下级阶层的街道名的数量,以取得该街道名的数量。
而且,如图2所示,权重系数生成装置10还可以包括信息量计算部13。信息量计算部13对属于识别候补地名的下级阶层的地名的数量进行计算。作为地名数量的具体的计算方法列举如下。例如,在去除阶层结构预先将属于识别候补地名的下级阶层的地名作为数据库存储、保存到硬盘等的存储装置中的情况下,可以使用一般的数据库的功能简单地取得属于下级阶层的地名的数量。又,在没有作为数据库保存,而是以能够读取阶层结构的数据文件形式存储、保存到硬盘等的存储装置中的情况下,若读出数据文件并阶层结构化,则可以取得属于下级阶层的地名的数量。又,权重系数生成装置10具有信息量计算部13的情况下,权重系数计算部11从信息量计算部13中取得属于识别候补地名的下级阶层的地名的数量。
(声音识别装置的构成)
接下来,对声音识别装置20的构成进行说明。声音识别装置20包括声音识别词典21、识别似然比计算部22和识别结果输出部23。
声音识别词典21是设于声音识别装置20所具有的未图示的硬盘的数据库。识别似然比计算部22和识别结果输出部23通过声音识别装置20所具有的未图示的CPU读取并执行存储于硬盘、ROM等的存储装置中的程序等的软件来实现功能。
声音识别词典21包括城市名识别词典21A、街道名识别词典21B和门牌号码识别词典21C。
图5是表示城市名识别词典21A的数据构成的一例的图。在城市名识别词典21A中,与地址数据库12所管理的每个城市名相关联地存储有显示用的文字数据、地名ID、发音记号、声音识别用的音素模型和权重系数生成装置10所生成的权重系数。作为音素模型可以使用例如HMM(隐马尔可夫模型)。
在街道名识别词典21B以及门牌号码识别词典21C中,与地址数据库12所管理的每个街道名或每个门牌号码相对应地存储有地名ID、显示用的文字数据、发音记号、声音识别用的音素模型。在本实施形态中,没有对街道名以及门牌号码的似然比进行加权,因此,在街道名识别词典21B以及门牌号码识别词典21C中没有存储权重系数。
识别似然比计算部22从由未图示的麦克风输入的、驾驶员所说出的地名的声音输入提取特征量,通过将该提取的特征量与相应的作为声音识别词典21所存储的各识别对象词汇的地名的音素模型的特征量比较、对照,计算作为声音识别词典21所存储的各识别对象词汇的地名的似然比。
作为识别对象词汇的地名是城市名的情况下,识别似然比计算部22采用由权重系数生成装置10计算的、存储于城市名识别词典21A中的权重系数,对上述计算出的城市名的似然比进行加权。
识别结果输出部23根据由识别似然比计算部22所计算出的加权似然比,输出声音识别结果。在本实施形态中,在画面上显示N-Best作为声音识别结果。即,从由识别似然比计算部22计算出的多个识别对象词汇的加权似然比中,选择值高从大到小排序时靠前(从高到低)的多个加权似然比,并将与该选择的多个加权似然比分别对应的多个识别对象词汇作为识别候补显示在画面上。然后,通过使驾驶员选择输入N-Best中的某一个地名,将声音识别结果锁定为一个地名。这样依次进行城市名、街道名、门牌号码的声音识别,将各个地名锁定为一个时,识别结果输出部23将这些地名的地名ID输出到导航装置30中。除了在画面上显示N-Best作为声音识别结果之外,也可以考虑仅输出似然比最高的识别候补地名。
(导航装置的构成)
接下来,对导航装置30的构成进行说明。导航装置30包括地图数据库31和地图显示部32。地图数据库31是设在导航装置30所具有的未图示的硬盘中的数据库。地图显示部32通过导航装置30所具有的未图示的CPU读取、执行存储于硬盘、ROM等的存储装置的程序来实现功能。
地图数据库31关联存储有用于显示地图的图像数据、显示文字数据、和地名ID。
地图显示部32从声音识别装置20接收分别表示城市名、街道名、门牌号码的地名ID时,即从地图数据库31中取得用于显示该地名ID所确定的地区的地图的图像数据、显示文字数据,并在导航画面上显示地图信息。
(实施例)
接下来,对进行上述的本发明的似然比操作时、和不进行上述操作时的声音识别性能进行说明。首先,对不进行似然比操作时的声音识别结果进行说明。
对法国的城市名按照城市的人口顺序进行排序,对属于人口数量前300位以内(从多到少)的所有的城市名进行发音。在该所发出的干净的(不存在杂音)声音上叠加车辆以100km/h行驶时的行驶杂音,对叠加了该杂音的声音进行声音识别。此时的平均识别率如图6所示。如该图所示,在第1候补的识别率为68.9%,被包含至第2候补为止的识别率为76.59%,被包含至第3候补为止的识别率为80.94%,被包含至第4候补为止的识别率为84.28%,被包含至第5候补为止的识别率为86.62%。这里从具有高的似然比的识别候补开始依次称为第1候补、第2候补、第3候补、第4候补、第5候补。
因此,能够作为识别结果在1个画面上显示的城市名为5个候补时,使用者所发音的城市在1个画面上能够确认的概率约为87%,该结果低于90%。
图7显示不进行似然比操作时的前300位以外的城市名的平均识别率。发音的城市名数量为1023。如该图所示,在第1候补的识别率为76.25%,被包含至第2候补为止的识别率为84.07%,被包含至第3候补为止的识别率为87.59%,被包含至第4候补为止的识别率为90.03%,被包含至第5候补为止的识别率为91.01%。
接下来,对进行似然比操作时的识别率进行说明。对作为识别对象的法国的城市名以街道名的数量进行排序,根据街道名的数量,利用权重系数ws对相对于某个城市i的声音识别的累积似然比Pi进行加权来进行声音识别。在声音识别中,计算声音输入相对于各识别对象词汇的似然比时,求出每个帧的似然比,对从声音开始至声音结束之间所求出的似然比进行累积。然后,将被累积的似然比的值高的排位靠前(从高到低)的识别对象词汇作为识别结果的候补,但在这里,考虑到编入用途,为了避免乘法运算,对似然比的对数(对数似然比)进行累积。此时,在Pi上加上权重系数ws。关于ws的确定方法需要对照所利用的声音识别装置20进行调整,但在本实施例中,将n(i)作为按照城市i的街道名的数量从多到少依次排序时的从1开始的位次,例如,如以下这样,城市i的权重系数wn(i)s被定义为街道名的数量越多的城市其值越线性地增大。wn(i)s的值越大则概率越大。在本实施例中考虑这样一种模型,按照街道名的数量从大到小的顺序从第1位优惠至第N(N是自然数)位为止,被优惠的概率从第1位开始向第N位缓慢地单调减少。图8示出本实施例的权重系数的图表。
wn(i)s=Ω1-(Ω1N)×(n(i)-1)/(N-1)条件:n(i)<N
wn(i)s=0条件:n(i)>=N
这里,Ω1是给第1位的优惠值,ΩN是给第N位的优惠值。w1以及wN是根据所利用的声音识别的对数似然比的能够取得的值域来确定的。在本实施例中,如图8所示,Ω1=50、ΩN=30、N=300,使得按照街道名的数量排序的城市的概率优惠值从第1位开始至第300位缓慢地单调减少,采用与不进行上述似然比操作时同样的声音数据进行识别实验。其结果如图9所示,在第1候补的识别率为83.61%,被包含至第2候补为止的识别率为87.63%,被包含至第3候补为止的识别率为90.97%,被包含至第4候补为止的识别率为92.64%,被包含至第5候补为止的识别率为92.98%。
作为对比的识别结果,超过300位的城市的识别率如图10所示。如该图所示,在第1候补的识别率为73.7%,被包含至第2候补为止的识别率为82.7%,被包含至第3候补为止的识别率为86.22%,被包含至第4候补为止的识别率为88.07%,被包含至第5候补为止的识别率为89.93%。
基于上述结果可以确认将上述模型的wn(i)s适用于声音识别的对数似然比的情况下,在第1候补的识别率从68.9%至83.61%提高了大约14.7%,被包含至第5候补为止的识别率从86.62%至92.98%提高了大约6.4%。
另一方面,超过300位的城市的识别率,在第1候补的识别率从76.25%至73.7%大约下降了2.5%,被包含至第5候补为止的识别率从91.01%至89.93%大约下降了1.1%。这是因为声音识别的N-Best的识别率一般相对于候补数如上述那样缓慢地提高,因此,超过300位的城市的似然比根据本发明而被优惠,其城市的似然比也提高,本来在第5候补外的城市进入到第5候补内,由此存在于第5候补内的识别结果被排除到第5候补之外,从而使得识别率下降。即,在上述例中,下降的值约为第4候补和第5候补的识别率的差。
根据本发明的实施例,若收纳于1个画面中的识别候补达到第5候补,则作为目的地而设定的频率高的大城市被包含至第5候补为止的识别率大约提高6.4%,作为目的地而设定的频率低的城市,其被包含至第5候补为止的识别率的降低被抑制为大约1.1%,由此可见,其作为汽车导航系统的目的地的设定方法,在采用声音识别设定城市的情况下是非常有效的。
如上所述,权重系数生成装置10根据属于识别候补的城市名的下级阶层的街道名的数量,计算出该识别候补的城市名的似然比的权重系数,因此,可以将对于被假设为使用频率高的城市名的似然比的加权增大,从而能够生成城市名的似然比的权重系数,使得声音识别性能提高。因此,在汽车导航系统进行城市名的设定时,根据进行了加权的似然比,在1个画面内显示N-Best,由此,可以提高在1个画面内显示驾驶员所说出的城市名的概率。
另外,除了根据街道名的数量计算城市的权重系数之外,还考虑根据城市的人口来计算权重系数,但因为街道名的数量不会像人口一样频繁地增减,所以根据街道名的数量计算权重系数就没有必要频繁地进行权重系数的再次计算,其便利性较高。
在上述实施形态中,根据属于城市的下级阶层的街道名的数量计算权重系数,但也可以考虑根据属于城市的下级阶层的门牌号码的数量来计算权重系数。
另外,并不限于以街道名作为地址的构成要素的法国,只要是具有表示从广域至狭域的地名的阶层关系的树结构的地址体系,例如,由都道府县、郡、区、市、町、字等的地名构成的日本的地址都可以适用于本发明。在图11中示出存储日本的地址的地址数据库的一例。即使是像日本的地址体系那样的各阶层的地名的种类不统一的地址体系,根据到属于识别候补的地名的下级阶层的末端为止的地名的数量,计算该识别候补的似然比的权重系数,由此可以得到高的识别性能。例如,关于图11所示的第2阶层的地名,可以根据属于该地名的第3~第6阶层的地名的数量,计算相对于该识别候补的似然比的权重系数。
通过将由权重系数生成装置10预先生成的与各城市对应的权重系数存储到城市名识别词典21A,只要将声音识别装置20以及导航装置30搭载在车辆上,即使权重系数生成装置10、地址数据库12不装载到车辆上,也可以进行基于似然比操作的性能较好的声音识别。

Claims (15)

1.一种权重系数生成装置,其将存储于地址数据库的各地名作为声音的识别对象词汇,并生成相对于使用者发出的声音的所述识别对象词汇的似然比的权重系数,所述地址数据库对具有表示地名的阶层关系的树结构的地址信息进行管理,
所述权重系数生成装置的特征在于,
具有权重系数计算单元,该权重系数计算单元根据属于所述识别对象词汇的下级阶层的所述地址数据库的信息量对所述识别对象词汇的似然比的权重系数进行计算。
2.如权利要求1所述的权重系数生成装置,其特征在于,
属于所述识别对象词汇的下级阶层的所述地址数据库的信息量是指属于所述识别对象词汇的下级阶层的地名的数量。
3.如权利要求2所述的权重系数生成装置,其特征在于,
所述地址数据库存储有城市名和属于该城市名的下级阶层的街道名,
所述权重系数计算单元根据属于所述城市名的下级阶层的街道名的数量对所述城市名的似然比的权重系数进行计算。
4.如权利要求1所述的权重系数生成装置,其特征在于,
属于所述识别对象词汇的下级阶层的所述地址数据库的信息量是指属于所述识别对象词汇的下级阶层的设施的数量。
5.如权利要求4所述的权重系数生成装置,其特征在于,
所述地址数据库存储有城市名和属于该城市名的下级阶层的设施名,
所述权重系数计算单元根据属于所述城市名的下级阶层的设施名的数量,计算所述城市名的似然比的权重系数。
6.如权利要求1所述的权重系数生成装置,其特征在于,
属于所述识别对象词汇的下级阶层的所述地址数据库的信息量是指属于所述识别对象词汇的下级阶层的设施的电话号码的数量。
7.如权利要求6所述的权重系数生成装置,其特征在于,
所述地址数据库存储有城市名或者设施名、以及属于该城市名或者设施名的下级阶层的电话号码,
所述权重系数计算单元根据属于所述城市名或者设施名的下级阶层的电话号码的数量,计算所述城市名或者设施名的似然比的权重系数。
8.如权利要求1所述的权重系数生成装置,其特征在于,
属于所述识别对象词汇的下级阶层的所述地址数据库的信息量是指所述识别对象词汇的下级阶层的使用存储容量。
9.如权利要求1至8中的任意一项所述的权重系数生成装置,其特征在于,
还具有信息量计算单元,该信息量计算单元对属于所述识别对象词汇的下级阶层的所述地址数据库的信息量进行计算。
10.一种声音识别装置,其对使用者说出的地名进行识别,其特征在于,
该声音识别装置包括:
用于进行使用者的声音输入的声音输入单元;
声音识别词典,其将具有从广域至狭域的阶层结构的使用于地址的地名登记作为识别对象词汇;
识别结果输出单元,其对相对于登记于所述声音识别词典的各识别对象词汇的所述声音输入的似然比进行计算,
在所述声音识别词典中,还登记有对于所述识别对象词汇的、由权利要求1至权利要求9中的任意一项所述的权重系数生成装置所生成的权重系数,
所述识别结果输出单元根据所述计算出的似然比乘以所述权重系数之后的加权似然比输出声音识别结果。
11.如权利要求10所述的声音识别装置,其特征在于,
所述识别结果输出单元从所述加权似然比中选择值从高到低排序时靠前的多个加权似然比,为了通过使用者的选择输入确定1个识别对象词汇,将分别与所述选择的多个加权似然比相对应的多个识别对象词汇作为识别候补来显示。
12.一种导航装置,其特征在于,其显示出根据从权利要求10或者11所述的声音识别装置输出的声音识别结果确定的地区的地图信息。
13.一种车辆,其特征在于,装载有权利要求10或者权利要求11所述的声音识别装置以及权利要求12所述的导航装置。
14.一种权重系数生成方法,其是权重系数生成装置所执行的权重系数生成方法,所述权重系数生成装置将存储于地址数据库的各地名作为声音的识别对象词汇,并生成相对于使用者发出的声音的所述识别对象词汇的似然比的权重系数,所述地址数据库对具有表示从广域至狭域的地名的阶层关系的树结构的地址信息进行管理,
所述权重系数生成方法的特征在于,
包括权重系数计算步骤,其根据属于所述识别对象词汇的下级阶层的地名的数量,对所述识别对象词汇的似然比的权重系数进行计算。
15.一种权重系数生成程序,其将存储于地址数据库的各地名作为声音的识别对象词汇,并生成相对于使用者发出的声音的所述识别对象词汇的似然比的权重系数,所述地址数据库对具有表示从广域至狭域的地名的阶层关系的树结构的地址信息进行管理,
所述权重系数生成程序的特征在于,
其使计算机执行权重系数计算步骤,所述权重系数计算步骤根据属于所述识别对象词汇的下级阶层的地名的数量,对所述识别对象词汇的似然比的权重系数进行计算。
CN2009801476794A 2008-11-25 2009-11-17 权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法 Expired - Fee Related CN102224542B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008-299220 2008-11-25
JP2008299220 2008-11-25
PCT/JP2009/069476 WO2010061751A1 (ja) 2008-11-25 2009-11-17 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム

Publications (2)

Publication Number Publication Date
CN102224542A true CN102224542A (zh) 2011-10-19
CN102224542B CN102224542B (zh) 2012-12-19

Family

ID=42225629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801476794A Expired - Fee Related CN102224542B (zh) 2008-11-25 2009-11-17 权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法

Country Status (5)

Country Link
US (1) US8688449B2 (zh)
EP (1) EP2352144B1 (zh)
JP (1) JP5199391B2 (zh)
CN (1) CN102224542B (zh)
WO (1) WO2010061751A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116571A (zh) * 2013-03-14 2013-05-22 米新江 一种确定多个对象权重的方法
CN106463115A (zh) * 2014-06-05 2017-02-22 大陆汽车有限责任公司 借助于语音输入能够控制的、具有功能装置和多个语音识别模块的辅助系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
WO2014109017A1 (ja) * 2013-01-09 2014-07-17 三菱電機株式会社 音声認識装置および表示方法
JP6100101B2 (ja) * 2013-06-04 2017-03-22 アルパイン株式会社 音声認識を利用した候補選択装置および候補選択方法
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US10529324B1 (en) * 2016-12-27 2020-01-07 Cognistic, LLC Geographical based voice transcription
US11145291B2 (en) * 2018-01-31 2021-10-12 Microsoft Technology Licensing, Llc Training natural language system with generated dialogues
US10861440B2 (en) * 2018-02-05 2020-12-08 Microsoft Technology Licensing, Llc Utterance annotation user interface
US11133001B2 (en) * 2018-03-20 2021-09-28 Microsoft Technology Licensing, Llc Generating dialogue events for natural language system
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
CN113469741A (zh) * 2021-06-30 2021-10-01 杭州云深科技有限公司 App地域分布等级确定方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124695A (ja) * 1997-06-27 1999-01-29 Sony Corp 音声認識処理装置および音声認識処理方法
JP3042585B2 (ja) * 1995-01-30 2000-05-15 富士通テン株式会社 音声認識装置
CN1352450A (zh) * 2000-11-15 2002-06-05 中国科学院自动化研究所 中国人名、地名和单位名的语音识别方法
JP2003150189A (ja) * 2001-11-14 2003-05-23 Mitsubishi Electric Corp 音声認識装置
JP2004117063A (ja) * 2002-09-24 2004-04-15 Seiko Epson Corp ナビゲーション装置
CN101158584A (zh) * 2007-11-15 2008-04-09 熊猫电子集团有限公司 车载gps的语音目的地导航实现方法
CN101162153A (zh) * 2006-10-11 2008-04-16 丁玉国 一种语音控制的车载gps导航系统及其实现方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2907728B2 (ja) * 1994-08-10 1999-06-21 富士通テン株式会社 音声処理装置
JP3627299B2 (ja) * 1995-07-19 2005-03-09 ソニー株式会社 音声認識方法及び装置
JP3500948B2 (ja) * 1998-02-18 2004-02-23 株式会社デンソー 音声認識装置
JP3990075B2 (ja) * 1999-06-30 2007-10-10 株式会社東芝 音声認識支援方法及び音声認識システム
JP4281369B2 (ja) * 2003-02-07 2009-06-17 日産自動車株式会社 音声認識装置
JP4040573B2 (ja) * 2003-12-12 2008-01-30 キヤノン株式会社 音声認識装置および方法
JP4665459B2 (ja) * 2004-08-25 2011-04-06 日産自動車株式会社 ナビゲーション装置
JP2006163285A (ja) * 2004-12-10 2006-06-22 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP2007271876A (ja) * 2006-03-31 2007-10-18 Denso Corp 音声認識装置および音声認識用のプログラム
US20090306989A1 (en) * 2006-03-31 2009-12-10 Masayo Kaji Voice input support device, method thereof, program thereof, recording medium containing the program, and navigation device
US7840407B2 (en) * 2006-10-13 2010-11-23 Google Inc. Business listing search
EP2259252B1 (en) * 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3042585B2 (ja) * 1995-01-30 2000-05-15 富士通テン株式会社 音声認識装置
JPH1124695A (ja) * 1997-06-27 1999-01-29 Sony Corp 音声認識処理装置および音声認識処理方法
CN1352450A (zh) * 2000-11-15 2002-06-05 中国科学院自动化研究所 中国人名、地名和单位名的语音识别方法
JP2003150189A (ja) * 2001-11-14 2003-05-23 Mitsubishi Electric Corp 音声認識装置
JP2004117063A (ja) * 2002-09-24 2004-04-15 Seiko Epson Corp ナビゲーション装置
CN101162153A (zh) * 2006-10-11 2008-04-16 丁玉国 一种语音控制的车载gps导航系统及其实现方法
CN101158584A (zh) * 2007-11-15 2008-04-09 熊猫电子集团有限公司 车载gps的语音目的地导航实现方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116571A (zh) * 2013-03-14 2013-05-22 米新江 一种确定多个对象权重的方法
CN103116571B (zh) * 2013-03-14 2016-03-02 米新江 一种确定多个对象权重的方法
CN106463115A (zh) * 2014-06-05 2017-02-22 大陆汽车有限责任公司 借助于语音输入能够控制的、具有功能装置和多个语音识别模块的辅助系统
CN106463115B (zh) * 2014-06-05 2020-06-09 大陆汽车有限责任公司 借助于语音输入能够控制的、具有功能装置和多个语音识别模块的辅助系统

Also Published As

Publication number Publication date
WO2010061751A1 (ja) 2010-06-03
EP2352144A4 (en) 2012-11-28
EP2352144B1 (en) 2015-08-19
CN102224542B (zh) 2012-12-19
JP5199391B2 (ja) 2013-05-15
EP2352144A1 (en) 2011-08-03
US20110231191A1 (en) 2011-09-22
JPWO2010061751A1 (ja) 2012-04-26
US8688449B2 (en) 2014-04-01

Similar Documents

Publication Publication Date Title
CN102224542B (zh) 权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法
CN109145281B (zh) 语音识别方法、装置及存储介质
CN102119412B (zh) 例外语辞典制作装置、例外语辞典制作方法、和声音识别装置和声音识别方法
CN108287843B (zh) 一种兴趣点信息检索的方法和装置、及导航设备
US7542966B2 (en) Method and system for retrieving documents with spoken queries
CN102549652B (zh) 信息检索装置
CN110992944B (zh) 语音导航的纠错方法、语音导航装置、车辆和存储介质
WO2006059451A1 (ja) 音声認識装置
JP5274711B2 (ja) 音声認識装置
US8484582B2 (en) Entry selection from long entry lists
CN102693266A (zh) 搜索数据库的方法、生成索引结构的导航设备和方法
US8315869B2 (en) Speech recognition apparatus, speech recognition method, and recording medium storing speech recognition program
US20110131040A1 (en) Multi-mode speech recognition
CN101057274B (zh) 用于从可预先确定的词汇表中识别口头输入的方法
JP4611823B2 (ja) 音声認識候補文字列選択装置
JPH11325945A (ja) 車載用ナビゲーション装置
JP5522679B2 (ja) 検索装置
JP2021149746A (ja) 地点検索システム、地点検索方法及び地点検索プログラム
CN116070036A (zh) 兴趣点推荐方法、装置、电子设备以及存储介质
CN113553827A (zh) 一种信息处理方法、装置、设备和计算机存储介质
JP6217414B2 (ja) 読み生成装置、方法、及びプログラム
US20180356244A1 (en) Automatic Data Switching Approach In Onboard Voice Destination Entry (VDE) Navigation Solution
JP2018155997A (ja) 施設検索装置
JP4792497B2 (ja) 楽曲検索装置及び方法、並びにコンピュータプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121219

Termination date: 20151117

EXPY Termination of patent right or utility model