CN1448915A - 声音识别系统、装置、声音识别方法以及声音识别程序 - Google Patents

声音识别系统、装置、声音识别方法以及声音识别程序 Download PDF

Info

Publication number
CN1448915A
CN1448915A CN03109030.3A CN03109030A CN1448915A CN 1448915 A CN1448915 A CN 1448915A CN 03109030 A CN03109030 A CN 03109030A CN 1448915 A CN1448915 A CN 1448915A
Authority
CN
China
Prior art keywords
recognition
sound
voice data
vocabulary
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN03109030.3A
Other languages
English (en)
Other versions
CN1242376C (zh
Inventor
牛田博英
中嶋宏
大本浩司
石田勉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Publication of CN1448915A publication Critical patent/CN1448915A/zh
Application granted granted Critical
Publication of CN1242376C publication Critical patent/CN1242376C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

提供一种可以实现超出1个装置中的词汇进行声音识别和使保存在1个装置中的词汇维持在适合的词汇中的至少一方的声音识别系统、装置、声音识别方法、声音识别程序以及记录声音识别程序的计算机可读取的记录介质。由声音识别引擎识别客户机接收的声音数据,当其识别结果为驳回时,将声音数据传送给服务器,并将在服务器中的识别结果传送给客户机,客户机根据识别次数对识别词典进行更新,并且在结果综合部中进行识别结果的综合。也可以用客户机替代服务器。

Description

声音识别系统、装置、声音识别方法以及声音识别程序
技术领域
本发明涉及一种进行声音识别的声音识别系统以及适用于这样的声音识别系统的装置、声音识别方法、声音识别程序以及记录声音识别程序的计算机可以读取的记录介质。
背景技术
以往,以数十万词以上的大规模词汇作为对象进行声音识别,需要高性能处理器和大容量存储器。
因此,在PDA(Personal Digital Assistant)和移动电话终端中,进行大词汇的声音识别,使得终端本体的成分大幅度提高,实现起来非常困难,也妨碍了在移动环境下的使用。
作为解决该问题的现有技术,有如特開平11-327583号公报所记载的技术。
该现有技术,由服务器和多个客户机构成,在客户机中登录了缺省词汇。当用户想让客户机识别缺省中没有的词汇时,将该词汇重新登录到客户机上。
该现有技术中所具有的特点是,由于新登录的词汇通过服务器可以传送给其它客户机,所以只要最初有用户登录,则其它用户登录时就没有必要从新登录了。
但是,在上述现有技术中存在以下2个问题。首先作为第1个问题是最初用户需要进行登录词汇的手续。
作为第2个问题,用户所使用的词汇不同时,无法使用上述现有技术。
本发明是针对上述问题而提出的,其目的在于提供一种能够实现可以超出1个装置内的词汇进行声音识别,以及将保存在1个装置中的词汇维持在适当的词汇中的至少一种的声音识别系统、装置、声音识别方法、声音识别程序以及记录声音识别程序的计算机可读取的记录介质。
发明内容
本发明的上述目的是这样实现的,本发明所述的声音识别系统,由多个装置构成,上述多个装置中至少1个以上的装置包括,输入声音数据的声音输入装置、识别上述声音数据的第1声音识别装置、在给定上述声音数据的情况下传送给其它装置的第1发送装置、从上述声音数据的发送目标装置接收上述声音的识别结果的接收装置、根据上述第1声音识别装置中的识别结果以及上述接收装置所接收的识别结果中的至少一方、输出声音识别结果的结果综合装置,上述多个装置中至少1个以上的装置包括从输入上述声音数据的装置接收上述声音数据的声音接收装置、识别上述声音数据的第2声音识别装置、将上述第2声音识别装置的识别结果传送给上述声音数据的发送源装置的第2发送装置。
又,本发明所述的声音识别系统,上述第1发送装置向其它装置传送上述声音数据的给定情况是由上述第1声音识别装置获取的识别结果中的可信度处在给定阈值以下的情况。
又,本发明所述的声音识别系统,上述多个装置中至少1个以上的装置包括存储词汇的存储装置、对存储在上述存储装置中的词汇进行更新的更新装置,上述更新装置从其它至少1个以上装置接收有关词汇的信息,更新存储在上述存储装置中的词汇。
又,本发明所述的声音识别系统,上述多个装置中至少1个以上的装置以特定事件的发生作为条件,开始与其它至少1个以上的装置进行连接。
进一步,本发明所述的装置,是由多个装置构成的声音识别系统中的装置,是一种包含输入声音数据的声音输入装置、识别上述声音数据的第1声音识别装置、在给定上述声音数据的情况下将其传送给其它装置的第1发送装置、从上述声音数据的发送目标装置接收上述声音识别结果的接收装置、根据上述第1声音识别装置中的识别结果以及上述接收装置所接收的识别结果中的至少一方、输出声音识别结果的结果综合装置的装置,上述多个装置中至少1个以上的第2装置包括从输入上述声音数据的装置接收上述声音数据的声音接收装置、识别上述声音数据的第2声音识别装置、将上述第2声音识别装置的识别结果传送给上述声音数据的发送源装置的第2发送装置。
又,本发明所述的装置,上述第1发送装置向其它装置传送上述声音数据的给定情况是由上述第1声音识别装置获取的识别结果中的可信度处在给定阈值以下的情况。
又,本发明所述的装置,包括存储词汇的存储装置、对存储在上述存储装置中的词汇进行更新的更新装置,上述更新装置从其它至少1个以上装置接收有关词汇的信息,更新存储在上述存储装置中的词汇。
又,本发明所述的装置,以特定事件的发生作为条件,开始与其它至少1个以上的装置进行连接。
又,本发明所述的装置,是由多个装置构成的声音识别系统中的装置,包括从包括输入声音数据的声音输入装置、识别上述声音数据的第1声音识别装置、在给定上述声音数据的情况下传送给其它装置的第1发送装置、从上述声音数据的发送目标的装置接收上述声音的识别结果的接收装置、根据上述第1声音识别装置中的识别结果以及上述接收装置所接收的识别结果中的至少一方、输出声音的识别结果的结果综合装置的第1装置、接收上述声音数据的声音接收装置、识别上述声音数据的第2声音识别装置、将上述第2声音识别装置的识别结果传送给上述声音数据的发送源装置的第2发送装置。
又,本发明所述的装置,上述第1发送装置向其它装置传送上述声音数据给定情况是由上述第1声音识别装置获取的识别结果中的可信度处在给定阈值以下的情况。
进一步,本发明所述的声音识别方法,在由多个装置构成的声音识别系统中的装置中,包括输入声音数据的声音输入工艺、输入上述声音数据的装置识别上述声音数据的第1声音识别工艺、在给定上述声音数据的情况下传送给其它装置的第1发送工艺、从上述声音数据的发送目标装置接收上述声音的识别结果的接收工艺、根据上述第1声音识别装置中的识别结果以及上述接收装置所接收的识别结果中的至少一方、输出声音的识别结果的结果综合工艺,上述多个装置中的装置包括从输入上述声音数据的装置接收上述声音数据的声音接收工艺、识别上述声音数据的第2声音识别工艺、将上述第2声音识别装置的识别结果传送给上述声音数据的发送源装置的第2发送工艺。
又,本发明所述的声音识别方法,在上述第1发送工艺中向其它装置传送上述声音数据的给定情况是由上述第1声音识别工艺获取的识别结果中的可信度处在给定阈值以下的情况。
又,本发明所述的声音识别方法,上述多个装置中的装置包括存储词汇的存储工艺、对所存储的词汇进行更新的更新工艺,上述更新工艺从其它至少1个以上装置接收有关词汇的信息,更新所存储的词汇。
又,本发明所述的声音识别方法,上述多个装置中至少1个以上的装置以特定事件的发生作为条件,开始与其它至少1个以上的装置进行连接。
进一步,本发明所述的声音识别程序,是将由多个装置构成的声音识别系统中的装置作为输入声音数据的声音输入装置、识别上述声音数据的第1声音识别装置、在给定上述声音数据的情况下传送给其它装置的第1发送装置、从上述声音数据的发送目标装置接收上述声音的识别结果的接收装置、根据上述第1声音识别装置中的识别结果以及上述接收装置所接收的识别结果中的至少一方、输出声音识别结果的结果综合装置发挥功能的程序。
又,本发明所述的声音识别程序,上述第1发送装置向其它装置传送上述声音数据的给定情况是由上述第1声音识别工艺获取的识别结果中的可信度处在给定阈值以下的情况。
又,本发明所述的声音识别程序,包括作为更新存储于存储词汇的存储装置中的词汇的更新装置作用的步骤,上述更新装置从其它至少1个以上装置接收有关词汇的信息,更新存储在上述存储装置中的词汇。
又,本发明所述的声音识别程序中,装置之间的连接是以特定事件的发生作为条件开始。
又,本发明所述的声音识别程序,是由多个装置构成的声音识别系统中的装置,从包括输入声音数据的声音输入装置、识别上述声音数据的第1声音识别装置、在给定上述声音数据的情况下传送给其它装置的第1发送装置、从上述声音数据的发送目标装置接收上述声音的识别结果的接收装置、根据上述第1声音识别装置中的识别结果以及上述接收装置所接收的识别结果中的至少一方、输出声音识别结果的结果综合装置的第1装置接收上述声音数据,将上述声音识别系统中的装置作为接收上述声音数据的声音接收装置、识别上述声音数据的第2声音识别装置、将上述第2声音识别装置的识别结果传送给上述声音数据的发送源装置的第2发送装置发挥功能。
又,本发明所述的声音识别程序,上述第1发送装置向其它装置传送上述声音数据的给定情况是由上述第1声音识别装置获取的识别结果中的可信度处在给定阈值以下的情况。
这样,依据本发明,即使对于超出1装置可以识别的词汇数量的词汇数量也可以进行声音识别。又,不需要用户登录词汇的手续,即使是与用户登录的词汇不同的情况也可以使用。
进一步,依据本发明,即使在只具有移动电话程度性能的终端上也可以充分进行声音识别。
在本发明中,声音数据不仅具有作为空气振动的声音数据,也包含以电信号模拟数据表示声音的数据、以电信号数字数据表示声音的数据。
又,在本发明中,声音数据的识别是指确定所输入的声音数据与所储存的1个或者多个词汇之间的对应关系,例如对于1个输入的声音数据,与1个或者多个词汇建立对应关系,进一步,在各个词汇上附加该词汇的可信度。
在此,可信度是指表示与声音数据对应的词汇和所输入的声音数据之间的一致性的概率的数值。
又,在本发明的词汇中,不仅包括单词,也包括文章、文章的一部分、拟音、其它由人发出的声音。
又,在本发明中的事件是指可以成为下一动作的契机的事件,可以包括事件、动作、时间的条件、场所的条件等。
附图说明
图1表示有关本发明的声音识别系统的第1实施方案的整体构成图。
图2表示作为图1所示的客户机101采用移动电话时的内部方框图。
图3表示作为图1所示的客户机101采用PDA时的内部方框图。
图4表示图1所示声音识别引擎104输出的识别结果的概念图。
图5表示图1所示词典控制部106中所计数的储存在识别词典103中的每个词汇的识别次数的概念图。
图6表示图1所示服务器111的内部方框图。
图7表示图1所示声音识别系统的动作流程图。
图8表示由图1所示词典控制部106对识别词典103进行更新动作的概念图。
图9表示有关本发明的声音识别系统的第2实施方案的整体构成图。
图10表示图9所示声音识别系统的动作流程图。
具体实施方式
在本发明的图1至图10中涉及如下图号:客户机101、声音输入部102、识别词典103、声音识别引擎104、声音发送部105、词典控制部106、结果综合部107、服务器111、声音接收部112、识别词典113、声音识别引擎114、词典控制部115、结果发送部116、CPU201、EEPROM202、第1RAM203、第2RAM204、备用电池205、母线开关206、天线207、高频电路208、数字处理部209、声音电路210、手持部211、显示部212、连接器213、收发部301、输出部302、输入部303、时钟部304、通信部305、CPU306、RAM307、ROM308、存储装置309、存储介质310、天线311、母线312、CPU601、输入部602、主存储部603、输出部604、辅助存储部605、时钟部606、控制部607、运算部608、母线609、表801、802、803、部分804、客户机901、声音输入部902、识别词典903、声音识别引擎904、声音发送部905、结果综合部906、客户机911、声音输入部912、识别词典913、声音识别引擎914、声音发送部915、结果综合部916。
以下参照附图详细说明本发明的优选实施方案。但是在该实施方案中所记载的构成部件的尺寸、材质、形状、以及相对配置等,并不限定于特定的记载,并不意味着限定本发明的范围。
又,在以下的附图中,和已经说明的附图中所记载的部件相同的部件采用相同的符号。又,以下说明的有关本发明的声音识别系统的各实施方案的说明,兼作为有关本发明的装置、声音识别方法以及声音识别程序的各实施方案的说明。
(声音识别系统的第1实施方案)
首先说明有关本发明的声音识别系统的第1实施方案。图1表示有关本发明的声音识别系统的第1实施方案的整体构成图。本实施方案的声音识别系统由通过网络相互连接的客户机101和服务器111构成。
但是,有关本发明的声音识别系统的第1实施方案,并不限定于图1所示那样,客户机101和服务器111分别为1台的情况,客户机的台数和服务器的台数可以是1台以上的任意台数。
101表示客户机。该客户机101是用户所有的终端,具有与服务器111通信的功能。
作为该客户机101,例如可以举出微计算机、PDA、移动电话、汽车导航系统、移动微计算机等,在本发明中作为客户机并不限定于这样的客户机,可以采用其它种类的客户机。
在此,作为客户机101采用移动电话时,以及作为客户机101采用PDA时的内部构成分别采用图2以及图3进行说明。
图2表示作为图1所示的客户机101采用移动电话时的内部方框图,图3表示作为图1所示的客户机101采用PDA时的内部方框图。
图2所示的移动电话通过利用数字无线电话网与给定的固定基站之间进行通信,可以与其它人进行通话。
在图2中,CPU201控制图2所示的各电路以及部件的动作、是处理器构成的系统控制器。
在该移动电话上连接有天线207。将该天线207所接收的给定频带(例如800MHz频带)的信号向高频电路(以下称为RF电路)208提供,进行解调,将解调信号传送给数字处理部209。
数字处理部209称为数字信号处理器(DSP),在实施数字解调等各种数字处理后变换成模拟声音信号。
在该数字处理部209中的数字处理,进行将需要的时间槽的输出从时分多路转换后的信号中抽出的处理、或将数字解调后的信号采用FIR滤波器进行波形均化等处理。
然后,将变换后的模拟声音信号传送给声音电路210,进行放大等模拟声音处理。
然后,将声音电路210输出的声音信号传送给手持部211,由装入该手持部211中的扬声器(图中未画出)输出声音。
又,将由装入手持部211中的麦克风(图中未画出)所获取声音的声音数据传送给声音电路210,在该声音电路210中进行放大等模拟声音处理之后,传送给数字处理部209。
然后,在该数字处理部209变换成数字声音信号,为了发送进行数字调制等处理。
处理后的数字声音信号被传送给RF电路208,调制成发送用的给定频度(例如800MHz频带)。然后,将调制波从天线207发出。
此外,本例的手持部211中连接有如液晶显示器等显示部212,可以显示各种文字或图象等信息。
例如,该显示部212是通过从CPU201经过母线传送来的数据控制显示,具有显示所问过的主页图象的情况、或者显示发送过的播出号码等有关通话信息的情况、或者显示后述升级时的操作等情况。
又,在手持部211上安装有进行拨号等的输入操作的按键(图中未画出)。
然后,上述各电路208~211在CPU201控制下进行动作。然后,CPU201通过控制线向各电路208~211传送控制信号。
又,CPU201通过母线与EEPROM202、第1RAM203、第2RAM204的各存储器连接。
这时,EEPROM202是数据读出专用存储器,将该移动电话102的动作程序预先保存在其中,但是其中一部分区域的数据可以在CPU201的控制下进行改写。
因此,保存在该EEPROM202中的程序,是本发明所述的程序,EEPROM202本身是本发明所述的记录程序的计算机可读取的记录介质。
因此,本发明权利要求范围中所记载的声音输入装置、第1声音识别装置、第1发送装置、接收装置、结果综合装置、存储装置以及更新装置的功能是由图2所示的CPU201单独、或者与图2所示的其它部件一起,在保存在EEPROM202中的程序的协助动作下实现。
另外,第1RAM203是临时保存改写EEPROM202中数据的存储器。
另外,第2RAM204是保存数字处理部209的控制数据的存储器。
这时,与第2RAM204连接的母线,通过母线开关206,可以在CPU201侧和数字处理部209侧之间切换连接。
利用该母线开关206将第2RAM204切换连接到CPU201侧,仅仅在修改该移动电话的动作程序的时候。
因此,在其它状态下,第1RAM203与数字处理部209连接。
又,第2RAM204与防止存储数据消失用的备用电池205连接。
另一方面,在本实施方案中,从外部接收的数据可以输入到CPU中。
即,图中213表示与外部连接的连接器,该连接器213获得的数据可以传送给CPU201。
以下说明作为图1所示的客户机101采用PDA时的情况。
图3表示作为图1所示的客户机101所采用的PDA(Personal DigitalAssistant)的内部方框图。
PDA由收发部301、输出部302、输入部303、时钟部304、通信部305、CPU306、RAM307、ROM308、安装有存储介质310的存储装置309构成,这些构成装置通过母线312相互连接。
CPU(Central Processing Unit)306将保存在存储装置309内的存储介质310中的系统程序以及从与该系统程序对应的各种应用程序中指定的应用程序保存在RAM307内的程序存储区域中。
然后,CPU306将通过收发部301、输入部303、时钟部304以及外部的基站输入的各种指示或者输入数据保存在RAM307内,根据该输入指示或者输入数据按照保存在存储介质310中的应用程序执行各种处理。
然后,CPU306将其处理结果保存在RAM307中。且CPU306将发送的数据从RAM307中读出输出给收发部301。
收发部301,例如可以由PHS单元(Personal Handy-phone SystemUnit)构成。
收发部301从附设天线311向外部的基站将CPU306传送来的数据(检索输出请求数据等)按照给定的通信协议以电波形式发送。
输出部302,包括LCD显示或者CRT显示等可以显示的画面,是在该显示画面上显示CPU306传送来的各种数据的装置。
输入部303由各种按键、为进行笔输入的显示画面(这时的显示画面基本上都采用输出部302中的显示画面)等构成,是利用按键输入和笔输入(包含笔输入的手写文字的识别),进行有关日程等数据输入和各种检索指令的输入、以及PDA的各种设定输入等的输入装置,将按键输入和笔输入的信号传送给CPU306。
又,在本实施方案中,在输入部303中包含为输入声音数据的麦克风等声音数据输入装置。
时钟部304是具有计时功能的装置,有关计时时刻的信息在输出部302上显示,或者由CPU306进行伴随时刻信息的数据(例如有关日程的数据等)的输入、保存等时,由时钟部304向CPU306输入有关时刻的信息,CPU306根据所输入的时刻信息进行动作。
通信部305是进行近距离的无线数据通信或者有线数据通信的单元。
RAM(Random Access Memory)307,是由临时保存通过CPU306进行运算处理的各种程序或者数据等的存储区域构成。又,RAM307也可读出所保存的各种程序和数据等。
在RAM307中临时保存来自输入部303的输入指示或者输入数据、通过收发部301从外部传送来的各种数据、CPU306根据从存储介质310读出的程序编码进行处理的处理结果等。
ROM(Read Only Memory)308是根据CPU306的指示读出所保存的数据的的只读存储器。
存储装置309具有保存程序和数据等的存储介质310,该存储介质310可以由磁存储介质、光学存储介质以及半导体存储器构成。又,存储介质310可以固定设置在存储装置309中,也可以是可以自由装卸的介质。
在该存储介质310中保存系统程序以及与该系统程序对应的各种应用程序、显示处理、通信处理、输入处理以及各种处理程序所处理后的数据(包含日程数据)。
又,在该存储介质310中保存的程序、数据等,也可以从通过通信线路等连接的其它机器接收后进行保存,进一步,也可以在通过通信线路等连接的其它机器侧上设置包含上述存储介质的存储装置,也可以利用通信线路使用保存在该存储介质中的程序、数据。
如上所述,保存在ROM308或者存储介质310中的程序是本发明所述的程序,ROM308或者存储介质310本身是本发明所述的记录程序的计算机可读取的记录介质。
因此,本发明权利要求范围中所记载的声音输入装置、第1声音识别装置、第1发送装置、接收装置、结果综合装置、存储装置以及更新装置的功能由图3所示的CPU301单独、或者与图3所示的其它部件一起,在保存在ROM308或者存储介质310中的程序的协助动作下实现。
由移动电话或者PDA、或者其它装置所构成的客户机101,识别从用户获取的声音。又,客户机101在给定的情况下将声音数据传送给服务器111,从服务器111接收其识别结果。
以下,回到图1所示的客户机101的说明。客户机101包括声音输入部102。该声音输入部102获取用户的声音数据。
又,该声音输入部102,向声音识别引擎104以及声音发送部105输出声音数据。
又,该声音输入部102将模拟输入声音变换成数字声音数据。
然后,声音识别引擎104从声音输入部102接收声音数据。又,声音识别引擎104从识别词典103装载词汇。
该声音识别引擎104在装载的识别词典中的数据和从声音输入部102所输入的声音数据之间进行识别。该识别结果,例如作为对各词汇的可信度计算出来。
在此,以下对本实施方案的声音识别引擎104中声音识别的一般处理流程进行说明。
声音识别引擎104中的声音识别过程由声音分析过程和搜索过程构成。
1.声音分析过程
声音分析过程是从声音波形中抽出用于声音识别的特征量的过程。作为特征量一般采用对数倒频谱。对数倒频谱是由声音波形的短时间振幅频谱的对数的逆傅立叶变换进行定义。
2.搜索过程
搜索过程是以声音分析中所获得的特征量为基础,求出与该特征量最接近的声音数据的范围(例如单词和单词列)的过程。一般在搜索过程中采用音响模型和语言模型2种综合模型。
音响模型是综合表示人的发音特征,以预先收集的音响数据为基础通过计算求出各音素(例如/a/、/i/等母音、/k/、/t/等子音)的模型。
作为表现音响模型的一般方法采用隐式马尔可夫模型(HiddenMarkov Model)。
语言模型规定可以进行声音识别的词汇空间,即,限制音响模型的配置,例如规定单词「山」采用怎样的音索引排列进行表现,或者规定某段文章以怎样的单词列进行表现。
作为语言模型,一般采用N图(Nグラム)。在搜索过程中,由声音分析抽出的特征量与音响模型和语言模型进行对照。对照中采用根据贝叶斯法则的概率处理,导出概率最接近的单词。
对照结果,采用与那一个单词或者单词列相类似这样的概率进行表现,综合2个模型获得最终的概率。
搜索过程中的隐式马尔可夫模型、N图、贝叶斯法则的详细说明,例如在以下文献中有说明。「声音语言处理」(森北出版,北研二、中村 哲、永田 昌明著)。
又,声音识别引擎104将声音数据的识别结果输出给声音发送部105、词典控制部106以及结果综合部107。
在此,参照图4说明声音识别引擎104输出的识别结果的一例。图4表示图1所示声音识别引擎104输出的识别结果的概念图。
在图4所示的识别结果例中,对于输入到声音识别引擎104的声音数据,作为由声音识别引擎104识别的识别词汇,输出「X」、「Y」、「Z」。当然,作为由本实施方案的声音识别引擎104输出的识别词汇,并不限定于「X」、「Y」、「Z」,也可以输出这之外的词汇、该数量以上的词汇。
然后,声音识别引擎104对各个识别词汇,计算可信度。该可信度的计算方法可以采用公知的技术。
在图4所示的例中,可信度对于识别词汇「X」为0.6,对于识别词汇「Y」为0.2,对于识别词汇「Z」为0.3。
又,声音识别引擎将识别词汇中在给定可信度(阈值)以上的词汇之外的词汇多为驳回(reject)对象。在图4所示的例中,例如将可信度的阈值设定为0.5,对于词汇「X」以外的词汇成为驳回对象。
这样,声音识别引擎104,当识别结果的可信度比阈值低时,识别结果作为驳回,并将驳回信息向声音发送部105、词典控制部106以及结果综合部107输出。这样声音识别引擎104以保存在识别词典中的词汇为基础,识别声音数据。
然后,在图1所示的识别词典103中,输出从词典控制部106应登录的词汇。在该识别词典103中,可以由用户或者设计者预先登录词汇。该识别词典103,作为保存词汇的储存装置作用,识别词典103以外的其它识别词典也相同。
识别词典103向声音识别引擎104输出词汇。又,识别词典103保存词汇。
然后,声音发送部105从声音输入部102获取声音数据。又,声音发送部105从声音识别引擎104获取识别结果。
然后,声音发送部105向服务器111发送声音数据。即,声音发送部105根据从声音识别引擎104获取的识别结果,当接收到对该声音数据的识别结果全部是驳回的信息时,将从声音输入部102受理的声音数据发送给服务器111。
在此,作为确定发送目标服务器的方法,例如有向与发送源客户机在物理距离上最近的服务器传送的方法。即,进行通信的服务器也可以根据有关这些装置之间的距离信息确定。
在有关上述距离的信息中可以包括客户机通信的基站的位置信息、或采用GPS(Global Positioning Systems:全球定位系统)获取的位置信息。
然后,词典控制部106从服务器111接收词典更新信息,更新识别词典103的词汇。因此,词典控制部106发挥更新装置作用。对于该更新动作将在后面说明。
在词典更新信息中,服务器111针对每个词汇记录从客户机101接收的声音数据的次数。又,词典控制部106从声音识别引擎104获取识别结果。
又,词典控制部106向识别词典103输出词汇。又,词典控制部106以从声音识别引擎104接收的识别结果对保存在识别词典103中的每个词汇的识别次数进行计数。
在此,参照图5对在词典控制部106中计数的保存在识别词典103中的每个词汇的识别次数进行说明。图5表示在词典控制部106中计数的保存在识别词典103中的每个词汇的识别次数的概念图。
如图5所示,例如保存在识别词典103中的各词汇中保存识别次数的信息。即,在图5所示的例中,词汇「A」的识别次数为3次,词汇「B」的识别次数为2次,词汇「C」的识别次数为6次。
又,词典控制部106根据从服务器111接受的词典更新信息(即服务器111中的每个词汇的识别次数)和在客户机101中每个词汇的识别次数,对识别词典103中保存的所有词汇按照识别次数进行排序。对于该排序动作将在后面说明。
然后,词典控制部106,例如按照识别次数多的顺序以在识别词典中可以登录的数量将词汇登录在识别词典103中。
然后,结果综合部107,从声音识别引擎104获取客户机101的识别结果。
进一步,结果综合部107从服务器111获取服务器111的识别结果。因此,结果综合部107作为从服务器111接收识别结果的接收装置发挥作用。
然后,结果综合部107输出综合后的识别结果。该结果综合部107的输出在依据声音的确认和应用中使用。
即,结果综合部107综合客户机101和服务器111的识别结果,当客户机101的识别结果为驳回时,采用服务器111的识别结果。
又,结果综合部107,当客户机101的识别结果不是驳回时采用客户机101的识别结果。
又,结果综合部107,当不是驳回的识别结果有多个时,也可以将其中可信度最高的结果作为识别结果输出。
然后,服务器111从客户机101接收声音数据,对此进行识别。
然后,服务器111对于识别次数多的词汇,将此传送给客户机101。以下,进一步说明该服务器111的构成以及动作。
首先,对于图1所示的服务器111的内部构成参照图6进行说明。图6表示图1所示服务器111的内部方框图。
如图6所示,服务器111由CPU(Central Processing Unit)601、输入部602、主存储部603、输出部604、辅助存储部605和时钟部606构成。
CPU601是别名为处理部的部件,包括向系统内的各部传送命令并控制其动作的控制部607、在服务器111的中心部进行数字数据的运算处理的运算部608。
在此,该CPU601可以是单体,或者与图6所示的其它各部件一起,在保存在主存储部603或辅助存储部605中的程序的协动下,作为本发明权利要求范围中所记载的声音接收装置、第2声音识别装置、第2发送装置发挥作用。
控制部607,按照时钟部606产生的时钟时序,从输入部602输入数据和预先给出的步骤(例如程序和软件)读入到主存储部603中,根据所读入的内容向运算部608传送命令,进行运算处理。
该运算处理的结果,根据控制部607的控制,向主存储部603、输出部604以及辅助存储部605等内部机器和外部机器等传送。
输入部602是为了输入各种数据的部件,例如有键盘、鼠标、指针器件、触摸屏、鼠标垫、CCD摄像机、读卡机、纸带读取部、磁带部等。
主存储部603是别名为存储器的部件,在处理部以及内部存储部中,是指为执行命令所使用的可寻址的存储空间的部件。
该主存储部603主要由半导体存储元件构成。保存所输入的程序和数据,同时按照控制部607的指示,将所保存的数据读出到如寄存器中。
又,作为构成主存储部603的半导体存储元件,可以举出RAM(Random Access Memory)和ROM(Read Only Memory)等。
输出部604是为了输出运算部608的运算结果等的部件,例如CRT、等离子显示板以及液晶显示器、其它显示部、打印机等印刷部、声音输出部等。
又,辅助存储部605是为了补充主存储部603的存储容量的部件。在所使用的介质中,除了CD-ROM、硬盘等之外,还可以采用可以写入信息的例如一次写入的CD-R、DVD-R、或相变化记录系的CD-RW、DVD-RW、DVD+RW、PD、光磁存储的记录介质、磁记录的记录介质、可以移动的HDD的记录介质、闪存的记录介质。
在此,上述各部通过母线609相互连接。
又,在本实施方案的服务器中,图6所示的各部中如果有不需要的部分可以适当删除。例如有时有构成输出部604的显示器等不需要情况,此时在本实施方案的服务器中,有不需要输出部604的情况。
又,上述主存储部603和辅助存储部605的个数并不限定于各1个,也可以是任意的个数。如果增加上述主存储部603和辅助存储部605的个数,则可以提供服务器的抗故障能力。
此外,有关本发明的各种程序,保存(记录)在上述主存储部603和辅助存储部605中的至少任一方中。
因此,记录了本发明所述程序的计算机可读取的记录介质,相当于上述主存储部603和辅助存储部605中的至少任一方。
以下说明图1所示服务器111的动作。首先,声音接收部112从客户机101获取声音数据。又,声音接收部112将从客户机101接收的声音数据向声音识别引擎114输出。
然后,识别词典113从词典控制部115获取应该登录的词汇。在该识别词典113中,也可以由用户或者设计者预先登录词汇。
识别词典113向声音识别引擎114输出词汇。又,识别词典113保存词汇。
然后,声音识别引擎114从识别词典113装载词汇。又,声音识别引擎114从声音接收部112接收声音数据。
又,声音识别引擎114以词汇为基础,识别声音数据,将识别声音数据后的结果向词典控制部115以及结果发送部116输出。该声音识别引擎114的构成以及动作,可以和上述声音识别引擎104的构成以及动作相同,也可以不同。
又,声音识别引擎114对声音的识别结果的概略和上述图4中所示的识别结果相同。
然后,词典控制部115从声音识别引擎114获取识别结果。又,词典控制部115向客户机101输出词典更新信息。
即,词典控制部115以从声音识别引擎114接收的识别结果为基础,对在服务器111中保存在识别词典113中的每个词汇的识别次数进行计数,对保存在识别词典113中的每个词汇的识别次数进行更新。
这时的计数结果例如象图5所示的识别次数的概念图所示,保存在识别词典113中。
在此,在服务器111中每个词汇的识别次数的计数也可以针对每个词汇并且每台客户机101进行。
又,在服务器111中每个词汇的识别次数的计数,也可以将每个词汇并且每台客户机分成给定的组,然后按该每个给定的组对识别次数进行计数。
又,在服务器111中每个词汇的识别次数的计数,也可以针对每个词汇,按照与服务器111连接的各个客户机的所有识别次数的综合进行。
又,词典控制部115,以识别词典113的每个词汇的识别次数作为词典更新信息,传送给客户机101。
在此,在从词典控制部115向客户机101传送的词典更新信息中,可以包含保存在识别词典113中的所有词汇与识别次数之间的对应关系,也可以包含一定数量以上的识别次数的各词汇与识别次数之间的对应关系。
此外,从词典控制部15向客户机101输出词典更新信息的时刻,例如可以采用每隔一定时间间隔输出,或者在服务器111中当识别次数达到给定次数后输出,在客户机101中当用户按下更新按键后输出的各种时刻。
然后,结果发送部116,从声音识别引擎114获取服务器111的识别结果,将识别结果向客户机101输出。
然后,参照图7详细说明图1所示的声音识别系统的动作。图7表示图1所示声音识别系统的动作流程图。
首先在S701步骤中,客户机101识别从用户获取的声音。然后,客户机101计数每个词汇的识别次数。
然后,在S702步骤中,当通过客户机101的词汇的声音识别结果不是驳回时,以此作为识别结果,结束动作。
在客户机101中当识别结果是驳回时,进入到S703步骤。
在S703步骤中,将声音数据从客户机101向服务器传送。在此,客户机和服务器之间的连接可以采用以下的1.或者2.的任一种方式。此外,客户机和服务器之间的连接是指建立呼应关系。
1.始终连接。
2.由特定事件启动连接,以及/或者由以下的特定事件结束连接。这些特定事件可以任意组合使用。
(特定事件)
(1)识别结果为驳回时开始连接,从服务器获取识别结果时结束连接。即,可以将在客户机中不能进行声音识别的事件作为特定事件。
(2)从用户有声音数据输入时开始连接,从服务器获取识别结果时结束连接。即,向客户机输入了声音数据的事件可以作为特定事件。
(3)当用户启动某种装置时开始连接,该装置的动作结束时结束连接。例如,汽车的点火键等。即,也可以将从外部向客户机输入信号的事件作为特定事件。
(4)根据客户机使用的时间、场所控制连接的开始、结束。例如,频繁使用的时间带、区域由用户设定、或者由客户机自动获取。然后,频繁使用的时间带、区域中的词汇保存在客户机中,由客户机进行声音识别。客户机的位置在频繁使用时间带或者区域中至少任一方之外时,连接服务器,由服务器进行声音识别。即,以客户机在给定时间带之外使用的事件或者在给定区域之外使用的事件作为特定事件。
然后,返回到图7所示的流程图的说明。在S704步骤中,服务器111进行声音识别。然后,服务器111计数每个词汇的识别次数。
在此,在服务器111中每个词汇的识别次数的计数,如上所述,也可以针对每个词汇并且每台客户机101进行。
又,在服务器111中每个词汇的识别次数的计数,也可以将每个词汇并且每台客户机分成给定的组,然后按该每个给定的组对识别次数进行计数。
又,在服务器111中每个词汇的识别次数的计数,也可以针对每个词汇,按照与服务器111连接的各个客户机的所有识别次数综合进行。
然后,在S705步骤中,服务器111将识别结果向客户机101传送。
然后,在S706步骤中,客户机101综合客户机101和服务器111的识别结果。
进一步,在S707步骤中,服务器111每隔一定时间间隔和声音数据的识别次数从服务器111向客户机101传送词典更新信息。
但是,如前所述,在本实施方案中,作为从服务器111向客户机101传送词典更新信息的时刻,例如也可以采用在用户按下客户机101中的更新按键等后,用户自己进行更新的方法。
然后,从服务器111接收到词典更新信息后的客户机101,在词典控制部106中更新识别词典103。
在此,对于依据词典控制部106的识别词典103的更新参照图8进行说明。图8表示图1所示依据词典控制部106的识别词典103的更新动作的概念图。
首先,在初始状态下,在识别词典103中,假定保存了表801。在该表801中,针对每个词汇设定有识别次数,识别次数最少的词汇,例如是「X」的6次。
在此,在表801中,从词汇「A」到词汇「X」按照其识别次数确定序号。所以,词汇「X」为最低序号。该序号,对于相同识别次数的词汇可以采用相同的序号,或者即使是相同识别次数,例如也可以通过采用输入顺序进行区别,分配不同的序号,这时其最终序号和保存在识别词典103中的词汇的个数一致。
然后,假定词典控制部106从词典控制部205作为词典更新信息接收到表802。在该表802中,保存有例如词汇「Y」识别次数为7次的情况。
这样,本实施方案的词典控制部106,在有关从服务器111的词典控制部115中接收的词汇中的信息中,可以包含词汇以及该词汇的识别次数。
然后,接收到作为该词典更新信息的表802的词典控制部106,对于保存在识别词典103中的表801按照词汇「Y」的识别次数进行排序,通过将给定序号之外的词汇删除进行更新,并制作表803。
在表803中,追加与词汇「Y」对应的部分,同时在初始状态的表中存在的词汇「X」的部分804,由于在表803的给定序号之外而被删除。
即,由词典控制部106对保存在识别词典103中的词汇进行更新。
但是,在本实施方案中由词典控制部106对保存在识别词典103中的词汇的更新并不限定于上述方法。
即,词典控制部106也可以采用不删除给定序号以外的词汇而留下来,但该给定序号之外的词汇不用于识别中。
又,词典控制部106作为删除条件,不采用给定序号,而采用如果超出识别词典103的存储容量的限制后进行删除的方法。
如上所述,依据有关本发明的声音识别系统的第1实施方案,在客户机101中即使声音识别的处理能力并不是太高时,可以在与客户机101连接的服务器111中进行声音识别,可以提高声音识别的性能。
又,由于对所识别的词汇的识别次数进行计数,客户机101根据该计数结果在客户机101中对识别词典103进行更新,即使客户机101的用户没有手动对识别词典103进行更新,也可以构筑适当的识别词典103。
(声音识别系统的第2实施方案)
然后,说明有关本发明的声音识别系统的第2实施方案。图9表示有关本发明的声音识别系统的第2实施方案的整体构成图,图10表示图9所示声音识别系统的动作流程图。
本实施方案和上述第1实施方案的不同点在于用其它客户机911替代图1所示的服务器111进行识别。
即,本实施方案的声音识别系统包括通过网络相互连接的多台客户机,是通过在各个客户机中分担不同的词汇并进行并列分散识别,可以处理在1台客户机中不能处理的词汇数量的声音识别系统。
在此,本实施方案中的客户机901、911,例如可以举出微计算机、PDA、移动电话、汽车导航系统、移动微计算机等,在本发明中作为客户机并不限定于这样的客户机,可以采用其它种类的能与服务器进行通信的客户机。
在本实施方案中,如图9所示,本实施方案的声音识别系统虽然只示出了2台客户机的情况,客户机也可以是3台以上。
本实施方案的客户机901、911的构成,例如作为客户机采用移动电话或者PDA时,和在上述有关本发明的声音识别系统的第1实施方案中参照图2以及图3进行说明时的情况相同。
因此,图2所示的移动电话作为本实施方案中从其它客户机传送声音数据的客户机使用时,本发明权利要求范围中所记载的声音接收装置、第2声音识别装置、第2发送装置的功能由图2所示的CPU201单独、或者与图2所示的其它部件一起,在保存在EEPROM202中的程序的协助动作下实现。
同样,图3所示的PDA作为本实施方案中从其它客户机传送声音数据的客户机使用时,本发明权利要求范围中所记载的声音接收装置、第2声音识别装置、第2发送装置的功能由图3所示的CPU301单独、或者与图3所示的其它部件一起,在保存在ROM308或者存储介质310中的程序的协助动作下实现。
以下,参照图9以及图10说明本实施方案的动作。在图9中,客户机901是用户所有的终端,具有与其它1台以上的客户机进行通信的功能。
该客户机901对从用户获取的声音进行识别(S1001)。又,该客户机901将声音数据向其它1台以上的客户机传送(S1002)。
接收到声音数据的客户机识别该声音数据(S1003),将识别结果传送给声音数据的发送源客户机(S1004)。
接收到声音数据识别结果的客户机901综合识别结果后输出(S1005)。
成为声音数据的发送目标的其它客户机911,可以由用户预先设定,也可以在输入声音的时刻确定。
作为确定发送目标的方法,例如,有向与发送源的客户机在物理距离上最近的客户机传送的方法。即,进行相互通信的客户机也可以根据有关这些装置之间的距离的信息确定。
在有关上述距离的信息中可以包括客户机通信的基站的位置信息、和采用GPS(Global Positioning Systems:全球定位系统)获取的位置信息。
然后,说明客户机901的功能构成。声音输入部902从用户获取声音。
又,声音输入部902向声音识别引擎904以及声音发送部905输出声音数据。
又,声音输入部902将模拟输入声音变换成数字声音数据。
然后,识别词典903保存词汇。在识别词典903中,可以由用户或者设计者预先登录词汇。又,识别词典903向声音识别引擎904输出词汇。
然后,声音识别引擎904从识别词典903装载词汇。又,声音识别引擎904从声音输入部902接收声音数据。
又,声音识别引擎904以词汇为基础进行声音数据的识别,并将该识别结果向结果综合部906输出。
在此,本实施方案的声音识别引擎904的构成以及动作,可以和上述的声音识别引擎104的构成以及动作相同,也可以不同。
又,依据声音识别引擎904的声音识别结果的概略和上述图4所示的识别结果相同。
声音识别引擎904在识别结果的可信度比阈值低时,识别结果作为驳回,并将是驳回的信息传送给声音发送部905以及结果综合部906。
然后,声音发送部905从声音输入部902获取声音数据。又,声音发送部905,当从声音识别引擎904输入的识别结果是驳回时,向其它客户机传送声音数据。
然后,结果综合部906从声音识别引擎904获取识别结果。又,结果综合部906从其它客户机911获取识别结果。
又,结果综合部906输出综合后的识别结果。结果综合部906的输出在依据声音的确认和应用中使用。
结果综合部906综合各客户机的识别结果。结果综合部906例如采用识别结果中可信度最大的结果。
然后,客户机911具有与用户所有的终端的其它1台以上的客户机进行通信的功能。
然后,客户机911对从其它客户机901接收到的声音数据进行识别。将识别结果返回给发送源客户机。以下说明客户机911的动作。
首先,声音输入部912从其它客户机(客户机901)获取声音数据。
又,声音输入部912向声音识别引擎914输出从其它客户机获取的声音数据。
然后,在识别词典913中,可以由用户或者设计者预先登录词汇。又,识别词典913向声音识别引擎914输出词汇。
然后,声音识别引擎914从识别词典913装载词汇。又,声音识别引擎914从声音输入部912接收声音数据。
又,声音识别引擎914以装载的词汇为基础进行声音数据的识别,并将该识别结果向结果综合部916输出。
声音识别引擎914在识别结果的可信度比阈值低时,识别结果作为驳回,并将是驳回的信息传送给结果综合部916。
在此,本实施方案的声音识别引擎914的构成以及动作,可以和上述的本发明所述的声音识别系统的第1实施方案的声音识别引擎104的构成以及动作相同,也可以不同。
又,依据声音识别引擎914的声音识别结果的概略和上述图4所示的识别结果相同。
然后,客户机911中的声音发送部915,由于是客户机911从客户机901获取声音数据进行识别,所以不使用。
然后,结果综合部916将从声音识别引擎914获取的识别结果发送给声音数据发送源客户机901。
这样,依据有关本发明的声音识别系统的第2实施方案,即使没有特意准备上述第1实施方案那样的服务器111,通过让相互连接的客户机之间具有分担声音识别的功能,可以进行超出各个客户机的声音识别能力的声音识别。
发明的效果
如上所述,本发明,由于将输入到1个装置中的声音数据传送给与该装置连接的其它装置进行识别,即使各用户所使用的词汇不同,可以进行超出1个装置中的处理可能的词汇的声音识别。
又,由于根据识别次数,可以更新识别词典,即使用户没有手动更新识别词典,也可以构筑适当的识别词典。

Claims (20)

1.一种声音识别系统,由多个装置构成,其特征在于,所述多个装置中至少1个以上的装置包括,
输入声音数据的声音输入装置;
识别所述声音数据的第1声音识别装置;
将所述声音数据在给定的情况下传送给其它装置的第1发送装置;
从所述声音数据的发送目标装置接收所述声音识别结果的接收装置;
根据所述第1声音识别装置中的识别结果以及所述接收装置所接收的识别结果中的至少一方、输出声音识别结果的结果综合装置,
所述多个装置中至少1个以上的装置包括,
从输入所述声音数据的装置接收所述声音数据的声音接收装置;
识别所述声音数据的第2声音识别装置;
将所述第2声音识别装置的识别结果传送给所述声音数据的发送源装置的第2发送装置。
2.如权利要求1所述的声音识别系统,其特征在于,所述第1发送装置向其它装置传送所述声音数据给定情况是由所述第1声音识别装置获取的识别结果中的可信度处在给定阈值以下的情况。
3.如权利要求1或2所述的声音识别系统,其特征在于,所述多个装置中至少1个以上的装置包括,
保存词汇的存储装置;
更新存储在所述存储装置中的词汇的更新装置;
所述更新装置从其它至少1个以上装置接收有关词汇的信息,更新存储在所述存储装置中的词汇。
4.如权利要求1~3中任一项所述的声音识别系统,其特征在于,所述多个装置中至少1个以上的装置以特定事件的发生作为条件,开始与其它至少1个以上的装置进行连接。
5.一种装置,是由多个装置构成的声音识别系统中的装置,其特征
在于,包括,
输入声音数据的声音输入装置;
识别所述声音数据的第1声音识别装置;
将所述声音数据在给定的情况下传送给其它装置的第1发送装置;
从所述声音数据的发送目标装置接收所述声音识别结果的接收装置;
根据所述第1声音识别装置中的识别结果以及所述接收装置所接收的识别结果中的至少一方、输出声音识别结果的结果综合装置,
所述多个装置中至少1个以上的第2装置包括,
从输入所述声音数据的装置接收所述声音数据的声音接收装置;
识别所述声音数据的第2声音识别装置;
将所述第2声音识别装置的识别结果传送给所述声音数据的发送源的装置的第2发送装置。
6.如权利要求5所述的装置,其特征在于,所述第1发送装置向其它装置传送所述声音数据给定情况是由所述第1声音识别装置获取的识别结果中的可信度处在给定阈值以下的情况。
7.如权利要求5或6所述的装置,其特征在于,包括,
存储词汇的存储装置;
更新存储在所述存储装置中的词汇的更新装置;
所述更新装置从其它至少1个以上装置接收有关词汇的信息,对保存在所述存储装置中的词汇进行更新。
8.如权利要求5~7中任一项所述的装置,其特征在于,以特定事件的发生作为条件,开始与其它至少1个以上的装置进行连接。
9.一种装置,是由多个装置构成的声音识别系统中的装置,其特征是在于,包括,
从包括输入声音数据的声音输入装置;
识别所述声音数据的第1声音识别装置;
将所述声音数据在给定情况下传送给其它装置的第1发送装置;
从所述声音数据的发送目标装置接收所述声音的识别结果的接收装置;
根据所述第1声音识别装置中的识别结果以及所述接收装置所接收的识别结果中的至少一方、输出声音的识别结果的结果综合装置的第1装置,
接收所述声音数据的声音接收装置;
识别所述声音数据的第2声音识别装置;
将所述第2声音识别装置的识别结果传送给所述声音数据的发送源装置的第2发送装置。
10.如权利要求9所述的装置,其特征在于,所述第1发送装置向其它装置传送所述声音数据给定情况是由所述第1声音识别装置获取的识别结果中的可信度处在给定阈值以下的情况。
11.一种声音识别方法,在由多个装置构成的声音识别系统中的装置中,其特征在于,包括,
输入声音数据的声音输入工艺;
输入所述声音数据的装置识别所述声音数据的第1声音识别工艺;
将所述声音数据给定情况下传送给其它装置的第1发送工艺;
从所述声音数据的发送目标装置接收所述声音识别结果的接收工艺;
根据所述第1声音识别装置中的识别结果以及所述接收装置所接收的识别结果中的至少一方、输出声音识别结果的结果综合工艺,
所述多个装置中的装置包括,
从输入所述声音数据的装置接收所述声音数据的声音接收工艺;
识别所述声音数据的第2声音识别工艺;
将所述第2声音识别装置的识别结果传送给所述声音数据的发送源装置的第2发送工艺。
12.如权利要求11所述的声音识别方法,其特征在于,在所述第1发送工艺中向其它装置传送所述声音数据给定情况是由所述第1声音识别工艺获取的识别结果中的可信度处在给定阈值以下的情况。
13.如权利要求11或12所述的声音识别方法,其特征在于,所述多个装置中的装置包括,
保存词汇的存储工艺;
对所保存词汇进行更新的更新工艺,
所述更新工艺从其它至少1个以上装置接收有关词汇的信息,对所保存的词汇进行更新。
14.如权利要求11~13中任一项所述的声音识别方法,其特征在于,所述多个装置中至少1个以上的装置以特定事件的发生作为条件,开始与其它至少1个以上的装置进行连接。
15.一种声音识别程序,其特征在于,由多个装置构成的声音识别系统中的装置作为,
输入声音数据的声音输入装置;
识别所述声音数据的第1声音识别装置;
将所述声音数据在给定情况下传送给其它装置的第1发送装置;
从所述声音数据的发送目标装置接收所述声音的识别结果的接收装置;
根据所述第1声音识别装置中的识别结果以及所述接收装置所接收的识别结果中的至少一方、输出声音识别结果的结果综合装置发挥作用。
16.如权利要求15所述的声音识别程序,其特征在于,所述第1发送装置向其它装置传送所述声音数据给定情况是由所述第1声音识别工艺获取的识别结果中的可信度处在给定阈值以下的情况。
17.如权利要求15或16所述的声音识别程序,其特征在于,包括作为更新保存在保存词汇的存储装置中的词汇的更新装置作用的步骤,
所述更新装置从其它至少1个以上装置接收有关词汇的信息,对保存在所述保存装置中的词汇进行更新。
18.如权利要求15~17中任一项所述的声音识别程序,其特征在于,装置之间的连接是以特定事件的发生作为条件开始。
19.一种声音识别程序,是由多个装置构成的声音识别系统中的装置,其特征在于,
从包括输入声音数据的声音输入装置;
识别所述声音数据的第1声音识别装置;
将所述声音数据在给定的情况下传送给其它装置的第1发送装置;
从所述声音数据的发送目标装置接收所述声音的识别结果的接收装置;
根据所述第1声音识别装置中的识别结果以及所述接收装置所接收的识别结果中的至少一方、输出声音的识别结果的结果综合装置的第1装置接收所述声音数据,使所述声音识别系统中的装置作为
接收所述声音数据的声音接收装置;
识别所述声音数据的第2声音识别装置;
将所述第2声音识别装置的识别结果传送给所述声音数据的发送源装置的第2发送装置发挥作用。
20.如权利要求19所述的声音识别程序,其特征在于,所述第1发送装置向其它装置传送所述声音数据给定情况是由所述第1声音识别装置获取的识别结果中的可信度处在给定阈值以下的情况。
CN03109030.3A 2002-04-01 2003-04-01 声音识别系统、装置、声音识别方法 Expired - Fee Related CN1242376C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002099103A JP2003295893A (ja) 2002-04-01 2002-04-01 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002099103 2002-04-01

Publications (2)

Publication Number Publication Date
CN1448915A true CN1448915A (zh) 2003-10-15
CN1242376C CN1242376C (zh) 2006-02-15

Family

ID=28786223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN03109030.3A Expired - Fee Related CN1242376C (zh) 2002-04-01 2003-04-01 声音识别系统、装置、声音识别方法

Country Status (3)

Country Link
US (1) US20040010409A1 (zh)
JP (1) JP2003295893A (zh)
CN (1) CN1242376C (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1306471C (zh) * 2003-11-11 2007-03-21 三菱电机株式会社 声音操作装置
US7809562B2 (en) 2005-07-27 2010-10-05 Nec Corporation Voice recognition system and method for recognizing input voice information
CN101194305B (zh) * 2005-08-19 2012-02-29 思科技术公司 用于分发语音识别语法的系统和方法
CN102708865A (zh) * 2012-04-25 2012-10-03 北京车音网科技有限公司 语音识别方法、装置及系统
CN103137129A (zh) * 2011-12-02 2013-06-05 联发科技股份有限公司 语音识别方法及电子装置
CN103370739A (zh) * 2011-03-04 2013-10-23 高通股份有限公司 用于辨识环境声音的系统和方法
WO2014032597A1 (zh) * 2012-08-29 2014-03-06 联想(北京)有限公司 语音识别方法及电子设备
CN103714814A (zh) * 2013-12-11 2014-04-09 四川长虹电器股份有限公司 一种语音识别引擎语音对接方法
CN103714816A (zh) * 2012-09-28 2014-04-09 三星电子株式会社 电子装置、服务器及其控制方法
CN103794214A (zh) * 2014-03-07 2014-05-14 联想(北京)有限公司 一种信息处理方法、装置和电子设备
CN103810995A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音系统的调节方法和系统
CN103903621A (zh) * 2012-12-26 2014-07-02 联想(北京)有限公司 一种语音识别的方法及电子设备
CN104423552A (zh) * 2013-09-03 2015-03-18 联想(北京)有限公司 一种处理信息的方法和电子设备
CN104681026A (zh) * 2013-11-27 2015-06-03 夏普株式会社 语音识别终端及系统、服务器及其控制方法、非易失性存储介质
CN106126714A (zh) * 2016-06-30 2016-11-16 联想(北京)有限公司 信息处理方法及信息处理装置
CN106971728A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种快速识别声纹方法和系统
CN106971732A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于识别模型提升声纹识别准确度的方法和系统
CN108446095A (zh) * 2013-01-17 2018-08-24 三星电子株式会社 图像处理设备、其控制方法、以及图像处理系统
CN112334975A (zh) * 2018-06-29 2021-02-05 索尼公司 信息处理设备、信息处理方法和程序
CN112750246A (zh) * 2019-10-29 2021-05-04 杭州壬辰科技有限公司 一种智能化库存报警系统及方法

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7570746B2 (en) * 2004-03-18 2009-08-04 Sony Corporation Method and apparatus for voice interactive messaging
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
US20060085293A1 (en) * 2004-09-01 2006-04-20 Melucci Robert J System and method for processor-based inventory data collection and validation
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
JP4802489B2 (ja) * 2004-12-07 2011-10-26 日本電気株式会社 音データ提供システムおよびその方法
US7668867B2 (en) * 2006-03-17 2010-02-23 Microsoft Corporation Array-based discovery of media items
WO2008007688A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Terminal téléphonique ayant une fonction de reconnaissance vocale, dispositif de support de mise à jour de dictionnaire de reconnaissance vocale, et procédé de support associé
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
WO2008114708A1 (ja) 2007-03-14 2008-09-25 Nec Corporation 音声認識システム、音声認識方法、および音声認識処理プログラム
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
JP5283947B2 (ja) * 2008-03-28 2013-09-04 Kddi株式会社 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
US20090271200A1 (en) 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
JP4902617B2 (ja) * 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP5471106B2 (ja) * 2009-07-16 2014-04-16 独立行政法人情報通信研究機構 音声翻訳システム、辞書サーバ装置、およびプログラム
WO2011052412A1 (ja) 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
CN102770910B (zh) * 2010-03-30 2015-10-21 三菱电机株式会社 声音识别装置
CN103038818B (zh) 2010-06-24 2016-10-12 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
US10049669B2 (en) 2011-01-07 2018-08-14 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置
CN102955750A (zh) * 2011-08-24 2013-03-06 宏碁股份有限公司 建立至少二装置间连接及身份关系的方法及控制装置
US8924219B1 (en) 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
US20130085753A1 (en) * 2011-09-30 2013-04-04 Google Inc. Hybrid Client/Server Speech Recognition In A Mobile Device
US9640175B2 (en) * 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
KR20130125067A (ko) * 2012-05-08 2013-11-18 삼성전자주식회사 전자 장치 및 그의 제어 방법
US20140019126A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Speech-to-text recognition of non-dictionary words using location data
JP6281856B2 (ja) * 2012-08-31 2018-02-21 国立研究開発法人情報通信研究機構 ローカル言語資源の補強装置及びサービス提供設備装置
US9443515B1 (en) * 2012-09-05 2016-09-13 Paul G. Boyce Personality designer system for a detachably attachable remote audio object
EP2904608B1 (en) 2012-10-04 2017-05-03 Nuance Communications, Inc. Improved hybrid controller for asr
KR20140060040A (ko) 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US9761228B2 (en) * 2013-02-25 2017-09-12 Mitsubishi Electric Corporation Voice recognition system and voice recognition device
USRE48569E1 (en) * 2013-04-19 2021-05-25 Panasonic Intellectual Property Corporation Of America Control method for household electrical appliance, household electrical appliance control system, and gateway
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
KR102261552B1 (ko) 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
JP6452826B2 (ja) * 2016-08-26 2019-01-16 三菱電機株式会社 ファクトリーオートメーションシステムおよびリモートサーバ
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
JP6833203B2 (ja) * 2017-02-15 2021-02-24 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
CN110325998B (zh) * 2017-02-24 2024-03-12 瑞典爱立信有限公司 使用机器学习对实例进行分类
KR102068182B1 (ko) 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
JP6869835B2 (ja) 2017-07-06 2021-05-12 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、端末装置、及び辞書管理方法
CN107895573B (zh) * 2017-11-15 2021-08-24 百度在线网络技术(北京)有限公司 用于识别信息的方法及装置
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US11315553B2 (en) 2018-09-20 2022-04-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11011157B2 (en) 2018-11-13 2021-05-18 Adobe Inc. Active learning for large-scale semi-supervised creation of speech recognition training corpora based on number of transcription mistakes and number of word occurrences
JP7406921B2 (ja) * 2019-03-25 2023-12-28 株式会社Nttデータグループ 情報処理装置、情報処理方法およびプログラム
JP7334510B2 (ja) * 2019-07-05 2023-08-29 コニカミノルタ株式会社 画像形成装置、画像形成装置の制御方法、および画像形成装置の制御プログラム
US11609947B2 (en) * 2019-10-21 2023-03-21 Comcast Cable Communications, Llc Guidance query for cache system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6456975B1 (en) * 2000-01-13 2002-09-24 Microsoft Corporation Automated centralized updating of speech recognition systems

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1306471C (zh) * 2003-11-11 2007-03-21 三菱电机株式会社 声音操作装置
US7809562B2 (en) 2005-07-27 2010-10-05 Nec Corporation Voice recognition system and method for recognizing input voice information
CN101194305B (zh) * 2005-08-19 2012-02-29 思科技术公司 用于分发语音识别语法的系统和方法
CN103370739A (zh) * 2011-03-04 2013-10-23 高通股份有限公司 用于辨识环境声音的系统和方法
US9443511B2 (en) 2011-03-04 2016-09-13 Qualcomm Incorporated System and method for recognizing environmental sound
CN103137129B (zh) * 2011-12-02 2015-11-18 联发科技股份有限公司 语音识别方法及电子装置
CN103137129A (zh) * 2011-12-02 2013-06-05 联发科技股份有限公司 语音识别方法及电子装置
CN102708865A (zh) * 2012-04-25 2012-10-03 北京车音网科技有限公司 语音识别方法、装置及系统
WO2014032597A1 (zh) * 2012-08-29 2014-03-06 联想(北京)有限公司 语音识别方法及电子设备
CN103632665A (zh) * 2012-08-29 2014-03-12 联想(北京)有限公司 一种语音识别方法及电子设备
US11086596B2 (en) 2012-09-28 2021-08-10 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
CN103714816A (zh) * 2012-09-28 2014-04-09 三星电子株式会社 电子装置、服务器及其控制方法
CN109979465B (zh) * 2012-09-28 2024-02-20 三星电子株式会社 电子装置、服务器及其控制方法
CN109979465A (zh) * 2012-09-28 2019-07-05 三星电子株式会社 电子装置、服务器及其控制方法
US9582245B2 (en) 2012-09-28 2017-02-28 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
US10120645B2 (en) 2012-09-28 2018-11-06 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
CN103810995A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音系统的调节方法和系统
US9564125B2 (en) 2012-11-13 2017-02-07 GM Global Technology Operations LLC Methods and systems for adapting a speech system based on user characteristics
CN103903621A (zh) * 2012-12-26 2014-07-02 联想(北京)有限公司 一种语音识别的方法及电子设备
CN108446095A (zh) * 2013-01-17 2018-08-24 三星电子株式会社 图像处理设备、其控制方法、以及图像处理系统
CN104423552A (zh) * 2013-09-03 2015-03-18 联想(北京)有限公司 一种处理信息的方法和电子设备
CN104423552B (zh) * 2013-09-03 2017-11-03 联想(北京)有限公司 一种处理信息的方法和电子设备
CN104681026A (zh) * 2013-11-27 2015-06-03 夏普株式会社 语音识别终端及系统、服务器及其控制方法、非易失性存储介质
CN103714814A (zh) * 2013-12-11 2014-04-09 四川长虹电器股份有限公司 一种语音识别引擎语音对接方法
CN103794214A (zh) * 2014-03-07 2014-05-14 联想(北京)有限公司 一种信息处理方法、装置和电子设备
CN106971732A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于识别模型提升声纹识别准确度的方法和系统
CN106971728A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种快速识别声纹方法和系统
CN106126714A (zh) * 2016-06-30 2016-11-16 联想(北京)有限公司 信息处理方法及信息处理装置
CN112334975A (zh) * 2018-06-29 2021-02-05 索尼公司 信息处理设备、信息处理方法和程序
CN112750246A (zh) * 2019-10-29 2021-05-04 杭州壬辰科技有限公司 一种智能化库存报警系统及方法

Also Published As

Publication number Publication date
US20040010409A1 (en) 2004-01-15
JP2003295893A (ja) 2003-10-15
CN1242376C (zh) 2006-02-15

Similar Documents

Publication Publication Date Title
CN1242376C (zh) 声音识别系统、装置、声音识别方法
CN1271595C (zh) 语音识别方法
CN1228762C (zh) 用于语音识别的方法、组件、设备及服务器
CN1238833C (zh) 语音识别装置以及语音识别方法
CN1300953C (zh) 数据备份系统、数据备份方法、可佩带的计算机、邮件发送系统
CN1194337C (zh) 语音识别设备和方法以及记录了语音识别程序的记录媒体
CN1263295C (zh) 信息处理装置
CN1277180C (zh) 用于适应音频信号的装置和方法
CN1898721A (zh) 设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法和程序
CN1753368A (zh) 为远程差异压缩寻找候选对象的有效算法
CN1248127C (zh) 发送方移动设备、接收方移动设备、信息通信系统、信息通信方法及服务器设备
CN1574865A (zh) 移动通信终端及其计算机程序以及通信目的地的选择方法
CN1866169A (zh) 再现装置、程序及再现控制方法
CN1969585A (zh) 便携式终端和使用它的无线品质表示方法、程序及系统
CN101031918A (zh) 节点设备、共享信息更新方法、共享信息存储方法以及程序
CN1474379A (zh) 语音识别/响应系统、语音/识别响应程序及其记录介质
CN1717720A (zh) 声处理系统、声处理装置、声处理方法、声处理程序及存储媒体
CN1228866A (zh) 语音处理系统及方法
CN1737732A (zh) 信息处理设备,信息处理方法,记录介质,以及程序
CN1475910A (zh) 程序执行装置
CN1302457C (zh) 信号处理系统、信号处理设备和方法
CN1825249A (zh) 信息处理设备、信息处理方法以及与之一起使用的程序
CN1297130C (zh) 通信终端装置
CN1813285A (zh) 语音合成设备、语音合成方法和程序
CN1737802A (zh) 信息处理设备与方法、记录介质,以及程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060215