CN1615508A - 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器 - Google Patents

语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器 Download PDF

Info

Publication number
CN1615508A
CN1615508A CN02827226.9A CN02827226A CN1615508A CN 1615508 A CN1615508 A CN 1615508A CN 02827226 A CN02827226 A CN 02827226A CN 1615508 A CN1615508 A CN 1615508A
Authority
CN
China
Prior art keywords
voice
words
registered
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN02827226.9A
Other languages
English (en)
Other versions
CN1271595C (zh
Inventor
柏原诚一
山岸秀之
长滨克昌
大石匡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Kogyo KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Kogyo KK filed Critical Asahi Kasei Kogyo KK
Publication of CN1615508A publication Critical patent/CN1615508A/zh
Application granted granted Critical
Publication of CN1271595C publication Critical patent/CN1271595C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)

Abstract

一种语音识别方法可以优选地应用于持续地执行语音识别的设备,为该声音参数序列计算对应于与被登记字词相关的语音单元标签序列的隐藏的马尔可夫模型22的似然性以及对应于用来识别除了被登记字词之外的语音的语音单元标签序列的虚拟模型23的似然性,以及根据该似然性执行语音识别。

Description

语音识别方法、遥控器、 信息终端、电话通信终端以及语音识别器
技术领域
本发明涉及一种用于通过语音控制在普通生活环境中可用的设备的语音识别方法、使用该语音识别方法的遥控器、信息终端、电话通信终端以及语音识别器。
背景技术
在常规的遥控器中,一个设备单元需要一个遥控器,并且通常相同的遥控器不能够遥控不同的设备单元。例如,用于电视的遥控器不能够遥控空调器。遥控器根据要被控制的操作内容被提供多个开关,并且根据开关的按下状态,选择用于目标设备的控制信号,并且发送到该目标设备单元。在录像机等等的情况中,存在多个必要的操作按键,例如用于选择所需的电视台的按键、用于指定节目保留时间的按键、用于设置录像带等等的运行时间的按键,并且该按键的操作是复杂的,另外,由于需要对每个目标设备单元提供一个遥控器,因此用户必须正确地理解每个遥控器和它们的目标设备单元之间的对应关系,这是一个非常困难的工作。
针对于消除上述大量开关并且仅仅使用一个遥控器控制多个目标设备单元的操作的一种遥控器例如在日本专利申请No.2-171098中公开。在该现有技术中,该被遥控的内容由语音输入所指定,并且根据语音识别的结果产生控制信号。该现有技术的语音识别遥控器具有用于把语音识别结果转换为设备控制代码的可改写映射,使得多个目标设备单元可以被操作,并且该映射的内容被根据要操作的设备单元而改写。该映射改写操作需要改变为每个目标设备单元存储转换代码的映射的IC卡。当一个目标设备单元被改变时,搜索相应的IC卡。
在该日本专利申请No.5-7385中描述的语音识别遥控器中,当使用设备和字词之间对应表以及在控制信号和设备状态之间的对应表根据在该设备状态存储器中的该设备单元的操作状态产生要被禁止的操作内容时,为该要被禁止的操作内容存储一个禁止标志。但是,当用该语音识别技术由单个遥控器控制多个设备单元时,要被识别的字词数目增加。因此,输入语音的内容不总是被正确地识别,即,被识别为与指定内容不同的内容,从而导致故障并且减少作为常规单元的遥控器的特征。特别地,对于例如电视、音频设备等等这样的声音设备单元,由一个目标设备单元所产生的噪声可能启动语音识别处理,在用户没有发声的情况下,该设备单元可能被操作,或者可能由于该声音设备所产生的噪声导致正确表示所需的控制内容的发音被错误地识别,从而需要重复许多次发音。
对于控制上述声音设备的语音识别遥控器,日本专利申请No.57-208596公开用于在检测到用户的语音发音时使得电视接收器等等的音频装置静音而提高语音识别电路的识别率。日本专利申请No.10-282993公开通过增强对语音识别处理中的错误的抵抗力而改进语音命令的检测的技术,其通过提供一个在纠正话筒信号中所用的声音补偿器,使用来自语音输入设备的语音命令输入和由音频信号和背景噪声的其他信号所形成的信号,模拟在扩音器和话筒之间的空间中的传输线路,用在该语音输入设备的位置中估计的音频设备单元所发送的音频信号来实现。在这种情况中,当使用该语音识别遥控器时,预先为对一个目标设备单元执行静音除了的指令提供一个专用电路,并且需要例如调节话筒等等的位置和灵敏度这样的专业知识。因此,对于通用设备来说存在一个问题。
另外,对于根据上述常规技术的语音识别遥控器,以及随着要被控制的目标设备单元的数目增加,可能由于未知字词、多余字词以及超出系统预测之外的发音等等的错误识别而导致故障。因此,为了实现更加通用的语音识别类型的语音识别遥控器,需要确定不正确的识别结果和超出系统预测之外的发音的拒绝功能。具体来说,在持续执行语音识别处理的状态中,在使用环境中对正常生活条件上所造成的噪声,例如朋友之间的交谈、人在该遥控器附近走动的脚步声、宠物的发声、在厨房做饭时发出的噪声等等不能够被当前的语音识别技术所消除。结果经常出现错误识别的问题。如果对于被登记字词的匹配确定的许可范围被严格设置,以减小错误识别,则可以实际减少错误识别,但是要被识别的目标字词也经常被拒绝,从而需要重复地发音并且对用户造成麻烦。
上述问题不限于遥控器,而且例如信息终端、电话通信终端这样的各种语音识别设备也具有类似的问题。
本发明要解决常规技术的上述问题,并且针对于提供一种可以用于持续执行语音识别的设备减少由于普通生活条件造成的噪声导致的错误识别的语音识别方法、使用该语音识别方法的遥控器、信息终端、电话通信终端以及语音识别器。
发明内容
为了解决上述问题,本发明包括如下结构。也就是说,根据本发明的语音识别方法通过把要被识别语音的目标人员的输入语音转换为声音参数序列,并且使用维特比算法把该声音参数序列与对应于关于被登记字词的语音单元标签序列的声音模型相比较而执行语音识别,把用于识别除了被登记字词之外的多余字词的语音单元标签序列与用于被登记字词的语音单元标签序列相并列,并且在使用维特比算法的比较处理中还为除了被登记字词之外的多余字词计算语音单元标签序列的似然性,从而在多余字词被作为输入语音而输入时,成功地把多余的字词识别为多余的字词。也就是说,该语音被转换为声音参数序列,为该声音参数序列计算用于识别对应于关于被登记字词的语音单元标签序列的被登记字词的声音模型的似然性以及用于识别对应于识别除了被登记字词之外的语音的语音单元标签序列的多余字词的声音模型的似然性。根据该似然性,进行语音识别。
对于上述结构,如果在不包含被登记字词(即除了被登记字词之外的语音)的普通生活条件上所造成的噪声被转换为声音参数序列,则用小的结果值输出计算对应于与该被登记字词相关的语音单元标签序列的声音模型的似然性,并且用大的结果值输出计算关于多余字词的语音单元标签序列,除了被登记字词之外的语音可以被识别为多余字词,从而避免把除了被登记字词之外的语音错误识别为被登记字词。
对应于该语音单元标签序列的声音模型可以是使用隐藏的马尔可夫模型的声音模型,并且用于识别多余字词的语音单元标签序列可以是通过均衡所有可用的语音单元模型而获得的虚拟语音单元模型。也就是说,用于识别多余字词的声音模型可以被集中到通过均衡所有语音单元模型而获得的虚拟语音单元模型。
通过上述结构,当包含被登记字词的语音被转换为声音参数序列时,对应于关于被登记字词的语音单元标签序列的隐藏的马尔可夫模型的似然性被计算为大于通过均衡用于该声音参数序列的所有语音单元模型而获得的虚拟语音单元模型的似然性,可以识别包含在该语音中的被登记字词。当不包含被登记字词(即,除了被登记字词之外的语音)的在普通生活条件中造成的噪声被转换为声音参数序列时,对于该声音参数序列,通过均衡所有语音单元模型所获得虚拟语音单元模型的似然性被计算为大于对应于与被登记字词相关的语音单元标签序列的隐藏的马尔可夫模型的似然性。根据该似然性,除了被登记字词之外的语音可以被识别为多余字词,从而避免除了被登记字词之外的语音被错误识别为被登记字词。
对应于该语音单元标签序列的声音模型可以是一个使用隐藏的马尔可夫模型的声音模型,并且用于识别多余字词的语音单元标签序列可以具有仅仅由元音的音素所形成的自循环网络。也就是说,用于识别多余字词的声音模型可以是对应于元音音素的一组声音模型,具有从该组的结束点到该开始点的自循环,为该声音参数序列计算对应于元音音素的音素模型组的似然性,并且累计最大值,以确定多余字词模型的似然性。
利用上述结构,当包含被登记字词的语音被转换为声音参数序列时,根据包含在该声音参数序列中的辅音的音素的存在情况,对于该声音参数序列,对应于关于被登记字词的语音单元标签序列的隐藏的马尔可夫模型的似然性被计算为大于仅仅由元音音素所构成的自循环网络的似然性。根据该似然性,可以识别包含在该语音中的被登记字词。当在普通生活条件中所造成的噪声等等,即不包含被登记字词的语音(即除了被登记字词之外的语音)被转换为声音参数序列时,根据包含在该声音参数序列并且不包含在被登记字词中的元音音素,仅仅元音音素的自循环网络结构的似然性被计算为大于对应于与用于该声音参数的被登记字词相关的语音单元标签序列的存储器的似然性。根据该似然性,除了被登记字词之外的语音可以被识别为一个多余字词,并且可以避免除了被登记字词之外的语音被错误识别为被登记字词。
另一方面,为了解决上述问题,根据本发明的遥控器可以通过说出多个操作目标而遥控,并且包括:存储装置,用于存储表示遥控操作的要被识别的字词;用于输入由用户所发出的语音的装置;语音识别装置,用于使用该存储装置识别要被识别并且包含在由用户所发出的语音中的字词;以及发送装置,用于发送对应于要被识别和实际被该语音识别装置所识别的字词的设备控制信号,并且该语音识别方法基于根据权利要求1至3中的任何一项所述的语音识别方法。也就是说,该遥控器包括:语音检测装置,用于检测用户的语音;语音识别装置,用于识别包含在由该语音检测装置所检测语音中的被登记字词;以及发送装置,用于把对应于由该语音识别装置所识别的被登记字词的设备控制信号。该语音识别装置识别包含在由该语音检测装置用根据权利要求1至3中的任何一项的语音识别方法检测包含在该语音中的被登记字词。
利用上述结构,当在普通生活条件等等中由用户发出不包含被登记字词的噪声(即,除了被登记字词之外的语音)时,以用于语音的声音参数序列的大结果值输出计算对应于与多余字词相关的语音单元标签序列的声音模型的似然性,而以小结果值输出计算对应于与被登记字词相关的语音单元标签序列的声音模型的似然性。根据该似然性,除了被登记字词之外的语音可以被识别为多余字词,可以避免把除了该被登记字词之外的语音错误识别为被登记字词,并且可以避免遥控器的故障。
该遥控器还包括一个语音输入单元,用于允许用户执行通信;以及通信单元,用于根据要由该语音识别装置所识别的字词控制对通信线路的设置状态,并且该语音输入装置和该通信单元的语音输入单元可以分别提供。
利用上述结构,尽管一个用户与一个相对方进行通信,并且该通信占用该通信单元的语音输入单元,该用户的语音可以被输入到该语音识别装置,并且可以控制该通信单元。
该遥控器还可以包括控制装置,用于执行通过语音发送和接收邮件的处理、通过语音管理日程安排的处理、通过语音进行备忘录处理以及通过语音进行通知处理中的至少一个处理。
利用上述结构,用户可以通过仅仅发出被登记字词而执行实际操作而实现通过语音执行发送和接收邮件的处理、通过语音管理日程安排的处理、通过语音进行备忘录处理、以及通过语音进行通知处理。
为了解决上述问题,根据本发明的信息终端包括:语音检测装置,用于检测用户的语音;语音识别装置,用于识别包含在由该语音检测装置所检测语音中的被登记字词;以及控制装置,用于根据由语音识别装置所识别的被登记字词,执行语音识别处理、通过语音管理日程安排的处理、通过语音进行备忘录处理以及通过语音进行通知处理中的至少一个处理。该语音识别装置可以用根据权利要求1至3中的任何一项所述的语音识别方法识别包含在由该语音检测装置所检测的语音中的被登记字词。例如可以由用户通过语音输入邮件内容、把该语音转换为语音数据、通过把该语音数据附加到电子邮件上而发送该语音数据、接收附加有该语音数据的电子邮件、以及再生该语音数据而执行通过语音进行发送和接收邮件的处理。例如用户通过语音输入日程安排的内容、把该语音转换为语音数据、输入该日程安排的执行日期并且用与该执行日期相关的语音数据管理该日程安排而执行通过语音管理日程安排的处理。例如用户通过语音输入备忘录的内容、把该语音转换为语音数据、以及在用户需要时再生该语音数据而通过语音执行备忘录处理。例如通过用户输入通知的内容、把该语音转换为语音数据、输入通知时序、以及按照该通知时序再生语音数据而通过语音执行通知处理。
利用该结构,当在普通生活条件等等中由用户发出不包含被登记字词的噪声(即,除了被登记字词之外的语音)时,对应于与多余字词相关的语音单元标签序列的声音模型的似然性被计算为大于该语音的声音参数序列,而对应于与被登记字词相关的语音单元标签序列的声音模型的似然性被计算为较小。根据该似然性,除了被登记字词之外的语音可以被识别为一个多余字词,从而可以避免把除了该被登记字词之外的语音错误识别为被登记字词,并且抑制信息终端的故障。另外,用户可以仅仅通过发出被登记字词而不实际操作,通过语音执行发送和接收邮件的处理、通过语音管理日程安排的处理、通过语音进行备忘录处理以及通过语音进行通知处理。
另一方面,为了解决上述问题,根据本发明的电话通信终端可以连接到公用电话线网络或者互联网通信网络,并且包括:语音输入/输出装置,用于输入和输出语音;语音识别装置,用于识别输入语音;存储装置,用于存储包括通信方的名字和电话号码的个人信息;屏幕显示装置;以及控制装置,用于控制每个装置。该语音输入/输出装置在该通信单元和语音识别单元中具有各自和独立的输入/输出系统。也就是说,该终端包括用于使得用户通过语音输入与电话操作相关的被登记字词的语音输入单元;用于识别通过该语音输入单元输入的被登记字词的语音识别单元;以及具有用于使用户执行通信的语音输入单元,根据由该语音识别电路所识别的被登记字词控制到通信线的连接状态的通信单元。该语音识别单元的语音输入单元和该通信单元的语音输入单元被独立提供。
利用上述结构,尽管用户与相对方进行通信,并且该通信占用通信单元的输入/输出系统,该用户的语音可以被输入到该语音识别单元,并且该通信单元可以被控制。
另外,为了解决上述问题,根据本发明的电话通信终端可以连接到公用电话线网络或者互联网通信网络,并且包括:语音输入/输出装置,用于输入和输出语音;语音识别装置,用于识别输入语音;存储装置,用于存储包通信方的名字和电话号码的个人信息;屏幕显示装置;以及控制装置,用于控制每个装置。该存储装置分离地预先存储包括被登记的人的名字的特定名字的名字词汇列表;任意电话号码的号码词汇列表;在通信过程中的电话操作的电话呼叫操作词汇列表;以及对入局呼叫的电话操作的呼叫接收操作词汇列表。可以通过输入语音由该语音识别装置、存储装置和控制装置执行与出局呼叫、断开和入局呼叫相关的所有电话操作。也就是说,该存储装置分别存储登记特定名字的名字词汇列表、登记任意电话号码的号码词汇列表、登记与在通信过程中的电话操作相关的字词的电话呼叫操作词汇列表、以及在接收入局呼叫时登记与电话操作相关的字词的呼叫接收操作词汇列表。该语音识别装置选择根据由该语音识别装置的识别结果或者该通信线的状态选择存储在该存储装置中的词汇列表,参照该词汇列表,并且通过该语音输入/输出装置识别包含在该语音输入中的字词。
利用上述结构,该词汇列表可以根据情况改变为适当的列表,从而避免由于在普通生活条件等等中的所造成的作为多余语音的噪声而出现错误识别。
还可以通过使用该存储装置的号码词汇列表以及用于通过输入所有十进制数字的连续发音由该语音识别装置识别任意电话号码的电话号码词汇网络来识别由预定数目的数字或符号所形成的号码串模式,而实现识别电话号码的方法。也就是说,该存储装置存储一系列号码词汇列表,其中对应于所有电话号码的数字的数字串被登记,并且当包含在该输入语音中的电话号码被识别时,该语音识别装置可以参照存储在该存储装置中的系列号码词汇列表。
利用上述结构,当要识别一个电话号码时,用户仅仅必须连续地发出对应于该电话号码的全部数字的数字串,从而短时间地识别该电话号码。
该屏幕显示装置可以具有通知发音时序的发音时序显示功能。也就是说,可以通知该语音识别装置处于可以识别被登记字词的状态中。
利用该结构,通过以由该屏幕显示装置所通知的发音时序说出一个字词,用户可以用适当的时序说出被登记字词,从而适当地识别该被登记字词。
根据由该语音识别装置所识别的输入语音,可以提供用于执行通过语音发送和接收邮件的处理、通过语音管理日程安排的处理、通过语音进行备忘录处理以及通过语音进行通知处理中的至少一个处理。
利用该结构,用户可以通过说出被登记字词而不进行实际操作来执行通过语音发送和接收邮件的处理、通过语音管理日程安排的处理以及通过语音进行通知处理中的至少一个处理。
该语音识别装置可以在根据任何一项权利要求1、2和3中的语音识别方法中识别包含在输入语音中的被登记字词。
利用上述结构,当用户发出在普通生活条件等等中造成的不包含被登记字词的噪声(即,处理被登记字词之外的语音)时,对应于与多余字词相关的语音单元标签序列的声音模型的似然性被计算为用于该语音的声音参数序列的较大数值,并且对应于与被登记字词相关的语音单元标签序列的声音模型的似然性被计算为较小数值。根据该似然性,除了被登记字词之外的语音被识别为一个多余字词,从而可以避免把除了该被登记字词之外的语音错误识别为被登记字词,并且抑制电话通信终端的故障。
另一方面,为了解决上述问题,根据本发明的语音识别器包括:语音检测装置,用于检测用户的语音;语音识别装置,用于识别包含在由该语音检测装置所检测的语音中的被登记字词;以及发音时序通知装置,用于通知该语音检测装置处于可以识别被登记字词的状态。
利用上述结构,当通知识别被登记字词的状态时,通过发出语音,用户可以按照适当时序说出被登记字词,从而容易地识别被登记字词。
还可以提供一个音量通知装置,用于通知由该语音检测装置所检测的语音音量。
如上文所述,用户可以在以适当的音量说出字词,从而容易地识别被登记字词。
附图说明
图1为根据本发明第一实施例的遥控器的方框图;
图2示出在图1中所示的遥控器的示意结构;
图3为由图2中所示的遥控器所执行的算术处理的流程图;
图4为在图3中所示的算术处理中在LCD显示设备上显示的图像的示意图;
图5为在图3中所示的算术处理中执行的语音识别处理的示意图;
图6为在图5中所示的语音识别处理中所用的词汇网络的示意图;
图7为示出一个词汇网络的示意图,其中在图6中所示的多余字词模型是通过均衡所有音素模型所获得的虚拟音素模型;
图8为一个词汇网络的示意图,其中在图6中所示的多余字词模型是一个自循环形成元音的音素;
图9为一个词汇网络的示意图,其中在图6中所示的多余字词模型是通过均衡所有音素模型所获得的虚拟音素模型与自循环形成元音的音素的组合;
图10为一个词汇网络的示意图,其中在图6中所示的多余字词模型是一组形成元音的音素;
图11为没有多余字词模型的一个词汇网络的示意图;
图12为根据本发明第二实施例的信息终端的方框图;
图13示出在图12中所示的信息终端的示意结构;
图14为由在图13中所示的信息终端所执行的算术处理的流程图;
图15为在图14中所示的算术处理中在LCD显示设备上显示的图像的示意图;
图16为由在图13中所示的信息终端所执行的算术处理的流程图;
图17为由在图13中所示的信息终端所执行的算术处理的流程图;
图18为在图17中所示的算术处理中在LCD显示设备上显示的图像的示意图;
图19为在图17中所示的算术处理中在LCD显示设备上显示的图像的示意图;
图20为由在图13中所示的信息终端所执行的算术处理的流程图;
图21为在图20中所示的算术处理中在LCD显示设备上显示的图像的示意图;
图22为由在图13中所示的信息终端所执行的算术处理的流程图;
图23为根据本发明第三实施例的具有语音识别功能的电话通信终端的方框图;
图24为作为本发明第三实施例的一个变型的具有语音识别功能的电话通信终端的方框图;
图25为由在图23中所示的中央控制电路所执行的算术处理的流程图;
图26为在图25中所示的算术处理中在LCD显示设备上显示的图像的示意图;
图27为由在图23中所示的中央控制电路所执行的算术处理的流程图;
图28为在图27中所示的算术处理中在LCD显示设备上显示的图像的示意图;
图29为在图23中所示的中央控制电路所执行的算术处理的流程图;以及
图30为由在图23中所示的中央控制电路所执行的算术处理的流程图。
具体实施方式
下面通过参照附图描述本发明的实施例。图1为根据本发明第一实施例的遥控器的主要方框图。在图1中所示的遥控器包括用于识别用户语音的遥控器的本体,即,遥控器本体1;以及用于根据识别结果发出作为红外信号控制信号的红外发射单元2。该用户的语音被从遥控器本体1的语音输入设备(话筒3)输入,通过放大器4发送,并且被A/D转换器5转换为数字化的声音参数(例如,频谱等等)。该输入的模拟语音不被指定,但是通常被按照从8KHz至16KHz范围的特定频率采样和数字化。在语音指令识别电路6中,该数字化的声音参数的似然性被相对于用于每个语音单元的声音参数而计算,该语音单元是用于被存储和登记在语音指令信息存储器7中的被登记词汇列表的每个字词的构成单元。也就是说,在该语音指令识别电路6中,为在语音指令识别电路6中的每个构成单元(在下文中称为语音单元),计算在该被登记词汇列表中并且存储和登记在用于该数字化的声音参数的语音指令信息存储器7中的字词的似然性(在下文中称为被登记字词),并且该似然性的最大累加值被提取作为最接近该用户的语音的被登记字词。在语音指令识别电路6中,同时为该数字化的语音参数计算被存储和登记在语音指令信息存储器7中的多余字词模型的似然性。当该多余字词模型的似然性大于被登记字词的似然性时,则认为不被登记字词已经从该数字化的声音参数中提取。
一个语音单元可以是一个音节、一个音素、一个半音节、一个双音(两对音素)、三音(三对音素)等等,但是为了便于说明,下文所述的是一个音素被用作为一个语音单元。
在该语音指令信息存储器7中,存储对应于每个被登记字词的控制代码,从语音指令信息存储器7调用对应于由语音指令识别电路6所提取的(即,被语音识别的)被登记字词的控制代码,并且通过中央控制电路8发送到红外发射单元2的IRED驱动控制电路9。该IRED驱动控制电路9调用对应于来自IRED编码信息存储器10的控制代码的IRED代码,并且把其作为一个红外信号从IRED 11发出。
在此时,用于同时把语音识别结果通知给用户的装置通过把其在LCD显示设备12上显示而用视觉通知一个识别结果,把该识别结果发送到应答语音控制电路13,调用对应于来自应答语音信息存储器14的识别结果的应答语音数据,并且通过D/A转换器15和放大器16从扩音器17作为模拟语音来通过听觉通知用户。
该红外发射单元2被提供一个光敏元件18,并且当需要使用不登记在IRED编码信息存储器10中的红外代码时,可以通过把一个要使用的红外代码发送到光敏元件18,而通过光敏元件接口电路19把该红外代码添加到IRED编码信息存储器10。
要被使用的硬件没有特别的限制,只要它具有如图1中所示的基本功能即可。在下文的描述中,说明如图2中所示的被用作为遥控器本体1的通常在市场上销售的个人计算机。图3为由在图2中所示的语音识别遥控器所执行的算术处理并且根据用户的语音发送红外代码的流程图。在该流程图中,不设置用于通信的步骤,但是在该算术处理中获得的信息被更新,并且存储在该存储设备,并且在任何时候从该存储设备读取必要的信息。该算术处理是当启动该遥控器时执行的一个处理。在步骤S1中,读取由话筒3检测的语音,并且执行如下文所述的识别该语音是否包含作为被登记字词的启动密码或者噪声和除了该启动密码之外的语音(即,多余字词)的语音识别处理。也就是说,通过语音输入一个启动密码,通知要操作该遥控器的人在该遥控器处。一个启动密码可以使用用户喜好的字词、用户的语音等等任意地预先设置。但是,当持续地操作该语音识别功能时,需要防止由于在普通生活条件下由话筒3所接收的噪声导致的故障。因此,最好使用不常用的一个字词等等。希望使用具有3个或更多个音节但是小于20个音节的字词。另外,希望使用由5个或更多个以及15个和更少的音节所构成的字词。例如,可以使用例如“芝麻开门”等等这样的字词。然后,在步骤S2中,确定在步骤S1中是否已经识别的该启动密码被包含在该语音中。如果该启动密码被包含(是),则该控制进行到步骤S3,否则(如果为“否”),则该控制再次进行到步骤S1。因此,如果除了启动密码之外的一个字词,即仅仅包含非启动密码的噪声和语音被从话筒3输入时,它们被识别为多余字词,并且假设周围没有用户,则该系统进入等待输入语音的状态。
在步骤S3中,由话筒3所检测的语音被读取,并且执行在下文中所述的识别该语音是否包含作为被登记字词的目标设备的名称或者仅仅是噪声和除了目标设备的名称之外的语音(即,多余字词)的语音识别处理。在此用于选择设备以及例如目标设备这样的功能的字词(被登记字词)可以是“电视”、“视频”、“空调”、“音频”、“灯光”、“窗帘”、“电话”、“定时器”、“电子邮件”、“语音备忘录”等等。如果输入除了被登记字词之外的字词,即如果仅仅输入包含被登记字词的字词或噪声,则它们被识别为多余字词,并且该系统进入等待新的目标设备的名称的状态。
在步骤S4中,确定目标设备的名称是否包含在该语音中。如果目标设备的名称被包含(是),则该控制进行到步骤S6。否则(否),该控制再次进行到步骤S3。因此,如果识别出由话筒3所检测的语音包含一个启动密码,则进入用户选择目标设备的模式,并且该系统进入等待语音输入直到输入目标设备等等的名称的状态。如果已经经过预定时间没有通过语音输入要被识别的被登记字词,则该控制返回到识别启动密码的模式(步骤S1和S2)(没有在图3示出),并且该系统进入等待语音输入直到输入启动密码的状态,即待机状态。
在步骤S6中,由话筒3所检测的语音被读取,并且执行如下文中所述的识别该语音是否包含用于目标设备的作为被登记字词的指令内容或者仅仅为噪声和除了该指令内容之外的语音的语音识别处理。也就是说,当用户选择目标设备时,进入可以控制该目标设备的指令内容的模式。例如,当选择“电视”作为目标设备时,关于电视的操作的图像被显示在LCD显示设备12,如图4中所示,并且进入可以指定电源开/关操作、频道号的选择、广播电台的选择、音量调节等等的模式。
然后,在步骤S7中,确定是否已经在步骤S6中识别目标设备的指令内容包含在该语音内。如果该目标设备的指令内容被包含(是),则控制进行到步骤S8。否则(否),控制再次进行到步骤S6。也就是说,该系统进入等待可控制的指令内容的输入的状态。
然后,在步骤S8中,对应于在步骤S6中识别的指令内容的红外代码被发送到红外发射单元2。也就是说,当通过语音输入该指令内容时,根据该指令内容的识别结果调用相应的红外代码,并且该红外代码被从红外发射单元2发送到该目标设备。在该模式中,当一个指令和除了可控制的指令内容之外的噪声被输入时,它们被识别为多余字词。
在步骤S9中,确定在步骤S6中识别的指令内容是否表示结束(例如“终止”)。如果它们表示结束(是),则该算术处理被结束。否则(否),控制进行到步骤S3。也就是说,如果在该模式中通过语音输入表示结束的控制指令,例如“终止”,则控制返回到选择可控制的目标设备的模式(步骤S3和S4)。尽管在预定时间之后不通过语音输入与用于识别的设备控制相关的被登记字词,控制返回到选择该目标设备的模式(没有在图3中示出)。
在步骤S9中,确定在步骤S6中识别的指令内容是否表示待机(例如,“待机”)。如果该字词表示“待机”(是),则该控制进行到步骤S1。否则(否),控制进行到步骤S10。也就是说,如果在选择该目标设备的模式中通过语音输入例如“待机”这样的要进入该语音识别遥控器的指令的字词时,则该控制返回到密码接收模式。
在步骤S10中,确定在步骤S6中识别的指令内容是否表示称为电源关闭状态的字词(例如,“芝麻关门”)。如果这是表示关闭状态的字词(是),则该算术处理结束。否则(否),控制进行到步骤S10。也就是说,如果用户通过语音输入“芝麻关门”,则该语音识别器自身可以被断电,从而完全终止该系统。
当该系统被重新启动,并且激活中央控制电路8的操作系统时,仅仅与该系统相关的应用软件被激活。当暂停该操作系统时,可以通过实际按下该系统的电源按键来执行该激活。
图5示出使用在图3中所示的步骤S1、S3和S6中执行的语音识别处理中的隐藏的马尔可夫模型(在下文中简称为HMM)的处理的原理。当执行该语音识别处理时,首先由话筒3所检测的语音被通过傅利叶变换或者小波变换转换为数字频谱,并且使用例如对该频谱使用线性预测分析、倒谱分析等等这样的语音模拟方法来对该语音数据进行特性化。然后,对于该特性化的语音数据,使用维特比算法预先计算在该语音识别处理中读取的词汇网络20中登记的每个字词的声音模型21的似然性。该被登记字词在对应于语音单元中的一个串联连接(语音单元标签序列)的HMM的一个串联网络中模拟该被登记字词,词汇网络20被模拟为对应于登记在该被登记词汇列表中的被登记字词组的一个串联连接网络。每个被登记字词用一个音素的语音单元等等来构成,并且对每个语音单元计算该似然性。当检测用户的发音结束时,具有最大的似然性累计值的被登记字词被从该被登记词汇列表中检测,并且该被登记字词被作为包含在该语音而识别的被登记字词而输出。
在本发明中,如图6中所示,与代表一个字词的HMM中相同,用于识别多余字词的虚拟模型23与被登记字词的词汇网络22一同设置。作为用于识别一个多余字词的虚拟模型23,有由H.Boulard,B.D’hoore和J.M.Boite在“Optimizing Recognition and Rejection Performance inWordspotting Systems”Proc.ICASSP,Adelaide,Australia,pp.I-373-376,1994中提出的干扰模型方法等等。因此,当除了被控制的字词之外的一个对象,即不包含被登记字词的发音和噪声被作为语音而输入,对应于多余字词的虚拟模型的似然性被设置为比所有被登记字词的似然性更大,从而选择具有最大似然性的虚拟模型,并且成功构造能够正确地确定多余字词的输入的系统。由于使用用于识别多余字词的虚拟模型23,因此尽管分配拒绝功能,也可以形成一个小的便携式遥控器,而不增加在识别处理的实践水平上的计算负担。
在仅仅使用由被登记字词的词汇网络22所形成的词汇网络20而不使用用于识别多余字词的虚拟模型23的常规方法中,必然存在由于未知字词和除了要被识别的字词之外的多余字词或者除了该系统预期之外的发音而导致故障。具体来说,在持续执行语音识别处理的状态中,可能存在由于在使用的普通生活条件中所造成的噪声,例如朋友之间的交谈、在该遥控器附近行走的人的脚步声、宠物的叫声等等、在厨房做饭的噪声等等,经常导致出现错误识别的问题。如果对被登记字词的匹配确定的许可范围被严格地设置,以减小错误识别,则可以实际减小错误识别,但是要被识别的目标字词通常还也被拒绝,从而需要重复地发音并且对用户造成麻烦。另外,有一种在被登记词汇列表中列出多余字词字词的方法,但是列出所有的多余字词是不实际的,因为所获得的被登记词汇列表太大,并且所需的计算量非常大。
图6示出在图3中所示的步骤S4中执行的语音识别处理中的目标设备的名称的词汇网络。该词汇网络20代表用于选择目标设备的被登记字词,即目标设备的名称22和多余字词模型23。更加具体来说,每个被登记字词被构造为如图7中所示,代表相应的音素标签序列。该多余字词模型23被形成为通过均衡所有音素模型而获得的虚拟音素模型,并且具有类似于普通人的语音的音素HMM模型的拓扑结构。通过均衡所有可用音素所获得的虚拟音素模型如下产生。也就是说,使用所有音素作为HMM产生一个模型,该HMM被形成为多个状态转移序列,并且每个状态通过混合的高斯分布而形成。然后,要在音素之间共享的一组高斯分布被从混合的高斯分布中选择,用对每个音素加权的混合高斯分布进行修改,并且通过均衡所有可用的音素而获得一个虚拟音素模型。具有所有被均衡的可用音素的虚拟音素模型不限于来自一个集群的产物,所有语音单元被分为多个(例如,3至5个单元)集群,并且一个模型可以从该集群中形成。因此,当由一个用户说出一个被登记字词时,该被登记字词的似然性必然较大。但是,当除了被登记字词之外的一个字词被说出时,结果虚拟音素模型的似然性变得更大,因此增强识别为多余字词的可能性。例如,当作为例如“电视”、“视频”、“空调”、“灯光”、“音频”等等这样的被登记字词被登记时,如果没有在图7中所示的被登记字词的词汇网络22中给出的字词“takibi”,并且如果没有多余字词模型组,则作为在该被登记字词中具有类似的音素结构的字词的所需字词的似然性(例如,在图7中所示的被登记词汇列表中的“terebi”)为最大,并且导致错误识别。但是,如果设置多余字词,则根据概率理论,该虚拟音素模型的似然性非常有可能为最大值,并且识别为一个多余字词可以在较大程度上减少错误识别。
在图8中所示的多余字词模型示出形成元音的音素的自循环。也就是说,该多余字词模型是对应于元音的音素的一组HMM。对于数字化的声音参数序列的每个声音参数计算对应于该元音的音素的HMM的似然性,累计最大值,并且获得多余字词模型的似然性。这基于几乎所有字词包含元音的特性,并且音素的分析可以通过辅音、元音、摩擦音、爆破音等等来表示,把较大的声音能量分配给元音。也就是说,一个多余字词模型的似然性被计算为所有字词的元音的连续声音。因此,当由用户发出一个被登记字词时,例如辅音这样的除了元音之外的音素变得不适用于多余字词模型。因此,一个多余字词模型的似然性低于被登记字词的似然性,结果,增加识别为被登记字词的识别概率。但是,当除了被登记字词之外的一个字词被发出时,对应于一个被登记字词的音素模型表示用于例如辅音等等这样的除了元音之外的音素的较低数值。因此,表示元音的连续声音的多余字词模型的似然性较高,并且作为多余字词的识别的概率较高,从而减少错误识别。当难以获得上述虚拟音素模型的标签序列时,并且当使用由音素软件所形成的现有语音识别软件时,使用该方法。
根据实际使用的情况,当多余字词识别率较低并且当该识别率太高以及目标指令字可以被识别为一个多余字词时,可以通过把通过使用元音音素由虚拟音素模型和多余字词模型为一个多余字词模型获得的似然性乘以一个适当的因子而执行识别率的优化。
(实施例1)
下面描述本发明的第一实施例。
在该实施例中,如图7中所示,通过均衡所有音素模型所获得的虚拟音素模型23被提供作为一个多余字词模型。该音素模型23和在表1中所述的被登记字词列表,即被登记字词的词汇网络22,被并列地提供在该词汇网络20中。为一个语音遥控器在图3中所示的步骤S3的语音识别处理中读取词汇网络20。作为多余字词,通过语音对每个字词5次输入“takibi”、“takeo”和“fami-com”。结果,识别为多余字词的概率,即正确识别为不被登记字词的概率为100%。为了检查目标字词,即例如“terebi”,“bideo”,“eakon”,“shoumei”和“oodeo”这样的字词的识别率,每个字词被发音10次,并且对于所有这些字词的结果正确识别率为94%。
表1
(实施例2)
下面描述本发明的第二实施例。
在该实施例中,如图8中所示,由对应于元音的音素的HMM所构成的自循环模型23’,即“a”、“i”、“u”、“e”和“o”被作为多余字词模型而提供。该自循环模型23’和在表1中所述的被登记字词列表,即被登记字词的词汇网络22被并列地提供者词汇网络20中。为一个语音遥控器在图3中所示的步骤S3的语音识别处理中读取该词汇网络20。作为多余字词,对每个字词5遍地通过语音输入“takibi”、“takeo”和“fami-com”。结果,识别为多余字词的概率,即正确识别为不被登记字词的概率为100%。为了检查目标字词的识别率,即例如“terebi”、“bideo”、“eakon”、“shoumei”和“oodeo”这样的被登记字词分别被发音10次,并且对于所有这些字词的结果正确识别率为90%。
(实施例3)
下面描述本发明的第三实施例。
在该实施例中,与在图7中所示的第一实施例相同,通过均衡所有音素模型所获得的虚拟模型23被提供作为一个多余字词模型。该音素模型23和在表1中所述的被登记字词列表,即被登记字词的词汇网络23被并行地提供在词汇网络20中。为一个语音遥控器,在图3中所示的步骤S3中的语音识别处理例程中读取词汇网络20。作为多余字词,对于每个字词10遍地通过语音输入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。结果,识别为多余字词的概率,即正确识别为不被登记字词的概率为92%。
(实施例4)
下面描述本发明的第四实施例。
在该实施例中,与在图8中所示的第二实施例相同,由对应于元音音素(即,“a”,“i”,“u”,“e”和“o”)的HMM所构成的自循环模型23’被作为多余字词模型而提供。该自循环模型23’和在表1中所述的被登记字词列表,即被登记字词的词汇网络22被并列地提供在词汇网络20中。为一个语音遥控器,在图3中所示的步骤S3中的语音识别处理中读取该词汇网络20。作为多余字词,对于每个字词10遍地通过语音输入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。结果,识别为多余字词的概率,即识别为不被登记字词的概率为93%。
(实施例5)
下面描述本发明的第五实施例。
在该实施例中,如图9中所述,通过均衡所有音素模型所获得的音素模型23和由对应于音素“a”、“i”、“u”、“e”和“o”的HMM所构成的自循环模型23’被提供作为多余字词模型。该模型22和23以及在表1中所述的被登记字词列表,即被登记字词的词汇网络22被并列地提供在词汇网络20中。为语音遥控器,在图3中所示的步骤S103中的语音识别处理例程中读取该词汇网络。作为多余字词,对于每个字词10遍地通过语音输入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。结果,识别为多余字词的概率,即识别为不被登记字词的概率为100%。为了检查目标字词,即例如“terebi”,“bideo”,“eakon”,“shoumei”和“oodeo”这样的字词的识别率,每个字词被发音10次,并且对于所有这些字词的结果正确识别率为88%。
(实施例6)
下面描述本发明的第六实施例。
在该实施例中,如图10中所述,对应于音素“a”、“i”、“u”、“e”和“o”的HMM 23”,即除了该自循环之外在图8中所示的多余字词模型被提供作为多余字词模型。该自循环模型23”和在表1中所述的被登记字词列表,即被登记字词的词汇网络22被并列地提供在词汇网络20中。为语音遥控器,在图3中所示的步骤S3中的语音识别处理例程中读取该词汇网络20。作为多余字词,对于每个字词10遍地通过语音输入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。结果,识别为多余字词的概率,即识别为不被登记字词的概率为23%。
(对比例1)
下面描述根据本发明的第一对比例。
在该对比例中,如图10中所述,由在表1中所述的被登记字词列表所构成的词汇网络20,即不使用虚拟模型来识别多余字词模型的被登记字词的词汇网络22被读取到在图3中所示的步骤S3中的语音识别处理例程,以准备该语音识别遥控器。然后,作为多余字词,通过语音对每个字词5次输入“takibi”、“takeo”和“famikom”。结果,“takibi”被完全错误识别为“terebi”,“takeo”被完全错误识别为“bideo”,并且“fami-com”被完全错误识别为“eakon”。因此,识别为多余字词的概率,即没有错误识别为不被登记字词的概率为0%。为了检查目标字词,即例如“terebi”,“bideo”,“eakon”,“shoumei”和“oodeo”这样的字词的识别率,每个字词被发音10次,并且对于所有这些字词的结果正确识别率为98%。
(对比例2)
下面描述根据本发明的第二对比例。
在该对比例中,与第一对比例相同,如图11中所述,由在表1中所述的被登记字词列表所构成的词汇网络20,即不使用虚拟模型来识别多余字词模型的被登记字词的词汇网络22被读取到在图3中所示的步骤S3中的语音识别处理例程,以准备该语音识别遥控器。然后,作为多余字词,对于每个字词10遍地通过语音输入“a,i,u,e,o”、“eeto”、“keibi”、“ehen”、“shouchi”和“oodekoron”。结果,“a,i,u,e,o”容易被错误识别为“bideo”,“eeto”容易被错误识别为“eakon”,“keibi”容易被错误识别为“terebi”,“ehen”容易被错误识别为“eakon”,“shouchi”容易被错误识别为“shoumei”,以及“oodekoron”容易被错误识别为“oodeo”。因此,识别为多余字词的概率,即不错误识别为被登记字词的概率为0%。
在本实施例中,该语音指令信息存储器7对应于存储装置,该话筒3对应于用于输入从用户发出的语音的装置,该语音指令识别电路6对应于语音识别装置,以及红外发射单元2对应于发送装置。
下面参照附图说明本发明的第二实施例。在本实施例中,通过识别包含在用户的语音中的被登记字词,并且把该信息终端应用于控制电子邮件发送和接收功能、日程安排管理功能、语音备忘录处理功能、语音定时器功能等等,执行在第一实施例中的语音识别处理。该语音备忘录处理功能是使得用户通过语音输入备忘录的内容、记录该语音并且在用户要求时识别该语音的功能。该语音定时器功能是使得用户通过语音输入通知的内容、记录该语音、输入通知时间、并且以该通知时间再现该语音的功能。
图12为通过应用根据本发明第二实施例的模拟电话的信息终端的主要方框图。在图12中所示的信息终端包括的语音识别单元51,用于识别包含在用户的语音中的被登记字词,并且执行电子邮件发送和接收功能、日程安排管理功能、语音备忘录处理功能、语音定时器功能等等;以及用于根据该识别结果连接到一个通信线的通信单元52。用户的语音被从语音识别单元51的话筒53输入,通放大器54传送,并且由A/D转换器55转换为数字化的声音参数。语音指令识别电路56为在一个语音单元中的数字化声音参数计算在语音指令信息存储器57中存储和登记的被登记词汇列表中的被登记字词的似然性,并且与该似然性的最大累计值相关的字词被提取作为最接近于用户的语音的字词。语音指令识别电路56同时为数字化的声音参数计算被存储和登记在语音指令信息存储器57中的多余字词的似然性。当该多余字词的似然性大于被登记字词的似然性时,认为没有被登记字词被从该数字化的声音参数中提取。
该语音指令信息存储器57存储作为被登记词汇列表的一个电子邮件发送词汇列表,其中存储与电子邮件的发送功能相关的被登记字词;电子邮件接收词汇列表,其中存储与电子邮件接收功能相关的被登记字词;日程安排管理词汇列表,其中存储与日程安排管理功能相关的被登记字词;语音备忘录词汇列表,其中存储与语音备忘录处理功能相关的被登记字词;语音时间词汇列表,其中存储与语音定时器功能相关的被登记字词;以及作为被登记字词的对应于邮件发送命令和邮件接收命令的控制代码。如果电子邮件发送启动密码被在语音指令识别电路56中提取,即作为识别结果而获得,则在下文中所述的算术处理被执行,以根据用户的语音控制电子邮件发送功能,该用户被允许通过语音输入该邮件内容,该邮件被话筒53所检测,通过话筒接口电路68作为语音数据存储在RAM 69中。当电子邮件发送命令被输入时,从语音指令信息存储器57调用对应于该命令的用于控制电话的控制代码,并且发送到通信单元52,以及该语音数据被附加到该电子邮件上,并且被发送。类似地,当语音指令识别电路56获得一个电子邮件接收启动密码作为识别结果时,根据用户的语音执行在下文中所述的用于控制电子邮件接收功能的算术处理。当输入电子邮件接收命令时,从语音指令信息存储器57调用对应于该命令的用于控制电话的控制代码,并且发送到通信单元52,从而接收附加有语音数据的电子邮件,并且通过D/A转换器65和放大器16由扩音器67再现该语音数据。该控制代码没有具体指定,只要它可以控制通信单元52即可。但是,由于通常使用一个AT命令,因此在本实施例中也采用一个AT命令。
当语音指令识别电路56获得该日程安排管理功能的启动密码作为一个识别结果时,中央控制电路58执行在下文中所述的算术处理,用于根据该用户的语音控制日程安排管理功能,该用户被允许通过语音输入该日程安排的内容,该语音由话筒53所检测,并且作为语音数据通过话筒接口电路68存储在RAM 69中,该日程安排的执行日期被输入,并且该执行日期与该语音数据相关,从而执行该日程安排。当在语音指令识别电路56中用于语音备忘录处理功能的启动密码被提取时,即作为一个识别结果而获得,则在中央控制电路58中执行基于用户的语音的语音备忘录处理功能,用户被允许通过语音输入该备忘录的内容,该语音被话筒53所检测,并且作为语音数据通过话筒接口电路68存储在RAM 69中,根据用户的请求,该语音数据被从RAM 69调用,并且通过D/A转换器65和放大器16由扩音器67再现。另外,当在语音指令识别电路56中用于语音定时器产生功能的启动密码被作为一个识别结果而获得,则在中央控制电路58将在下文中描述的算术处理用于根据用户的语音控制该语音定时器功能,用户被允许输入通知的内容,该语音被话筒所检测,并且作为语音数据通过话筒接口电路68存储在RAM69中,该语音的通知时序被输入,用该通知时序从RAM 69调用该语音数据,并且通过D/A转换器65和放大器16由扩音器67再现。
可用的硬件没有具体指定,只要包含根据图12的基本功能即可。在下文的描述中,描述当被用作为语音识别单元51的在图13中所示的通用个人计算机。
图14示出在根据用户的语音发送电子邮件的算术处理的流程图中由在图13中所示的信息终端所执行的处理。尽管在该流程图中没有提供用于通信的步骤,但是在任何时候在该算术处理中获得信息被更新和存储在该存储设备中,并且在任何时候从该存储设备中读取必要的信息。
当执行该算术处理时,首先在步骤S101中,在话筒53中检测的语音被读取,并且确定是否包含作为包含在该语音中的被登记字词的启动密码(例如,字词“电子邮件发送”)或者仅仅包含噪声和除了启动密码之外的语音,即多余字词。如果包含该启动密码(是),则控制进行到步骤S102。否则(否),该处理流程被重复执行。
在步骤S102中,该电子邮件发送词汇列表被作为一个被登记词汇列表而读取,并且一个语音邮件启动器被激活,如图15中所示,使得用户可以在一个LCD显示设备62上显示该用户可以发出指令的被登记字词的列表。用于在LCD显示设备62上显示的被登记字词例如可以是当要产生邮件时被说出的邮件产生命令(例如,“产生邮件”)。
在步骤S103中,由话筒53所检测的语音被读取,执行语音识别处理,识别邮件产生命令是否包含在该语音中或者仅仅包含噪声和除了该邮件产生命令之外的语音。如果该语音包含一个邮件产生命令(是),则控制进行到在步骤S104。否则(否),该处理流程被包含。
然后,在步骤S104中,在话筒53中检测的语音被读取,并且执行语音识别处理,识别是否包含作为要被包含在该语音中的被登记字词的目标列表选择命令(例如,字词“目标列表”),或者仅仅包含作为多余字词的除了目标列表选择命令之外的语音。如果该目标列表选择命令被包含在该语音(是)中,则该控制进行到步骤S105。否则(否),该控制进行到步骤S106。
在步骤S105中,如图15中所示,被登记邮件地址的人的名字的列表,即其邮件地址被存储在一个存储设备的预定数据区中的人的名字,被显示在LCD显示设备62上,由话筒53所检测的语音被读取,并且执行语音识别处理,识别作为包含在该语音中的被登记字词的人的名字,对应于该人名的邮件地址被呼叫,并且控制进行到步骤S107。
在步骤S106中,请求发出该邮件目标的邮件地址的消息被显示在LCD显示设备62上,由话筒53所检测的语音被读取,执行语音识别处理,识别表示包含在该语音中的被登记字词的字母符号,并且识别该目标的邮件地址,从而控制进行到步骤S107。
在步骤S107中,对由话筒53所检测的语音执行语音识别处理例程,识别作为被登记字词的记录开始命令(例如,“开始记录”)。并且确定该语音是否包含该记录开始命令,如果包含该记录开始命令(是),则控制进行到步骤S108,否则(否),该处理流程被重复执行。
在步骤S108中,请求说出邮件内容的消息被显示在LCD显示设备62上,通过在预定时间记录由话筒53所检测的语音数据而产生语音数据,并且该语音数据被存储在该存储设备的预定数据区中,作为邮件内容。
在步骤S109中,对由话筒53所检测的语音执行语音识别处理,识别作为被登记字词的附加记录命令(例如,“附加记录”),并且确定该语音是否包含附加记录命令。如果包含该附加记录命令(是)。则控制进行到步骤S108。否则(否),控制进行到步骤S110。
在步骤S110中,由话筒53所检测的语音被读取,并且确定该语音是否包含一个记录内容确认命令(例如,“确认记录内容”)。如果该语音包含记录内容确认命令(是),则控制进行到步骤S111。否则(否),控制进行到步骤S112。
在步骤S111中,在步骤S108中产生的语音数据,即邮件内容,被从在该存储设备中的预定数据区中读取,该语音数据由扩音器67再现,并且控制进行到步骤S112。
在步骤S112中,读取由话筒53所检测的语音,并且确定该语音是否包含发送命令(例如,“确认发送”)。如果包含发送命令(是),则控制进行到步骤S113。否则(否),控制进行到步骤S114。
在步骤S113中,用于呼叫提供者的AT命令被从该存储设备的预定数据区中读取,并且该AT命令被发送到语音通信单元102,用于连接到该提供者的邮件服务器。
然后,控制进行到步骤S114,在步骤S108中产生的语音数据,即邮件内容,被从该存储设备的预定数据区中读取,该语音数据被附加到电子邮件,并且该电子邮件被发送到在步骤S105读取的邮件地址,或者在步骤S106输入的邮件地址。
然后,在步骤S115中,指定电路的断开的AT命令被从该存储设备的预定数据区调用,并且该AT命令被发送到通信单元52。
在步骤S116中,通知该电子邮件的发送已经完成的消息被显示在LCD显示设备62上,然后控制进行到步骤S118。
在步骤S117中,在步骤S108中产生的语音数据,即邮件内容,被从该存储设备的预定数据区删除,并且控制进行到步骤S118。
在步骤S118中,对于由话筒53所检测的语音执行语音识别处理,识别该语音是否包含启动密码(例如,“接收电子邮件”)或者噪声和除了该启动密码之外的语音,即仅仅多余字词。如果包含该启动密码(是),则控制进行到步骤S202。否则(否),该处理流程被重复执行。
然后,在步骤S202中,一个电子邮件接收词汇列表被读取作为一个被登记词汇列表,并且激活语音邮件启动器,并且在LCD显示设备62上显示用户可以发出一个指令的被登记字词列表。要在LCD显示设备62上显示的被登记字词例如可以是当要接收邮件时发出的邮件接收命令(例如,“接收邮件”)。
然后,在步骤S203中,由话筒53所检测的语音被读取,并且确定该语音是否包含一个邮件接收命令。如果包含邮件接收命令(是),则控制进行到步骤S204。否则(否),该处理流程被重复执行。
然后,在步骤S204中,用于呼叫提供者的一个AT命令被从该存储设备的预定数据区调用,并且该AT命令被发送到语音通信单元102,用于连接到该提供者的邮件服务器。
然后,在步骤S205中,从在步骤S204中连接的邮件服务器接收电子邮件,并且该电子邮件被存储在该存储设备的预定数据区中。
然后,控制进行到步骤S206,并且通知该电子邮件已经被完全接收的消息被显示在LCD显示设备62上。
然后,在步骤S207中,表示线路断开的AT命令被从该存储设备的预定数据区调用,并且该AT命令被发送到通信单元52。
在步骤S208中,在步骤S205中接收的邮件列表被显示在LCD显示设备62上,由话筒53所检测的语音被读取,执行该语音识别处理,识别作为包含在该语音中的被登记字词的邮件选择命令,并且用户被允许从邮件列表中选择特定的邮件。邮件选择命令可以是任何命令,只要允许用户选择特定邮件即可。例如,当邮件发送器的名称被显示在一个邮件列表中时,列出的名称可以被使用。
然后,在步骤S209中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的再现命令(例如,“再现”),并且确定该应用是否包含一个再现命令。如果包含该再现命令(是),则控制进行到步骤S210。否则(否),控制进行到步骤S211。
在步骤S210中,附加到在步骤S208中选择的邮件的语音数据,即邮件内容,被从该存储设备的预定数据区中读取,并且由扩音器67再现该语音数据,从而控制进行到步骤S211。
在步骤S211中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的日程安排登记命令(例如,“登记日程安排”),并且确定该语音是否包含该日程安排登记命令。如果包含一个日程安排登记命令(是),则控制进行到步骤S212。否则(否),控制进行到步骤S217。
在步骤S212中,当日程安排被激活时,一个日程安排管理词汇列表被读取,作为一个被登记词汇列表,并且用户可以发出指令的被登记字词的列表被显示在LCD显示设备62上。
然后,在步骤S213中,确定标头信息(例如,表示日期等等的信息)被在步骤S208中选择的邮件中描述。如果标头信息被描述(是),则控制进行到步骤S214。否则(否),控制进行到步骤S215。
在步骤S214中,附加到在步骤S208中选择的邮件的语音数据,即邮件内容,被存储在该存储设备的预定数据区中,作为在该邮件中描述的标头信息的日期的日程安排的内容。然后,请求输入日程安排的内容的选择大/小项目命令(例如,“私人”、“会议”等等)的消息被显示在LCD显示设备62上,由话筒53所检测的语音被读取,并且执行语音识别处理,识别包含在该语音中作为被登记字词的日程安排的内容的一个选择大/小项目命令。该识别结果被存储在使用该识别结果作为语音数据(即日程安排内容的大/小项目)的存储设备的预定数据区中,然后该控制进行到步骤S217。
另一方面,在步骤S215中,请求输入日程安排的执行日期的消息被显示在LCD显示设备62上,由话筒53所检测的语音被读取,并且执行语音识别处理,识别包含在该语音中作为被登记字词的年月日输入命令(例如,“日期”)。
然后,在步骤S216中,附加到在步骤S208中选择的邮件的语音数据被存储在该存储设备的预定数据区中的,作为在步骤S215中识别的日期上的日程安排的内容。然后,请求输入该日程安排内容的选择大/小项目命令(例如,“私人”、“会议”等等)的消息被显示在LCD显示设备62上,由话筒53所检测的语音被读取,并且执行语音识别处理,识别包含在该语音中作为被登记字词的日程安排内容的选择大/小项目命令。然后,该识别结果被存储在该存储设备的预定数据区中,作为语音数据,即该日程安排内容的大/小项目,从而控制进行到步骤S2117。
在步骤S217中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的终止命令(例如,“终止”),并且确定该语音是否包含该终止命令。如果包含一个终止命令(是),则算术处理结束。否则(否),控制进行到步骤S203。
图17示出由在图13中所示的信息终端所执行的处理,并且为用于根据用户的语音执行日程安排管理功能的算术处理的流程图。在该流程图中,没有用于通信的步骤。但是,在该算术处理中获得的信息被更新并且存储在该存储设备中,并且从该存储设备中读取必要信息。当执行算术处理时,首先在步骤S301中,由话筒3所检测的用于被读取,并且执行语音识别处理,识别该语音是否包含启动密码(例如,“语音日程安排”)或者包含噪声和除了该启动密码之外的语音,即仅仅包含多余字词。如果包含该启动密码(是),则控制进行到步骤S302。否则(否),该处理流程被重复执行。
然后,在步骤S302中,一个日程安排管理词汇列表被读取作为一个被登记词汇列表,该语音日程安排启动器被激活,如图18中所示,并且用户可以发出一个指令的被登记字词的列表可以显示在该LCD显示设备62上。显示在LCD显示设备62上的被登记字词例如可以是当登记日程安排时要被说出的一个日程安排登记命令(例如,“设置日程安排”),以及当确认日程安排要被说出的一个日程安排确认命令(例如,“确认日程安排”)。
然后,在步骤S303中,要求说出日程安排的执行日期的消息被显示在LCD显示设备62上,由话筒53所检测的语音被读取,并且执行语音识别处理,识别包含在该语音中作为一个被登记字词的年月日输入命令(例如,“日期”)。
然后,控制进行到步骤S304,并且对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的日程安排登记命令,并且确定该语音是否包含一个日程安排登记命令。如果包含一个日程安排登记命令(是),则控制进行到步骤S305。否则(否),控制进行到步骤S310。
在步骤S305中,读取由话筒53所检测的语音,执行语音识别处理,识别包含在该语音中作为一个被登记字词的日程安排开始/停止时间输入命令(例如,“时间”),并且用户被要求输入该日程安排的开始和停止时间。
然后,在步骤S306中,要求说出日程安排的内容的消息被显示在该LCD显示设备62上,由在预定时间内记录话筒53所检测的语音,并且产生语音数据,该数据存储在该存储设备的预定数据区中,作为在步骤S303中识别的日期上的日程安排的内容。
然后,在步骤S307中,要求输入日程安排内容的选择大/小项目命令(例如,“私人”、“会议”等等)被显示在LCD显示设备62上,由话筒53所检测的语音被读取,并且执行语音识别处理,识别包含在该语音中作为被登记字词的输入/输出的内容的选择大/小项目命令。然后,该识别结果被存储在该存储设备的预定数据区中,作为在步骤S306中产生的语音数据,即日程安排的内容的大/小项目。
在步骤S308中,要求说出提醒功能的设置命令的消息(例如,“设置提醒”)被显示在LCD显示设备62上,并且对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的提醒设置命令。然后,确定该语音是否包含该提醒设置命令。如果该提醒设置命令被包含(是),则控制进行到步骤S309。否则(否),控制进行到步骤S324。该提醒功能是指以预定时序通知日程安排的内容,并且提醒用户存在该日程安排的功能。
在步骤S309中,要求输入一个目标的名称和提醒的通知时间的消息等等被显示在LCD显示设备62上,读取由话筒53检测的语音,并且执行语音识别处理,识别包含在该目标名称的设置命令的语音中作为被登记字词的提醒的通知时间(例如,“在预定时间之前的分钟数”),并且用户被允许通过该提醒功能输入通知时间等等。在该提醒的下一个通知时间处,在步骤S306中产生的语音数据,即日程安排内容,被从预定数据区中读取,执行使用扩音器67再现该语音数据的算术处理,并且控制进行到步骤S324。
在步骤S310,对于由话筒53所检测的语音执行语音识别处理,识别作为被登记字词的一个日程安排确认命令,并且确定该日程安排确认命令是否包含在该语音中。如果一个日程安排确认命令被包含(是),则控制进行到步骤S311。否则(否),控制进行到步骤S319。
在步骤S311中,如图19中所示,从该存储设备的预定数据区中读取在用于接收电子邮件的算术处理中在步骤S214、S216和S307中输入的日程安排内容的大/小项目,并且在LCD显示设备62上显示该项目的列表。
在步骤S312中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的记录内容确认命令(例如,“确认”),并且确定该记录内容确认命令是否包含在该语音中。如果一个记录内容确认命令被包含(是),则控制进行到步骤S313。否则(否),控制进行到步骤S314。
在步骤S313中,对应于步骤S311中在LCD显示设备62上列出的大/小项目的语音数据,即日程安排内容,由扩音器67再现,并且控制进行到步骤S314。
在步骤S314中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的日程安排添加/登记命令(例如,“设置日程安排”),并且确定该日程安排添加/登记命令是否包含在该语音中。如果日程安排添加/登记命令被包含(是),则控制进行到步骤S315。否则(否),控制进行到步骤S316。
在步骤S315中,用于登记新的日程安排的数据区被保留在该存储设备中,然后控制进行到步骤S305。
另一方面,在步骤S316中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的日程安排修改命令(例如,“修改”),并且确定该日程安排修改命令是否包含在该语音中。如果日程安排修改命令被包含(是),则控制进行到步骤S305。否则(否),控制进行到步骤S317。
在步骤S317中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的日程安排删除命令(例如,“删除”),并且确定该日程安排删除命令是否包含在该语音中。如果日程安排删除命令被包含(是),则控制进行到步骤S318。否则(否),控制进行到步骤S311。
在步骤S318中,登记日程安排的数据区被从该存储设备中删除,并且控制进行到步骤S324。
在步骤S319中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的日程安排检索命令(例如,“日程安排检索”),并且确定该日程安排检索命令是否包含在该语音中。如果日程安排检索命令被包含(是),则控制进行到步骤S320。否则(否),控制进行到步骤S303。
在步骤S320中,请求说出日程安排内容的选择大/小项目命令的消息被显示在LCD显示设备62上,并且由话筒53所检测的语音被读取,执行语音识别处理,识别包含在该语音中的日程安排内容的选择大/小项目命令,并且允许用户输入要被检索的日程安排内容的大/小项目。
然后,在步骤S321中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的检索执行命令(例如,“执行检索”),并且确定该检索执行命令是否包含在该语音中。如果检索执行命令被包含(是),则控制进行到步骤S322。否则(否),控制进行到步骤S320。
在步骤S322中,对应于在步骤S320中识别的日程安排内容的大/小项目的日程安排被从该存储设备的预定数据区中检索,并且检索结果被显示在LCD显示设备62上。
在步骤S323中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的重新检索命令(例如,“重新检索”),并且确定该重新检索命令是否包含在该语音中。如果重新检索命令被包含(是),则控制进行到步骤S324。否则(否),控制进行到步骤S320。
在步骤S324中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的终止命令(例如,“终止”),并且确定该终止命令是否包含在该语音中。如果终止命令被包含(是),则该处理终止。否则(否),控制进行到步骤S303。
图20示出由在图13中所示的信息终端所执行的处理,并且为根据用户的语音执行语音备忘录功能的算术处理的流程图。在该流程图中,没有提供用于通信的步骤。但是,在任何时间,在该算术处理中获得的信息被更新并且存储在该存储设备中,并且从该存储设备中读取必要信息。当执行该算术处理时,首先在步骤S401中,由话筒53所检测的语音被读取,并且执行语音识别处理,识别是否包含作为包含在该语音中的被登记字词的启动密码(例如,“语音备忘录”)或者包含噪声或除了启动密码之外的语音,即多余字词。如果包含启动密码(是),则控制进行到步骤S402。否则(否),该处理流程被重复执行。然后,在步骤S402中,读取一个语音备忘录词汇列表,作为被登记词汇列表,并且激活语音备忘录启动器,如图21中所示,并且用户可以发出的指令的一个被登记字词列表被显示在LCD显示设备12上。要显示在LCD显示设备62上的被登记字词可以是:当要记录语音时说出的记录命令(例如,“开始记录”);当要再现语音备忘录时说出的再现命令(例如,“开始再现”);当要选择语音备忘录时说出的备忘录文件夹号选择命令,该号码与每个语音备忘录相关(例如,“第一”、“第二”等等)。
在步骤S403中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的备忘录文件夹号选择命令(例如,“设置日程安排”),并且确定该备忘录文件夹号选择命令是否包含在该语音中。如果备忘录文件夹号选择命令被包含(是),则控制进行到步骤S404。否则(否),控制进行到步骤S407。
在步骤S404中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的记录命令,并且确定该记录命令是否包含在该语音中。如果记录命令被包含(是),则控制进行到步骤S405。否则(否),控制进行到步骤S403。
在步骤S405中,请求请求说出备忘录内容的消息被显示在LCD显示设备62上,通过在预定时间记录由话筒53检测的语音而产生语音数据,并且语音数据被存储在该存储设备的预定数据区中作为对应于在步骤S403中选择的备忘录文件夹的备忘录内容。
在步骤S406中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的记录内容确认命令(例如,“确认”),并且确定该记录内容确认命令是否包含在该语音中。如果记录内容确认命令被包含(是),则控制进行到步骤S408。否则(否),控制进行到步骤S409。
在步骤S407中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的再现命令,并且确定该再现命令是否包含在该语音中。如果再现命令被包含(是),则控制进行到步骤S408。否则(否),该处理流程被重复执行。
在步骤S408中,对应于在步骤S403中选择的备忘录文件夹的语音数据,即备忘录内容,被从该存储设备的预定数据区中读取,并且由扩音器67再现该语音数据,并且控制进行到步骤S409。
在步骤S409中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的终止命令(例如,“终止”),并且确定该终止命令是否包含在该语音中。如果终止命令被包含(是),则该处理终止。否则(否),控制进行到步骤S403。
图22示出在图13中所示的信息终端所执行的处理,并且为根据用户的语音执行语音定时器功能的算术处理的流程图。在该流程图中,没有提供用于通信的步骤。但是,在任何时候,在该算术处理中获得的信息被更新,并且存储在该存储设备中,并且从该存储设备读取必要信息。当执行算术处理时,首先在步骤S501中,读取由话筒53检测的语音,并且执行语音识别处理,识别是否包含作为包含于该语音中的被登记字词的启动密码(例如,“语音定时器”),或者除了启动密码之外的语音,即仅仅包含多余字词。如果包含一个启动密码(是),则控制进行到步骤S502。否则(否),该处理流程被重复执行。
然后,在步骤S502中,用户可以发出指令的一个语音定时器词汇列表被显示在LCD显示设备12上。要显示在LCD显示设备62上的被登记字词可以是:当设置通知内容和通知时序时说出的定时器设置命令(例如,“设置定时器”)等等。
在步骤S503中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的定时器设置命令,并且确定该定时器设置命令是否包含在该语音中。如果定时器设置命令被包含(是),则控制进行到步骤S504。否则(否),控制进行到步骤S502。
在步骤S504中,请求输入从该定时器开始工作到通知时的时间,即通知时序,的消息被显示在LCD显示设备62上,读取由话筒53检测的语音,并且执行语音识别处理,识别作为一个被登记字词的定时器时间设置命令(例如,“分钟”)。
然后,在步骤S505中,请求返回对于是否要记录该通知内容的回答被显示在LCD显示设备62上,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的记录开始确认命令(例如,“是”),并且确定该记录开始确认命令是否包含在该语音中。如果记录开始确认命令被包含(是),则控制进行到步骤S506。否则(否),控制进行到步骤S502。
在步骤S506中,请求说出该通知内容的消息被显示在LCD显示设备62上,该语音数据通过在预定时间记录由话筒53检测的语音而产生,并且该语音数据被存储在该存储设备的数据区中,作为要在步骤S504中识别时,即通知时序,通知的通知内容。
然后,在步骤S507中,在步骤S506中记录的语音数据,即请求确认该通知内容的消息,被显示在LCD显示设备62上,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的记录内容的确认命令,确定该语音是否包含记录内容的确认命令。如果记录内容的确认命令被包含(是),则控制进行到步骤S508。否则(否),控制进行到步骤S509。
在步骤S508中,在步骤S506中产生的语音数据,即通知内容,由扩音器67再现,然后控制进行到步骤S509。
在步骤S509中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的终止命令(例如,“终止”),并且确定该终止命令是否包含在该语音中。如果终止命令被包含(是),则该算术处理终止。否则(否),控制进行到步骤S502。
在步骤S510中,对由话筒53所检测的语音执行语音识别处理,识别作为一个被登记字词的定时器启动命令,并且确定该定时器启动命令是否包含在该语音中。如果定时器启动命令被包含(是),则控制进行到步骤S511。否则(否),控制进行到步骤S502。
在步骤S511中,在步骤S504中识别的时间处,在步骤S506中产生的语音数据,即通知内容,被从该存储设备的预定数据区中读取,即以通知时序读取,执行由扩音器67再现该语音数据的算术处理,并且终止该算术处理。
如上文所述,由于根据本实施例的信息通信终端通过识别包含在用户的语音中的被登记字词执行电子邮件发送和接收功能、日程安排管理功能、语音备忘录处理功能以及语音定时器功能,用户可以仅仅通过说出被登记字词而不实际操作来使用每个功能。
另外,与第一实施例相同,由于执行类似于在上述第一实施例中的处理的语音识别处理,当由用户说出不包含被登记字词的语音,即除了被登记字词之外的语音。则对该语音的声音参数序列计算的音素模型23的似然性较大。并且对被登记字词的词汇网络22计算的似然性较小。
根据该似然性,除了被登记字词之外的语音被识别为多余字词,并且避免除了被登记字词之外的语音被错误地识别为被登记字词,从而避免该信息终端的故障。
根据本发明,话筒53对应于语音检测装置,语音指令识别电路56对应于语音识别装置,并且中央控制电路58对应于控制装置。
下面参照附图描述本发明的第三实施例。在该实施例中,通过识别包含在用户的语音中的被登记字词,与第一实施例中的处理相类似的语音识别处理被应用于连接到通信电路的电话通信终端。图23为使用根据本发明第三实施例的模拟电话或语音调制解调器的电话通信终端的主要方框图。在图23中所示的电话通信终端包含用于控制语音识别的语音识别单元101;用于控制语音通信的语音通信单元102,即,用于识别包含在用户的语音中的被登记字词的语音识别单元101,以及用于根据识别结果连接到通信电路的语音通信单元102。用户的语音被从语音识别单元101的话筒103输入。通过放大器104发送,以及由A/D转换器105转换为数字化的声音参数。该输入的模拟语音不被指定,但是通常在从8KHz至16KHz的范围内的特定频率被取样和数字化。相对于用于每个语音单元的声音参数,计算被数字化的声音参数的似然性,该语音单元作为用于在语音指令识别电路106的语音指令信息存储器107内存储和登记的被登记词汇列表的每个字词的构成单元,从而从被登记词汇列表中提取最可能的字词。也就是说,在语音指令识别电路106中,对每个构成单元(在下文中称为语音单元)计算存储和登记在用于该数字化的声音参数的语音指令信息存储器107中的被登记词汇列表内的字词(在下文中称为被登记字词)的似然性,并且该似然性的最大累计值被提取作为最接近于用户的语音的被登记字词。在该语音指令识别电路106中,同时对数字化的声音参数计算被存储和登记在语音指令信息存储器107中的多余字词模型的似然性。当该多余字词模型的似然性大于被登记字词的似然性时,认为没有从该数字化的声音参数中提取被登记字词。
在被登记词汇列表中,被登记字词和除了被登记字词之外的多余字词被登记。一个语音单元可以是一个音节、音素、半音节、双音(两对音素)、三音(三对音素)等等。
在语音指令信息存储器107中,存储名字和对应于该名字的电话号码的名字词汇列表、用于根据对应于任意电话号码的数字数目识别序列号的号码词汇列表、与电话操作相关的电话呼叫操作词汇列表、与在接收入局呼叫时的应答相关的呼叫接收操作词汇列表、以及对应于每个被登记字词的控制代码被作为被登记词汇列表而存储。例如,当语音指令识别电路106提取与电话操作相关的被登记字词时,即获得识别结果时,用于对应于被识别为被登记字词的语音的电话操作的控制代码被从语音指令信息存储器107中调用,并且从中央控制电路108发送到语音通信单元102。该控制代码没有具体限制,只要它被用于控制语音通信单元102即可。但是,由于通常使用一个AT命令,因此该AT命令被用作为本实施例中的代表例。
在电话呼叫操作中,当通过语音从话筒103输入人名或电话号码信息时,包含在该语音中的被登记字词被识别,该语音识别结果被显示在LCD显示单元109上,用于视觉通知,由应答语音控制电路110从应答语音信息存储器118调用,并且作为模拟信号从扩音器113通过声音通知。当该识别结果为正确时,并且当用户从话筒103输入例如“发出呼叫”这样的语音命令时,中央控制电路108把发出控制转换为AT命令这样的目标电话号码,并且把其发送到语音通信单元102的单片微计算机114。
当一条电话线被连接,并且使能日程安排内容时,使用语音通信单元102的话筒115和扩音器116执行语音通信,并且可以独立于语音通信单元102的话筒115和扩音器116来调节语音识别单元101的话筒103和扩音器113的音量。
在语音识别单元101中,当用于控制电话的控制代码被从中央控制电路108通过外部接口117发送到语音通信单元102时,可以通过接收来自语音通信单元102而检查语音通信单元102的挂机状态、摘机状态或者线路通信状态,并且可以通过根据该状态为后续的操作顺序地改变必要的被登记词汇列表而减少由于多余字词所导致的错误识别。例如,当接收一个入局呼叫时,用于通知在语音通信单元102接收的呼叫的振铃信息被发送到语音识别单元101,从而调用与对入局呼叫的应答相关的呼叫接收操作词汇列表,并且使用语音识别单元101的话筒103确定用户是否通过语音应答该呼叫,并且通过语音输入可以免提地执行电话通信。在此时,如果可以获得例如目标的电话号码等等这样的目标信息,则该名称和电话号码被与名称词汇列表相比较,该比较结果被显示在LCD显示单元109上,用于视觉通知,使用应答语音控制电路110从应答语音信息存储器118调用对应于该比较结果的应答语音数据,并且可以通过D/A转换器111和放大器112从话筒103发送声音通知“来自某某先生的呼叫”。
因此,根据本实施例,通过提供一个语音输入/输出系统,即至少话筒和扩音器的两个系统,更加具体的信息可以通过除了与在普通振铃系统中所用的扩音器116的操作同时出现的屏幕显示之外的方式发送到用户。在该屏幕显示上发送具体信息的方法中,当用户远离电话的本体时,或者当该用户是一个视觉残疾的人时,即使在难以确认关于接收入局呼叫的电话的目标信息的情况下,也可以顺利地执行操作。
图24示出关于到公用电话线的连接装置的移动电话的无线系统的变型。与图23相比,在语音通信单元102的主要方框图方面是不同的。当使用移动电话的无线系统时,用于语音通信的普通输入/输出设备,即语音通信单元102的话筒115和扩音器116,被根据目标的语音接收状态而通电和断电。因此,通过分别准备该语音输入/输出设备,即用于语音识别的话筒103和扩音器113,具有语音识别功能的电话通信终端可以被继续使用,而与用于根据该语音通信系统而操作的语音通信的输入/输出设备的特征(操作状态)无关。也就是说,尽管用户与一个相对方进行通信并且该语音通信单元102的话筒115和扩音器115被用于该通信,用户可以在语音识别单元101上输入语音,并且可以控制该语音通信单元102。在通过用由语音自动发送的拨号音由听筒输入语音的方法中,由于电话能够继续接收语音输入,因此需要摘机模式。在这种情况中,该接收器继续摘机,从而拒绝入局呼叫。
图25为通过用户说出一个人名由中央控制电路108所执行的发出操作等等的算术处理的流程图。也就是说,图25示出与使用该人名的呼叫发出操作相关的处理流程。在该流程图中,尽管没有用于通信的步骤,但是在任何时候,在该算术处理中获得的信息被更新,并且存储在该存储设备中,以及从该存储设备读取必要信息。当执行算术处理时,首先在步骤S601中,通过检测挂机状态以及接收呼叫发出的状态,确认语音通信单元102的初始状态。实践中,通过从语音通信单元102接收状态信号而确定是否处于挂机状态。如果处于挂机状态(是),则控制进行到步骤S602。否则(否),该处理流程被重复执行。
在步骤S602中,通过语音从用户输入的名字被接收。实践中,作为一个被登记词汇列表,一个存储该名字和电话号码的名字词汇列表被读取,由话筒103所检测的语音被读取,并且语音指令识别电路106识别该语音是否包含登记在被登记词汇列表中的名字,或者包含噪声和除了人名之外的语音,即仅仅包含多余字词。与人名相关,语音指令信息存储器107存储对应于该名字的电话号码,作为一个名字词汇列表。输入模拟语音没有具体的限制,但是通常在从8KHz至16KHz的范围内的特定频率上被采样和数字化。相对于用于作为在语音指令识别电路106的语音指令信息存储器107中存储和登记的被登记词汇列表的每个字词的构成单元的每个语音单元的声音参数,计算该数字化的声音参数的似然性,从而从被登记名字词汇列表中提取最近似的字词。也就是说,在语音指令识别电路106中,对于在语音指令识别电路106中的每个构成单元计算在该名字的被登记词汇列表中并且存储和登记在语音指令信息存储器107中的名字的似然性,并且提取该似然性的最大累计值,作为最接近于用户的语音的被登记名字。在该语音指令识别电路6中,同时对数字化的声音参数计算存储和登记语音指令信息存储器7中的多余字词模型的似然性。当该多余字词模型的似然性大于被登记名字的似然性时,认为没有从该数字化的声音参数中提取被登记名字。在步骤S603中,确定是否在步骤S602中识别登记在该名字词汇列表中的人名被包含在该语音中。如果登记在被登记词汇列表中的人名被包含(是),则控制进行到步骤S604。否则(否),控制进行到步骤S602。
在步骤S604中,当在步骤S602中提取该人名时,被提取的名字被显示在连接到语音通信单元102的终端屏幕(LCD显示单元109)上,并且通过应答语音控制电路110的语音通知来通知该被提取名字。
然后,控制进行到步骤S605。如图26中所示,首先,表示要被执行的处理的字词或者请求说出表示要被再次执行的处理的字词的消息被显示在LCD显示单元109上。然后,由话筒103所检测的语音被读取,并且语音指令识别电路106识别作为一个被登记字词的表示要被执行的处理的字词是否包含在该语音中,或者表示要被再次执行的处理的字词是否包含在该语音中。然后,确定由话筒103检测的语音是否包含作为一个被登记字词的表示要被执行的处理的字词,或者表示要被再次执行的处理的字词。如果其中包含表示要被执行的处理的字词(是),则控制进行到步骤S606。否则(否),控制进行到步骤S602。用户确定被提取的名字是否是一个所需的结果。如果是一个所需的结果,则说出表示预先登记的处理的字词(例如,“发出呼叫”等等),并且语音指令识别电路106执行识别输入语音命令的处理。
在步骤S606中,对应于在步骤S602中提取的人名的电话号码被从该名字词汇列表中读取,对应于该电话号码的AT命令被从语音指令信息存储器107调用,并且该AT命令被发送到语音通信单元102。然后,如上文所述,如果该字词被识别为一个预先登记的字词“发出呼叫”,则用于发出相应电话号码的AT命令(ATD)被从中央控制电路108发送到语音通信单元102,并且执行线路连接处理。如果通信相对方响应呼叫声而处于摘机状态,则完成线路连接,并且执行语音通信。
另一方面,如果被提取名字不是所需的,则发出表示要被再次执行的处理的语音命令,例如“再一次”,并且识别在语音指令识别电路106中输入的语音。如上文所述,如果例如“再一次”这样的被预先登记的字词被识别,则控制进行到接受人名的发音的一个步骤(S602),并且该系统进入接受新的人名的状态。
图7示出由语音指令识别电路106所执行的语音识别处理的一个例子。该语音识别处理的处理不被具体指定。但是,根据本实施例,与第一实施例中相同,使用隐藏的马尔可夫模型(在下文中简称为HMM)的处理被采用。当执行语音识别处理时,首先由话筒103所检测的语音被在傅利叶变换或者小波变换中转换为数字化频谱,并且使用例如对该频谱的线性预测分析、倒谱分析等等这样的语音模拟方法来特征化该语音数据。然后,对于该特征化的语音数据,使用维特比算法计算预先在该语音识别处理中读取的登记在词汇网络120中的每个字词的声音模型121的似然性。在对应于一个语音单元中的串联(语音单元标签序列)的HMM的串联网络中模拟该被登记字词。并且词汇网络120被模拟为对应于登记在该被登记词汇列表中的被登记字词组的一个串联网络。每个被登记字词由音素等等语音单元所构成,并且对每个语音单元计算似然性。当检测用户发音结束时,从被登记词汇列表中检测具有最大似然性的累计值的被登记字词,并且输出该被登记字词作为被识别为在该语音中包含的被登记字词而输出。
另外,与第一实施例相同,用于识别多余字词的虚拟模型23被与被登记字词的词汇网络120并列地提供。通过该结构,当作为多余字词的不包含被登记字词的语音和噪声被作为语音而输入时,对应于该多余字词的虚拟模型23的似然性被计算为比该被登记字词的似然性更大,并且确定一个多余字词已经被输入,从而避免把不包含被登记字词的发音等等错误识别为一个被登记字词。
图27为通过用户说出一个电话号码而由中央控制电路108执行一个发出操作的算术处理的流程图。也就是说,图27示出与使用电话号码的呼叫发出操作相关的处理方案。在该流程图中,尽管没有用于通信的步骤,但是在任何时候,在该算术处理中获得的信息被更新并且存储在该存储设备中,以及必要信息被从该存储设备中读取。当执行算术处理时,首先在步骤S701中,通过检测挂机状态以及接收呼叫发出的状态而确认语音通信单元102的初始状态。实践中,通过接收来自语音通信单元102的状态信号而确定是否处于挂机状态。如果处于挂机状态(是),则控制进行到步骤S702。否则(否),该处理流程被重复执行。
在步骤S702中,确定是否进入用于接受任意电话号码的电话号码确认模式。如果进入该模式(是),则控制进行到步骤S704。否则(否),控制进行到步骤S703。在步骤S703中,由话筒103所检测的语音被读取,该语音指令识别电路106识别是否包含作为一个被登记字词的用于接收电话号码的预先登记的语音命令。如果是与电话号码识别模式不同的一个名字识别模式等等,则说出用于接收电话号码的预先登记的语音命令。
在步骤S704中,首先调用用于根据对应于任意电话号码的数字数目识别一系列号码的号码词汇列表,作为一个被登记词汇列表。接着,如图28中所示,请求说出一个电话号码的消息被显示在LCD显示单元109上。由话筒103所检测的语音被读取,并且语音指令识别电路106识别是否包含作为包含在该语音中的被登记字词的一系列号码。例如,“按照号码进行电话呼叫”是被登记用于接受电话号码的语音命令。当用户说出“按照号码进行电话呼叫”时,语音指令识别电路106识别通过话筒103输入的语音。如果“按照号码进行电话呼叫”被识别,则语音指令识别电路106上载用于识别在语音指令识别电路的存储器中的任何电话号码的号码词汇列表,从而进入电话号码接受模式。该用户继续说出例如“03-3356-1234”(“-”没有发音)这样的所需电话号码用于识别。
用于任何电话号码的识别的号码词汇列表参照基于使用电话的国家和地区的一串字符串所形成的一些模式、电话通信系统、通信相对方的国家和地区。例如,当从日本以预定电话模式发出呼叫时,该模式由“0-城市间代码-城市内部代码-用户号码”所表示,即总共10个数字(在特定区域中为9个数字)的号码序列形成多个词汇列表。在城市间代码和城市内部代码之间或者在城市内部代码和用户号码之间可以插入“no”和表示空格的语音单元,使得说出一个电话号码的用户的冗余性可以被修正。
当从日本向移动电话或者在日本的PHS发出呼叫时,准备由以“0A0(A表示除了0之外的单个数字)”为开头的一系列11个数字所形成的词汇列表。另外,还存在由相关部门制定的由根据表示每个电信公司的号码串的号码串所形成的专用号码词汇列表。表2列出由该部门所公布的在日本的电话号码模式。
如上文所述,根据本发明,当识别一个电话号码时,用户仅仅需要连续地说出对应于一个电话号码的全部数字,从而短时间内识别电话号码。在逐个数字地识别电话号码的方法中,需要长时间来正确地识别所有数字。
表2
    号码模式     目标类型
以00为开始的号码     当通过一个电信公司发出呼叫或者当发出国际呼叫时
    以0A0为开始的号码(A是除了0之外的数字)     当对移动电话、PHS、由呼叫发出方付费的袖珍无线电传呼机发出呼叫时
    以0AB0为开始的号码(A和B是除了0之外的数字)     当使用由一个电信公司所提供的高质量的电话服务时
    以0ABC0为开始的号码(A、B和C是除了0之外的数字)     当对普通固定电话发出呼叫时(城市间通信)(0-城市间代码-城市内部代码-用户号码)
以1为开始的号码     当呼叫服务具有被附加的数字并且作为紧急服务、普通服务、安全服务等等来说是重要时
以2-9为开始的号码     当对于普通固定电话发出呼叫时(城市内部通信)
根据由语音指令识别电路106所使用的语音识别引擎的识别精度,适当地使用把每个号码词汇列表分配给语音指令识别电路106的方法。一种方法是动态地确定当由话筒103通过语音输入时动态地确定从该号码串的开头识别的号码串的模式(3至4个数字),并且动态地把该模式分配到当识别该模式时选择的号码词汇列表。在该方法中,例如当识别出一个号码“0(零)”,在前3个数字串中的第一和第三数字之间时,这在日本被认为是移动电话的电话号码的模式、PHS等等,并且分配用于识别8数字串的号码词汇列表(总共11个数字)或者特定号码串。
在另一种方法中,所有号码词汇列表被统计地读取到语音指令识别电路106中,从由用户输入的电话号码开头计算表示对特定号码的适用性的似然性为随时间变化的平均值。因此,剩下几种有希望的可能模式,并且其他模式被从该算术操作中除去。最后,当检测发音部分时,获得具有最大似然性的模式,并且确定可能的号码。在这些方法中,从大量可能的号码串中选择一个模式,可以提高识别精度,并且可以减小在识别中所需的算术操作的负担,从而把说出的号码连续地识别为电话号码。
在步骤S705中,在步骤S704中识别的电话号码被显示在LCD显示单元109上,这些识别结果被发送到应答语音控制电路110,并且该电话号码被通知到A/D转换器105。
然后,控制进行到步骤S706。首先,表示要被执行的处理的字词或者请求发出表示要被再次执行的处理的字词的消息被显示在LCD显示单元109上。然后,由话筒103所检测的语音被读取,并且语音指令识别电路106识别表示要被执行的处理的作为所包含的被登记字词的字词是否包含在该语音,或者识别表示要被再次执行的字词是否包含在该语音中。然后,确定由话筒103所检测的语音是否包含作为一个被登记字词的表示要被执行的处理的字词,或者表示要被再次执行的处理的字词。如果它包含表示要被执行的处理的字词(在步骤S706’中为“是”),然后控制进行到步骤S707。否则(在步骤S706”中为“否”),然后控制进行到步骤S704。
在步骤S707中,从语音指令信息存储器107调用对应于在步骤S704中提取的电话号码的AT命令,并且该AT命令被发送到语音通信单元102。
图29为通过用户说出表示通信终止的字词而由中央控制电路108执行摘机操作的算术处理的流程图。也就是说,图29示出与用于终止通信的挂机操作相关的处理方案。在该流程图中,尽管没有用于通信的步骤,但是在任何时候,包含在该算术处理中的信息被更新和存储在该存储设备中,并且从该存储设备读取必要信息。当执行该算术处理时,首先在步骤S801中,通过检测摘机状态,语音通信单元102的操作状态被确认为通信模式。实践中,通过接收来自语音通信单元102的状态信号确定它是否处于摘机状态。如果处于摘机状态(是),则控制进行到步骤S802。否则(否),该处理流程被重复执行。
在步骤S802中首先作为被登记词汇列表,在通信过程中和在通信结束时预先登记的所需唯一必要的语音命令的通信操作词汇列表被读取。然后,由话筒103所检测的语音被读取,并且语音指令识别电路106识别是否包含作为包含在该语音中的被登记字词表示通信结束的语音命令。然后,在步骤S803中,从语音指令信息存储器107调用表示线路断开的AT命令,并且该AT命令被发送到语音通信单元102。因此,如果由用户说出表示通信结束的语音命令,例如“断开线路”,则语音指令识别电路106识别通过话筒103输入的语音。如果“断开线路”被识别,则表示线路断开的控制代码被从中央控制电路108发送到使用AT命令(ATH)的语音通信单元102,从而完成线路的断开。
图30为通过用户说出表示入局呼叫的字词而由中央控制电路108所执行的摘机操作的算术处理等等的流程图。也就是说,图30示出与用于接收入局呼叫的摘机操作相关的处理方案。在该流程图中,尽管没有用于通信的步骤,但是在任何时候,在该算术处理中获得的信息被更新和存储在该存储设备中,并且从该存储设备读取必要信息。当执行算术处理时,首先在步骤S901中,通过检测挂机状态,语音通信单元102的操作状态被确认为待机状态。实践中,通过接收来自语音通信单元102的状态信号确定它是否处于挂机状态。如果处于挂机状态(是),则控制进行到步骤S902。否则(否),该处理流程被重复执行。
在步骤S902中,确定表示入局呼叫的结果代码是否已经被从语音通信单元102接收。如果该结果代码已经被接收(是),则通知呼叫接收信号已经被接收的消息被显示在LCD显示单元109上,并且该消息被发送到应答语音控制电路110,由A/D转换器105通知该消息,然后控制进行到步骤S903。否则(否),该处理流程被重复执行。也就是说,如果语音通信单元102接收通知入局呼叫的接收的信号,则它把表示入局呼叫的接收的结果代码发送到该语音识别单元的中央控制电路。在接收到该入局呼叫信号之后,该语音识别单元在LCD显示单元109上显示通知该入局呼叫信号的接收的内容,并且同时使得扩音器1通过语音通知入局呼叫的接收。在此时,如果该入局呼叫信号包含目标信息,则该信息被与登记在该名字词汇列表中的目标相比较。如果输出匹配结果。则可以通过语音在该屏幕上向用户显示关于“来自au先生的呼叫”等等这样的更加具体的信息。
另外,该目标信息可以被存储在存储器中,并且可以通知“该电话号码要被记录?”等等,指示说出与预先登记的语音指令相关的字词,例如“新登记”、“附加登记”等等,并且通过语音把新的目标数据登记在该名字词汇列表中。
在步骤S903中,与对入局呼叫的响应相关的呼叫接收操作词汇列表被读取到语音指令识别电路106中,作为一个被登记词汇列表。然后,LCD显示单元109显示请求说出表示摘机的字词或者表示挂机的字词的消息。另外,通过话筒103检测的语音被读取,并且该语音指令识别电路106识别作为包含在该语音中的被登记字词的表示摘机的字词是否被包含。然后,确定由话筒103所检测的语音是否包含作为一个被登记字词的表示摘机的字词,或者是否包含表示挂机的字词。如果表示摘机的字词被包含(在步骤S903’中为“是”),则控制进行到步骤S904。如果表示挂机的字词被包含(在在步骤S903”中为“否”),则控制进行到步骤S905。也就是说,当接收入局呼叫时,语音指令识别电路106读取与该响应相关的呼叫接收操作词汇列表,并且用户根据情况确定是否要应答该呼叫。当应答该呼叫时,说出表示摘机并且预先登记的字词,例如“应答该电话”。如果由该语音指令识别电路确定通过话筒103输入的语音是否为“应答该电话”。
在步骤S904中,从语音指令信息存储器107调用表示摘机的AT命令,并且该AT命令被发送到语音通信单元102。也就是说,当获得识别结果“应答该电话”时,表示摘机的AT命令(ATA)被从中央控制电路108发送到该语音通信单元,进入通信模式,并且使用话筒2和扩音器2执行语音通信。
另一方面,在步骤S905中,从语音指令信息存储器107调用表示挂机的AT命令,并且该AT命令被发送到语音通信单元102。也就是说,当用户不希望应答该呼叫时,说出表示线路断开和预先登记的字词,例如“断开该线路”。由该语音指令识别电路识别和确定通过话筒103输入的语音是否为“断开线路”。如果获得“断开线路”的识别结果,则表示线路断开的AT命令(ATM)被从中央控制电路发送到该语音通信单元,从而断开该入局呼叫信号。
当通过语音识别单元的初始化使得振铃的频率到达预定值时,自动发出摘机的控制代码,或者发出应答电话模式的控制代码。因此,可以进入用户要求的模式。
在上述一系列语音识别操作中,具有根据本发明的语音识别功能的电话通信终端具有语音指令识别电路106,其中语音检测算法(VAD)继续操作,而与语音输入的存在与否无关。根据该VAD,重复确定是否包含通过话筒103输入噪声的所有声音表示无输入状态、输入语音的状态或者语音输入完成的状态。
由于语音指令识别电路106持续操作该语音识别算法,因此可以容易地输入用于语音识别的多余声音和字词。因此,存在通过正确地识别多余字词和声音来避免故障的拒绝功能。用于识别多余字词的方法可以是由H.Boulard、B.Dhoore和J.M.Boite在“Optimizing Recognitionand Rejection Performance in Wordspotting Systems,”Proc.ICASSP,Adelaide,Australia,pp.1-373-376,1994等等提出的一种干扰模型方法。
如图28中所示,根据VAD的内部处理的3个状态,即当语音处于无输入状态时,定时通知图像30被表示为绿色,当语音处于输入语音状态时,表示为黄色,并且当该语音处于语音输入完成状态时,表示为红色。该定时通知图像30被显示在LCD显示单元109的上部。同时,电平测量器31被显示在LCD显示单元109的右端。该电平测量器31根据由话筒103所检测的语音的音量而向上延伸。也就是说,电平测量器31的数值随着语音的音量而增加。然后,上述VAD的内部处理的3个状态,即定时通知图像30被显示在语音识别单元101的LCD显示设备62上,并且该发音的开始时间被通知给用户。结果,可以区别必要的发音与多余声音和字词,并且由话筒103所检测的语音的电平可以由电平测量器31通知。因此,用户可以由适当的音量水平来支持。结果,可以容易地识别被登记字词。
根据本发明,语音识别单元101的话筒103和扩音器113、语音通信单元102的话筒115和扩音器116对应于语音输入/输出装置,该语音指令识别电路106对应于语音识别装置,语音指令信息存储器107对应于存储装置,LCD显示单元109对应于屏幕显示装置,中央控制电路108对应于控制装置,话筒103对应于语音检测装置,定时通知图像30对应于发音时序通知装置,以及电平测量器31对应于音量通知装置。
上述实施例仅仅是根据本发明的语音识别方法、遥控器、信息终端、电话通信终端和语音识别器的例子,并且不限于该装置的结构。
例如,在上述实施例中,遥控器、信息终端和电话通信终端被独立地形成,但是它们不限于这些应用。例如,根据第一实施例的遥控器本体1或者根据本发明第三实施例的电话通信终端可以具有根据第二实施例的通信单元52,从而遥控器本体1可以根据该语音识别结果执行电子邮件发送和接收功能、日程安排管理功能、语音备忘录处理功能、语音定时器功能。利用该结构,如在第二实施例中,用户可以仅仅通过说出被登记字词而不进行实际操作来使用每个功能。
另外,根据第一实施例的遥控器本体1被提供有根据第三实施例的语音通信单元102,以使得遥控器本体1执行语音识别,并且可以根据语音识别结果执行电话操作。因此,如在第三实施例中,尽管用户与一个相对方进行通信并且语音通信单元102的话筒115和扩音器115被该通信所占用,但是可以把语音输入到遥控器本体1,并且可以控制语音通信单元102。
另外,第一实施例的遥控器本体1可以被提供有根据第二实施例的通信单元52和根据第三实施例的语音通信单元102,从而遥控器本体1可以执行语音识别。根据该语音识别结果,可以执行电话操作。另外,根据该语音识别结果,可以执行电子邮件发送和接收功能、日程安排管理功能、语音备忘录处理功能、语音定时器功能等等。利用该结构,如在第二实施例中,用户可以仅仅通过说出被登记字词而没有任何实际操作来使用每个功能。另外,如在第三实施例中,尽管用户与一个相对方进行通信,并且语音通信单元102的话筒115和扩音器115被该通信所占用,但是可以把语音输入到遥控器本体1,并且可以控制该语音通信单元102。
工业应用性
如上文所述,根据本发明的语音识别方法还使用维特比算法在该比较处理中对除了被登记字词之外的多余字词计算语音单元标签序列的似然性。如果不包含被登记字词的在普通生活条件下产生的噪声,即除了被登记字词之外的语音,被转换为声音参数序列时,则用较大的结果数值计算对应于与多余字词相关的语音单元标签序列的声音模型的似然性。根据该似然性,除了被登记字词之外的语音可以被识别为多余字词,从而避免把除了被登记字词之外的语音错误识别为被登记字词。
另外,由于根据本发明的遥控器用语音识别方法识别包含在用户的语音中的要被识别的字词,则除了要被识别的字词之外的发音或者噪声,即在普通生活条件下产生的噪声,可以被分配一个较高的拒绝率。因此,可以避免故障和错误识别。另外,根据本发明的信息终端用该语音识别方法识别包含在用户的语音中的被登记字词。因此,当由用户发出不包含被登记字词的例如在普通生活条件下产生的噪声这样的语音(即除了被登记字词之外的语音)时,对于该语音的声音参数序列计算的对应于与多余字词相关的语音单元标签序列的声音模型的似然性被计算为较大。根据该似然性,除了被登记字词之外的语音可以被识别为一个多余字词,从而避免除了被登记字词之外的语音被错误识别为被登记字词,并且避免信息终端的故障。
根据本发明的电话通信终端可以持续地执行语音识别。当发出一个呼叫时,可以用表示一个电话号码或说出的任意电话号码的关键字减少错误识别。当电话号码本身被识别时,可以按照逐个数字识别发音,而不把主叫方的发音限制为连续的号码发音。在接收方,可以使用语音输入执行摘机操作。因此,在发出和接收呼叫中可以免提地执行电话操作。也就是说,由于通信单元和语音识别单元具有通信单元的各自和独立的输入/输出系统,因此尽管用户与相对方进行通信,并且该通信单元的输入/输出系统被该通信所占用,用户的语音可以被输入到语音识别单元,并且可以控制该通信单元。
由于根据本发明的语音识别器通知识别被登记字词的状态,用户可以按照适当的时序发出被登记字词,并且该被登记字词可以被容易地识别。
另外,由于使用类似于第一实施例的语音识别处理,如在第一实施例中,当从用户说出除了被登记字词之外的语音时,多余字词模型23的似然性被计算为较大,而被登记字词的词汇网络22的似然性被计算为较小。根据该似然性,除了被登记字词之外的语音被识别为多余字词,并且避免除了被登记字词之外的语音被错误识别为一个被登记字词,并且可以避免电话通信终端的故障。

Claims (15)

1.一种语音识别方法,其通过把要被识别语音的目标人员的输入语音转换为声音参数序列,并且使用维特比算法把该声音参数序列与对应于关于被登记字词的语音单元标签序列的声音模型相比较而执行语音识别,把用于识别除了被登记字词之外的多余字词的语音单元标签序列与用于被登记字词的语音单元标签序列相并列,并且在使用维特比算法的比较处理中还为除了被登记字词之外的多余字词计算语音单元标签序列的似然性,从而在多余字词被作为输入语音而输入时,成功地把多余的字词识别为多余的字词。
2.根据权利要求1所述的语音识别方法,其特征在于对应于该语音单元标签序列的声音模型可以是使用隐藏的马尔可夫模型的声音模型,并且用于识别多余字词的语音单元标签序列可以是通过调整所有可用的语音单元模型而获得的虚拟语音单元模型。
3.根据权利要求2所述的语音识别方法,其特征在于对应于该语音单元标签序列的声音模型可以是使用隐藏的马尔可夫模型的声音模型,并且用于识别多余字词的语音单元标签序列可以具有仅仅通过元音的音素而形成自循环网络。
4.一种通过多个操作目标进行远程控制的遥控器,其中包括:存储装置,用于存储表示遥控操作的要被识别的字词;用于输入由用户所发出的语音的装置;语音识别装置,用于使用该存储装置识别要被识别并且包含在由用户所发出的语音中的字词;以及发送装置,用于发送对应于要被识别和实际被该语音识别装置所识别的字词的设备控制信号,其特征在于该语音识别方法基于根据权利要求1至3中的任何一项所述的语音识别方法。
5.根据权利要求4所述的遥控器,其中进一步包括:语音输入单元,用于允许用户执行通信;以及通信单元,用于根据要由该语音识别装置所识别的字词控制对通信线路的设置状态,其特征在于该语音输入装置和该通信单元的语音输入单元可以分别提供。
6.根据权利要求4或5所述的遥控器,其特征在于进一步包括控制装置,用于执行通过语音发送和接收邮件的处理、通过语音管理日程安排的处理、通过语音进行备忘录处理以及通过语音进行通知处理中的至少一个处理。
7.一种信息终端,其中包括:语音检测装置,用于检测用户的语音;语音识别装置,用于识别包含在由该语音检测装置所检测语音中的被登记字词;以及控制装置,用于根据由语音识别装置所识别的被登记字词,执行语音识别处理、通过语音管理日程安排的处理、通过语音进行备忘录处理以及通过语音进行通知处理中的至少一个处理,其特征在于该语音识别装置可以用根据权利要求1至3中的任何一项所述的语音识别方法识别包含在由该语音检测装置所检测的语音中的被登记字词。
8.一种电话通信终端,其可以连接到公用电话线网络或者互联网通信网络,其中包括:语音输入/输出装置,用于输入和输出语音;语音识别装置,用于识别输入语音;存储装置,用于存储包括通信方的名字和电话号码的个人信息;屏幕显示装置;以及控制装置,用于控制每个装置,其特征在于该语音输入/输出装置在该通信单元和语音识别单元中具有各自和独立的输入/输出系统。
9.一种电话通信终端,其可以连接到公用电话线网络或者互联网通信网络,其中包括:语音输入/输出装置,用于输入和输出语音;语音识别装置,用于识别输入语音;存储装置,用于存储包通信方的名字和电话号码的个人信息;屏幕显示装置;以及控制装置,用于控制每个装置,其特征在于该存储装置分离地预先存储包括被登记的人的名字的特定名字的名字词汇列表;任意电话号码的号码词汇列表;在通信过程中的电话操作的电话呼叫操作词汇列表;以及对入局呼叫的电话操作的呼叫接收操作词汇列表,并且可以通过输入语音由该语音识别装置、存储装置和控制装置执行与出局呼叫、断开和入局呼叫相关的所有电话操作。
10.根据权利要求8或9所述的电话通信终端,其特征在于还可以通过使用该存储装置的号码词汇列表以及用于通过输入所有十进制数字的连续发音由该语音识别装置识别任意电话号码的电话号码词汇网络来识别由预定数目的数字或符号所形成的号码串模式,而实现识别电话号码的方法。
11.根据权利要求8至10中的任何一项所述的电话通信终端,其特征在于该屏幕显示装置可以具有通知发音时序的发音时序显示功能。
12.根据权利要求8至11中的任何一项所述的电话通信终端,其中还包括用于根据由该语音识别装置所识别的输入语音执行通过语音发送和接收邮件的处理、通过语音管理日程安排的处理、通过语音进行备忘录处理以及通过语音进行通知处理中的至少一个处理。
13.根据权利要求8至12中的任何一项所述的电话通信终端,其特征在于该语音识别装置在根据任何一项权利要求1、2和3中的语音识别方法中识别包含在输入语音中的被登记字词。
14.一种语音识别器,其中包括:语音检测装置,用于检测用户的语音;语音识别装置,用于识别包含在由该语音检测装置所检测的语音中的被登记字词;以及发音时序通知装置,用于通知可以由该语音检测装置识别被登记字词的语音时序。
15.根据权利要求14所述的语音识别器,其中进一步包括音量通知装置,用于通知由该语音检测装置所检测的语音音量。
CN02827226.9A 2001-12-17 2002-12-17 语音识别方法 Expired - Fee Related CN1271595C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP382613/2001 2001-12-17
JP2001382613 2001-12-17
JP2002117964 2002-04-19
JP117964/2002 2002-04-19

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN 200610059780 Division CN1819020A (zh) 2001-12-17 2002-12-17 语音识别方法、遥控器、信息终端和电话通信终端

Publications (2)

Publication Number Publication Date
CN1615508A true CN1615508A (zh) 2005-05-11
CN1271595C CN1271595C (zh) 2006-08-23

Family

ID=26625087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02827226.9A Expired - Fee Related CN1271595C (zh) 2001-12-17 2002-12-17 语音识别方法

Country Status (6)

Country Link
US (1) US20050043948A1 (zh)
JP (2) JP4263614B2 (zh)
CN (1) CN1271595C (zh)
AU (1) AU2002354201A1 (zh)
TW (1) TW200301460A (zh)
WO (1) WO2003052737A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
CN101836207A (zh) * 2007-08-20 2010-09-15 格斯图尔泰克股份有限公司 超出词汇的词的增强的拒绝
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
CN102867510A (zh) * 2011-07-07 2013-01-09 株式会社电装 语音识别系统
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
CN104076679A (zh) * 2014-06-27 2014-10-01 苏阳 一种用于记录信息的智能手表
CN104347072A (zh) * 2013-08-02 2015-02-11 广东美的制冷设备有限公司 遥控器控制的方法、装置和遥控器
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
CN105074815A (zh) * 2013-01-24 2015-11-18 微软技术许可有限责任公司 针对语音识别系统的视觉反馈
US9261979B2 (en) 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4735141B2 (ja) * 2005-09-05 2011-07-27 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、および情報処理プログラム
US7957328B2 (en) * 2006-01-30 2011-06-07 Broadcom Corporation Method and system for communicating to radio frequency integrated circuit
JP4821648B2 (ja) * 2007-02-23 2011-11-24 パナソニック電工株式会社 音声コントローラ
TWI425806B (zh) * 2007-06-08 2014-02-01 Wistron Neweb Corp 用來記事於一行動通訊裝置的方法及相關裝置
US8175885B2 (en) 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
US20090125813A1 (en) * 2007-11-09 2009-05-14 Zhongnan Shen Method and system for processing multiple dialog sessions in parallel
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
JP5703491B2 (ja) * 2010-01-26 2015-04-22 国立大学法人山梨大学 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
US8744860B2 (en) 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
US20120052907A1 (en) * 2010-08-30 2012-03-01 Sensory, Incorporated Hands-Free, Eyes-Free Mobile Device for In-Car Use
JP6001239B2 (ja) * 2011-02-23 2016-10-05 京セラ株式会社 通信機器
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
CN102760433A (zh) * 2012-07-06 2012-10-31 广东美的制冷设备有限公司 联网家电用声控遥控器及其控制方法
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
CN104216276A (zh) * 2013-06-03 2014-12-17 龙博 智能记事手表
CN103456303A (zh) * 2013-08-08 2013-12-18 四川长虹电器股份有限公司 一种语音控制的方法和智能空调系统
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
JP6453631B2 (ja) 2014-11-28 2019-01-16 株式会社東芝 認識システム、認識方法およびプログラム
JP6520100B2 (ja) * 2014-12-15 2019-05-29 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US9972342B2 (en) * 2015-11-20 2018-05-15 JVC Kenwood Corporation Terminal device and communication method for communication of speech signals
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
JP6759613B2 (ja) * 2016-02-10 2020-09-23 大日本印刷株式会社 携帯型デバイス及びプログラム
WO2017195412A1 (ja) * 2016-05-13 2017-11-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6895037B2 (ja) * 2016-11-06 2021-06-30 ナレルシステム株式会社 音声認識方法、コンピュータプログラム及び装置
CN110322876A (zh) * 2018-03-30 2019-10-11 中华映管股份有限公司 语音应用系统及其方法
US11195518B2 (en) * 2019-03-27 2021-12-07 Sonova Ag Hearing device user communicating with a wireless communication device
JP7033181B1 (ja) * 2020-11-30 2022-03-09 レノボ・シンガポール・プライベート・リミテッド 情報処理装置及びレコーディング方法
CN115331670B (zh) * 2022-08-09 2023-06-23 深圳市麦驰信息技术有限公司 一种家用电器用离线语音遥控器

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57208596A (en) * 1981-06-18 1982-12-21 Hitachi Ltd Voice recognition circuit
JPS59225441A (ja) * 1983-06-06 1984-12-18 Ricoh Co Ltd 音声入力装置
DE3338484A1 (de) * 1983-10-22 1985-05-02 Standard Elektrik Lorenz Ag, 7000 Stuttgart Teilnehmersprechstelleneinrichtung
JPS60179798A (ja) * 1984-02-27 1985-09-13 松下電器産業株式会社 音声認識装置
JPH02171098A (ja) * 1988-12-23 1990-07-02 Matsushita Electric Ind Co Ltd 音声認識リモコン装置
JPH02250095A (ja) * 1989-03-23 1990-10-05 Matsushita Refrig Co Ltd 音声認識システム
JPH0320566U (zh) * 1989-07-11 1991-02-28
JP2614552B2 (ja) * 1991-06-27 1997-05-28 シャープ株式会社 音声認識リモコン装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP3112556B2 (ja) * 1992-04-21 2000-11-27 シャープ株式会社 音声ダイヤラ
JP2886117B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP2886118B2 (ja) * 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 隠れマルコフモデルの学習装置及び音声認識装置
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
JPH1049186A (ja) * 1996-07-29 1998-02-20 Nippon Telegr & Teleph Corp <Ntt> 数字列音声認識方法およびこの方法を実施する装置
JP3428309B2 (ja) * 1996-09-24 2003-07-22 松下電器産業株式会社 音声認識装置
DE19712632A1 (de) * 1997-03-26 1998-10-01 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten
JPH11249692A (ja) * 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
IL138542A0 (en) * 1998-03-30 2001-10-31 Andrea Electronics Corp Remote control system for controlling key-press and speech actuated on-line applications
JP3105863B2 (ja) * 1998-04-02 2000-11-06 日本電気ロボットエンジニアリング株式会社 音声認識雑音除去方式
JPH11288297A (ja) * 1998-04-06 1999-10-19 Mitsubishi Electric Corp 音声認識装置
JP4300596B2 (ja) * 1998-04-16 2009-07-22 ソニー株式会社 車載用ナビゲーションシステム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
US9261979B2 (en) 2007-08-20 2016-02-16 Qualcomm Incorporated Gesture-based mobile interaction
CN101836207A (zh) * 2007-08-20 2010-09-15 格斯图尔泰克股份有限公司 超出词汇的词的增强的拒绝
US8565535B2 (en) 2007-08-20 2013-10-22 Qualcomm Incorporated Rejecting out-of-vocabulary words
CN101836207B (zh) * 2007-08-20 2017-03-01 高通股份有限公司 超出词汇的词的增强的拒绝
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
CN102867510A (zh) * 2011-07-07 2013-01-09 株式会社电装 语音识别系统
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
CN103578470B (zh) * 2012-08-09 2019-10-18 科大讯飞股份有限公司 一种电话录音数据的处理方法及系统
CN105074815B (zh) * 2013-01-24 2019-01-22 微软技术许可有限责任公司 针对语音识别系统的视觉反馈
CN105074815A (zh) * 2013-01-24 2015-11-18 微软技术许可有限责任公司 针对语音识别系统的视觉反馈
US9390711B2 (en) 2013-01-29 2016-07-12 Huawei Device Co., Ltd. Information recognition method and apparatus
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
CN104347072A (zh) * 2013-08-02 2015-02-11 广东美的制冷设备有限公司 遥控器控制的方法、装置和遥控器
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
CN104076679B (zh) * 2014-06-27 2017-04-26 汕头市奇士钟表有限公司 一种用于记录信息的智能手表
CN104076679A (zh) * 2014-06-27 2014-10-01 苏阳 一种用于记录信息的智能手表

Also Published As

Publication number Publication date
JP4263614B2 (ja) 2009-05-13
JP4558074B2 (ja) 2010-10-06
CN1271595C (zh) 2006-08-23
WO2003052737A1 (fr) 2003-06-26
JPWO2003052737A1 (ja) 2005-04-28
TW200301460A (en) 2003-07-01
AU2002354201A1 (en) 2003-06-30
JP2009104156A (ja) 2009-05-14
US20050043948A1 (en) 2005-02-24

Similar Documents

Publication Publication Date Title
CN1271595C (zh) 语音识别方法
CN1242376C (zh) 声音识别系统、装置、声音识别方法
CN1409527A (zh) 终端器、服务器及语音辨识方法
CN1253812C (zh) 信息处理装置和信息处理方法
CN1497931A (zh) 复制和传送电话对话的系统和方法
CN1497932A (zh) 管理个人电话记录的系统和方法
CN1497930A (zh) 处理个人电话记录器命令的系统和方法
CN1792082A (zh) 操作方执行的语音邮件转录
CN1941077A (zh) 识别语音输入中的字符串的语音识别设备和方法
CN1389075A (zh) 电子数字开门器
CN1842092A (zh) 通信终端、通信系统、服务器装置和通信连接方法
CN1975858A (zh) 会话控制装置
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
CN1524374A (zh) 通过电话使用话音以便在互联网上访问、处理和执行交易的系统和方法
CN1898721A (zh) 设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法和程序
CN1449518A (zh) 话音访问基于互联网的信息的系统与方法
CN1453767A (zh) 语音识别装置以及语音识别方法
CN1354851A (zh) 交互式服务所使用的标记语言及其方法
CN1798324A (zh) 信息终端装置
JP2008015439A (ja) 音声認識システム
CN1504924A (zh) 文本编辑助理
CN1297130C (zh) 通信终端装置
CN1445652A (zh) 对话系统和对话控制装置
CN1819020A (zh) 语音识别方法、遥控器、信息终端和电话通信终端
CN1422057A (zh) 通信终端、通信方法及其程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060823

Termination date: 20151217

EXPY Termination of patent right or utility model