CN1232336A - 自动拨号的话音命令系统 - Google Patents

自动拨号的话音命令系统 Download PDF

Info

Publication number
CN1232336A
CN1232336A CN 99101083 CN99101083A CN1232336A CN 1232336 A CN1232336 A CN 1232336A CN 99101083 CN99101083 CN 99101083 CN 99101083 A CN99101083 A CN 99101083A CN 1232336 A CN1232336 A CN 1232336A
Authority
CN
China
Prior art keywords
frame
key
variable
item
phonetic symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 99101083
Other languages
English (en)
Other versions
CN1182694C (zh
Inventor
Y·C·楚
T·H·林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1232336A publication Critical patent/CN1232336A/zh
Application granted granted Critical
Publication of CN1182694C publication Critical patent/CN1182694C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及用于自动拨号的话音命令系统。该构思是为在电话簿项中利用音标而不用字符串。能遵照表1中所定义的专门设计的键入序列用键盘输入音标。作为替代,能通过以隔离方式讲出音节到电话送话器中而用语音识别作出该项,由于普通话中每一字符只有一个音节。音标是自动转换成话音命令模型的,它允许用户用口声命令拨号码。

Description

自动拨号的话音命令系统
本发明涉及用于自动拨号的话音命令系统,其特征为通过话音命令的自动拨号,以便实现在电话机上。
除了顺序地按键盘来输入要求的电话号码,可以购得的电话机还提供其它特征,诸如利用热键来存储电话号码供以后拨号。这种方法通常要求用户在输入电话号码之前先按“存储”键,然后通过按对应的热键来存储。在初始设定之后,用户可通过按其对应热键而重叫项目以便拨想要的电话号码。虽然这是拨号的简单方法,但它具有以下缺点。(1)难于记住热键与电话薄项目之间的对应性。(2)其它人不知道用户设定的电话薄项目。以及(3)每当修改电话薄项目时必须更新电话薄项目的书面对照表。
本发明的一个目的为提供用于自动拨号的话音命令系统,其特征为通过话音命令自动拨号。
本发明的另一目的为提供如表1中所示的用于以键盘输入中文项目的音调与音节的映射方案。利用表1中列出的编码方案及本发明中描述的方法,人们能通过电话键盘容易地输入中文项目。所有中文项目都将用它们的音标序列输入与显示。此外,将姓名项目自动转换成话音命令模型,允许用户在编辑各项之后无须额外训练便能用口头命令拨号。
按照本发明的用于自动拨号的话音命令系统包括若干基本部件。操作选择模块用于从三种模式:命令、编辑或普通模式,中确定电话的操作模式。修改模块的特征为用于在包含以它们的对应音调与音标的姓名项以及电话号码项的电话薄数据库中增加电话号码项的功能。声音数据库包含基本声音模型及通过串联连接基本声音模型构成的话音命令模型。话音识别模块利用包含在声音数据库中的声音模型与话音命令模型来解码用户的输入发音及提供N个最佳结果。显示模块显示修改与语音识别模块的结果,在核对以后将修改的结果发送给修改模块,及将解码结果发送给拨号模块以拨所要求的电话号码。
下面将参照附图详细说明本发明;其中
表1为按顺序将中文语音符号映射到它们的键上,例如,以符号“ㄅ”按“#51”到键上;
图1为展示按照本发明的实施例的自动拨号的话音命令系统的方框图;
图2为展示上述实施例的操作选择模块的流程图;
图3A为上述实施例的编辑模式的流程图;
图3B与3C为展示在上述实施例的编辑模式下的输入功能的流程图;
图3D为展示在上述实施例的编辑模式下的话音输入功能的流程图;
图3E为展示在上述实施例的编辑模式下的查询功能的流程图;
图3F与3G为展示在上述实施例的编辑模式下的修改功能的流程图;以及
图4为展示上述实施例的命令模式的流程图。
图1为展示按照本发明的实施例的自动拨号的话音命令系统的方框图。如图中所示,用框10表示的操作选择模块用于在命令模式27、编辑模式28或普通模式26中确定当前的操作模式。命令模式27接受输入发音,找到对应的电话号码及为用户拨它。编辑模式28提供编辑电话薄数据库12的功能。普通模式26类似于典型的电话功能。修改模块11有三种编辑功能特征:输入、查询与修改。输入功能允许用户增加新的姓名与号码项到电话薄数据库12中及串行地连接表示姓名项的基本声音模型以构成话音命令模型。查询功能协助用户定位特定的数据项及允许用户直接拨它。修改功能的特征为以下功用:增加/删除电话号码项及删除数据记录。电话薄数据库12包含以它们的对应音标表示的姓名项以及电话号码项。声音数据库采用隐藏的Markov模型并包含(a)408个音节的声音模型及(b)由姓名项的对应声音模型构成的话音命令模型。语音识别模块14将输入发音解码成类似于声音模型的特征矢量并利用Viterbi解码过程来找出N个最佳声音模型或N个最佳话音命令模型。显示模块15显示修改与语音识别模块的结果。字体16包含显示模块要使用的阿拉伯数字、音标及特殊符号的显示字体。
图2至4为展示按照本发明的实施例的自动拨号的话音命令系统的进程的流程图。参照图2至4详细说明操作过程。
图2为展示图1中所示的操作选择模块10的进程的流程图。操作选择模块10从命令模式27、编辑模式28或普通模式26中确定当前的操作模式。如图中所示,一旦将手机21从其托架上举起,操作选择模块10首先检测拨号音,如用框22所示。在没有拨号音的情况中,将电话设定为普通模式26。否则,系统进入供拨号的在线状态。然后,操作选择模块10检测用户发音,如用框23所示。任何输入发音的出现指示要用话音命令来自动拨号,而系统进入命令模式27,其中图4详细示出命令模式的进程。在没有用户发音的情况中,则操作选择模块10检测是否按下了“#”键,如用框25所示。如果按下了“#”键,系统进入编辑模式28,其中图3A详细示出编辑模式的进程。用户按下“#”键以外的任何键表示用户的拨号动作而系统进入普通模式26。当本发明的自动拨号的话音命令系统进入普通模式时,电话机便与传统电话相同的方式操作。
图3A至3G为展示图1中所示的修改模块11的进程的流程图。修改模块的特征为允许用户在电话薄数据库12中增加姓名及电话号码项的编辑功能。修改模块还按照发音表组合基本声音模型来构成话音命令模型。图3A、3B、3C、3D、3E、3F与3G为分别展示编辑模式及其输入、语音输入、查询、及修改功能的进程的流程图。
图3A为编辑模式28的进程的流程图,该模式的特征为四种功能:语音输入37、输入38、查询39及修改40。一旦在编辑模式中,便提示“1.语音,2.输入,3.查询,4.修改”供用户选择。如果按下键“1”系统便进入“语音输入”功能37,如果按下键“2”进入“输入”功能38,如果按下键“3”则为“查询”功能39,及如果按下键“4”则为“修改”功能40。
图3B为展示在编辑模式28下的输入功能38的进程的流程图。输入功能38的特征为诸如编辑姓名项,编辑电话号码项,按照发音表组合基本声音模型357以构成话音命令模型408,编辑姓名与电话号码项到电话薄数据库12中及增加话音命令模型到声音数据库13中,等功用。在图3B中所示的输入功能的流程图中,首先设定变量Nflag为1,如用框310所示。Nflag=1表示系统进入姓名项功用。然后系统设定变量Tcnt、cnt1、cnt2为0。变量Tcnt表示电话号码项的长度(最大15位),这时Tcnt=0表示无位项。一旦按下一个键,便将键入项存储在变量key中,如框311所示。然后系统检测变量Nflag是否为1,如框312所示。如果变量Nflag=1,系统进入姓名项循环。然后系统检测变量key是否等于“*”,如框330所示。如果变量key=“*”,显示器上的光标移动到前一项,如框343所示,系统则返回到框311。否则,将键入项放在姓名缓冲器中,如框331所示。然后系统检测变量key是否等于“#”,如框332所示。如果变量key≠“#”,便将变量cnt1复位到0,如框344所示,其中变量cnt1计数“#”键的接连按压,而系统返回到框311。否则在变量cnt1上加上值1,如框333所示。然后系统检测是否变量cnt1=2,如框334所示。如果变量cnt1=2,系统返回到框311。否则用户按了“#”键两次,这表示姓名项对话结束,并将变量cnt1复位到0,如框335所示。然后系统确认键入的对应于姓名项的语音记录是否满足表1中所示的音标的编辑定义,如框336所示。如果姓名项不满足编码定义便提示出错报文337及346而系统返回到框311。否则,按照表1的映射将姓名项转换成音标,如框345所示。然后系统确认姓名项是否满足表1中所示的408个音节的定义,如框338所示。如果姓名项不满足映射定义则提示出错报文339及348而系统返回到框311。否则,系统确认姓名项是否重复,如框340所示。如果姓名项重复便提示重复报文349而系统返回到框311。否则,系统提示报文询问用户来核对键入的姓名项,如框341所示。如果不能得到肯定的确认,系统返回到框311。否则,将变量Nflag复位到0,如框342所示,其中变量Nflag=1表示系统进入电话号码项功用,而系统返回到框311。下面给出姓名项功用的示例。
如果用户想要输入中文名字“李小华”,第一步为将字符串转换成其拼音符号“ㄌ-Vㄒ-ㄠVㄏㄨㄚ
Figure A9910108300071
”。接着,用户需要在表1中找到拼音符号的对应键入序列。注意表1中的号码必须冠以“#”键。“ㄌ-Vㄒ-ㄠVㄏㄨㄚ
Figure A9910108300072
”的得出的键入序列为“#58#72#3”#64#72#81#3#61#73#75#2##”,其中的双“##”键表示姓名项对话的结束。然后将字符串放入姓名缓冲器中并用显示模块显示为“ㄌ-Vㄒ-ㄠVㄏㄨㄚ
Figure A9910108300073
”。
在替代实施例中,系统可利用显示模块15来显示对应于单个音标的数字,通过它们用户可通过按其对应的键选择想要的拼音符号。例如,显示模块15的页1可首先显示音标“ㄅㄆㄇ匚ㄉㄊㄋㄌ…”及它们的对应数字“01234567…”。为了输入中文串“李小华”,首先选择表示音标“ㄌ”的数字“7”。如果想要的音标不能显示在页1上,可提示页2以便以类似方式完全输入姓名项。
图3B中,变量Nflag为0表示姓名项对话的结束,如框342所示,而系统已准备好电话号码输入。图3B与图3C示出号码输入功用的流程图。一旦按下了一个键,便将键项存储在变量key中,如框311所示。然后系统检测是否变量Nflag=1,如框312所示。如果变量Nflag=1,系统进入号码项循环。然后系统检测是否变量“key=“*”,如框313所示。如果变量key=“*”,光标移动到前一项,如框319所示,而系统返回到框311。否则,系统检测是否变量key=“#”,如框314所示。如果变量key=“#”,便将变量cnt1复位到0,如框315所示,其中变量cnt1计数“#”键的接连按压。系统还检测变量key是否在0至9的范围内,及变量Tcnt是否小于15,如框316所示。否定的结果表示变量key是无效项而系统返回到框311不采取任何行动。如果变量key为有效项,将键入项临时放置在号码缓冲器中,如框317所示。然后在变量Tcnt上加上值1,如框318所示(在电话号码上加上一位),而系统返回到框311。如果变量key=“#”,在变量cnt1上加上值1,如框320所示。然后系统检测是否变量cnt1=2,如框321所示。如果变量cnt1=2,则可能已完全输入了一个电话号码项。然后系统检测是否变量Tcnt>0,如框326所示。否定的结果表示无电话号码项而系统返回到框311不采取任何行动。否则,号码项有效而在变量cnt2上加上值1,如框327所示,其中变量cnt2表示存储的电话号码项的数目(最大为4)。然后系统将变量Tcnt复位到0。然后系统检测是否变量cnt2=4,如框328所示。否定的结果返回系统到框311。如果cnt=4,用户完全设定了全部四个电话号码项。将临时放置在姓名与号码缓冲器中的姓名与电话号码项移到电话薄数据库12中,如框324所示,而系统返回到图3A中的编辑模式的入口点。当cnt1=2时,号码项对话结束。然后系统将变量cnt1复位到0,如框322所示,并检测是否变量cnt2>0,如框323所示。否定的结果表示号码缓冲器中无电话号码项,而系统返回到框311不采取任何行动。否则,一个电话号码项当前放在号码缓冲器中而系统返回到框324,将声音模型转换成话音命令模型并将姓名与电话号码项移到电话薄数据库中,如上所述。下面给出号码项操作的示例。
假定“李小华”有两个电话号码:212-7827657及7556133。它们能用序列“2127827657#7556133##”输入,其中单个“#”键用来分隔不同的电话号码而双“##”键表示号码项的结束。
将键入的姓名与电话号码项存储在具有表1中所示的数据结构的电话薄数据库12中。表1的列1表示与话音命令模块的序号一致的序号。列2以其对应的音标表示姓名项。列3至6用来存储号码项。如表1中所示,键入项包含表示“李小华”的串“58 783 64 72 81 3 61 73 75 2”,其号码项为212-7827657及7556133。
话音命令模块13包含基本声音模型357及通过连接基本声音模型357构成的话音命令模型408。基本声音模型357是不包含音调的音节模型。各音节模型为右上下文相关(RCO)的首字母(声母)与终字母(韵母)的组合。总共采用了109个RCD首字母及38个终字母。这些RCD首字母与终字母是由采用多个发音人语音数据库的分段k装置(segmental k-means)方法训练的隐藏Markov模型。这些隐藏Markov模型的特征矢量包含12个Mel频率倒频谱系数及12个Delta Mel频率倒频谱系数。用“李小华”作为说明如何用RCD首字母与终字母组成声音模型的示例。“李(ㄌ-v)”由RCD首字母“l-i”及终字母“i”构成。从而用符号“l-ii”来表示“李(ㄌ-v)”的音节模型。类似地,分别用符号“shi-iiau”与“h-uua”来表示“小(ㄒ-ㄠV)”与“华”(ㄏㄨㄚ丿)”的音节模型。话音命令模型是以类似的方式连接音节模型构成的。例如,姓名“李小华”的话音命令模型是通过连接音节模型“李(l-ii)”、“小(shi-iiau)”与“华(h-uua)”构成的。从而用符号“(l-iishi-iiauh-uua”来表示“李小华”的话音模型。
图3D为展示在编辑模式下的语音输入功能的流程图。如上所述,图3B中所示的输入功能提供用表1中所示的音标的编辑方案编辑姓名项的方法来编辑姓名项。编辑模式下的语音输入功能提供允许用户用口头输入编辑姓名项的替代方法。在语音输入进程中,首先将变量Scnt设置成0,如框351所示,其中变量Scnt为0表示无输入发声。然后将一个音节发声到手机中,如框352所示。然后将变量kcnt设置成0,如框353所示,其中kcnt为0表示该音节需要进一步确认。然后将输入音节移至语音识别模块14供进一步处理。语音识别模块14包括三个步骤:绺检测,特征抽取及模式匹配,终点检测模块354将语音信号与背景噪声分离。特征抽取模块355执行输入语音的频谱分析来抽取由12个Mel频率倒频谱系数及12个Delta Mel频率倒频谱系数组成的特征矢量。模式匹配模块355利用Viterbi解码过程找出最相似输入语音的N个最佳音节模型357。按照表示输入语音与408个音节模型357之间的相似性的匹配分数排序这些结果。然后按照它们的匹配分数的对应音标顺序地显示这些结果,如框358所示,其中首先显示最高匹配分数的结果。然后系统请求键入值,如框360所示,并检测表示键入值的变量key是否在0至4的范围内。肯定的结果表示当前正在显示的音标对应于输入音节且变量key的值表示输入音节的音调。然后系统检测是否变量kcnt=0,如框369所示。肯定的结果表示该音节需要进一步确认;从而将该音节及其音调临时放置在姓名缓冲器中,如框370所示。然后在变量Scnt上加上值1,表示已将一个字符加到姓名项中。将变量kcnt设置成1,表示选择了该输入音节,如框367所示。
否则,变量kcnt不为0表示已选择了该输入音节。用变量key的值来取代输入音节的音调,如框368所示。然后系统返回到框360用于下一个键入值。
如果变量key不在0至4的范围内,系统便检测是否变量key=8,如框362所示。肯定的结果表示匹配结果的下一个候选者需要考察而系统返回到框358。否则,系统检测是否变量key=7,如框363所示。肯定的结果表示已准备好将下一个音节发声到手机中,而系统返回到框352。否则,系统检测是否变量key=0,如框362所示。否定的结果将系统返回到框360并要求键入值。变量key为0表示姓名项对话的结束。然后系统检测是否变量Scnt>0,如框365所示。否定的结果表示没有姓名项放置在姓名缓冲器中;从而系统返回到框352请求用户用话音输入姓名项。否则,变量Scnt大于0表示姓名项对话的结束。然后系统将变量Nflag、Tcnt、cnt1及cnt2复位到0,如框356所示。在为以后的号码输入功能转移到图3B中的点@350之前必须设定变量。
作为输入姓名“李小华”的一个示例,首先说出音节“李(ㄌ-v)”到手机中。假如语音识别模块14找出的N个最佳声音模型为“1:ㄌ-ㄥ,2:ㄋ-,3:ㄌ-,4:-…”。显示模块15将首先显示音标“ㄌ-ㄥ”,这不是表示字“李”的音标;从而按下键“8”。然后显示模块显示音标“ㄋ-”,这也不是表示字“李”的音标,再一次按下键“8”。然后显示模块显示音标“ㄌ-”,这对应于字“李”的音标,从而按下键“3”来表示其单调。如果需要修改,可在下一次语音输入之前输入值1至4之间的键。例如,键“4”将“ㄌ-v”改变成“ㄌ-丶”。然后通过按键“7”为下一次输入“小(ㄒ-ㄠV)”以及随后的话音输入“华(ㄏㄨㄚ丿)”确认姓名项。然后用户按键“0”来表示姓名项对话的结束。现在姓名缓冲器中包含表示“李小华”的字符串“#58#72#3#64#72#81#3#61#73#75#2##”。然后系统转移到修改模块的电话号码输入功能38。
图3E为展示编辑模块28的查询功能39的流程图。查询功能39提供显示前面379或后面380数据项的功能并允许用户拨当前正在显示的数据项,如框378所示。一旦用户进入查询功能39,系统首先检测电话薄数据库12中是否存在任何数据项,如框371所示。否定的结果断开查询功能并返回系统到图3A中编辑模式28的起始点。否则,系统显示最近用过的数据项,如框372所示。要求输入一个键,并将键入值存储在变量key中,如框373所示。然后系统检测是否变量key=“*”,如框374所示。肯定的结果显示前一数据项379及返回系统到框373。否则,系统检测是否变量key=“#”,如框375所示。肯定的结果显示下一数据项380并返回系统到框373。否则,系统检测是否变量key=0,如框376所示。肯定的结果表示查询对话的结束而将系统返回到图3A中修改模块28的入口点。否则系统检测变量key是否对应于当前正在显示的任何电话号码项,如框377所示。肯定的结果令系统拨选择的电话号码并返回系统到普通模块26。否则,系统忽略键入值并返回到373用于下一键入值。
图3F及3G为展示编辑模式28下的修改功能40的流程图。修改功能的特征为以下功用:增/删号码项及删除数据库中的记录。一旦用户进入修改功能40,系统首先检测电话薄数据库12中是否存在任何数据项,如框381所示。否定的结果断开修改功能并返回系统到图3A中编辑模式28的入口点。否则,系统显示最近用过的数据项,如框382所示,并将变量Aflag、Dflag及Tcnt设置成0,其中变量Aflag=1表示选择增加功用,变量Dflag=1表示选择删除功用,而变量Tcnt表示电话号码项的长度(最大15位)。用户能通过按键输入指令,而将键入值存储在变量key中,如框384所示。然后系统检测是否变量key=“*”,如框385所示。肯定的结果表示选择了删除功用,将变量Dflag设置成1,并将变量Aflag设置成0,如框390所示。然后系统返回到框384。否则,系统检测是否变量key=“#”,如框386所示。肯定的结果表示选择了增加功用而将变量Dflag设置成0,如框398所示。然后系统检测是否变量Tcnt>0,如框399所示。肯定的结果表示增加功用的结束并将临时放置在号码缓冲器中的号码项移到电话薄数据库12中,如框402所示。然后在变量Telcnt上加上值1,Telcnt表示以前存储的电话号码项的总数而加1表示已输入了一个附加的号码项(最大4)。然后将变量Aflag复位到0以结束增加功用并将变量Tcnt复位到0,如框402所示。然后系统返回到框384。否则,变量Tcnt为0表示不存在号码项。一旦进入增加功用,系统首先检测输入的电话号码数是否超过4,如框400所示。换言之,系统检测是否变量Telcnt=4。肯定的结果表示不可能增加号码项而系统忽略“#”键及返回到框384。否则,可以增加附加的电话号码项而将变量Aflag设置成1,如框401所示,以进入增加功用。然后系统返回到框384。如果变量key既非“*”又非“#”。系统便检测是否变量Dflag=1,如框387所示。肯定的结果表示删除功用的入口点。一旦进入删除功用,系统首先检测变量key是否对应于显示中的任何电话号码项,如框391所示。如果肯定,系统便从电话薄数据库中删除对应的号码项,如框397所示。否则,系统检测是否变量key=5,如框392所示。肯定的结果表示需要删除包含姓名项、电话号码项及表示该姓名项的话音命令模型408的数据库记录,如框392所示。然后系统提示一则报文来询问是否应删除整个记录。否定的回答返回系统到框384而不采取任何行动。否则,从电话薄数据库12中删除整个数据记录及从声音数据库13中删除对应于该姓名项的话音命令模型408。此后,系统检测电话薄数据库12中是否存在任何其它项,如框395所示。肯定的结果允许系统显示下一数据项,如框396所示并将系统返回到用于下一修改命令的修改功能40的入口点。否则,系统返回到用于下一编辑命令的图3A中的编辑模式28的入口点。在删除功用中,如果变量key并不对应于显示中的任何电话号码项且不等于5,系统返回到框388。如果变量key既非“*”又非“#”,且变量Dflag=1,系统便检测是否变量Aflag=1。肯定的结果表示选择了增加功用而系统进入增加功用。然后系统变量key是否在0至9的范围内且变量Tcnt<15(电话号码项的最大长度),如框404所示。肯定的结果允许将变量key临时放置在号码缓冲器405中并在变量Tcnt上加上值1,如框406所示,表示电话号码的附加位。然后系统返回到框384。否则,变量key不在0至9的范围内或变量Tcnt不小于15表示键入值是无效的或号码项超过了15位,从而系统返回到框384而不采取任何行动。如果变量key既非“*”又非“#”且变量Dflag及Aflag≠1,系统检测是否变量key=0,如框398所示。如果变量key≠0,系统忽略键入值并返回到框384。否则,变量key=0表示修改功能40的结束而将系统返回到用于下一编辑命令的图3A中的编辑模式28的入口点。下面说明修改功能的示例。
假定用户利用查询功能选择了存储在电话薄数据库12中的第三个数据记录。这一记录具有“林效法”的4组电话号码项。显示模块15将显示数据项如下。
ㄌ-ㄣ ㄒ-ㄠ丶匚ㄚv
Figure A9910108300131
1:3823883 2:7759398
Figure A9910108300133
3:7221234
Figure A9910108300134
4:8556694
假定需要将第四电话号码项从8556694改成5862699,第一步为通过按键“*4”来删除第四个号码,其中“*”表示删除功用而“4”表示第四号码项。接着,用序列“#5862699#0”输入新的号码项,其中第一个“#”起动号码项而第二个“#”结束号码项。序列中最后的“0”表示修改对话的结束。完成了上述进程之后,系统显示修改后的数据记录如下:ㄌ-ㄣ ㄒ-ㄠ丶匚ㄚv
Figure A9910108300135
1:3823883 2:7759398
Figure A9910108300137
3:7221234 4:5862699
图4为展示图1中的语音识别模块14的命令模式27的流程图。命令模式27允许用户用话音命令拔存储的电话号码项。一旦进入命令模式27,用户首先将想要的人的姓名讲入手机中,如框407所示,假定已在框408将该人的姓名转换成话音命令模型并已利用上述编辑模块28将其号码存储在电话薄数据库12中。然后将语音段发送到语音识别模块14供处理。语音识别模块14由三个步骤组成:终点检测,特征抽取及模式匹配。终点检测模块354分离语音段与背景噪声。特征抽取模块355执行语音段的频谱分析以抽取作为话音命令模型13的特征矢量,该模型包含12个Mel频率倒频谱系数及12个Delta Mel频率倒频谱系数。模式匹配模块利用Viterbi解码过程找出与输入语音段最相似的N个最佳话音命令模型408。按照表示输入语音段与话音命令模型408之间的相似性的匹配分数来排序这些结果。然后按排序的序列以它们对应的音标显示这些结果,如框358所示,其中首先显示具有最高匹配分数的结果。然后系统请求键入值,并将其存储在变量key中,如框409所示。然后系统检测是否变量key=8,如框410所示。肯定的结果表示当前显示的数据项不正确而系统返回到框358用于下一个可能的数据项。变量key不是8表示或者显示的数据项是正确的或者用户要再一次讲入手机中。从而系统检测是否变量key=7,如框411所示。肯定的结果将系统返回到命令模式27的入口点并期待口声输入。否则,系统为7指示显示的数据项是正确的,而系统检测变量Key是否对应于显示的任何电话号码,如框412所示。肯定的结果允许系统直接拨选择的电话号码,如框413所示,并返回系统到普通模式26。否则,系统返回到框409用于下一个键入值。下面给出如何利用话音命令拨一个存储的电话号码的示例。
假定用户想与“李小华”说话,用户首先拿起手机及讲“李小华”到手机中。如果语音识别模块14识别出“王大明”为具有最高匹配分数的候选人而“李小华”为第二最佳匹配,显示模块15首先显示如下:
ㄨㄤ丿ㄉㄚ丶ㄇ一ㄥ丿
Figure A9910108300141
1:3821234 2:7759876
Figure A9910108300143
3:059252177
由于“王大明”不是想要的项,用户按键“8”来显示下一个候选人,显示模块15显示如下:
ㄌ-vㄒ-ㄠvㄏㄨㄚ丿
Figure A9910108300144
1:7556133
Figure A9910108300145
2:2127827657
由于“李小华”是所要的项,而其第一个电话号码项7556133为要求的电话号码,用户按键“1”而系统发送解码的结果给拨号模块来拨选择的号码项。然后系统进入普通模式26。因为“李小华”只包含两个号码项,按键“3”或“4”将不导致行动。
如上所述,本发明提出了用于自动拨号的话音命令系统,其特征为通过话音命令自动拨号。此外,本发明中公开的映射方案与编辑方法可用来以它们对应的音标表示与显示中文姓名。此外,姓名项自动转换成话音命令模型允许用户在编辑各项之后无须额外训练便能拨号。
注意本发明不受上述实施例的限制,并且只要修改是在本发明的范围内作出的,本发明可在实践中修改。例如,只要图3D中的话音项功能采用首字母(ㄅ、ㄆ、ㄇ…)及终字母(ㄚ、一、ㄨ、…)来替代音节(ㄅㄚ、ㄉㄚ、…)作为话音输入,便能用109个RCD首字母与39个终字母来替代声音数据库13中所包含的声音模型357。此外,特征矢量可包含其它特征,诸如除了12个Mel频率倒频谱系数及12个DeltaMel频率倒频谱系数之外的能量分量或LPC分量。此外,本发明的应用不限于中文语言。通过加入特定语言的特征对声音数据库13、字体及修改模块11进行适当的修改,便能以任何语言实现本发明。本发明的范围列出在所附权利要求书中。
 一  丿  丷  、  ㄅ  ㄆ  ㄇ  匚  ㄉ
 1  2  3  4  51  52  53  54  55
 ㄋ  ㄌ  ㄎ  ㄏ  ㄐ  ㄑ  ㄒ  ㄓ
56 57 58 59 60 61 62 63 64 65
66  67  68  69  70  71
 ㄨ  ㄩ  ㄚ  ㄛ  ㄜ  ㄝ  ㄞ  ㄟ  ㄠ
72  73  74  75  76  77  78  79  80  81
 ㄡ  ㄢ  ㄣ  ㄤ  ㄥ  儿
82  83  84  85  86  87
                            表1

Claims (10)

1.一种用于自动拨号的话音命令系统,包括:
在命令模式、编辑模式或普通模式中确定所述系统的操作模式的操作选择模块;
提供编辑功能及存储数据到数据库中的修改模块;
从基本声音模型中生成话音命令模型的声音数据库;
解码用户的输入发声来提供与所述输入发声相似的N个最佳解码结果的语音识别模块;以及
显示所述修改模块与/或所述语音识别模块的所述结果,存储所述修改的结果到所述数据库中,与/或发送所述识别结果到拨号模块去拨号的显示模块。
2.根据权利要求1的系统,其中所述修改模块包含输入功能,该功能利用音调与音标的映射方案用于通过按所述音调与音标的对应电话键盘输入所述数据。
3.根据权利要求1的系统,其中所述修改模块包含输入功能,该功能利用音调与音标的映射方案用于用话音命令输入所述数据。
4.根据权利要求1的系统,其中所述修改模块包含输入功能,该功能利用所述显示模块显示的音调与音标映射方案用于通过按所述音调与音标的对应电话键盘输入所述数据。
5.根据权利要求1的系统,其中所述修改模块包含输入功能,该功能利用所述显示模块显示的音调与音标的映射方案用于用话音命令输入所述数据。
6.根据权利要求1的系统,其中所述修改模块包含输入功能,该功能利用给定的字母表的映射方案用于通过按所述字母表的对应电话键盘输入所述数据。
7.根据权利要求1的系统,其中所述修改模块包含输入功能,该功能利用给定字母表的映射方案用于用话音命令输入所述数据。
8.根据权利要求1的系统,其中所述修改模块包含输入功能,该功能利用所述显示模块显示的给定字母表的映射方案用于通过按所述字母表的对应电话键盘输入所述数据。
9.根据权利要求1的系统,其中所述修改模块包含输入功能,该功能利用所述显示模块显示的给定字母表的映射方案用于用话音命令输入所述数据。
10.根据权利要求1的系统,其中所述数据包含姓名与电话号码数据。
CNB991010833A 1998-01-16 1999-01-14 用于电话机的自动拨号的话音命令系统 Expired - Fee Related CN1182694C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP98200122.4 1998-01-16
EP98200122 1998-01-16

Publications (2)

Publication Number Publication Date
CN1232336A true CN1232336A (zh) 1999-10-20
CN1182694C CN1182694C (zh) 2004-12-29

Family

ID=8233303

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB991010833A Expired - Fee Related CN1182694C (zh) 1998-01-16 1999-01-14 用于电话机的自动拨号的话音命令系统

Country Status (2)

Country Link
JP (1) JPH11275205A (zh)
CN (1) CN1182694C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101185115B (zh) * 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法
CN1642196B (zh) * 2004-01-08 2011-10-05 华为技术有限公司 一种接收电话用户输入信息的方法
CN1655234B (zh) * 2004-02-10 2012-01-25 三星电子株式会社 用于区别口声和其它声音的装置和方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100339339B1 (ko) * 1999-10-28 2002-06-03 서평원 전화기에서 음성 인식 기능 제어 방법
FI110297B (fi) 2000-08-21 2002-12-31 Mikko Kalervo Vaeaenaenen Lyhytäänisanomajärjestelmä, -menetelmä ja -päätelaite

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1642196B (zh) * 2004-01-08 2011-10-05 华为技术有限公司 一种接收电话用户输入信息的方法
CN1655234B (zh) * 2004-02-10 2012-01-25 三星电子株式会社 用于区别口声和其它声音的装置和方法
CN101185115B (zh) * 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法

Also Published As

Publication number Publication date
CN1182694C (zh) 2004-12-29
JPH11275205A (ja) 1999-10-08

Similar Documents

Publication Publication Date Title
US8949133B2 (en) Information retrieving apparatus
CN1238832C (zh) 基于约束条件的语音识别系统
CN1280782C (zh) 给用户提供声音反馈的可扩展语音识别系统
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
CN1029170C (zh) 语言翻译系统
US5960447A (en) Word tagging and editing system for speech recognition
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
WO2004036939A1 (fr) Appareil de communication mobile numerique portable, procede de commande vocale et systeme
CN100592385C (zh) 用于对多语言的姓名进行语音识别的方法和系统
JPH10503033A (ja) 新ワードのモデル化に基づく音声認識方法及びその装置
WO2007006596A1 (en) Dictionary lookup for mobile devices using spelling recognition
CN1359514A (zh) 多模式数据输入设备
CN1182694C (zh) 用于电话机的自动拨号的话音命令系统
TW201409462A (zh) 語意辨識方法
Gao et al. Innovative approaches for large vocabulary name recognition
US7283964B1 (en) Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US20090306978A1 (en) Method and system for encoding languages
Lyu et al. Toward constructing a multilingual speech corpus for Taiwanese (Min-nan), Hakka, and Mandarin
KR20010044675A (ko) 음절 단위로 음성인식을 수행하는 방법 및 그 장치
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP2002215184A (ja) 音声認識装置、及びプログラム
CN1635768A (zh) 具声控拨号功能的手机及其控制方法
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
CN109963022A (zh) 一种基于soundex算法的语音电话本找人方法及流程

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee