具体实施方式
在附图中,在不同图中的相似的标号始终指示相似的组件。
图1是一方框图,根据本发明实施例,以移动无线电话1的形式示出了电子装置的组件。无线电话1具有和处理器4连接来通信的射频通信单元2。以显示屏6和键区8的形式的标准输入接口也和处理器4连接来通信。
处理器4包括具有关联的只读存储器(ROM)12的编码器/解码器10,只读存储器12存储用于对可能由无线电话1发射或接收的声音或者其他信号进行编码和解码的数据。处理器4还包括由公共数据和地址总线16连接到编码器/解码器10、关联的字符只读存储器(ROM)18、声学单元清单只读存储器(ROM)20、随机存取存储器(RAM)22、静态可编程存储器24和可拆卸SIM模块26的微处理器14。其中,静态可编程存储器24和SIM模块26每一个都可以存储选择的引入的文本消息和电话号码的电话本数据库。
微处理器14具有连接到键区8、显示屏6、包括振动马达和相关驱动的提示模块28、麦克风30和扬声器32的端口。在本实施例中的麦克风30和扬声器32还形成部分在用户和电话1之间的接口。
字符ROM 18存储用于解码或编码可能由通信单元2接收、在键区8输入的文本消息的代码。字符ROM 18和清单ROM 20都存储用于微处理器14的操作码(OC),在清单ROM 20中的OC用于自动语音识别(ASR)和文语转换(TTS)的合成。
射频通信单元2是具有通用天线34的组合的接收器和发射器。通信单元2具有和天线34通过射频放大器38连接的收发器36。收发器36还和将通信单元2连接到处理器4的组合的调制器/解调器40连接。
上述移动电话可在发出或接收电话呼叫、发送和接收SMS消息等方面作为标准的电话而操作。其不同在于用户接口。
电话的处理器4可能操作为ASR引擎并且引导在由麦克风30接收并转换为电信号的语音上的自动语音识别。识别是基于存储在代码ROM 12中的合适软件的,将引入的信号和存储在清单ROM 20中的语音模型做比较。电话的处理器4还可以操作为TTS引擎并引导在接收的文本上的文语转换合成(例如作为SMS消息)或者从存储器项目中读出的文本(例如菜单标题或它的内容)。合成的语音信号通过扬声器32传送到用户。语音合成是基于存储在代码ROM 12中的合适软件的,与存储在清单ROM 20中的声学单元相关联。
图1的电话具有多模式用户接口,结合显示屏6、键区8、和麦克风30一起使用的嵌入的ASR引擎以及和扬声器32一起使用的嵌入的TTS引擎,从而增强移动电话的可用性。用户能够通过显示屏6、键区8和ASR引擎中的任意一个输入数据和指令。电话能够通过显示屏6和TTS引擎中的任一个输出数据和消息。另外当电话用于电话呼叫时,可获得声音信号并将其通过麦克风30和扬声器32分别发射、接收和播放。
图1的移动电话可操作在多种ASR模式和TTS模式。移动电话包括声音功能按键(通常放置在键区8)、语音识别功能和文语转换合成功能。用户使用声音功能按键来选择多个语音识别模式(在这个实施例中:姓名识别、号码识别和指令识别)中所需的一个。电话根据所选语音模式以输入语音的语音识别为其方法的基础。如果选择了姓名识别模式,一组姓名被用作识别的基础。如果选择了号码识别模式,号码被用作识别的基础。如果选择了指令识别模式,一组指令被用作识别的基础。文语转换合成被用于在继续基于识别的姓名或号码拨打电话号码或者以继续执行指令的功能之前回放识别的语音。
ASR引擎可以在三个语音识别模式下工作:i)姓名识别模式,形式为姓名拨号模式;ii)指令识别模式,形式为指令控制模式;以及iii)号码识别模式,形式为数字拨号模式。用户能够通过不同的接入操作的方式有选择地接入这些模式。
i)姓名拨号模式(可从除了拨号区模式外的任意现有模式中接入)。这个模式用于基于一个人姓名的声音输入找出并拨打电话号码。这样如果用户说出一个姓名(例如“Charlie Farley”),同时电话在姓名拨号模式,ASR将寻求识别所说的条目(“Charlie Farley”)并且将其和在静态可编程存储器24中的电话本中的姓名进行比较。一旦认为匹配,就认为姓名已经被识别,拨打相关的电话号码并作出呼叫。此电话使用TTS来读出匹配的姓名,以作为确认。
ii)指令控制模式(可从任意现有模式中接入)。这个模式用于输入指令关键词(可能是单词或短语)到电话。因此,如果用户说出某事,同时电话在指令控制模式,ASR将寻求识别说出了什么并且将其和在清单ROM 20中的指令关键词进行比较。一旦认为匹配,就认为指令已被识别,并且采取适宜地操作。这可能是,例如:开始记录SMS信息,充实(flesh-out)并播放新接收或先前接收到的SMS,在当天的日计划中找出并读出事件,检查当前的信号或电池电平,打开拨号区等。一些操作需要来自电话的某些语音回应形式的回应,于是使用TTS引擎。在下面的表1中提供了一些可能的指令的实例以及相关的结果动作。
表1一些可能的声音指令
操作 |
声音指令列表 |
声音 |
操作 |
短消息 |
“打开短消息” |
打开消息箱并且读出新接收的(或未读消息) |
数字拨号 |
“打开数字拨号” |
为数字输入打开拨号区 |
电池电平 |
“检查电池电平” |
说出电池状态。例如:“电池为百分之××” |
信号强度 |
“检查信号强度” |
说出信号状态。例如:“信号强度为百分之××” |
重拨主页 |
“重拨上一个号码”“回到主页” |
拨打上一个电话号码。关闭当前程序并回到主页。 |
返回(数字模式中) |
“返回” |
关闭拨号区并回到先前的页面或程序。 |
iii)数字拨号模式(仅在通过在指令控制模式中适当的指令到达的拨号区模式可接入)。这个模式用于直接从声音输入拨打电话号码。因此,如果用户说出一系列数字,同时电话在数字拨号模式,ASR将寻求识别每一数字。一旦全部数字序列中的每个数字都被识别,拨打相关的号码并作出呼叫。电话使用TTS来读出其识别的数字系列,以作为确认。
因此,处理器4基于不同种类的数据(在这个实施例中:姓名、号码或指令),基于所选的语音识别模式来执行语音识别。
所有三个ASR模式在这个实施例中可通过按下电话上的单一的特定按键接入,在这个情况中是一个声音功能按键。声音功能按键是键区8的一部分,尽管它在电话的一侧时(尽管它可以被放置在其他地方,不需要放置在键区按键的其他或大多地方)最有用。在这个实施例中的声音功能按键结合了另一功能:如果它被快速连续双击,就会返回一页或一级。即,它允许用户从当前的功能或菜单级返回到先前的功能或上一级。例如,如果用户浏览互联网,他可以通过双击声音功能按键离开当前的程序并且回到先前的程序或主页。安排这个按键操作具有和在程序页上的“返回”菜单相同的功能。这可以加快在移动电话中功能或程序的操纵。
另外,声音功能按键可能和其他功能按键结合和/或执行其他功能。在另外的一个实施例情况中,它仅仅提供上面提及的操作。
姓名拨号模式可通过按下声音功能按键并将其向下按住直到发出哔哔声来接入。在此时,用户说出姓名,之后放开声音功能按键。数字拨号模式可由相同方式接入,但是仅仅当已经在拨号区模式下时才可以。另外,用户通常说出电话号码,而不是姓名。指令控制模式可通过点击声音功能按键,之后迅速再次按声音功能按键并且将其向下按住直到发出哔哔声而接入,在此时,用户说出指令关键词,之后放开声音功能按键。所有在这个实施例的ASR操作基于按压交谈,使用并向下按住声音功能按键。这可能不同于在其他实施例。
在这个实施例中,在每一模式中,不论是否包括拨号或指令,在继续之前,电话提供关于识别了什么语音的声音确认(由此给用户一个机会来停止操作)。在另一实施例中,装置在做这些之前等待确认来继续(拨打相关号码或遵循相关指令指示)。
TTS引擎可在两种模式下工作:i)ASR确认模式和ii)交谈模式。用户仅可有选择地接入交谈模式;ASR模式自动响应于ASR模式操作。
ASR确认模式(自动的从上面的三种ASR模式的任意一种中接入)。这个模式通过电话响应于由用户在三个上述的ASR模式中的ASR操作进入。特别地,TTS用于语音合成:在姓名拨号模式中匹配的姓名;响应在指令控制模式中匹配的指令的操作的回应或确认;或者一系列在数字拨号模式中输入的识别数字。
i)交谈模式(可从任意现有模式中进入)。这个模式包括提供进一步来自在指令控制模式中的指令关键词的声音反馈,例如读出在消息箱中的消息。它也用于提供在GUI操纵中的反馈(比如读出文本的当前行、菜单标题、地址簿的一页或更多的页、几个涉及相同人的号码等)以及用于所述应用的声音警示,例如:代替或和响铃音一起指示何时有一个呼入以及呼叫者是谁(基于呼叫者识别);读取由网站浏览器访问的网页,其中有一个在电子装置上;指示时间;指示约会;指示到达的地理位置(其中移动装置包括GPS或其他的定位系统接收器)。
使用在GUI的状态栏中的电话设置上拉表(pull-up)里的检查图标,可打开或关闭谈话模式。另外,可以使用在指令控制模式中的指令关键词来关闭和打开它。在优选实施例中,ASR确认模式经常打开。但是,在另外的实施例中,可能按需要打开或关闭它,例如通过在指令控制模式中的检查图标或指令关键词。
以特定方式使用声音功能选择ASR模式的同时,在另外的实施例中,不同的操作可能用于接入早先提到的不同模式。在另外的实施例中,不同按键可被用于接入不同模式。这种用于选择声音功能的装置不需要一个或多个按键。它可以被操作显示屏或一些其他输入模式所代替。
需要用户按一个按键并且(特别地)向下按住它的可用性在于,特别是当在每一ASR模式中只可能有一个特定操作时,它防止意外的操作并且做出精确的ASR以及做出适宜的最后的操作。尽管这还需要几种在用户和电话(和其他装置)之间的联系并且因此需要一些注意,它仅仅是对在优选实施例中的一个按键而并不是显示屏。另外,因为按键放置在装置的一侧,这个按键可以很容易通过触摸寻找到。这样可随意地在使用装置的同时看显示屏。
在操作移动电话的过程中,使用ASR或TTS,电话的显示屏仍然显示它将在键区的正常操作或显示过程中显示的显示屏。
例如,在姓名拨号模式中,当说出一个姓名,一旦电话确定它已经识别一个姓名,它仍然在显示屏6上和那个姓名一起显示电话本页面。图2是遵循一个模式中的语音识别的电话1的显示屏6的显示页面的示意图。图2示出了当(在姓名拨号模式下)用户说出了姓名GeorgeFerackis并且这个姓名被识别时的显示屏6上的显示页面40。同时,TTS合成器本身使得姓名“George Ferackis”从扬声器32中说出。
图3是遵循在数字拨号模式中的语音识别的电话1的显示页面的示意图。在数字拨号模式中,拨号区页面42显示在电话显示屏6上。当说出数字序列时,电话确定它识别数字的同时,电话在数字串箱44中显示识别的数字。在图3的情况中,电话确定用户说出了电话号码6785567并且显示了这些数字。同时,TTS合成器本身使得号码“6785567”从电话扬声器32中说出。
图3的显示页面还用于其他拨号,并且不仅仅用于数字拨号模式中。因此,页面还包括拨号区46(用于手动拨号),删除操作按键48(用于从数字串箱中删除号码),返回键按钮50(用于回到先前的页面),拨号操作按键52(用于拨出在数字字符串44中的号码来作出呼叫)以及确认操作按键54(用于在拨出之前说出在数字串箱44中的号码一次来确认)。
图1的移动电话的语音识别操作和文语转换模式将在下面参考图4进行讨论,图4是一涉及语音识别模式的选择和操作的流程图。这个过程由微处理器14控制。
在步骤S100中,打开装置或电话1并且之后等待输入。输入探测发生在步骤S102。之后,步骤S104确定是否通过声音功能按键输入。如果输入不是通过声音功能按键,在步骤S106中装置或电话1执行任意其他呼叫的功能,之后转回到步骤S102,等待下一个输入。如果输入是通过声音功能按键的,之后,在步骤S108,过程确定声音功能按键在当前是否被向下按住(激活)。如果声音功能按键当前被向下按住,那么在步骤S110过程确定装置是否在拨号区模式。如果装置或电话1在拨号区模式,那么在步骤S112,只要声音功能按键持续被向下按住,在此期间任意语音被从麦克风30记录在RAM 22中。一旦声音功能按键不再被向下按住,就停止记录,并且在步骤S114,装置或电话1使用ASR引擎在接收的语音信号上执行号码识别。一旦号码被识别,在步骤S116,TTS用于合成识别的号码并且通过扬声器32回放。在步骤S118,装置之后执行进一步的功能:自动拨打识别的号码以通过无线通信单元2做出呼叫,并且转回到步骤S102,等待进一步的输入。
如果在步骤S110,确定装置或电话1不在拨号区模式,之后,在步骤S120,只要声音功能按键持续被向下按住,在此期间任意语音仍然被从麦克风30记录在RAM 22中。一旦声音功能按键不再被向下按住,停止记录,并且在步骤S122,装置或电话1使用ASR引擎在接收的语音信号上执行姓名识别。一旦姓名被识别,在步骤S124中,TTS引擎用于合成识别的姓名并通过麦克风32回放。步骤S118再次跟随这个步骤,其中电话1执行进一步的功能:自动拨打对应于识别的姓名的号码来做出呼叫,之后转到步骤S102,等待进一步的输入。
如果在步骤S108中,确定声音功能按键当前并没有被向下按住,步骤S126确定声音功能按键是否先前刚被点击并且现在被向下按住。如果这个被确认了,那么在步骤S120,只要声音功能按键持续被向下按住,在此期间任意语音被从麦克风30记录在RAM 22中。一旦声音功能按键被放开,在步骤S130,电话1使用ASR引擎在接收的语音信号上执行指令关键词识别。一旦指令关键词被识别,在步骤S132,TTS引擎用于合成识别的指令关键词并通过扬声器32回放。接着在步骤134中,装置自动执行对应于识别的指令关键词的命令的进一步的功能。之后,过程转回到步骤S102,等待进一步的输入。
如果在步骤S126确定声音功能按键没有被刚刚点击一次并且没有被按住,过程在步骤S136确定声音功能按键是否被快速连续点击两次。如果声音功能按键确实被快速连续敲击两次,在步骤S138,处理器移动到当前的显示的前一页面,并且转回步骤S102,等待进一步的输入。
如果在步骤S136确定声音功能按键没有被快速连续点击两次,处理器假定有一个错误,简单地转回到步骤S102,等待进一步的输入。
虽然没有特别的描述,过程还可以处理ASR不能识别姓名、号码或指令关键词的情况,或其中声音功能按键被向下按住过长时间,或其他可能的情况。虽然描述了操作的一个特定流程,其他流程可能产生相同结果或本发明的范围中需要的其它类似的结果。
本发明的所描述的实施例使用ASR。在识别输入语音中使用的相关数据可在清单ROM 20和静态存储器24中找到。电子装置或电话1也可以包括学习程序来随时间提高ASR的精确度,结果也存储在静态存储器24中。另外ASR和TTS都能容易地被每一用户个性化和设置,因为所有的声音功能可能被进一步逐条列记并且设置为在移动电话系统结构中的打开/关闭。
上述电话具有ASR功能和TTS功能并且使用多模式接口。通过使用触觉、听觉和视觉接口,用户可以操作移动电话并方便和高效地访问信息。ASR允许声控电话的多数操作。另外TTS允许合成语音以提供几乎任意涉及电话操作的信息给用户。此外,仅仅使用一个按键来选择ASR功能的特定的或限制的选择允许更容易和更精确地使用ASR。
这个多模式方案可以被无缝地集成到现有的移动电话设计和方法中。现有的移动电话功能结构和大多数操作逻辑可能保持不变并且保持于现有类型一致。因此,键区通常包括声音功能选择装置,用户可操作地选择第一语音识别模式和第二、不同的语音识别模式,语音识别模式基于一系列键区的操作。而且,如所述的,还可操作处理器4来根据由声音键区选择的模式在接收的语音信号上执行语音识别,并且基于识别的接收语音执行进一步的功能。新的语音功能可被容易地插入和实现。这甚至可能通过新的或添加的软件(也就是说,指示处理器在引入的输入和信号上执行特定功能,并且在特定存储器记录特定数据的计算机代码工具)实现,不论是进入新的或现有的电话或其他装置。
上面的详细说明只是为了提供优选的示范实施例,而并不想限制本发明的范围、适用性或结构。对优选示范实施例的详细说明是为了向本领域技术人员提供一个使其能够实现本发明的优选实施例的说明。应该可以理解,在不背离所附权利要求中所阐述的本发明的精神和范围的前提下,可以对组件及步骤的功能和结构做出多种不同的改变。