CN103428363A - 提供改进的语音激活功能的方法和装置 - Google Patents
提供改进的语音激活功能的方法和装置 Download PDFInfo
- Publication number
- CN103428363A CN103428363A CN2013103435903A CN201310343590A CN103428363A CN 103428363 A CN103428363 A CN 103428363A CN 2013103435903 A CN2013103435903 A CN 2013103435903A CN 201310343590 A CN201310343590 A CN 201310343590A CN 103428363 A CN103428363 A CN 103428363A
- Authority
- CN
- China
- Prior art keywords
- name
- distortion
- grammer
- terminal use
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000006870 function Effects 0.000 title abstract description 22
- 230000004913 activation Effects 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 11
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000004590 computer program Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- AAOVKJBEBIDNHE-UHFFFAOYSA-N diazepam Chemical compound N=1CC(=O)N(C)C2=CC=C(Cl)C=C2C=1C1=CC=CC=C1 AAOVKJBEBIDNHE-UHFFFAOYSA-N 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000013016 learning Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009183 running Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及提供改进的语音激活功能的方法和装置。具体公开了—种提供改进激活功能的方法、装置和计算机程序产品。从用于语音激活操作的姓名的集合提供语法,所述语法包括所述姓名和所述姓名的变形。在所述语法中将所述姓名和所述姓名的优选变形相关联。接收所述姓名的优选变形并将其用于执行任务。
Description
技术领域
本公开涉及提供改进的语音激活功能的方法和装置
背景技术
蜂窝电话已经变得无处不在。蜂窝电话(也称为移动电话、便携电话和手机)是—种在广阔地理区域周围移动时能够通过无线链路拨打和接听电话的设备。蜂窝电话通过连接到移动电话运营商提供的蜂窝网络、允许接入到公共电话网络来实现上述功能。除了电话,现代移动电话还支持各种其他业务,例如文本消息、多媒体消息服务(MMS)、电子邮件、因特网接入、短距离无线通信(红外、蓝牙)、商业应用、游戏和拍照。提供这些和更通用的计算能力的移动电话通常称为智能手机。
蜂窝电话的—种典型用途是在配备有自动语音识别(ASR)的电话上拨打电话。该特征有时称为语音激活名字拨号(VAND)。任何说出一个或多个词都可以成为语音标签,并可用于拨叫联系人、发送文本消息或者打开应用。此外,越来越多的车辆配备有免持语音标签自动操作,例如使用全球定位系统(GPS)获得路径(direction)、拨打集成的移动电话或者选择播放的歌曲或者音乐家。
如上阐述的传统的机制具有各种缺陷。对于使用语音拨号特征的—般移动电话用户,用户以系统无法识别的正常的口头方式说出一个人的姓名是普遍的。例如,一个人在地址簿或者联系人列表中记为William Smith,而更通常地称他为Bill Smith或者Billy Smith。当联系人列表项以将电子邮件的发送者列为William Smith的电子邮件的方式查找时也会出现这种情况。用户可能说“拨叫Billy Smith”而该项不是已知的。相应地,用户可感觉语音拨号没有正常工作并停止使用语音拨号。一些用户可能从这些经验中学习并正确地说出输入到联系人列表中的姓名,但这不能避免用户下次以正常方式使用他人的姓名并使得系统再次不能识别该姓名的情况出现,这对于用户是不方便的。相同的概念也适用于其它语音激活功能。用户可能从GPS设备请求“到Fenway的路径”并被提供了两种选择,例如,Fenway公园,Boston,Ma或者Fenway花园,Boston MA。
当前描述的用于改进语音激活功能的方法和装置包括特定用户界面(UI)设计,其目标为个人姓名或者功能的文本形式与其口头表述之间的区别。考虑到ASR语法中所有这类口头表述为语音激活功能的用户带来更用户友好的体验。对于特定方言(例如,中国话),由于语法输入和用户口头表达的不一致性,用户使用语音激活功能时可能具有较差的体验。例如,对于具有三个字符(或者三个音节)的姓名,人们倾向于在设备的地址薄中输入全名,而通常仅叫后两个字(或两个音节)的名。因此,条目王大文(WangDaWen)简单地说成大文(Da Wen)。然而,如果姓名具有两个字符,人们倾向于叫全名。条目李伟(LiWei)说成LiWei。人们在叫他们的同事、同学和朋友的姓名时在姓前带上前缀“老”或者“小”,这是非常普遍的。条目张亚新(Zhang Yaxin)叫为老张(Lao Zhang),或者条目包清风(Bao Qingfeng)叫为小包(Xiao Bao)。
在提供改进的语音激活功能的方法的特定实施例中,该方法包括从姓名的集合提供语法,所述语法包括姓名和姓名的变形。变形可以包括原姓名的缩减版本,还包括带有特定前缀的姓名缩减版本。优选的姓名变形与所述语法中的姓名相关联。所述方法还包括接收优选的姓名变形并使用与该变形关联的姓名执行任务。
其他实施例包括其上具有提供改进语音激活功能的计算机可读代码的计算机可读介质。计算机可读介质包括用于从姓名的集合提供语法的指令,所述语法包括姓名和姓名的变形。变形可以包括原姓名的缩减版本,还包括带有特定前缀的姓名缩减版本。优选的姓名变形在语法中与姓名关联。所述方法还包括接收优选的姓名变形并使用与该变形相关联的姓名执行任务。
其他实施例包括被配置为处理如本发明实施例在此公开的全部方法操作的计算机化的设备。在这些实施例中,计算机化的设备(例如,蜂窝电话)在连接以下部件的互联机构中包括存储系统、处理器和通信接口。存储系统编码有提供如此处所述的改进语音激活功能的处理,当在处理器上执行该处理时(例如当运行时),该处理在蜂窝电话中如此处所述地操作以执行如此处作为本发明实施例阐述的所有方法实施例和操作。因此,执行或者被编程以执行这里描述的过程的任何计算机化的设备都是本发明的实施例。
这里公开的本发明实施例的其他布置包括执行方法实施例和上述概括并在下文详细公开的操作的软件程序。更具体地,计算机程序产品是其上编码有当在计算机化的设备中执行时提供这里描述的改进语音激活功能的关联操作的计算机程序逻辑的计算机可读介质的实施例。当运行在至少一个具有计算系统的处理器上时,计算机程序逻辑使得处理器执行这里本发明实施例指示的操作(例如方法)。发明的这种布置通常作为软件、代码和/或置于或者编码在计算机可读介质上的其他数据结构提供,计算机可读介质诸如是光学介质(例如CD-ROM)、软盘或者硬盘,或者其它介质,例如一个或多个ROM或者RAM中的固件或微代码,或者PROM芯片或者专用集成电路(ASIC)或者一个或多个模块中的可下载软件图像,共享库等。软件或者固件或者其他这类配置可以安装到计算机化的设备中以使得计算机化的设备中的一个或多个处理器执行这里作为发明实施例阐述的技术。在计算机化的设备的集合中操作的软件过程,例如在一组数据通信设备或者其他实体中,也能够提供发明的系统。发明的系统能够在若干数据通信设备的许多软件过程之间分布,或者所有过程在小范围的专用电脑上运行,或者仅在一个电脑上运行。
应当理解的是,发明的实施例可也严格地作为软件程序、软件和硬件实现,或者单独作为硬件和/或电路实现,例如在数据通信设备中。发明的特征,如这里所述,可以在数据通信设备和/或用于这种设备的软件系统中利用,所述数据通信设备是例如Nuance Communications Inc.制造的数据通信设备。
本公开中讨论的每个不同的特征、技术、配置等能够独立运行或者组合运行。相应地,本发明可以以许多不同方式实现和观察。并且,这里的发明内容部分不会详细说明本公开或者请求保护的发明的每个实施例和/或越来越新颖的方面。替代地,发明内容部分仅给出不同实施例的初步描述以及相对于传统技术的新颖点。对于发明的额外的细节、元素、和/或可能的观点(变换),读者应当关注下面进一步讨论的本公开的具体实施例部分和相应附图。
附图说明
如附图所示,从下面发明的优选实施例的更特别描述中前述内容是显而易见的,在附图中,不同的图中类似的附图标记指示相同的部分。附图不一定需要缩放,但重点在于示出发明的原理。
图1描述了根据本发明实施例的智能姓名拨号系统的框图;
图2A是示出了来自初始用户模型的语法的示例的表;
图2B是示出了来自根据本发明处理的初始用户模型的语法的表;
图3描述了用于根据本发明实施例提供智能姓名拨号的方法的特定实施例的流程图。
具体实施方式
下面给出的实施例给出了使得本领域技术人员能够实现发明的必要信息并且示出实施发明实施例的最佳模式。一旦阅读下面的描述以及附图,本领域技术人员将理解发明的思想并识别出那些这里没有特别陈述的这些思想的应用。应当理解的是,这些思想和应用都落入本公开和附图的范畴。
尽管关于蜂窝电话上的姓名拨号描述用于提供改进语音激活功能的系统,描述的思想也适用于其他用途。其他用途包括但不限于:发送文本消息、请求GPS路径等。现在参考图1,示出提供改进语音激活功能的系统10的特定实施例。系统10包括与智能姓名拨号管理器16通信的语音识别元件14。智能姓名拨号管理器与用户模型18和用户动作预测元件20通信。用户动作预测元件20向通过向语音识别元件14提供输入来启动处理的用户12提供输出。
语音识别元件14接收口语命令作为输入并且将口语命令转换为文本串。该文本串接着被转发到智能姓名拨号管理器16,在智能姓名拨号管理器16中对命令进行进一步处理。
智能姓名拨号管理器模块16负责根据用户输入来更新用户模型18。智能姓名拨号管理器模块16还更新用于语音识别的语法并将用户模型和用户输入发送到用户动作预测模决20。
用户模型18用于顾客习惯和其他信息,包括用户何时拨叫该姓名,用户几次拨叫该姓名,以及使用何种口头表述来拨叫该姓名。最初,用户模型将覆盖所有可能的口头表述,之后,用户模型将根据用户输入持续更新。
用户动作预测模块20用于根据输入作出正确决定。用户动作预测模决20将使用用户输入的统计信息并获得响应用户输入的最佳动作。一系列示例规则将用于作出决定。
响应生成模块22将根据该动作生成对话框或者其他UI界面。对话框包括选择对话框、拨号对话框和确认对话框中的一个或多个。选择对话框将示出匹配请求联系人的联系人列表并将其呈现给用户(或者以可视形式,或者以音频形式),使得用户从呈现的联系人列表中选择期望的联系人。拨号对话框将示出正在被呼叫的哪个人。确认对话框示出呼叫过谁。
这里描述一个示例,其中智能电话的地址薄仅包含三个条目。应当理解,这仅是用于阐述目的,并不意味着任何方式的限制。智能手机上的典型地址薄或者联系人列表可包含数百个或者更多的姓名。
在本示例中,智能手机的地址薄包括以下三个条目:
WangDaWen王大文
WangLiTao王力涛
WangPei王佩
初始用户模型将生成包含这些姓名的变形的语法。在某些方言(例如中国话)中,具有三个或更多个元素的姓名(例如,王大文)被简单叫为两个元素(例如,大文)是普遍的。对于具有两个元素的姓名(例如,李伟)通常叫为全名(例如,李伟)。人们还可称呼某人为“老”或者“小”并将其加到姓之前。不称呼某人的全名(例如,张亚欣),而是可将其简单称为Lao Zhang(老张)或者包清风可以称为Xiao Bao(小包)。在某人姓名的文本形式和称呼同一人(或位置)的用户使用的口头表述之间存在不同之处。这一部分是由于条目获取自可使用人们的正式姓名而不是更为通用的正式姓名的变形的电子邮件的联系人列表。
现在参考图2A,给出三个姓名王大文、王力涛和王佩,通过包含下述元素的初始用户模型生成语法:
王大文,老王,小王,大文
王力涛,老王,小王,力涛;
王佩,老王,小王
王大文也称为老王(老),小王(小)以及大文(三元素姓名的两元素变形)。类似地,王力涛也称为老王(老),小王(小)以及力涛(三元素姓名的两元素变形)。王佩也称为老王(老),小王(小)和王佩(两元素全名)。由此,初始语法包括总共12个项。
在使用时,用户12可能会说“拨叫老王”。这被语音识别元件14接收并转换成文本。将该文本提供给智能姓名发号管理器16。智能姓名拨号管理器16将姓名“老王”转发到用户模型18中的语法。用户模型18返回三个可能拨叫的姓名(王大文,王力涛,王佩)。将这三个可能的姓名匹配提供给用户拨叫预测元件20,该用户拨叫预测元件确定用户必须选择三种可能之一。将该信息转发到响应生成元件22,该响应生成元件22将向用户12提供选择三种可能之—进行拨叫的通信。对于智能手机用户,当用户说出命令“拨叫老王”时,智能手机将返回示出三个可能的老王选项的屏幕。用户可以接着说出期望的姓名(王大文)。
用户12将选择三种可能之一(例如,王大文)并接入呼叫。该用户选择进一步用于更新用户模型18,即,当用户提到老王时,用户想要的是王大文。用户模型18中的语法被更新以使得王大文也被称为老王,而王大文的其他变形条目(小王条目和大文条目)则从语法中移除。
当用户12可能说出“拨叫力涛”时进行类似的过程。“拨叫力涛”被语音识别元件14接收并转换成文本。将该文本提供给智能姓名拨号管理器16。智能姓名拨号管理器16将姓名“力涛”转发用户模型18中的语法。用户模型18返回要拨叫的姓名(王力涛)。该姓名被提供给用户拨叫预测元件20,该用户拨叫预测元件确定用户想要拨叫王力涛。将该信息转发到响应生成元件22,该响应生成元件22将向用户12提供拨叫王力涛的通信。
该用户选择进一步用于更新用户模型18,即,当用户提到力涛时,用户想要的是王力涛。用模型18中的语法被更新,以使得王力涛也被称为力涛,而王力涛的其他变形条目(小王条目和老王条目)则从语法中移除。
对于第三个联系人,用户12可说出“拨叫小王”。“拨叫小王”被语音识别元件14接收并转换成文本。该文本被提供给智能姓名拨号管理器16。智能姓名拨号管理器16将姓名“小王”转发到用户模型18中的语法。用户模型18返回拨叫的姓名(王佩)。该姓名被提供给用户拨叫预测元件20,该用户拨叫预测元件确定用户想要拔叫王佩。该信息被转发到响应生成元件22,该响应生成元件22将向用户12提供拨叫王佩的通信。
该用户选择进一步用于更新用户模型18,即,当用户提到小王时,用户想要的是王佩。用于更新用户模型的规则考虑了多个因素,包括用户何时拨叫姓名,用户多少次拨叫该姓名,以及使用哪个口头表述拨叫姓名。最初,用户模型将覆盖所有可能的口头表述,之后,用户模型将根据用户输入持续更新。
如图2B所示,用户模型18中的语法被更新以使得王佩也称为小王,而王佩的其他变形条目(小王条目和王佩条目)则从语法中移除。地址薄中的语法项变为:
王大文,老王
王力涛,力涛
王佩,小王
通过自动移除冗余的初始语法项,全部的语法项从11项变为6项。如果地址薄或联系人列表具有特定大小限制,那么这种方式可能具有其它的优点。下次,如果用户说“拨叫老王”,系统将直接去拨叫王大文。
上面描述的例子也适用于其他语音激活功能,例如从GPS设备请求路径,从音乐播放器请求特定音乐家的音乐,或者请求特定流派的音乐。
图3中描述了当前公开的方法100的特定实施例的流程图。矩形元件这里表示“过程框”并表示计算机软件指令或者指令组。可选地,过程框表示由诸如数字信号处理电路或者专用集成电路(ASIC)的功能等效电路执行的步骤。流程图并没有描述任何特定编程语言的句型。而是,流程图示出了本领域技术人员需要制造电路或者生成执行根据本发明需要的处理的计算机软件的功能信息。应当注意,未示出许多例行程序元素,例如初始化循环和变量以及使用临时变量。对于本领域技术人员来说,除非这里指出,所描述的步骤的特定顺序仅是示例性的,并且可以在不脱离本发明精神的条件下进行变化。因此,除非另有说明,下面描述的步骤是无序的,也就是说,如果可能,这些步骤可以按任何方便或期望的顺序执行。
现在参考图3,示出提供语音激活姓名拨号服务的方法的特定实施例。方法100开始于过程框102,其公开了从语音激活操作中使用的姓名的集合提供语法,语法包括姓名和姓名的变形。如过程框104中所示,名字的变形包括由两元素姓名和三元素姓名构成的组中之一的变形。如过程框106中所示,在特定实施例中,姓名是中国方言。
例如,智能手机的地址薄中包含下述三个条目:
WangDaWen王大文
WangLiTao王力涛
WangPei王佩
给定三个姓名王大文、王力涛和王佩,通过包含下述元素的初始用户模型生成语法:
王大文,老王,小王,大文
王力涛,老王,小王,力涛
王佩,老王,小王
过程框108记载了在语法中将姓名的一个优选变形与该姓名相关联。如过程框110所示,在语法中使姓名的一个优选变形与该姓名相关联是基于用户输入和用户历史。用户12可以说出“拨叫老王”,并且三种可能拨叫的姓名(王大文、王力涛和王佩)被呈现给用户。基于用户历史和反馈,将姓名的一个优选变形关联到姓名。
过程框112记载了接收姓名的优选变形,并使用与变形相关联的姓名来执行任务。过程框114示出,其中的任务包括与另一个人或者应用通信。如过程框116中所示,使用与变形相关联的姓名来执行任务包括:向用户提供对话框。如过程框118中进一步示出的,对话框选自由选择对话框、拨叫对话框和确认对话框构成的组。选择对话框将示出与请求的联系人相匹配的联系人列表,并将其呈现给用户(或者以可视形式,或者以音频形式),使得用户从呈现的联系人列表中选择期望的联系人。拨号对话框将示出正在呼叫的那个人。确认对话框将示出呼叫过谁。参考前述示例,用户将从三种可能中选择—种(例如,王大文)并接入呼叫。
处理继续进行到过程框126,其公开了修改语法以使得该姓名仅有一个姓名变形。该用户选择进一步用于更新用户模型,在用户提到小王时,用户想要呼叫的是王佩。用户模型18中的语法被更新以使得王佩也称为小王,而王佩的其他变形条目(小王条目和王佩条目)从语法中移除。这导致节省语法和联系人列表使用的存储空间,以使得额外的联系人能够被力入到现有联系人列表。
VAND是蜂窝电话上使用的最普通的特征之一。上述提供改进语音激活功能的方面和装置增强了系统性能和用户体验,使得设备使用起来更简单和高效。虽然关于蜂窝电话对其进行描述,应认识到其他用途(车载电话呼叫,或者使用全球定位(GPS)系统,或者根据特定音乐家从音乐播放器中请求音乐,或者从音乐播放器中请求特定类型的音乐)也能包含在本发明中。
对“一个微处理器”和“一个处理器”,或者“所述微处理器”和“所述处理器”的引用,可理解为包括一个或多个可独立通信和/或在分布式环境中可通信的微处理器,并且可被配置为通过有线或无线方式与其他处理器通信,其中,这种一个或多个处理器可被配置为在一个或多个处理器控制的设备上操作,处理器控制的设备是类似或者不同的设备。这种“微处理器”或者“处理器”的术语的使用也因此被理解为包括中央处理单元、算术逻辑单元、专用集成电路(ASIC)和/或任务引擎,这些例子被提供用于示例而非限制。
进一步地,对于存储器的提及,除非另有说明,可包括一个或多个处理器可读和可接入存储元件和/或组件,其可以在处理器控制设备内部,处理器控制设备外部,和/或可使用各种通信协议通过有线或无线网络接入,并且除非另有说明,可被布置为包含外部和内部存储设备的组合,其中,这些存储没备可以基于应用连续和/或分割。相应地,对于数据库的提及可理解为包括一个或多个存储关联,其中这种提及可包括商业上可用的数据库产品(例如,SQL、Informix、Oracle)以及专有数据库,并且还可以包括用于关联存储器(例如链接、队列、图形、树)的其他结构,并且这些结构用于示例而非限制。
对于网络的引用,除非另有说明,可包括一个或多个内部网和/或因特网,以及虚拟网络。根据以上内容,这里对微处理器指令或微处理器可执行指令的引用可理解为包括可编程硬件。
除非另有说明,术语“基本上”的使用可理解为包含准确的关系、条件、布置、朝向、和/或其他特性,并且其偏差,如本领域技术人员理解的,为这种偏差不实质上影响公开的方法和系统的程度。
遍及本公开全文,使用冠词“a”或者“an”来修饰名词可理解为仅为了方便,并且包括一个或多于一个修饰的名词,除非另有说明。
被描述和/或在附图另外示出的元件、组件、模块和/或部分关联、基于其他物品和/或与其通信,可理解为以直接和/或间接方式关联、基于和/或与其通信,除非另有描述。
虽然关于其特定实施例描述了方法和系统,但这不是限制性的。显然许多变形和修改根据上述教导是显而易见的。本领域技术人员可做出细节、材料和这里描述和示出的组件布置中的许多另外的变化。
已经描述了本发明的优选实施例,然而对于本领域技术人员来说显而易见的是可以使用其他包含这些思想的实施例。此外,作为发明—部分的软件可以包含在计算机程序产品中,所述计算机程序产品包括计算机可用介质。例如,这类计算机可用介质可包括可读存储没备、例如硬盘驱动设备、CD-ROM、DVD-ROM,或者其上存储有计算机可读程序代码段的计算机磁盘。计算机可用介质也可以包括通信链路,光学、有线或者无线的,其上承载有程序代码段作为数字或者模拟信号。相应地,认为本发明不应限于描述的实施例,而是应当仅限于所附权利要求的精神和范畴。
Claims (20)
1.—种计算机实现方法,包括:
根据计算机化的用户模型,从语音激活操作中使用的姓名的集合提供语法,所述语法包括所述姓名和所述姓名的变形;
通过计算机化的姓名管理器,基于至少一个终端用户输入在所述语法中将姓名的优选的变形与所述姓名相关联;
通过所述计算机化的姓名管理器,基于所述至少一个终端用户输入更新所述计算机化的用户模型;
在计算机化的用户动作预测器处接收所述姓名的所述优选的变形,并且通过所述计算机化的用户动作预测器至少基于所述姓名的所述优选的变形确定要执行的任务;以及
通过计算机化的响应生成器,使用与所述变形相关联的所述姓名来执行所述任务。
2.如权利要求1所述的方法,进一步包括:通过所述计算机化的姓名管理器修改所述语法,以使得对于所述姓名存在姓名的一个变形。
3.如权利要求1所述的方法,其中所述任务包括与另一个人或应用通信。
4.如权利要求1所述的方法,其中所述姓名的变形包括由两元素姓名和三元素姓名构成的组中的一个的变形。
5.如权利要求1所述的方法,其中通过所述计算机化的姓名管理器在语法中将姓名的优选的变形与所述姓名相关联是基于所述至少一个终端用户输入和终端用户历史进行的。
6.如权利要求1所述的方法,其中所述姓名是中国方言的姓名。
7.如权利要求1所述的方法,其中通过所述计算机化的响应生成器使用与所述变形相关联的所述姓名执行任务包括:向所述终端用户提供对话框。
8.如权利要求7所述的方法,其中所述对话框选自由拨叫对话框、选择对话框和确认对话框构成的组。
9.—种非暂时性计算机可读存储介质,其上具有提供语音激活操作的计算机可读代码,所述介质包括其中计算机系统执行以下操作的指令:
根据用户模型,从语音激活操作中使用的姓名的集合提供语法,所述语法包括所述姓名和所述姓名的变形;
基于至少一个终端用户输入在所述语法中将姓名的优选的变形与所述姓名相关联;
基于所述至少一个终端用户输入来更新所述用户模型;
接收所述姓名的优选的变形;
至少基于所述姓名的优选的变形来确定要执行的任务;以及
使用与所述变形关联的所述姓名来执行所述任务。
10.如权利要求9所述的计算机可读存储介质,进一步包括:用于修改所述语法以使得对于所述姓名存在姓名的一个变形的指令。
11.如权利要求9所述的计算机可读存储介质,进一步包括:其中所述任务包括与另一个人或应用通信的指令。
12.如权利要求9所述的计算机可读存储介质,进一步包括:其中所述姓名的变形包括由两元素姓名和三元素姓名构成的组中的一个的变形的指令。
13.如权利要求9所述的计算机可读存储介质,进一步包括:其中在所述语法中将姓名的优选的变形与所述姓名相关联是基于所述至少一个终端用户输入和终端用户历史进行的指令。
14.如权利要求9所述的计算机可读存储介质,进一步包括:其中所述姓名是中国方言的姓名的指令。
15.如权利要求9所述的计算机可读存储介质,进一步包括:其中使用与所述变形相关联的所述姓名执行任务包括向所述终端用户提供对话框的指令。
16.如权利要求15所述的计算机可读存储介质,进一步包括:其中所述对话框选自由拨叫对话框、选择对话框和确认对话框构成的组的指令。
17.—种计算机系统,包括:
存储器;
处理器:
通信接口:以及
耦合所述存储器、所述处理器和所述通信接口的互联机构,
其中所述存储器被编码有提供语音激活操作的应用,当在所述处理器上执行时,所述应用提供用于处理信息的过程,所述过程使得计算机系统执行以下操作:
根据用户模型,从语音激活操作中使用的姓名的集合提供语法,所述语法包括所述姓名和所述姓名的变形;
基于至少一个终端用户输入在所述语法中将姓名的优选的变形与所述姓名相关联;
基于所述至少一个终端用户输入来更新所述用户模型;
接收所述姓名的优选的变形;
至少基于所述姓名的优选的变形确定要执行的任务;以及
使用与所述变形相关联的所述姓名来执行所述任务。
18.如权利要求17所述的计算机系统,其中所述处理器包括:用于接收来自所述终端用户的输入的话音识别元件、与所述话音识别元件通信的智能姓名拨号管理器、与所述智能姓名拨号管理器通信的所述用户模型、与所述智能姓名拨号管理器通信的用户动作预测模块、以及与所述用户动作预测模块通信并向所述终端用户提供输出的响应生成模块。
19.如权利要求17所述的计算机系统,其中修改所述语法以使得对于所述姓名存在姓名的一个变形。
20.如权利要求17所述的计算机系统,其中在所述语法中将姓名的优选的变形与所述姓名相关联是基于所述至少一个终端用户输入和终端用户历史进行的。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/466,402 US8560310B1 (en) | 2012-05-08 | 2012-05-08 | Method and apparatus providing improved voice activated functions |
US13/466,402 | 2012-05-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103428363A true CN103428363A (zh) | 2013-12-04 |
CN103428363B CN103428363B (zh) | 2017-09-15 |
Family
ID=49321565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310343590.3A Active CN103428363B (zh) | 2012-05-08 | 2013-05-08 | 提供改进的语音激活功能的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8560310B1 (zh) |
CN (1) | CN103428363B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111357048A (zh) * | 2017-12-31 | 2020-06-30 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US11128753B2 (en) | 2019-07-30 | 2021-09-21 | At&T Intellectual Property I, L.P. | Intercepting and challenging unwanted phone calls |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070143100A1 (en) * | 2005-12-15 | 2007-06-21 | International Business Machines Corporation | Method & system for creation of a disambiguation system |
CN101194305A (zh) * | 2005-08-19 | 2008-06-04 | 思科技术公司 | 用于分发语音识别语法的系统和方法 |
CN101287203A (zh) * | 2008-05-28 | 2008-10-15 | 宁波高新区同瞻科技有限公司 | 手机内置名片簿快速查找方法 |
CN101568193A (zh) * | 2009-05-21 | 2009-10-28 | 腾讯科技(深圳)有限公司 | 一种即时通信终端主叫信息的显示方法及系统 |
CN102270048A (zh) * | 2010-06-03 | 2011-12-07 | 北京搜狗科技发展有限公司 | 一种名词输入的方法及系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5752230A (en) * | 1996-08-20 | 1998-05-12 | Ncr Corporation | Method and apparatus for identifying names with a speech recognition program |
CN1120436C (zh) * | 1997-09-19 | 2003-09-03 | 国际商业机器公司 | 用于识别孤立、非相关汉字的语音识别方法和系统 |
CA2303312A1 (en) * | 1997-09-24 | 1999-04-01 | Guido Gallopyn | Apparatus and method for distinguishing similar-sounding utterances in speech recognition |
US6269335B1 (en) * | 1998-08-14 | 2001-07-31 | International Business Machines Corporation | Apparatus and methods for identifying homophones among words in a speech recognition system |
KR100310339B1 (ko) * | 1998-12-30 | 2002-01-17 | 윤종용 | 이동전화 단말기의 음성인식 다이얼링 방법 |
US6925154B2 (en) * | 2001-05-04 | 2005-08-02 | International Business Machines Corproation | Methods and apparatus for conversational name dialing systems |
US7769592B2 (en) * | 2002-02-22 | 2010-08-03 | Nuance Communications, Inc. | Automatic selection of a disambiguation data field for a speech interface |
GB0327416D0 (en) * | 2003-11-26 | 2003-12-31 | Ibm | Directory dialler name recognition |
US7299181B2 (en) * | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
US20070047726A1 (en) * | 2005-08-25 | 2007-03-01 | Cisco Technology, Inc. | System and method for providing contextual information to a called party |
US20070124147A1 (en) * | 2005-11-30 | 2007-05-31 | International Business Machines Corporation | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems |
US8374862B2 (en) * | 2006-08-30 | 2013-02-12 | Research In Motion Limited | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance |
US20090187399A1 (en) * | 2008-01-22 | 2009-07-23 | O'dell Robert B | Using Homophones and Near-Homophones to Improve Methods of Computer Text Entry for Chinese Characters |
US9183834B2 (en) * | 2009-07-22 | 2015-11-10 | Cisco Technology, Inc. | Speech recognition tuning tool |
-
2012
- 2012-05-08 US US13/466,402 patent/US8560310B1/en active Active
-
2013
- 2013-05-08 CN CN201310343590.3A patent/CN103428363B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101194305A (zh) * | 2005-08-19 | 2008-06-04 | 思科技术公司 | 用于分发语音识别语法的系统和方法 |
US20070143100A1 (en) * | 2005-12-15 | 2007-06-21 | International Business Machines Corporation | Method & system for creation of a disambiguation system |
CN101287203A (zh) * | 2008-05-28 | 2008-10-15 | 宁波高新区同瞻科技有限公司 | 手机内置名片簿快速查找方法 |
CN101568193A (zh) * | 2009-05-21 | 2009-10-28 | 腾讯科技(深圳)有限公司 | 一种即时通信终端主叫信息的显示方法及系统 |
CN102270048A (zh) * | 2010-06-03 | 2011-12-07 | 北京搜狗科技发展有限公司 | 一种名词输入的方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111357048A (zh) * | 2017-12-31 | 2020-06-30 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US8560310B1 (en) | 2013-10-15 |
CN103428363B (zh) | 2017-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100403828C (zh) | 一种便携式数字移动通讯设备及其语音控制方法和系统 | |
CN101971250B (zh) | 具有活动语音识别的移动电子设备 | |
CN101164102B (zh) | 自动扩展移动通信设备的话音词汇的方法和装置 | |
US9516155B2 (en) | Multi-modal messaging | |
CN101145341B (zh) | 改善语音辨识的方法与装置以及语音辨识系统 | |
EP2135153B1 (en) | Method, apparatus, server, system and computer program product for use with predictive text input | |
US9111538B2 (en) | Genius button secondary commands | |
US7003457B2 (en) | Method and system for text editing in hand-held electronic device | |
CN101454775A (zh) | 通过基于协同客户端和服务器的语言识别的语法调整 | |
KR102220945B1 (ko) | 휴대 기기에서 연관 정보 표시 방법 및 장치 | |
KR20170070094A (ko) | 음성 및 연결 플랫폼 | |
CN101682667B (zh) | 用于搜索不同类型项目的方法和便携式设备 | |
CN102750271A (zh) | 谈话式对话学习和纠正 | |
AU2015210460A1 (en) | Speech recognition repair using contextual information | |
CN106847278A (zh) | 基于语音识别的选择方法及其移动终端装置及信息系统 | |
CA2785081A1 (en) | Method and system for processing multiple speech recognition results from a single utterance | |
CN104050966A (zh) | 终端设备的语音交互方法和使用该方法的终端设备 | |
US20140278427A1 (en) | Dynamic dialog system agent integration | |
CN104134442A (zh) | 一种启动语音服务的方法及装置 | |
KR20190066401A (ko) | 외부 장치의 네트워크 셋업을 위한 전자 장치 및 그의 동작 방법 | |
CN103428363A (zh) | 提供改进的语音激活功能的方法和装置 | |
KR20150090357A (ko) | 실시간 다국어 번역 서비스 시스템 | |
CN110362376A (zh) | 一种设置电子设备系统主题风格的方法、装置及存储介质 | |
WO2005091274A1 (ja) | 音声処理方法と通信システム並びに通信端末およびサーバとプログラム | |
JP4978982B2 (ja) | 携帯情報端末、文字入力支援プログラム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231030 Address after: Washington State Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC Address before: Massachusetts Patentee before: Nuance Communications, Inc. |
|
TR01 | Transfer of patent right |