CN101312040B

CN101312040B - 声音命令处理装置与方法

Info

Publication number: CN101312040B
Application number: CN2007101061445A
Authority: CN
Inventors: 胡志麟
Original assignee: Qisda Corp
Current assignee: Qisda Corp
Priority date: 2007-05-24
Filing date: 2007-05-24
Publication date: 2011-08-17
Anticipated expiration: 2027-05-24
Also published as: CN101312040A

Abstract

本发明实施例披露了一种声音命令处理装置，其中包括行动代理器执行平台。行动代理器执行平台包括内部平台、至少一个代理器、行动代理器执行情境与行动代理器管理单元。行动代理器执行情境提供应用程序介面，使得代理器通过应用程序介面使用内部平台的资源。行动代理器管理单元掌理代理器的初始化、执行、暂时中止、重新开始与分派。代理器用以执行有关声音命令处理的功能。

Description

声音命令处理装置与方法

技术领域

本发明涉及一种语音辨识技术，特别是一种声音命令处理装置及方法。

背景技术

语音辨识技术(speech/voice recognition)被认为是一种具使用者亲和力的人机介面(user-friendly man-machine-interface，MMI)，语音辨识技术现已发展来分辨人类说话的自然语言的意义。

发明内容

本发明实施例披露了一种声音命令处理方法，包括以下步骤。接收由目标装置所复制的语音辨识代理器，此语音辨识代理器包含执行语音辨识的电脑程序、声学模型、词汇及语言模型。使用语音辨识代理器根据声学模型处理原始声音资料，并且产生相应于词汇与语言模型的至少一个声音字组。

本发明提供了一种声音命令处理装置，包括：行动代理器执行平台，包括：内部平台；至少一代理器；行动代理器执行情境，用以提供应用程序介面，使得所述代理器通过所述应用程序介面使用所述内部平台的资源；以及行动代理器管理单元，用以掌理所述代理器的初始化、执行、暂时中止、重新开始与分派。其中，所述代理器用以执行有关声音命令处理的功能。

其中所述行动代理器管理单元负责与所述代理器间进行通讯，并且进行有关声音命令处理的控制。

其中所述代理器中包含委派任务，以及用以执行所述委派任为所需的逻辑。

其中所述代理器为语音辨识代理器，包含执行语音辨识的电脑程序、声学模型、词汇及语言模型，所述电脑程序用以根据所述声学模型处理原始声音资料，并且产生相应于所述词汇与所述语言模型的至少一声音字组。

其中所述语音辨识代理器为目标装置中的语音辨识代理器的复制品。

其中所述行动代理器管理单元复制所述语音辨识代理器，并且传送所述复制的语音辨识代理器至远端装置的行动代理器执行平台中，用以通过所述远程装置执行语音辨识。

其中所述代理器为语言理解代理器，包含执行语言理解的电脑程序、句法模型及语意模型，所述电脑程序用以根据所述句法模型来分析至少一声音字组的句法，并且依据所述语意模型来理解所述分析出的句法，用以产生陈述表达式。

其中所述语言理解代理器为目标装置中的语言理解代理器的复制品。

其中所述行动代理器管理单元复制所述语言理解代理器，并且传送所述复制的语言理解代理器至远端装置的行动代理器执行平台中，用以通过所述远端装置执行语言理解。

其中所述代理器为意义呈现代理器，包含执行意义呈现的电脑程序及多个声音命令，所述电脑程序用以取得相应于陈述表达式的所述声音命令中之一者。

其中所述意义呈现代理器为目标装置中的意义呈现代理器的复制品。

其中所述行动代理器管理单元复制所述意义呈现代理器，并且传送所述复制的意义呈现代理器至远端装置的行动代理器执行平台中，用以通过所述远端装置执行意义呈现。

其中所述行动代理器管理单元执行声音命令。

本发明还提供了一种声音命令处理方法，使用含有麦克风的电子装置执行，包括：接收由目标装置所复制的语音辨识代理器，所述语音辨识代理器包含执行语音辨识的电脑程序、声学模型、词汇及语言模型；以及从所述麦克风接收原始声音资料，使用所述语音辨识代理器根据所述声学模型处理所述原始声音资料，并且产生相应于所述词汇与所述语言模型的至少一声音字组。

其中所述电子装置包括：行动代理器执行平台，包括：内部平台；行动代理器执行情境，用以提供应用程序介面，使得所述语音辨识代理器通过所述应用程序介面使用所述内部平台的资源；以及行动代理器管理单元，用以掌理所述语音辨识代理器的初始化、执行、暂时中止、重新开始与分派。

所述的声音命令处理方法还包括：接收由目标装置所复制的语言理解代理器，所述语言理解代理器包含执行语言理解的电脑程序、句法模型及语意模型；以及使用所述语言理解代理器根据所述句法模型来分析所述声音字组的句法，与依据所述语意模型来理解所述分析出的句法，用以产生陈述表达式。

所述的声音命令处理方法还包括：接收由目标装置所复制的意义呈现代理器，所述意义呈现代理器包含执行意义呈现的电脑程序及多个声音命令；以及使用所述意义呈现代理器取得相应于所述陈述表达式的所述声音命令中之一者。

所述的声音命令处理方法还包括传送所述取得的声音命令至所述目标装置。

本发明还提供了一种电子装置，所述电子装置包括：输入装置，用以输入原始声音资料；声音命令控制器，用以辨识所述原始声音资料，所述语音辨识代理器包含语音辨识代理器、语言理解代理器及意义呈现代理器；认证码；其中，当所述电子装置连接远端装置时，所述语音辨识代理器依据所述认证码选择性的更新所述语音辨识代理器、所述语言理解代理器及所述意义呈现代理器。

其中所述声音命令控制器是依序更新所述语音辨识代理器、所述语言理解代理器及所述意义呈现代理器。

附图说明

图1表示依据本发明实施例的声音命令处理系统的网络架构示意图；

图2表示依据本发明实施例的移动电话装置的硬件架构图；

图3表示依据本发明实施例的个人电脑11的硬件架构图；

图4是依据本发明实施例的声音命令处理的五阶段示意图；

图5是依据本发明实施例的在语音辨识阶段、语言理解阶段与意义呈现阶段中所需的主要实体示意图；

图6为典型的声音命令处理方法的方法流程图；

图7是依据本发明实施例的行动代理器执行平台；

图8是依据本发明实施例的声音命令处理服务示意图；

图9A至9D是依据本发明实施例的代理器委任与分派示意图。

具体实施方式

图1是表示依据本发明实施例的声音命令处理系统的网络架构示意图。在优选的情况下，此网络架构包括个人电脑11与手机13。相较于个人电脑11，手机13可配备较简易的运算资源，例如，配备较慢的处理器、容量较少的主存储器与储存空间等。其中，个人电脑11与手机13间可以实体连线(wired-connection)、无线或混合实体连线与无线的方式彼此连接。而本领域技术人员都了解个人电脑11与手机13间的连结也许须通过多个中介节点，例如，无线接取点(access point)、基地台(base station)、集线器(hub)、桥接器(bridge)、路由器(router)或其它用以处理网络通讯的中介节点。个人电脑11可代表一个目标装置(target device)，而手机13可代表一个远端装置(remote device)。手机13中配备有一个麦克风，用以接收邻近的使用者的声音讯号。

图2是表示依据本发明实施例的移动电话装置的硬件架构图。移动电话装置13可包括数字讯号处理单元(Digital Signal Processor，DSP)21、模拟基带(Analog Baseband)22、射频单元(Radio Frequencysection，RF section)23、天线24、控制单元25、屏幕26、键盘(keypad)27、麦克风28与记忆装置29。除此之外，本领域技术人员也可将远端装置实施于配备有麦克风的其它手持式装置的样态(configuration)上，例如个人数字助理(digital personal assistant，PDA)、数字音乐播放器(MP3 player)、或其它可携式消费性电子产品等，或实施于配备有麦克风的各式各样的电脑系统样态上。控制单元25可为微处理单元(Micro Processing Unit；MPU)，用以从记忆装置29读取程序模组，并执行所读取的程序模组来完成声音命令处理方法。记忆装置29包含只读存储器(read only memory；ROM)、闪存(flash ROM)以及/或动态存取存储器(random access memory；RAM)，用以储存可供控制单元25执行的程序模组。麦克风25用以感测邻近的使用者的声音讯号，并传送至数字讯号处理单元21，用以将感测到的模拟讯号转换成数字讯号，以供后续的控制单元25处理。

图3表示依据本发明实施例的个人电脑11的硬件架构图。个人电脑11，包括处理单元31、存储器32、储存装置33、输出装置34、输入装置35、通讯装置36，并使用总线37将其连结在一起。本领域技术人员可将目标装置实施于各式各样的电脑系统样态(configuration)上，例如，多处理器系统、以微处理器为基础或可程序化的消费性电子产品(microprocessor-based or programmableconsumer electronics)、网络电脑、迷你电脑、大型主机、笔记型电脑以及类似的设备。存储器32包含只读存储器(read only memory；ROM)、闪存(flash memory)以及/或动态存取存储器(random accessmemory；RAM)，提供储存空间，用以储存可供处理单元31执行的程序模组、资料、档案以及纪录。一般而言，程序模组包含常序(routines)、程序(program)、对象(object)、元件(component)等，用以执行声音命令处理功能。本发明也可以实施于分散式运算环境，其运算工作被连结于通讯网络的远端处理设备所执行。在分散式环境中，声音命令处理的功能执行，也许由本地以及多部远端电脑系统共同完成。储存装置33包含硬盘装置、软盘装置、光盘装置或随身盘装置，提供储存空间，用以存取硬盘、软盘、光盘、随身盘中所储存的程序模组、资料、档案以及纪录。

图4是依据本发明实施例的声音命令处理的五阶段示意图，包含声音命令接收(voice command acquisition)P41、语音辨识(speechrecognition)P43、语言理解(language understanding)P45、意义呈现(meaning representation)P47与命令执行(command execution)P49等阶段。图5是依据本发明实施例的在语音辨识阶段P43、语言理解阶段P45与意义呈现阶段P47中所需的主要实体示意图。在声音命令接收阶段P41中，声音命令话语(voice command speaking)会被截听(intercepted)并塑模(modeled)为声音资料的原始输入(也就是原始声音资料)。此原始声音资料在输入到语音辨识P43前，会再加以处理，例如资料净化、过滤与区隔(data cleaning，filtering andsegmentation)。在语音辨识阶段P43中，原始声音资料会根据内建的声学模型(acoustic model)611被处理，接着，产生相应于语言模型(language model)615与词汇(lexicon)613的声音字组(voice words)。在语言理解阶段P45中，依据内建的语言句法模型(language syntaxmodel)631来分析声音字组的句法(syntax)，以及依据内建的语意模型(semantic model)633来理解分析出的句法。其结果会按照特定的呈现规则(representation rule)635与事件背景(disclosure context)637来产生陈述表达式(statement expression)。在意义呈现阶段P47中，取得的陈述表达式被理解成为一个有意义的特定声音命令。理解的结果会对应到一个包含声音命令的意义呈现的有限空间中，否则，此理解的结果没有定义的声音命令。在命令执行阶段P49中，执行相应于有效声音命令的特定工作。

图6为典型的声音命令处理方法的方法流程图，由个人电脑11与移动电话13所执行。此流程图并非用以决定是否具可专利性的已知技术，而仅用以显示发明人所发觉的问题。移动电话13执行声音命令接收阶段P41的作业，并且将产生的原始声音资料传送给个人电脑11(步骤S611)。个人电脑11在接收到原始声音资料后(步骤S511)，执行语音辨识阶段P43(步骤S531至S535)、语言理解阶段(步骤S551)与意义呈现阶段(步骤S553至S571)的作业。当个人电脑11判断无法产生有用的辨识结果时(步骤S533)，传送语音辨识失败讯息给移动电话13(步骤S535与S631)。当个人电脑11无法取得相应的声音命令时(步骤S555与S557)，传送无效声音命令讯息给移动电话13(步骤S559与S651)。当个人电脑11可取得相应的声音命令时(步骤S555与S559)，执行取得的声音命令，并传送执行结果或资料给移动电话13(步骤S571、S573与S671)。此典型的声音命令处理方法具有以下的缺点。原始声音资料的传输通常需要耗费较多的网络频宽，并且移动电话13需要通过个人电脑11的通知才能得知语音辨识与声音命令取得结果，降低声音命令处理的效率。

图7是依据本发明实施例的行动代理器执行平台(mobile agentexecution platform)，其中存在一个以代理器为基础的声音命令控制器，用以智能型地进行有关声音命令处理的控制。个人电脑11与手机13都提供此行动代理器执行平台。行动代理器执行平台包含三个元件：行动代理器执行情境(mobile agent execution context)、行动代理器传输通讯协议(mobile agent transport protocol)、以及代理器委派与控制(agent delegation and control)。行动代理器执行情境730是指一个代理器执行环境，提供独立的应用程序介面，使得一个正在执行的代理器可以使用原有平台(native platform)710的资源。每一个代理器都拥有相应于委派任务的特定生命周期731。行动代理器管理单元733用以掌理代理器的初始化、执行、暂时中止、重新开始与分派。应用程序层级的代理器传输通讯协议735用来建立个人电脑11与手机13间的两个行动代理器执行平台间的通讯管道。

图8是依据本发明实施例的声音命令处理服务示意图。声音命令控制器810负责与语音辨识、语言理解与意义呈现代理器831、833与835间进行通讯，也可称为声音命令应用程序750(图7)中。个人电脑11与手机13均提供行动代理器执行平台，也就是，任一个行动代理器可在电脑平台(computer platform)或手机平台(mobilephone platform)上执行。

图9A至9D是依据本发明实施例的代理器委任与分派示意图。参考图9A，个人电脑11中的声音命令控制器810可分派并储存常驻一个代理器在手机13中的行动代理器执行平台上。每一个代理器中包含委派任务(使用电脑资料表示法呈现)，以及用以执行委派任务所需的逻辑。详而言之，声音命令控制器810可复制(clone)自身的语音辨识代理器831、语言理解代理器833与意义呈现代理器835中的至少者，并将复制的代理器831’、833’以及/或835’迁移(migrate)并储存至手机13中的行动代理器执行平台上。语音辨识代理器831’可包含语音辨识的电脑程序、演算法、声学模型的模式(patterns)、词汇及语言模型等，用以在不需要再与个人电脑11互动的情况下，远端地执行语音辨识。类似地，语言理解代理器833’包含语言理解的电脑程序、演算法、句法与语意模型、以及用以判断输入的声音可能为何种语言以及使用者可能说了哪些字(terms)。意义呈现代理器835’包含意义呈现的电脑程序、演算法与使用特定呈现格式的多个声音命令，用以解释声音输入的意义，并且将此意义转换成为声音命令中之一者。解出的声音命令会被传送到个人电脑11，接着被个人电脑11中的声音命令控制器810所执行。在适当的应用领域上，本领域技术人员也可直接使用手机13中的声音命令控制器810’执行解出的声音命令。

分派这些代理器的次序必须相应于如图5所示的声音命令处理阶段的顺序性。参考图9B，声音命令控制器810可分派并常驻复制的语音辨识代理器831’在手机11中，用以协助远程的声音命令控制器810’。当复制的语音辨识代理器831’已存在于手机11中，声音命令控制器810也可只更新语音辨识代理器831’中的特定电脑程序、演算法、声学模型的模式(patterns)、词汇或语言模型。当远端的声音命令控制器810’感测到使用者的声音输入，语音辨识代理器831’可自行处理此声音输入。如果语音辨识代理器831’成功地产生辨识结果，则代理器831’通过实体连线/网络传送此结果给个人电脑11的语言理解代理器833或声音命令控制器810，传送的内容可以是辨识出的文字符串。如果语音辨识代理器831’无法产生辨识结果，则代理器831’可产生即时的通知。使用者马上发觉此情况并提供新的声音输入。此外，相较于个人电脑11的语音辨识代理器831，语音辨识代理器831’可产生较好的辨识结果，因为代理器831’较接近使用者，可检测出说话场合(speaking venue)、环境情境(surrounding context)与背景噪音(background noise)，并且不会在网络传输过程中受到干扰。在此须注意的是，当语言理解代理器与意义呈现代理器在手机13中执行时，也可具有这些优点。

参考图9C，在接收到从语音辨识代理器831’所传来的辨识结果后，复制的语言理解代理器833’可被迁移至手机13中，用以与语音辨识代理器831’协同合作。当复制的语言理解代理器833’已存在于手机11中，也可只更新语言理解代理器833’中的特定电脑程序、演算法、特定的句法或语意模型。搭配辨识出的结果，语言理解代理器833’按照语言语法与语意来分析声音资料，并试着理解此声音资料的语言表达结构。本领域技术人员都了解，声音命令也许无法完全符合语法与语意规则，可参考内建的知识来消除声音资料的不明确意义。如果语言理解代理器833’成功地产生理解结果，则代理器833’通过实体连线/网络传送此结果给个人电脑11的意义理解代理器835或声音命令控制器810。如果语言理解代理器833’无法产生理解结果，则代理器833’可产生即时的通知，让使用者则可马上发觉此情况。

参考图9D，在接收到从语言理解代理器833’所传来的理解结果后，复制的意义呈现代理器835’可被迁移至手机13中，用以与语言理解代理器833’协同合作。当复制的意义呈现代理器835’已存在于手机11中，也可只更新意义呈现代理器835’中的特定电脑程序、演算法或声音命令。如果相应于理解结果的意义可对应到事先定义的声音命令集合中，则意义呈现代理器835’传送此对应的声音命令给个人电脑11的声音命令控制器810。如果意义呈现代理器835’无法对应到声音命令，则代理器835’可产生即时的通知，让使用者则可马上发觉此情况。本领域技术人员也可以在手机13还未开始进行实际的声音命令处理前，个人电脑11使用如上所述的顺序来复制自身的语音辨识代理器831、语言理解代理器833与意义呈现代理器835，并将复制的代理器831’、833’与835’迁移至手机13中的行动代理器执行平台上。

图9A中，个人电脑11对手机13分派声音命令控制器810的方法可以根据手机13与个人电脑11连线通讯时所与用的认证码找出对应的声音命令控制器81，上述认证码可以预存在手机13内部的存储器中，可以为使用者认证码、SIM卡码、IP地址等。

本发明的方法与系统，或特定型态或其部份，可以以程序码的型态包含于实体媒体，如软盘、光碟片、硬盘、或是任何其它机器可读取(如电脑可读取)储存媒体，其中，当程序码被机器，如电脑载入且执行时，此机器变成用以参与本发明的装置。本发明的方法与装置也可以以程序码型态通过一些传送媒体，如电线或电缆、光纤、或是任何传输型态进行传送，其中，当程序码被机器，如电脑接收、载入且执行时，此机器变成用以参与本发明的装置。当在一般用途处理单元(general-purpose processing unit)实际运作时，程序码结合处理器提供操作类似于应用特定逻辑电路的独特装置。

针对一个特定的是统元件，说明书及权利要求书中会使用一个名称来为其命名。本领域技术人员都了解，消费电子设备的制造者也许会使用不同的命名来称呼内容中所对应的系统元件。此文件并不想要以不同的名称来区别元件间的不同，而是使用不同的功能描述来进行区别。

虽然本发明已以优选实施例披露如上，然其并非用以限定本发明，本领域技术人员，在不脱离本发明的精神和范围内，当可做一些更动与润饰，因此本发明的保护范围当视所附的权利要求所界定者为准。

主要元件符号说明

11～个人电脑 13～手机

21～数字讯号处理单元 22～模拟基带

23～射频单元 24～天线

25～控制单元 26～屏幕

27～键盘 28～麦克风

29～记忆装置 31～处理单元

32～存储器 33～储存装置

34～输出装置 35～输入装置

36～通讯装置 37～总线

P41～声音命令接收阶段 P43～语音辨识阶段

P45～语言理解阶段 P47～意义呈现阶段

P49～命令执行阶段 611～声学模型

613～词汇 615～语言模型

631～语言句法模型 633～语意模型

635～呈现规则637～事件背景

S511、S531、....、S571、S573～方法步骤

S611、S631、S651、S671～方法步骤

710～原有平台

730～行动代理器执行情境； 731～生命周期

733～行动代理器管理单元

735～代理器传输通讯协议

810、810’～声音命令控制器

831、831’～语音辨识代理器

833、833’～语言理解代理器

835、835’～意义呈现代理器

Claims

1.一种声音命令处理装置，包括：

行动代理器执行平台，包括：

内部平台；

至少一代理器；

行动代理器执行情境，用以提供应用程序介面，使得所述代理器通过所述应用程序介面使用所述内部平台的资源；以及

行动代理器管理单元，用以掌理所述代理器的初始化、执行、暂时中止、重新开始与分派；

其中，所述代理器为语音辨识代理器、语言理解代理器、意义呈现代理器中的至少一种，所述语音辨识代理器包含执行语音辨识的电脑程序、声学模型、词汇及语言模型，所述执行语音辨识的电脑程序用以根据所述声学模型处理原始声音资料，并且产生相应于所述词汇与所述语言模型的至少一声音字组；所述语言理解代理器，包含执行语言理解的电脑程序、句法模型及语意模型，所述执行语言理解的电脑程序用以根据所述句法模型来分析至少一声音字组的句法，并且依据所述语意模型来理解所述分析出的句法，用以产生陈述表达式；所述意义呈现代理器，包含执行意义呈现的电脑程序及多个声音命令，所述执行意义呈现的电脑程序用以取得相应于陈述表达式的所述声音命令中之一者。

2.根据权利要求1所述的声音命令处理装置，其中所述行动代理器管理单元负责与所述代理器间进行通讯，并且进行有关声音命令处理的控制。

3.根据权利要求1所述的声音命令处理装置，其中所述代理器中包含委派任务，以及用以执行所述委派任务所需的逻辑。

4.根据权利要求1所述的声音命令处理装置，其中所述语音辨识代理器为目标装置中的语音辨识代理器的复制品。

5.根据权利要求1所述的声音命令处理装置，其中所述行动代理器管理单元复制所述语音辨识代理器，并且传送所述复制的语音辨识代理器至远端装置的行动代理器执行平台中，用以通过所述远端装置执行语音辨识。

6.根据权利要求1所述的声音命令处理装置，其中所述语言理解代理器为目标装置中的语言理解代理器的复制品。

7.根据权利要求1所述的声音命令处理装置，其中所述行动代理器管理单元复制所述语言理解代理器，并且传送所述复制的语言理解代理器至远端装置的行动代理器执行平台中，用以通过所述远端装置执行语言理解。

8.根据权利要求1所述的声音命令处理装置，其中所述意义呈现代理器为目标装置中的意义呈现代理器的复制品。

9.根据权利要求1所述的声音命令处理装置，其中所述行动代理器管理单元复制所述意义呈现代理器，并且传送所述复制的意义呈现代理器至远端装置的行动代理器执行平台中，用以通过所述远端装置执行意义呈现。

10.根据权利要求1所述的声音命令处理装置，其中所述行动代理器管理单元执行声音命令。