CN104104790A

CN104104790A - 语音操控方法与移动终端装置

Info

Publication number: CN104104790A
Application number: CN201310291242.6A
Authority: CN
Inventors: 张国峰
Original assignee: Via Technologies Inc
Current assignee: Via Technologies Inc
Priority date: 2013-04-10
Filing date: 2013-07-11
Publication date: 2014-10-15
Also published as: CN107274897A; TWI489372B; US20140309996A1; TW201439896A; CN103198831A

Abstract

一种语音操控方法与移动终端装置。移动终端装置包括语音接收单元、语音输出单元、语音唤醒模块以及语言理解模块。当语音唤醒模块判断第一语音信号符合识别信息时，移动终端装置启动语音接收单元。当语音接收单元在第一语音信号之后接收到第二语音信号时，语言理解模块解析第二语音信号而获得语音辨识结果。当语音辨识结果具有可执行请求信息时，语言理解模块执行应答操作，且移动终端装置关闭语音接收单元接收第三语音信号。当语音辨识结果不具有可执行请求信息，语言理解模块执行语音对话模式。

Description

语音操控方法与移动终端装置

技术领域

本发明涉及一种语音操控的技术，且特别涉及一种通过语音触发以启动和进行语音交互的语音操控方法与使用此方法的移动终端装置。

背景技术

随着科技的发展，具有语音系统的移动终端装置已日渐普及。上述的语音系统是通过语音理解技术，让使用者与移动终端装置进行沟通。举例来说，使用者只要对上述的移动终端装置讲出某项要求，例如想要查车次、查天气或是欲拨打电话等，系统便会依据使用者的语音信号，采取对应的动作。上述的动作可能是以语音方式回答使用者问题或是依照使用者指令去驱使移动终端装置的系统进行动作。

以语音系统启动的便捷性来说，目前大都是触发移动终端装置的屏幕其所显示的应用程序来启动，或者通过移动终端装置所设置的实体按键来启动。因此，使用者必须直接触及移动终端装置的屏幕或所设置的实体按键，以通过移动终端装置本身来启动语音系统，然而这对于使用者来说，在某些场合，上述的设计却是相当的不便。比如说：在行车期间，或者在厨房做菜时，需要拨打位于客厅的移动电话，以询问友人食谱细节等使用者无法立即触及移动终端装置，但需使语音系统开启的情况。

更进一步，开启语音对话后，如何进行更符合人类对话自然规律的完全脱手的多次交互对话。换句话说，目前若使用者需要与移动终端装置进行多次交互对话，仍必须通过手，来启动移动终端装置的语音系统，而无法做到如同两个自然人之间的对话，可以连续语音问答，无需每次一问一答之后都需要手动开启移动终端装置的语音系统来进行下一次语音问答。

基此，如何改进上述的这些缺点，成为亟待解决的议题

发明内容

本发明提供一种移动终端装置与语音操控方法，可更快速地提供语音服务。使用者仅需发送具有识别信息的语音信号，即可方便地与移动终端装置进行语音沟通。更进一步，移动终端装置可与使用者进行连续语音应答，并可根据使用者所说的内容来终止语音交互，更符合人类对话的自然规律。在对话过程中不再需要手动参与，可以实现人机对话的完全脱手，藉以可更方便、快速地提供语音服务。

本发明提出一种移动终端装置，其包括语音接收单元、语音输出单元、语音唤醒模块以及语言理解模块。语音唤醒模块用以判断是否接收到符合识别信息的第一语音信号。语言理解模块耦接于语音接收单元、语音输出单元以及语音唤醒模块。其中，当语音唤醒模块判断第一语音信号符合识别信息时，移动终端装置启动语音接收单元，且语言理解模块判断语音接收单元是否在第一语音信号之后接收到第二语音信号。倘若语音接收单元未接收到第二语音信号，则语言理解模块执行语音对话模式。倘若语音接收单元接收到第二语音信号，则语言理解模块解析第二语音信号而获得语音辨识结果。其中，当语音辨识结果具有可执行请求信息时，语言理解模块执行应答操作，且移动终端装置关闭语音接收单元接收第三语音信号，以及当语音辨识结果不具有可执行请求信息时，语言理解模块执行语音对话模式。上述语言理解模块在执行语音对话模式时，语言理解模块会自动发送语音应答以询问使用者的请求信息。在此，当使用者输出第四语音信号以作为回应时，语言理解模块会判断使用者所输出的第四语音信号是否符合对话终止提示信息，或是否具有可执行请求信息。如果所述第四语音信号符合对话终止提示信息或具有可执行请求信息，语言理解模块则会根据对话终止提示信息而终止语音对话模式，或者执行对应的可执行请求信息；如果所述第四语音信号不符合对话终止提示信息且不具有可执行请求信息，语言理解模块则会继续执行语音对话模式，直到使用者所输出的语音信号符合对话终止提示信息或具有可执行请求信息为止。另一方面，语言理解模块在执行语音对话模式时，如果使用者未输出第四语音信号以作为回应，语言理解模块则会继续通过语音输出单元发送语音应答来询问使用者，直到语言理解模块于预设时间内，由于使用者的第四语音信号不符合对话终止提示信息且不具有可执行请求信息，亦或一直未发出第四语音信号，语言理解模块自动发送语音应答以询问使用者的请求信息的次数，超过预设次数，则终止语音对话模式。

本发明提出一种语音操控方法，用于移动终端装置。语音操控方法包括以下步骤。判断是否接收到符合识别信息的第一语音信号。当第一语音信号符合识别信息时，判断在第一语音信号之后是否接收到第二语音信号。倘若未接收到第二语音信号，则执行语音对话模式。倘若接收到第二语音信号，则解析第二语音信号而获得语音辨识结果。其中，当语音辨识结果具有可执行请求信息时，执行应答操作，并关闭接收第三语音信号，以及当语音辨识结果不具有可执行请求信息时，执行语音对话模式。上在执行语音对话模式的步骤中，会自动发送语音应答以询问使用者的请求信息。在此，当使用者输出第四语音信号以作为回应时，会判断使用者所输出的第四语音信号是否符合对话终止提示信息，或是否具有可执行请求信息。如果所述第四语音信号符合对话终止提示信息或具有可执行请求信息，则会根据对话终止提示信息而终止语音对话模式，或者执行对应的可执行请求信息；如果所述第四语音信号不符合对话终止提示信息且不具有可执行请求信息，则会继续执行语音对话模式，直到使用者所输出的语音信号符合对话终止提示信息或具有可执行请求信息为止。另一方面，在执行语音对话模式的步骤中，如果使用者未输出第四语音信号以作为回应，则会继续发送语音应答来询问使用者，直到于预设时间内，由于使用者的第四语音信号不符合要求或一直未发出第四语音信号，语言理解模块自动发送语音应答以询问使用者的请求信息的次数，超过预设次数，则终止语音对话模式。

基于上述，在移动终端装置未启动其语音交互功能时，倘若语音唤醒模块接收到符合识别信息的语音信号，则语音接收单元会被启动，以接收在上述语音信号之后的另一个语音信号。之后，语言理解模块则会根据上述另一个语音信号来做出应答操作并终止移动终端装置的语音交互功能；或者根据上述另一个语音信号发送语音应答，直到解析到对话终止提示信息或做出应答操作为止。如果语音接收单元被启动后，在预定时间内未接收到另一个有效语音的次数超过一预定次数，则该移动终端装置关闭该语音接收单元。这里的有效语音可以是可执行的请求信息（比如，“帮我查下上海今天的天气情况”）或者是符合一对话终止提示信息的语音（比如，“好，没事了”），再或者为一可应答的信息（比如，“今天的我太太过生日，我买什么礼物比较好？”）。藉此，移动终端装置可依据符合识别信息的语音信号，而启动语音交互功能，藉以可更快速、更便捷地提供语音服务。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1是依照本发明一实施例所绘示的移动终端装置的方块图。

图2是依照本发明一实施例所绘示的语音接听方法的流程图。

图3是依照本发明一实施例所绘示的移动终端装置的方块图。

图4是依照本发明一实施例所绘示的语音操控方法的流程图。

图5是依照本发明一实施例所绘示的语音操控方法的流程图。

【符号说明】

100、300：移动终端装置

104、304：辅助操控装置

106、306：语义数据库

110、310：语音输出单元

120、320：语音接收单元

130、330：语言理解模块

140、340：来电通信单元

350：语音唤醒模块

A1：语音应答

C：来电通话

V1、V2、V3：语音信号

SD：语音辨识结果

SO：语音通知

SI：语音信号

S202、S204、S206、S208：语音接听方法的各步骤

S402、S404、S406、S408、S410、S412、S414、S502、S504、S506、S508、S510：语音操控方法的流程图

具体实施方式

虽然现今的移动终端装置已可提供语音系统，以让使用者发出语音来和移动终端装置沟通，但使用者在启动此语音系统时，仍必须通过移动终端装置本身来启动。因此在使用者无法立即触及移动终端装置，但需使语音系统开启的情况，往往无法满足使用者立即的需求。更进一步，即使能够唤醒语音对话系统，但目前的移动装置在对话过程中仍然需要手的不时参与，比如使用者提问结束后，需要再次询问时需要手动再次开启语音对话系统，极不方便。为此，本发明提出一种语音接听方法、语音操控方法及移动终端装置，让使用者能够更便捷地开启语音系统。更进一步，本发明能够使得使用者在整个对话过程中，摆脱手的操作，使得对话更加便捷快速自然。为了使本发明的内容更为明了，以下特举实施例作为本发明确实能够据以实施的范例。

图1是依照本发明一实施例所绘示的移动终端装置的方块图。请参照图1，移动终端装置100具有语音输出单元110、语音接收单元120、语言理解模块130以及来电通信单元140。移动终端装置100例如为移动电话（Cellphone）、个人数字助理（Personal Digital Assistant，PDA）手机、智能手机（Smartphone），或是安装有通讯软件的掌上型计算机（Pocket PC）、平板型计算机（Tablet PC）或笔记型计算机等等。移动终端装置100可以是任何具备通讯功能的便携式（Portable）移动装置，在此并不限制其范围。此外，移动终端装置100可使用Android操作系统、Microsoft操作系统、Android操作系统、Linux操作系统等等，不限于上述。在本实施例中，移动终端装置100会通过来电通信单元140接收到来电通话C。当来电通信单元140接收到来电通话C时，移动终端装置100会通过语音输出单元110，自动发送语音通知SO以询问使用者如何进行回应。此时，移动终端装置100会通过语音接收单元120以接收来自使用者的语音信号SI，并通过语言理解模块130来对此语音信号SI进行解析以产生语音辨识结果SD。最后，移动终端装置100会通过来电通信单元140，以根据语音辨识结果SD来执行对应的通信操作。上述的模块与单元的功能分述如下。

语音输出单元110例如是扬声器。语音输出单元110具有扩音功能，用以输出语音通知以及来自通话对象的语音。具体来说，当移动终端装置100接收到来电通话C时，移动终端装置100可通过语音输出单元110发送语音通知SO，以告知使用者来电通话C的来源(例如通话对象)或询问使用者是否要接听此来电通话C等等。例如，来电通信单元140可依据来电通话C而通过语音输出单元110发出关于来电通话C的电话号码信息，或进而依据联络人通讯录而查出拨出此来电通话C的联络人名称，不限于上述。举例来说，来电通信单元140可通过语音输出单元110而发送出“王大明给您来电，现在接听吗?”、“X公司给您来电，现在接听吗?”、“来电是0922-123564，现在接听吗?”或“来电是886922-123564，现在接听吗?”等关于来电通话C的信息。此外，倘若此来电通话C未提供电话号码，则来电通信单元140也可通过语音输出单元110而送出预设的语音通知SO，例如，“这是未知电话，现在接听吗?”等等。另一方面，当使用者接通来电通话C后，使用者也会通过语音输出单元110来进行接听。

语音接收单元120例如为麦克风，用以接收使用者的声音，以获得来自使用者的语音信号SI。

语言理解模块130耦接于语音接收单元120，用以解析语音接收单元120所接收的语音信号SI，以获得语音辨识结果。具体而言，语言理解模块130可包括语音辨识模块以及语音处理模块(未绘示)，其中，语音辨识模块会接收从语音接收单元120传来的语音信号SI，以将语音信号转换成多个分段语义（例如词汇或字句等）。语音处理模块则可依据这些分段语义而解析出这些分段语义所代表的意指（例如意图、时间、地点等），进而判断出上述语音信号SI中所表示的意思。此外，语音处理模块还会根据所解析的结果产生对应的应答内容。

更进一步而言，在计算机系统架构下的自然语言理解中，通常会使用固定词语法来提取语音信号SI的语句，以解析这些语句所意指的指令或意图(例如接听来电通话C、拒绝接听来电通话C或发送简讯等动作)等，而判断出语音信号SI的意思，藉以获得语音辨识结果。在本实施例中，语言理解模块130的语音处理模块，可通过语义数据库106，来查询语音信号SI中所分割成的分段语义是对应于哪些指令，其中语义数据库106可记录有各种分段语义与各种命令的关系。在本实施例中，根据上述各种分段语义，语言理解模块130的语音处理模块还可判断出语音信号SI中哪些是使用者欲回应来电通话C的信息。

举例来说，当使用者回应“好的”、“接听”、“接一下”等之类表示要接听来电通话C的语音信号SI时，语言理解模块130可通过语义数据库106来查询“好的”、“接听”、“接一下”等所对应的命令，而解析出上述的语音信号SI是用以表示接听来电通话C。在另一实施例中，当使用者回应“不接”、“不”、“先不接”等之类表示要拒绝接听来电通话C的语音信号SI时，语言理解模块130可通过语义数据库106来查询“不接”、“不”、“先不接”等所对应的命令，而解析出上述的语音信号SI是用以表示拒绝接听来电通话C。

在另一实施例中，当使用者回应“先不接，告诉他我到公司后再打电话给他”等之类表示发送讯息以回应来电通话C的语音信号SI时，语言理解模块130可通过语义数据库106来查询“先不接”所对应的命令，而解析出语音信号SI为表示拒绝接听来电通话C。并且，语言理解模块130还可通过语义数据库106来判断出“告诉他”是表示发送讯息的命令，藉以根据这个命令来执行通信操作，例如是根据这个命令来产生通信信号(如发送简讯等)。其中，语言理解模块130还可判断出“告诉他”之后的语音是表示发送讯息时的应答内容(例如是“到公司后再打电话”)。

需说明的是，在本实施例中，语言理解模块130可由一个或数个逻辑门组合而成的硬件电路来实作，也可以是以计算机程序代码来实作。值得一提的是，在另一实施例中，上述的语言理解模块也可配置于云端服务器中。也就是说，移动终端装置100也可与云端服务器(未绘示)连线，其中云端服务器连线具有语言理解模块。如此一来，移动终端装置100可将所接收到的语音信号SI，发送给云端服务器中的语言理解模块进行解析，再从云端服务器获得语音辨识结果。

来电通信单元140耦接于语音接收单元120与语言理解模块130。来电通信单元140用以接收来电通话C及执行通信操作。具体来说，来电通信单元140接收到来电通话C后，可根据使用者的语音(后将详述)，来进行接听来电通话C、拒接来电通话C、传送预设语音应答以回应来电通话C，或者传送简讯、语音应答等应答信号，以回应来电通话C，其中应答信号中具有使用者欲回应来电通话C的应答内容。

在此说明的是，本实施例的移动终端装置100具有通常模式及第一模式。其中，第一模式例如是移动终端装置100用于移动中的行车装置中而进入车载模式。更具体而言，在此第一模式中，当移动终端装置100接收到来电通话C时，移动终端装置100会自动发送语音通知(例如来电通话的来源)以询问使用者是否接听这个来电通话C，即移动终端装置100可自动地开启其免持系统，以和使用者进行语音交互。相对而言，通常模式例如是移动终端装置100于非车载模式的时候。亦即，在此通常模式中，移动终端装置100不会自动发送语音通知以询问使用者是否接听这个来电通话C，而无法根据使用者的语音信号来做回应，即移动终端装置100不会自动地开启其免持系统。

如此一来，当移动终端装置100切换为第一模式时，如果移动终端装置100接收到来电通话，则会发送语音通知使用者，以让使用者通过语音的方式，传送语音信号至移动终端装置100，使得移动终端装置100可根据使用者所说的话，来回应此来电通话(例如接听或拒绝接听来电通话等通信操作)。

需说明的是，本实施例的移动终端装置100可自动从通常模式切换为第一模式。具体而言，当移动终端装置100连线于辅助装置104时，移动终端装置100可从通常模式切换为第一模式。另一方面，当移动终端装置100未连线于辅助装置104时，移动终端装置104可从第一模式切换为通常模式。在此，移动终端装置100可匹配于辅助装置104。其中，当移动终端装置100通过无线传输信号或者电性连接于辅助装置104时，可使移动终端装置10自动切换为第一模式。

此外，在另一实施例中，当移动终端装置100用于移动中的行车装置时，移动终端装置100也可根据感应行车装置的速度的大小，来决定是否切换成第一模式。例如，当行车装置的速度超过阈值时，移动终端装置100则会从通常模式切换为第一模式。另一方面，当行车装置的速度未超过阈值时，移动终端装置100则会从自第一模式切换为通常模式。如此一来，使用者可更加便利地通过语音来操控移动终端装置100。

图2是依照本发明一实施例所绘示的语音接听方法的流程图。请同时参照图1及图2，在步骤202中，移动终端装置100会从通常模式切换为第一模式。在移动终端装置100于第一模式的情况下，如步骤S204所示，当来电通信单元140接收到来电通话C时，来电通信单元140会通过语音输出单元110发送语音通知SO，并启动语音接收单元120接收语音信号SI。根据上述的语音通知SO，使用者可得知来电通话C的来源，并可通过语音的方式来操控来电通信单元140以回应此来电通话C。因此，当来电通信单元140接收到来电通话C时，来电通信单元140会启动语音接收单元120以接收来自使用者的语音信号SI。

在步骤S206，语言理解模块130会解析语音接收单元120所接收到的语音信号SI，以获得语音辨识结果。在此，语言理解模块130可接收来自语音接收单元120的语音信号SI，并将语音信号SI分割成多个分段语义。并且，语言理解模块130会对上述分段语义进行自然语言理解，以辨识出语音信号SI中的应答信息。

接着，在步骤S208，来电通信单元140会根据语言理解模块130所解析出的语音辨识结果，执行对应的通信操作。在本实施例中，由于使用者可通过语音的方式，以命令移动终端装置100进行接听、拒接来电通话C、发送讯息或其他动作以回应来电通话C，因此语言理解模块130解析语音信号SI之后，可判断出语音信号SI中的命令。故来电通信单元140可根据语音信号SI中的命令来执行对一的通信操作。上述来电通信单元140所执行的通信操作可以是接听来电通话C、拒绝接听来电通话C、传送预设语音应答以回应来电通话C，或者传送简讯、语音应答等应答信号，以回应来电通话C，其中应答信号中具有使用者欲回应来电通话C的应答内容。

为了使本领域的技术人员进一步了解本实施例来电通信单元140所执行的通信操作，下文再举诸实施例，其中，仍搭配图1的移动终端装置100来进行说明。

当移动终端装置100切换为第一模式时(例如移动终端装置100用于移动中的行车装置中而进入车载模式)，假设来电通信单元140接收到来电通话C，且来电通信单元140会通过语音输出单元110发送“王大明给您来电，现在接听吗?”这个语音通知SO。在本实施例中，倘若使用者回应“好的”这个语音信号SI，则来电通信单元140会接听这个来电通话C。

另一方面，倘若使用者回应“不接”这个语音信号SI，则来电通信单元140会拒绝接听这个来电通话C。在一实施例中，来电通信单元140还可传送“您拨的电话暂时无法接听，请稍后再拨，或在『哔』声后留言”这个预设语音应答来回应来电通话C。

此外，倘若使用者回应“先不接，告诉他我到公司后再打电话给他”这个语音信号SI，则来电通信单元140会拒绝接听这个来电通话C，并且会自语音辨识结果取得应答内容，即“到公司后再打电话”这个应答内容以发送简讯，其中例如在简讯中记载“我在开会，稍后再回拨”这个简讯内容来回应来电通话C。

如此一来，在移动终端装置100进入车载模式的情况下，移动终端装置100可自动询问使用者是否接听来电通话C，以让使用者直接通过语音的方式来操控移动终端装置100进行接听、拒绝接听或其他通信操作。

另外需说明的是，本实施利并不限制使用者通过语音的方式来回应来电通话C。在其他实施例中，使用者可通过按压配置于移动终端装置100的按键(未绘示)，以令来电通信单元140进行接听/拒接。或者，使用者也可通过连线于移动终端装置100的辅助操控装置104(例如是具有蓝牙功能或无线传输功能的随身装置)，来操控来电通信单元140进行接听/拒接。

依据上述，移动终端装置100可自动从通常模式切换为第一模式。并且，当来电通信单元140在第一模式接收到来电通话时，语音输出单元110会发送语音通知以询问使用者。当使用者发送语音信号时，语言理解模块130会对此语音信号进行解析，且来电通信单元140会根据语言理解模块130解析后所获得的语音辨识结果，执行对应的通信操作。如此一来，移动终端装置可更快速地提供语音服务，其中当移动终端装置100在第一模式的情况下，例如用于移动中的行车装置时，使用者可方便地根据移动终端装置100所发送的语音通知，通过语音的方式来回应来电通话。藉此，使用者可更加便利地操控移动终端装置。

图3是依照本发明一实施例所绘示的移动终端装置的方块图。请参照图3，移动终端装置300具有语音输出单元310、语音接收单元320、语言理解模块330以及语音唤醒模块350。本实施例的移动终端装置300与图1的移动终端装置100相似，其不同之处在于：本实施例的移动终端装置300更具有语音唤醒模块350。

语音唤醒模块350用以判断是否接收到具有识别信息的语音信号。在本实施例中，当语音唤醒模块350未接收到具有识别信息的语音信号时，语音输出单元310、语音接收单元320及语言理解模块330可以处于待机或关闭等模式，即移动终端装置300不会与使用者进行语音交互。而当语音唤醒模块350接收到具有识别信息的语音信号时，移动终端装置300则会启动语音接收单元320以接收之后的语音信号，并通过语言理解模块330来进行解析，即移动终端装置300会依据此语音信号与使用者进行语音交互，且还可执行对应于语音信号的应答操作等。故在本实施例中，使用者可直接以语音的方式，说出具有识别信息的语音(例如特定的词汇，如名字)，来唤醒移动终端装置300执行语音交互功能。此外，本实施例的语音唤醒模块350可由一个或数个逻辑门组合而成的硬件电路来实作，也可以是以计算机程序代码来实作。

值得一提的是，由于语音接收单元320是在语音唤醒模块350辨识出识别信息之后而被启动，因此语言理解模块330可避免对非语音信号(例如杂音信号)进行解析。此外，由于语音唤醒模块350只要能辨识出识别信息所对应的音讯(例如“小茜”这个识别信息所对应的音讯)，即会判断所接收到的语音信号具有识别信息，因此语音唤醒模块350可以不具备有自然语言理解的能力，而具有较低功率的消耗。如此一来，当使用者未提供具有识别信息的语音信号时，移动终端装置300不会启动语音交互功能，故移动终端装置300不仅可方便使用者通过语音来进行操控，也可节省电源消耗。

故在本实施例中，移动终端装置300可通过语音唤醒模块350来判断是否接收到符合识别信息的语音信号(下文以语音信号V1表示)，如果是，则移动终端装置300会启动语音接收单元320以接收音讯，并且通过语言理解模块330判断语音接收单元320是否在语音信号V1之后接收到另一语音信号(下文以语音信号V2表示)。倘若语言理解模块330判断语音接收单元320接收到语音信号V2，语言理解模块330会解析语音信号V2而获得语音辨识结果，以及判断语音辨识结果中是否具有可执行请求信息。如果语音辨识结果具有可执行请求信息时，则移动终端装置300会通过语言理解模块330执行应答操作，并终止语音交互功能。

然而，如果上述语音接收单元320在语音信号V1之后，未接收到另一语音信号V2，或者，语言理解模块330解析语音信号V2而获得的语音辨识结果，不具有可执行请求信息时，则移动终端装置300会通过语言理解模块330执行语音对话模式，以和使用者进行语音沟通。其中，语言理解模块330在执行语音对话模式时，语言理解模块330会自动发送语音应答以询问使用者的请求信息(即使用者的意图)。此时，语言理解模块330会判断使用者所输出的语音信号是否符合对话终止提示信息，或是否具有可执行请求信息。如果有，则会终止语音对话模式，或者执行对应的可执行请求信息；如果否，则语言理解模块330则会继续执行语音对话模式，即语言理解模块330会自动发送语音应答以询问使用者的请求信息(即使用者的意图)。直到使用者所输出的语音信号符合对话终止提示信息或具有可执行请求信息为止。

以下即搭配上述移动终端装置300来说明语音操控的方法。图4是依照本发明一实施例所绘示的语音操控方法的流程图。请同时参照图3及图4，在步骤S402中，语音唤醒模块350会判断是否接收到符合识别信息的语音信号(下文以语音信号V1表示)。详细而言，识别信息可以是特定的词汇(例如名字)所对应的预设音，其中此预设音会在特定音频范围或特定能量范围之内。也就是说，语音唤醒模块350可判断是否接收到在特定音频范围或特定能量范围之内的预设音，而判断出是否接收到具有识别信息的语音信号V1。在本实施例中，使用者可预先通过移动终端装置300的系统来设定这个识别信息，例如预先提供识别信息所对应的预设音，而语音唤醒模块350可通过比对语音信号V1是否符合这个预设音，来判断语音信号V1是否具有识别信息。举例来说，假设识别信息为“小茜”这个名字所对应的预设音，则语音唤醒模块350会判断是否接收到具有“小茜”的语音信号V1。

倘若语音唤醒模块350未接收到符合识别信息的语音信号V1，则如步骤S404所示，移动终端装置300不会启动语音交互功能。由于语音唤醒模块350未接收到符合识别信息的语音信号V1，因此语音接收单元320是成关闭状态或休眠状态而不会进行语音信号的接收，故移动终端装置300中的语言理解模块330不会取得到之后的语音信号来进行解析。举例来说，假设识别信息为“小茜”，倘若使用者未说出“小茜”而是说出“小王”等其他语音，即语音唤醒模块350无法接收到符合“小茜”的语音信号V1，故移动终端装置300的语音交互功能不会被启动。

在步骤S406中，当语音唤醒模块350判断语音信号V1符合识别信息时，移动终端装置300会启动语音接收单元320以接收音讯。并且，语言理解模块330会依据语音接收单元320所接收到的音讯，判断语音接收单元320是否在语音信号V1之后接收到另一语音信号(下文以语音信号V2表示)。在本实施例中，语言理解模块330可判断语音接收单元320所接收到的音讯的能量是否超过一设定值。如果所述音讯的能量未超过设定值，则语言理解模块330会判断此音讯为杂音，藉以判断语音接收单元320未接收到语音信号V2；如果所述音讯的能量已达设定值，则语言理解模块330可判断语音接收单元320已接收到语音信号V2，进而根据此语音信号V2来执行后续的步骤。

倘若语言理解模块330判断语音接收单元320未接收到语音信号V2，则如步骤S408所示，语言理解模块330会执行语音对话模式。在语音对话模式中，语言理解模块330可通过语音输出单元310发送语音应答，且可通过语音接收单元320继续接收及解析来自使用者的另一个语音信号，据以做出另一个语音应答或者应答操作，直到语言理解模块330判断出具有对话终止提示信息的语音信号，或者移动终端装置300已完成使用者的命令或请求为止。关于语音对话模式的详细步骤，将于后详述(如图5所示)。

倘若语言理解模块330判断语音接收单元320接收到语音信号V2，则如步骤S410所示，语言理解模块330会解析语音信号V2而获得语音辨识结果。语言理解模块330可接收来自语音接收单元320的语音信号V2，并将语音信号V2分割成多个分段语义，以及对上述分段语义进行自然语言理解，以辨识出语音信号V2中的内容。如同图1的语言理解模块130，本实施例的语言理解模块330可依据固定词语法来提取语音信号V2的语句，以解析这些语句所意指的指令或意图(例如命令句或者询问句)等，而判断出语音信号V2的意思，藉以获得语音辨识结果。其中，语言理解模块330可通过语义数据库306，来查询语音信号V2中所分割成的分段语义是对应于哪些指令，而上述语义数据库306可记录有各种分段语义与各种命令的关系。

接着，如步骤S412所示，语言理解模块330会判断语音辨识结果中是否具有可执行请求信息。详细而言，可执行请求信息例如是指让移动终端装置300完成所请求的操作。也就是说，语言理解模块330可依据语音辨识结果中的可执行请求信息，让移动终端装置300执行一个动作，其中移动终端装置300例如可通过一个或多个应用程序来完成。举例来说，当语音信号V2为“帮我打电话给王大明”、“帮我查台北明天的天气”或“现在几点”等，则语音信号V2具有可执行请求信息，因此，语言理解模块330解析上述语音信号V2后，可令移动终端装置300拨打电话给王大明、上网查并回报台北明天的天气、或者查询并回报现在的时间等这些动作。

另一方面，如果语音辨识结果不具有可执行请求信息，则表示语言理解模块330无法依据语音辨识结果而判断使用者的意图，因此无法让移动终端装置300完成所请求的操作。举例来说，当语音信号V2为“帮我打电话”、“帮我查天气”、“现在”等，则语言理解模块330解析语音信号V2后，无法令移动终端装置300完成上述所请求的操作。亦即，语言理解模块330无法判断出上述语音信号V2中的通话对象、查询哪一时间内或哪一地点的天气，以及无法根据一个不具完整语意的句子来执行。

当语音辨识结果具有可执行请求信息时，则如步骤S414所示，语言理解模块330会执行应答操作，且移动终端装置300会关闭接收其他语音信号(下文以语音信号V3表示)，藉以关闭移动终端装置300的语音交互功能。

具体来说，当可执行请求信息为操作指令时，则语言理解模块330会启动对应于操作指令的操作功能。例如，当可执行请求信息为“调低屏幕的亮度”，则语言理解模块330会发出一调整亮度的信号于移动终端装置300的系统，使其将屏幕的亮度调低。此外，当可执行请求信息为询问句时，则语言理解模块330会发送对应在此询问句的语音应答。此时语言理解模块330可辨识出询问句中的一个或多个关键词，并依据这些关键词而自搜寻引擎中进行查询对应的答案，再通过语音输出单元310来输出语音应答。例如，当可执行请求信息为“明天台北的温度是几度?”，则语言理解模块330可发出一查询信号以通过搜寻引擎查询对应的答案，并通过语音输出单元310来输出“明天台北的温度是26度”这个语音应答。

在此说明的是，由于上述的可执行请求信息会让移动终端装置300完成所请求的操作，因此语言理解模块330执行应答操作之后，此时的语音接收单元320会成关闭或休眠状态，而不会接收到其他的语音信号V3。更进一步而言，当语音接收单元320被关闭接收语音信号V3时，如果使用者欲通过语音的方式来令移动终端装置300执行所请求的操作，则使用者需再呼叫具有识别信息的语音，藉以通过语音唤醒模块350来进行判断，进而再次启动语音接收单元320。

当语音辨识结果不具有可执行请求信息时，则如步骤S408所示，语言理解模块330会执行语音对话模式(关于语音对话模式的详细步骤，将于后详述，如图5所示)。在此，语言理解模块330会根据语音信号V2通过语音输出单元310发送语音应答，并且会通过语音接收单元320，继续接收另一个语音信号。也就是说，语言理解模块330会继续接收及解析来自使用者的语音信号，据以做出另一个语音应答或者应答操作，直到语言理解模块330判断出具有对话终止提示信息的语音信号，或者移动终端装置300已完成使用者的命令或请求为止。

如此一来，在本实施例中，使用者仅需发送具有识别信息的语音信号，即可方便地与移动终端装置300进行语音沟通。由于移动终端装置300可在关闭语音接收单元320之后，再次根据所述具有识别信息的语音信号而自动打开语音交互功能，故使用者可完全地解放双手，而和移动终端装置300进行对话，并完全通过语音的方式来操控移动终端装置300执行对应的应答操作等等。

为了使本领域技术人员进一步了解上述语言理解模块330所执行的语音对话模式，下文再举诸实施例为例，其中仍搭配图3的移动终端装置300来进行说明。

图5是依照本发明一实施例所绘示的语音操控方法的流程图。请同时参照图3、图4与图5，语言理解模块330在执行语音对话模式(如图4的步骤S408)时，在图5的步骤S502中，语言理解模块330会产生语音应答，下文以语音应答A1表示，并通过语音输出单元310输出。由于语言理解模块330会因未接收到语音信号V2(如图4的步骤S406)而执行语音对话模式，或者是因接收到不具有可执行请求信息的语音信号V2而执行语音对话模式(如图4的步骤S412)，故此时，语言理解模块330会自动发送语音应答A1以询问使用者的请求信息(即使用者的意图)。

举例来说，当语音接收单元320未接收到语音信号V2时，语言理解模块330可通过语音输出单元310发送“有什么事吗?”、“需要提供什么服务?”等，不限于此，藉以询问使用者。此外，当语言理解模块330所接收到的语音信号V2不具有可执行请求信息时，语言理解模块330可通过语音输出单元310发送“您说的是哪一个地方的天气?”、“您说的是谁的电话?”或“您说的是什么意思?”等等，不限于此。

需说明的是，语言理解模块330也可根据这个不具有可执行请求信息的语音信号V2，而找出匹配此语音信号V2的语音应答。换句话说，语言理解模块330可进入语音聊天的模式，以和使用者进行沟通。其中，语言理解模块330可透语义数据库306来实现上述的语音聊天的模式。详细而言，语义数据库306可记录有多种候选答案，而语言理解模块330依据优先顺序来选取这些候选答案的其中之一来作为语音应答。例如，语言理解模块330可依据众人使用习惯，以决定这些候选答案的优先顺序。或者，语言理解模块330可依据使用者的喜好或者习惯，以决定这些候选答案的优先顺序。值得一提的是，语义数据库306中也可记录先前语言理解模块330所输出的语音应答的内容，并依据先前的内容来产生语音应答。上述选出语音应答的方法为举例说明，本实施例并不以此为限制。

当语言理解模块330通过语音输出单元310输出语音应答之后，在步骤S504中，语言理解模块330会判断语音接收单元320是否再接收到其他语音信号(下文以语音信号V4表示)。此处与图4的步骤S406相似，可参照前述的说明。

当语音接收单元320接收语音信号V4时，则如步骤S506所示，语言理解模块330会判断语音信号V4是否符合对话终止提示信息，或者语音信号V4是否具有可执行请求信息。对话终止提示信息例如是特定词汇，用以表示对话终止。亦即，语言理解模块330会对语音信号V4进行解析，倘若解析到上述的特定词汇，则判断语音信号V4符合对话终止提示信息。举例来说，当语音信号V4符合“再见”或“没事了”等这些对话终止提示信息，则语音接收单元320不会继续接收语音信号。另一方面，如果语音信号V4具有可执行请求信息，则语言理解模块330即会执行对应于可执行请求信息的应答操作。并且，语言理解模块330会终止语音对话模式，而语音接收单元320亦不再继续接收语音信号。在此与图4的步骤S414相似，可参照前述的说明。

在步骤S506中，如果语音信号V4符合对话终止提示信息，或者具有可执行请求信息时，则如步骤S508所示，语言理解模块330则终止语音对话模式，并终止接收之后的语音信号，据以结束移动终端装置300和使用者进行语音沟通。也就是说，此时若使用者欲通过语音的方式来操控移动终端装置300，则需说出具有识别信息(例如“小茜”这个名子)的语音信号，才可再启动移动终端装置300执行语音交互。

此外，在步骤S506中，如果语音信号V4不符合对话终止提示信息，亦不具有可执行请求信息时，则回到步骤S502，语言理解模块330会继续通过语音输出单元310发送语音应答来询问使用者。

另一方面，返回步骤S504，当语音接收单元320未接收到语音信号V4，则如步骤S510所示，语言理解模块330会判断于预设时间内未接收到语音信号V4的次数，是否超过预设次数。具体来说，如果于预设时间内未接收到语音信号V4，则语言理解模块330会记录一笔次数。如此一来，当所记录的次数未超过预设次数时，则回到步骤S502，语言理解模块330会继续通过语音输出单元310发送语音应答，藉以询问使用者的意图。其中，语言理解模块330可在语音接收单元320未接收到语音信号V4的预设时间之后，产生语音应答。上述的语音应答例如是“您还在吗?”、“需要提供什么服务?”等问句，不限于此。

反之，在步骤S510中，当所记录的次数为超过预设次数时，则如步骤S508所示，语言理解模块330会终止此语音对话模式，且语音接收单元320会终止接收之后的语音信号，亦即移动终端装置300会结束与使用者进行语音沟通，以结束语音交互。

值得一提的是，当移动终端装置300结束语音交互功能之后，使用者不仅可呼叫具有识别信息的语音信号，以和移动终端装置300沟通，使用者也可通过辅助操控装置304，从辅助操控装置304发出无线传输信号至移动终端装置300，以启动语音交互功能。在此，移动终端装置300便会启动语音接收单元320来接收语音信号。

依据上述，本实施例的移动终端装置300可据符合识别信息的语音信号，而启动移动终端装置300的语音交互功能，藉以可更快速地提供语音服务。其中，在移动终端装置300未启动其语音交互功能时，语音唤醒模块350会侦测符合识别信息的语音信号。倘若语音唤醒模块350接收到上述符合识别信息的语音信号时，语音接收单元320则会被启动，以接收在上述语音信号之后的另一个语音信号。之后，语言理解模块330则会根据上述另一个语音信号来做出应答操作并终止移动终端装置300的语音交互功能；或者根据上述另一个语音信号发送语音应答，藉以获得使用者的意图或和使用者对话，直到解析到对话终止提示信息或做出应答操作为止。如此一来，使用者仅需发送具有识别信息的语音信号，即可方便地与移动终端装置300进行语音沟通，并在通话过程中可以完全解放双手，因为移动终端装置300是在一个对话回合后自动打开语音交互功能。藉此，使用者可更加便利地操控移动终端装置300。

综上所述，在本发明的语音接听方法与移动终端装置中，移动终端装置可自动从通常模式切换为第一模式。并且，当移动终端装置在第一模式接收到来电通话时，移动终端装置可发送语音通知以询问使用者，而让使用者可通过语音的方式发送语音信号来操控移动终端装置进行回应。此时，移动终端装置可根据来自使用者的语音信号进行解析，并根据解析后所获得的语音辨识结果，执行对应的应答操作。如此一来，使用者可方便地根据移动终端装置所发送的语音通知，通过语音的方式来回应来电通话。

此外，在本发明的语音操控方法与移动终端装置中，移动终端装置可据符合识别信息的语音信号，以启动语音交互功能。在移动终端装置未启动其语音交互功能时，倘若移动终端装置接收到符合识别信息的语音信号，移动终端装置则会接收在上述语音信号之后的另一个语音信号。之后，移动终端装置会根据上述另一个语音信号来做出应答操作并终止语音交互功能；或者根据上述另一个语音信号发送语音应答，藉以获得使用者的意图或和使用者对话，直到解析到对话终止提示信息或做出应答操作为止。如此一来，使用者仅需发送具有识别信息的语音信号，即可方便地与移动终端装置进行语音沟通，并在通话过程中可以完全解放双手，因为移动终端装置总是在一个对话回合后自动打开语音输入。且移动终端装置可根据使用者所说的内容来终止语音交互，藉以可更快速地提供语音服务。基此，本发明的语音接听方法、语音操控方法与移动终端装置，可让使用者可更加便利地操控移动终端装置。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域技术人员在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视所附权利要求书界定范围为准。

Claims

1.一种移动终端装置，包括：

一语音接收单元；

一语音输出单元；

一语音唤醒模块，判断是否接收到符合一识别信息的一第一语音信号；以及

一语言理解模块，耦接于该语音接收单元、该语音输出单元以及该语音唤醒模块，其中当该语音唤醒模块判断该第一语音信号符合该识别信息时，该移动终端装置启动该语音接收单元，且该语言理解模块判断该语音接收单元是否在该第一语音信号之后接收到一第二语音信号，倘若该语音接收单元未接收到该第二语音信号，则该语言理解模块执行一语音对话模式，倘若该语音接收单元接收到该第二语音信号，则该语言理解模块解析该第二语音信号而获得一语音辨识结果，其中

当该语音辨识结果具有一可执行请求信息时，该语言理解模块执行一应答操作，且该移动终端装置关闭该语音接收单元接收一第三语音信号，以及当该语音辨识结果不具有一可执行请求信息时，该语言理解模块执行该语音对话模式。

2.如权利要求1所述的移动终端装置，其中执行该语音对话模式的步骤还包括：

该语言理解模块自动发送语音应答以询问使用者的请求信息。

3.如权利要求2所述的移动终端装置，其中当使用者输出一第四语音信号作为回应时，该语言理解模块判断该第四语音信号是否符合一对话终止提示信息，或是否具有该可执行请求信息。

4.如权利要求3所述的移动终端装置，其中当该第四语音信号符合该终止提示信息或具有该可执行请求信息时，该语言理解模块根据对话终止提示信息而终止该语音对话模式，或执行对应的该可执行请求信息。

5.如权利要求3所述的移动终端装置，其中当该第四语音信号不符合该终止提示信息且不具有该可执行请求信息时，该语言理解模块再次执行该语音对话模式。

6.如权利要求5所述的移动终端装置，其中当该语言理解模块在执行该语音对话模式时，如果使用者未输出该第四语音信号时，该语言理解模块则再次执行该语音对话模式。

7.如权利要求5或6所述的移动终端装置，其中当该语言理解模块于一预设时间内，由于使用者发出的该第四语音信号不符合该终止提示信息或不具有该可执行请求信息，亦或一直未发出该第四语音信号，而导致该语言理解模块自动发送另一语音应答以询问使用者的请求信息的次数超过该预设次数，则终止该语音对话模式，且该移动终端装置关闭该语音接收单元。

8.如权利要求1所述的移动终端装置，其中当该可执行请求信息为一操作指令时，该语言理解模块启动对应于该操作指令的一操作功能。

9.如权利要求1所述的移动终端装置，其中当该可执行请求信息为一询问句，该语言理解模块通过该语音输出单元发送对应于该询问句的一语音应答。

10.如权利要求1所述的移动终端装置，其中该移动终端装置默认在一个对话回合后自动打开该语音接收单元，除非前一个对话回合中使用者发出一对话终止提示信息。

11.一种语音操控方法，用于一移动终端装置，该方法包括：

判断是否接收到符合一识别信息的一第一语音信号；

当该第一语音信号符合该识别信息时，判断在该第一语音信号之后是否接收到一第二语音信号；

倘若未接收到该第二语音信号，则执行一语音对话模式；

倘若接收到该第二语音信号，则解析该第二语音信号而获得一语音辨识结果；

当该语音辨识结果具有一可执行请求信息时，执行一应答操作，并关闭接收一第三语音信号；以及

当该语音辨识结果不具有一可执行请求信息时，执行该语音对话模式。

12.如权利要求11所述的语音操控方法，其中执行该语音对话模式的步骤还包括：

13.如权利要求12所述的语音操控方法，其中当使用者输出一第四语音信号作为回应时，该语言理解模块判断该第四语音信号是否符合一对话终止提示信息，或者是否具有该可执行请求信息。

14.如权利要求13所述的语音操控方法，其中当该第四语音信号符合该终止提示信息或是具有该可执行请求信息时，该语言理解模块根据对话终止提示信息而终止该语音对话模式，或执行对应的该可执行请求信息。

15.如权利要求13所述的移动终端装置，其中当该第四语音信号不符合该终止提示信息且不具有该可执行请求信息时，该语言理解模块再次执行该语音对话模式。

16.如权利要求15所述的语音操控方法，其中当该语言理解模块在执行该语音对话模式时，如果使用者未输出该第四语音信号时，该语言理解模块则再次执行该语音对话模式。

17.如权利要求15或16所述的语音操控方法，其中当该语言理解模块于一预设时间内，由于使用者发出的该第四语音信号不符合该终止提示信息或者不具有该可执行请求信息，或者一直未发出该第四语音信号，而自动发送另一语音应答以询问使用者的请求信息的次数超过该预设次数，则终止该语音对话模式，且该移动终端装置关闭该语音接收单元。

18.如权利要求11所述的语音操控方法，当该语音辨识结果具有该可执行请求信息时，执行该应答操作的步骤包括：

当该可执行请求信息为一操作指令时，启动对应于该操作指令的一操作功能。

19.如权利要求11所述的语音操控方法，其中当该语音辨识结果具有该可执行请求信息时，执行该应答操作的步骤还包括：

当该可执行请求信息为一询问句，发送对应于该询问句的一语音应答。

20.如权利要求11所述的移动终端装置，其中该移动终端装置默认在一个对话回合后自动打开该语音接收单元，除非前一个对话回合中使用者发出一对话终止提示信息。