CN109597657B

CN109597657B - 针对目标应用的操作方法、装置及计算设备

Info

Publication number: CN109597657B
Application number: CN201710909219.7A
Authority: CN
Inventors: 詹辉
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2022-04-29
Anticipated expiration: 2037-09-29
Also published as: CN109597657A

Abstract

本发明公开了一种针对目标应用如语音导航的操作方法、装置及计算设备。本发明在目标应用的语音操作功能开启的情况下，接收来自用户的语音输入，判断语音输入是否与一个或多个预存语音数据之一相同，并响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作应用功能点。由此，在目标应用运行中出现需要用户手动操作的应用功能点，或者用户期望执行特定应用功能点，仅需输入与应用功能点对应的语音数据即可替代手动操作，以确保应用功能点准确快速的执行。

Description

针对目标应用的操作方法、装置及计算设备

技术领域

本发明涉及软件应用领域，特别是涉及一种针对诸如语音导航的目标应用的操作方法、装置及计算设备。

背景技术

随着语音识别技术的发展，人们在电子设备的日常使用中，能够在越来越多的场景下使用相关应用的语音输入功能。然而在现有技术中，各应用虽然具有接收语音输入的功能，但往往并不能完全使用语音命令实现流畅应用。换句话说，应用在运行过程中或多或少会出现需要用户手动操作的情况。而这在用户不方便手动执行时，会给用户造成一定的不便，甚至会影响用户的人身安全。例如，在日常行车过程中使用导航系统时，虽然导航系统通常能够识别语音输入的目的地，但在具体功能需要确认时，往往需要通过手动点击或执行特定手势来进行操作。这些操作假如在行车过程中执行，尤其是在高速路上执行，不但需要视线转移，更需要解放手来进行确认操作，这无疑会对行车安全带来极大的隐患，也是违法交通法律法规的行为。

因此，在应用运行中出现需要用户手动执行的操作而用户不方便执行时，如何使得用户能够方便且准确地执行该操作，是本领域所需解决的一大问题。

发明内容

本发明的主要目的在于提供一种针对目标应用如语音导航的操作方法、装置及计算设备，通过预先将目标应用中的应用功能点与预定的语音数据绑定，如此在目标应用运行中出现需要用户手动操作的应用功能点，或者用户期望执行特定应用功能点时，用户仅需输入与应用功能点对应的语音数据即可替代手动操作，实现应用功能点的准确执行。

根据本发明的一个方面，提供了一种针对目标应用的操作方法，包括：在目标应用的语音操作功能开启的情况下，接收来自用户的语音输入；判断语音输入是否与一个或多个预存语音数据之一相同，其中每个预存语音数据仅与一个应用功能点相对应；响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作应用功能点。

由此，在应用运行过程中出现需要用户手动操作的应用功能点，但是用户不便操作时，用户仅通过输入与应用功能点对应的语音数据即可替代手动操作，实现应用功能点的执行。

优选地，在语音输入与一个或多个预存语音数据之一的说话人和说话内容都相同的情况下判断语音输入与该预存语音数据相同。由此确保功能点执行的准确性和安全性。

优选地，判断语音输入是否与一个或多个预存语音数据之一相同的步骤可以包括：对语音输入进行处理以得到语音输入的频谱；以及将语音输入的频谱与一个或多个预存语音频谱数据相比较。由此，通过频谱特性进行匹配，以确保匹配的可行性和准确性。

优选地，对语音输入进行处理以得到语音输入的频谱的步骤可以包括：对语音输入进行降噪和去混响处理；对经降噪和去混响处理的语音输入进行分帧和加窗处理；对每个短时分帧窗进行快速傅里叶变换(FFT)以获取语音输入的频谱。由此确保获取频谱的便利性和准确性。

优选地，该方法还可以包括：预先录入语音并与应用功能点绑定，以作为预存语音数据。

由此，通过将应用功能点与特定的语音数据绑定，为后续基于用户输入的语音驱动相应的应用功能点执行，提供了条件。

优选地，与一个应用功能点绑定的是一条或多条预先录入的语音，其中，一条或多条预先录入的语音可以包括如下至少一项：同一说话人录入的与其绑定的应用功能点相同或不同的语音内容；不同说话人录入的与其绑定的应用功能点相同或不同的语音内容。

由此，可以在不影响功能的情况下根据用户自身喜好为应用功能点绑定自定义的语音数据。

优选地，响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作应用功能点的步骤可以包括：响应于语音输入与预存语音数据相同，给出是否执行与该预存语音数据相对应的当前待操作应用功能点的语音提示；以及响应于接收到与确认或取消功能相对应的语音输入，执行或不执行当前待操作应用功能点。由此，可以进一步确保应用功能点的执行符合用户的应用需求。

根据本发明的另一个方面，还提供了一种语音导航方法，包括：在导航应用的语音操作功能开启的情况下，接收来自用户的语音输入；判断语音输入是否与一个或多个预存语音数据之一相同，其中每个预存语音数据仅与导航应用中的一个功能点相对应；响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作功能点。

优选地，在语音输入与一个或多个预存语音数据之一的说话人和说话内容都相同的情况下判断语音输入与该预存语音数据相同，并且判断是通过比较语音的频谱进行的。

优选地，响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作功能点的步骤可以包括：响应于语音输入与预存语音数据相同，给出是否执行与该预存语音数据相对应的当前待操作功能点的语音提示；以及响应于接收到与确认或取消功能相对于的语音输入，执行或不执行当前待操作功能点。

根据本发明的另一个方面，还提供了一种针对目标应用的操作装置，包括：语音输入接收单元，用于在目标应用的语音操作功能开启的情况下，接收来自用户的语音输入；语音判断单元，用于判断语音输入是否与一个或多个预存语音数据之一相同，其中每个预存语音数据仅与一个应用功能点相对应；以及执行单元，用于响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作应用功能点。

优选地，在语音输入与一个或多个预存语音数据之一的说话人和说话内容都相同的情况下判断语音输入与该预存语音数据相同。

优选地，语音判断单元用于：对语音输入进行处理以得到语音输入的频谱；以及将语音输入的频谱与一个或多个预存语音频谱数据相比较。

优选地，对语音输入进行处理以得到语音输入的频谱包括：对语音输入进行降噪和去混响处理；对经降噪和去混响处理的语音输入进行分帧和加窗处理；对每个短时分帧窗进行快速傅里叶变换(FFT)以获取语音输入的频谱。

优选地，该装置还可以包括：预存语音数据获取单元，用于预先录入语音并与应用功能点绑定，以作为预存语音数据。

优选地，与一个应用功能点绑定的是一条或多条预先录入的语音，其中，一条或多条预先录入的语音包括如下至少一项：同一说话人录入的与其绑定的应用功能点相同或不同的语音内容；不同说话人录入的与其绑定的应用功能点相同或不同的语音内容。

优选地，执行单元响应于语音输入与预存语音数据相同，给出是否执行与该预存语音数据相对应的当前待操作应用功能点的语音提示，并响应于接收到与确认或取消功能相对应的语音输入，执行或不执行当前待操作应用功能点。

根据本发明的另一个方面，还提供了一种语音导航装置，包括：语音输入接收单元，用于在导航应用的语音操作功能开启的情况下，接收来自用户的语音输入；语音判断单元，用于判断语音输入是否与一个或多个预存语音数据之一相同，其中每个预存语音数据仅与导航应用中的一个功能点相对应；以及执行单元，用于响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作功能点。

优选地，执行单元响应于语音输入与预存语音数据相同，给出是否执行与该预存语音数据相对应的当前待操作功能点的语音提示，并且响应于接收到与确认或取消功能相对应的语音输入，执行或不执行当前待操作功能点。

根据本发明的另一个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行上文述及的方法。

根据本发明的另一个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行上文述及的方法。

本发明的目标应用如语音导航的操作方法、装置及计算设备，通过预先将目标应用中的应用功能点与预定的语音数据绑定，如此在目标应用运行中出现需要用户手动操作的应用功能点，或者用户期望执行特定应用功能点，仅需输入与应用功能点对应的语音数据即可替代手动操作，实现应用功能点的执行。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是示出了向用户展示的提示框的示意图。

图2是示出了根据本发明一实施例的针对目标应用的操作方法的示意性流程图。

图3是示出了根据本发明一实施例的语音导航方法的示意性流程图。

图4是示出了根据本发明一实施例的针对目标应用的操作装置的结构的示意性方框图。

图5是示出了根据本发明一实施例的计算设备的结构的示意性方框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

随着语音识别技术的发展，越来越多的应用开始自带语音输入功能。目前推出的语音输入功能大多是通过对用户输入语音的具体语义进行识别，以替代手动输入大量文字的操作。当前基于语音输入功能往往限于内容识别，即在语音识别的情况下，对实际内容的输入，例如录入具体的搜索内容、识别联系人名称或电话、口述短信内容等等。

在应用运行过程中用户期望打开某项功能，或者应用在运行过程中响应于特定条件的触发而弹出供用户选择确认的提示框时，仍需用户手动操作。针对这种在应用的运行过程中出现的需要用户手动操作的场景(往往是精细化或是关键场景)，利用现有的语音识别功能并不能很好地替代手动操作。这是因为，在这些场景下，应用提供的应用功能点可能较多且较为复杂，或者较为关键，在利用语音助手功能代替手动操作时，一是对输入的语音数据进行语义识别时不能保证识别结果的准确性，二是在识别出内容时，也不能保证能够将识别出的内容与当前场景下用户期望处理或需要用户处理的应用功能点精准地对应起来。

有鉴于此，本发明提出，针对目标应用在运行中原本需要手动操作的一个或多个应用功能点，可以预先将其与特定的语音数据绑定，其中，特定的语音数据可以是用户预先录入的语音数据，每个应用功能点对应一个语音数据(也可以对应多个语音数据)，但每个语音数据仅对应一个应用功能点。如此，在目标应用运行中需要用户通过手动操作实现某一应用功能点，或者用户期望在目标应用运行中打开某一应用功能点时，可以接收来自用户的语音输入，将接收到的语音输入与预先存储的语音数据进行比对，找出比对结果一致的语音数据所对应的应用功能点，在该应用功能点处于当前可操作状态时，即可将该应用功能点确定为当前需要操作的应用功能点，并执行。由此，在应用运行过程中出现需要用户手动操作的应用功能点，但是用户不便操作时，用户仅通过输入与应用功能点对应的语音数据即可替代手动操作，实现应用功能点的执行。

通过与预先录入的声纹(例如，经傅里叶变换得到的声音频谱数据)匹配来启动应用功能点，首先能够免除对联网以获取语音识别结果的需要，这在网络不佳的应用场景下(例如，行车至偏僻地区时的导航需求)尤其有效。另外，由于匹配在客户端内经由声纹实现，因此可以保证语音命令的高度准确性和及时性，从而能够在某些需要确保正确及时输入的关键功能点上应用语音输入。

在本发明中，应用功能点可以是指应用运行过程中可供用户主动操作(点击、拖拽或其它特定手势)以实现对应功能的外部命令入口，该功能点可以是在UI(UserInterface，用户界面)中展示的功能点，也可以是未展示但是能够被用户主动执行的功能点。用户可以通过点击应用界面中的特定按钮或执行特定手势来执行相应功能，例如，通过点击具体子频道内容或是左右滑动手势来实现子频道的切换。在导航地图运行过程中，用户可以执行特定手势以实现地图放大、缩小或定位到当前位置等功能，这些与特定手势对应的放大、缩小或定位到当前位置等特定功能虽然未在界面中示出，也可称为应用功能点。另外，应用在运行中可以响应于特定条件的触发，弹出可供用户选择“确认”和“取消”的提示框，而这也可以看做是接收用户命令(“确认”和“取消”对应功能)的入口，即应用功能点。

与现有应用自带的语音功能相比，本发明可以视为针对特定应用的特定场景(例如，精细化场景)下的语音操作方案。其中，精细化场景可以指代特定应用在运行状态下出现的通常需要用户通过手动操作执行特定应用功能点(例如，需要高度确保输入准确性的应用功能点)，以实现特定功能的场景。本发明可以作为现有技术中语音功能的补充，在语音输入功能开启情况下，针对应用运行中出现的仍需用户手动操作实现的应用功能点，利用本发明可以及时实现基于语音驱动应用功能点的精准执行。

基于上述对本发明的方案的描述可知，本发明的关键之处在于，预先将语音数据与应用功能点进行绑定以及根据用户的语音输入识别对应的应用功能点。其中，预先将语音数据与应用功能点进行绑定可以视为发明的准备阶段，根据用户的语音输入识别对应的应用功能点可以视为发明的实现阶段。下面结合具体实施例分别就这两方面做详细说明。

一、准备阶段

1、应用功能点的选取

针对目标应用，可以首先确定目标应用运行中需要进行语音匹配的应用功能点。上述选取可以是目标应用发布前，由应用编写方来进行的，由此发布带有可经由语音匹配接收命令输入的应用功能点的目标应用，并由客户端下载使用。应用编写方可以从所有应用功能点中选取使用频率高和/或手动操作实现复杂的应用功能点，例如需要用户通过多次点击操作或复杂的手势才能执行的应用功能点。也可以选择需要确保准确性的应用功能点。客户端在下载并安装目标应用之后，可以对安装好的应用进行设置。上述设置例如可以是开启语音匹配可选项，和/或能够对具体用于进行语音匹配的应用功能点进行逐个选择。

例如，某导航应用包括20个应用功能点，其中包括例如具体目的地录入的这类(由于内容不可事先确定而)不适合进行语音匹配的应用功能点，也包括例如确认开始导航的这类(由于精确性和安全性的需求而)适于进行应用匹配的功能点。因此，该导航应用在发布时例如可以开发语音匹配功能，并且其中的5个应用功能点可以进行本发明的语音匹配。用户在下载了上述导航应用时，例如可以通过勾选语音匹配可选项来开启语音匹配功能，并通过为其中的例如3个应用功能点预先录入语音(如下详述)来真正开启本发明的语音匹配功能。

需要说明的是，在选取应用功能点时，除了针对目标应用本身提供的具体功能项之外，还可以针对具体功能项的“确认”和“取消”。例如，可以针对从目标应用提供的所有可选择应用功能点中选取一个或多个应用功能点，分别为其配置供用户确认是否确定执行该应用功能点的“确认”功能点和/或供用户确认是否取消执行该应用功能点的“取消”功能点。其中，生成的“确认”功能点和/“取消”功能点的执行逻辑可以在其对应的应用功能点之后，即在执行应用功能点之前，向用户展示“确认”功能点和/“取消”功能点，以供用户确认是否确定执行所选中的应用功能点。如图1所示，可以为应用功能点A配置“确认”功能点和“取消”功能点，在执行应用功能点A前，可以展示图1所示的提示框，以供用户选择是否确认执行应用功能点A。或者，上述应用功能点也可以是由应用自行规定的在真正启动之前需要例如提示框进行最终确认的功能点，因此可以单独录入与“确认”和“取消”功能点相对应的语音数据，并在需要最终确认的每个应用功能点最终执行之前，给出相应的语音输入。

2、应用功能点的绑定

在选取应用功能点后，可以为每个选取的应用功能点绑定一个语音数据，也可以绑定多个语音数据。其中，将应用功能点与语音数据进行绑定的操作可以由系统执行，也可以由用户根据自身喜好自定义与应用功能点对应的语音数据。

语音数据的语音内容可以与其对应的应用功能点的内容相同或语义相关。例如，在应用功能点为“确认”功能点时，可以要求预存语音数据必须具有与该功能点向对应的语义内容，例如，需要录入“确认”本身；也可以是“确定”、“OK”、“好的”等内容相同或语义相关的语音内容。另外，语音数据也可以是与应用功能点的内容或其指示的功能无关的语音内容，例如，系统可以不对录入的语音进行语义识别，而仅仅录入预先以供后续匹配之用。例如，同样对于“确认”功能点，预存语音数据可以是用户喜欢的任何语音，例如饲养宠物的用户所喜欢的“喵”、“汪”等语音内容。

在由用户确定与应用功能点绑定的语音数据时，同一目标应用下的应用功能点所对应的语音数据可以是同一说话人录入的语音，也可以是不同说话人录入的语音，并且如上文所述，录入的语音可以是与其绑定的应用功能点相同或不同的语义内容。但一经绑定，随后进行匹配的语音需要与预先录入的语音保持发音相同，优选需要发音的人也相同。例如，当用户A预先仅录入了一条语音数据(例如，“开车啦”)来与“开始导航”功能点相匹配的情况下，导航应用的后续使用中，可以规定任何人说出“开车啦”的语音就能调出“开始导航”功能点，也可以规定只有用户A(以与录入时相同的发音和语调)说出“开车啦”才能调出“开始导航”功能点。

另外，在录入说话人的语音后，还可以进行测试，请求说话人再次说出之前录入的语音，并判断其是否与之前录入的语音匹配，在不匹配的情况下，重复录入，直至匹配成功。

需要说明的是，应用在运行过程中可能存在多个运行状态，在每个运行状态下可能具有多个可执行的应用功能点。在为同一应用中的多个应用功能点绑定语音数据时，应避免出现一个预存语音数据对应同一运行状态下的多个可执行的应用功能点的情况。以阅读类应用为例，应用的首页可能存在“书架”、“推荐”、“分类”、“发现”等应用功能点。在应用的书籍阅读页面中可能存在“目录”、“进度”、“设置”等应用功能点。由于“书架”和“目录”不属于同一运行状态，因此可以为“书架”和“目录”这两个应用功能点绑定同一语音数据。而“书架”、“推荐”、“分类”以及“发现”属于同一运行状态，因此需要为“书架”、“推荐”、“分类”以及“发现”绑定不同的语音数据。优选地，可以一个预存语音数据仅与一个应用功能点相对应，以避免混淆。

3、语音数据的保存

在为应用功能点绑定相应的语音数据后，可以将语音数据进行保存，以便于后续与用户输入的语音进行比对。为了便于区分，保存的语音数据可以称为预存语音数据。

根据比对原理不同，所保存的预存语音数据也不尽相同。具体地说，在根据语音数据的语音内容(即语义)进行比对时，所保存的预存语音数据可以是音频数据，也可以是经过识别得到的语音内容。在根据语音数据的语音内容以及说话人进行比对时，所保存的预存语音数据可以是音频数据和语音内容。在根据语音数据的音频特性进行比对时，所保存的预存语音数据可以是能够体现其音频特性的数据，如可以是表征语音数据的频率变化情况的频谱数据。其中，频谱数据可以通过对语音数据进行傅里叶变化得到。具体地，在录入语音时，可以对录入的语音进行降噪和去混响处理，并对经降噪和去混响处理的语音输入进行分帧和加窗处理，得到多个短时分帧窗，对每个短时分帧窗进行快速傅里叶变换(FFT)以获取录入的语音的频谱，并将该频谱作为预存语音数据进行保存。其中，分帧时的帧长、加窗时所使用的窗函数可以根据实际情况设定，对短时分帧窗进行FFT以得到频谱的具体实现过程为本领域技术人员所公知，此处不再赘述。

至此，准备阶段结束，可以得到与目标应用中的一个或多个应用功能点绑定的一个或多个预存语音数据，然后可以进入实现阶段。

二、实现阶段

参见图2，方法开始于步骤S210，在目标应用的语音操作功能开启的情况下，接收来自用户的语音输入。

目标应用可以是安装在多种设备上的应用。如可以是安装在手机、IPAD等移动终端上的应用，也可以是安装在智能电视、智能汽车等终端设备上的应用。

在这里，语音操作功能指的是设备上的麦克风开启，能够接收语音输入的功能。在一个实施例中，上述功能可以由现有的应用自带的语音识别功能连带实现，其在开启状态下可以捕获用户的语音输入并例如经由联网进行语义识别。另外，语音操作功能也可以是基于本发明开发的用于实现本发明的方法的功能，其可以作为子功能安装在目标应用中，也可以作为第三方应用安装在与目标应用相同的设备上，还可以作为系统功能预安装在与目标应用相同的设备中。在其他实施例中，上述功能可以仅仅是麦克风开启并接收语音输入的功能，而不涉及对输入语音的语义识别。

在一个实施例中，在步骤S210接收的语音收入，可以仅针对预先录入了预先语音数据并能够进行如下语音匹配的应用功能点。例如，在开启语音操作功能的情况下，即，麦克风能够接收用户语音输入的情况下，可以首先判定当前的应用功能点是用于接收常规语音识别的功能点还是用于接收语音匹配的功能点，或者是未开启接收语音命令的功能点(例如，仅接收手动输入)。在判断当前应用功能点是(和/或包括)开启了语音匹配功能的情况下，在进行如下步骤S220；而在判断当前应用功能点是用于接收语音识别信息的功能点的情况下，则进行常规的语音识别和输入操作。在另一个实施例中，上述对进行语音识别还是语音匹配的判断可以在如下步骤S220中进行。

语音操作功能可以由用户自主开启，也可以是在目标应用启动后自行开启。在语音操作功能开启的情况下，可以接收来自用户的语音输入。响应于接收到来自用户的语音输入，可以执行步骤S220，判断语音输入是否与一个或多个预存语音数据之一相同。

在一个实施例中，上述判断也可以包括对输入的语音是用于语音识别还是用于与预存语音数据匹配的判断。例如，在接收到语音输入之后，可以首先进行与预存语音数据的比对，也可以同时进行语音识别，并在比对成功时进行如下步骤S230的操作，而在比对不成功时进行常规的语音识别操作。但显而易见的是，虽然在此以及在上文针对步骤S210的描述中都涉及了对语音识别和语音匹配加以区分的优选实施例，但本发明的操作方案也可以是在能够接收语音输入的情况下直接接收语音输入并与预存语音数据相比较，而无需考虑对语音识别加以辨别，例如在目标应用未开启语音识别功能的情况下。

此处可以仅通过判断说话内容是否相同来判断语音输入是否和预存语音数据相同。也可以在对说话内容进行判断之外，对语音输入的说话人是否和预存语音数据的说话人相同进行判断，在说话内容和说话人都相同的情况下，判定语音输入和预存语音数据相同。其中关于预存语音数据的描述可以参见上文相关说明，此处不再赘述。

在判断说话内容是否相同时，可以基于语音识别技术识别出语音输入的内容，然后与预存语音数据的内容进行比较。在判断说话人是否相同时，可以通过声纹识别技术判断语音输入的声纹特征是否和预存语音数据的声纹特征匹配，以此确定说话人是否相同。其中，说话内容和说话人的判断可以同时执行，也可以分开执行。关于语音识别技术和声纹识别技术为本领域技术人员所公知，此处不再赘述。

作为本发明的一个可选实施例，可以通过比较语音输入的音频特性是否和预存语音数据相同，判断语音输入是否和预存语音数据是否相同。例如，可以通过比较语音输入的频谱特性是否和预存语音数据的频谱特性一致，判断语音输入是否和预存语音数据是否相同。此时，预存语音数据的频谱数据可以是预先获取的，为了便于区分，该频谱数据可以称为预存语音频谱数据。语音输入的频谱可以是在接收到来自用户的语音输入后实时获取的，具体可以通过对语音输入进行傅里叶变换得到频谱。一种可行的处理过程如下：首先可以对语音输入进行降噪和去混响处理，然后对经降噪和去混响处理的语音输入进行分帧和加窗处理，以得到多个短时分帧窗，然后对每个短时分帧窗进行快速傅里叶变换(FFT)以获取语音输入的频谱。其中，分帧时的帧长、加窗时所使用的窗函数可以根据实际情况设定，对短时分帧窗进行FFT以得到频谱的具体实现过程为本领域技术人员所公知，此处不再赘述。上述从输入的语音数据中提取“声纹”并进行匹配的技术，能够以相比于语音识别高得多的准确性和适应性来确保实际信息输入的正确性，因此尤其适用于需要确保准确输入的应用或其功能点。在进一步要求说话人相同的情况下，上述“声纹”匹配还能够进一步提升应用使用的安全性，例如，需要保证使用者隐私安全的聊天软件的相关应用。

在步骤S230，响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作应用功能点。

当前待操作应用功能点是指当前处于可操作状态的应用功能点。在基于步骤S220得到与语音输入相同的预存语音数据后，可以判断与该预存语音数据对应的应用功能点当前是否处于可操作状态，在应用功能点当前处于可操作状态时，可以认为该应用功能点即为当前需要操作的应用功能点，由此可以执行该应用功能点。在与语音输入相同的预存语音数据对应的应用功能点当前处于不可操作状态时，可以认为接收到的语音输入为无效指令。

在本发明的一个实施例中，响应于语音输入与预存语音数据相同，可以给出是否执行与该预存语音数据相对应的当前待操作应用功能点的语音提示。响应于接收到与确认或取消功能相对应的语音输入，执行或不执行当前待操作应用功能点。其中，确认或取消功能可以是目标应用中本身提供的应用功能点，也可以是目标应用本身未提供，而是由本发明生成的虚拟应用功能点。也就是说，可以将确认和取消功能同样视为两个应用功能点，并且可以在准备步骤中，为确认和取消功能分别绑定不同的预存语音数据，由此，对于给出语音提示后接收到的语音输入，可以同样判断该语音输入是否与确认或取消功能对应的预存语音数据相匹配，相匹配的预存语音数据对应的功能即为用户的选择。在真正启用已匹配的应用功能点之前加入对“确认”还是“取消”的最终确认，并通过本发明的声音匹配来加以实现，能够进一步提升功能点执行的准确性。在一个极端例子中，应用可以使用常规的语音识别功能调用任何期望的具体应用功能点，只需在每个应用功能点真正执行之前用预先录入的与“确认”或“取消”相对应的语音命令进行最终确认即可确保各个功能的准确执行。

至此，详细说明了本发明的针对目标应用的操作方法的实现流程。在实际应用中，可以将本发明的操作方法作为子功能嵌入在具体应用中，也可以作为第三方应用，与目标应用安装在同一设备上，可以通过获取相关root权限与目标应用配合使用，另外还可以作为系统功能预安装在相应设备的操作系统(如Android系统)中。

本发明的针对目标应用的操作方法可以应用于多种场景，如可以适用于使用过程中用户不便执行手动操作的应用如导航应用，也可以应用于盲人或肢体残疾人士等不便于执行手动操作的人群。在应用于盲人或肢体残疾人士等人群时，可以将本发明的操作方法直接移植到设备的操作系统中，如此，对于安装在该设备上的应用在运行过程中出现的需要用户手动操作的应用功能点，用户通过输入相应的语音即可替代手动操作实现应用功能点的执行。

下面以导航应用为例，就本发明的操作方法的实现流程做简要说明。图3是示出了根据发明一实施例的语音导航方法的示意性流程图，其中，图3所示的方法中的细节部分可以参见上文相关描述，此处不再赘述。

参见图3，方法开始于步骤S310，在导航应用的语音操作功能开启的情况下，接收来自用户的语音输入。优选地，该步骤包括首先判断当前应用功能点是否是用于进行语音匹配的功能点的步骤，若是，则进行如下步骤S320。若不是，则进行常规的语音识别操作或是接受手动操作输入。

在步骤S320，判断语音输入是否与一个或多个预存语音数据之一相同，其中每个预存语音数据仅与导航应用中的一个功能点相对应；

在本发明的一个实施例中，可以在语音输入与一个或多个预存语音数据之一的说话人和说话内容都相同的情况下判断语音输入与该预存语音数据相同，并且判断是通过比较语音的频谱进行的。

在步骤S330，响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作功能点。

在本发明的一个实施例中，响应于语音输入与预存语音数据相同，可以给出是否执行与该预存语音数据相对应的当前待操作功能点的语音提示，并且响应于接收到与确认或取消功能相对于的语音输入，执行或不执行当前待操作功能点。

至此，结合图2-3详细描述了本发明的针对目标应用的操作方法。本发明的针对目标应用的操作方法还可以实现为一种针对目标应用的操作装置。图4是示出了根据本发明一实施例的针对目标应用的操作装置的结构的示意性方框图。其中，操作装置400的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图4所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。下面仅就操作装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文描述，这里不再赘述。

参见图4，操作装置400包括语音输入接收单元410、语音判断单元420以及执行单元430。

语音输入接收单元410用于在目标应用的语音操作功能开启的情况下，接收来自用户的语音输入。

语音判断单元420用于判断语音输入是否与一个或多个预存语音数据之一相同，每个预存语音数据仅与一个应用功能点相对应。其中，语音判断单元420可以在语音输入与一个或多个预存语音数据之一的说话人和说话内容都相同的情况下判断语音输入与该预存语音数据相同。

在本发明的一个实施例中，语音判断单元420可以对语音输入进行处理以得到语音输入的频谱，例如可以对语音输入进行降噪和去混响处理；对经降噪和去混响处理的语音输入进行分帧和加窗处理；对每个短时分帧窗进行快速傅里叶变换(FFT)以获取语音输入的频谱。并将语音输入的频谱与一个或多个预存语音频谱数据相比较。

执行单元430用于响应于语音输入与预存语音数据相同，执行与该预存语音数据相对应的当前待操作应用功能点。具体地，执行单元330可以响应于语音输入与预存语音数据相同，给出是否执行与该预存语音数据相对应的当前待操作应用功能点的语音提示，并响应于接收到与确认或取消功能相对应的语音输入，执行或不执行当前待操作应用功能点。

如图4所示，操作装置还可以可选地包括图中虚线框所示的预存语音数据获取单元440，用于预先录入语音并与应用功能点绑定，以作为预存语音数据。其中，与一个应用功能点绑定的可以是一条或多条预先录入的语音，一条或多条预先录入的语音可以包括如下至少一项：同一说话人录入的与其绑定的应用功能点相同或不同的语音内容；不同说话人录入的与其绑定的应用功能点相同或不同的语音内容。

在本发明的一个实施例中，操作装置400可以实现为一种针对导航应用的语音导航装置。此时，在导航应用的语音操作功能开启的情况下，可以由语音输入接收单元410接收来自用户的语音输入，并由语音判断单元420判断语音输入是否与一个或多个预存语音数据之一相同，其中每个预存语音数据仅与导航应用中的一个功能点相对应，响应于语音输入与预存语音数据相同，执行单元430可以执行与该预存语音数据相对应的当前待操作功能点。

至此，结合图4就本发明的操作装置的结构做了简要说明。其中图4所示的操作装置可以应用于客户端设备。另外，本发明还可以实现为一种服务器端设备，服务器端设备可以提供携带有本发明的语音操作功能的应用，供用户下载。另外，服务器端也可以提供基于本发明的操作方法开发的第三方应用，供用户下载到本地客户端，其可以通过获取相关root权限，与安装在本地客户端中的目标应用配合使用。

图5是示出了根据本发明一个实施例的计算设备500的结构的示意性方框图。其中，计算设备500可以是可以实施为各种类型的计算机装置，例如台式机、便携式计算机、平板电脑、智能手机、个人数据助理(PDA)，或者其他类型的计算机装置，但是不限于任何特定形式，如可以是安装在车辆中的导航设备。

如图5所示，本发明的计算设备500可以包括处理器510以及存储器520。处理器510可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器510可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器510可以使用定制的电路实现，例如特定用途集成电路(application specific integrated circuit，ASIC)或者现场可编程逻辑门阵列(field programmable gate arrays，FPGA)。

存储器520可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器510或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器520可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器120可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

在本发明实施例中，存储器520上存储有可执行代码，处理器510可以执行存储在存储器520上的可执行代码。当可执行代码被处理器510执行时，可以使处理器510执行本发明的针对目标应用的操作方案。其中，存储器520上除了存储可执行代码，还可以存储处理器510在执行本发明的针对目标应用的操作方案过程中所需的部分或所有数据。

上文中已经参考附图详细描述了根据本发明的目标应用如语音导航的操作方法、装置及计算设备。本发明的操作方案尤其适用于作为常规语音识别功能的补充。例如，目标应用中的常规操作(例如，具体起始点和结束点地址的录入)可以采用已有的语音识别功能模块进行识别，而对于某些不适合语音识别输入的操作(例如，重要的应用功能点，例如，最终的“确认”或是“开始导航”操作)，则可以采用本发明的输入语音与预存语音进行匹配的方案，由此确保操作的准确性、及时性以及对网络的无依赖性。在一种极端的情况下，例如，目标应用能够接收的命令的内容和种类极为有限的情况下，可以为该应用内所有应用功能点开放预存语音输入和匹配功能。在另一个极端情况下，可以仅仅将“确认”和“取消”功能点开放为能够经由本发明的语音匹配实现。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种针对目标应用的操作方法，包括：

在目标应用的语音操作功能开启的情况下，接收来自用户的语音输入；

判断所述语音输入的频谱是否与一个或多个预存语音数据之一的频谱相同，其中每个预存语音数据仅与所述目标应用启用的一个应用功能点相对应；

响应于所述语音输入与预存语音数据的频谱相同，执行与该预存语音数据相对应的当前待操作应用功能点，

其中，所述语音操作功能开启是麦克风开启并接收语音输入的功能，不涉及对输入语音的语义识别。

2.如权利要求1所述的方法，其中，在所述语音输入与一个或多个预存语音数据之一的说话人和说话内容都相同的情况下判断所述语音输入与该预存语音数据相同。

3.如权利要求1所述的方法，其中，所述判断所述语音输入的频谱是否与一个或多个预存语音数据之一的频谱相同的步骤包括：

对所述语音输入进行处理以得到所述语音输入的频谱；以及

将所述语音输入的频谱与一个或多个预存语音频谱数据相比较。

4.如权利要求3所述的方法，其中，所述对所述语音输入进行处理以得到所述语音输入的频谱的步骤包括：

对所述语音输入进行降噪和去混响处理；

对经降噪和去混响处理的语音输入进行分帧和加窗处理；

对每个短时分帧窗进行快速傅里叶变换(FFT)以获取所述语音输入的频谱。

5.如权利要求1所述的方法，还包括：

预先录入语音并与应用功能点绑定，以作为所述预存语音数据。

6.如权利要求5所述的方法，其中，与一个应用功能点绑定的是一条或多条预先录入的语音，其中，所述一条或多条预先录入的语音包括如下至少一项：

同一说话人录入的与其绑定的应用功能点相同或不同的语音内容；

不同说话人录入的与其绑定的应用功能点相同或不同的语音内容。

7.如权利要求1所述的方法，其中，所述响应于所述语音输入与预存语音数据的频谱相同，执行与该预存语音数据相对应的当前待操作应用功能点的步骤包括：

响应于所述语音输入与预存语音数据的频谱相同，给出是否执行与该预存语音数据相对应的当前待操作应用功能点的语音提示；以及

响应于接收到与确认或取消功能相对应的语音输入，执行或不执行所述当前待操作应用功能点。

8.一种语音导航方法，包括：

在导航应用的语音操作功能开启的情况下，接收来自用户的语音输入；

判断所述语音输入的频谱是否与一个或多个预存语音数据之一的频谱相同，其中每个预存语音数据仅与所述导航应用中启用的一个功能点相对应；

响应于所述语音输入与预存语音数据的频谱相同，执行与该预存语音数据相对应的当前待操作功能点，

9.如权利要求8所述的方法，其中，所述响应于所述语音输入与预存语音数据的频谱相同，执行与该预存语音数据相对应的当前待操作功能点的步骤包括：

响应于所述语音输入与预存语音数据的频谱相同，给出是否执行与该预存语音数据相对应的当前待操作功能点的语音提示；以及

响应于接收到与确认或取消功能相对于的语音输入，执行或不执行所述当前待操作功能点。

10.一种针对目标应用的操作装置，包括：

语音输入接收单元，用于在目标应用的语音操作功能开启的情况下，接收来自用户的语音输入；

语音判断单元，用于判断所述语音输入的频谱是否与一个或多个预存语音数据之一的频谱相同，其中每个预存语音数据仅与所述目标应用启用的一个应用功能点相对应；以及

执行单元，用于响应于所述语音输入与预存语音数据的频谱相同，执行与该预存语音数据相对应的当前待操作应用功能点，

11.如权利要求10所述的装置，其中，所述语音判断单元用于：

对所述语音输入进行处理以得到所述语音输入的频谱；以及

12.如权利要求11所述的装置，其中，所述对所述语音输入进行处理以得到所述语音输入的频谱包括：

对所述语音输入进行降噪和去混响处理；

对经降噪和去混响处理的语音输入进行分帧和加窗处理；

13.如权利要求10所述的装置，还包括：

预存语音数据获取单元，用于预先录入语音并与应用功能点绑定，以作为所述预存语音数据。

14.如权利要求13所述的装置，其中，与一个应用功能点绑定的是一条或多条预先录入的语音，其中，所述一条或多条预先录入的语音包括如下至少一项：

15.如权利要求10所述的装置，其中，所述执行单元响应于所述语音输入与预存语音数据相同，给出是否执行与该预存语音数据相对应的当前待操作应用功能点的语音提示，并响应于接收到与确认或取消功能相对应的语音输入，执行或不执行所述当前待操作应用功能点。

16.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-9中任一项所述的方法。

17.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-9中任一项所述的方法。