CN107919127A

CN107919127A - 语音处理方法、装置和电子设备

Info

Publication number: CN107919127A
Application number: CN201711203466.1A
Authority: CN
Inventors: 陈本东; 潘复平
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-04-17
Anticipated expiration: 2037-11-27
Also published as: CN107919127B

Abstract

公开了一种语音处理方法、装置和电子设备。所述方法包括：接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；获取识别搜索网络；以及，使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。因此，可以实现用户语音的有效和低复杂度识别。

Description

语音处理方法、装置和电子设备

技术领域

本申请涉及语音处理领域，且更为具体地，涉及一种语音处理方法、语音处理装置、电子设备和计算机可读存储介质。

背景技术

随着各种电子设备的普及，为了提高与电子设备的交互的便利性，越来越多的电子设备提供了语音交互的功能。例如，诸如智能手机的电子设备提供有语音助手功能，用户可以通过语音来控制电子设备以执行相应的功能。因此，电子设备需要识别用户的语音，从而获知用户的真实意图，以控制相应的功能单元执行用户所需的功能。

但是，现有的语音处理方法存在系统复杂、对系统资源要求高的问题。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种语音处理方法、语音处理装置、电子设备和计算机可读存储介质，其可以通过识别搜索网络对输入语音的可预期部分和不可预期部分进行不同处理以获得相应的文本信息和音频段。这样，由于不需要全部输入语音的语义识别，降低了语音处理的系统复杂度，并且，仍然能够提取出输入语音的可预期部分和不可预期部分的必要信息，保证了语音处理的有效性。

根据本申请的一个方面，提供了一种语音处理方法，包括：接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；获取识别搜索网络；以及，使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

根据本申请的另一方面，提供了一种语音处理装置，包括：接收单元，用于接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；获取单元，用于获取识别搜索网络；以及识别单元，用于使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的语音处理方法。

根据本申请的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的语音处理方法。

与现有技术相比，采用根据本申请实施例的语音处理方法、语音处理装置、电子设备和计算机可读存储介质，可以接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；获取识别搜索网络；以及，使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。因此，可以通过识别搜索网络对输入语音的可预期部分和不可预期部分进行不同处理以获得相应的文本信息和音频段，在保证语音识别的有效性的同时降低了复杂度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的语音处理方法的流程图；

图2图示了根据本申请实施例的语音处理方法中的获取识别搜索网络步骤的流程图；

图3图示了根据本申请实施例的语音处理方法中的识别可预期部分和提取不可预期部分步骤的流程图；

图4图示了根据本申请实施例的语音处理方法中的识别搜索网络的示意图；

图5图示了根据本申请另一实施例的语音处理方法的流程图；

图6图示了根据本申请实施例的语音处理装置的框图；

图7图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

诸如智能手机的电子设备通常都提供有语音助手功能，用户可以通过语音来控制电子设备以执行相应的功能。例如，现在的语音助手很多都包含提醒功能。例如，用户可以对语音助手说“5分钟后提醒我”、“设置一个5分钟的闹钟”，这样设定后，电子设备会在五分钟后，开始播放预先定义的音频文件，以实现提醒用户的目的。然而，如果用户设定了多个提醒，则在每个提醒音频播放时，用户可能不知道机器提醒的到底是什么内容，到底是提醒用户该做饭，还是该看电视剧了。

有一种语义解析的方法可以部分解决这个问题。比如用户可以说“今天下午6点提醒我做饭”、“明天晚上8点提醒我看电视剧楚乔传”。系统先通过语音识别，转换文字，然后通过自然语言理解技术，把文字“做饭”或者“看电视剧楚乔传”抽取出来，在到时间后，通过语音合成，播报“做饭”或者“看电视剧楚乔传”相关的内容，如语音合成播报“现在是做饭的时间啦”、“现在是看电视剧楚乔传的时间啦”。这样，实现了个性化闹铃的功能。

但是，该方法依赖无限定词的语音识别，这对识别系统的性能和模型更新速度都有很高要求。例如，对于一个新电视剧的名称，语音识别系统要想准确的识别出来，需要对大量生僻词进行处理，从语音中解析出文字的含义，其系统复杂度很高，需要训练模型、解析槽位等一系列步骤，因而会耗费大量的处理资源。而嵌入式电子设备有限的运算资源决定了它不可能流畅地运行通用的语音识别系统，并通过语义识别理解识别结果中包含的用户意图。即使是运行一些经过裁剪的系统，性能也很难满足要求。因此，自然语言理解的功能通常放在服务器端实现，即在工作时终端设备需要通过互联网访问服务器端来提供提醒功能。但是，在智能家电设备中，可能并不是每个家电设备都具有互联网连接功能，或者在每个场合都能够访问互联网。

通过分析，本申请的发明人注意到，对于用于语音提醒功能的用户语音，一般固定地包括两部分内容：一个是描述日期时间的部分，另一个是陈述用户意图的部分。例如，“今天下午6点提醒我做饭”，这句话中“今天下午6点”是描述日期时间，“提醒我做饭”是描述用户意图。根据本申请实施例的语音处理方法意在将用户的输入语音中包含的这两部分内容都提取出来，但实现形式与现有技术中明显不同。

可以看出，用户的输入语音的两部分内容中，第一部分的语音基本都是符合特定模式的，例如“××日期”、“××时间”、“××日期××时间”，它所包含的句式和词汇是一个有限的集合，因此，在本申请的实施例中，可以用语法识别技术准确识别出语音对应的文本，而且在得到识别结果后，可以同时得到识别结果对应的语法句式，从而自动获取关于日期、时间等关键槽位的信息，不需要额外的自然语言理解模块对识别结果进行解析。而关于用户的输入语音中的第二部分语音内容，最终的目的实际上不是对其进行识别和理解，而是只需要针对这部分内容对用户进行提醒。例如，只要能够把用户的输入语音中的第二部分语音准确地提取出来，然后在正确的时间向用户播放，即可完成提醒的功能。

因此，在根据本申请实施例的语音处理方法中，并不需要对于用户输入的整段语音都进行语音识别和语义识别，而是利用用户的输入语音具有一定的可预期性，将该输入语音区分为可预期部分和不可预期部分，通过简单的识别搜索网络，仅将可预期部分识别为文本信息，而将不可预期部分直接提取为音频段。

例如，在上述的语音提醒应用中，可以通过预先定义的语法网络对用户的输入语音进行识别，语法网络可以自动识别日期时间等关键信息并将它们转换为文字。除了关键信息之外的语音部分则通过填充吸收网络自动保存为音频段，以用于在识别出的日期时间播放该音频段，从而实现定时提醒功能。

这样，根据本申请实施例的语音处理方法显著地节省了系统资源，从而实现了低系统复杂度的语音处理，并因而可以直接在终端设备上实现，无需依靠对于互联网的频繁访问。并且，由于识别搜索网络可以将可预期部分和不可预期部分中的必要信息分别以文本和音频的方式提取出来，保证了语音处理以实现用户所期望功能的有效性。

本领域技术人员可以理解，根据本申请实施例的语音处理方法不仅可以应用于如上所述的语音助手的定时提醒功能，还可以应用于诸如语音笔记等其它应用场合，本申请实施例并不意在对此进行任何限制。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的语音处理方法的流程图。

如图1所示，根据本申请实施例的语音处理方法包括：S110，接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；S120，获取识别搜索网络；以及S130，使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

图2图示了根据本申请实施例的语音处理方法中的获取识别搜索网络步骤的流程图。

如图2所示，在上述语音处理方法中，获取识别搜索网络S120可以包括：S121，生成用于所述可预期部分的语法网络；S122，生成用于所述不可预期部分的填充吸收网络；以及，S123，串联所述语法网络和所述填充吸收网络，以生成所述识别搜索网络。

进一步地，生成用于所述可预期部分的语法网络S121可以包括：将可能在所述可预期部分中出现的每类元素确定为一组节点；将不同类元素之间可能出现的先后连接关系确定为不同组节点之间的边；以及，根据所述节点和所述边来构建所述语法网络，以使得所述语法网络中包含节点和边的各条路径能够分别对应于各个元素可能出现的各种组合。

生成用于所述不可预期部分的填充吸收网络S122可以包括：设置虚拟入口节点；设置虚拟出口节点；以及，设置多个模糊发音单元，并联地连接在所述虚拟入口节点和所述虚拟出口节点之间，用于覆盖所有可能的音素。

串联所述语法网络和所述填充吸收网络，以生成所述识别搜索网络S123可以包括：将所生成的语法网络和填充吸收网络级联在一起，组成所述识别搜索网络。

图3图示了根据本申请实施例的语音处理方法中的识别可预期部分和提取不可预期部分步骤的流程图。

如图3所示，在上述语音处理方法中，使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段S130可以包括：S131，将所述输入语音输入到所述识别搜索网络；S132，在所述识别搜索网络中对所述输入语音进行解码，以得到最优路径；以及，S133，根据所述最优路径来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

进一步地，根据所述最优路径来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段S133可以包括：根据所述最优路径来在所述输入语音中定位所述可预期部分和所述不可预期部分；使用所述语法网络生成并存储与所述可预期部分对应的文本信息；以及，使用所述填充吸收网络来提取并存储与所述不可预期部分对应的音频段。

其中，使用所述填充吸收网络来提取并存储与所述不可预期部分对应的音频段可以包括：从所述虚拟出口节点返回到所述虚拟入口节点不断循环重复，以提取任意长度任意内容的不可预期部分，并且存储与所述不可预期部分对应的音频段。

下面，将结合语音提醒应用为例，对根据本申请实施例的语音处理方法中的搜索识别网络进行详细说明。

如上所述，该搜索识别网络可以包括用于识别可预期部分的句式语法的语法网络和用于提取不可预期部分的音频段的填充吸收网络。

为了起到节约系统资源的目的，在根据本申请实施例的语音处理方法应用了语法识别，而非传统的语义识别。例如，在诸如语音定时提醒的具体应用中，由于用户说出的语音命令往往具有一定的可预期性，即固定地包括日期时间和用户意图两部分内容，所以可以采用预先定义好的语法网络，对输入语音中的可预期部分(例如，语音定时提醒中的日期时间)进行语法识别，就相对比较简单。

例如，为了识别日期时间，可以通过人工事先枚举所有可能的关于日期时间的说法，并将这些说法写成语法网络，语法网络中的每一种说法的语义也都是事先可以知道的。利用这样的语法网络去识别语音，识别结果必然对应语法网络中的某一种说法，因此，在得到识别结果之后，就自动获得了其对应的语法网络中的相应说法，也就是句式。得到了句式，就自然可以得到日期时间等信息，从而不再需要对识别结果的文字进行耗费大量资源的语义解析。

换言之，语法网络的作用不是进行语义解析，而是定义了语音识别的一个范围，只要在这个范围内的句子都可以识别，而识别出结果后，就可以自动得到相应的语义，这是因为语法网络中的每个句子的语义都是已经预先定义好的。

此外，对于可预期部分以外的不可预期部分，出于进一步节约处理资源的考虑，可以不再进行语音识别和语义识别，而是直接将其提取为音频段。例如，在根据本申请实施例的语音处理方法中，可以通过填充吸收网络将输入语音中的不可预期部分自动保存为音频段，以实现用户期望的特定功能，例如在语音定时提醒中作为用于提醒用户的音频内容。

图4图示了根据本申请实施例的语音处理方法中的识别搜索网络的示意图。

如图4所示，该识别搜索网络包括一个“日期时间语法网络”。在“日期时间语法网络”中，描述了所有可能的表达日期时间的句式(图4中为了简化，只列举了少数几种说法)，网络中的“节点”表示单词，“边”表示单词的连接关系，网络中的任何一条路径都是表达了一个特定“时间日期”的句子。这种网络结构可以用扩展的巴科斯范式(ABNF)语法描述实现。

在“日期时间语法网络”之后，串联了一个“填充吸收网络”。该“填充吸收网络”由一系列模糊发音单元filler_1、filler_2、…、filler_n并联构成，这些模糊发音单元覆盖了所有发音(例如，普通话或方言)的音素，并且可以从虚拟出口节点filler_out返回到虚拟入口节点filler_in不断循环重复，用以吸收任意长度任意内容的用户语音。

在用户语音输入到上述识别搜索网络后，用维特比(viterbi)搜索算法在网络中搜索最佳路径，其中描述时间日期部分的语音被“日期时间语法网络”中的特定句式吸收，描述用户意图部分的语音被“填充吸收网络”中的相似发音单元序列吸收，这样不但得到了前半部分语音的语音识别结果，而且得到了后半部分语音的时间切点，利用这些信息就可以完成上述用户的输入语音中的可预期部分和不可预期部分各自的处理。

此外，虽然在图4中，仅示出了以日期时间语法网络对于可预期部分中的日期时间进行识别，但实际上，语法网络同样可以对其他关键信息进行识别。因为关键信息与日期时间类似，都是有限的集合。因此，可以枚举所有可能的类似关键信息，把写在语法网络里，即可进行识别。

例如，关键信息除了可以包括用于确定所述操作命令的执行时间的日期时间之外，还可以包括用于确定所述操作命令的命令类型的关键词、用于确定所述操作命令的执行对象的对象等。例如，当用户的输入语音是“今天下午6点提醒我做饭”时，其中的关键信息可以包括：日期时间“今天下午6点”、关键词“提醒我”。

显然，上述的信息划分并不唯一，取决于设计的需求，在进一步细分的情况下，关键信息也可以包括：日期时间“今天下午6点”、关键词“提醒”、对象“我”。

这样，通过麦克风等收集到用户语音之后，将获取到的整条语音输入训练好的“语法网络”+“填充吸收网络”模型中进行识别，就可以通过维特比解码自动输出四个部分，即文字描述的日期时间、关键词、对象以及音频方式存储的内容。这样，就可以在后续操作中，在该日期时间，向该对象，以该音频内容来执行该关键词的命令。

当然，还可以依据标准的提醒句式，仅提取“日期时间”和“提醒内容”两部分。例如，对于标准的提醒的输入语音模型来说，格式为“时间+提醒我+任务”，如“今天下午6点提醒我做饭”。在该语音模型中，关键词为“提醒我”，那么对于关键字前面的内容，可以用如图4所示的“日期时间语法网络”进行文本识别，确定日期和时间，对关键词后面的内容，可以用“填充吸收网络”中的相似发音单元序列吸收。之后，可以生成提醒信息，用日期和时间的文本确定提醒时间，用相似发音单元序列做音频提醒内容，而无需对关键词“提醒我”做任何处理。

标准的提醒句式还可以包含其它句式，例如，除了如上所述的预先指定的语音模型格式“时间+提醒我+任务”(如“今天下午6点提醒我做饭”)以外，还可以包含“提醒我+时间+任务”(如“提醒我今天下午6点做饭”)或者“时间+我得+任务”(如“今天下午6点我得做饭”)。总之，由于常用的句式是有限的集合，可以将所有常用的句式都写在语法网络里面。

如上所述，无论是“日期时间”语法网络，还是“日期时间+关键词”语法网络，还是“日期时间+关键词+对象”语法网络，都可以通过手工定义。此外，在基于viterbi搜索算法的搜索解码过程中，需要用到声学模型，这个声学模型可以是普通的神经网络，通过大量语料库训练得到。

图5图示了根据本申请另一实施例的语音处理方法的流程图。

如图5所示，根据本申请实施例的语音处理方法包括：S210，接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；S220，获取识别搜索网络；S230，使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段；S240，根据所述文本信息来确定用户期望执行的操作命令的命令类型和执行参数；以及S250，根据所述执行参数和所述音频段来执行所述操作命令。

本实施例中的步骤S210-S230由于与上述实施例中的步骤S110-S130类似，在此省略其详细描述。下面，将重点描述步骤S240和S250。

在步骤S240，在通过识别搜索网络获得文本信息之后，由于文本信息可以体现用户的操作意图，可以根据文本信息来确定用户期望执行的操作命令的命令类型和执行参数。例如，对于语音助手的提醒功能来说，通过文本信息中的关键词信息，例如，“提醒我”、“我得”等，文本信息可以体现用户期望的命令类型为提醒，并且其中的日期时间信息可以体现提醒操作的提醒时间。即，对于语音助手的提醒功能来说，用户期望执行的操作命令的命令类型为提醒，且执行参数为具体的提醒时间。

然后，在步骤S250，在获得了执行参数之后，根据所述执行参数和音频段来执行操作命令。例如，在由文本信息中的日期时间指示的预定时间播放音频段，从而对用户进行提醒。

例如，在用户的输入语音为“今天下午6点提醒我做饭”的情况下，可以通过识别搜索网络识别出文本信息的日期时间“今天下午6点”并提取音频段“做饭”，从而生成一个定时提醒，电子设备会在当天下午6点时，开始播放音频段“做饭”或者“叮咚，做饭”，从而实现提醒目的。

这样，在本申请的实施例中，仅利用离线命令词识别，加上简单的离线语法实现，再加上语音帧的准确抽取，就可以实现不依赖互联网，适应性更强的个性化闹铃提醒设计。这样，不同时间的闹铃响起后，用户能很方便知道不同时间该做什么事情，实现了个性化闹铃功能。

另外，由于用户的语言习惯不同，在文本信息中，可能并不能够完全体现用户期望执行的操作命令的命令类型和执行参数，即其中可能缺少一个或多个项目。同样以语音助手的提醒功能为例，可能不包括能够体现操作命令的命令类型的关键词，也可能不包括能够体现操作命令的执行操作的日期时间。例如，用户的输入语音可以是“下午五点做饭”，或者“我得接孩子”。在这种情况下，当文本信息中没有包括相应内容时，可以以默认值来确定未包括的部分。例如，可以通过对“下午五点做饭”中的日期时间的识别，确定用户期望执行的操作命令的命令类型为提醒。或者，可以通过对“我得接孩子”中的关键词的识别，尝试确定用户执行“接孩子”的任务的具体时间。并且，该具体时间可以是绝对时间，比如下午三点，或者是相对时间，比如一小时后。

因此，在根据本申请实施例的语音处理方法中，根据所述文本信息来确定用户期望执行的操作命令的命令类型和执行参数包括：响应于在所述文本信息中没有包括所述命令类型和所述执行参数中的至少一个，使用默认值来确定没有包括的部分。

并且，在根据本申请实施例的语音处理方法中，所述文本信息包括以下各项中的至少一个：关键词，用于确定所述操作命令的命令类型；日期时间，用于确定所述操作命令的执行时间；以及，对象，用于确定所述操作命令的执行对象。

也就是说，根据本申请实施例的语音处理方法并不限于语音助手的定时提醒功能，而可以应用于以语音方式的任何操作命令。相应地，在从语音输入中识别的文本信息中，需要提取关于操作命令的必要信息，包括但不限于，操作命令的类型，操作命令的执行时间以及操作命令的执行对象。对于具体的提醒操作来说，就是操作命令的类型对应于提醒操作，操作命令的执行时间对应于提醒时间，而操作命令的执行对象对应于提醒内容。

此外，在确定操作命令的类型为提醒操作的情况下，即，所述文本信息中的关键词可以体现操作命令的类型为提醒操作，比如“提醒我”、“我得”等，根据本申请实施例的语音处理方法将新建提醒时间，并在从所述文本信息识别的日期时间播放作为具体提醒内容的音频段。

即，在根据本申请实施例的语音处理方法中，响应于在所述文本信息中包括用于新建提醒事件的关键词，根据所述执行参数和所述音频段来执行所述操作命令包括：新建一个提醒事件，用于在一日期时间向对象播放所述音频段。

另外，在向对象播放音频段时，可以对音频段进行处理，例如进行变音操作，利用用卡通形象的声音展示用户期望提醒的内容，以增强与用户交互时的趣味性。

即，在根据本申请实施例的语音处理方法中，在一日期时间向对象播放所述音频段包括：对所述音频段进行变音操作；以及，在所述预定日期时间向所述预定对象播放变音后的音频段。

如上所述，由于在根据本申请实施例的语音处理方法中，语法网络通过穷举的“日期时间”+“关键词”的句式来对输入语音中的可预期部分进行识别从而获得文本信息，并相应地获得与文本信息对应的语义。因此，为了避免识别失败，可以提前向用户指定输入语音模型，比如通知用户输入格式为“时间+提醒我+任务”的特定句式(如“今天下午6点提醒我做饭”)，从而提高以语法网络识别可预期部分的准确性。

也就是说，在根据本申请实施例的语音处理方法中，进一步包括：在接收用户的输入语音之前，提示用户以包含关键词、日期时间、对象和任务的特定句式输入所述输入语音。

需要说明的是，尽管在上面的示例中以识别语音提醒的应用为例对根据本申请实施例的语音处理方法进行了说明，但是本申请的实施例不限于此。例如，该语音处理方法同样可以应用于其他应用场合。

例如，当用户的输入语音是“记日记，2017年11月24日星期五，今天我参观了颐和园……”时，该识别搜索网络可以根据预定义的语法网络，识别出该输入语音中关键词“记日记”和日期“2017年11月24日星期五”，从而启动相应的日记应用，将日期作为文本填入，将后续的语音作为音频段之间存储起来。

示例性装置

图6图示了根据本申请实施例的语音处理装置的框图。

如图6所示，根据本申请实施例的语音处理装置300可以包括：接收单元310，用于接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；获取单元320，用于获取识别搜索网络；以及识别单元330，用于使用所述获取单元320获取的识别搜索网络来将所述接收单元310接收的用户的输入语音中的可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

在一个示例中，在上述语音处理装置300中，所述获取单元320可以用于：生成用于所述可预期部分的语法网络；生成用于所述不可预期部分的填充吸收网络；以及，串联所述语法网络和所述填充吸收网络，以生成所述识别搜索网络。

在一个示例中，在上述语音处理装置300中，所述获取单元320生成用于所述可预期部分的语法网络可以包括：将可能在所述可预期部分中出现的每类元素确定为一组节点；将不同类元素之间可能出现的先后连接关系确定为不同组节点之间的边；以及，根据所述节点和所述边来构建所述语法网络，以使得所述语法网络中包含节点和边的各条路径能够分别对应于各个元素可能出现的各种组合。

在一个示例中，在上述语音处理装置300中，所述获取单元320生成用于所述不可预期部分的填充吸收网络可以包括：设置虚拟入口节点；设置虚拟出口节点；以及，设置多个模糊发音单元，并联地连接在所述虚拟入口节点和所述虚拟出口节点之间，用于覆盖所有可能的音素。

在一个示例中，在上述语音处理装置300中，所述识别单元330可以用于：将所述输入语音输入到所述识别搜索网络；在所述识别搜索网络中对所述输入语音进行解码，以得到最优路径；以及，根据所述最优路径来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

在一个示例中，在上述语音处理装置300中，所述识别单元330根据所述最优路径来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段可以包括：根据所述最优路径来在所述输入语音中定位所述可预期部分和所述不可预期部分；使用所述语法网络生成并存储与所述可预期部分对应的文本信息；以及，使用所述填充吸收网络来提取并存储与所述不可预期部分对应的音频段。

在一个示例中，在上述语音处理装置300中，所述识别单元330使用所述填充吸收网络来提取并存储与所述不可预期部分对应的音频段可以包括：从所述虚拟出口节点返回到所述虚拟入口节点不断循环重复，以提取任意长度任意内容的不可预期部分，并且存储与所述不可预期部分对应的音频段。

在一个示例中，在上述语音处理装置300中，可以进一步包括执行单元，用于根据所述文本信息来确定用户期望执行的操作命令的命令类型和执行参数；以及，根据所述执行参数和所述音频段来执行所述操作命令。

在一个示例中，在上述语音处理装置300中，所述执行单元根据所述文本信息来确定用户期望执行的操作命令的命令类型和执行参数可以包括：响应于在所述文本信息中没有包括所述命令类型和所述执行参数中的至少一个，使用默认值来确定没有包括的部分。

在一个示例中，在上述语音处理装置300中，所述文本信息可以包括以下各项中的至少一个：关键词，用于确定所述操作命令的命令类型；日期时间，用于确定所述操作命令的执行时间；以及，对象，用于确定所述操作命令的执行对象。

在一个示例中，在上述语音处理装置300中，所述执行单元响应于在所述文本信息中包括用于新建提醒事件的关键词，根据所述执行参数和所述音频段来执行所述操作命令可以包括：新建一个提醒事件，用于在一日期时间向对象播放所述音频段。

在一个示例中，在上述语音处理装置300中，所述执行单元在一日期时间向对象播放所述音频段可以包括：对所述音频段进行变音操作；以及，在所述预定日期时间向所述预定对象播放变音后的音频段。

这里，本领域技术人员可以理解，根据本申请实施例的语音处理装置的其它细节与之前说明的根据本申请实施例的语音处理方法的相应细节完全相同，为了避免冗余便不再赘述。

如上所述，根据本申请实施例的语音处理装置300可以集成在智能家电设备中，也可以是与智能家电设备独立的单机设备。

在一个示例中，根据本申请实施例的语音处理装置300可以作为一个软件模块和/或硬件模块而集成到该智能家电设备中。例如，该语音处理装置300可以是该智能家电设备的操作系统中的一个软件模块，或者可以是针对于该智能家电设备所开发的一个应用程序；当然，该语音处理装置300同样可以是该智能家电设备的众多硬件模块之一。

替换地，在另一示例中，该语音处理装置300与该智能家电设备也可以是分立的设备，并且该语音处理装置300可以通过有线和/或无线网络连接到该智能家电设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。该电子设备可以是智能家电设备的本身或其一部分、或与它们独立的单机设备，该单机设备可以与智能家电设备进行通信，以从它们接收所采集到的输入信号。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的语音处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如搜索识别网络、识别出的文本信息和保存的音频段等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是智能家电设备或其一部分时，该输入装置13可以是用于捕捉用户的输入语音的麦克风或麦克风阵列。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从智能家电设备接收用户的输入语音信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括生成的提醒信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备5还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音处理方法，包括：

接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；

获取识别搜索网络；以及

使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

2.如权利要求1所述的语音处理方法，其中，获取识别搜索网络包括：

生成用于所述可预期部分的语法网络；

生成用于所述不可预期部分的填充吸收网络；以及

串联所述语法网络和所述填充吸收网络，以生成所述识别搜索网络。

3.如权利要求2所述的语音处理方法，其中，生成用于所述可预期部分的语法网络包括：

将可能在所述可预期部分中出现的每类元素确定为一组节点；

将不同类元素之间可能出现的先后连接关系确定为不同组节点之间的边；以及

根据所述节点和所述边来构建所述语法网络，以使得所述语法网络中包含节点和边的各条路径能够分别对应于各个元素可能出现的各种组合。

4.如权利要求3所述的语音处理方法，其中，生成用于所述不可预期部分的填充吸收网络包括：

设置虚拟入口节点；

设置虚拟出口节点；以及

设置多个模糊发音单元，并联地连接在所述虚拟入口节点和所述虚拟出口节点之间，用于覆盖所有可能的音素。

5.如权利要求4所述的语音处理方法，其中，使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段：

将所述输入语音输入到所述识别搜索网络；

在所述识别搜索网络中对所述输入语音进行解码，以得到最优路径；以及

根据所述最优路径来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

6.如权利要求5所述的语音处理方法，其中，根据所述最优路径来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段包括：

根据所述最优路径来在所述输入语音中定位所述可预期部分和所述不可预期部分；

使用所述语法网络生成并存储与所述可预期部分对应的文本信息；以及

使用所述填充吸收网络来提取并存储与所述不可预期部分对应的音频段。

7.如权利要求6所述的语音处理方法，其中，使用所述填充吸收网络来提取并存储与所述不可预期部分对应的音频段包括：

从所述虚拟出口节点返回到所述虚拟入口节点不断循环重复，以提取任意长度任意内容的不可预期部分，并且存储与所述不可预期部分对应的音频段。

8.如权利要求1所述的语音处理方法，还包括：

根据所述文本信息来确定用户期望执行的操作命令的命令类型和执行参数；以及

根据所述执行参数和所述音频段来执行所述操作命令。

9.如权利要求8所述的语音处理方法，其中，根据所述文本信息来确定用户期望执行的操作命令的命令类型和执行参数包括：

响应于在所述文本信息中没有包括所述命令类型和所述执行参数中的至少一个，使用默认值来确定没有包括的部分。

10.如权利要求8所述的语音处理方法，其中，所述文本信息包括以下各项中的至少一个：

关键词，用于确定所述操作命令的命令类型；

日期时间，用于确定所述操作命令的执行时间；以及

对象，用于确定所述操作命令的执行对象。

11.如权利要求10所述的语音处理方法，其中，响应于在所述文本信息中包括用于新建提醒事件的关键词，根据所述执行参数和所述音频段来执行所述操作命令包括：

新建一个提醒事件，用于在一日期时间向对象播放所述音频段。

12.如权利要求11所述的语音处理方法，其中，在一日期时间向对象播放所述音频段包括：

对所述音频段进行变音操作；以及

在所述预定日期时间向所述预定对象播放变音后的音频段。

13.如权利要求10所述的语音处理方法，还包括：

在接收用户的输入语音之前，提示用户以包含关键词、日期时间、对象和任务的特定句式输入所述输入语音。

14.一种语音处理装置，包括：

接收单元，用于接收用户的输入语音，所述输入语音包括可预期部分和不可预期部分；

获取单元，用于获取识别搜索网络；以及

识别单元，用于使用所述识别搜索网络来将所述可预期部分识别为文本信息并将所述不可预期部分提取为音频段。

15.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-13中任一项所述的语音处理方法。

16.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-13中任一项所述的语音处理方法。