CN109410927A

CN109410927A - 离线命令词与云端解析结合的语音识别方法、装置和系统

Info

Publication number: CN109410927A
Application number: CN201811439285.3A
Authority: CN
Inventors: 赵晓朝; 戴帅湘; 袁志伟
Original assignee: Beijing Suddenly Cognitive Technology Co Ltd
Current assignee: Beijing Suddenly Cognitive Technology Co Ltd; Beijing Moran Cognitive Technology Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-03-01
Anticipated expiration: 2038-11-29
Also published as: CN109410927B

Abstract

本发明实施例公开了一种离线命令词与云端解析相结合的语音识别方法，包括：接收用户的语音输入；对接收到的语音进行识别；输出识别结果；根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析；根据语义解析结果生成指令；执行指令。通过本地命令词库的构建和对语音输入、文本结果的识别，根据识别结果选择调用本地命令词库进行语义解析或发送到云端进行语义解析，能够提高语音识别、语义解析的响应速度，并且为不同用户定制不同的本地命令词库，以提供定制化的语音识别服务。

Description

离线命令词与云端解析结合的语音识别方法、装置和系统

技术领域

本发明实施例涉及人工智能领域，特别涉及人工智能领域中的语音识别技术。

背景技术

人工智能(Artificial Intelligence)研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作，为了执行人的指令，高效、准确的人机交互是必需的。语音识别是目前应用最多的人机交互方式之一，传统的语音交互方式通常是通过用户终端在本地完成语音识别，识别后的文本传输到云端，通过云端进行语义解析并生成指令或对话，将指令或对话传输回用户终端。这样的模式响应速度慢。本地存储离线命令库的方法能够提高响应速度，但是由于本地存储空间的有限性，本地存储离线命令库无法像云端解析一样实现各类命令的解析。因此，亟需离线命令词与云端解析相结合的语音识别方法。

发明内容

本发明实施例提供了一种离线命令词与云端解析相结合的语音识别方法，包括：接收用户的语音输入；对接收到的语音进行识别；输出识别结果；根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析；根据语义解析结果生成指令；执行指令。

其中，识别结果包括用户的属性信息。用户的属性信息指用户是特定用户，还是非特定用户。特定用户包括但不限于：家庭成员，办公室成员，授权用户，使用频次较高的用户，本地联系人列表中存储的用户，临时建立的群中的用户等。非特定用户包括但不限于：访客，非授权用户，使用频次低的用户，未存储在本地联系人列表中的用户等。

根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括，如果用户属于特定用户，则调用本地命令词库进行解析，如果用户属于非特定用户，则将识别后的文本发送到云端进行解析。

进一步包括，特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库；或者特定用户能够调用本地命令词，而非特定用户仅能进行云端解析；或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合，用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多，或包含的本地命令词库的级别越高。

如果用户属于特定用户，则进一步包括，调用本地存储的3D用户画像，根据3D用户画像调用相应的本地命令词库进行解析。3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入，或根据用户的数据叠加、抽象形成。

如果用户属于非特定用户，则进一步包括，允许非特定用户被授权构建3D用户画像，3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入，或根据用户的数据叠加、抽象形成。非特定用户被授权构建3D用户画像后，可以根据3D用户画像调用相应的本地命令词库进行解析。

其中，识别结果还包括语音识别后的文本的长度，如果文本的长度大于设定值，则将文本进行拆分，部分调用本地命令词库进行解析，部分上传云端进行解析，解析完成后回传本地，在本地对两部分解析结果进行合成并输出指令。

其中，如果识别出现无法进行本地语义解析的命令词，则将命令词及其邻近的上下文信息上传云端进行解析，解析完成后回传本地，在本地对两部分解析结果进行合并后输出控制指令。

进一步包括，当需要进行拆分时，在拆分处，或在无法解析的命令词的上文和下文处插入标记，所述在本地对两部分解析结果进行合并时根据插入的标记位进行合并。

进一步包括，判断用户是否特定用户，如果用户属于特定用户，则将上述无法解析的命令词的解析结果加入到对应的本地命令词库中。

其中，识别结果为语音识别中评估的难度级别，根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析为，难度级别大于等于预定值一时，进行云端解析，小于等于预定值二时调用本地命令词库进行解析；难度级别处于预定值一和预定值二之间时，采用本地命令词库和云端解析相结合的方式。

其中，识别结果包括语音输入的控制对象信息；根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为，根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。

控制对象信息进一步包括，控制对象是网络应用还是本地应用，根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为，如果控制对象是网络应用，则将识别后的文本发送到云端进行解析；如果控制对象是本地应用，则调用本地命令词库对语音识别后的文本进行语义解析。

进一步包括，如果控制对象是本地应用，则调用该控制对象的专属命令词库对语音识别后的文本进行语义解析。

其中，识别结果为语义识别后的文本中是否包含特定词。根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括，如果识别结果包含特定词，则调用对应的本地命令词库进行解析，如果识别结果不包含特定词，则将识别后的文本发送到云端进行解析。

进一步包括，上述特定词的位置在文本后n位，n为设定的自然数。

进一步包括，上述特定词的位置在文本的任意位置。

本发明实施例提供了一种离线命令词与云端解析相结合的语音识别装置，所述装置包括输入模块11，语音识别模块21，判断模块31，解析模块41。其中，输入模块11，用于接收用户的语音输入，并将该语音输入发送到语音识别模块21；语音识别模块21与输入模块11相连，对从语音输入模块11接收的语音进行识别，生成文本信息，并生成识别结果，将文本信息和识别结果发送给判断模块31；判断模块31根据语音识别模块21的识别结果，将文本信息发送给解析模块41；解析模块41用于调用相应的本地命令词库进行语义解析并生成指令发送给控制对象。

上述语音识别模块21进一步包括，语音鉴定模块211、文本生成模块221和文本鉴定模块231，语音鉴定模块211用于识别语音输入信息的特性，包括但不限于声纹特征、语速、频率、时长、情绪等与声音相关的特征信息，以及语音识别的难易度信息等；文本生成模块221用于将用户输入的语音信息转换为文本信息；文本鉴定模块231用于识别文本相关的特征信息，包括但不限于文本长度、特定字符、语义解析难易度等。

上述解析模块41包括，语义解析模块411和指令生成模块431，语义解析模块411用于对文本进行语义解析，指令生成模块431用于根据语义解析结果生成并输出操作指令，以使操作对象执行所述指令。

其中，语音识别装置1的解析模块41还包括标记模块421和合并模块422，标记模块421用于在需要拆分文本处生成并插入拆分标记位，合并模块422用于将本地语义解析的结果和云解析服务器2返回的语义解析结果根据标记模块421生成的拆分标记位进行合并。

其中，判断模块31在识别结果满足前述离线命令词与云端解析相结合的语音识别方法中所述的本地解析的相关条件时，将文本信息发送给解析模块41。

判断模块31根据识别结果，将文本信息发送给云解析服务器进行解析。

判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括，如果用户属于特定用户，则调用本地命令词库进行解析，如果用户属于非特定用户，则将识别后的文本发送到云端进行解析。

其中，识别结果还包括语音识别后的文本的长度，如果识别结果为文本的长度大于设定值，则标记模块421将文本进行拆分，部分调用本地命令词库进行解析，部分上传云解析服务器2进行解析，云解析服务器2解析完成后回传本地，合并模块422在本地对两部分解析结果进行合成以输出控制指令。

其中，解析模块41如果识别出现无法进行本地语义解析的命令词，则将该无法解析的命令词及其邻近的上下文信息上传云解析服务器2进行解析，解析完成后回传本地，在本地将云端回传的解析结果和本地解析结果进行合并，由指令生成模块431生成控制指令并输出。

进一步包括，当需要进行拆分时，标记模块421在拆分处，或在无法解析的命令词的上文和下文处插入标记，标记信息发送给合并模块422，合并模块422在本地对两部分解析结果进行合并时根据插入的标记位进行合并。

其中，识别结果为语音识别中评估的难度级别，判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析为，难度级别大于等于预定值一时，进行云端解析，小于等于预定值二时调用本地命令词库进行解析；难度级别处于预定值一和预定值二之间时，采用本地命令词库和云端解析相结合的方式。

其中，识别结果包括语音输入的控制对象信息；判断模块31根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为，根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。

其中，识别结果为语义识别后的文本中是否包含特定词。判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括，如果识别结果包含特定词，则调用对应的本地命令词库进行解析，如果识别结果不包含特定词，则将识别后的文本发送到云端进行解析。

进一步包括，上述特定词的位置在文本的任意位置。

本发明实施例还提供了一种离线命令词与云端解析相结合的语音识别系统，包括语音识别装置1和云解析服务器2。其中，当语音识别装置1的判断模块31在识别结果满足前述离线命令词与云端解析相结合的语音识别方法中所述的云端解析的相关条件时，将文本信息发送给云解析服务器2，并接收云解析服务2返回的指令，或语义解析结果。

其中，语音识别装置1的解析模块41还包括标记模块421和合并模块422，标记模块421用于在需要拆分的文本处生成并插入拆分标记位，合并模块422用于将本地语义解析的结果和云解析服务器2返回的语义解析结果根据标记模块421生成的拆分标记位进行合并。

本发明还提供了一种终端，包括上述离线命令词与云端解析相结合的语音识别装置1。

本发明还提供了一种计算机可读介质，所述计算机可读介质存储有程序，当所述程序被执行时，能够实现实施例一所述的离线命令词与云端解析相结合的语音识别方法。

附图说明

图1是本发明实施例的离线命令词与云端解析相结合的语音识别方法流程。

图2是本发明实施例的离线命令词与云端解析相结合的语音识别装置图。

图3是本发明实施例的离线命令词与云端解析相结合的语音识别系统图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例一提供了一种离线命令词与云端解析相结合的语音识别方法，参照附图1，包括以下步骤：

步骤101、接收用户的语音输入；

步骤102、对接收到的语音进行识别；

步骤103、输出识别结果；

步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析；

步骤105、根据语义解析结果生成指令；

步骤106、执行指令。

上述方法具体为，用户通过输入设备输入一段语音，该语音包括但不限于控制某些应用或某些设备的命令性语句，例如：用户在驾驶过程中，发出语音命令：打开空调；对接收到的语音进行语音识别，这里采用本领域通用的语音识别技术，以生成相应的文本信息，在生成文本信息之前，或生成文本信息的同时，或者生成文本信息之后，还提取与输入的语音和/或识别后的文本相关的其他信息，形成识别结果，该识别结果包括下面举例的一项或多项，如：经过语音识别得到文本信息“打开空调”，同时还提取了该语音信息是由车的主人发出的，该语音信息的时间长度为2秒，该语音信息的语速是中速，该文本信息包含特定的关键词“空调”，该文本的长度为4个汉字字符，该语音的感情色彩为“客观”，该文本的解析难度级别为“容易”，该文本的控制对象为车载空调等；根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析，例如当识别结果包括文本的解析难度为“容易”，则调用本地命令词库进行解析；根据语义解析结果生成空调开启指令；将指令输出到车载空调，以控制车载空调打开。又例如，当识别结果包括语音信息的感情色彩为“急躁”或语速较快，表明用户的需求比较紧急，则优先调用本地命令词库进行解析。

其中，本地命令词库是在本地存储空间内存储的多个命令词库，该命令词库可以定时与云端或网络进行交互，以更新其命令词，本地命令词库可以被编辑，该编辑包括但不限于创建、更改、删除、合并、拆分、命名、分类、排序、组合等。本地命令词库的创建可以根据应用或设备创建，例如：创建家居设备命令词库，包括对冰箱、洗衣机、电视、照明设备的开启、关闭、运转速度、运转时间、模式等的控制命令；或者针对儿童教育类APP创建命令词库，包括对讲故事软件、在线英语教学、识字软件的控制命令。本地命令词库的创建还可以根据内容进行创建，例如：音乐命令词库，包括流行音乐命令词子库、古典音乐命令词字库等。本地命令词库的创建还可以根据用户的使用习惯来进行创建，例如对于特定用户A，其典型的一日作息包括：开灯起床、打开电饭煲做饭、开车上班路上听音乐、午饭叫外卖、开车下班通过导航查看是否拥堵、路上听音乐、晚上洗澡、熄灯睡觉。则根据用户日常使用的设备、软件或APP建立该特定用户A的专属命令库，该专属命令库可以包括命令词：开灯、开电饭煲、打开车载收音机、103.9、美团、饿了么、鱼香肉丝、披萨、打开高德、关灯等。上述列出的方式不应视为对本发明的本地命令词库的限制，本发明可以根据需要设置任意的本地命令库。

其中，上述指令包括但不限于查询类指令、控制类指令等，将指令输出到相应的应用、设备或对象以执行指令。

其中，根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析，识别结果包括是一项或多项；如果识别结果包括多项时，应预设对应的判断逻辑，例如：对多项识别结果的优先级进行约定，根据优先级别高的识别结果项进行语义解析的选择；当所有的识别结果均指向本地命令库时才调用本地命令库进行解析；当所有的识别结果均指向云端解析时，才将文本发送到云端进行解析；更多的识别结果项指向本地命令库时调用本地命令库；更多的识别结果指向云端解析时，将文本发送到云端进行语义解析。

实施例二

本发明实施例二提供了一种离线命令词与云端解析相结合的语音识别方法，包括如实施例一的步骤。其中步骤步骤102、对接收到的语音进行识别；包括通过对用户的声纹特征进行识别，识别出用户是特定用户还是非特定用户，特定用户包括但不限于：家庭成员，办公室成员，授权用户，使用频次较高的用户，本地联系人列表中存储的用户，临时建立的群中的用户，等等。非特定用户包括但不限于：访客，非授权用户，使用频次低的用户，未存储在本地联系人列表中的用户，等等。步骤103、输出识别结果；该识别结果就包括用户的身份信息。

以授权用户为例，可以建立授权用户列表，列表存有用户Master，当通过语音识别识别出发出语音命令的用户是授权用户列表中的用户Master时，步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为：根据用户是授权用户Master这一识别结果调用本地命令词库进行语义解析。

进一步的，当识别出用户是授权用户Master时，还可以调用Master的专属命令词库来进行语义解析，例如，用户Master是相声爱好者，每天都要听相声节目，以及查询与相声相关的信息，那么Master的专属命令词库可以包括与相声相关的命令词，并且该命令词库可以定时与云端交互，获取最新的相声节目等命令词更新到本地的命令词中。该专属命令词可以一进步细分细化，例如根据用户Master的生活习惯和作息规律，建立对应于某一时间段和/或所处位置的的命令词库，根据识别结果结合其他信息，例如时间信息、位置信息等调用相应的命令词库，例如周一的早上10点，Master的位置是在泸沽湖，可以对应的调用Master专属的旅游命令词库，也可以调用通用的包含旅游命令词库的本地命令词库进行语义解析。

为了进一步提升特定用户的用户体验，还可以为特定用户建立3D用户画像，3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入，或根据用户的数据叠加、抽象形成。当识别结果显示用户属于特定用户时，调用本地存储的3D用户画像，根据3D用户画像调用相应的本地命令词库进行解析。

本发明中，特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库；或者特定用户能够调用本地命令词，而非特定用户仅能进行云端解析；或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合，用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多，或包含的本地命令词库的级别越高。

如果用户属于非特定用户，通常会对用户的输入进行云端语义解析。但是，也可以允许非特定用户被授权使用特定用户的的3D用户画像，或者被授权构建3D用户画像，3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个。3D用户画像由用户自行输入，或根据用户的数据叠加、抽象形成。非特定用户被授权构建3D用户画像后，也可以根据自身的3D用户画像调用相应的本地命令词库进行解析。

例如，3D用户画像显示用户身份是教授，或者学历是硕士及以上，习惯用书面语，则调用书面语离线命令词库进行解析；例如，3D用户画像显示用户喜欢听相声，则调用与相声相关的本地命令词库进行解析。

实施例三

本发明实施例三提供了一种离线命令词与云端解析相结合的语音识别方法，包括如实施例一的步骤。其中，识别结果还包括语音识别后的文字的特性进行鉴定的结果。具体的，步骤102、对接收到的语音进行识别；包括步骤102a、对接收到的语音的声纹特征进行识别，判断用户的属性；步骤102b、对接收到的语音进行语音识别，输出对应的文本信息；步骤102c、对文本信息进行鉴定，输入鉴定结果。步骤103、输出识别结果；其中识别结果包括步骤102中一个或多个方面。步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。其中，步骤102c对本文信息进行鉴定，包括但不限于对文本的长度、难度级别、是否包含特定词等特性进行鉴定。鉴定方法可以采用本领域通用的方法，不是本发明保护的重点，在此不再具体展开。

当文本长度小于等于预设值时，步骤104具体为根据识别结果调用本地命令词库进行语义解析。当文本长度大于预设值时，判断该文本的语义解析较为复杂，可以根据该识别结果将文本发送到云端进行解析，则步骤104具体为：根据识别结果将识别后的文本发送到云端进行语义解析。

进一步包括，将文本进行拆分，部分调用本地命令词库进行语义解析，其余部分发送到云端进行语义解析，并根据拆分时插入的标记位将云端返回的语义解析结果和本地语义解析结果进行合并。步骤104根据识别结果调用本地命令词库和将识别后的文本发送到云端进行语义解析，进一步具体为：当识别结果为文本长度大于预设值时，将文本进行拆分，并在拆分时插入拆分标记位，拆分标记位标识文本拆分的位置，拆分后的文本部分调用本地命令词库进行语义解析，其余部分发送到云端进行语义解析，并根据拆分时插入的标记位将云端返回的语义解析结果和本地语义解析结果进行合并。

文本的拆分解析方法还可以包括，首先调用本地命令词库进行语义解析，如果识别出现无法进行本地语义解析的命令词，则将命令词及其邻近的上下文信息上传云端进行解析，解析完成后回传本地，在本地对两部分解析结果进行合并后输出控制指令。进行文本拆分时，在无法解析的命令词的上文和下文处插入标记，以便在本地对各个解析结果进行合并时根据插入的标记位进行合并。

还可以对文本语义解析的难度级别进行鉴定，根据鉴定结果选择本地解析还是云端解析。例如，当鉴定结果显示文本的语义解析难度高时，将文本上传都云端进行解析；或者当鉴定结果显示文本的语义解析难度为高时，按照上述的文本拆分方法进行本地和云端的合作解析。当鉴定结果显示文本的语义解析难度较低时，调用离线命令词进行离线语义解析。

另外，针对某些生僻词，或者用户特定的语言习惯，或者用户的特殊爱好建立本地的特殊命令词库，上述根据文本的语义解析的难度级别选择解析方式，还可以包括，当鉴定结果显示文本的语义解析难度非常高时，调用本地的特殊命令词库进行语义解析。

还可以对文本是否含有特定词进行鉴定，则识别结果为语义识别后的文本中是否包含特定词。根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括，如果识别结果包含特定词，则调用对应的本地命令词库进行解析，如果识别结果不包含特定词，则将识别后的文本发送到云端进行解析。例如，语音识别后的文本为：播放张雨生的歌曲大海。通过文本鉴定出“张雨生”这个特定词，同时用户声纹识别出用户是特定用户Master，则直接调用本地存储的该用户的定制命令词库进行语义解析。例如，语音识别后的文本为：每天都进行饮食控制和锻炼，但是瘦身效果却很一般，到底应该怎么减肥呀。通过文本鉴定出文本的后3个字符包含疑问语气词“呀”，判断该命令是查询式命令，可能需要调用网络应用，则将其发送到云端进行解析。或者语音识别后的文本为：导航到四平市。文本鉴定的结果是第3～6个字符包含四平市，四平市是常用地名，则调用本地存储的导航命令词库进行语义解析。上述文本鉴定可以是对文本的特定位置进行鉴定，例如结尾的1～n个字符，n为设定的自然数，或者第n1～n2位进行鉴定，也可以是对文本的任意位置进行鉴定或对全部文本进行鉴定。

实施例四

本发明实施例四提供了一种离线命令词与云端解析相结合的语音识别方法，包括如实施例一的步骤。其中，识别结果还包括语音识别后的文字的特性。

例如，用户希望调用名称为“智能家居”的应用来远程打开电饭煲，语音识别后的文本为：智能家居打开电饭煲，文本鉴定结果显示控制对象是电饭煲，调用的程序为智能家居，电饭煲为固定对象，也即控制对象为固定对象，判断则根据识别结果调用本地命令词对该文本进行语义解析。例如，用户希望调用名称为“新奇妙想”的应用来查询一个信息，语音识别后的文本为：奇思妙想告诉我哪里能买到自我浇灌的花盆。文本鉴定结果显示调用的应用是“奇思妙想”这一网络应用，则根据识别这一识别结果将文本发送到云端进行语义识别，以生成指令。

通过被控对象进行判定和通过调用的应用进行判断是两种不同的方式，二者之间有交叉也有不同。控制对象信息包括被控的设备、软件、APP、应用等信息，当被控对象为设备、控制类软件等，调用本地命令词库进行语义解析；当被控的对象为交互类软件、查询类APP时，发送到云端进行语义解析。判断调用的应用是网络应用还是本地应用，根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为，如果控制对象是网络应用，则将识别后的文本发送到云端进行解析；如果控制对象是本地应用，则调用本地命令词库对语音识别后的文本进行语义解析。

如果控制对象是固定对象，或调用的应用为本地应用，则进一步可以调用该控制对象或应用的本地专属命令词库对语音识别后的文本进行语义解析。

实施例五

本发明实施例五提供了一种离线命令词与云端解析相结合的语音识别装置1，参照附图2，该装置包括输入模块11，语音识别模块21，判断模块31，解析模块41。其中，输入模块11，用于接收用户的语音输入，并将该语音输入发送到语音识别模块21；语音识别模块21与输入模块11相连，对从语音输入模块11接收的语音进行识别，生成文本信息，并生成识别结果，将文本信息和识别结果发送给判断模块31；判断模块31根据语音识别模块21的识别结果，将文本信息发送给解析模块41；解析模块41用于调用相应的本地命令词库进行语义解析并生成指令发送给控制对象。语音识别模块21还包括语音鉴定模块211、文本生成模块221和文本鉴定模块231，语音鉴定模块211用于识别语音输入信息的特性，包括但不限于声纹特征、语速、频率、时长、情绪等与声音相关的特征信息，以及语音识别的难易度信息等；文本生成模块221用于将用户输入的语音信息转换为文本信息；文本鉴定模块231用于识别文本相关的特征信息，包括但不限于文本长度、特定字符、语义解析难易度等。解析模块41包括，语义解析模块411和指令生成模块431，语义解析模块411用于对文本进行语义解析，指令生成模块431用于根据语义解析结果生成并输出操作指令，以使操作对象执行所述指令。

其中，判断模块31在识别结果满足实施例一所述的相关条件时，将文本信息发送给解析模块41。

判断模块31对识别结果的判断具体包括：用户通过输入模块11输入一段语音，该语音包括但不限于控制某些应用或某些设备的命令性语句，语音识别模块21对接收到的语音进行语音识别，这里采用本领域通用的语音识别技术，由文本生成模块221生成相应的文本信息，在生成文本信息之前，或生成文本信息的同时，或者生成文本信息之后，还提取与输入的语音和/或识别后的文本相关的其他信息，形成识别结果，具体由语音鉴定模块211对语音信息进行识别，例如：提取了该语音的声纹信息与存储的声纹信息进行比对，鉴定出该语音信息是由车的主人发出的，该语音信息的时间长度为2秒，该语音信息的语速是中速，该语音的感情色彩为“客观”，除了上述内容外，还可以利用现有的识别技术对语音的其他特征进行鉴定，得到针对语音的识别结果；以声纹特征鉴定为例，语音鉴定模块211鉴定用户是特定用户还是非特定用户，特定用户包括但不限于：家庭成员，办公室成员，授权用户，使用频次较高的用户，本地联系人列表中存储的用户，临时建立的群中的用户，等等。非特定用户包括但不限于：访客，非授权用户，使用频次低的用户，未存储在本地联系人列表中的用户，等等。此时，语音识别模块21输出的识别结果就包括用户的身份信息。当用户身份信息为授权用户时，可以建立授权用户列表，列表存有用户Master，当通过语音识别识别出发出语音命令的用户是授权用户列表中的用户Master时，判断模块31根据用户是授权用户Master这一识别结果将文本信息发送到解析模块41以调用本地命令词库进行离线语义解析。

由文本鉴定模块231对生成的文本信息进行鉴定得到识别结果，该识别结果可以是：该文本信息包含特定的关键词“空调”，该文本的长度为4个汉字字符，该文本的解析难度级别为“容易”，该文本的控制对象为车载空调，该文本调用的应用是手机中的导航APP，除了上述内容外，还可以利用现有的文本鉴定技术对文本的其他特征进行鉴定，得到针对文本的识别结果；判断模块31根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析，例如当识别结果包括文本的解析难度为“容易”，则调用本地命令词库进行解析；根据语义解析结果生成空调开启指令；将指令输出到车载空调，以控制车载空调打开。又例如，当输出的识别结果包括语音信息的感情色彩为“急躁”或语速较快，判断模块31判断出用户的需求比较紧急，则优先调用本地命令词库进行解析。又例如：当文本鉴定模块231鉴定出文本长度小于等于预设值时，判断模块31根据该识别结果将文本发送到解析模块41以调用本地命令词库进行本地语义解析。

文本鉴定模块231还可以对文本是否含有特定词进行鉴定，则识别结果为语义识别后的文本中是否包含特定词。如果判断模块31判断出识别结果包含特定词，则文本发送到解析模块41以调用本地命令词库进行本地语义解析；判断模块31判断出识别结果不包含特定词，则将识别后的文本发送到云端进行解析。例如，语音识别后的文本为：播放张雨生的歌曲大海。通过文本鉴定出“张雨生”这个特定词，同时用户声纹识别出用户是特定用户Master，则直接调用本地存储的该用户的定制命令词库进行语义解析。例如，语音识别后的文本为：每天都进行饮食控制和锻炼，但是瘦身效果却很一般，到底应该怎么减肥呀。通过文本鉴定出文本的后3个字符包含疑问语气词“呀”，判断该命令是查询式命令，可能需要调用网络应用，则将其发送到云端进行解析。或者语音识别后的文本为：导航到四平市。文本鉴定的结果是第3～6个字符包含四平市，四平市是常用地名，则调用本地存储的导航命令词库进行语义解析。上述文本鉴定可以是对文本的特定位置进行鉴定，例如结尾的1～n个字符，n为设定的自然数，或者第n1～n2位进行鉴定，也可以是对文本的任意位置进行鉴定或对全部文本进行鉴定。

文本鉴定模块231还可以对控制对象信息进行鉴定，例如，用户希望调用名称为“智能家居”的应用来远程打开电饭煲，语音识别后的文本为：智能家居打开电饭煲，文本鉴定结果显示控制对象是电饭煲，调用的程序为智能家居，电饭煲为固定对象，也即控制对象为固定对象，判断则根据识别结果调用本地命令词对该文本进行语义解析。例如，用户希望调用名称为“新奇妙想”的应用来查询一个信息，语音识别后的文本为：奇思妙想告诉我哪里能买到自我浇灌的花盆。文本鉴定结果显示调用的应用是“奇思妙想”这一网络应用，则判断模块31根据识别这一识别结果将文本发送到云端进行语义识别，以生成指令。

通过被控对象进行判定和通过调用的应用进行判断是两种不同的方式，二者之间有交叉也有不同。控制对象信息包括被控的设备、软件、APP、应用等信息，当被控对象为设备、控制类软件等，调用本地命令词库进行语义解析；当被控的对象为交互类软件、查询类APP时，发送到云端进行语义解析。判断模块31判断调用的应用是网络应用还是本地应用，根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为，如果控制对象是网络应用，则将识别后的文本发送到云端进行解析；如果控制对象是本地应用，则将文本发送到解析模块41以调用本地命令词库对语音识别后的文本进行语义解析。如果控制对象是固定对象，或调用的应用为本地应用，则进一步可以调用该控制对象或应用的本地专属命令词库对语音识别后的文本进行语义解析。

本发明实施例五还提供了一种离线命令词与云端解析相结合的语音识别系统，参照附图3，包括语音识别装置1和云解析服务器2。其中，当语音识别装置1的判断模块31在识别结果满足实施例一所述的相关条件时，将文本信息发送给云解析服务器2，并接收云解析服务2返回的指令，或语义解析结果。其中，语音识别装置1的解析模块41还包括标记模块421和合并模块422，标记模块421用于在需要截断文本处生成并插入拆分标记位，合并模块422用于将本地语义解析的结果和云解析服务器2返回的语义解析结果根据标记模块421生成的拆分标记位进行合并。

当判断模块31判断出文本长度大于预设值时，判断该文本的语义解析较为复杂，可以根据该识别结果将文本发送到云端进行解析。或者解析模块41的标记模块421可以将文本进行拆分，拆分时生成标记位信息以标记拆分的位置，部分文本发送到语义解析模块411调用本地命令词库进行语义解析，其余部分发送到云端进行语义解析，合并模块422根据拆分时插入的标记位将云端返回的语义解析结果和本地语义解析结果进行合并，解析模块根据合并后的结果生成操作指令。

本发明实施例五的离线命令词与云端解析相结合的语音识别装置1还包括本地命令词库51，也叫作离线命令词库51，该本地命令词51保存在本地存储空间内，由用户创建，本地命令词库51是在本地存储空间内存储的多个命令词库51n，n为大于等于1的自然数，本地命令词库51可以定时与云解析服务器或网络进行交互，以更新其命令词，本地命令词库51可以被编辑，该编辑包括但不限于创建、更改、删除、合并、拆分、命名、分类、排序、组合等。本地命令词库51的创建可以根据应用或设备创建，例如：创建家居设备命令词库511，包括对冰箱、洗衣机、电视、照明设备的开启、关闭、运转速度、运转时间、模式等的语音解析命令词；或者针对儿童教育类APP创建命令词库512，包括对讲故事软件、在线英语教学、识字软件的语义解析命令词。本地命令词库51的创建还可以根据内容进行创建，例如：音乐命令词库513，包括流行音乐命令词子库5131、古典音乐命令词字库5132等。本地命令词库51的创建还可以根据用户的使用习惯来进行创建，例如对于特定用户A，其典型的一日作息包括：开灯起床、打开电饭煲做饭、开车上班路上听音乐、午饭叫外卖、开车下班通过导航查看是否拥堵、路上听音乐、晚上洗澡、熄灯睡觉。则根据用户日常使用的设备、软件或APP建立该特定用户A的专属命令库，该专属命令库514可以包括命令词：开灯、开电饭煲、打开车载收音机、103.9、美团、饿了么、鱼香肉丝、披萨、打开高德、关灯等。本发明允许用户根据需要创建不同类别的命令词库，上述列出的方式不应视为对本发明的本地命令词库的限制，本发明可以根据需要设置任意的本地命令库。

本地命令词库51还可以是专属命令词库，例如，为授权用户Master创建专属命令词库的方法如下：用户Master是相声爱好者，每天都要听相声节目，以及查询与相声相关的信息，那么Master的专属命令词库可以包括与相声相关的命令词，并且该命令词库可以定时与云端交互，获取最新的相声节目等命令词更新到本地的命令词中。该专属命令词库可以一进步细分细化，例如根据用户Master的生活习惯和作息规律，建立对应于某一时间段和/或所处位置的的命令词库，根据识别结果结合其他信息，例如时间信息、位置信息等调用相应的命令词库，例如周一的早上10点，Master的位置是在泸沽湖，可以对应的调用Master专属的旅游命令词库，也可以调用通用的包含旅游命令词库的本地命令词库进行语义解析。

本发明实施例还提供了一种终端，包括实施例五所述的离线命令词与云端解析相结合的语音识别装置1，并能够与云解析服务器2进行交互，以在满足条件时通过云解析服务器2进行语义解析。

本发明实施例还提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现以下步骤：步骤101、接收用户的语音输入；

步骤102、对接收到的语音进行识别；

步骤103、输出识别结果；

步骤105、根据语义解析结果生成指令；

步骤106、执行指令。

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机可执行指令，所述计算机可执行指令被执行时实现本公开各实施例中所述的离线命令词与云端解析相结合的语音识别方法。

以上仅为本发明的示例性实施例。在不背离本发明的精神及其实质的情况下，本领域技术人员应当根据本发明做出各种相应的变形和改变，这些变形和改变都应落入本发明的权利要求书的保护范围内。

Claims

1.一种离线命令词与云端解析相结合的语音识别方法，其特征在于，所述方法包括：步骤101、接收用户的语音输入；步骤102、对接收到的语音进行识别；步骤103、输出识别结果；步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析；步骤105、根据语义解析结果生成指令；步骤106、执行指令。

2.根据权利要求1所述的语音识别方法，其特征在于：识别结果包括用户的属性信息。

3.根据权利要求2所述的语音识别方法，其特征在于：用户的属性信息指用户是特定用户，还是非特定用户。

4.根据权利要求3所述的语音识别方法，其特征在于：特定用户包括家庭成员，办公室成员，授权用户，使用频次较高的用户，本地联系人列表中存储的用户，临时建立的群中的用户之一；非特定用户包括访客，非授权用户，使用频次低的用户，未存储在本地联系人列表中的用户之一。

5.根据权利要求1所述的语音识别方法，其特征在于：根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括，如果用户属于特定用户，则调用本地命令词库进行解析，如果用户属于非特定用户，则将识别后的文本发送到云端进行解析。

6.根据权利要求5所述的语音识别方法，其特征在于：特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库；或者特定用户能够调用本地命令词，而非特定用户仅能进行云端解析；或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合，用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多，或包含的本地命令词库的级别越高。

7.根据权利要求6所述的语音识别方法，其特征在于：如果用户属于特定用户，则调用本地存储的3D用户画像，根据3D用户画像调用相应的本地命令词库进行解析。

8.根据权利要求6所述的语音识别方法，其特征在于：如果用户属于非特定用户，则允许非特定用户被授权构建3D用户画像，非特定用户被授权构建3D用户画像后，可以根据3D用户画像调用相应的本地命令词库进行解析。

9.根据权利要求7或8所述的语音识别方法，其特征在于：3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的至少之一，3D用户画像由用户自行输入，或根据用户的数据叠加、抽象形成。

10.根据权利要求1所述的语音识别方法，其特征在于：识别结果还包括语音识别后的文本的长度，根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为：如果识别结果为文本的长度大于设定值，则将文本进行拆分，部分调用本地命令词库进行解析，部分上传云端进行解析，云端解析完成后回传本地，在本地对两部分解析结果进行合成并输出控制指令。

11.根据权利要求1-10之一所述的语音识别方法，其特征在于：如果调用本地命令词库进行解析时出现无法进行解析的命令词，则将该无法解析的命令词及其邻近的上下文信息上传云端进行解析，解析完成后回传本地，在本地将云端回传的解析结果和本地解析结果进行合并后输出控制指令。

12.根据权利要求10-11之一所述的语音识别方法，其特征在于：在拆分处，或在无法解析的命令词的上文和下文处插入标记，所述在本地对两部分解析结果进行合并时根据插入的标记位进行合并。

13.根据权利要求12所述的语音识别方法，其特征在于：判断用户是否特定用户，如果用户属于特定用户，则将所述无法解析的命令词的解析结果加入到对应的本地命令词库中。

14.根据权利要求1所述的语音识别方法，其特征在于：识别结果为语音识别中评估的难度级别，根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析为：难度级别大于等于预定值一时，进行云端解析，小于等于预定值二时调用本地命令词库进行解析；难度级别处于预定值一和预定值二之间时，采用本地命令词库和云端解析相结合的方式。

15.根据权利要求1所述的语音识别方法，其特征在于：识别结果包括语音输入的控制对象信息；根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为：根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。

16.根据权利要求15所述的语音识别方法，其特征在于：控制对象信息包括，控制对象是网络应用还是本地应用，根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为：如果控制对象是网络应用，则将识别后的文本发送到云端进行解析；如果控制对象是本地应用，则调用本地命令词库对语音识别后的文本进行语义解析。

17.根据权利要求16所述的语音识别方法，其特征在于：如果控制对象是本地应用，则调用该控制对象的专属命令词库对语音识别后的文本进行语义解析。

18.根据权利要求1所述的语音识别方法，其特征在于：识别结果为语义识别后的文本中是否包含特定词，根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括，如果识别结果包含特定词，则调用对应的本地命令词库进行解析，如果识别结果不包含特定词，则将识别后的文本发送到云端进行解析。

19.根据权利要求18所述的语音识别方法，其特征在于：所述特定词的位置在文本后n位，n为设定的自然数。

20.根据权利要求18所述的语音识别方法，其特征在于：所述特定词的位置在文本的任意位置。