CN109036410A

CN109036410A - 语音识别方法、装置、存储介质及终端

Info

Publication number: CN109036410A
Application number: CN201811001167.4A
Authority: CN
Inventors: 林肇堃; 魏苏龙; 麦绮兰
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2018-12-18

Abstract

本申请实施例公开了一种语音识别方法、装置、存储介质及终端，该方法包括：获取语音信息；根据常用字识别法识别所述语音信息得到初步识别结果；如果所述初步识别结果中存在生僻字，则基于生僻字识别法识别所述语音信息中的生僻字；根据所述初步识别结果和生僻字识别结果确定目标文本信息，能够提高智能穿戴设备语音识别的准确性。

Description

语音识别方法、装置、存储介质及终端

技术领域

本申请实施例涉及智能终端技术领域，尤其涉及语音识别方法、装置、存储介质及终端。

背景技术

随着智能穿戴设备的不断发展，智能穿戴设备的功能越来越丰富，例如，可以在工作时开启远程指导功能，通过语音和视频接受专家的指导。还可以用语音指令代替传统的手动触发指令来控制智能穿戴设备。而这些功能都离不开智能穿戴设备对语音的识别。

现有的智能穿戴设备在进行语音识别时，对语音的发音准确程度和清晰度有较高的要求，当发音不准确时经常出现识别错误或识别不到的情况，严重影响远程指导质量或对智能穿戴设备控制的准确性，亟需改进。

发明内容

本申请实施例的目的是提供一种语音识别方法、装置、存储介质及终端，可以提高语音识别的准确性。

第一方面，本申请实施例提供了一种语音识别方法，适用于智能穿戴设备中，包括：

获取语音信息；

根据常用字识别法识别所述语音信息得到初步识别结果；

如果所述初步识别结果中存在生僻字，则基于生僻字识别法识别所述语音信息中的生僻字；

根据所述初步识别结果和生僻字识别结果确定目标文本信息。

第二方面，本申请实施例提供了一种语音识别装置，配置于智能穿戴设备中，包括：

获取模块，用于获取语音信息；

初步识别模块，用于根据常用字识别法识别获取模块获取的所述语音信息得到初步识别结果；

生僻字识别模块，用于如果所述初步识别模块识别的所述初步识别结果中存在生僻字，则基于生僻字识别法识别所述语音信息中的生僻字；

文本信息确定模块，用于根据所述初步识别模块识别的所述初步识别结果和所述生僻字识别模块识别的生僻字识别结果，确定目标文本信息。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所示的语音识别方法。

第四方面，本申请实施例提供了一种终端，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所示的语音识别方法。

本申请实施例中提供的语音识别方案，首先获取语音信息；其次，根据常用字识别法识别所述语音信息得到初步识别结果；再次，如果所述初步识别结果中存在生僻字，则基于生僻字识别法识别所述语音信息中的生僻字；最后，根据所述初步识别结果和生僻字识别结果确定目标文本信息，能够提高语音识别的准确性。

附图说明

图1为本申请实施例提供的一种语音识别方法的流程示意图；

图2为本申请实施例提供的另一种语音识别方法的流程示意图；

图3为本申请实施例提供的另一种语音识别方法的流程示意图；

图4为本申请实施例提供的另一种语音识别方法的流程示意图；

图5为本申请实施例提供的另一种语音识别方法的流程示意图；

图6为本申请实施例提供的一种语音识别装置的结构示意图；

图7是本申请实施例提供的一种智能穿戴设备的结构示意图；

图8是本申请实施例提供的一种智能穿戴设备的示意实物图；

图9为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

随着智能穿戴设备的不断发展，智能穿戴设备的功能越来越丰富，例如，可以在工作时开启远程指导功能，通过获取用户输入的语音进行识别后得到目标文本信息，将目标文本信息和摄像头采集的视频发送给专家，接受专家的指导，接受指导的同时解放了双手进行操作。还可以用语音指令代替传统的手动触发指令来控制智能穿戴设备，提高智能穿戴设备控制的便捷性。而这些功能都离不开智能穿戴设备对语音的识别。现有的智能穿戴设备在进行语音识别时，对语音的发音准确程度和清晰度有较高的要求，当发音不准确时经常出现识别错误或识别不到的情况，严重影响远程指导质量或对智能穿戴设备控制的准确性，亟需改进。

本申请实施例提供了一种语音识别方法，能够对语音信息进行常用字识别法识别后，对识别结果中的生僻字再使用生僻字识别法进行生僻字识别，最终确定目标文本信息，通过两种识别方法相结合，能够提高语音识别的准确性。具体方案如下所示：

图1为本申请实施例提供的语音识别方法的流程示意图，该方法用于智能穿戴设备对语音信息进行识别的情况，该方法可以由具有语音识别功能的智能穿戴设备(如智能眼镜、智能头盔、智能手环等)来执行，此外，该方法还可以适用于其他终端设备进行语音识别的情况，由其他终端设备来执行，例如，该终端设备可以为智能手机、平板电脑、笔记本电脑等，该方法具体包括如下步骤：

步骤110、获取语音信息。

其中，语音信息可以是用户发出的语音，其可以是对智能穿戴设备的控制指令，例如，用户说“开启拨号功能”，此时该语音信息即为控制智能穿戴设备启动拨号功能的语音指令。也可以是通过智能穿戴设备进行通话过程中的用户所说的内容，例如，用户使用智能穿戴设备的远程指导功能，用户说出当前存在的问题，此时用户所说的内容即为语音信息。

在本申请实施例中，获取语音信息可以是通过智能穿戴设备上的麦克风获取。例如，可以是麦克风实时检测环境声音中是否存在用户的语音信息，若存在，则获取语音信息。具体的检测环境声音中是否存在用户的语音信息时，可以预先采集一段用户的语音，检测用户语音的特性，如音色、音调、频率等存储在智能穿戴设备的系统中，在检测环境声音中是否存在用户的语音信息时，可以将环境声音中存在的多路语音信息的语音特性与用户声音特性进行匹配，若匹配成功，则说明用户当前时刻说话了，此时要获取语音信息，即获取用户所说的话。

可选的，麦克风在获取的语音信息时，通常获取的是包含用户语音信息的环境声音。其中包含了环境中其他非用户声音信息，例如，用户在街边说话时，获取的语音信息中可能还包含车辆鸣笛声，周围人的说话声等。此时，为了防止非用户语音信息对语音识别结果的干扰，获取语音信息可以包括：获取当前环境语音信息；从当前环境语音信息中分离出语音信息。具体的，可以是用户当前时刻发出语音，则获取当前包括用户语音信息的环境声音，然后依据用户语音信息的特性(如，音色、音调、频率等)从复杂的多路环境语音信息中分离出与用户语音信息特性相匹配的一路语音信息，即为语音信息。

步骤120、根据常用字识别法识别语音信息得到初步识别结果。

其中，常用字识别法可以是针对普通话的语音识别法，可以由普通话识别模型或识别普通话的语音识别引擎来完成。初步识别结果可以是通过常用字识别法识别得到的用户语音信息对应的语音识别结果。

示例性的，本申请实施例中根据常用字识别法识别语音信息的过程可以是将获取的语音信息输入普通话识别模型或普通话语音识别引擎中，普通话识别模型或普通话识别引擎会自动对输入的语音信息进行分析，得到该语音信息对应的识别结果，即初步识别结果。

可选的，进行常用字识别的普通话识别模型可以是通过采集大量的语音信息以及其对应的文本信息作为训练样本，对预设初始化模型进行训练后生成的用于识别普通话并将其转换为文本信息的语音识别模型。该普通话识别模型可以是机器学习模型，所采用的算法可以包括循环神经网络(Recurrent neural networks,RNN)、长短期记忆(LongShort-Term Memory,LSTM)网络、门限循环单元、简单循环单元、自动编码器、决策树、随机森林、特征均值分类、分类回归树、隐马尔科夫、K最近邻(k-NearestNeighbor，KNN)算法、逻辑回归模型、贝叶斯模型、高斯模型以及KL散度(Kullback–Leibler divergence)等等。

可选的，进行常用字识别的普通话语音识别引擎可以是已有的普通话语音识别软件，智能穿戴设备系统通过调用该软件后，基于该软件对获取的语音信息进行识别。为了提高识别的准确性，系统可以同时调用至少两个不同的普通话语音识别引擎，分别对语音信息进行识别，结合所有的识别结果将准确性最高的一个识别结果作为初步识别结果，或对所有的识别结果进行融合得到出初步识别结果。

可选的，在进行常用字识别时，可以结合对语音识别准确度以及语音识别速度等方面的需求，选择是使用模型识别还是引擎识别。

步骤130、如果初步识别结果中存在生僻字，则基于生僻字识别法识别语音信息中的生僻字。

其中，生僻字可以包括方言、外语等非普通话语音信息。生僻字识别法是针对生僻字的语音识别法，可以由生僻字识别模型或生僻字识别引擎来完成。

在本申请实施例中，判断初步识别结果中是否存在生僻字的方式有很多，本申请对此不进行限定。可以是，如果初步识别结果中存在非标准文字，则非标准文字部分为生僻字；和/或，如果初步识别结果为标准文字，但存在与当前语境不符的文字部分，则与当前语境不符的文字部分为生僻字。

具体的，判断初步识别结果中是否存在非标准文字(即没有识别的部分)，例如，出现乱码、符号、无法识别等等，非标准文字的部分即为生僻字；还可以是对初步识别结果中的标准文字进行语境分析，看是否存在与当前语境不符的文字部分，例如，初步识别结果的语境是技术指导的相关内容，其中出现了吃饭的词汇与当前语境不符，说明吃饭是通过常用字识别法识别到的存在问题的词汇，该词汇即为生僻字。

可选的，当判断初步识别结果中存在生僻字时，可以对生僻字对应的语音信息部分通过生僻字识别法，进行生僻字的识别。具体的识别方法可以类似于常用字识别算法，例如，通过生僻字识别模型或生僻字识别引擎对生僻字对应的语音信息进行识别。具体的识别过程可以是先根据语音信息的特征(如发音的语音、语调、语法等)确定生僻字对应的类型(如，哪个国家的语言、哪个地方的方言等)，确定了生僻字类型后，再选择该类型对应的生僻字识别模型或生僻字识别引擎进行生僻字的识别。例如，如果初步识别结果为“谢谢我们的踢车”生僻字为“踢车”，分析这句话的语法可以看出该生僻字应该是个名词，再分析“踢车”对应发音的语音和语调确定其对应的生僻字类型应该是英文，然后再调用英文语音识别模型或英文语音识别引擎对生僻字“踢车”对应的语音信息进行识别，得到识别结果为“teacher”。

可选的，在进行生僻字识别时，可以结合对语音识别准确度以及语音识别速度等方面的需求，选择生僻字对应的类型，以及确定是使用模型识别还是引擎识别。例如，如果初步确定的生僻字对应的类型不唯一，则可以比较初步确定的生僻字对应的类型与该生僻字匹配准确度，来确定生僻字对应的类型，然后再比较该生僻字类型通过模型识别和引擎识别的准确性和识别速度，来确定使用哪种识别工具进行此次生僻字的识别。

步骤140、根据初步识别结果和生僻字识别结果确定目标文本信息。

其中，目标文本信息可以是对于语音信息识别得到的最终文本信息。在本申请实施例中，确定目标文本信息可以是将初步识别结果和生僻字识别结果进行融合，例如，可以是将生僻字识别结果替代该结果在常用字识别结果中对应的生僻字所在位置，从而得到目标文本信息。

需要说明的是，本申请实施例提供的语音识别方法不限于只对语音信息进行识别，可以应用在智能穿戴设备对语音识别的各个方面，例如，对于听力有障碍的用户，其通过智能穿戴设备与另一方进行语音通话时，智能穿戴设备可以对通话另一方的语音信息进行识别，并将目标文本信息展示在智能穿戴设备的显示屏上，以便听力有障碍的用户明白通话另一方所说的话。

本申请实施例中提供的语音识别方法，首先获取语音信息；其次，根据常用字识别法识别所述语音信息得到初步识别结果；再次，如果所述初步识别结果中存在生僻字，则基于生僻字识别法识别所述语音信息中的生僻字；最后，根据所述初步识别结果和生僻字识别结果确定目标文本信息。本申请实施例能够对语音信息进行常用字识别法识别后，对识别结果中的生僻字再使用生僻字识别法进行生僻字识别，最终确定目标文本信息，通过两种识别方法相结合，能够提高语音识别的准确性。

图2为本申请实施例提供的另一种语音识别方法的流程示意图，作为对上述实施例的进一步说明，包括：

步骤210、获取语音信息。

步骤220、根据常用字识别法识别语音信息得到初步识别结果。

步骤230、判断初步识别结果中是否存在非标准文字，若存在，则对初步识别结果中的非标准文字执行步骤260，对初步识别结果中的标准文字执行步骤240；若不存在，则对初步识别结果执行步骤240。

其中，非标准文字部分可以是由于语音识别错误或没有识别出对应文字而产生的非文字符号，如星号、乱码、无法识别等等。标准文字可以是与非标准文字相对应的，通过常用字识别法能够识别出的文字。

判断初步识别结果中是否存在非标准文字，如果初步识别结果中存在非标准文字，则说明在初步识别结果中存在没有识别或识别错误的情况，此时，对初步识别结果中的非标准文字执行步骤260，确定非标准文字对应的生僻字，对初步识别结果中的标准文字执行步骤240，判断标准文字中是否也可能存在生僻字。若初步识别结果中都是标准文字，则对初步识别结果执行步骤240，同样判断标准文字中是否也可能存在生僻字。

步骤240、判断标准文字中是否存在与当前语境不符的文字部分，若存在执行步骤250，若不存在，执行步骤290。

示例性的，初步识别结果中的标准文字也不一定就识别正确，也有可能出现识别错误的情况，例如，若初步识别结果为“谢谢我们的踢车”，通过步骤230判断后发现这句话中不存在非标准文字，但是根据语境分析可以看出，“谢谢我们的”后面应该跟的是名词，而“踢车”放在这里明显出现了语义不清的情况，针对这种情况，此时的“踢车”应该也属于生僻字，因此，对于初步识别结果中的标准文字，还要进一步判断其中是否存在与当前语境不符的文字部分，若存在，说明标准文字中存在生僻字，执行步骤250，确定标准文字中的具体生僻字；若不存在，说明标准文字中不存在生僻字，此时执行步骤290。

步骤250、与当前语境不符的文字部分为生僻字。

步骤260、非标准文字部分为生僻字。

步骤270、将生僻字和该生僻字对应的语音信息输入生僻字识别模型，得到生僻字识别结果。

示例性的，为了提高语音识别的准确性，如果初步识别结果中存在生僻字，进行生僻字识别时可以将生僻字和生僻字对应的语音信息一同输入生僻字识别模型，生僻字识别模型对输入的生僻字及其对应的语音信息进行分析，得到生僻字识别结果。相应的，此时训练每种生僻字类型对应的生僻字识别模型的方式与训练识别常用字的普通话识别模型也存在一定的差异，例如，获取的训练样本不仅包括该生僻字类型对应的大量的语音信息及其文本信息，还要获取该语音信息对应的普通话的文本信息，一起作为训练样本，进行该种生僻字类型的识别模型的训练。

步骤280、根据初步识别结果和生僻字识别结果确定目标文本信息。

步骤290、将初步识别结果作确定为目标文本信息。

示例性的，只有在步骤230判断不存在非标准文字，且标准文字也与当前语境相符时，即初步识别结果中不存在生僻字，此时才执行步骤290，将初步识别结果作为目标文本信息。

需要说明的是，本申请实施例中，无论初步识别结果中是否存在非标准文字，都要对标准文字部分进行是否符合当前语境的判断，因此，本申请中初步识别结果中存在的生僻字可以是仅从非标准文字部分提取的，即此时的执行顺序是执行完步骤230后直接执行步骤260-步骤280；也可以是仅从标准文字部分提取的，即此时的执行顺序是执行步骤230-步骤250后执行步骤270-步骤280；还可以是从非标准文字部分和标准文字部分分别提取后合并得到的，即此时的执行顺序是执行完步骤230后，对非标准文字部分执行步骤260，对标准文本部分实行步骤240-260，将标准文字和非标准文字部分提取的生僻字共同执行步骤270-步骤280。

本申请实施例提供的语音识别方法，能够对语音信息进行常用字识别法识别后，分别从识别结果中的非标准文字部分和标准文字部分判断是否存在生僻字，若存在生僻字再使用生僻字识别法进行生僻字识别，最终确定目标文本信息，确定的生僻字更为全面准确，能够提高语音识别的准确性。

图3为本申请实施例提供的另一种语音识别方法的流程示意图，作为对上述实施例的进一步说明，包括：

步骤310、获取语音信息。

步骤320、根据常用字识别法识别语音信息得到初步识别结果。

步骤330、如果初步识别结果中存在生僻字，则基于生僻字识别法识别语音信息中的生僻字。

步骤340、判断基于生僻字识别法识别语音信息的生僻字得到的生僻字识别结果是否唯一，若是，执行步骤360，若否，执行步骤350。

示例性的，步骤330对识别结果的生僻字进行生僻字识别时，对于一个生僻字可能存在不止一个的识别结果，例如，一个生僻字对应的识别结果可能是英文类型下的一个识别结果，还可能是某地方言下的一个识别结果。因此，需要判断步骤330基于生僻字识别法识别语音信息的每个生僻字得到的识别结果是否唯一，若不唯一，执行步骤350，从多个识别结果中确定出该生僻字对应的唯一识别结果，若唯一，则直接执行步骤360，确定目标文本信息。

步骤350、如果基于生僻字识别法识别语音信息的生僻字得到的生僻字识别结果不唯一，则根据初步识别结果的当前语境从多个生僻字识别结果中确定最终的生僻字识别结果。

示例性的，如果步骤340判断某一生僻字的识别结果不唯一，则确定最终生僻字识别结果可以是结合初步识别结果的当前语境，从多个生僻字识别结果中选择一个与该语境最为匹配的生僻字，作为最终的生僻字识别结果。

具体的，可以将生僻字对应的每个识别结果都替换初步识别结果中该生僻字对应的位置后，进行语境语义分析，看此时是否仍然还存在语义不通或存在歧义的情况，最后，从该生僻字对应的所有识别结果中选择语义通顺且不存在任何歧义的生僻字识别结果作为最终的生僻字识别结果。

步骤360、根据初步识别结果和生僻字识别结果确定目标文本信息。

本申请实施例提供的语音识别方法，能够对语音信息进行常用字识别法识别后，对识别结果中的生僻字再使用生僻字识别法进行生僻字识别，若一个生僻字存在多个识别结果时，结合初步识别结果的语义从多个识别结果中确定最终的生僻字识别结果，最后，根据最终的生僻字识别结果和初步识别结果确定目标文本信息。在生僻字识别结果不唯一时，确定与当前语境最为符合的结果，能够提高语音识别的准确性。

图4为本申请实施例提供的另一种语音识别方法的流程示意图，作为对上述实施例的进一步说明，包括：

步骤410、获取语音信息。

步骤420、根据常用字识别法识别语音信息得到初步识别结果。

步骤430、如果初步识别结果中存在生僻字，则基于生僻字识别法识别语音信息中的生僻字。

步骤440、将生僻字识别结果替换初步识别结果中的生僻字。

示例性的，将初步识别结果中的生僻字用该生僻字对应的生僻字识别结果进行替换。祛除了初步识别结果中的生僻字，从而得到准确的识别结果。例如，初步识别结果为“谢谢我踢车”，该句话中的生僻字为“踢车”，其对应的生僻字识别结果为“teacher”，将生僻字识别结果“teacher”替换生该句话中的生僻字“踢车”，得到准确的生僻字识别结果为“谢谢我teacher”。

步骤450、对替换后的识别结果进行连贯性处理，得到目标文本信息。

示例性的，步骤440初步识别结果中的各生僻字都替换为各生僻字对应的生僻字识别结果后，此时的语义可能出现不连贯的情况，如，出现缺词或多词的情况，导致语义不连贯，此时需要对替换后的识别结果进行连贯性处理，得到目标文本信息。例如，步骤440替换后的识别结果为“谢谢我teacher”，经过分析后发现teacher应该是我的老师，因此可以将该句话进行连贯性处理，补充完整，得到的目标文本信息为“谢谢我的teacher”。其中，进行连贯性处理的标准是使得句子前后衔接自然、顺畅，表达的意思无任何歧义。可以采用具体的算法进行连贯性处理，还可以是训练语句连贯性模型，通过训练好的模型来对语句进行连贯性处理操作。

本申请实施例提供的语音识别方法，对语音信息进行常用字识别法识别后，对识别结果中的生僻字再使用生僻字识别法进行生僻字识别，将生僻字识别结果替换初步识别结果中的生僻字后进行连贯性处理，得到目标文本信息，经过最后的连贯性处理，使得确定的目标文本信息前后连接自然、顺畅、无歧义，进而提高了语音识别的准确性。

图5为本申请实施例提供的另一种语音识别方法的流程示意图，作为对上述实施例的进一步说明，包括：

步骤510、开始。

步骤520、检测智能穿戴设备是否处于佩戴状态，若是，执行步骤530，若否，返回执行步骤510。

其中，智能穿戴设备处于佩戴状态可以是指智能穿戴设备处于被用户佩戴的状态。在本申请实施例中，检测智能穿戴设备是否处于佩戴状态的方法有很多，本申请对此不进行限定，可以是通过生物特征识别，如温度、虹膜、脸部识别等，也可以是通过距离检测判断，还可以将生物特征和距离检测相结合判断。

具体的，可以结合用户佩戴智能穿戴设备时的状态进行检测，例如，智能穿戴设备为智能眼镜，用户佩戴智能眼镜时，智能眼镜的鼻托和镜腿部位是与用户脸部接触的，可以在这些位置安装至少一个温度传感器，进行温度的检测，当检测到温度达到预设温度(即人体正常体温)时，说明智能眼镜处于佩戴状态。也可以是在智能眼镜的镜片部分面向人脸安装摄像头，用来检测用户人脸或虹膜特征，判断智能眼镜是否处于用户佩戴状态，其中与检测温度相比，该方法成本高、操作相对比较复杂，但是该方法可以准确判断是是否是终端用户佩戴，可以起到一定的防盗效果，例如，如果检测到非用户佩戴，则不响应任何操作，甚至可以报警。因此，可以根据需求选择具体的检测方法。

通过距离检测智能穿戴设备是否处于佩戴状态时，可以与温度检测类似，结合用户佩戴智能穿戴设备时的状态进行检测，例如，智能穿戴设备为智能眼镜，用户佩戴智能眼镜时，智能眼镜的鼻托和镜腿部位是与用户脸部接触的，可以在这些位置安装至少一个距离传感器，检测到用户之间的距离，若距离小于预设距离(即该预设距离尽可能的设置的小一些)，则说明智能眼镜处于佩戴状态。可选的，为了提高检测的准确性且尽可能的降低成本，可以将温度检测和距离检测相结合，来判断智能穿戴设备是否处于佩戴状态。例如，智能穿戴设备上温度传感器检测到温度达到预设温度，且距离传感器检测到距离小于预设距离，则说明智能穿戴设备处于佩戴状态。

可选的，由于距离传感器和温度传感器都为至少一个，因此，可以是在有预设个数的温度传感器和距离传感器满足上述条件(如，至少有一半以上的温度传感器和距离传感器满足上述条件)，即确定智能穿戴设备处于佩戴状态，还可以是当同时存在满足上述条件的温度传感器和距离传感器(如只要有同时满足上述条件的传感器，即使每种传感器都有一个满足也可以)，即确定智能穿戴设备处于佩戴状态。

示例性的，当检测到智能穿戴设备处于佩戴状态，则可以执行步骤530，获取语音信息。当检测到智能穿戴设备处于非佩戴状态，则说明用户根本没有使用智能穿戴设备，所以也不可能使用智能穿戴设备进行远程指导或发送控制指令，因此，此时为了节约功耗，麦克风可以处于关闭状态，返回步骤510判断下一检测时刻智能穿戴设备所处的状态。可选的，智能穿戴设备的检测时刻可以是每隔预设时间检测一次，还可以是当检测到智能穿戴设备处于运动状态(即用户拿起智能穿戴设备)时检测一次，也可以是当检测到智能穿戴设备被开启时检测一次等等。

步骤530、如果检测到智能穿戴设备处于佩戴状态，则获取语音信息。

示例性的，如果检测到智能穿戴设备处于佩戴状态，则可以实时检测用户是否说话，若检测到用户说话，则在用户说话的时候获取该语音信息。

步骤540、根据常用字识别法识别语音信息得到初步识别结果。

步骤550、如果初步识别结果中存在生僻字，则基于生僻字识别法识别语音信息中的生僻字。

步骤560、根据初步识别结果和生僻字识别结果确定目标文本信息。

本申请实施例提供的语音识别方法，能够在智能穿戴设备处于佩戴状态时，获取语音信息，并对语音信息进行常用字识别法识别，对识别结果中的生僻字再使用生僻字识别法进行生僻字识别，最终确定目标文本信息，避免了用户没有佩戴智能穿戴设备却误触发获取用户语音信息造成的功耗的浪费的情况，节约功耗的同时，能够提高语音识别的准确性。

图6为本申请实施例提供的一种语音识别装置的结构示意图。如图6所示，该装置包括：获取模块610，初步识别模块620，生僻字识别模块630，文本信息确定模块640。

获取模块610，用于获取语音信息；

初步识别模块620，用于根据常用字识别法识别获取模块610获取的所述语音信息得到初步识别结果；

生僻字识别模块630，用于如果所述初步识别模块620识别的所述初步识别结果中存在生僻字，则基于生僻字识别法识别所述语音信息中的生僻字；

文本信息确定模块640，用于根据所述初步识别模块620识别的所述初步识别结果和所述生僻字识别模块630识别的生僻字识别结果，确定目标文本信息。

进一步的，生僻字识别模块630用于，如果所述初步识别结果中存在生僻字，则将所述生僻字和所述生僻字对应的语音信息输入生僻字识别模型，得到生僻字识别结果。

进一步的，所述初步识别结果中存在生僻字，包括：

如果所述初步识别结果中存在非标准文字，则所述非标准文字部分为生僻字；和/或，

如果所述初步识别结果为标准文字，但存在与当前语境不符的文字部分，则所述与当前语境不符的文字部分为生僻字。

进一步的，上述装置还包括：

识别结果确定模块，用于如果基于生僻字识别法识别所述语音信息的生僻字得到的生僻字识别结果不唯一，则根据所述初步识别结果的当前语境从多个生僻字识别结果中确定最终的生僻字识别结果。。

进一步的，文本信息确定模块640用于，将所述生僻字识别结果替换所述初步识别结果中的生僻字；

对替换后的识别结果进行连贯性处理，得到目标文本信息。

进一步的，获取模块610用于，获取当前环境语音信息；

从所述当前环境语音信息中分离出语音信息。

进一步的，获取模块610还用于，如果检测到所述智能穿戴设备处于佩戴状态，则获取语音信息。

本申请实施例中提供的语音识别装置，首先获取模块610获取语音信息；其次，初步识别模块620根据常用字识别法识别所述语音信息得到初步识别结果；再次，生僻字识别模块630在所述初步识别结果中存在生僻字时，基于生僻字识别法识别所述语音信息中的生僻字；最后，文本信息确定模块640根据所述初步识别结果和生僻字识别结果确定目标文本信息，本申请实施例能够对语音信息进行常用字识别法识别后，对识别结果中的生僻字再使用生僻字识别法进行生僻字识别，最终确定目标文本信息，通过两种识别方法相结合，能够提高语音识别的准确性。

上述装置可执行本申请前述所有实施例所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请前述所有实施例所提供的方法。

本实施例在上述各实施例的基础上提供了一种智能穿戴设备，图7是本申请实施例提供的一种智能穿戴设备的结构示意图，图8是本申请实施例提供的一种智能穿戴设备的示意实物图。如图7和图8所示，该智能穿戴设备包括：存储器701、处理器(CentralProcessing Unit，CPU)702、显示部件703、触摸面板704、心率检测模组705、距离传感器706、摄像头707、骨传导扬声器708、麦克风709、呼吸灯710，这些部件通过一个或多个通信总线或信号线711来通信。

应该理解的是，图示智能穿戴设备仅仅是智能穿戴设备的一个范例，并且智能穿戴设备可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的用于语音识别的智能穿戴设备进行详细的描述，该智能穿戴设备以智能眼镜为例。

存储器701，所述存储器701可以被CPU702访问，所述存储器701可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

显示部件703，可用于显示图像数据以及操作系统的操控界面，显示部件703嵌入在智能穿戴设备的镜框中，镜框内部设置有内部传输线路711，该内部传输线路711和显示部件703连接。

触摸面板704，该触摸面板704设置在至少一个智能穿戴设备镜腿的外侧，用于获取触摸数据，触摸面板704通过内部传输线路711和CPU702连接。其中，触摸面板704可检测用户的手指滑动、点击操作，并相应的把检测到的数据传输至处理器702进行处理以生成对应的控制指令，示例性的，可以是左移指令、右移指令、上移指令、下移指令等。示例性的，显示部件703可显示处理器702传输的虚拟图像数据，该虚拟图像数据可相应的根据触摸面板704检测到的用户操作进行相应变化，具体的，可以是进行画面切换，当检测到左移指令或右移指令后相应的切换上一个或下一个虚拟图像画面；当显示部件703显示视频播放信息时，该左移指令可以是进行播放内容的回播，右移指令可以是进行播放内容的快进；当显示部件703显示的为可编辑文字内容时，该左移指令、右移指令、上移指令、下移指令可以是对光标的位移操作，即光标的位置可根据用户对触摸板的触摸操作而进行移动；当显示部件703显示的内容为游戏动画画面时，该左移指令、右移指令、上移指令、下移指令可以是对游戏中的对象进行控制，如飞机游戏中，可通过该左移指令、右移指令、上移指令、下移指令分别控制飞机的飞行方向；当显示部件703可显示不同频道的视频画面时，该左移指令、右移指令、上移指令、下移指令可进行不同频道的切换，其中，上移指令和下移指令可以是切换到预置频道(如用户使用的常用频道)；当显示部件703显示静态图片时，该左移指令、右移指令、上移指令、下移指令可进行不同图片之间的切换，其中，左移指令可以是切换到上一幅图片，右移指令可以是切换至下一幅图，上移指令可以是切换到上一图集，下移指令可以是切换至下一图集。该触摸面板704还可用于对显示部件703的显示开关进行控制，示例性的，当长按压触摸面板704触摸区域时，显示部件703通电显示图像界面，当再次长按压触摸面板704触摸区域时，显示部件703断电，当显示部件703通电后，可通过在触摸面板704进行上滑和下滑操作以调节显示部件703中显示图像的亮度或分辨率。

心率检测模组705，用于测得用户的心率数据，心率指每分钟的心跳次数，该心率检测模组705设置在镜腿内侧。具体的，该心率检测模组705可以是通过电脉冲测量的方式使用干性电极获取人体心电数据，根据心电数据中的振幅峰值确定心率大小；该心率检测模组705还可以是由采用光电法测量心率的光线发射和光线接收器组成，相应的，该心率检测模组705设置在镜腿底部，人体耳廓的耳垂处。心率检测模组705采集到心率数据后可相应的发送至处理器702中进行数据处理已得到佩戴者当前的心率值，在一个实施例中，处理器702在确定出用户的心率值后，可将该心率值实时显示在显示部件703中，可选的处理器702在确定出心率值较低(如小于50)或较高(如大于100)可相应的触发报警器，同时将该心率值和/或生成的报警信息通过通信模块发送至服务器。

距离传感器706，可设置在镜框上，该距离传感器706用于感应人脸到镜框的距离，该距离传感器706可采用红外感应原理实现。具体的，该距离传感器706将采集的距离数据发送至处理器702，处理器702根据该距离数据控制显示部件703的亮暗。示例性的，当确定出距离传感器706采集到的距离小于5厘米时，处理器702相应的控制显示部件703处于点亮状态，当确定出距离传感器为探测到有物体靠近时，相应的控制显示部件704处于关闭状态。

呼吸灯710，可设置在镜框的边缘，当显示部件703关闭显示画面时，该呼吸灯710可根据处理器702的控制而点亮呈渐变亮暗效果。

摄像头707，可以是设置在镜框的上边框的位置，采集用户前方的图像数据的前摄像模块，还可以采集用户眼球信息的后摄像模块，也可以是二者的结合。具体的，摄像头707采集前方图像时，将采集的图像发送至处理器702识别、处理，并根据识别结果触发相应的触发事件。示例性的，当用户在家中佩戴该穿戴设备时，通过对采集的前方图像进行识别，如果识别到家具物品，则相应的查询是否存在对应的控制事件，如果存在，则相应的将该控制事件对应的控制界面显示在显示部件703中，用户可通过触摸面板704进行对应的家具物品的控制，其中该家具物品和智能穿戴设备通过蓝牙或无线自组网进行网络连接；当用户在户外佩戴该穿戴设备时，可相应的开启目标识别模式，该目标识别模式可用于识别特定的人，摄像头707将采集的图像发送至处理器702进行人脸识别处理，如果识别到设定的预设人脸，则相应的可通过智能穿戴设备集成的扬声器进行声音播报，该目标识别模式还可以用于识别不同的植物，例如，处理器702根据触摸面板704的触摸操作以记录摄像头707采集的当前图像并通过通信模块发送至服务器以进行识别，服务器对采集图像中的植物进行识别并反馈相关的植物名称、介绍至智能穿戴设备，并将反馈数据显示在显示部件703中。摄像头707还可以是用于采集用户眼部如眼球的图像，通过对眼球的转动的识别生成不同的控制指令，示例性的，如眼球向上转动生成上移控制指令，眼球向下转动生成下移控制指令，眼球向左转动生成左移控制指令，眼球向右转动生成右移控制指令，其中，显示部件703可显示处理器702传输的虚拟图像数据，该虚拟图像数据可相应的根据摄像头707检测到的用户眼球的移动变化生成的控制指令而改变，具体的，可以是进行画面切换，当检测到左移控制指令或右移控制指令后相应的切换上一个或下一个虚拟图像画面；当显示部件703显示视频播放信息时，该左移控制指令可以是进行播放内容的回播，右移控制指令可以是进行播放内容的快进；当显示部件703显示的为可编辑文字内容时，该左移控制指令、右移控制指令、上移控制指令、下移控制指令可以是对光标的位移操作，即光标的位置可根据用户对触摸板的触摸操作而进行移动；当显示部件703显示的内容为游戏动画画面时，该左移控制指令、右移控制指令、上移控制指令、下移控制指令可以是对游戏中的对象进行控制，如飞机游戏中，可通过该左移控制指令、右移控制指令、上移控制指令、下移控制指令分别控制飞机的飞行方向；当显示部件703可显示不同频道的视频画面时，该左移控制指令、右移控制指令、上移控制指令、下移控制指令可进行不同频道的切换，其中，上移控制指令和下移控制指令可以是切换到预置频道(如用户使用的常用频道)；当显示部件703显示静态图片时，该左移控制指令、右移控制指令、上移控制指令、下移控制指令可进行不同图片之间的切换，其中，左移控制指令可以是切换到上一幅图片，右移控制指令可以是切换至下一幅图，上移控制指令可以是切换到上一图集，下移控制指令可以是切换至下一图集。

骨传导扬声器708，骨传导扬声器708设置在至少一个镜腿的内壁侧，用于将接收到的处理器702发送的音频信号转换为振动信号。其中，骨传导扬声器708将声音通过颅骨传递至人体内耳，通过将音频的电信号转变为振动信号传递到颅骨耳蜗内，再被听觉神经所感知。通过骨传导扬声器708作为发声装置减少了硬件结构厚度，重量更轻，同时无电磁辐射也不会受到电磁辐射的影响，并且具备抗噪声、防水以及解放双耳的有点。

麦克风709，可设置在镜框的下边框上，用于采集外部(用户、环境)声音并传输至处理器702进行处理。示例性的，麦克风709对用户发出的声音进行采集并通过处理器702进行声纹识别，如果识别为认证用户的声纹，则相应的可接收后续的语音控制，具体的，用户可发出语音，麦克风709将采集到的语音发送至处理器702进行识别以根据识别结果生成对应的控制指令，如“开机”、“关机”、“提升显示亮度”、“降低显示亮度”，处理器702后续根据该生成的控制指令执行对应的控制处理。

在本实施例中，处理器702用于:

获取语音信息；

根据常用字识别法识别所述语音信息得到初步识别结果；

进一步的，所述如果所述初步识别结果中存在生僻字，则基于生僻字识别法识别所述语音信息中的生僻字，包括：

如果所述初步识别结果中存在生僻字，则将所述生僻字和所述生僻字对应的语音信息输入生僻字识别模型，得到生僻字识别结果。

进一步的，所述初步识别结果中存在生僻字，包括：

进一步的，所述基于生僻字识别法识别所述语音信息中的生僻字之后，还包括：

如果基于生僻字识别法识别所述语音信息的生僻字得到的生僻字识别结果不唯一，则根据所述初步识别结果的当前语境从多个生僻字识别结果中确定最终的生僻字识别结果。

进一步的，所述根据所述初步识别结果和生僻字识别结果确定目标文本信息，包括：

将所述生僻字识别结果替换所述初步识别结果中的生僻字；

对替换后的识别结果进行连贯性处理，得到目标文本信息。

进一步的，所述获取语音信息，包括：

获取当前环境语音信息；

从所述当前环境语音信息中分离出语音信息。

进一步的，所述获取语音信息，还包括：

如果检测到所述智能穿戴设备处于佩戴状态，则获取语音信息。

上述实施例中提供的智能穿戴设备的语音识别装置及智能穿戴设备可执行本发明任意实施例所提供的语音识别方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的语音识别方法。

图9是本申请实施例提供的一种终端设备的结构示意图。如图9所示，该终端可以包括：壳体(图中未示出)、存储器901、中央处理器(Central Processing Unit，CPU)902(又称处理器，以下简称CPU)、存储在存储器901上并可在处理器902上运行的计算机程序、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部；所述CPU902和所述存储器901设置在所述电路板上；所述电源电路，用于为所述终端的各个电路或器件供电；所述存储器901，用于存储可执行程序代码；所述CPU902通过读取所述存储器901中存储的可执行程序代码来运行与所述可执行程序代码对应的程序。

所述终端还包括：外设接口903、RF(Radio Frequency，射频)电路905、音频电路906、扬声器911、电源管理芯片908、输入/输出(I/O)子系统909、触摸屏912、其他输入/控制设备910以及外部端口904，这些部件通过一个或多个通信总线或信号线907来通信。

应该理解的是，图示终端设备900仅仅是终端的一个范例，并且终端设备900可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的用于一种终端设备进行详细的描述，该终端设备以智能手机为例。

存储器901，所述存储器901可以被CPU902、外设接口903等访问，所述存储器901可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口903，所述外设接口903可以将设备的输入和输出外设连接到CPU902和存储器901。

I/O子系统909，所述I/O子系统909可以将设备上的输入输出外设，例如触摸屏912和其他输入/控制设备910，连接到外设接口903。I/O子系统909可以包括显示控制器9091和用于控制其他输入/控制设备910的一个或多个输入控制器9092。其中，一个或多个输入控制器9092从其他输入/控制设备910接收电信号或者向其他输入/控制设备910发送电信号，其他输入/控制设备910可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器9092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

其中，按照触摸屏的工作原理和传输信息的介质分类，触摸屏912可以为电阻式、电容感应式、红外线式或表面声波式。按照安装方式分类，触摸屏912可以为：外挂式、内置式或整体式。按照技术原理分类，触摸屏912可以为：矢量压力传感技术触摸屏、电阻技术触摸屏、电容技术触摸屏、红外线技术触摸屏或表面声波技术触摸屏。

触摸屏912，所述触摸屏912是用户终端与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。可选的，触摸屏912将用户在触屏幕上触发的电信号(如接触面的电信号)，发送给处理器902。

I/O子系统909中的显示控制器9091从触摸屏912接收电信号或者向触摸屏912发送电信号。触摸屏912检测触摸屏上的接触，显示控制器9091将检测到的接触转换为与显示在触摸屏912上的用户界面对象的交互，即实现人机交互，显示在触摸屏912上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路905，主要用于建立智能音箱与无线网络(即网络侧)的通信，实现智能音箱与无线网络的数据接收和发送。例如收发短信息、电子邮件等。

音频电路906，主要用于从外设接口903接收音频数据，将该音频数据转换为电信号，并且将该电信号发送给扬声器911。

扬声器911，用于将智能音箱通过RF电路905从无线网络接收的语音信号，还原为声音并向用户播放该声音。

电源管理芯片908，用于为CPU902、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

在本实施例中，中央处理器902用于：

获取语音信息；

根据常用字识别法识别所述语音信息得到初步识别结果；

进一步的，所述初步识别结果中存在生僻字，包括：

将所述生僻字识别结果替换所述初步识别结果中的生僻字；

对替换后的识别结果进行连贯性处理，得到目标文本信息。

进一步的，所述获取语音信息，包括：

获取当前环境语音信息；

从所述当前环境语音信息中分离出语音信息。

进一步的，所述获取语音信息，还包括：

本申请实施例还提供一种包含终端设备可执行指令的存储介质，所述终端设备可执行指令在由终端设备处理器执行时用于执行一种语音识别方法，该方法包括：

获取语音信息；

根据常用字识别法识别所述语音信息得到初步识别结果；

进一步的，所述初步识别结果中存在生僻字，包括：

将所述生僻字识别结果替换所述初步识别结果中的生僻字；

对替换后的识别结果进行连贯性处理，得到目标文本信息。

进一步的，所述获取语音信息，包括：

获取当前环境语音信息；

从所述当前环境语音信息中分离出语音信息。

进一步的，所述获取语音信息，还包括：

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的语音识别操作，还可以执行本申请任意实施例所提供的语音识别方法中的相关操作。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，适用于智能穿戴设备中，包括：

获取语音信息；

根据常用字识别法识别所述语音信息得到初步识别结果；

2.根据权利要求1所述的语音识别方法，其特征在于，所述如果所述初步识别结果中存在生僻字，则基于生僻字识别法识别所述语音信息中的生僻字，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述初步识别结果中存在生僻字，包括：

如果所述初步识别结果中存在非标准文字，则非标准文字部分为生僻字；和/或，

4.根据权利要求1所述的语音识别方法，其特征在于，所述基于生僻字识别法识别所述语音信息中的生僻字之后，还包括：

5.根据权利要求1所述的语音识别方法，其特征在于，所述根据所述初步识别结果和生僻字识别结果确定目标文本信息，包括：

将所述生僻字识别结果替换所述初步识别结果中的生僻字；

对替换后的识别结果进行连贯性处理，得到目标文本信息。

6.根据权利要求1所述的语音识别方法，其特征在于，所述获取语音信息，包括：

获取当前环境语音信息；

从所述当前环境语音信息中分离出语音信息。

7.根据权利要求1所述的语音识别方法，其特征在于，所述获取语音信息，还包括：

8.一种语音识别装置，其特征在于，配置于智能穿戴设备中，包括：

获取模块，用于获取语音信息；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述语音识别方法。

10.一种终端，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一所述的语音识别方法。