CN110992937A

CN110992937A - 语言离线识别方法、终端及可读存储介质

Info

Publication number: CN110992937A
Application number: CN201911248129.3A
Authority: CN
Inventors: 彭辉; 黎智勇; 许敏强
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-10
Anticipated expiration: 2039-12-06
Also published as: CN110992937B

Abstract

本申请公开了一种语言离线识别方法、终端和计算机可读存储介质，通过获取移动终端用户输入的语音数据，基于所述移动终端中本地数据库对所述语音数据进行识别；若基于本地数据库识别失败，则连接并基于预设云平台语音库识别所述语音数据，获取语音内容；然后根据所述语音内容，分析并获取所述移动终端用户的语音识别的喜好属性；最后基于所述喜好属性，更新所述本地数据库，解决了在没有联网环境下本地数据库语音识别准确率不高、在联网环境下云平台语音识别需要耗费较多流量和手机电量的技术问题。

Description

语言离线识别方法、终端及可读存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语言离线识别方法、终端及可读存储介质。

背景技术

语音识别是目前应用最多的人机交互方式之一，目前大部分的智能语音系统中，智能语音交互设备通常在连接互联网的状态下工作，甚至很多是基于云端的状态下工作，也就是说，例如在语音识别过程中，可以将语言模型等多种数据设置于云端，这样，就可以在云端上进行语音识别。但是，如果在离线环境下，由于智能设备本身的性能有限，会出现诸如下述问题：一些使用场景(如导航、音乐播放等场景)所需数据(如声学模型、语言模型等)的数据量较大，并且计算过程比较复杂，离线环境下的数据无法满足语音识别的需求，因此，语音离线识别率往往无法保证，这样导致离线环境时智能语音设备基本不可用。

即传统的语音交互方式通常是通过用户终端在本地完成语音识别，识别后的文本传输到云端，通过云端进行语义解析并生成指令或对话，将指令或对话传输回用户终端。这样的模式响应速度慢。本地存储离线命令库的方法能够提高响应速度，但是由于本地存储空间的有限性，本地存储离线命令库无法像云端解析一样实现各类命令的解析。由此可见，目前语音离线在没有联网环境下识别，则本地数据库语音识别准确率不高；在联网环境下云平台语音识别，则需要耗费较多流量和手机电量的技术问题。

发明内容

本申请的主要目的在于提出一种语音离线识别方法、装置及可读存储介质，旨在提高离线情况下语音的识别率和准确率，并且节约手机流量和电量，提升用户体验。

为实现上述目的，本申请实施例提供一种语言离线识别方法，所述语言离线识别方法包括以下步骤：

获取移动终端用户输入的语音数据，基于所述移动终端中本地数据库对所述语音数据进行识别；

若基于本地数据库识别失败，则连接并基于预设云平台语音库识别所述语音数据，获取语音内容；

根据所述语音内容，分析并获取所述移动终端用户的语音识别的喜好属性；

基于所述喜好属性，更新所述本地数据库。

可选地，所述基于所述移动终端中本地数据库对所述语音数据进行识别的步骤包括：

获取所述语音数据的关键词；

比对所述关键词与所述本地数据库中的预设关键词，获得比对结果，并将所述比对结果作为本地数据库对所述语音数据的识别结果。

可选地，所述获得比对结果，并将所述比对结果作为本地数据库对所述语音数据的识别结果的步骤包括：

若所述关键词与所述任一预设关键词相同，则比对结果为成功，所述本地数据库对所述语音数据的识别成功；

若所述关键词与所述任一预设关键词不同，则比对结果为失败，所述本地数据库对所述语音数据的识别失败。

可选地，所述连接并基于预设云平台语音库识别所述语音数据，获取语音内容的步骤包括：

将所述语音数据传输至所述预设云平台语音库；

基于所述预设云平台语音库，对所述语音数据进行解析识别，获取语音内容。

可选地，所述根据所述语音内容，分析并获取所述移动终端用户的语音识别的喜好属性的步骤包括：

按照预设模型，提取所述语音内容的关键词；

基于所述关键词，分析所述移动终端用户的语音识别的喜好属性。

可选地，所述按照预设模型，提取所述语音内容的关键词的步骤包括：

将所述关键词和所述预设模型进行比对；

提取与所述预设模型相同的关键词，作为所述语音内容的关键词。

可选地，所述基于所述关键词，分析所述移动终端用户的语音识别的喜好属性的步骤包括：

按照预设特征获取标准，对所述关键词进行识别，获取所述关键词的应用场景信息；

基于所述应用场景信息，获取所述关键词在各所述应用场景中的高频词信息，其中，所述高频词为符合预设次数的词；

基于所述应用场景信息和所述高频词信息，获得所述移动终端用户的语音识别的喜好属性。

可选地，所述基于所述喜好属性，更新所述本地数据库的步骤包括：

基于所述应用场景信息，对所述本地数据库的信息进行一次筛选，获得筛选结果；

基于所述高频词信息，对所述筛选结果进行二次筛选，获得所述移动终端用户的相关信息和不相关信息；

将所述相关信息增加到所述本地数据库，并将所述不相关信息从所述本地数据库中删去。

本申请还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语言离线识别程序，所述语言离线识别程序被所述处理器执行时实现如上所述的语言离线识别方法的步骤。

本申请还提供一种计算机存储介质，所述计算机存储介质上存储有语言离线识别程序，所述语言离线识别程序被处理器执行时实现如上所述的语言离线识别方法的步骤。

本申请在语音离线过程中，通过获取移动终端用户输入的语音数据，基于所述移动终端中本地数据库对所述语音数据进行识别；若基于本地数据库识别失败，则连接并基于预设云平台语音库识别所述语音数据，获取语音内容；然后根据所述语音内容，分析并获取所述移动终端用户的语音识别的喜好属性；最后基于所述喜好属性，更新所述本地数据库，解决了在没有联网环境下本地数据库语音识别准确率不高、在联网环境下云平台语音识别需要耗费较多流量和手机电量的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一个可选的终端的硬件结构示意图；

图2为本申请语言离线识别方法第一实施例的流程示意图；

图3为本申请语言离线识别方法第二实施例的流程示意图；

图4为本申请语言离线识别方法第三实施例的流程示意图；

图5为本申请语言离线识别方法第四实施例的流程示意图；

图6为本申请语言离线识别方法第五实施例的流程示意图；

图7为本申请语言离线识别方法第六实施例的流程示意图；

图8为本申请语言离线识别方法第七实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。

本申请实施例终端可以是固定终端，如物联网智能设备，包括智能空调、智能电灯、智能电源、智能路由器等智能家居；也可以是移动终端，包括智能手机、可穿戴的联网AR/VR装置、智能音箱、自动驾驶汽车等诸多联网设备。

如图1所示，该语言离线识别系统的架构设计包括节点和服务器，其设备结构可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该语言离线识别系统还可以包括用户接口、网络接口、摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。用户接口可以包括显示屏(Display)、触摸屏、摄像头(包括AR/VR设备)等，可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口、蓝牙接口、探针接口、3G/4G/5G联网通信接口等)。

本领域技术人员可以理解，图1中示出的语言离线识别系统结构并不构成对语言离线识别系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语言离线识别程序。操作系统是管理和控制语言离线识别系统硬件和软件资源的程序，支持语言离线识别程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与语言离线识别系统中其它硬件和软件之间通信。

在图1所示的语言离线识别系统中，处理器1001用于执行存储器1005中存储的语言离线识别程序，实现以下步骤：

基于所述喜好属性，更新所述本地数据库。

进一步地，处理器1001可以调用存储器1005中存储的语言离线识别程序，还执行以下操作：

获取所述语音数据的关键词；

将所述语音数据传输至所述预设云平台语音库；

按照预设模型，提取所述语音内容的关键词；

将所述关键词和所述预设模型进行比对；

基于上述硬件结构，提出本申请语言离线识别方法的各个实施例。

参照图2，本申请语言离线识别方法第一实施例提供一种语言离线识别方法，所述方法包括:

步骤S10，获取移动终端用户输入的语音数据，基于移动终端中本地数据库对语音数据进行识别；

步骤S20，若基于本地数据库识别失败，则连接并基于预设云平台语音库识别语音数据，获取语音内容；

步骤S30，根据语音内容，分析并获取移动终端用户的语音识别的喜好属性；

步骤S40，基于喜好属性，更新本地数据库。

在本实施例中，应用场景可以为：公安在办案过程中，需要对犯罪嫌疑人采集语音数据并且进行识别，但是如果办案现场网络不畅通或者网络没有覆盖，则需要在离线情况下对语音进行识别。因此使用带有语音离线识别系统的语音离线识别装置进行语音识别。

本实施例的执行主体为语音离线识别装置，该装置可以是单独的电子设备，也可以是电子设备中的一部分，例如为电子设备中的处理器。

在语音离线识别过程中，语音离线识别系统首先会获取移动终端用户输入的语音数据，获取方式可以是通过麦克风接收或者其他方式进行接收获取，在实施过程中可以灵活设置，此处不做限制。获取移动终端用户输入的语音数据之后，语音离线识别系统会判断移动终端中本地数据库是否存在与用户输入的语音数据匹配的数据，从而先在本地数据库对语音数据进行识别，值得说明的是，在一些替换的实施例中，可以是接收到完整的句子之后，再进行判断；或者在获取语音数据的过程中同时进行判断。

本地数据库指的是语音离线识别装置中已经存储了语音数据、用于语音识别数据库。如果本地数据库对语音数据识别失败，则判断得出本地数据库不存在与语音数据匹配的数据，那么就需要在有网络的情况下，连接并基于预设云平台语音库识别本地识别失败的语音数据，并且获取与语音数据相关的语音内容。连接并基于预设云平台语音库识别语音数据，获取语音内容之后，语音离线识别系统会分析并获取所述移动终端用户语音识别的喜好属性，最后基于喜好属性，更新本地数据库以实现后续在云平台语音库对语音进行识别，以及基于云平台语音库的识别结果，更新本地数据库，从而一方面使得本地数据库的信息更具有个性化，即更加匹配当前移动终端用户的使用习惯和爱好偏向；另一方面，由于本地数据库按照每次语音识别结果进行更新，即本地数据库的信息会随着更新次数的增加，与用户需要进行识别的语音数据越来越接近，则提高了后续在本地数据库成功识别语音数据的概率。

在本实施例中，通过获取移动终端用户输入的语音数据，基于所述移动终端中本地数据库对所述语音数据进行识别；若基于本地数据库识别失败，则连接并基于预设云平台语音库识别所述语音数据，获取语音内容；然后根据所述语音内容，分析并获取所述移动终端用户的语音识别的喜好属性；最后基于所述喜好属性，更新所述本地数据库，解决了在没有联网环境下本地数据库语音识别准确率不高、在联网环境下云平台语音识别需要耗费较多流量和手机电量的技术问题。

进一步地，在本申请语言离线识别方法第二实施例中，参照图3，步骤S10包括：

步骤S11，获取语音数据的关键词；

步骤S12，比对关键词与本地数据库中的预设关键词，获得比对结果，并将比对结果作为本地数据库对语音数据的识别结果。

在本实施例中，基于移动终端中本地数据库对语音数据进行识别实施方式可以为，将语音数据分段得到语音片段之后，语音离线识别系统将所获得的语音片段进行语义解析，即智能理解用户的每一个语音片段想要表达的意思，从而获得待识别语音数据的关键词。即关键词指的是用户语音数据中具有代表意义的、能够传达用户意图的字或者词语。

获取得到语音数据的关键词之后，将这些关键词与本地数据库中的预设关键词进行比对，获得比对结果。本地数据库中存储了用户识别的历史记录，以及根据用户平时使用习惯生成预设关键词。将关键词与本地数据库中的预设关键词的比对结果，作为本地数据库对语音数据的识别结果。从而可以通过比对结果，确定本地数据库对语音数据的识别结果。

当语音数据的关键词与任意一个预设关键词相同，则比对结果为成功，本地数据库对语音数据识别成功，从而可得本地数据库可以对语音数据进行识别，无需上传到云平台语音库；当语音数据的关键词与任意一个预设关键词都不相同，则比对结果为失败，本地数据库对语音数据识别失败，从而可得本地数据库无法对语音数据进行识别，需要上传到云平台语音库。

进一步地，在本申请语言离线识别方法第三实施例中，参照图4，步骤S20包括：

步骤S21，将语音数据传输至预设云平台语音库；

步骤S22，基于预设云平台语音库，对语音数据进行解析识别，获取语音内容。

在本实施例中，如果语音数据的关键词与本地数据库的预设关键词比对失败，即本地数据库无法识别该语音数据，则需要将该语音数据上传到预设云平台语音库进行识别。

由于预设云平台语音库是联网的，因此面临的数据量比本地数据库更加丰富，识别功能比本地数据库更加全面，可以极大提高语音数据的识别率。在连网的情况下，预设云平台语音库可以成功识别语音数据，语音离线系统可以根据成功识别的结果，对成功识别的结果记录存储在本地数据库，从而丰富了本地数据库的存储内容，提高了后续离线情况下成功识别语音数据的可能性，降低了后续离线情况下成功识别语音数据的难度。因此，本地数据库具备学习功能，可以对未在本地数据库中识别匹配成功的语音数据进行存储记录，丰富了数据库的信息，提高了语音离线识别系统的语音识别率和准确率。

进一步地，在本申请语言离线识别方法第四实施例中，参照图5，步骤S30包括：

步骤S31，按照预设模型，提取语音内容的关键词；

步骤S32，基于关键词，分析移动终端用户的语音识别的喜好属性。

在本实施例中，连接并基于预设云平台语音库识别语音数据，获取语音内容之后，语音离线识别系统会根据语音内容，分析并获取移动终端用户的语音识别的喜好属性。具体地，首先会按照预设模型，将语音内容的关键词提取出来备用；然后再基于这些关键词，分析移动终端用户的语音识别的喜好属性。例如，提取得到移动终端用户的关键词是“炸鸡”、“啤酒”、“重庆小面”，则可以分析得出移动终端用户的语音识别的喜好属性是叫外卖或者是美食制作，得到这两个喜好属性之后，再根据后续移动终端用户更多的使用关键词，进一步精确移动终端用户的喜好属性。

从而有利于解决在没有联网环境下本地数据库语音识别准确率不高、在联网环境下云平台语音识别需要耗费较多流量和手机电量的技术问题。

进一步地，在本申请语言离线识别方法第五实施例中，参照图6，步骤S31包括：

步骤S311，将关键词和预设模型进行比对；

步骤S312，提取与预设模型相同的关键词，作为语音内容的关键词。

在本实施例中，预设模型指的是关键词提取依照的标准，如模型可以为“名词”、“动词”，在实施过程中可以灵活设置，此处不做限制。按照预设模型，提取语音内容的关键词的实施方式可以是，将语音数据的关键词与预设模型进行比对，即以预设模型为基准，提取语音数据中与预设模型相同的关键词，作为语音内容的关键词。为了进一步提升特定用户的用户体验，还可以设置包括不同信息的预设模型，从而使得关键词的提取准确度更高。例如，某个移动终端用户的关键词大多数的关于动漫的，则预设模型中的内容可以侧重动漫的相关内容；某个移动终端用户的关键词大多数的关于学科知识的，则预设模型中的内容可以侧重学科知识的相关内容。

一方面使得预设模型的信息更具有个性化，即更加匹配当前移动终端用户的使用习惯和爱好偏向；另一方面，由于按照预设模型对关键词进行提取，即预设模型的信息会随着提取次数的增加，与用户需要进行提取的关键词越来越接近，则提高了后续按照预设模型提取关键词的准确度，降低了按照预设模型提取关键词的匹配操作难度。

进一步地，在本申请语言离线识别方法第六实施例中，参照图7，步骤S32包括：

步骤S321，按照预设特征获取标准，对关键词进行识别，获取关键词的应用场景信息；

步骤S322，基于应用场景信息，获取关键词在各应用场景中的高频词信息，其中，高频词为符合预设次数的词；

步骤S323，基于应用场景信息和高频词信息，获得移动终端用户的语音识别的喜好属性。

在本实施例中，首先按照预设特征获取标准，对关键词进行识别，获取关键词的应用场景信息，例如关键词为“蓝天”、“白云”、“清澈”、“微风”，则可以得到这些关键词的应用场景可能是“摄影”，也有可能是“旅游”等。

然后基于应用场景信息，获取关键词在各应用场景中的高频词信息，其中，高频词为符合预设次数的词。例如当应用场景为“摄影”，则高频词可能为“快门”、“焦距”、“亮度”等；当应用场景为“旅游”，则高频词可能为“导航”、“饭店”、“服务区”等。

最后基于应用场景信息和高频词信息，从而可以获得移动终端用户的语音识别的喜好属性。例如通过本实施例中举出的例子，可以分析得出该移动终端用户的喜好属性可能是拍照或者旅行，或者在旅途中拍照等等。

并且，基于移动终端用户的喜好属性，从而语音离线识别系统可以根据喜好属性，更新所述本地数据库，解决了在没有联网环境下本地数据库语音识别准确率不高、在联网环境下云平台语音识别需要耗费较多流量和手机电量的技术问题。

进一步地，在本申请语言离线识别方法第六实施例中，参照图8，步骤S40包括：

步骤S41，基于应用场景信息，对本地数据库的信息进行一次筛选，获得筛选结果；

步骤S42，基于高频词信息，对筛选结果进行二次筛选，获得移动终端用户的相关信息和不相关信息；

步骤S43，将相关信息增加到本地数据库，并将不相关信息从本地数据库中删去。

在本实施例中，首先基于应用场景信息，对本地数据库的信息进行一次筛选，获得筛选结果；再基于高频词信息，对筛选结果进行二次筛选，获得移动终端用户的相关信息和不相关信息；最后将所述相关信息增加到本地数据库，以丰富本地数据库与该移动终端用户相关信息并将不相关信息从本地数据库中删去，以增加本地数据库的个性化和针对性。

本申请还提供一种终端，所述终端包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语言离线识别程序，所述语言离线识别程序被所述处理器执行时实现上述语言离线识别方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语言离线识别程序，所述语言离线识别程序被处理器执行时实现上述的语言离线识别方法的步骤。

在本申请语言离线识别方法、终端及可读存储介质的实施例中，包含了上述语言离线识别方法各实施例的全部技术特征，说明书拓展和解释内容与上述语言离线识别方法各实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语言离线识别方法，其特征在于，所述语言离线识别方法包括：

基于所述喜好属性，更新所述本地数据库。

2.如权利要求1所述的语言离线识别方法，其特征在于，所述基于所述移动终端中本地数据库对所述语音数据进行识别的步骤包括：

获取所述语音数据的关键词；

3.如权利要求2所述的语言离线识别方法，其特征在于，所述获得比对结果，并将所述比对结果作为本地数据库对所述语音数据的识别结果的步骤包括：

4.如权利要求1所述的语言离线识别方法，其特征在于，所述连接并基于预设云平台语音库识别所述语音数据，获取语音内容的步骤包括：

将所述语音数据传输至所述预设云平台语音库；

5.如权利要求4所述的语言离线识别方法，其特征在于，所述根据所述语音内容，分析并获取所述移动终端用户的语音识别的喜好属性的步骤包括：

按照预设模型，提取所述语音内容的关键词；

6.如权利要求5所述的语言离线识别方法，其特征在于，所述按照预设模型，提取所述语音内容的关键词的步骤包括：

将所述关键词和所述预设模型进行比对；

7.如权利要求6所述的语言离线识别方法，其特征在于，所述基于所述关键词，分析所述移动终端用户的语音识别的喜好属性的步骤包括：

8.如权利要求7所述的语言离线识别方法，其特征在于，所述基于所述喜好属性，更新所述本地数据库的步骤包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语言离线识别程序，所述语言离线识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的语言离线识别方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有语言离线识别程序，所述语言离线识别程序被处理器执行时实现如权利要求1至8中任一项所述的语言离线识别方法的步骤。