CN109377990A

CN109377990A - 一种信息处理方法和电子设备

Info

Publication number: CN109377990A
Application number: CN201811160006.XA
Authority: CN
Inventors: 杨卫东
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-02-22

Abstract

本申请提供了一种信息处理方法和电子设备。所述信息处理方法包括：获得播放的音频数据以及与所述音频数据对应的文本数据；基于所述音频数据和文本数据形成语音识别模型，其中，所述语音识别模型能用于识别接收的语音输入，确定对应所述语音输入的语音指令。本申请实施例中的信息处理方法能够自行采集播放的音频数据并自动形成语音识别模型，使得训练样本无需用户预先单独获取，而是设备可自动获得训练样本，简化了训练的准备过程。

Description

一种信息处理方法和电子设备

技术领域

本申请实施例涉及电子设备领域，特别涉及一种信息处理方法和电子设备。

背景技术

当前市面上很多智能设备，例如智能电视都带有语音识别功能，但是该类智能电视的语音识别功能均是在出厂前就已经确定，因此，在训练该智能电视的语音识别功能时，是需要工作人员预先单独获得大量的训练数据，然后基于该训练数据训练智能电视机，使得训练的前期准备均由工作人员完成，劳动量较大。

申请内容

本申请提供了一种能够自行采集播放的音频数据自动形成语音识别模型的信息处理方法和电子设备。

申请实施例提供了一种信息处理方法，其包括：

获得播放的音频数据以及与所述音频数据对应的文本数据；

基于所述音频数据和文本数据形成语音识别模型，其中，所述语音识别模型能用于识别接收的语音输入，确定对应所述语音输入的语音指令。

作为优选，所述获得播放的音频数据包括：

至少自部分播放的音频数据中获得符合预设要求的目标音频数据。

作为优选，所述获得符合预设要求的目标音频数据包括：

获得具有与语音信息对应的语音的音频数据；

其中，所述语音信息通过下列中的至少一种方式确定：

获取环境中的音频数据；

根据所述音频数据确定所述语音信息；和/或

获取当前设备所在的地理位置信息；

根据所述地理位置信息确定对应的语言环境信息，其中，所述语言环境信息至少包括所述语音信息；和/或

确定输出的图像中是否具有预设标识信息；

若是，则基于与所述预设标识信息对应的频道播放的音频数据确定所述语音信息。

作为优选，所述获得播放的音频数据包括：

获得输入到音频播放器的音频数据，或者

采集从所述音频播放器输出的音频数据。

所述获得所述文本数据包括：

获得与所述音频数据同步播放的图像；

识别所述图像中的字幕信息，并对应生成文本数据；或者

获得接收的所述文本数据。

作为优选，所述基于所述音频数据和文本数据形成语音识别模型包括：

至少按照预设规则分别对所述音频数据和文本数据进行分割处理，获得多组对应的第一音频子数据和第一文本子数据；

基于预设算法，对所述第一音频子数据和第一文本子数据训练形成所述语音识别模型。

作为优选，所述文本数据和所述音频数据为第一文本数据和第一音频数据，所述方法还包括：获取相对应的第二文本数据和第二音频数据；

在存储的第一文本子数据中查询所述二文本数据中的第二文本子数据；

若查询到与所述第二文本子数据具有预设匹配度的第一文本子数据，则比较所述第二音频数据中的第二音频子数据和与查询到的第一文本子数据对应的第一音频子数据，若二者的匹配度符合预设要求，则更新所述第一音频子数据和第一文本子数据的匹配度；

若未查询到所述第一文本子数据，则将所述第二音频子数据、第二文本子数据和预设匹配度对应存储。

作为优选，在基于所述语音识别模型识别接收的语音输入，并确定与所述语音输入对应的语音指令时包括：

将所述语音输入在所述语音识别模型中匹配；

获得所述语音识别模型输出的对应于所述语音输入的语音指令的文本信息；

基于所述文本信息执行对应操作；或者

在基于所述语音识别模型识别接收的语音输入，并确定与所述语音输入对应的语音指令时包括：

将所述语音输入分割成多个输入子信息；

获得所述语音识别模型输出的对应于各所述输入子信息的语音子指令的文本子信息；

利用各所述文本子信息组合形成对应所述语音输入的语音指令的文本信息；

基于所述文本信息执行对应操作。

本申请实施例还提供一种电子设备，其包括：

音频输出器，其输出音频数据；

处理器，其用于获取播放的音频数据以及与所述音频数据对应的文本数据，基于所述音频数据和文本数据形成语音识别模型，其中，所述语音识别模型能用于识别接收的语音输入，确定对应所述语音输入的语音指令。

作为优选，还包括：

音频采集器，用于根据所述处理器的指令采集至少部分由所述音频输出器输出的音频数据；

所述处理器获得播放的音频数据时包括：

基于所述音频采集器采集的音频数据获得符合预设要求的目标音频数据。

作为优选，所述音频采集器还用于：获取环境中的音频数据；

所述处理器根据所述音频采集器采集的所述音频数据确定语言信息，并基于所述语音信息获得播放的具有与所述语音信息对应的语音的音频数据，其中，所述语言信息至少包括对应所述音频数据的语音信息；或

所述电子设备还包括:

位置采集器，其用于获取当前设备所在的地理位置信息；

所述处理器根据所述位置采集器采集的所述地理位置信息确定对应的语言环境信息，并基于所述语言环境信息获得播放的具有与所述语音信息对应的语音的音频数据，其中，所述语言环境信息至少包括所述语音信息；或

所述电子设备还包括:

图像输出器，其用于输出图像；

所述处理器根据所述图像输出器输出的图像确定是否具有预设标识信息，若是，则基于与所述预设标识信息对应的频道播放的音频数据确定所述语音信息，并基于所述语音信息获得播放的具有与所述语音信息对应的语音的音频数据。

基于上述实施例的公开可以获知，本申请实施例具备如下的有益效果：

本申请实施例所述的方法可以在设备的使用过程中(包括设备出厂前的使用过程，或设备在出厂后的使用过程)，通过自动获取播放的音频数据以及与该音频数据对应的文本数据，并基于该两种数据训练出一用于执行语音识别任务的语音识别模型。也即，设备在完成模型的训练过程中能够无需工作人员额外自行准备大量的训练数据对模型进行训练，而是可自行收集数据进行训练，提高了设备的智能性。

附图说明

图1为根据本申请的一个实施例的信息处理方法的示意性流程图。

图2为根据本申请的另一实施例的信息处理方法的示意性流程图。

图3为根据本申请的另一实施例的信息处理方法的示意性流程图。

图4为根据本申请的另一实施例的信息处理方法的示意性流程图。

图5为根据本申请的另一实施例的信息处理方法的示意性流程图。

图6为根据本申请的另一实施例的信息处理方法的示意性流程图。

图7为根据本申请的另一实施例的电子设备的示意性框图。

图8为根据本申请的另一实施例的智能电视的示意性框图。

图9为根据本申请的另一实施例的信息处理方法的示意性流程图。

图10为根据本申请的另一实施例的控制方法的示意性流程图。

图11为根据本申请的另一实施例的控制方法的示意性流程图。

具体实施方式

下面，结合附图对本申请的具体实施例进行详细的描述，但不作为本申请的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，下述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所公开的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

下面，结合附图详细的说明本申请实施例，图1为根据本申请的一个实施例的信息处理方法的示意性流程图。图1的信息处理方法100包括：

110：获得播放的音频数据以及与音频数据对应的文本数据；

120：基于音频数据和文本数据形成语音识别模型，其中，语音识别模型能用于识别接收的语音输入，确定对应语音输入的语音指令。

应理解，文中的播放的含义为用于播放，包括但不限于有声的播放的情形，例如，可以从扬声器获得音频数据，也可以通过内部音频接口而不经过扬声器采集到音频模块所播放的音频。

也即，在图1的信息处理方法100中，设备可自动获得学习样本(即，训练样本)，该学习样本包括播放的音频数据以及对应的用于播放的文本数据；基于学习样本构造出可直接投入使用的语音识别模型，例如将音频数据和文本数据分别作为该语音识别模型的输入和输出来对模型进行训练，进而形成成熟的语音识别模型。

本申请实施例可以在使用过程中，设备能够自动获取播放的音频数据以及与该音频数据对应的文本数据，并基于此执行语音识别模型的语音识别功能的训练。也即，设备能够在运行使用的过程中，如用户购买设备而进行使用的过程中，逐渐完成自身的训练，无需用户或工作人员在为设备自行准备大量的训练数据，使设备基于该训练数据进行语音识别功能的训练。因此，本申请实施例中的方法简化了用户或工作人员为设备的训练而进行的准备工作，降低了设备的训练成本，提升了设备的智能性。简而言之，即电子设备基于本申请实施例中的方法能够自动进行自身语音识别功能的训练。

设备的训练过程不唯一，例如设备可在出厂后的使用过程中完成自训练，也可在出厂前预先完成一些基本的训练，该训练可为自训练，也可为基于工作人员准备的数据进行训练。而后，即在设备被购买后正常投入使用的过程中完成后续难度更高的训练，等等，具体不唯一。

进一步地，本申请实施例中，设备获得播放的音频数据可以包括：

至少自部分播放的音频数据中获得符合预设要求的目标音频数据；

其中基于目标音频数据和与目标音频数据对应的文本数据形成语音识别模型。

例如，在设备投入使用后，可根据用户的需求而有选择性的获取所有播放的音频数据中的一部分来作为学习样本，实现“差异化训练”的技术效果。也即，对于不同的用户，或用户的不同需求、要求，设备能够有选择性的获取学习样本进行训练。也即是，目标音频数据及其对应的文本数据都是满足对应用户的需求、要求的数据，而并非全部数据均获取，均进行对应训练。由于目标音频数据及其对应的文本数据是满足预设要求的，因此设备可以实现更具有针对性的机器学习。

具体地，图2为根据本申请的另一实施例的信息处理方法的示意性流程图。图2的信息处理方法200包括：

210：获得电子设备播放的音频数据中的目标音频数据以及与目标音频数据对应的文本数据；

220：基于音频数据和文本数据形成语音识别模型，其中，语音识别模型能用于识别接收的语音输入，确定针对所述电子设备对应语音输入的语音指令。

根据本实施例的信息处理方法200实现了设备能够基于目标音频数据而更具有针对性的学习，同时利用电子设备自身播放的内容进行学习并将学习成果应用在对电子设备的语音控制上，由于设备的训练数据满足用户的使用需求，因此基于由上述训练数据形成的语音识别模型实现用户对设备的语音控制，控制效果更佳。也即，通过方法200不仅提高了训练过程的便利性，而且还满足用户需求，用于显著提高用户语音控制的准确性。

进一步地，在本实施例的信息处理方法200中，获得符合预设要求的目标音频数据包括：

获得具有与语音信息对应的语音的音频数据，其中，语音信息可以通过各种方式确定。

例如，语音信息可以通过如下之一方式确定：

方式一：

获取环境中的音频数据；

根据音频数据确定语音信息。

例如以设备为智能电视为例，电视可获取用户输出的语音数据，根据该语音数据确定符合用户语言特征的数据，例如基于表征语言特征的数据确定用户输出的语音数据是否为方言、为哪一种方言，也即确定出表征该方言的发音特征的语音信息。然后，根据该语言特征数据，即语音信息，从播放的音频数据中识别出对应的音频数据，并进行采集，即，获得目标音频数据。例如，根据用户输出的语音数据确定出包含表征四川方言的特征数据，则可确定需要获取的是具有与四川方言的特征数据匹配的音频数据作为学习样本，使形成一个能够识别四川话的语音识别模型。再如，根据用户输出的语音数据确定出包含表征湖南方言的特征数据，则可确定需要获取的是具有与湖南方言的特征数据匹配的音频数据作为学习样本，使形成一个能够识别湖南话的语音识别模型。

方式二：

获取当前设备所在的地理位置信息；

根据地理位置信息确定对应的语言环境信息，其中，语言环境信息至少包括语音信息。

例如同样以设备为智能电视为例，电视能够从预存储的电子地图或GPS网络获取当前设备所在的地理位置信息。假设确定当前设备所在的地理位置为中国四川，或中国湖南，则从语言数据库中确定与该地理位置信息表征的地区对应的语言环境信息，以基于该语言环境信息确定出与该地区对应的语言的语音信息，即该地区方言的发声信息。最后，基于该语音信息自播放的音频数据中进行识别，以获得对应该语音信息的音频数据作为学习样本，使形成一个能够识别四川话或湖南话的语音识别模型。

方式三：

确定输出的图像中是否具有预设标识信息；

若是，则基于与预设标识信息对应的频道播放的音频数据确定语音信息。

例如同样以电子设备为智能电视为例，在获得预设标识信息时，电视可通过用户主动输入或设置的选择信息而确定，如用户是四川人，故其向电视输入选择四川台播放的数据进行训练；或者，电视可通过获取设备当前所在位置、用户的语音数据等进行分析判断，确定出设备当前所在位置为四川，用户为四川人，故需要选择四川台的台标信息作为预设标识信息，使在检测到当前频道的显示画面中具有四川台的台标信息时便可基于该频道播放的音频数据而获得训练数据。具体地，电视可从播放的画面中获取电视台的台标信息，确定该台标信息指示的地区，例如获取的台标信息经匹配确定出对应的地区为四川，接着从语言数据库中确定与该地区对应的语言的语音信息，即该地区方言的发声信息。最后，基于该语音信息自该频道播放的音频数据中进行识别，以获得对应该语音信息的音频数据作为学习样本，使形成一个能够识别四川话的语音识别模型。

进一步地，不论是音频数据还是对应的文本数据，其在获取时方式均不唯一，例如：

获得播放的音频数据包括：

获得输入到音频播放器的音频数据；或者

采集从音频播放器输出的音频数据。

获得文本数据包括：

获得与音频数据同步播放的图像；

识别图像中的字幕信息，并对应生成文本数据；或者

获得接收的文本数据。

具体地，设备中的语音识别模块(其内部包含语音识别模型)可以与显示模块或音频输出模块相对比较独立地配置。例如，语音识别模块从扬声器获取音频数据，从显示屏幕呈现的画面中包含的字幕信息来获取对应的文本数据。或者，语音识别模块获取的学习样本不通过显示屏幕或扬声器得到。例如，音频信号或视频信号在对应输入至扬声器和显示屏幕之前，先输入到语音识别模块进行处理以使其获得训练数据，采用后者的方式使识别的精度更高，学习效率更高。但应理解，音频信号可以并行地传输到语音识别模块和扬声器，也可以先经过语音识别模块，然后在传输到扬声器。类似地，视频信号也可以并行地传输到语音识别信号和显示器，也可以先经过语音识别模块，然后在传输到显示器，本申请对此不作限定。

进一步地，在具体实施时，目标音频数据的获取可对应采用下述的方法步骤中的一种或多种：

图3为根据本申请的另一实施例的信息处理方法的示意性流程图。根据图3的实施例以方言为例描述了电子设备的信息处理方法300，其包括：

301：获取用户音频数据，包括语音数据，或用户通过其他设备播放的数据。

302：根据该用户的音频数据确定其语音信息。

303：获得从电子设备的音频播放器输出的音频数据。

304：获取输入到电子设备的显示模块进行显示的图像数据。

305：从播放的音频数据中获得符合上述语音信息所表征的要求的目标音频数据。

306：从显示的图像数据中识别字幕信息。

307：根据字幕信息生成与目标音频数据对应的目标文本信息。

308：基于目标音频数据和目标文本信息形成语音识别模型。

309：接收用户的语音输入。

310：基于语音识别模型确定的对应语音输入的识别结果确定用于控制电子设备的语音指令。

311：执行语音指令。

进一步地，图4为根据本申请的另一实施例的信息处理方法的示意性流程图。图4的信息处理方法400以方言为例来描述，并且由电子设备执行。信息处理方法400包括如下步骤：

401：从电子地图或GPS网络获取当前设备所在的地理位置信息。

402：从语言数据库中确定与该地理位置信息对应的语音信息。

403：获得输入到电子设备的音频播放器的播放音频数据。

404：获取输入到电子设备的显示模块的显示图像数据。

405：从播放的音频数据中获得符合语音信息所表征的要求的目标音频数据。

406：从显示图像数据中获得与目标音频数据对应的目标文本信息。

407：基于目标音频数据和目标文本信息形成语音识别模型。

408：接收用户的语音输入。

409：基于语音识别模型确定的对应语音输入的识别结果确定用于控制电子设备的语音指令。

410：执行语音指令。

图5为根据本申请的另一实施例的信息处理方法的示意性流程图。图5的信息处理方法500以方言为例来描述，并且由智能电视执行。信息处理方法500包括如下步骤：

501：从用户选择的频道的播放画面中获取电视台的台标信息。

502：确定该台标信息是否为目标台标信息，该目标台标信息例如可由用户预先设定。

503：若是，从方言数据库确定该地理位置所对应的方言的语音信息。

504：获取输入到智能电视的音频播放器的所选择的频道的音频数据。

505：获取输入到智能设备的显示模块的所选择的频道的显示图像数据。

506：从获得的音频数据中获得符合语言信息表征的要求的目标音频数据。

507：从显示图像数据中获得与目标音频数据对应的目标文本信息。

508：基于目标音频数据和目标文本信息形成语音识别模型。

509：接收用户输入的语音。

510：根据语音识别模型基于所输入的语音的识别结果确定针对电子设备的语音指令。

511：执行语音指令。

图6为根据本申请的另一实施例的信息处理方法的示意性流程图。图6的信息处理方法600以语种为例来描述，并且由智能电视执行。信息处理方法600包括如下步骤：

601：从选择的频道的电视画面中获取电视台的台标信息。

602：确定该台标信息指示的地理位置是否为目标地理位置。

603：若是，从语种数据库确定该地理位置所对应的语种的语音信息。

604：获得输入到智能电视的音频播放器的所选择的频道的音频数据。

605：获取输入到智能设备的显示模块的所选择的频道的字幕信息。

606：从获得的音频数据中获得具有与语音信息表征的要求的目标音频数据。

607：从字幕信息中确定与目标音频数据对应的目标文本信息。

608：基于目标音频数据和目标文本信息形成语音识别模型。

609：接收用户输入的语音。

610：基于语音识别模型确定的对应语音输入的识别结果确定用于控制电子设备的语音指令。

611：执行语音指令。

进一步地，在图1的信息处理方法100中，基于音频数据和文本数据形成语音识别模型包括：

至少按照预设规则分别对音频数据和文本数据进行分割处理，获得多组对应的第一音频子数据和第一文本子数据；

基于预设算法，对第一音频子数据和第一文本子数据训练形成语音识别模型。

也即，该预设规则可以为以预设数目平均切割音频数据和文本数据。也可以根据对声纹波动剧烈处的音频数据进行较多的切割，同时对应切割文本数据，以实现两种数据间更精确的匹配。例如，获得的音频数据为文本“今天是国庆节”对应的音频，则可以将音频基于声纹进行分割为“今”、“天”、“是”、“国”、“庆”和“节”六个音频子数据，也可以基于声纹中的节奏和速度等分割为“今天”、“为”和“国庆节”三个音频子数据；还可以采用其他的预设规则来进行分割，例如用户自定义的规则，包括设置预定值进行切割。但所述预设规则包括却不限于基于声纹特征和/或预定值的规则，其中预定值包括分割数目、每个子数据中包括的字符数等。另外还可以根据音频数据或文本数据中各子数据的输入的顺序进行实时的识别，以提高识别的效率。例如对于“今天是国庆节”，可以设定0.1秒的识别单位，当从识别到声纹的时刻起每经过0.1秒便识别一个字符对应的声纹特征(即音频子数据的声纹特征)。还应理解，该基于时间的识别单位可以是任意地由用户根据偏好语速情况来设定，本申请对此不作限定。

进一步地，在图1的信息处理方法100中，所述文本数据和所述音频数据为第一文本数据和第一音频数据，所述信息处理方法100还包括：

获取相对应的第二文本数据和第二音频数据；在存储的第一文本子数据中查询第二文本数据中的第二文本子数据；

若查询到与第二文本子数据具有预设匹配度的第一文本子数据，则比较第二音频数据中的第二音频子数据和与查询到的第一文本子数据对应的第一音频子数据，若二者的匹配度符合预设要求，则更新第一音频子数据和第一文本子数据的匹配度；

若未查询到第一文本子数据，则将第二音频子数据、第二文本子数据和预设匹配度对应存储。

也就是，第二文本子数据和第一文本子数据具有预设匹配关系时，如果第一音频子数据与第二音频子数据也符合预设要求，则说明第一文本子数据与第一音频子数据的匹配度理论上应该更高，其置信度也更高，因此更新预设的匹配度，例如在原来的匹配度上增加1。而当未查询到第一文本子数据时，则说明第二音频子数据和第二文本子数据可以对应存储形成新的一组对应关系，即，形成新的一组学习样本，随着设备学习过程的不断进行，该新的对应关系也会存在被更新的可能性。

可替代地，在存储的第一音频子数据中查询第二音频数据中的第二音频子数据，若查询到与第二音频子数据具有预设匹配度的第一音频子数据，则比较第二文本数据中的第二文本子数据和与查询到的第一音频子数据对应的第一文本子数据，若二者的匹配度符合预设要求，则更新第一音频子数据和第一文本子数据的匹配度。若未查询到第一音频子数据，则将第二音频子数据、第二文本子数据和预设匹配度对应存储。换句话说，如上所述，检测音频数据中的音频子数据同样可以实现判定是否对匹配更新，不同之处是，文本的预设匹配度与音频的预设要求之间的判定方式不一样。文本可以采用字符匹配的方式，对应音频优选地可以采用声纹识别的方式。由此，本实施例通过对学习结果的更新，增大了学习精度，同时也适当地减小了存储空间。换句话说，在音频数据为方言的情况下，本方案提出的语音识别自动学习和自动训练方法，可由用户根据自己的需要实现对某种方言的语音识别，并经过提供的不断自动学习和自动训练的方法，将使用户的智能电视对该方言实现越来越高的识别率。在播放带有方言的音频数据或视频数据的过程中，使用该方法的智能电视可以实时截取电视画面并识别出字幕文字信息，并将这些文字信息对应的文字进行分词处理，得到若干实体词汇。同时，将该字幕显示期间的电视节目的语音信息抽离出来，根据预设分割规则或其声纹特征将其分成若干段声纹。最后将得到的各个实体词汇与各声纹段进行逐一关联，并将每个词汇与声纹段以及它们的关联关系保存的电视机的本地数据库中。

后续使用过程中采集到任何词汇和声纹段，都在本地库中进行检索。首先比较词汇，如找到相同词汇，则比较它们的声纹段，如国声纹段高度匹配，则将本地库中该词汇、声纹段的匹配度上增1，匹配度值越大，说明词汇与声纹段的匹配度越高。

使用本实施例中的上述方法进行一段时间的学习和训练后，智能电视将保存一份文本词汇和声纹段有较高匹配度的匹配关系数据库，且学习和训练的时间越长，该识别库的准确度越高。有了该数据库后，用户可以用方言与智能电视如朋友般进行对话。智能电视收到用户的语音输入后，可基于该数据库快速进行对比检索，找到该用户要表达的词汇，从而根据识别到的词汇做出正确响应的操作。

图7为根据本申请的另一实施例的电子设备的示意性框图。图7的电子设备700包括：

音频输出器710，其输出音频数据；

处理器720，其用于获取播放的音频数据以及与音频数据对应的文本数据，基于音频数据和文本数据形成语音识别模型，其中，语音识别模型能用于识别接收的语音输入，确定对应语音输入的语音指令。

应理解，文中的播放的含义为用于播放，包括但不限于有声的播放的情形，例如，可以从扬声器获得音频数据，也可以通过内部音频数据线而不经过扬声器采集到音频模块所播放的音频。

换句话说，在图7的电子设备700中，获得了学习样本，该学习样本包括播放的音频数据以及用于播放的文本数据；基于学习样本构建语音识别模型，其中，例如将音频数据和文本数据分别作为该语音识别模型的输入和输出。本申请实施例可以在使用过程中，通过获取的播放的音频信息以及与该音频信息对应的文本信息，执行语音识别功能，无需执行复杂的文本训练，具有操作简单且适用性好的特性。

应理解，获得播放的音频数据可以包括：至少自部分播放的音频数据中获得符合预设要求的目标音频数据，其中基于目标音频数据和与目标音频数据对应的文本数据形成语音识别模型。

图7的电子设备700还包括音频采集器730，用于根据处理器的指令采集至少部分由音频输出器输出的音频数据。处理器720获得播放的音频数据时包括：基于音频采集器730采集的音频数据获得符合预设要求的目标音频数据。

在图7的电子设备700中，音频采集器730还用于获取环境中的音频数据。电子设备700还包括：方式一，位置采集器740，其用于获取当前设备所在的地理位置信息。图像输出器750，其用于输出图像。处理器720还用于获得语音信息，并基于语音信息获得播放的具有与语音信息对应的语音的音频数据。方式二，处理器720在获得语音信息时通过以下方式中的任一种获得：根据音频采集器730采集的音频数据确定语言信息，其中，语言信息至少包括对应音频数据的语音信息；或根据位置采集器740采集的地理位置信息确定对应的语言环境信息，其中，语言环境信息至少包括语音信息；方式三，或根据图像输出器750输出的图像确定是否具有预设标识信息，若是，则基于与预设标识信息对应的频道播放的音频数据确定语音信息。还应理解，位置采集器740可以通过网络连接到服务器或基站，其间接联接到GPS系统，或者可以直接连接到GPS系统。位置采集器740可以从基站或服务器获取位置信息。电子设备700还可以包括语言数据库，其包括在世界范围内或某地域范围内的语种与地理位置的对应关系或者方言或地理位置的映射关系，应理解，该语言数据库可以从服务器或基站下载，并定时地更新。也可以不经过网络而存储在本地存储器中。

还应理解，本申请的语言识别模型也可以通过网络发送到其他设备，通过收费或免费的方式供其他设备使用。

图8为根据本申请的另一实施例的智能电视的示意性框图。图8的智能电视800包括：

扬声器模块810，其用于输出用户选择的节目源的音频数据，

显示器模块820，其用于显示节目源的画面，

处理器830，其用于从所述画面识别出所述文本数据；将所述文本数据与所述音频数据匹配；基于音频数据和文本数据形成语音识别模型，其中，语音识别模型能用于识别用户的语音输入，确定对应语音输入的针对所述智能电视800的语音指令。

应理解，智能电视带有电视节目语音抽取和声纹分割模块和字幕识别和分词模块。用户可以开启方言识别自学习和自训练功能，例如方言识别自学习和自训练功能只有在开启状态时，电视节目播放过程中该功能才会处于工作状态。智能电视还可以带有词汇/声纹存储库和词汇/声纹处理模块。字幕识别和分词模块自动识别字幕并将其分词处理为多个文本词汇。语音抽取和声纹分割模块自动抽取字幕显示期间的电视节目的语音信息并根据声纹特征将其分割中声纹段。词汇/声纹处理模块将识别出的词汇和声纹进行配对，并将每队(词汇、声纹)到词汇/声纹库中进行检索，找到高度相似(词汇、声纹)对时，对其匹配值增1。用户对智能电视说出方言词汇，智能电视用采集到的方言声纹到本地词汇/声纹库中进行检索：当检索到多个结果对时，选择匹配值最高的那个(词汇、声纹)对，将该词汇反馈给指令处理模块用于后续处理。

在图8的智能电视800中，所述文本数据和所述音频数据为第一文本数据和第一音频数据，处理器830还用于：获取相对应的第二文本数据和第二音频数据；在存储的第一文本子数据中查询第二文本数据中的第二文本子数据；若查询到与第二文本子数据具有预设匹配度的第一文本子数据，则比较第二音频数据中的第二音频子数据和与查询到的第一文本子数据对应的第一音频子数据，若二者的匹配度符合预设要求，则更新第一音频子数据和第一文本子数据的匹配度。若未查询到第一文本子数据，则将第二音频子数据、第二文本子数据和预设匹配度对应存储。换句话说，第二文本子数据和第一文本子数据具有预设匹配关系时，如果第一音频子数据与第二音频子数据也符合预设要求，则说明第一文本子数据与第一音频子数据的匹配关系理论上应该更高，其置信度也更高，因此更新预设的匹配度，例如将匹配度增加1。当未查询到第一文本子数据时，则说明第二音频子数据和第二文本子数据可以存储为新的对应关系，随着学习过程进行，其仍然存在被更新的可能性。具体而言，图9为根据本申请的另一实施例的信息处理方法的示意性流程图。图9的信息处理方法900由智能电视执行，其包括如下步骤：

901：获取“今天是国庆节”的文本以及其音频数据，与本申请所述的第一文本数据相对应。

902：获取“今天是劳动节”的文本以及其音频数据，与本申请所述的第二文本数据相对应。

903：将“今天是国庆节”分割为“今天”、“是”和“国庆节”的第一文本子数据。

904：将“今天是劳动节”分割为“今天”、“是”和“劳动节”的第二文本子数据。

905：在“今天”、“是”和“国庆节”查询是否存在“今天”、“是”或“劳动节”，如果是则执行906，如果否则执行907。

906：查询到作为第一文本子数据的“今天”和“是”与作为第二文本子数据的“今天”和“是”的匹配度满足要求，同时两者的音频也满足预设要求(例如，预定声纹特征的相似度高于阈值)，则将第一文本子数据的“今天”与其音频子数据的匹配，并且将第一文本子数据的“是”与其音频子数据的匹配，并在初始的匹配度1(例如，首次匹配为1)的基础上更新为2(指示进行了两次匹配)。

907：将“劳动节”的文本子数据与其音频子数据存储为新的对应关系，并且匹配度设定为1(初始化，存在一次匹配)。显然，查询到作为第一文本子数据的“国庆节”与作为第二文本子数据的“劳动节”匹配度，与“国庆节”与“今天”之间的匹配度都是未达到要求的。应理解，如果采用了不同的预定分割规则，存在在第一文本数据中的“国庆”和“节”两个文本子数据并且在第二文本数据中的“劳动”和“节”两个文本子数据的可能性，在这种情况下，作为第一文本子数据的“节”极有可能与作为第二文本子数据的“节”的匹配度满足阈值，这时“节”的音频子数据与其文本子数据可能会从匹配度值1更新为匹配度值2。

应理解，上述的文本信息和音频数据、分割方式都是具体的示例，实施本申请时，可以采用任意的方式，对此不作限定。

图10为根据本申请的另一实施例的控制方法的示意性流程图。图10的信息处理方法1000由智能电视执行，包括如下步骤：

1001：用户开启方言识别功能。

1002：用户采用方言对智能电视说：调大声音。

1003：智能电视的语音识别模块将“调大声音”的音频数据输入分割成“调大”和“声音”对应的音频。

1004：语音识别模块输出了“调大”和“声音”的文本信息。

1005：根据“调大”在指令集中搜索出“调大亮度”、“调大对比度”、“调大字体”、“调大音量”等指令。

1006：根据“声音”在已经搜索出的各个指令中确定与其最相近的为“调大音量”。

1007：执行“调大音量”操作。

应理解，也可以不采用分割的方式，即，将“调大声音”的音频数据识别为“调大声音”的文本数据之后，获取与其对应的“调大音量”的指令，并且执行对应的操作，然而，上述实施例仅仅为具体的一种实施方式，显然还可以想到其他的实施方式。

图11为根据本申请的另一实施例的控制方法的示意性流程图。在本实施例中，采用了图1的实施例中所述的基于时间的识别单位来执行操作，例如以0.25秒作为识别单位，从初始时刻起每经过0.25秒时进行识别，图11的控制方法1100包括如下步骤：

1101：用户开启方言识别功能。

1102：用户采用方言对智能电视说：调大声音。

1103：智能电视的语音识别模块在0.25秒时接收到“调大”的音频数据。

1104：从语音识别模块输出了“调大”的文本信息。

1105：根据“调大”在指令集中搜索出“调大亮度”、“调大对比度”、“调大字体”、“调大音量”等指令。

1106：智能电视的语音识别模块在0.25秒时接收到“声音”的音频数据。

1107：从语音识别模块输出了“调大”的文本信息。

1108：根据“声音”在已经搜索出的各个指令中确定与其最相近的为“调大音量”。

1109：执行“调大音量”操作。

应理解，本实施例的0.25秒的识别单位仅仅是具体的示例，还可以采用其他的基于时间的识别单位，例如0.2秒、0.3秒等，本申请对此不作限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的数据处理方法所应用于的电子设备，可以参考前述产品实施例中的对应描述，在此不再赘述。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种信息处理方法，其包括：

获得播放的音频数据以及与所述音频数据对应的文本数据；

2.根据权利要求1所述的方法，其中，所述获得播放的音频数据包括：

3.根据权利要求2所述的方法，其中，所述获得符合预设要求的目标音频数据包括：

获得具有与语音信息对应的语音的音频数据；

其中，所述语音信息通过下列中的至少一种方式确定：

获取环境中的音频数据；

根据所述音频数据确定所述语音信息；和/或

获取当前设备所在的地理位置信息；

确定输出的图像中是否具有预设标识信息；

4.根据权利要求1至3中任一项所述的方法，其中，所述获得播放的音频数据包括：

获得输入到音频播放器的音频数据，或者

采集从所述音频播放器输出的音频数据。

所述获得所述文本数据包括：

获得与所述音频数据同步播放的图像；

识别所述图像中的字幕信息，并对应生成文本数据；或者

获得接收的所述文本数据。

5.根据权利要求1所述的方法，其中，所述基于所述音频数据和文本数据形成语音识别模型包括：

6.根据权利要求5所述的方法，其中，所述文本数据和所述音频数据为第一文本数据和第一音频数据，所述方法还包括：获取相对应的第二文本数据和第二音频数据；

7.根据权利要求1所述的方法，其中，在基于所述语音识别模型识别接收的语音输入，并确定与所述语音输入对应的语音指令时包括：

将所述语音输入在所述语音识别模型中匹配；

基于所述文本信息执行对应操作；或者

将所述语音输入分割成多个输入子信息；

基于所述文本信息执行对应操作。

8.一种电子设备，其包括：

音频输出器，其输出音频数据；

9.根据权利要求8所述的电子设备，其中，还包括：

所述处理器获得播放的音频数据时包括：

10.根据权利要求9所述的电子设备，其中，所述音频采集器还用于：获取环境中的音频数据；

所述电子设备还包括:

位置采集器，其用于获取当前设备所在的地理位置信息；

所述电子设备还包括:

图像输出器，其用于输出图像；