CN117809644A

CN117809644A - 电子设备、语音识别方法、装置及存储介质

Info

Publication number: CN117809644A
Application number: CN202311014455.4A
Authority: CN
Inventors: 李霞; 王建君; 田露华
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2024-04-02

Abstract

本发明实施例公开了一种电子设备、语音识别方法、装置及存储介质，涉及语音识别技术领域，该电子设备包括：接收器，被配置为接收用户输入的语音指令；与所述接收器耦接的控制器，所述控制器被配置为：响应于所述语音指令，对所述语音指令进行识别，得到所述语音指令对应的多个候选识别结果；根据所述候选识别结果确定所述候选识别结果对应的实体数量；在所述实体数量小于或等于阈值数量的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。应用本发明的技术方案，能够提高语音识别的准确率。

Description

电子设备、语音识别方法、装置及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种电子设备、语音识别方法、装置及存储介质。

背景技术

随着语音识别技术的发展，语音交互的应用场景越来越普遍。例如，在智能电视、智能车载、智能家居、智能机器人等应用领域，用户可以通过电子设备提供的语音功能录入语音指令，使得电子设备对语音指令进行语义分析，以识别语音指令的操作意图，从而按照语音指令的操作意图控制电子设备执行相应的操作，如运行应用程序、搜索语音指令对应的内容等。

然而，由于语言种类的多样性，各个地区的方言不尽相同，比如对于一些不同的字，其发音可能相同，如“yue bing”，其对应的字有“阅兵”、“月饼”。在进行识别时，有时候会将相同发音的字识别为错误的字或词，因此，语音识别的准确率有待提高。

发明内容

本发明实施例提供一种电子设备、语音识别方法、装置及存储介质，用于解决现有技术中语音识别准确率不高的问题。

为达到上述目的，本申请的实施例采用如下技术方案：

根据本发明实施例的一个方面，提供了一种电子设备，包括：接收器，被配置为接收用户输入的语音指令；与所述接收器耦接的控制器，所述控制器被配置为：响应于所述语音指令，对所述语音指令进行识别，得到所述语音指令对应的多个候选识别结果；确定所述候选识别结果对应的实体数量；在所述实体数量小于或等于数量阈值的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

在一些实施例中，所述控制器还被配置为：在所述实体数量大于所述数量阈值的情况下，利用知识图谱数据库确定各所述候选识别结果中多个所述实体之间的关系；根据各所述候选识别结果中多个所述实体之间的关系，将所述多个候选识别结果中满足第一输出条件的候选识别结果确定为所述目标识别结果。

在一些实施例中，所述控制器还被配置为：若所述多个候选识别结果不满足所述第一输出条件，则利用所述场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

在一些实施例中，所述语音指令的场景信息包括第一场景信息、第二场景信息和第三场景信息中的至少一项，所述场景决策模块包括环境感知数据库、时空感知数据库、方言感知数据库中至少一项，所述控制器被配置为：将各所述候选识别结果与所述环境感知数据库中所述第一场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第一匹配结果，所述第一场景信息包括所述语音指令对应的设备信息和/或应用程序信息；和/或，将各所述候选识别结果与所述时空感知数据库中所述第二场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第二匹配结果，所述第二场景信息包括所述语音指令对应的时间信息和/或区域位置信息；和/或，将各所述候选识别结果与所述方言感知数据库中所述第三场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第三匹配结果，所述第三场景信息包括所述语音指令的方言信息；根据所述第一匹配结果、所述第二匹配结果和所述第三匹配结果中的至少一项，将所述多个候选识别结果中满足第二输出条件的候选识别结果确定为所述目标识别结果。

在一些实施例中，所述控制器还被配置为：在所述多个候选识别结果不满足所述第二输出条件的情况下，根据各所述候选识别结果的输出概率，将所述输出概率最大的候选识别结果确定为所述目标识别结果。

在一些实施例中，所述控制器还被配置为：确定所述多个候选识别结果中任意两个候选识别结果的输出概率差值；在多个所述输出概率差值中的最小输出概率差值大于差值阈值的情况下，将所述多个候选识别结果中输出概率最大的候选识别结果确定为所述目标识别结果；在多个所述输出概率差值中的最大输出概率差值小于或等于所述差值阈值的情况下，执行确定所述候选识别结果对应的实体数量，在所述实体数量小于或等于数量阈值的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

在一些实施例中，所述控制器还被配置为：根据所述目标识别结果确定所述语音指令对应的操作意图，以执行所述操作意图对应的控制操作。

根据本发明实施例的另一个方面，提供了一种语音识别方法，应用于电子设备，所述方法包括：接收用户输入的语音指令；响应于所述语音指令，对所述语音指令进行识别，得到所述语音指令对应的多个候选识别结果；确定所述候选识别结果对应的实体数量；在所述实体数量小于或等于数量阈值的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

在一些实施例中，所述方法还包括：在所述实体数量大于所述数量阈值的情况下，利用知识图谱数据库确定各所述候选识别结果中多个所述实体之间的关系；根据各所述候选识别结果中多个所述实体之间的关系，将所述多个候选识别结果中满足第一输出条件的候选识别结果确定为所述目标识别结果。

在一些实施例中，所述方法还包括：若所述多个候选识别结果不满足所述第一输出条件，则利用所述场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

在一些实施例中，所述语音指令的场景信息包括第一场景信息、第二场景信息和第三场景信息中的至少一项，所述场景决策模块包括环境感知数据库、时空感知数据库、方言感知数据库中至少一项，所述利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果，包括：将各所述候选识别结果与所述环境感知数据库中所述第一场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第一匹配结果，所述第一场景信息包括所述语音指令对应的设备信息和/或应用程序信息；和/或，将各所述候选识别结果与所述时空感知数据库中所述第二场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第二匹配结果，所述第二场景信息包括所述语音指令对应的时间信息和/或区域位置信息；和/或，将各所述候选识别结果与所述方言感知数据库中所述第三场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第三匹配结果，所述第三场景信息包括所述语音指令的方言信息；根据所述第一匹配结果、所述第二匹配结果和所述第三匹配结果中的至少一项，将所述多个候选识别结果中满足第二输出条件的候选识别结果确定为所述目标识别结果。

在一些实施例中，所述方法还包括：在所述多个候选识别结果不满足所述第二输出条件的情况下，根据各所述候选识别结果的输出概率，将所述输出概率最大的候选识别结果确定为所述目标识别结果。

在一些实施例中，所述方法还包括：确定所述多个候选识别结果中任意两个候选识别结果的输出概率差值；在多个所述输出概率差值中的最小输出概率差值大于差值阈值的情况下，将所述多个候选识别结果中输出概率最大的候选识别结果确定为所述目标识别结果；在多个所述输出概率差值中的最大输出概率差值小于或等于所述差值阈值的情况下，执行确定所述候选识别结果对应的实体数量，在所述实体数量小于或等于数量阈值的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

在一些实施例中，所述方法还包括：根据所述目标识别结果确定所述语音指令对应的操作意图，以执行所述操作意图对应的控制操作。

根据本发明实施例的又一个方面，提供了一种语音识别装置，应用于电子设备，所述装置包括：接收模块，用于接收用户输入的语音指令；第一识别模块，用于响应于所述语音指令，对所述语音指令进行识别，得到所述语音指令对应的多个候选识别结果；确定模块，用于确定所述候选识别结果对应的实体数量；第二识别模块，用于在所述实体数量小于或等于数量阈值的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

根据本发明实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在显示设备上运行时，使得显示设备执行如上所述的语音识别方法的操作。

根据本发明实施例提供的电子设备、语音识别方法、装置及存储介质，可以响应于用户输入的语音指令，对语音指令进行识别，得到语音指令对应的多个候选识别结果，确定候选识别结果对应的实体数量，在实体数量小于或等于数量阈值的情况下，利用场景决策模块对语音指令的场景信息进行分析，确定语音指令的目标识别结果。

应用本方案，可以在得到语音指令对应的多个候选识别结果，且候选识别结果的实体数量不大于数量阈值的情况下，利用场景决策模块对语音指令的场景信息进行分析，从而对各候选识别结果进行澄清和消歧，能够提高语音识别的准确率。

附图说明

图1示出了本发明实施例提供的一种电子设备与控制装置的交互示意图；

图2示出了本发明实施例中控制装置的配置框图；

图3示出了本发明实施例提供的一种语音识别方法的流程图；

图4示出了本发明实施例提供的一种语音识别系统的结构图；

图5示出了本发明实施例提供的另一种语音识别方法的流程图；

图6示出了本发明实施例提供的又一种语音识别方法的流程图；

图7示出了本发明实施例提供的一种知识图谱的示意图；

图8示出了本发明实施例提供的又一种语音识别方法的流程图；

图9示出了本发明实施例提供的又一种语音识别方法的流程图；

图10示出了本发明实施例提供的一种语音指令的处理流程图；

图11示出了本发明实施例提供的另一种语音指令的处理流程图；

图12示出了本发明实施例提供的又一种语音识别方法的流程图；

图13示出了本发明实施例提供的一种语音识别装置的结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

本申请中术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本发明实施例提供了一种电子设备和语音识别方法，该语音识别方法可以应用于电子设备，该电子设备可以是手机、台式电脑、平板电脑、可穿戴设备等具有语音识别功能的设备。用户可以通过电子设备的语音功能操作电子设备，也可以通过控制装置操作电子设备。图1示出了本发明实施例提供的一种电子设备与控制装置的交互示意图。如图1所示，用户可以通过移动终端300或控制装置100操作电子设备200。控制装置100可以是遥控器，遥控器和电子设备200可以通过红外协议、蓝牙协议通信，或者遥控器也可以通过无线或其他有线方式来控制电子设备200。

用户可以通过遥控器上的按键、语音输入、控制面板等输入用户指令，来控制电子设备200。例如，用户可以通过遥控器上的上下键控制电子设备200切换显示的页面，通过播放暂停键控制电子设备200播放的视频播放或暂停，通过语音输入键输入语音指令，以控制电子设备200执行相应的操作。

在一些实施例中，用户也可以使用移动终端、平板电脑、计算机、笔记本电脑和其他智能设备来控制电子设备200。例如，用户可以通过安装在智能设备上的应用程序控制电子设备200，该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面中为用户提供各种控制。

在一些实施例中，移动终端300可与电子设备200安装的软件应用，通过网络通信协议实现连接通信，实现一对一控制操作和数据通信的目的。例如，可以实现用移动终端300与电子设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上的用户界面，实现控制电子设备200的功能，或者也可以将移动终端300上显示的内容传输到电子设备200上，实现同步显示的功能。

如图1所示，电子设备200与服务器400可以通过多种通信方式进行数据通信，可允许电子设备200通过局域网(Local Area Network，LAN)、无线局域网(Wireless LocalArea Network，WLAN)和其他网络进行通信连接。服务器400可以向电子设备200提供各种内容和互动。例如，电子设备200通过发送和接收消息，以及电子节目指南(ElectricalProgram Guide，EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。其中，服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

电子设备200可以是液晶显示器、有机电激光显示(Organic Light-EmittingDiode，OLED)显示器、投影电子设备、智能终端，如手机、平板电脑、智能电视、激光投影设备、电子桌面(electronic table)等。具体电子设备类型，尺寸大小和分辨率等不作限定。

图2示出了本发明示例性实施例中控制装置100的配置框图，如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可以接收用户输入的操作指令，且将操作指令转换为电子设备200可识别和响应的指令，在用户与电子设备200之间起交互中介作用。

在一些实施例中，电子设备200可以通过接收器接收用户输入的语音指令。例如，当接收器为触控组件时，触控组件可以与电子设备200的显示器共同构成触摸屏。在触摸屏上用户可以通过触摸操作触发电子设备200的语音录入功能，以录入语音指令。

在一些实施例中，接收器也可以是外接控制组件，如可以是与电子设备建立通信连接的鼠标、遥控器等。当用户在外接控制组件上执行不同的控制操作时，外接控制组件可以响应于用户的控制操作，产生不同的控制信号，并将产生的控制信号发送给控制器250。

例如，当用户按下遥控器上的语音键时，遥控器可以启动语音录入功能，在用户录入语音指令的过程中，遥控器可以将语音指令同步给电子设备200的显示器，此时显示器可以显示语音录入标识，以表示用户正在录入语音指令。

在一些实施例中，接收器还可以是电子设备200连接的控制组件，以台式电脑为例，控制组件可以是与显示器连接的键盘。用户可以通过键盘输入不同的控制指令，如点击、切换、录入语音等操作指令。

示例性的，用户可以通过相应的快捷键，输入语音指令。例如，当用户选择“Ctrl”键和“V”键时，控制器250可以接收到按键信号，确定用户触发了语音输入操作，然后，接收器可以接收用户输入的语音指令，并按照语音指令控制电子设备200执行相应操作。

语音识别技术是机器接收、识别和理解语音信号，并将其转化为相应的数字信号的技术。由于我国幅员辽阔，语言类型多种多样，且各地区的使用语言多为自己地区的方言，同时，随着互联网的广泛应用，很多同音的词会衍生表达不同的含义，例如，对于拼音“lu yao zhi ma li”，其对应的词可以包括“陆垚知马俐”、“路遥知马力”等。其中，“陆垚知马俐”为某电视剧的名称。

针对这种情形，语音识别模型很难从识别引擎端进行优化，导致语音容易被识别为错误文本，因此，语音识别的准确率不高。

鉴于前述的一个或多个问题，图3示出了本发明实施例提供的一种语音识别方法的流程图，该语音识别方法可以应用于如图1所示的电子设备200，该电子设备200可以包括接收器和与接收器耦接的控制器。

其中，接收器可以用于接收用户输入的语音指令，控制器可以对语音指令进行分析，并控制电子设备执行相应的操作。

根据本实施例提供的语音识别方法，电子设备可以响应于用户输入的语音指令，对语音指令进行识别，得到语音指令对应的多个候选识别结果，确定候选识别结果对应的实体数量，在实体数量小于或等于数量阈值的情况下，利用场景决策模块对语音指令的场景信息进行分析，确定语音指令的目标识别结果。

如图3所示，控制器被配置为执行以下步骤S310～S340：

步骤S310：接收用户输入的语音指令。

语音指令是由控制器获取的声音数据，其可以是用户通过电子设备的语音录入功能输入的语音数据，也可以是用户通过电子设备的外接控制组件，如遥控器、麦克风等输入的语音数据。在一些情况下，语音指令也可以是通过其他方式获取的声音数据，如可以是通过网络下载的语音数据。

在一些实施例中，语音指令可以包括场景信息，该场景信息可以包括接收语音指令时的电子设备和应用程序信息、触发语音指令时的时间信息、电子设备所处的区域位置等。

步骤S320：响应于语音指令，对语音指令进行识别，得到语音指令对应的多个候选识别结果。

其中，候选识别结果是指被列为候选对象的识别结果。

在接收到用户输入的语音指令时，控制器可以对该语音指令进行识别，如可以采用隐马尔可夫模型、人工神经网络、支持向量机、机器学习等方法对语音指令进行识别，得到语音指令对应的多个候选识别结果。

示例性的，图4示出了本发明实施例提供的一种语音识别系统的结构图，如图4所示，该语音识别系统400主要包括四个组成部分：特征提取和信号处理、声学模型、语言模型和解码搜索部分。

其中，特征提取和信号处理主要是用于以输入的语音指令的音频信号为输入，通过消除噪声和信道失真对语音进行增强，将信号从时域转化到频域，并为后面的声学模型提取合适的有代表性的特征向量。

声学模型是语音识别系统400的底层模型，其目的是计算语音的特征矢量序列和每个发音模板之间的距离，也就是说，提取到的语音特性，与某个发音之间的差距越小，越有可能是这个发音。具体的，声学模型是将声学和发音学的知识进行整合，以特征提取部分生成的特征为输入，并为可变长特征序列生成声学模型分数。

语言模型可以通过训练语料学习词与词之间的相互关系，来估计假设词序列的可能性，也称为语言模型分数。解码搜索是综合声学模型分数与语言模型分数的结果，将总体输出概率较高的词序列当做候选识别结果。

在一些实施例中，可以将输出概率高于最低概率阈值的词序列确定为候选识别结果。即，在利用语音识别系统所确定的语音指令对应的词序列中，可以将其中输出概率高于最低概率阈值的每个词序列确定为候选识别结果。这样，可以屏蔽一些输出概率过低的词序列，减少后续分析的数据量。

通过对语音指令进行识别，确定语音指令对应的多个候选识别结果，可以确定语音指令所对应的多个文本识别结果，实现语音指令的初步识别。

步骤S330：确定候选识别结果对应的实体数量。

实体是指候选识别结果中代表具体事物、人物、地点、时间等具体实体的词语或短语，例如，在候选识别结果“我明天要去香港”中，“明天”和“香港”就是实体，分别表示时间和地点。再例如，在候选识别结果“看电影”中，只有一个实体词“电影”，在候选识别结果“张三的电影”中，实体词包括“张三”和“电影”。

在得到多个候选识别结果时，控制器可以确定每个候选识别结果中的实体数量，从而得到这些候选识别结果的实体数量。一般而言，每个候选识别结果中的实体数量是相等的。示例性的，当多个候选识别结果中的实体数量不同时，可以将最多的实体数量值确定为候选识别结果对应的实体数量。

步骤S340：在实体数量小于或等于数量阈值的情况下，利用场景决策模块对语音指令的场景信息进行分析，以在多个候选识别结果中确定语音指令的目标识别结果。

其中，数量阈值可以设置为默认值，如可以设置为1，也可以由开发人员进行自定义设置。目标识别结果是指语音指令的最终识别结果，且目标识别结果为多个候选识别结果中的一个。场景决策模块是分析语音指令发生的场景和环境的模块，其可以用于分析语音指令发生时用户所在的地理位置、时间信息、空间信息、所处环境，以及触发语音指令时的设备类型、应用程序等，以达到最佳的识别性能。

在实体数量小于或等于数量阈值时，说明候选识别结果中的具体实体词较少，为了从候选识别结果中确定出目标识别结果，可以利用场景决策模块对语音指令发生的场景、环境和时间、空间等信息进行分析，以从多个候选识别结果中确定语音指令的目标识别结果。

通过上述方法，可以利用场景决策模块对语音指令的发生场景进行分析，从而对各候选识别结果进行澄清和消歧，提高语音识别的准确率。

在一些实施例中，各候选识别结果可以输出为数组，候选识别结果中的实体可以包含实体名、实体的拼音与输出概率。下表1示出了一种候选识别结果的示例，如下所示：

表1

语音指令	候选识别结果
		yue bing	[{yuebing:阅兵,0.98},{yuebing:月饼,0.97}]
shu nian	[{shunian:熟年,0.97},{shunian:鼠年,0.98}]
		zhang san de qi zi li si	张三的妻子[{lisi:李四,0.95},{lisi:李思,0.94}]

其中，“熟年”为某电视剧的名称。

当候选识别结果的数量较多时，对每个候选识别结果进行澄清和消歧，会增加语音指令的识别时间，因此，为了提高语音识别的效率，在一些实施例中，参考图5所示，控制器还可以执行以下方法：

步骤S510：确定多个候选识别结果中任意两个候选识别结果的输出概率差值。

示例性的，可以计算多个候选识别结果中，每两个候选识别结果对应的输出概率差值，即计算两个候选识别结果的输出概率的差值的绝对值。

步骤S520：在多个输出概率差值中的最小输出概率差值大于差值阈值的情况下，将多个候选识别结果中输出概率最大的候选识别结果确定为目标识别结果。

差值阈值可以由开发人员自定义设置，也可以设置为默认值，如设置为0.05、0.1等。在多个输出概率差值中，如果最小输出概率差值大于差值阈值，则说明各输出概率差值之间的差异很大，最大输出概率与最小输出概率之间的差异更大，此时可以直接将多个候选识别结果中输出概率最大的候选识别结果确定为目标识别结果。

例如，假设存在三个候选识别结果，第一个候选识别结果的输出概率是0.96，第二个候选识别结果的输出概率是0.83，第三个候选识别结果的输出概率是0.72，差值阈值为0.05，经计算，上述三个输出概率之间的输出概率差值分别为0.13、0.09、0.24，最小输出概率差值0.09<差值阈值0.05，任意两个候选识别结果之间的差异较大，故可以直接将输出概率为0.96的第一个候选识别结果确定为目标识别结果。

步骤S530：在多个输出概率差值中的最大输出概率差值小于或等于差值阈值的情况下，执行确定候选识别结果对应的实体数量，在实体数量小于或等于数量阈值的情况下，利用场景决策模块对语音指令的场景信息进行分析，以在多个候选识别结果中确定语音指令的目标识别结果的步骤。

相反的，在多个输出概率差值中，如果最大输出概率差值小于或等于差值阈值，则可以说明各输出概率差值之间的差异不大，即各候选识别结果之间的输出概率差异不大，此时可以执行确定候选识别结果对应的实体数量，从而在实体数量小于或等于数量阈值的情况下，利用场景决策模块对语音指令的场景信息进行分析，以从多个候选识别结果中确定出目标识别结果的步骤，实现进一步识别语音指令的目的。

通过上述方法，可以根据各候选识别结果之间的输出概率差异，确定是否需要利用场景决策模块对语音指令的场景进行分析，以对各候选识别结果进行进一步的澄清和消歧，从而确定目标识别结果，能够提高语音分析的效率。

在一些实施例中，参考图6所示，控制器还可以执行以下方法：

步骤S610：在实体数量大于数量阈值的情况下，利用知识图谱数据库确定各候选识别结果中多个实体之间的关系。

知识图谱是一种表征实体之间关系的语义网络。本实施例中，知识图谱数据库可以是开发人员构建的关于同音异形词的知识图谱，其可以用于语音识别中同音异形词的消歧和决策。知识图谱数据库可以包括多条知识，每条知识可以表示为如下三元组：[subject：主题]→predicate→[对象]。

在实体数量大于数量阈值时，可以基于实体之间的关联关系对各候选识别结果进行澄清和消歧，即利用知识图谱数据库确定各候选识别结果中多个实体之间的关系。

图7示出了本发明实施例提供的一种知识图谱的示意图，如图7所示，根据该知识图谱可以看出，“电影”分别与“演员”、“导演”和“歌曲”存在实体关联关系，且“演员”演“电影”、“导演”导“电影”，“电影”对应的主题曲是“歌曲”，“歌曲”的演唱者是“歌手”。

可以看出，各实体之间的关系错综复杂，知识图谱能够用于表达实体之间的关联性和实体关系，能够直观地体现出两个实体之间是否直接相关，以及相关的关系如何。知识图谱数据库包括大量实体之间的关系数据，能够用于分析候选识别结果中各实体之间的正确关系。

以电影“真相”的导演为赵某为例，利用知识图谱数据库，可以查找到电影“真相”与“赵某”的实体关联数据，而无法查找到电影“真相”与“李某”的实体关联数据，则可以确定电影“真相”与“赵某”存在关联关系。

步骤S620：根据各候选识别结果中多个实体之间的关系，将多个候选识别结果中满足第一输出条件的候选识别结果确定为目标识别结果。

其中，第一输出条件是指在多个候选识别结果中选择出目标识别结果的条件，其可以是候选识别结果存在正确的实体关系。也就是说，在根据知识图谱数据库确定各候选识别结果中存在正确实体关系的候选识别结果时，可以确定存在正确实体关系的候选识别结果满足第一输出条件。

例如，在上述示例中，如果候选识别结果为“我想看赵某的电影《真相》”，则可以确定该候选识别结果为目标识别结果。

再例如，在多个候选识别结果“搜索成语故事路遥知马力”和“搜索成语故事陆垚知马俐”中，如果根据知识图谱数据库能够确定实体之间的正确关系为“成语故事：路遥知马力”，则可以确定候选识别结果“搜索成语故事路遥知马力”为最终的目标识别结果。

通过上述方法，可以在实体数量大于数量阈值的情况下，利用知识图谱数据库对各实体之间的关系进行检查和校验，从而在各候选识别结果中选择出具有正确实体关系的目标识别结果。

由于知识图谱数据库可能存在不完善的情况，如果利用知识图谱数据库无法从多个候选识别结果中确定目标识别结果，在一些实施例中，控制器还可以执行以下方法：

若多个候选识别结果不满足第一输出条件，则利用场景决策模块对语音指令的场景信息进行分析，以在上述多个候选识别结果中确定所述语音指令的目标识别结果。

也就是说，在利用知识图谱数据库无法确定正确的实体关系，所以无法确定目标识别结果时，控制器可以继续利用场景决策模块对语音指令的场景信息进行分析，确定候选识别结果中符合语音指令对应的场景的目标识别结果。

在一些实施例中，语音指令的场景信息可以包括第一场景信息、第二场景信息和第三场景信息中的至少一项，场景决策模块可以包括环境感知数据库、时空感知数据库、方言感知数据库中至少一项。

其中，环境感知数据库用于存储第一场景信息对应的实体词库，例如，可以存储设备信息实体词库和应用程序实体词库，其中，设备信息实体词库可以包括不同设备类型对应的实体词库，应用程序实体词库可以包括不同应用程序对应的实体词库。时空感知数据库可以用于存储第二场景信息对应的实体词库，例如，可以存储时间信息实体词库，包括工作日的实体词库、休息日的实体词库、节假日的实体词库等，也可以存储区域位置对应的实体词库，如东南地区实体词库或者某个城市对应的实体词库等。

方言感知数据库用于存储第三场景信息对应的实体词库，可以包括各地区的方言发音信息，如可以存储各个地区的方言实体词库，其可以用于表示各个发音对应的实体词。

应当理解的是，环境感知数据库、时空感知数据库、方言感知数据库可以按照相应的数据维度进行词库划分，并且词库划分的精细度也可以灵活设置。

由此，参考图8所示，控制器可以执行以下方法：

步骤S810：将各候选识别结果与环境感知数据库中第一场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第一匹配结果。

其中，第一场景信息可以包括语音指令对应的设备信息和/或应用程序信息。设备信息可以用于指示触发语音指令的电子设备的设备类型，如是电视、智能手机，还是车载终端、空调等。应用程序信息是指触发语音指令的应用程序，如是视频应用程序，还是音频应用程序、家居设备的管理程序等。第一匹配结果可以表示各候选识别结果与环境感知数据库中第一场景信息对应的信息库中的信息是否匹配成功。

为了确定触发语音指令的硬件环境，控制器可以根据第一场景信息确定语音指令对应的设备类型和/或应用程序，从而将各候选识别结果与环境感知数据库中与设备类型和/或应用程序对应的数据库进行匹配，来确定各候选识别结果的第一匹配结果。

示例性的，控制器可以根据语音指令对应的设备信息确定触发语音指令的设备类型，然后将各候选识别结果与环境感知数据库中与设备类型对应的设备实体词库进行匹配，确定每个设备实体词库中是否存在与某个候选识别结果匹配的实体，也可以根据语音指令对应的应用程序信息确定触发语音指令的应用程序，然后将各候选识别结果与环境感知数据库中与应用程序对应的应用程序实体词库进行匹配，确定每个应用程序实体词库中是否存在与某个候选识别结果匹配的实体。例如，在确定语音指令对应的设备信息对应电视设备时，控制器可以将各候选识别结果与电视设备实体词库中的实体进行匹配，在确定某个候选识别结果与电视设备实体词库中的任一实体匹配时，确定该候选识别结果匹配成功。

步骤S820：将各候选识别结果与时空感知数据库中第二场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第二匹配结果。

其中，第二场景信息可以包括语音指令对应的时间信息和/或区域位置信息。时间信息是指触发语音指令时的时间，其可以用于确定触发语音指令时是否处于工作日、休息日、节假日期间等。

示例性的，为了确定触发语音指令时的时间和位置等，控制器可以根据第二场景信息确定语音指令对应的时间和/或区域位置，然后在对应的时间实体词库和/或区域位置实体词库中查找是否存在与每个候选识别结果匹配的实体。

例如，在确定语音触发的时间为休息日时，可以将休息日对应的时间实体词库中的实体词与每个候选识别结果进行匹配，当确定存在任一实体词与某个候选识别结果匹配时，说明该候选识别结果匹配成功。

步骤S830：将各候选识别结果与方言感知数据库中第三场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第三匹配结果。

其中，第三场景信息可以包括语音指令的方言信息。例如，我国各个地区的发音音调各不相同，例如，陕西话变调规律——>“1声变3声,2声不变声,3声变4声,4声变1声”。

基于语音指令对应的第三场景信息，控制器可以确定语音指令的方言类型，从而将对应地区的方言感知数据库中与每个候选识别结果的实体词发音相同的实体词进行匹配，来确定每个候选识别结果是否匹配成功。如果存在某个候选识别结果的发音与方言感知数据库中的任一实体词的发音相同，且两个实体词的字也相同，则说明该候选识别结果匹配成功。

步骤S840：根据第一匹配结果、第二匹配结果和第三匹配结果中的至少一项，将多个候选识别结果中满足第二输出条件的候选识别结果确定为目标识别结果。

第二输出条件是指根据第一匹配结果、第二匹配结果和第三匹配结果确定目标识别结果的条件，在任意一个或多个匹配结果匹配成功时，可以确定各候选识别结果满足第二输出条件，且匹配成功的候选识别结果为目标识别结果。

通过上述方法，可以根据环境感知数据库、时空感知数据库和方言感知数据库，识别语音指令的发声场景，从而在各候选识别结果中选择出对应的目标识别结果。

需要说明的是，上述步骤S810～S830的执行顺序并不固定，且上述步骤S810～S830可以全部执行，也可以执行其中的部分步骤，本实施例对此不做具体限定。

在一些实施例中，若在步骤S840中确定满足第二输出条件的候选识别结果为多个，则可以根据满足第二输出条件的候选识别结果的输出概率，将具有最大输出概率的候选识别结果确定为目标识别结果。

在一些实施例中，控制器还可以执行以下方法：

在上述多个候选识别结果不满足第二输出条件的情况下，根据各候选识别结果的输出概率，将输出概率最大的候选识别结果确定为目标识别结果。

例如，在确定各候选识别结果均无法匹配成功时，确定多个候选识别结果不满足第二输出条件，此时可以根据各候选识别结果的输出概率，将最大输出概率对应的候选识别结果确定为目标识别结果。

图9示出了本发明实施例提供的又一种语音识别方法的流程图，如图9所示，可以包括以下步骤：

步骤S901：接收用户输入的语音指令。

步骤S902：响应于语音指令，对语音指令进行识别，得到语音指令对应的多个候选识别结果。

步骤S903：确定候选识别结果是否为单实体。如果不是，则执行步骤S904，如果是，则执行步骤S907。

如果候选识别结果不是单实体，说明候选识别结果中存在多个表示实体词，此时可以根据实体词之间的关系对候选识别结果进行澄清和消歧，故可以执行步骤S904，利用知识图谱数据库确定各候选识别结果中多个实体之间的关系。

如果候选识别结果为单实体，说明候选识别结果中仅有一个表示人物、地点等的实体词，此时为了对该实体词进行澄清和消歧，可以执行步骤S907，将语音指令的第一场景信息与环境感知数据库进行匹配，得到各候选识别结果的第一匹配结果。

步骤S904：利用知识图谱数据库确定各候选识别结果中多个实体之间的关系。

步骤S905：确定各候选识别结果是否满足第一输出条件。如果是，则执行步骤S906，如果不是，执行步骤S907。

其中，第一输出条件可以是候选识别结果中存在正确的实体关系。

如果存在某个候选识别结果满足第一输出条件，则说明该候选识别结果存在正确的实体关系，故可以执行步骤S906，将满足第一输出条件的候选识别结果确定为目标识别结果。如果各候选识别结果均不满足第一输出条件，则说明各候选识别结果不存在正确的实体关系，故可以执行步骤S907，将语音指令的第一场景信息与环境感知数据库进行匹配，得到各候选识别结果的第一匹配结果。

步骤S906：将多个候选识别结果中满足第一输出条件的候选识别结果确定为目标识别结果。

步骤S907：将各候选识别结果与环境感知数据库中第一场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第一匹配结果。

其中，第一场景信息可以包括语音指令对应的设备信息和/或应用程序信息。

示例性的，可以根据语音指令对应的设备信息确定触发语音指令的设备类型，然后将各候选识别结果与环境感知数据库中与设备信息库中的信息进行匹配，确定设备信息库中是否存在与某个候选识别结果匹配的信息，如果是，则说明该候选识别结果匹配成功。或者，也可以根据语音指令对应的应用程序信息确定触发语音指令的应用程序，然后将各候选识别结果与环境感知数据库中与应用程序信息库中的信息进行匹配，确定应用程序信息库中是否存在与某个候选识别结果匹配的信息，如果是，则说明该候选识别结果匹配成功。

步骤S908：确定第一匹配结果是否匹配成功。如果是，则执行步骤S914，如果不是，则执行步骤S909。

在根据第一匹配结果确定任意一个候选识别结果匹配成功时，可以执行步骤S914，确定该候选识别结果满足第二输出条件，将其确定为目标识别结果。如果根据第一匹配结果确定各候选识别结果均匹配失败时，可以继续执行步骤S909，以继续分析各候选识别结果的场景状况。

步骤S909：将各候选识别结果与时空感知数据库中第二场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第二匹配结果。

其中，第二场景信息可以包括语音指令对应的时间信息和/或区域位置信息。

示例性的，在根据语音指令对应的时间信息确定触发语音指令的时间为国庆假期时，可以将各候选识别结果与时空感知数据库中国庆假期对应的时间信息库中的信息进行匹配，确定国庆假期对应的时间信息库中是否存在与某个候选识别结果匹配的信息，如果是，则说明该候选识别结果匹配成功。或者，也可以根据语音指令对应的区域位置信息确定触发语音指令的区域位置，然后将各候选识别结果与时空感知数据库中与区域位置信息库中的信息进行匹配，确定区域位置信息库中是否存在与某个候选识别结果匹配的信息，如果是，则说明该候选识别结果匹配成功。

步骤S910：确定第二匹配结果是否匹配成功。如果是，则执行步骤S914，如果不是，则执行步骤S911。

在根据第二匹配结果确定任意一个候选识别结果匹配成功时，可以执行步骤S914，确定该候选识别结果满足第二输出条件，将其确定为目标识别结果。如果根据第二匹配结果确定各候选识别结果均匹配失败时，可以继续执行步骤S11，以继续分析各候选识别结果的场景状况。

步骤S911：将各候选识别结果与方言感知数据库中第三场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第三匹配结果，得到各候选识别结果的第三匹配结果。

其中，第三场景信息可以包括语音指令的方言信息，如可以包括各地区的发音实体词库。

示例性的，可以根据语音指令的方言类型，将对应地区的方言感知数据库中与每个候选识别结果的实体词发音相同的实体词进行匹配，来确定每个候选识别结果是否匹配成功。

步骤S912：确定第三匹配结果是否匹配成功。如果是，则执行步骤S914，如果不是，则执行步骤S913。

在根据第三匹配结果确定任意一个候选识别结果匹配成功时，可以执行步骤S914，确定该候选识别结果满足第二输出条件，将其确定为目标识别结果。如果根据第三匹配结果确定各候选识别结果均匹配失败时，可以继续执行步骤S13，以将输出概率最大的候选识别结果确定为目标识别结果。

步骤S913：将输出概率最大的候选识别结果确定为目标识别结果。

步骤S914：根据第一匹配结果、第二匹配结果和第三匹配结果中的至少一项，将多个候选识别结果中满足第二输出条件的候选识别结果确定为目标识别结果。

在确定目标识别结果后，为了控制电子设备输出语音指令对应的反馈，例如，参考图10所示，可以在识别出语音指令为“播放音乐《123》”，则电子设备可以响应于该语音指令，输出反馈语音，如“好的，马上为您播放音乐《123》”，同时开始播放音乐《123》。

也就是说，在一些实施例中，控制器还可以执行以下方法：

根据目标识别结果确定语音指令对应的操作意图，以执行操作意图对应的控制操作。

示例性的，参考图11所示，可以在用户输入语音指令后，利用本发明实施例提供的语音识别方法对语音指令进行识别，确定语音指令对应的目标识别结果，然后利用自然语言处理方法对目标识别结果进行语义理解，确定语音指令对应的操作意图，如在指令库中查找目标识别结果所对应的反馈操作，从而控制电子设备执行该反馈操作，并输出反馈指令，以便用户获悉电子设备对语音指令的操作进度。

通过上述方法，控制器可以接收用户输入的语音指令，并基于对语音指令的识别，控制电子设备输出对语音指令的反馈，使用户完成语音控制电子设备的目的。

为了进一步说明本发明实施例提供的语音识别方法，图12示出了本发明实施例提供的又一种语音识别方法的流程图，如图12所示，可以包括以下步骤：

步骤S1210：接收用户输入的语音指令。

步骤S1220：对语音指令进行识别，得到语音指令对应的候选识别结果。

示例性的，可以利用语音识别系统对语音指令进行识别，计算语音指令对应的各个词序列的输出概率，将输出概率较高的词序列确定为候选识别结果。

步骤S1230：确定是否存在多条候选识别结果。如果是，执行步骤S1240，如果不是，执行步骤S1260。

如果存在多条候选识别结果，为了从中确定最终的目标识别结果，可以执行步骤S1240，将多个候选识别结果输入至场景决策模块进行处理。如果仅存在一条候选识别结果，则可以直接将其确定为目标识别结果，并执行步骤S1260，将目标识别结果输入至语义理解系统，确定语音指令对应的操作意图。

步骤S1240：将多个候选识别结果输入至场景决策模块进行处理。

具体的，可以利用本发明实施例中图9所示的方法对多个候选识别结果进行处理，为避免重复，此处不再赘述。

步骤S1250：在各候选识别结果中确定目标识别结果。

根据场景决策模块输出的匹配结果，可以从各候选识别结果中确定目标识别结果。

步骤S1260：将目标识别结果输入至语义理解系统，确定语音指令对应的操作意图。

语义理解系统是一种人工智能技术，旨在理解和解释自然语言文本或语音输入中的含义和意图。语义理解系统可以通过词法分析、句法分析、实体识别和语义解析和意图识别将目标识别结果转换为计算机可理解和操作的语义表示。

在确定目标识别结果后，可以将目标识别结果输入至语义理解系统，以理解和解释语音指令的含义和操作意图。

步骤S1270：执行操作意图对应的控制操作。

在确定语音指令对应的操作意图后，控制器可以执行操作意图对应的控制操作，如打开页面、打开或关闭应用程序、执行设置功能等。

通过上述方法，可以基于对语音指令的识别和分析，确定语音指令对应的操作意图，以控制电子设备执行控制操作，可以实现语音形式的人机交互，支持智能对话、信息检索、知识问答、设备控制等功能。

综上，根据本实施例中的语音识别方法，可以对语音指令进行识别，确定语音指令对应的候选识别结果，并基于候选识别结果的实体数量，利用场景决策模块对语音指令的场景信息进行分析，从而对各候选识别结果进行澄清和消歧，能够提高语音识别的准确率。

本发明实施例还提供了一种语音识别装置，如图13所示，语音识别装置1300可以应用于电子设备，且语音识别装置1300可以包括：接收模块1310，用于接收用户输入的语音指令；第一识别模块1320，用于响应于语音指令，对语音指令进行识别，得到语音指令对应的多个候选识别结果；确定模块1330，用于确定候选识别结果对应的实体数量；第二识别模块1340，用于在实体数量小于或等于数量阈值的情况下，利用场景决策模块对语音指令的场景信息进行分析，以在多个候选识别结果中确定语音指令的目标识别结果。

在一些实施例中，第二识别模块1340还可以用于在实体数量大于数量阈值的情况下，利用知识图谱数据库确定各候选识别结果中多个实体之间的关系；根据各候选识别结果中多个实体之间的关系，将多个候选识别结果中满足第一输出条件的候选识别结果确定为目标识别结果。

在一些实施例中，第二识别模块1340还可以用于若多个候选识别结果不满足第一输出条件，则利用场景决策模块对语音指令的场景信息进行分析，以在多个候选识别结果中确定语音指令的目标识别结果。

在一些实施例中，语音指令的场景信息包括第一场景信息、第二场景信息和第三场景信息中的至少一项，场景决策模块包括环境感知数据库、时空感知数据库、方言感知数据库中至少一项，第二识别模块1340还可以用于将各候选识别结果与环境感知数据库中第一场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第一匹配结果，第一场景信息包括语音指令对应的设备信息和/或应用程序信息；和/或，将各候选识别结果与时空感知数据库中第二场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第二匹配结果，第二场景信息包括语音指令对应的时间信息和/或区域位置信息；和/或，将各候选识别结果与方言感知数据库中第三场景信息对应的信息库中的信息进行匹配，得到各候选识别结果的第三匹配结果，第三场景信息包括语音指令的方言信息；根据第一匹配结果、第二匹配结果和第三匹配结果中的至少一项，将多个候选识别结果中满足第二输出条件的候选识别结果确定为目标识别结果。

在一些实施例中，第二识别模块1340还可以用于在多个候选识别结果不满足第二输出条件的情况下，根据各候选识别结果的输出概率，将输出概率最大的候选识别结果确定为目标识别结果。

在一些实施例中，第一识别模块1320还可以用于确定多个候选识别结果中任意两个候选识别结果的输出概率差值；在多个输出概率差值中的最小输出概率差值大于差值阈值的情况下，将多个候选识别结果中输出概率最大的候选识别结果确定为目标识别结果；在多个输出概率差值中的最大输出概率差值小于或等于差值阈值的情况下，执行确定候选识别结果对应的实体数量，在实体数量小于或等于数量阈值的情况下，利用场景决策模块对语音指令的场景信息进行分析，以在多个候选识别结果中确定语音指令的目标识别结果。

在一些实施例中，第二识别模块1340还可以用于根据目标识别结果确定语音指令对应的操作意图，以执行操作意图对应的控制操作。

相对应的，上述语音识别装置中各部分的具体细节在上述电子设备部分实施方式中已经详细说明，未披露的细节内容可以参见电子设备部分的实施方式内容，因而不再赘述。

本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有至少一可执行指令，该可执行指令在电子设备/语音识别装置上运行时，使得所述电子设备/语音识别装置执行上述任意方法实施例中的/语音识别方法。

可执行指令具体可以用于使得电子设备/语音识别装置执行上述语音识别方法。

在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质的更具体的例子(非穷举的列表)可以包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。此外，本发明实施例也不针对任何特定编程语言。

在此处所提供的说明书中，说明了大量具体细节。然而能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。类似地，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。其中，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种电子设备，其特征在于，所述电子设备包括：

接收器，被配置为接收用户输入的语音指令；

与所述接收器耦接的控制器，所述控制器被配置为：

响应于所述语音指令，对所述语音指令进行识别，得到所述语音指令对应的多个候选识别结果；

确定所述候选识别结果对应的实体数量；

在所述实体数量小于或等于数量阈值的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

2.根据权利要求1所述的电子设备，其特征在于，所述控制器还被配置为：

在所述实体数量大于所述数量阈值的情况下，利用知识图谱数据库确定各所述候选识别结果中多个所述实体之间的关系；

根据各所述候选识别结果中多个所述实体之间的关系，将所述多个候选识别结果中满足第一输出条件的候选识别结果确定为所述目标识别结果。

3.根据权利要求2所述的电子设备，其特征在于，所述控制器还被配置为：

若所述多个候选识别结果不满足所述第一输出条件，则利用所述场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

4.根据权利要求1-3中任一项所述的电子设备，其特征在于，所述语音指令的场景信息包括第一场景信息、第二场景信息和第三场景信息中的至少一项，所述场景决策模块包括环境感知数据库、时空感知数据库、方言感知数据库中至少一项，所述控制器被配置为：

将各所述候选识别结果与所述环境感知数据库中所述第一场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第一匹配结果，所述第一场景信息包括所述语音指令对应的设备信息和/或应用程序信息；和/或，

将各所述候选识别结果与所述时空感知数据库中所述第二场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第二匹配结果，所述第二场景信息包括所述语音指令对应的时间信息和/或区域位置信息；和/或，

将各所述候选识别结果与所述方言感知数据库中所述第三场景信息对应的信息库中的信息进行匹配，得到各所述候选识别结果的第三匹配结果，所述第三场景信息包括所述语音指令的方言信息；

根据所述第一匹配结果、所述第二匹配结果和所述第三匹配结果中的至少一项，将所述多个候选识别结果中满足第二输出条件的候选识别结果确定为所述目标识别结果。

5.根据权利要求4所述的电子设备，其特征在于，所述控制器还被配置为：

在所述多个候选识别结果不满足所述第二输出条件的情况下，根据各所述候选识别结果的输出概率，将所述输出概率最大的候选识别结果确定为所述目标识别结果。

6.根据权利要求1-3中任一项所述的电子设备，其特征在于，所述控制器还被配置为：

确定所述多个候选识别结果中任意两个候选识别结果的输出概率差值；

在多个所述输出概率差值中的最小输出概率差值大于差值阈值的情况下，将所述多个候选识别结果中输出概率最大的候选识别结果确定为所述目标识别结果；

在多个所述输出概率差值中的最大输出概率差值小于或等于所述差值阈值的情况下，执行确定所述候选识别结果对应的实体数量，在所述实体数量小于或等于数量阈值的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

7.根据权利要求1-3中任一项所述的电子设备，其特征在于，所述控制器还被配置为：

根据所述目标识别结果确定所述语音指令对应的操作意图，以执行所述操作意图对应的控制操作。

8.一种语音识别方法，其特征在于，应用于电子设备，所述方法包括：

接收用户输入的语音指令；

确定所述候选识别结果对应的实体数量；

9.一种语音识别装置，其特征在于，应用于电子设备，所述装置包括：

接收模块，用于接收用户输入的语音指令；

第一识别模块，用于响应于所述语音指令，对所述语音指令进行识别，得到所述语音指令对应的多个候选识别结果；

确定模块，用于确定所述候选识别结果对应的实体数量；

第二识别模块，用于在所述实体数量小于或等于数量阈值的情况下，利用场景决策模块对所述语音指令的场景信息进行分析，以在所述多个候选识别结果中确定所述语音指令的目标识别结果。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在显示设备上运行时，使得显示设备执行如权利要求8所述的语音识别方法的操作。