CN112786022A

CN112786022A - 终端、第一语音服务器、第二语音服务器及语音识别方法

Info

Publication number: CN112786022A
Application number: CN201911096011.3A
Authority: CN
Inventors: 宋亮; 李凯; 赵云
Original assignee: Hisense Mobile Communications Technology Co Ltd
Current assignee: Hisense Mobile Communications Technology Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-05-11
Anticipated expiration: 2039-11-11
Also published as: CN112786022B

Abstract

本发明是关于一种终端、第一语音服务器、第二语音服务器及语音识别方法，涉及互联网技术领域，用以解决相关技术中语音应用对应的服务器支持的场景不全，从而导致语音服务平台服务效果比较差的问题，本发明终端将音频单元采集的用户语音传输给通信单元，将通信单元接收到的反馈内容传输给音频单元；其中，第一语音服务器发送的反馈内容是第二语音服务器根据第一语音服务器发送的用户语音对应的文本信息确定的，文本信息是第一语音服务器在确定用户语音对应的场景为第二语音服务器支持的场景后发送的。由于本发明实施例将语音服务中的语音采用支持语音对应的场景的第二服务器进行反馈，对语音服务进行补充，从而可以提高语音服务平台服务效果。

Description

终端、第一语音服务器、第二语音服务器及语音识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种终端、第一语音服务器、第二语音服务器及语音识别方法。

背景技术

语音服务平台大多都会包括安装在终端中的软件应用和对应的服务器，用户发出语音后，采用终端中的软件应用会采集语音并发送给软件应用对应的服务器。软件应用对应的服务器接收到语音后，将语音转化为语义，然后进行语义识别，找到与语义最匹配的结果作为反馈内容返回给软件应用，然后软件应用对识别结果进行语音播报。

其中，在语音服务平台中对语义识别后找到对应的结果时，一般都会存储有该服务器支持的场景的数据。在接收到语义时，从语音应用对应的服务器的支持的场景的数据中，确定与语义信息对应的结果，然后将各个支持的场景对应的结果与语义信息进行匹配，匹配度最高的结果作为反馈内容发送语音应用。

然而，由于该服务器的存储能力有限，所以并不是对所有场景均在同一个语音服务器中支持。例如，当用户语音对应的场景并不是语音应用对应的服务器支持的场景时，则语音应用对应的服务器给出的反馈内容比较差。

发明内容

本发明提供一种终端、第一语音服务器、第二语音服务器及语音识别方法，用以解决现有技术中语音应用对应的服务器支持的场景不全，从而导致语音服务平台服务效果比较差的问题。

第一方面，本发明实施例提供的一种终端，包括：处理器、通信单元和音频单元；

所述音频单元，用于采集用户语音和播放所述处理器传输的反馈内容；

所述通信单元，用于将所述处理器传输的用户语音发送给第一语音服务器，并接收所述第一语音服务器发送的反馈内容；

所述处理器，用于将所述音频单元采集的用户语音传输给所述通信单元；将所述通信单元接收到的所述反馈内容传输给所述音频单元；

其中，所述第一语音服务器发送的反馈内容是所述第二语音服务器根据所述第一语音服务器发送的所述用户语音对应的文本信息确定的，所述文本信息是所述第一语音服务器在确定所述用户语音对应的场景为所述第二语音服务器支持的场景后发送的。

上述终端，在终端采集到用户语音后，将用户语音发送给第一语音服务器，第一语音服务器会确定用户语音对应的场景为第二语音服务器支持的场景时，将文本信息发送给第二语音服务器，采用第二服务器给出用户语音对应的反馈内容，并发送给第一语音服务器，并反馈给终端第二语音服务器发送的反馈内容，这样本发明将终端播放的内容为第一语音服务器通过第二语音服务器反馈的内容，使得第二语音服务器作为第一语音服务器的补充，从而可以提高语音服务平台的语音处理能力。

第二方面，本发明实施例提供的一种第一语音服务器，包括处理器、第一通信单元和第二通信单元；

所述第一通信单元，用于接收终端发送的用户语音，并将所述处理器传输的第二语音服务器发送的反馈内容发送给终端；

所述第二通信单元，用于将所述处理器传输的文本信息发送给所述第二语音服务器，并接收所述第二语音服务器发送的反馈内容；

所述处理器，用于确定所述第一通信单元接收到的用户语音对应的文本信息；

若所述用户语音对应的场景为第二语音服务器支持的场景，则将所述文本信息传输给所述第二通信单元；

将所述第二通信单元接收到的所述第二语音服务器发送的反馈内容传输给所述第一通信单元。

上述第一语音服务器，在终端发送给第一语音服务器用户语音后，第一语音服务器根据用户语音确定文本信息，并在用户语音对应的场景为第二语音服务器支持的场景时，将文本信息发送给第二语音服务器，以使第二服务器给出用户语音对应的反馈内容，并发送给第一语音服务器，然后将接收到的第二语音服务器发送的反馈内容发送给终端，这样本发明将第一语音服务器应用识别的语音通过第二语音服务器反馈内容，使得第二语音服务器作为第一语音服务器的补充，从而可以提高语音服务平台的语音处理能力。

在一种可能的实现方式中，所述第一通信单元，还用于将所述处理器传输的绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端；

所述处理器具体用于：若所述第二语音服务器发送的反馈内容绑定有所述第二语音服务器的反馈对象标签，则将所述第一语音服务器的反馈内容与所述第一语音服务器的反馈对象标签绑定，并将绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起传输给所述第一通信单元；或

若所述第二语音服务器发送的反馈内容没有绑定所述第二语音服务器的反馈对象标签，则将所述第一语音服务器的反馈内容与所述第一语音服务器的反馈对象标签绑定，以及将所述第二语音服务器的反馈内容与所述第二语音服务器的反馈对象标签绑定，并将绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起传输给所述第一通信单元。

上述第一语音服务器，当第一语音服务器的反馈内容和第二语音服务器的反馈内容一起发送给终端时，终端为了区分第一语音服务器对用户语音反馈的内容和第二语音服务器对用户语音反馈的内容，可以在第二语音服务器发送的反馈内容绑定有第二语音服务器的反馈对象标签，第一语音服务器将其反馈的内容与第一语音服务器的反馈对象标签绑定，然后将带有对应的反馈对象标签的对应的反馈的内容一起发送终端。若在第二语音服务器发送的反馈内容没有绑定有第二语音服务器的反馈对象标签，则第一语音服务器将其反馈的内容与第一语音服务器的反馈对象标签绑定，同时第一语音服务器可以将第二语音服务器的反馈内容与第二语音服务器的反馈对象标签绑定，然后一起反馈给终端，这样终端可以区分两份内容的发送方。

在一种可能的实现方式中，所述处理器用于：

将所述用户语音对应的文本信息输入到场景识别网络模型中，得到用户语音对应的场景；

若所述用户语音对应的场景为第一语音服务器不支持的场景，则确定所述用户语音对应的场景为第二语音服务器支持的场景；或

若所述用户语音对应的场景在预设的特殊场景中，则确定所述用户语音对应的场景为第二语音服务器支持的场景。

上述第一语音服务器，第一语音服务器通过用户语音对应的文本信息输入到场景识别网络模型中，得到用户语音对应的场景，并在用户语音对应的场景为第一语音服务器不支持的场景，即第二语音服务器可以对第一语音服务器不支持的场景进行补充，或者用户语音对应的场景在预设的特殊场景中，即第二语音服务器可以特殊的场景进行特定内容的反馈，不仅能够补充语音服务平台支持的场景，还可以通过第二语音服务器对语音服务平台中预设的特殊场景反馈的内容优化。

第三方面，本发明实施例提供的一种第二语音服务器，包括处理器和通信单元；

所述通信单元，用于接收第一语音服务器发送的文本信息，并将所述处理器传输的所述反馈内容发送给所述第一语音服务器；

所述处理器，用于根据所述文本信息，确定与所述文本信息对应的反馈内容，并将所述反馈内容传输给所述通信单元；

其中，所述文本信息为第一语音服务器根据终端发送的用户语音确定的，并在所述用户语音对应的场景为所述第二语音服务器支持的场景后发送的。

上述第二语音服务器，能够接收到文本信息后，给出用户语音对应的反馈内容，并发送给第一语音服务器，并反馈给终端第二语音服务器发送的反馈内容，这样第二语音服务器对于用户语音的反馈代替了第一语音服务器针对用户语音的反馈，使得第二语音服务器作为第一语音服务器的补充，从而可以提高语音服务平台的语音处理能力。

第四方面，本发明实施例提供的一种语音识别方法，所述方法应用于终端，所述方法包括：

将获取到的用户语音发送给第一语音服务器；

接收所述第一语音服务器发送的反馈内容；

通过扬声器播放所述反馈内容；

第五方面，本发明实施例提供的一种语音识别方法，所述方法应用于第一语音服务器，所述方法包括：

确定接收到的终端发送的用户语音对应的文本信息；

若所述用户语音对应的场景为第二语音服务器支持的场景，则将所述文本信息发送给所述第二语音服务器；

将接收到的所述第二语音服务器发送的反馈内容发送给所述终端。

在一种可能的实现方式中，所述方法还包括：

若所述第二语音服务器发送的反馈内容绑定有所述第二语音服务器的反馈对象标签，则将所述第一语音服务器的反馈内容与所述第一语音服务器的反馈对象标签绑定，并控制所述第一通信单元向所述终端一起发送绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容；或

若所述第二语音服务器发送的反馈内容没有绑定所述第二语音服务器的反馈对象标签，则将所述第一语音服务器的反馈内容与所述第一语音服务器的反馈对象标签绑定，以及将所述第二语音服务器的反馈内容与所述第二语音服务器的反馈对象标签绑定，并控制所述第一通信单元向所述终端一起发送绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容。

在一种可能的实现方式中，通过以下方式判断所述用户语音对应的场景是否为第二语音服务器支持的场景：

第六方面，本发明实施例提供的语音识别方法，所述方法应用于第二语音服务器，所述方法包括：

接收第一语音服务器发送的文本信息，所述文本信息为第一语音服务器根据终端发送的用户语音确定的，并在所述用户语音对应的场景为所述第二语音服务器支持的场景后发送的；

根据所述文本信息，确定与所述文本信息对应的反馈内容，并将所述反馈内容发送给所述第一语音服务器。

第七方面，本申请还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理单元执行时实现第四方面所述方法的步骤或实现第五方面所述方法的步骤或实现第六方面所述方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理，并不构成对本发明的不当限定。

图1为本发明实施例提供的语音识别系统的示意图；

图2为本发明实施例提供的一种语音识别方法的信息流动示意图；

图3为本发明实施例提供的一种终端的用户界面图的示意图；

图4为本发明实施例提供的另一种语音识别方法的信息流动示意图；

图5为本发明实施例提供的一种语音识别方法的流程图；

图6为本发明实施例提供的一种第一语音服务器的结构框图；

图7为本发明实施例提供的另一种语音识别方法的流程图；

图8为本发明实施例提供的一种终端的结构示意图；

图9为本发明实施例提供的再一种语音识别方法的流程图；

图10为本发明实施例提供的一种第二语音服务器的结构示意图；

图11为本发明实施例提供的另一种终端的结构框图；

图12为本发明实施例提供的一种终端的软件架构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

目前，所有场景并不在同一个语音服务器中支持，所以，在用户语音对应的场景并不是语音应用对应的服务器支持的场景时，则语音应用对应的服务器给出的反馈内容比较差。

其中，本发明实施例又提出了一种包括上述终端的语音识别系统，如图1所示，该语音识别系统包括终端100、第一语音服务器101和第二语音服务器102，其中，终端100通过网络可以与第一语音服务器101通信，第一语音服务器101还可以通过网络与第二语音服务器102通信。

终端100，用于将获取到的用户语音发送给第一语音服务器，接收第一语音服务器发送的反馈内容，通过扬声器播放反馈内容。

第一语音服务器101，用于确定接收到的终端发送的用户语音对应的文本信息，若用户语音对应的场景为第二语音服务器支持的场景，则将文本信息发送给第二语音服务器，将接收到的第二语音服务器发送的反馈内容发送给终端。

第二语音服务器102，用于接收第一语音服务器发送的文本信息，根据文本信息，确定与文本信息对应的反馈内容，并将反馈内容发送给第一语音服务器。

综上所述，结合图2所示，通过终端上的音频单元获取用户语音，终端获取到用户语音后发送给第一语音服务器，第一语音服务器判断出用户语音对应的场景为第二语音服务器支持的场景，第一语音服务器将确定的用户语音对应的文本信息发送给第二语音服务器，第二语音服务器根据文本信息，确定与文本信息对应的反馈内容，并发送给第一语音服务器，第一语音服务器将接收到的第二语音服务器发送的反馈内容发送给终端，终端接收第一语音服务器发送的第二语音服务器针对用户语音的反馈内容，最后终端通过扬声器播报第二语音服务器的反馈内容。这样第二语音服务器作为第一语言服务器补充，代替第一语音服务器反馈给终端针对用户语音的内容，提高了语音识别的能力。

其中，用户语音对应的场景是指用户语音对应的用户意图，例如，用户语音为“来个北京北京”，“来个北京北京”的意图为音乐，然后可以在音乐的环境下找到“北京北京”这首歌作为反馈内容。第一语音服务器支持的场景例如：音乐、电话、短信、百科、闲聊问答、天气、应用控制、生活服务。预设的特殊场景可以为闲聊等等。

例如：对于如图1所示介绍的语音识别系统，系统中的终端的用户界面如图3所示，当用户点击终端中的语音应用图标时，终端启动语音应用，在该语音应用下用户输入用户语音，即用户提问“A手机怎么样”，然后终端发送给第一语音服务器，如果第一语音服务器判断出该“A手机怎么样”对应的场景为闲聊，由上可知，闲聊为预设的特殊场景，确定为第二语音服务器支持的场景，将“A手机怎么样”发送给第二语音服务器，则第二语音服务器根据“A手机怎么样”确定反馈内容为“A手机成立于1990年，技术实力雄厚，非常好用，推荐使用”并将反馈内容发送给第一语音服务器，第一语音服务器将“A手机成立于1990年，技术实力雄厚，非常好用，推荐使用”反馈给终端，播放“A手机成立于1990年，技术实力雄厚，非常好用，推荐使用”，或显示文本信息在用户界面中。这样第二语音服务器可以作为第一语音服务器支持的特殊场景进行反馈内容补充，从而可以更加提高语音服务的语音处理能力。

在本发明实施例中，第二语音服务器支持的场景可以理解为第一语音服务器不支持的场景，也可以理解为预设的特殊场景。

本发明实施例中，第一语音服务器通过场景识别网络模型识别用户语音对应的场景，其中，该场景识别网络模型具体的训练过程为：获取训练集，训练集包括用户语音对应的文本信息，以及标定的文本信息对应的场景，将训练集中的文本信息输入到场景识别网络模型中，输出场景，调整场景识别网络模型，直到该输出的场景与标定的场景接近时，训练完成。

如果场景识别网络模型不会输出值，或者场景识别网络模型反馈错误，则该场景为第一语音服务器不支持的场景，为第二语音服务器支持的场景。或者，如果场景识别网络模型输出对应的场景，但是对应的场景并不是第一语音服务器支持的场景，则确认该场景为第二语音服务器支持的场景。或者，如果该场景识别网络模型输出的场景是预设的特殊场景时，为第二语音服务器支持的场景。当用户语音确定的文本信息对应的场景是第一语音服务器支持的场景，但是预设的特殊场景，则可以确定该场景为第二语音服务器支持的场景。

其中，第一语音服务器判断用户语音对应的场景为第一语音服务器不支持的场景的方法可以为：

第一语音服务器支持的场景可以进行预先存储，再进行判断时，可以将查看用户语音对应的场景是否为预先存储的第一语音服务器支持的场景，如果是，则说明用户语音对应的场景为第一语音服务器支持的场景，如果不是，则确定用户语音对应的场景为第二语音服务器支持的场景。

例如，第一语音服务器支持的场景可以为音乐、电话、短信、百科、闲聊问答、天气、应用控制、生活服务。而当场景识别网络模型根据用户语音输出的场景为体育时，则该用户语音对应的场景不是第一语音服务器支持的场景。则确定用户语音对应的场景为第二语音服务器支持的场景。

又如，当场景识别网络模型根据用户语音输出的场景为闲聊时，即该场景在预设的特殊场景，即使该场景为第一语音服务器支持的场景，但由于该场景为预设的特殊场景，则还是确定“闲聊”为第二语音服务器支持的场景。

通过上述方式，可以在判断出用户语音对应的场景为第一语音服务器不支持的场景，或者用户语音对应的场景在预设的特殊场景中，则确定用户语音对应的场景为第二语音服务器支持的场景，这样第二语音服务器可以作为第一语音服务器支持的场景的补充，从而可以更加提高了语音服务平台的语音处理能力。

在本发明实施例中，在第二语音服务器中，当用户语音对应的场景为预设的特殊场景时，当接收到第一语音服务器发送的文本信息后，则根据文本信息进行模糊匹配，匹配出问题后，查询预设的与问题相应的答案，并将找出与问题对应的答案作为第二反馈内容。其中，第二语音服务器中可以存储一个或者多个特殊场景对应的问题和与问题匹配的答案。

在本发明实施例中，在第二语音服务器中，存储有第一语音服务器不支持的场景，例如，体育，当接收到第一语音服务器发送的文本信息后，则第二语音服务器可以根据用户语音对应的文本信息在第一语音服务器不支持的场景中进行匹配，得到最优答案。

例如，终端接收到用户提问“乔丹比赛”发送给第一语音服务器，如果第一语音服务器判断出该“乔丹比赛”对应的场景为体育，由上可知，体育为第一语音服务器不支持的场景，确定为第二语音服务器支持的场景，将“乔丹比赛”发送给第二语音服务器，则第二语音服务器根据“乔丹比赛”确定“乔丹比赛”作为关键词，在体育的场景下，搜索“乔丹比赛”，将搜索结果发送给第一语音服务器，第一语音服务器将搜索结果反馈给终端，终端播放搜索结果。这样第二语音服务器可以作为第一语音服务器不支持的场景进行补充，从而可以更加提高语音服务的语音处理能力。

如图1所示的语音识别系统，该系统中的第一语音服务器还用于将第二语音服务器的反馈内容以及第一语音服务器根据文本信息确定的反馈内容一起发送给终端。

其中，第一语音服务器根据文本信息确定反馈内容的方式为：在接收到用户语音后，第一语音服务器根据用户语音转换文本信息，从文本信息中提取关键信息，然后从第一语音服务器支持的场景中，从场景中确定与关键信息对应的反馈内容，然后将反馈内容与关键信息进行匹配，匹配度最高的反馈内容作为第一语音服务器的反馈内容，第一语音服务器支持的场景例如：音乐、电话、短信、百科、闲聊问答、天气、应用控制、生活服务。当接受到第二语音服务器发送的反馈内容，将第二语音服务器发送的反馈内容和第一语音服务器的反馈内容发送给终端。其中，如果第一语音服务器不支持的场景的反馈内容可以为空。

综上所述，结合图4所示，通过终端上的音频单元获取用户语音，终端获取到用户语音后发送第一语音服务器，第一语音服务器根据用户语音，确定反馈内容，同时，第一语音服务器根据用户语音对应的场景判断该场景是否为第二语音服务器支持的场景，如果是，形如图4的实线表示信息的流动方向，第一语音服务器将用户语音对应的文本信息发给第二语音服务器，第二语音服务器根据文本信息确定反馈内容发送给第一语音服务器，第一语音服务器将第一语音服务器确定的反馈内容和第二语音服务器发送的反馈内容一起发送给终端，终端识别出第一语音服务器发送的内容中包括第二语音服务器发送的反馈内容，则终端通过扬声器播放第二语音服务器发送的第二反馈内容，如果第一语音服务器根据用户语音对应的场景判断出该场景不是第二语音服务器支持的场景，形如图4的虚线表示信息的流动方向，则第一语音服务器将第一语音服务器确定的反馈内容发送给终端，终端通过扬声器播放第一语音服务器确定的反馈内容，本发明可以在第一语音服务器反馈内容和第二语音服务器的反馈内容均在终端中，终端通过扬声器优选播放第二语音服务器的反馈内容，这样采用第二语音服务器对第一语音服务器的语音识别进行补充，从而提高了语音识别的能力。

例如，用户提问“A手机怎么样”发送给第一语音服务器，如果第一语音服务器判断出该“A手机怎么样”对应的场景为闲聊，由上可知，闲聊为预设的特殊场景，确定为第二语音服务器支持的场景，将“A手机怎么样”发送给第二语音服务器，同时该闲聊的场景也是第一语音服务器支持的，第一语音服务器针对“A手机怎么样”确定的反馈内容为“挺好的”，则第二语音服务器根据“A手机怎么样”确定反馈内容为“A手机成立于1990年，技术实力雄厚，非常好用，推荐使用”并将反馈内容发送给第一语音服务器，第一语音服务器将“A手机成立于1990年，技术实力雄厚，非常好用，推荐使用”和“挺好的”反馈给终端，终端通过扬声器播放“A手机成立于1990年，技术实力雄厚，非常好用，推荐使用”。由上可知，第二语音服务器提供了一个更加丰富的答案，即第二语音服务器可以作为第一语音服务器支持的特殊场景进行反馈内容补充，从而可以优化语音服务的语音处理能力。

在图4介绍的情况下，由于第一语音服务器和第二语音服务器均会生成反馈内容，为了使终端能够识别出第一语音服务器发送的反馈内容中是否有第二语音服务器针对用户语音确定的反馈内容，本发明图1所示的语音识别系统中，则可以通过在两个语音服务器生成的反馈内容添加对应的反馈对象标签，发送终端，终端通过识别反馈对象标签确定是哪个语音服务器发出的。具体可以包括以下两种情况：

情况一：第二语音服务器还用于将反馈内容以及与第二语音服务器绑定的反馈对象标签一起发送给第一语音服务器。

第一语音服务器还用于若第二语音服务器发送的反馈内容绑定有第二语音服务器的反馈对象标签，则将第一语音服务器的反馈内容与第一语音服务器的反馈对象标签绑定，并将绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端。

终端，还用于识别反馈内容中的反馈对象标签；若识别出的反馈对象标签中有第二语音服务器的反馈对象标签和第一语音服务器的反馈对象标签，则通过扬声器播报绑定第二语音服务器的反馈对象标签的反馈内容。

具体来说，当第一语音服务器发送给第二语音服务器文本信息后，第二语音服务器会根据该文本信息确定反馈内容，将反馈内容与第二语音服务器对应的反馈对象标签进行绑定并发送给第一语音服务器。第一语音服务器接收第二语音服务器发送的反馈内容以及对应的反馈对象标签，同时，第一语音服务器将自己生成的反馈内容与第一语音服务器的反馈对象标签继续绑定，将绑定有各自语音服务器对应的反馈对象标签的反馈内容一起发送给终端，这样终端可以识别通过反馈对象标签中包括与第二语音服务器对应的反馈对象标签，则通过音频单元播放绑定有第二语音服务器的反馈对象标签的反馈内容。

情况二：第一语音服务器确定出第二语音服务器发送的反馈内容没有绑定第二语音服务器的反馈对象标签，则将第一语音服务器的反馈内容与第一语音服务器的反馈对象标签绑定，以及将第二语音服务器的反馈内容与第二语音服务器的反馈对象标签绑定，并将绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端。

具体来说，当第一语音服务器发送给第二语音服务器文本信息后，第二语音服务器会根据该文本信息确定反馈内容，将反馈内容发送给第一语音服务器，第一语音服务器接收第二语音服务器发送的反馈内容，并将第二语音服务器发送的反馈内容与第二语音服务器对应的反馈对象标签进行绑定，同时，第一语音服务器将自己生成的反馈内容与第一语音服务器的反馈对象标签继续绑定，将绑定有各自语音服务器对应的反馈对象标签的反馈内容一起发送给终端，同样的，终端可以识别通过反馈对象标签中包括与第二语音服务器对应的反馈对象标签，则通过扬声器播放绑定有第二语音服务器的反馈对象标签的反馈内容。

下面结合说明书附图对每一个设备对应执行的方法和设备对应的结构做进一步详细描述。

本发明实施例提供了一种语音识别方法，该方法应用与上述介绍的第一语音服务器，结合图5所示，该方法具体包括以下步骤：

S501：确定接收到的终端发送的用户语音对应的文本信息；

S502：若用户语音对应的场景为第二语音服务器支持的场景，则将文本信息发送给第二语音服务器；

S503：将接收到的第二语音服务器发送的反馈内容发送给终端。

可选的，方法还包括：

将第二语音服务器的反馈内容以及第一语音服务器根据文本信息确定的反馈内容一起发送给终端。

可选的，将第二语音服务器的反馈内容以及第一语音服务器根据文本信息确定的反馈内容一起发送给终端，包括：

若第二语音服务器发送的反馈内容绑定有第二语音服务器的反馈对象标签，则将第一语音服务器的反馈内容与第一语音服务器的反馈对象标签绑定，并将绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端；或

若第二语音服务器发送的反馈内容没有绑定第二语音服务器的反馈对象标签，则将第一语音服务器的反馈内容与第一语音服务器的反馈对象标签绑定，以及将第二语音服务器的反馈内容与第二语音服务器的反馈对象标签绑定，并将绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端。

可选的，通过以下方式判断用户语音对应的场景是否为第二语音服务器支持的场景：

将用户语音对应的文本信息输入到场景识别网络模型中，得到用户语音对应的场景；

若用户语音对应的场景为第一语音服务器不支持的场景，则确定用户语音对应的场景为第二语音服务器支持的场景；或

若用户语音对应的场景在预设的特殊场景中，则确定用户语音对应的场景为第二语音服务器支持的场景。

结合图6所示，示出了该语音识别方法对应的第一语音服务器的结构图，包括处理器610、第一通信单元620和第二通信单元630；

所述第一通信单元620，用于接收终端发送的用户语音，并将所述处理器传输的第二语音服务器发送的反馈内容发送给终端；

所述第二通信单元630，用于将所述处理器传输的文本信息发送给所述第二语音服务器，并接收所述第二语音服务器发送的反馈内容；

所述处理器610用于确定所述第一通信单元接收到的用户语音对应的文本信息；

可选的，所述处理器610用于：将所述第二语音服务器的反馈内容以及所述第一语音服务器根据文本信息确定的反馈内容一起发送给所述终端。

可选的，所述第一通信单元，还用于将所述处理器传输的绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端；

可选的，所述处理器610用于：

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由第一语音服务器600的处理器610执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明实施例提供了一种语音识别方法，该方法应用与上述介绍的终端，结合图7所示，该方法具体包括以下步骤：

S701：将获取到的用户语音发送给第一语音服务器；

S702：接收第一语音服务器发送的反馈内容；

S703：通过扬声器播放反馈内容。

其中，第一语音服务器发送的反馈内容是第二语音服务器根据第一语音服务器发送的用户语音对应的文本信息确定的，文本信息是第一语音服务器在确定用户语音对应的场景为第二语音服务器支持的场景后发送的。

可选的，通过扬声器播放第二语音服务器的反馈内容，包括：

识别反馈内容中的反馈对象标签；

若识别出的反馈对象标签中有第二语音服务器的反馈对象标签和第一语音服务器的反馈对象标签，则通过音频单元播报绑定第二语音服务器的反馈对象标签的反馈内容。

本发明实施例还提供了一种终端，结合图8所示，包括：处理器810、通信单元820和音频单元830；

所述音频单元830，用于采集用户语音和播放所述处理器传输的反馈内容；

所述通信单元820，用于将所述处理器传输的用户语音发送给第一语音服务器，并接收所述第一语音服务器发送的反馈内容；

所述处理器810，用于将所述音频单元采集的用户语音传输给所述通信单元；

将所述通信单元接收到的所述反馈内容传输给所述音频单元；

可选的，所述处理器810具体用于：

识别所述反馈内容中的反馈对象标签；

若识别出的所述反馈对象标签中有所述第二语音服务器的反馈对象标签和所述第一语音服务器的反馈对象标签，则通过音频单元播报绑定所述第二语音服务器的反馈对象标签的反馈内容。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由终端800的处理器810执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明实施例提供了一种语音识别方法，该方法应用与上述介绍的第二语音服务器，结合图9所示，所述方法包括：

S901：接收第一语音服务器发送的文本信息。

S902：根据文本信息，确定与文本信息对应的反馈内容，并将所述反馈内容发送给所述第一语音服务器。

可选的，将所述反馈内容发送给所述第一语音服务器，包括：

将反馈内容以及与第二语音服务器绑定的反馈对象标签一起发送给第一语音服务器。

本发明实施例还提供了一种第二语音服务器，结合图10所示，第二语音服务器1000包括处理器1010和通信单元1020。

所述通信单元1020，用于接收第一语音服务器发送的文本信息，并将所述处理器传输的所述反馈内容发送给所述第一语音服务器；

所述处理器1010，用于根据所述文本信息，确定与所述文本信息对应的反馈内容，并将所述反馈内容传输给所述通信单元；

可选的，所述处理器1010具体用于：

将所述反馈内容以及与所述第二语音服务器绑定的反馈对象标签一起发送给所述终端。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由第二语音服务器1000的处理器1010执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开实施例中，终端除了包括上述的元件外，如图11所示，应该理解的是，图11所示终端1100仅是一个范例，并且终端1100可以具有比图11中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

终端1100包括：射频(radio frequency，RF)电路1110、存储器1120、显示单元1130、摄像头1140、传感器1150、音频电路1160、无线保真(Wireless Fidelity，Wi-Fi)模块1170、处理器1180、蓝牙模块1181、以及电源1190等部件。

RF电路1110可用于在收发信息或通话过程中信号的接收和发送，可以接收基站的下行数据后交给处理器1170处理；可以将上行数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。

存储器1120可用于存储软件程序及数据。处理器1170通过运行存储在存储器1120的软件程序或数据，从而执行终端1100的各种功能以及数据处理。存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1120存储有使得终端1100能运行的操作系统。本申请中存储器1120可以存储操作系统及各种应用程序，还可以存储执行本申请实施例所述方法的代码。其中，如图8所示的音频单元中的麦克风转换的音频数据，可以输出至存储器1120以便进一步处理。

显示单元1130可用于接收输入的数字或字符信息，产生与终端1100的用户设置以及功能控制有关的信号输入，具体地，显示单元1130可以包括设置在终端1100正面的触摸屏1131，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

显示单元1130还可用于显示由用户输入的信息或提供给用户的信息以及终端1100的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元1130可以包括设置在终端1100正面的显示屏1132。其中，显示屏1132可以采用液晶显示器、发光二极管等形式来配置。显示单元1130可以用于显示本申请中所述的各种图形用户界面。

其中，触摸屏1131可以覆盖在显示屏1132之上，也可以将触摸屏1131与显示屏1132集成而实现终端1100的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1130可以显示应用程序以及对应的操作步骤。

摄像头1140可用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1180转换成数字图像信号。

终端1100还可以包括至少一种传感器1150，比如加速度传感器1151、距离传感器1152、指纹传感器1153、温度传感器1154。终端1100还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1160、扬声器1161、麦克风1162可提供用户与终端1100之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出。终端1100还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出至RF电路1110以发送给比如另一终端，或者将音频数据输出至存储器1120以便进一步处理。本申请中麦克风1162可以获取用户的语音。

Wi-Fi属于短距离无线传输技术，终端1100可以通过Wi-Fi模块1170帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。

处理器1180是终端1100的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1120内的软件程序，以及调用存储在存储器1120内的数据，执行终端1100的各种功能和处理数据。在一些实施例中，处理器1180可包括一个或多个处理单元；处理器1180还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1180中。本申请中处理器1180可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例所述的处理方法。另外，处理器1180与显示单元1130耦接。

蓝牙模块1181，用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端1100可以通过蓝牙模块1181与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

终端1100还包括给各个部件供电的电源1190(比如电池)。电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电以及功耗等功能。终端1100还可配置有电源按钮，用于终端的开机和关机，以及锁屏等功能。

图12是本发明实施例的终端1100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图12所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图12所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端1100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，通信终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明终端1100软件以及硬件的工作流程。

当触摸屏1131接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头1140捕获静态图像或视频。

本申请实施例中的终端1100可以为手机、平板电脑、可穿戴设备、笔记本电脑以及电视等。

由于本发明实施例中的通信终端和计算机存储介质可以应用于上述处理方法，因此，其所能获得的技术效果也可参考上述方法实施例，本发明的实施例在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种终端，其特征在于，包括：处理器、通信单元和音频单元；

2.一种第一语音服务器，其特征在于，包括处理器、第一通信单元和第二通信单元；

3.根据权利要求2所述的第一语音服务器，其特征在于，

所述第一通信单元，还用于将所述处理器传输的绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端；

4.根据权利要求2所述的第一语音服务器，其特征在于，所述处理器用于：

5.一种第二语音服务器，其特征在于，包括处理器和通信单元；

6.一种语音识别方法，其特征在于，所述方法应用于终端，所述方法包括：

将获取到的用户语音发送给第一语音服务器；

接收所述第一语音服务器发送的反馈内容；

通过扬声器播放所述反馈内容；

7.一种语音识别方法，其特征在于，所述方法应用于第一语音服务器，所述方法包括：

确定接收到的终端发送的用户语音对应的文本信息；

8.根据权利要求7所述的语音识别方法，其特征在于，所述方法还包括：

若所述第二语音服务器发送的反馈内容绑定有所述第二语音服务器的反馈对象标签，则将所述第一语音服务器的反馈内容与所述第一语音服务器的反馈对象标签绑定，并将绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端；或

若所述第二语音服务器发送的反馈内容没有绑定所述第二语音服务器的反馈对象标签，则将所述第一语音服务器的反馈内容与所述第一语音服务器的反馈对象标签绑定，以及将所述第二语音服务器的反馈内容与所述第二语音服务器的反馈对象标签绑定，并将绑定后的所述第一语音服务器的反馈内容以及所述第二语音服务器的反馈内容一起发送给所述终端。

9.根据权利要求7所述的语音识别方法，其特征在于，通过以下方式判断所述用户语音对应的场景是否为第二语音服务器支持的场景：

10.一种语音识别方法，其特征在于，所述方法应用于第二语音服务器，所述方法包括：