CN113823282A

CN113823282A - 语音处理方法、系统和装置

Info

Publication number: CN113823282A
Application number: CN202111108547.XA
Authority: CN
Inventors: 陈建哲; 欧阳能钧; 袁鼎
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-12-21
Also published as: CN110223694A; CN110223694B

Abstract

本申请实施例公开了语音处理方法、系统和装置。该方法的一具体实施方式包括：接收终端设备发送的用户语音，对所述用户语音进行语音识别，得到语音识别结果；向语义服务器发送所述语音识别结果，接收所述语义服务器返回的、针对所述语音识别结果的回复文本；向语音合成服务器发送所述回复文本，将所接收的所述语音合成服务器发送的回复语音向所述终端设备转发。本申请实施例省略了终端设备对服务器返回的结果进行分析处理以及生成请求，有效地节省了处理时间，进而可以缩短终端设备与用户进行交互时，终端设备的反应时间。

Description

语音处理方法、系统和装置

相关申请的交叉引用

本申请为申请日为2019年06月26日，申请号为201910563423.7，发明名称为“语音处理方法、系统和装置”的中国专利申请的分案申请。

技术领域

本申请实施例涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及语音处理方法、系统和装置。

背景技术

相关技术中，用户与终端设备进行语音交互的过程中，往往需要终端设备与服务器进行多次交互。一般来说，终端设备需要依次向语音识别服务器、语义识别服务器以及语音合成服务器发送处理请求，以和这些服务器进行交互。

而在终端设备向服务器发送处理请求之前，需要进行分析处理，从而拖慢了与用户进行语音交互时的反应速度。并且，终端设备多次与服务器的通信过程，也需要消耗大量的时间。

发明内容

本申请实施例提出了语音处理方法、系统和装置。

第一方面，本申请实施例提供了一种语音处理方法，用于语音识别服务器，该方法包括：接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果；向语义服务器发送语音识别结果，接收语义服务器返回的、针对语音识别结果的回复文本；向语音合成服务器发送回复文本，将所接收的语音合成服务器发送的回复语音向终端设备转发。

在一些实施例中，语音识别服务器与语义服务器、语音合成服务器设置于同一个局域网内。

在一些实施例中，方法还包括：响应于得到语音识别结果，向终端设备发送语音识别结果；以及方法还包括：响应于接收到回复文本，向终端设备发送回复文本。

在一些实施例中，在向语义服务器发送语音识别结果之前，方法还包括：判断语音识别结果是否有效且与上一个语音的识别结果相关，生成第一判断结果，其中，上一个语音与用户语音在同一个唤醒交互过程中；以及向语义服务器发送语音识别结果，包括：向语义服务器发送语音识别结果，以使语义服务器判断语音识别结果是否符合预设会话语义类型并生成第二判断结果；以及在向终端设备发送语音识别结果之前，方法还包括：接收语义服务器反馈的第二判断结果，基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音。

在一些实施例中，向终端设备发送语音识别结果，包括：响应于确定用户语音为有意义语音，向终端设备发送语音识别结果。

在一些实施例中，基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音，包括：响应于确定第一判断结果和第二判断结果中的至少一个为是，确定用户语音为有意义语音。

在一些实施例中，第一判断结果和第二判断结果以数值的形式表示，第一判断结果的数值用于表征语音识别结果有效且与上一个语音的识别结果相关的概率，第二判断结果的数值用于表征语音识别结果符合预设会话语义类型的概率；以及基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音，包括：确定第一判断结果的数值与第二判断结果的数值的和；响应于确定和大于或等于预设阈值，确定用户语音为有意义语音。

在一些实施例中，第二判断结果的数值为语义服务器利用多个预设会话语义类型模型确定出的多个候选数值中最大的数值。

第二方面，本申请实施例提供了一种语音处理装置，用于语音识别服务器，该装置包括：语音识别单元，被配置成接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果；文本生成单元，被配置成向语义服务器发送语音识别结果，接收语义服务器返回的、针对语音识别结果的至少一个回复文本；反馈单元，被配置成向语音合成服务器发送至少一个回复文本中的回复文本，将所接收的语音合成服务器发送的回复语音向终端设备转发，其中，回复语音是基于语音合成服务器发送的回复文本生成的。

在一些实施例中，装置还包括：第一发送单元，被配置成响应于得到语音识别结果，向终端设备发送语音识别结果；以及方法还包括：第二发送单元，被配置成响应于接收到回复文本，向终端设备发送回复文本。

在一些实施例中，装置还包括：判断单元，被配置成在向语义服务器发送语音识别结果之前，判断语音识别结果是否有效且与上一个语音的识别结果相关，生成第一判断结果，其中，上一个语音与用户语音在同一个唤醒交互过程中；以及文本生成单元，包括：第一发送模块，被配置成向语义服务器发送语音识别结果，以使语义服务器判断语音识别结果是否符合预设会话语义类型并生成第二判断结果；以及装置还包括：接收单元，被配置成在向终端设备发送语音识别结果之前，接收语义服务器反馈的第二判断结果，基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音。

在一些实施例中，第一发送单元，包括：第二发送模块响应于确定用户语音为有意义语音，向终端设备发送语音识别结果。

在一些实施例中，接收单元包括：确定模块，被配置成响应于确定第一判断结果和第二判断结果中的至少一个为是，确定用户语音为有意义语音。

第三方面，本申请实施例提供了一种语音处理系统，包括语音识别服务器、语义服务器和语音合成服务器；语音识别服务器，用于接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果，将语音识别结果发送给语义服务器，以及将语义服务器返回的回复文本发送给语音合成服务器，接收语音合成服务器发送的回复文本的回复语音，将回复语音发送给终端设备。

在一些实施例中，语音识别服务器，还用于响应于得到语音识别结果，向终端设备发送语音识别结果；以及语音识别服务器，还用于响应于接收到回复文本，向终端设备发送回复文本。

在一些实施例中，语义服务器，还用于接收文本生成请求，其中，文本生成请求是终端设备响应于在第一预设时间段内，未接收到回复文本和回复语音，向语义服务器发送的，文本生成请求包括语音识别结果，第一预设时间段以终端设备接收到语音识别结果作为计时起点。

在一些实施例中，语音合成服务器，还用于接收语音合成请求，其中，语音合成请求是终端设备响应于在第二预设时间段内，接收到回复文本且未接收到回复语音，向语音合成服务器发送的，语音合成请求包括回复文本，第二预设时间段以终端设备接收到语音识别结果或以接收到回复文本作为计时起点。

在一些实施例中，语音识别服务器，在向语义服务器发送语音识别结果之前，还用于判断语音识别结果是否有效且与上一个语音的识别结果相关，生成第一判断结果，其中，上一个语音与用户语音在同一个唤醒交互过程中；语音识别服务器，还用于向语义服务器发送语音识别结果；语义服务器，还用于判断语音识别结果是否符合预设会话语义类型并生成第二判断结果；以及语音识别服务器，在向终端设备发送语音识别结果之前，还用于接收语义服务器反馈的第二判断结果，基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音。

在一些实施例中，语音识别服务器，还用于响应于确定用户语音为有意义语音，向终端设备发送语音识别结果。

在一些实施例中，语音识别服务器，还用于响应于确定第一判断结果和第二判断结果中的至少一个为是，确定用户语音为有意义语音。

在一些实施例中，第一判断结果和第二判断结果以数值的形式表示，第一判断结果的数值用于表征语音识别结果有效且与上一个语音的识别结果相关的概率，第二判断结果的数值用于表征语音识别结果符合预设会话语义类型的概率；以及语音识别服务器，还用于确定第一判断结果的数值与第二判断结果的数值的和；响应于确定和大于或等于预设阈值，确定用户语音为有意义语音。

在一些实施例中，语义服务器，还用于利用多个预设会话语义类型模型确定出多个候选数值；将多个候选数值中最大的数值确定为第二判断结果的数值。

第四方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如语音处理方法中任一实施例的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如语音处理方法中任一实施例的方法。

本申请实施例提供的语音处理方案，首先，接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果。之后，向语义服务器发送语音识别结果，接收语义服务器返回的、针对语音识别结果的回复文本。最后，向语音合成服务器发送回复文本，将所接收的语音合成服务器发送的回复语音向终端设备转发。本申请实施例省略了终端设备对服务器返回的结果进行分析处理以及生成请求，有效地节省了处理时间，进而可以缩短终端设备与用户进行交互时，终端设备的反应时间。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的语音处理方法的一个实施例的流程图；

图3是根据本申请的语音处理系统的一个实施例的结构示意图；

图4是根据本申请的语音处理装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的语音处理方法或语音处理装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103、104、105。网络102用以在终端设备101和服务器103、104、105之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103、104、105交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如语音处理应用、视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。

这里的终端设备101可以是硬件，也可以是软件。当终端设备101、为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器103、104、105可以是提供各种服务的服务器，可以包括语音识别服务器、语义服务器和语音合成服务器。在实践中，服务器103、104、105可以设置于同一个局域网内。例如对终端设备101提供支持的后台服务器。后台服务器可以对接收到的用户语音等数据进行分析等处理，并将处理结果(例如回复语音)反馈给终端设备。

需要说明的是，本申请实施例所提供的语音处理方法可以由服务器103、104、105或者终端设备101执行，相应地，语音处理装置可以设置于服务器103、104、105或者终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的语音处理方法的一个实施例的流程200。该语音处理方法，包括以下步骤：

步骤201，接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果。

在本实施例中，语音处理方法的执行主体(例如图1所示的服务器)可以接收终端设备发送的用户语音。并且，上述执行主体可以对用户语音进行语音识别，以得到语音识别结果。具体地，语音识别是将语音转换为对应的文字的过程。这里的语音识别结果则是指转换得到的文字。

步骤202，向语义服务器发送语音识别结果，接收语义服务器返回的、针对语音识别结果的回复文本。

在本实施例中，上述执行主体可以向语义服务器发送所得到的语音识别结果，并接收语义服务器返回的回复文本。这里的回复文本是针对上述语音识别结果的回复文本。具体地，语义服务器可以对语音识别结果进行分析处理，得到在和用户进行交互的过程中，用于回复用户的回复文本。在这里，所得到的回复文本一般仅仅为一个回复文本。

在本实施例的一些可选的实现方式中，上述方法还包括：

响应于得到语音识别结果，向终端设备发送语音识别结果；响应于接收到回复文本，向终端设备发送回复文本。

在这些可选的实现方式中，上述执行主体可以响应于得到语音识别结果，及时向终端设备发送语音识别结果。这样，终端设备可以及时向用户显示语音识别结果，避免文字输出延时。

并且，上述执行主体可以响应于确定出上述回复文本，及时向终端设备发送该回复文本。这样，终端设备可以在及时向用户播报回复语音的同时，显示回复文本。

在这些实现方式的一些可选的应用场景中，在向语义服务器发送语音识别结果之前，方法还包括：判断语音识别结果是否有效且与上一个语音的识别结果相关，生成第一判断结果，其中，上一个语音与用户语音在同一个唤醒交互过程中；以及向语义服务器发送语音识别结果，包括：向语义服务器发送语音识别结果，以使语义服务器判断语音识别结果是否符合预设会话语义类型并生成第二判断结果；在向终端设备发送语音识别结果之前，方法包括：接收语义服务器反馈的第二判断结果，基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音。

在这些可选的应用场景中，上述执行主体可以对语音识别结果进行判断，进而生成第一判断结果。并且将语音识别结果和第一判断结果发送给语义服务器，以使语义服务器判断语音识别结果是否符合预设会话语义类型。上述执行主体进而确定出用户语音是否为有意义语音。具体地，上述执行主体需要判断语音识别结果是否有效，还需要判断语音识别结果与上一个语音的识别结果是否相关。当判断出语音识别结果是否有效且与上一个语音的识别结果相关，才能够确定第一判断结果为是。用户语音是紧随上一个语音之后发出的语音，与上一个语音在同一个唤醒交互过程中。

语音识别结果有效可以指，语音识别结果有明确含义，通过该语音识别结果能够进行交流。比如语音识别结果“今天天气如何”是有效的，而“啊啊”则是无效的。与上一个语音的识别结果相关则指前后发出的语音的语义是相关联的，语义的逻辑是连续的。比如上一个语音的识别结果是“今天天气如何”，用户语音的识别结果是“明天的天气呢”，则这两个语音的识别结果相关。再比如，上一个语音的识别结果是“今天天气如何”，用户语音的识别结果是“呃”，则这两个语音的识别结果不相关。

预设会话语义类型为预先设置的会话的语义的类型，也可以称为垂类。比如，预设会话语义类型可以包括日期类型、美食类型、导航类型等等。

上述语义服务器可以采用多种方式判断语音识别结果是否符合预设会话语义类型。比如，确定语音识别结果的关键字为目标关键字，查找各个预设会话语义类型对应的预设关键字中是否包括上述目标关键字。若包括，则第二判断结果是符合预设会话语义类型。

在实践中，上述执行主体可以接收语义服务器反馈的第二判断结果，并基于第一判断结果和第二判断结果，最终确定用户语音是否为有意义语音。有意义语音指该语音的语音识别结果有效，且与上一个语音的识别结果相关。这里的语音识别结果是否有效和相关，需要利用第一判断结果和第二判断结果进行综合判断。

具体地，上述执行主体可以采用多种方式基于第一判断结果和第二判断结果确定用户语音是否为有意义语音。比如，上述执行主体若确定第一判断结果和第二判断结果都为是，则确定用户语音为有意义语音。

可选地，向语义服务器发送语音识别结果，可以包括向语义服务器发送语音识别结果和第一判断结果。相应地，语义服务器可以基于第一判断结果，判断语音识别结果是否符合预设会话语义类型并生成第二判断结果。

比如，可以预设表征第一判断结果、语音识别结果，和第二判断结果之间的对应关系的对应关系表，语义服务器可以查询该对应关系表，并找到与第一判断结果和语音识别结果相对应的第二判断结果。

在这里，语义服务器不仅可以向上述执行主体反馈第二判断结果，还可以向上述执行主体反馈第一判断结果，这样，上述执行主体可以基于反馈的第一判断结果和第二判断结果及时地确定用户语音是否为有意义语音。

这些实现方式的执行主体可以生成第一判断结果和第二判断结果，以确定出用户语音是否有意义，从而实现对用户语音进行更好的分析。

在这些应用场景的一些可选的情况下，向终端设备发送语音识别结果，可以包括：响应于确定用户语音为有意义语音，向终端设备发送语音识别结果。

在这些情况下，若确定该用户语音为有意义语音，上述执行主体可以向终端设备发送语音识别结果。此外，若用户语音不是有意义语音，则上述执行主体可以丢弃上述语音识别结果。这些情况下的执行主体可以在用户语音为有意义语音的情况下，才向终端设备反馈语音识别结果，而用户说的一些无意义的语音对应的语句则无需向用户展示，从而减少无效处理的过程并提高设备的智能程度。

可选地，上述基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音，可以包括：响应于确定第一判断结果和第二判断结果中的至少一个为是，确定用户语音为有意义语音。

这些实现方式可以利用语音识别服务器的判断结果，以及语义服务器的判断结果来灵活地确定用户语音是否为有意义语音，从而避免语音识别服务器或语义服务器单独确定有意义语音时，可能造成的误过滤或者漏过滤过程。比如，语音识别结果为“明天呢”，该语音的上一句语音为“今天天气如何”。语音识别服务器在确定语音识别结果与上一个语音的识别结果是否相关的过程中，可能会出现误判，从而得到无关的第一判断结果。而语义服务器则可以确定出语音识别结果符合预设会话语义类型中的天气类型。

可选地，第一判断结果和第二判断结果以数值的形式表示，第一判断结果的数值用于表征语音识别结果有效且与上一个语音的识别结果相关的概率，第二判断结果的数值用于表征语音识别结果符合预设会话语义类型的概率；以及基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音，包括：确定第一判断结果的数值与第二判断结果的数值的和；响应于确定和大于或等于预设阈值，确定用户语音为有意义语音。

具体地，第一判断结果和第二判断结果都可以以数值的形式呈现。数值越大，则概率越大，且两个判断结果的数值相加的和越大。举例来说，预设阈值为15，针对张三的一条用户语音的语音识别结果，第一判断结果的数值为5(比如该数值的满分为10)，第二判断结果的数值为10(比如该数值的满分为10)，则这两个数值的和为15，该和等于预设阈值，所以可以确定张三的该条用户语音为有意义语音。

可选地，确定第一判断结果的数值与第二判断结果的数值的加权和；响应于确定加权和大于或等于预设加权阈值，确定用户语音为有意义语音。

上述执行主体不仅可以确定判断结果的和来确定用户语音是否为有意义语音，还可以利用第一判断结果的预设权重，以及第二判断结果的预设权重，对第一判断结果和第二判断结果进行加权。并利用加权得到的加权和与预设加权阈值的比较结果，来确定用户语音是否是有意义语音。

在实践中，在语义服务器生成第二判断结果的过程中，可以利用多个预设会话语义类型模型，确定出多个候选数值，并从中选取最大的数值作为第二判断结果的数值。每个预设会话语义类型模型都可以对语音识别结果确定出一个候选数值。

具体地，这里的预设会话语义类型模型可以为垂类模型或者对应关系表等等。举例来说，垂类模型可以是日期垂类模型、导航垂类模型等等。这里的垂类模型可以是神经网络模型。比如，若垂类模型是神经网络，语义服务器可以将第一判断结果和语音识别结果输入垂类模型，并得到从垂类模型输出的第二判断结果。

步骤203，向语音合成服务器发送回复文本，将所接收的语音合成服务器发送的回复语音向终端设备转发。

在本实施例中，上述执行主体可以将接收到的回复文本发送给语音合成服务器，以使语音合成服务器进行语音合成，得到回复语音。之后，上述执行主体可以接收语音合成服务器发送的回复语音，并将该回复语音转发给终端设备。语音合成服务器进行语音合成具体可以是对接收到的回复文本进行从文本到语音(Text To Speech，TTS)处理，从而得到可以向用户进行播报的语音。

在本实施例的一些可选的实现方式中，语音识别服务器与语义服务器、语音合成服务器设置于同一个局域网内。

在这些可选的实现方式中，语音识别服务器与语义服务器以及语音合成服务器可以设置于同一个局域网内。这样，可以加快语音识别服务器与语义服务器之间的通信速度，并且加快语音识别服务器与语音合成服务器之间的通信速度。

现有技术中的终端设备需要在获取信息后，生成请求，并把请求依次发送至语音识别服务器、语义服务器以及语音合成服务器。并且，终端设备也必须等待各个服务器向其反馈信息，才能获得信息，整个过程消耗了大量时间。相较之下，本实施例省略了上述过程，在服务器之间进行信息传递，有效地节省了处理时间，进而可以缩短终端设备与用户进行交互时，终端设备的反应时间。

如图3所示，本申请还提供了一种语音处理系统，包括语音识别服务器310、语义服务器320和语音合成服务器330。

语音识别服务器310，用于接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果，将语音识别结果发送给语义服务器320，以及将语义服务器320返回的回复文本发送给语音合成服务器330，接收语音合成服务器330发送的回复文本的回复语音，将回复语音发送给终端设备。

在本实施例的一些可选的实现方式中，语音识别服务器310与语义服务器320、语音合成服务器330设置于同一个局域网内。

在本实施例的一些可选的实现方式中，语音识别服务器310，还用于响应于得到语音识别结果，向终端设备发送语音识别结果。

此外，语音识别服务器310，还用于响应于接收到回复文本，向终端设备发送回复文本。

在本实施例的一些可选的实现方式中，上述终端设备，还用于响应于接收到回复语音，且未接收到语音识别结果和回复文本中的至少一项，显示并播报预设回复语句。

具体地，如果终端设备接收到了回复语音，但是未接收到语音识别结果和/或回复文本，终端设备可以显示预设回复语句对应的文字，并播报预设回复语句的语音。比如，预设回复语句可以是“网络不佳，请您稍后再试”。这样，这些实施例可以避免信息显示不全的问题，避免用户无法准确获取回复语句。

在本实施例的一些可选的实现方式中，语义服务器，还用于接收文本生成请求，其中，文本生成请求是终端设备响应于在第一预设时间段内，未接收到回复文本和回复语音，向语义服务器发送的，文本生成请求包括语音识别结果，第一预设时间段以终端设备接收到语音识别结果作为计时起点。

具体地，如果终端设备在接收到语音识别结果之后，没有接收到回复文本和回复语音，则可以向语义服务器320发送包括语音识别结果的文本生成请求。这样，语义服务器320可以接收文本生成请求，并对语音识别结果进行处理，生成回复文本。这里的请求为请求语义服务器320生成回复文本的信息。之后，语义服务器320可以将回复文本反馈给终端设备，继而，终端设备可以向语音合成服务器330发送包括回复文本的语音合成请求，并接收语音合成服务器330反馈的回复语音。

这些实现方式中，语义服务器可以在未接收到回复文本和回复语音的情况下，接收终端设备发送的请求，以确保语音交互的顺利进行。

在本实施例的一些可选的实现方式中，语音合成服务器，还用于接收语音合成请求，其中，语音合成请求是终端设备响应于在第二预设时间段内，接收到回复文本且未接收到回复语音，向语音合成服务器发送的，语音合成请求包括回复文本，第二预设时间段以终端设备接收到语音识别结果或以接收到回复文本作为计时起点。

具体地，如果终端设备接收到了语音识别结果，以及回复文本，但是未接收到回复语音，则可以向语音合成服务器330发送语音合成请求。这样，语音合成服务器330可以处理上述回复文本，生成回复语音，以及将回复语音反馈给终端设备。

这些实现方式可以在未接收到回复语音的情况下，向语音合成服务器330发送请求，以确保语音交互的顺利进行。

在本实施例的一些可选的实现方式中，语音识别服务器，在向语义服务器发送语音识别结果之前，还用于判断语音识别结果是否有效且与上一个语音的识别结果相关，生成第一判断结果，其中，上一个语音与用户语音在同一个唤醒交互过程中；语音识别服务器，还用于向语义服务器发送语音识别结果；语义服务器，还用于判断语音识别结果是否符合预设会话语义类型并生成第二判断结果；以及语音识别服务器，在向终端设备发送语音识别结果之前，还用于接收语义服务器反馈的第二判断结果，基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音。

在本实施例的一些可选的实现方式中，语音识别服务器，还用于响应于确定用户语音为有意义语音，向终端设备发送语音识别结果。

在本实施例的一些可选的实现方式中，语音识别服务器，还用于响应于确定第一判断结果和第二判断结果中的至少一个为是，确定用户语音为有意义语音。

在本实施例的一些可选的实现方式中，第一判断结果和第二判断结果以数值的形式表示，第一判断结果的数值用于表征语音识别结果有效且与上一个语音的识别结果相关的概率，第二判断结果的数值用于表征语音识别结果符合预设会话语义类型的概率；以及语音识别服务器，还用于确定第一判断结果的数值与第二判断结果的数值的和；响应于确定和大于或等于预设阈值，确定用户语音为有意义语音。

在本实施例的一些可选的实现方式中，语义服务器，还用于利用多个预设会话语义类型模型确定出多个候选数值；将多个候选数值中最大的数值确定为第二判断结果的数值。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种语音处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的语音处理装置400包括：语音识别单元401、文本生成单元402和反馈单元403。其中，语音识别单元401，被配置成接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果；文本生成单元402，被配置成向语义服务器发送语音识别结果，接收语义服务器返回的、针对语音识别结果的至少一个回复文本；反馈单元403，被配置成向语音合成服务器发送至少一个回复文本中的回复文本，将所接收的语音合成服务器发送的回复语音向终端设备转发，其中，回复语音是基于语音合成服务器发送的回复文本生成的。

在一些实施例中，语音处理装置400的语音识别单元401可以接收终端设备发送的用户语音。并且，上述执行主体可以对用户语音进行语音识别，以得到语音识别结果。具体地，语音识别是将语音转换为对应的文字的过程。这里的语音识别结果则是指转换得到的文字。

在一些实施例中，文本生成单元402可以向语义服务器发送所得到的语音识别结果，并接收语义服务器返回的回复文本。这里的回复文本是针对上述语音识别结果的回复文本。具体地，语义服务器可以对语音识别结果进行分析处理，得到在和用户进行交互的过程中，用于回复用户的回复文本。

在一些实施例中，反馈单元403可以将接收到的回复文本发送给语音合成服务器，以使语音合成服务器进行语音合成，得到回复语音。之后，上述执行主体可以接收语音合成服务器发送的回复语音，并将该回复语音转发给终端设备。

在本实施例的一些可选的实现方式中，装置还包括：第一发送单元，被配置成响应于得到语音识别结果，向终端设备发送语音识别结果；以及方法还包括：第二发送单元，被配置成响应于接收到回复文本，向终端设备发送回复文本。

在本实施例的一些可选的实现方式中，装置还包括：判断单元，被配置成在向语义服务器发送语音识别结果之前，判断语音识别结果是否有效且与上一个语音的识别结果相关，生成第一判断结果，其中，上一个语音与用户语音在同一个唤醒交互过程中；以及文本生成单元，包括：第一发送模块，被配置成向语义服务器发送语音识别结果，以使语义服务器判断语音识别结果是否符合预设会话语义类型并生成第二判断结果；以及装置还包括：接收单元，被配置成在向终端设备发送语音识别结果之前，接收语义服务器反馈的第二判断结果，基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音。

在本实施例的一些可选的实现方式中，第一发送单元，包括：第二发送模块响应于确定用户语音为有意义语音，向终端设备发送语音识别结果。

在本实施例的一些可选的实现方式中，接收单元包括：确定模块，被配置成响应于确定第一判断结果和第二判断结果中的至少一个为是，确定用户语音为有意义语音。

在本实施例的一些可选的实现方式中，第一判断结果和第二判断结果以数值的形式表示，第一判断结果的数值用于表征语音识别结果有效且与上一个语音的识别结果相关的概率，第二判断结果的数值用于表征语音识别结果符合预设会话语义类型的概率；以及基于第一判断结果和第二判断结果，确定用户语音是否为有意义语音，包括：确定第一判断结果的数值与第二判断结果的数值的和；响应于确定和大于或等于预设阈值，确定用户语音为有意义语音。

在本实施例的一些可选的实现方式中，第二判断结果的数值为语义服务器利用多个预设会话语义类型模型确定出的多个候选数值中最大的数值。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括语音识别单元、文本生成单元和反馈单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，语音识别单元还可以被描述为“接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：接收终端设备发送的用户语音，对用户语音进行语音识别，得到语音识别结果；向语义服务器发送语音识别结果，接收语义服务器返回的、针对语音识别结果的回复文本；向语音合成服务器发送回复文本，将所接收的语音合成服务器发送的回复语音向终端设备转发。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音处理方法，用于语音识别服务器，所述方法包括：

接收终端设备发送的用户语音，对所述用户语音进行语音识别，得到语音识别结果；

对所述语音识别结果进行判断，生成第一判断结果；

向语义服务器发送所述语音识别结果和所述第一判断结果，接收所述语义服务器返回的、针对所述语音识别结果的回复文本；

向语音合成服务器发送所述回复文本，将所接收的所述语音合成服务器发送的回复语音向所述终端设备转发。

2.根据权利要求1所述的方法，其中，所述语音识别服务器与所述语义服务器、所述语音合成服务器设置于同一个局域网内。

3.根据权利要求1所述的方法，其中，所述方法还包括：

响应于得到所述语音识别结果，向所述终端设备发送所述语音识别结果；以及

所述方法还包括：

响应于接收到所述回复文本，向所述终端设备发送所述回复文本。

4.根据权利要求3所述的方法，其中，所述对所述语音识别结果进行判断，生成第一判断结果包括：

判断所述语音识别结果是否有效且与上一个语音的识别结果相关，生成第一判断结果，其中，所述上一个语音与所述用户语音在同一个唤醒交互过程中；以及

所述向语义服务器发送所述语音识别结果和所述第一判断结果，包括：

向所述语义服务器发送所述语音识别结果和所述第一判断结果，以使所述语义服务器判断所述语音识别结果是否符合预设会话语义类型并生成第二判断结果；以及

在所述向所述终端设备发送所述语音识别结果之前，所述方法还包括：

接收所述语义服务器反馈的所述第二判断结果，基于所述第一判断结果和所述第二判断结果，确定所述用户语音是否为有意义语音。

5.根据权利要求4所述的方法，其中，所述向所述终端设备发送所述语音识别结果，包括：

响应于确定所述用户语音为有意义语音，向所述终端设备发送所述语音识别结果。

6.根据权利要求4所述的方法，其中，所述基于所述第一判断结果和所述第二判断结果，确定所述用户语音是否为有意义语音，包括：

响应于确定所述第一判断结果和所述第二判断结果中的至少一个为是，确定所述用户语音为有意义语音。

7.根据权利要求4所述的方法，其中，所述第一判断结果和所述第二判断结果以数值的形式表示，所述第一判断结果的数值用于表征所述语音识别结果有效且与上一个语音的识别结果相关的概率，所述第二判断结果的数值用于表征所述语音识别结果符合预设会话语义类型的概率；以及

所述基于所述第一判断结果和所述第二判断结果，确定所述用户语音是否为有意义语音，包括：

确定所述第一判断结果的数值与所述第二判断结果的数值的和；响应于确定所述和大于或等于预设阈值，确定所述用户语音为有意义语音。

8.根据权利要求7所述的方法，其中，所述第二判断结果的数值为所述语义服务器利用多个预设会话语义类型模型确定出的多个候选数值中最大的数值。

9.一种语音处理系统，包括语音识别服务器、语义服务器和语音合成服务器；

所述语音识别服务器，用于接收终端设备发送的用户语音，对所述用户语音进行语音识别，得到语音识别结果，将所述语音识别结果发送给所述语义服务器，以及将所述语义服务器返回的回复文本发送给所述语音合成服务器，接收所述语音合成服务器发送的所述回复文本的回复语音，将所述回复语音发送给所述终端设备。

10.根据权利要求9所述的系统，其中，所述语音识别服务器与所述语义服务器、所述语音合成服务器设置于同一个局域网内。

11.根据权利要求9所述的系统，其中，

所述语音识别服务器，还用于响应于得到所述语音识别结果，向所述终端设备发送所述语音识别结果；以及

所述语音识别服务器，还用于响应于接收到所述回复文本，向所述终端设备发送所述回复文本。

12.根据权利要求9-11之一所述的系统，其中，

所述语义服务器，还用于接收文本生成请求，其中，所述文本生成请求是所述终端设备响应于在第一预设时间段内，未接收到所述回复文本和所述回复语音，向所述语义服务器发送的，所述文本生成请求包括所述语音识别结果，所述第一预设时间段以所述终端设备接收到所述语音识别结果作为计时起点。

13.根据权利要求9-11之一所述的系统，其中，

所述语音合成服务器，还用于接收语音合成请求，其中，所述语音合成请求是所述终端设备响应于在第二预设时间段内，接收到所述回复文本且未接收到所述回复语音，向所述语音合成服务器发送的，所述语音合成请求包括所述回复文本，所述第二预设时间段以所述终端设备接收到所述语音识别结果或以接收到所述回复文本作为计时起点。

14.根据权利要求11所述的系统，其中，

所述语音识别服务器，在所述向语义服务器发送所述语音识别结果之前，还用于判断所述语音识别结果是否有效且与上一个语音的识别结果相关，生成第一判断结果，其中，所述上一个语音与所述用户语音在同一个唤醒交互过程中；

所述语音识别服务器，还用于向所述语义服务器发送所述语音识别结果；

所述语义服务器，还用于判断所述语音识别结果是否符合预设会话语义类型并生成第二判断结果；以及

所述语音识别服务器，在所述向所述终端设备发送所述语音识别结果之前，还用于接收所述语义服务器反馈的所述第二判断结果，基于所述第一判断结果和所述第二判断结果，确定所述用户语音是否为有意义语音。

15.根据权利要求14所述的系统，其中，所述语音识别服务器，还用于响应于确定所述用户语音为有意义语音，向所述终端设备发送所述语音识别结果。

16.根据权利要求14所述的系统，其中，

所述语音识别服务器，还用于响应于确定所述第一判断结果和所述第二判断结果中的至少一个为是，确定所述用户语音为有意义语音。

17.根据权利要求14所述的系统，其中，所述第一判断结果和所述第二判断结果以数值的形式表示，所述第一判断结果的数值用于表征所述语音识别结果有效且与上一个语音的识别结果相关的概率，所述第二判断结果的数值用于表征所述语音识别结果符合预设会话语义类型的概率；以及

所述语音识别服务器，还用于确定所述第一判断结果的数值与所述第二判断结果的数值的和；响应于确定所述和大于或等于预设阈值，确定所述用户语音为有意义语音。

18.根据权利要求17所述的系统，其中，

所述语义服务器，还用于利用多个预设会话语义类型模型确定出多个候选数值；将所述多个候选数值中最大的数值确定为所述第二判断结果的数值。

19.一种语音处理装置，用于语音识别服务器，所述装置包括：

语音识别单元，被配置成接收终端设备发送的用户语音，对所述用户语音进行语音识别，得到语音识别结果；

文本生成单元，被配置成向语义服务器发送所述语音识别结果，接收所述语义服务器返回的、针对所述语音识别结果的至少一个回复文本；

反馈单元，被配置成向语音合成服务器发送所述至少一个回复文本中的回复文本，将所接收的所述语音合成服务器发送的回复语音向所述终端设备转发，其中，所述回复语音是基于所述语音合成服务器发送的回复文本生成的。

20.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

21.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。