WO2016127550A1

WO2016127550A1 - 人机语音交互方法和装置

Info

Publication number: WO2016127550A1
Application number: PCT/CN2015/083207
Authority: WO
Inventors: 陈本东; 谢文
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2015-02-13
Filing date: 2015-07-02
Publication date: 2016-08-18
Also published as: CN104679472A

Abstract

一种人机语音交互方法和装置，该人机语音交互方法包括：在终端对播报结果进行语音播报的过程中，接收语音识别服务器发送的语音识别结果(101)；将语音识别结果发送给QU服务器进行上下文理解，接收并保存上下文理解的结果(102)；根据保存的上下文理解的结果确定用户输入的语音的意图，根据上述意图生成播报结果(103)；将播报结果发送给语音识别服务器，以便语音识别服务器将播报结果发送给终端进行语音播报(104)。可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，从而可以实现人机交互过程中不需要反复切换录音和播报两种状态，进而可以使得多轮对话更连贯。

Description

人机语音交互方法和装置

相关申请的交叉引用

本申请要求百度在线网络技术(北京)有限公司于2015年2月13日提交的、发明名称为“人机语音交互方法和装置”的、中国专利申请号“201510080163.X”的优先权。

技术领域

本发明涉及互联网技术领域，尤其涉及一种人机语音交互方法和装置。

背景技术

语音识别和人机语音交互有了很长的历史，现有的各种语音助手类应用(Application；以下简称：APP)，在操作方式上，录音的触发通过按键，录音完毕后，机器播报答案，播报答案时，不能录音。也就是说，现有的语音助手类APP只能进行半双工通信，即机器播报时，用户不能说话，用户说话时，机器不能播报。

这样就需要机器在录音和播报两种状态之间不停地切换，往往需要用户的操作来干预，使用起来很不方便。现在，有的语音助手类APP设置了自动应答模式，即机器播报完毕后自动进入录音状态，但是在这种自动应答模式下，机器有时自动切换，有时不自动切换，反而让用户不知所措。

综上所述，现有的人机语音交互模式使用起来非常不便，每次一问一答，都需要用户干预，操作繁琐，人机交互方式也很不自然，用户体验度较差。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种人机语音交互方法。通过该方法，在人机语音交互的过程中，语音播报和用户的语音输入可以同时进行，从而可以实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

本发明的第二个目的在于提出一种人机语音交互装置。

为了实现上述目的，本发明第一方面实施例的人机语音交互方法，包括：在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述语音识别服务器发送的语音识别结果，所述语音识别结果是所述语音识别服务器对使用所述终端的用户输入的语音进行识别后发送的；将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果；根据保存的上下文理解的结果确定所述用户输入的语音的意图，根据所述意图生成播报结果；将所述播报结果发送给所述语音识别服务器，以便所述语音识别服务器将所述播报结果发送给所述终端进行语音播报。

本发明实施例的人机语音交互方法，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，可以接收语音识别服务器发送的语音识别结果，根据上述语音识别结果确定用户输入的语音的意图，并根据该意图生成播报结果，然后将播报结果发送给语音识别服务器，由语音识别服务器将上述播报结果发送给终端进行语音播报，从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

为了实现上述目的，本发明第二方面实施例的人机语音交互方法，包括：在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述终端发送的语音，所述语音是使用所述终端的用户输入给所述终端的；对所述语音进行识别，将语音识别结果发送给多轮对话服务器，以便所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；接收所述多轮对话服务器发送的播报结果，将所述播报结果发送给所述终端进行语音播报。

本发明实施例的人机语音交互方法，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收终端发送的语音之后，对上述语音进行识别，然后将语音识别结果发送给多轮对话服务器，以便多轮对话服务器根据上述语音识别结果确定用户输入的语音的意图，并根据上述意图生成播报结果，然后语音识别服务器接收多轮对话服务器发送的播报结果，并将上述播报结果发送给终端进行语音播报；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

为了实现上述目的，本发明第三方面实施例的人机语音交互方法，包括：在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用所述终端的用户输入的语音；将所述用户输入的语音发送给所述语音识别服务器，以使所述语音识别服务器对所述语音进行识别，并将语音识别结果发送给多轮对话服务器，由所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；接收并播报所述语音识别服务器发送的播报结果，所述语音识别服务器发送的播报结果是所述多轮对话服务器发送给所述语音识别服务器的。

本发明实施例的人机语音交互方法，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用上述终端的用户输入的语音，然后将上述用户输入的语音发送给语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器根据该语音识别结果确定用户输入的语音的意图，进而根据上述意图生成播报结果；然后，终端接收并播报语音识别服务器发送的播报结果；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

为了实现上述目的，本发明第四方面实施例的人机语音交互装置，包括：接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述语音识别服务器发送的语音识别结果，所述语音识别结果是所述语音识别服务器对使用所述终端的用户输入的语音进行识别后发送的；以及在发送模块将所述语音识别结果发送给关键词理解服务器进行上下文理解之后，接收所述关键词理解服务器发送的上下文理解的结果；所述发送模块，用于将所述接收模块接收的语音识别结果发送给关键词理解服务器进行上下文理解；保存模块，用于保存所述接收模块接收的上下文理解的结果；确定模块，用于根据所述保存模块保存的上下文理解的结果确定所述用户输入的语音的意图；生成模块，用于根据所述确定模块确定的意图生成播报结果；所述发送模块，还用于将所述生成模块生成的播报结果发送给所述语音识别服务器，以便所述语音识别服务器将所述播报结果发送给所述终端进行语音播报。

本发明实施例的人机语音交互装置，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块可以接收语音识别服务器发送的语音识别结果，确定模块根据上述语音识别结果确定用户输入的语音的意图，生成模块根据确定模块确定的意图生成播报结果，然后发送模块将播报结果发送给语音识别服务器，由语音识别服务器将上述播报结果发送给终端进行语音播报，从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

为了实现上述目的，本发明第五方面实施例的人机语音交互装置，包括：接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述终端发送的语音，所述语音是使用所述终端的用户输入给所述终端的；以及在发送模块将语音识别结果发送给多轮对话服务器之后，接收所述多轮对话服务器发送的播报结果；识别模块，用于对所述接收模块接收的语音进行识别；所述发送模块，用于将所述识别模块识别的语音识别结果发送给多轮对话服务器，以便所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；以及在所述接收模块接收所述多轮对话服务器发送的播报结果之后，将所述播报结果发送给所述终端进行语音播报。

本发明实施例的人机语音交互装置，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块接收终端发送的语音之后，识别模块对上述语音进行识别，然后发送模块将语音识别结果发送给多轮对话服务器，以便多轮对话服务器根据上述语音识别结果确定用户输入的语音的意图，并根据上述意图生成播报结果，然后接收模块接收多轮对话服务器发送的播报结果，并由发送模块将上述播报结果发送给终端进行语音播报；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

为了实现上述目的，本发明第六方面实施例的人机语音交互装置，包括：接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用所述终端的用户输入的语音；以及在发送模块将所述语音发送给所述语音识别服务器之后，接收所述语音识别服务器发送的播报结果，所述语音识别服务器发送的播报结果是所述多轮对话服务器发送给所述语音识别服务器的；所述发送模块，用于将所述接收模块接收的语音发送给所述语音识别服务器，以使所述语音识别服务器对所述语音进行识别，并将语音识别结果发送给多轮对话服务器，由所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；播报模块，用于播报所述接收模块接收的播报结果。

本发明实施例的人机语音交互装置，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块接收使用上述终端的用户输入的语音，然后发送模块将上述用户输入的语音发送给语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器根据该语音识别结果确定用户输入的语音的意图，进而根据上述意图生成播报结果；然后，接收模块接收并由播报模块播报语音识别服务器发送的播报结果；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明人机语音交互方法一个实施例的流程图；

图2为本发明人机语音交互方法另一个实施例的流程图；

图3为本发明人机语音交互方法再一个实施例的流程图；

图4为本发明人机语音交互方法中的连接关系一个实施例的示意图；

图5为本发明人机语音交互装置一个实施例的结构示意图；

图6为本发明人机语音交互装置另一个实施例的结构示意图；

图7为本发明人机语音交互装置再一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明人机语音交互方法一个实施例的流程图，如图1所示，该人机语音交互方法可以包括：

步骤101，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收语音识别服务器发送的语音识别结果，上述语音识别结果是语音识别服务器对使用上述终端的用户输入的语音进行识别后发送的。

本实施例中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，使用上述终端的用户仍然可以继续输入语音，也就是说，该终端在对播报结果进行语音播报的过程中，仍在继续接收用户输入的语音，并持续地将用户输入的语音发送给语音识别服务器进行语音识别，然后语音识别服务器持续地将语音识别结果发送给多轮对话服务器，多轮对话服务器持续地接收语音识别服务器发送的语音识别结果。从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，进而可以实现人机交互过程中不需要反复切换录音和播报两种状态。

具体地，接收语音识别服务器发送的语音识别结果可以为：接收上述语音识别服务器在确定获得的语音识别结果达到预定的置信度之后，发送的达到上述预定的置信度的语音识别结果。其中，该预定的置信度可以在具体实现时自行设定，本实施例对上述预定的置信度的大小不作限定。

本实施例中，用户在向上述终端输入语音的时候，语音识别服务器也在不断地对终端发送来的语音进行识别，当语音识别服务器确定已获得的语音识别结果已达到预定的置信度时，语音识别服务器将达到上述预定的置信度的语音识别结果发送给多轮对话服务器，以便多轮对话服务器执行后续的步骤102～步骤104，确定用户输入的语音的意图，进而生成有效的播报结果，发送给上述终端进行语音播报，也就是说，如果终端接收到播报结果了，就可以打断用户的语音输入，直接向用户播报获得的播报结果。

步骤102，将上述语音识别结果发送给关键词理解(Query Understand；以下简称：QU)服务器进行上下文理解，接收并保存上述QU服务器发送的上下文理解的结果。

步骤103，根据保存的上下文理解的结果确定上述用户输入的语音的意图，并根据上述意图生成播报结果。

本实施例中，多轮对话服务器会根据保存的上下文理解的结果明确用户输入的语音的意图，然后可以直接根据上述意图生成播报结果；

或者，根据上述意图生成播报结果可以为：根据上述意图从资源接入服务器获取与上述意图对应的信息，根据获取的信息生成播报结果。

步骤104，将上述播报结果发送给所述语音识别服务器，以便语音识别服务器将上述播报结果发送给上述终端进行语音播报。

本实施例中，还可以根据上述用户的用户信息和当前状态，获得适合推荐给上述用户的内容，并触发云推送服务，通过上述云推送服务将适合推荐给用户的内容发送给上述终端，并发起与上述终端的对话。

也就是说，本实施例中，多轮对话服务器有学习能力，可以根据用户的用户信息(例如：用户的日程安排和/或听过的歌曲等)和用户的当前状态(例如：当前位置和/或当前对话内容等)，分析用户的想法和意愿，获得适合推荐给用户的内容，然后多轮对话服务器可以触发云推送服务，可以通过上述云推送服务将适合推荐给用户的内容发送给上述终端，并发起与上述终端的对话。之后的对话过程与步骤101～步骤104描述的过程相同，在此不再赘述。

上述实施例中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，可以接收语音识别服务器发送的语音识别结果，根据上述语音识别结果确定用户输入的语音的意图，并根据该意图生成播报结果，然后将播报结果发送给语音识别服务器，由语音识别服务器将上述播报结果发送给终端进行语音播报，从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

图2为本发明人机语音交互方法另一个实施例的流程图，如图2所示，该人机语音交互方法可以包括：

步骤201，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收上述终端发送的语音，上述语音是使用上述终端的用户输入给上述终端的。

本实施例中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，语音识别服务器还可以接收上述终端发送的语音，也就是说，在人机语音交互的过程中，语音播报和用户的语音输入同时进行，从而可以实现人机交互过程中不需要反复切换录音和播报两种状态。

步骤202，对上述语音进行识别，将语音识别结果发送给多轮对话服务器，以便多轮对话服务器将上述语音识别结果发送给QU服务器进行上下文理解，接收并保存QU服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定上述用户输入的语音的意图，并根据上述意图生成播报结果。

具体地，对上述语音进行识别包括：通过静音检测技术确定上述语音中每句话的起始和结束。

本实施例中，运用静音检测技术，语音识别服务器能够实现对句子的切分，即语音识别服务器能够确定上述语音中每句话的起始和结束。

具体地，将语音识别结果发送给多轮对话服务器可以为：在确定获得的语音识别结果达到预定的置信度之后，将达到上述预定的置信度的语音识别结果发送给多轮对话服务器。其中，该预定的置信度可以在具体实现时自行设定，本实施例对上述预定的置信度的大小不作限定。

本实施例中，用户在向上述终端输入语音的时候，语音识别服务器也在不断地对终端发送来的语音进行识别，当语音识别服务器确定已获得的语音识别结果已达到预定的置信度时，语音识别服务器将达到上述预定的置信度的语音识别结果发送给多轮对话服务器，以便多轮对话服务器按照本发明图1所示实施例步骤102～步骤104描述的方式，确定用户输入的语音的意图，进而生成有效的播报结果，发送给上述终端进行语音播报，也就是说，如果终端接收到了播报结果，就可以打断用户的语音输入，直接向用户播报获得的播报结果。

步骤203，接收多轮对话服务器发送的播报结果，将上述播报结果发送给上述终端进行语音播报。

上述实施例中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收终端发送的语音之后，对上述语音进行识别，然后将语音识别结果发送给多轮对话服务器，以便多轮对话服务器根据上述语音识别结果确定用户输入的语音的意图，并根据上述意图生成播报结果，然后语音识别服务器接收多轮对话服务器发送的播报结果，并将上述播报结果发送给终端进行语音播报；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

图3为本发明人机语音交互方法再一个实施例的流程图，如图3所示，该人机语音交互方法可以包括：

步骤301，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用上述终端的用户输入的语音。

具体地，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用上述终端的用户输入的语音可以为：在用户使用的终端播报语音识别服务器发送的播报结果的过程中，通过回声消除技术，消除播放的从文本到语音(Text to Speech；以下简称：TTS)语音的输入，仅接收上述用户输入的语音。

本实施例中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，用户仍然可以向终端输入语音，也就是说，用户可以通过向终端输入语音打断终端的语音播报，也可以直接对终端播报的播报结果进行反馈，影响终端接下来的播报内容，从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，进而可以实现人机交互过程中不需要反复切换录音和播报两种状态。

步骤302，将上述用户输入的语音发送给上述语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器将上述语音识别结果发送给QU服务器进行上下文理解，接收并保存上述QU服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定上述用户输入的语音的意图，并根据上述意图生成播报结果。

具体地，将用户输入的语音发送给上述语音识别服务器可以为：将用户输入的预定长度的语音发送给上述语音识别服务器。其中，上述预定长度可以在具体实现时自行设定，本实施例对上述预定长度的大小不作限定。

具体地，将用户输入的语音发送给上述语音识别服务器也可以为：通过静音检测技术确定上述用户输入的语音中每句话的起始和结束，只将包含语音的录音发送给上述语音识别服务器。

由于用户有时输入语音过长，并且往往是对细节的描述，于是可以设置预定长度，当用户输入的语音达到该预定长度了，就将用户输入的预定长度的语音发送给上述语音识别服务器；或者，有时用户在输入语音的过程中会有停顿，于是可以通过静音检测技术确定上述用户输入的语音中每句话的起始和结束，只将包含语音的录音发送给上述语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器将上述语音识别结果发送给QU服务器进行上下文理解，接收并保存上述QU服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定上述用户输入的语音的意图，并根据上述意图生成播报结果。然后多轮对话服务器将播报结果发送给语音识别服务器，语音识别服务器将播报结果发送给终端，这时终端就可以打断用户的语音输入，对上述播报结果进行语音播报。

步骤303，接收并播报语音识别服务器发送的播报结果。其中，上述语音识别服务器发送的播报结果是多轮对话服务器发送给上述语音识别服务器的。

上述实施例中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用上述终端的用户输入的语音，然后将上述用户输入的语音发送给语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器根据该语音识别结果确定用户输入的语音的意图，进而根据上述意图生成播报结果；然后，终端接收并播报语音识别服务器发送的播报结果；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

本发明图1、图2和图3所示实施例提供的人机语音交互方法中，终端、语音识别服务器、多轮对话服务器、QU服务器和资源接入服务器之间的连接关系可以如图4所示，图4为本发明人机语音交互方法中的连接关系一个实施例的示意图。

参见图4，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，终端接收使用上述终端的用户输入的语音。本发明中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，用户仍然可以向终端输入语音，也就是说，用户可以通过向终端输入语音打断终端的语音播报，也可以直接对终端播报的播报结果进行反馈，从而可以实现以下两种对话场景。

对话场景一：用户打断终端的语音播报

用户：点餐

终端：你需要些什么？

用户：宫保鸡丁，北京烤鸭。

终端：好的，准备为你下单，宫保鸡丁一份…

用户：宫保鸡丁不要了，换成辣子鸡丁。

终端：好的，准备为你下单，宫保鸡丁一份，北京烤鸭一份。

对话场景二：用户反馈终端的语音播报

人：这几天天气如何？

机器：略好，今天天气…

人：恩

机器(不停顿)：明天天气…

人：恩，继续

机器(不停顿)：后天天气…

人：好了

机器：播报完毕。

然后，终端将上述用户输入的语音发送给上述语音识别服务器，语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器将上述语音识别结果发送给QU服务器进行上下文理解，接收并保存上述QU服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定上述用户输入的语音的意图，并根据上述意图生成播报结果。

这里由于用户有时输入语音过长，并且往往是对细节的描述，于是可以设置预定长度，当用户输入的语音达到该预定长度了，就将用户输入的预定长度的语音发送给上述语音识别服务器；或者，有时用户在输入语音的过程中会有停顿，于是可以通过静音检测技术确定上述用户输入的语音中每句话的起始和结束，只将包含语音的录音发送给上述语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器。或者，由于用户在向上述终端输入语音的时候，语音识别服务器也在不断地对终端发送来的语音进行识别，因此当语音识别服务器确定已获得的语音识别结果已达到预定的置信度时，语音识别服务器将达到上述预定的置信度的语音识别结果发送给多轮对话服务器。

然后，由多轮对话服务器将上述语音识别结果发送给QU服务器进行上下文理解，接收并保存上述QU服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定上述用户输入的语音的意图，并根据上述意图生成播报结果。然后多轮对话服务器将播报结果发送给语音识别服务器，语音识别服务器将播报结果发送给终端，这时终端就可以打断用户的语音输入，对上述播报结果进行语音播报，从而可以实现如下对话场景。

对话场景三：终端打断用户的语音输入。

用户：去哪儿玩比较好呢，最近挺无聊的想…

终端(打断)：我清楚你的需求了，工体今晚有邓紫棋的演唱会，目前门票有优惠，可以考虑

用户：好的，下单吧。

终端：已为你购买今晚9点邓紫棋演唱会门票，票价xxx元。

另外，多轮对话服务器有学习能力，可以根据用户的用户信息(例如：用户的日程安排和/或听过的歌曲等)和用户的当前状态(例如：当前位置和/或当前对话内容等)，分析用户的想法和意愿，获得适合推荐给用户的内容，然后多轮对话服务器可以触发云推送服务，可以通过上述云推送服务将适合推荐给用户的内容发送给上述终端，并发起与上述终端的对话，从而可以实现以下的对话场景。

对话场景四：根据用户的日程安排向用户推荐出租车信息

终端：你订了今天下午4点的计票，目前时间是下午2点，是否为你订一辆出租车。

用户：不用了，我自己开车去。

终端：你的车今天限行。

用户：OK，那帮我叫辆专车吧。

终端：好的，请稍等(….),王师傅已接单，车牌号是xxxx，预计3分钟到达。

用户：感谢。

本发明中，当终端对播报结果进行语音播报的时候，用户仍然可以向终端输入语音，然后终端将语音发送给语音识别服务器进行识别，语音识别服务器将语音识别结果发送给多轮对话服务器，多轮对话服务器将语音识别结果发送给QU服务器进行上下文理解，然后接收并保存上述QU服务器发送的上下文理解的结果，并根据保存的上下文理解的结果确定上述用户输入的语音的意图，然后根据上述意图生成播报结果返回给终端进行语音播报，可以实现以下5种状态：

1、终端保持语音播报，这种状态下，用户输入的语音可能是“啊哈”或者“有意思”)；

2、终端停止当前的播报，结束当前话题，这种状态下，用户输入的语音可能是“知道了”或者“够了”)；

3、多轮对话服务器连接资源接入服务器开启新话题，这种状态下，用户输入的语音可能是“插播下北京天气”；

4、多轮对话服务器连接资源接入服务器深入话题，这种状态下，用户输入的语音可能是“北京天气”和“上海呢”；

5、回到之前话题，这种状态下，用户输入的语音可能是“之前的笑话讲完了”；也可以多轮对话服务器主动询问，终端接收到的播报结果可能是“天气播报完了，还需要把之前段子讲完吗”。

综上所述，本发明可以在不需要用户手工干预(按键等操作)的情况下，维持对话，保证聊天效果。

图5为本发明人机语音交互装置一个实施例的结构示意图，本实施例中的人机语音交互装置可以作为多轮对话服务器，或者多轮对话服务器的一部分实现本发明图1所示实施例的流程，如图5所示，该人机语音交互装置可以包括：接收模块51、发送模块52、保存模块53、确定模块54和生成模块55。

其中，接收模块51，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收上述语音识别服务器发送的语音识别结果，上述语音识别结果是语音识别服务器对使用上述终端的用户输入的语音进行识别后发送的；以及在发送模块52将上述语音识别结果发送给QU服务器进行上下文理解之后，接收上述QU服务器发送的上下文理解的结果。

本实施例中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，使用上述终端的用户仍然可以继续输入语音，也就是说，该终端在对播报结果进行语音播报的过程中，仍在继续接收用户输入的语音，并持续地将用户输入的语音发送给语音识别服务器进行语音识别，然后语音识别服务器持续地将语音识别结果发送给多轮对话服务器，于是接收模块51持续地接收语音识别服务器发送的语音识别结果。从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，进而可以实现人机交互过程中不需要反复切换录音和播报两种状态。

发送模块52，用于将接收模块51接收的语音识别结果发送给QU服务器进行上下文理解。

保存模块53，用于保存接收模块51接收的上下文理解的结果。

确定模块54，用于根据保存模块53保存的上下文理解的结果确定上述用户输入的语音的意图。

生成模块55，用于根据确定模块54确定的意图生成播报结果。

发送模块52，还用于将生成模块55生成的播报结果发送给语音识别服务器，以便语音识别服务器将上述播报结果发送给终端进行语音播报。

本实施例中，生成模块55，具体用于根据确定模块54确定的意图从资源接入服务器获取与上述意图对应的信息，根据获取的信息生成播报结果。

本实施例中，接收模块51，具体用于接收上述语音识别服务器在确定获得的语音识别结果达到预定的置信度之后，发送的达到上述预定的置信度的语音识别结果。其中，该预定的置信度可以在具体实现时自行设定，本实施例对上述预定的置信度的大小不作限定。

本实施例中，用户在向上述终端输入语音的时候，语音识别服务器也在不断地对终端发送来的语音进行识别，当语音识别服务器确定已获得的语音识别结果已达到预定的置信度时，语音识别服务器将达到上述预定的置信度的语音识别结果发送给多轮对话服务器，以便确定模块54确定用户输入的语音的意图，进而由生成模块55生成有效的播报结果，发送模块52将该播报结果发送给上述终端进行语音播报，也就是说，如果终端接收到播报结果了，就可以打断用户的语音输入，直接向用户播报获得的播报结果。

本实施例中，进一步地，上述人机语音交互装置还可以包括：获取模块56，用于根据上述用户的用户信息和当前状态，获得适合推荐给上述用户的内容；发送模块52，还用于触发云推送服务，通过上述云推送服务将适合推荐给上述用户的内容发送给上述终端，并发起与上述终端的对话。

上述人机语音交互装置中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块51可以接收语音识别服务器发送的语音识别结果，确定模块54根据上述语音识别结果确定用户输入的语音的意图，生成模块55根据确定的意图生成播报结果，然后发送模块52将播报结果发送给语音识别服务器，由语音识别服务器将上述播报结果发送给终端进行语音播报，从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

图6为本发明人机语音交互装置另一个实施例的结构示意图，本实施例中的人机语音交互装置可以作为语音识别服务器，或者语音识别服务器的一部分实现本发明图2所示实施例的流程，如图6所示，该人机语音交互装置可以包括：接收模块61、发送模块62和识别模块63；

其中，接收模块61，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收终端发送的语音，上述语音是使用上述终端的用户输入给上述终端的；以及在发送模块62将语音识别结果发送给多轮对话服务器之后，接收多轮对话服务器发送的播报结果。

本实施例中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块61还可以接收上述终端发送的语音，也就是说，在人机语音交互的过程中，语音播报和用户的语音输入同时进行，从而可以实现人机交互过程中不需要反复切换录音和播报两种状态。

识别模块63，用于对接收模块61接收的语音进行识别。其中，识别模块63，具体用于通过静音检测技术确定上述语音中每句话的起始和结束。本实施例中，运用静音检测技术，识别模块63能够实现对句子的切分，即识别模块63能够确定上述语音中每句话的起始和结束。

发送模块62，用于将识别模块63识别的语音识别结果发送给多轮对话服务器，以便多轮对话服务器将上述语音识别结果发送给QU服务器进行上下文理解，接收并保存上述QU服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定用户输入的语音的意图，并根据上述意图生成播报结果；以及在接收模块61接收多轮对话服务器发送的播报结果之后，将上述播报结果发送给终端进行语音播报。

其中，发送模块62，具体用于在确定获得的语音识别结果达到预定的置信度之后，将达到上述预定的置信度的语音识别结果发送给多轮对话服务器。其中，该预定的置信度可以在具体实现时自行设定，本实施例对上述预定的置信度的大小不作限定。本实施例中，用户在向上述终端输入语音的时候，识别模块63也在不断地对终端发送来的语音进行识别，当确定已获得的语音识别结果已达到预定的置信度时，发送模块62将达到上述预定的置信度的语音识别结果发送给多轮对话服务器，以便多轮对话服务器按照本发明图1所示实施例步骤102～步骤104描述的方式，确定用户输入的语音的意图，进而生成有效的播报结果，发送给上述终端进行语音播报，也就是说，如果终端接收到了播报结果，就可以打断用户的语音输入，直接向用户播报获得的播报结果。

上述人机语音交互装置中，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块61接收终端发送的语音之后，识别模块63对上述语音进行识别，然后发送模块62将语音识别结果发送给多轮对话服务器，以便多轮对话服务器根据上述语音识别结果确定用户输入的语音的意图，并根据上述意图生成播报结果，然后接收模块61接收多轮对话服务器发送的播报结果，并由发送模块62将上述播报结果发送给终端进行语音播报；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

图7为本发明人机语音交互装置再一个实施例的结构示意图，本实施例中的人机语音交互装置可以作为终端，或者终端的一部分实现本发明图3所示实施例的流程，如图7所示，该人机语音交互装置可以包括：接收模块71、发送模块72和播报模块73；

接收模块71，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用上述终端的用户输入的语音；以及在发送模块72将上述语音发送给语音识别服务器之后，接收上述语音识别服务器发送的播报结果，上述语音识别服务器发送的播报结果是多轮对话服务器发送给上述语音识别服务器的；本实施例中，接收模块71，具体用于在上述终端播报语音识别服务器发送的播报结果的过程中，通过回声消除技术，消除播放的TTS语音的输入，仅接收上述用户输入的语音。

发送模块72，用于将接收模块71接收的语音发送给上述语音识别服务器，以使上述语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器将上述语音识别结果发送给QU服务器进行上下文理解，接收并保存QU服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定上述用户输入的语音的意图，并根据上述意图生成播报结果；

播报模块73，用于播报接收模块71接收的播报结果。

本实施例的一种实现方式中，发送模块72，具体用于将上述用户输入的预定长度的语音发送给上述语音识别服务器。其中，上述预定长度可以在具体实现时自行设定，本实施例对上述预定长度的大小不作限定。

本实施例的另一种实现方式中，发送模块72，具体用于通过静音检测技术确定上述用户输入的语音中每句话的起始和结束，只将包含语音的录音发送给语音识别服务器。

由于用户有时输入语音过长，并且往往是对细节的描述，于是可以设置预定长度，当用户输入的语音达到该预定长度了，发送模块72就将用户输入的预定长度的语音发送给上述语音识别服务器；或者，有时用户在输入语音的过程中会有停顿，于是可以通过静音检测技术确定上述用户输入的语音中每句话的起始和结束，只将包含语音的录音发送给上述语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器将上述语音识别结果发送给QU服务器进行上下文理解，接收并保存上述QU服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定上述用户输入的语音的意图，并根据上述意图生成播报结果。然后多轮对话服务器将播报结果发送给语音识别服务器，语音识别服务器将播报结果发送给终端，这时终端就可以打断用户的语音输入，对上述播报结果进行语音播报。

上述人机语音交互装置，在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收模块71接收使用上述终端的用户输入的语音，然后发送模块72将上述用户输入的语音发送给语音识别服务器，以使语音识别服务器对上述语音进行识别，并将语音识别结果发送给多轮对话服务器，由多轮对话服务器根据该语音识别结果确定用户输入的语音的意图，进而根据上述意图生成播报结果；然后，接收模块71接收并由播报模块73播报语音识别服务器发送的播报结果；从而可以实现在人机语音交互的过程中，语音播报和用户的语音输入同时进行，实现人机交互过程中不需要反复切换录音和播报两种状态，实现人机交互全双工的通信方式，进而可以使得多轮对话更连贯。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种人机语音交互方法，其特征在于，包括：

在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述语音识别服务器发送的语音识别结果，所述语音识别结果是所述语音识别服务器对使用所述终端的用户输入的语音进行识别后发送的；

将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果；

根据保存的上下文理解的结果确定所述用户输入的语音的意图，根据所述意图生成播报结果；

将所述播报结果发送给所述语音识别服务器，以便所述语音识别服务器将所述播报结果发送给所述终端进行语音播报。
根据权利要求1所述的方法，其特征在于，所述根据所述意图生成播报结果包括：

根据所述意图从资源接入服务器获取与所述意图对应的信息，根据获取的信息生成播报结果。
根据权利要求1所述的方法，其特征在于，所述接收所述语音识别服务器发送的语音识别结果包括：

接收所述语音识别服务器在确定获得的语音识别结果达到预定的置信度之后，发送的达到所述预定的置信度的语音识别结果。
根据权利要求1-3任意一项所述的方法，其特征在于，还包括：

根据所述用户的用户信息和当前状态，获得适合推荐给所述用户的内容，并触发云推送服务，通过所述云推送服务将所述适合推荐给所述用户的内容发送给所述终端，并发起与所述终端的对话。
一种人机语音交互方法，其特征在于，包括：

在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述终端发送的语音，所述语音是使用所述终端的用户输入给所述终端的；

对所述语音进行识别，将语音识别结果发送给多轮对话服务器，以便所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；

接收所述多轮对话服务器发送的播报结果，将所述播报结果发送给所述终端进行语音播报。
根据权利要求5所述的方法，其特征在于，所述对所述语音进行识别包括：

通过静音检测技术确定所述语音中每句话的起始和结束。
根据权利要求5或6所述的方法，其特征在于，所述将语音识别结果发送给多轮对话服务器包括：

在确定获得的语音识别结果达到预定的置信度之后，将达到所述预定的置信度的语音识别结果发送给多轮对话服务器。
一种人机语音交互方法，其特征在于，包括：

在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用所述终端的用户输入的语音；

将所述用户输入的语音发送给所述语音识别服务器，以使所述语音识别服务器对所述语音进行识别，并将语音识别结果发送给多轮对话服务器，由所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；

接收并播报所述语音识别服务器发送的播报结果，所述语音识别服务器发送的播报结果是所述多轮对话服务器发送给所述语音识别服务器的。
根据权利要求8所述的方法，其特征在于，所述在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用所述终端的用户输入的语音包括：

在所述终端播报语音识别服务器发送的播报结果的过程中，通过回声消除技术，消除播放的从文本到语音TTS语音的输入，仅接收所述用户输入的语音。
根据权利要求8或9所述的方法，其特征在于，所述将所述用户输入的语音发送给所述语音识别服务器包括：

将所述用户输入的预定长度的语音发送给所述语音识别服务器。
根据权利要求8或9所述的方法，其特征在于，所述将所述用户输入的语音发送给所述语音识别服务器包括：

通过静音检测技术确定所述用户输入的语音中每句话的起始和结束，只将包含语音的录音发送给所述语音识别服务器。
一种人机语音交互装置，其特征在于，包括：

接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述语音识别服务器发送的语音识别结果，所述语音识别结果是所述语音识别服务器对使用所述终端的用户输入的语音进行识别后发送的；以及在发送模块将所述语音识别结果发送给关键词理解服务器进行上下文理解之后，接收所述关键词理解服务器发送的上下文理解的结果；

所述发送模块，用于将所述接收模块接收的语音识别结果发送给关键词理解服务器进行上下文理解；

保存模块，用于保存所述接收模块接收的上下文理解的结果；

确定模块，用于根据所述保存模块保存的上下文理解的结果确定所述用户输入的语音的意图；

生成模块，用于根据所述确定模块确定的意图生成播报结果；

所述发送模块，还用于将所述生成模块生成的播报结果发送给所述语音识别服务器，以便所述语音识别服务器将所述播报结果发送给所述终端进行语音播报。
根据权利要求12所述的装置，其特征在于，

所述生成模块，具体用于根据所述确定模块确定的意图从资源接入服务器获取与所述意图对应的信息，根据获取的信息生成播报结果。
根据权利要求12所述的装置，其特征在于，

所述接收模块，具体用于接收所述语音识别服务器在确定获得的语音识别结果达到预定的置信度之后，发送的达到所述预定的置信度的语音识别结果。
根据权利要求12-14任意一项所述的装置，其特征在于，还包括：

获取模块，用于根据所述用户的用户信息和当前状态，获得适合推荐给所述用户的内容；

所述发送模块，还用于触发云推送服务，通过所述云推送服务将所述适合推荐给所述用户的内容发送给所述终端，并发起与所述终端的对话。
一种人机语音交互装置，其特征在于，包括：

接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收所述终端发送的语音，所述语音是使用所述终端的用户输入给所述终端的；以及在发送模块将语音识别结果发送给多轮对话服务器之后，接收所述多轮对话服务器发送的播报结果；

识别模块，用于对所述接收模块接收的语音进行识别；

所述发送模块，用于将所述识别模块识别的语音识别结果发送给多轮对话服务器，以便所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；以及在所述接收模块接收所述多轮对话服务器发送的播报结果之后，将所述播报结果发送给所述终端进行语音播报。
根据权利要求16所述的装置，其特征在于，

所述识别模块，具体用于通过静音检测技术确定所述语音中每句话的起始和结束。
根据权利要求16或17所述的装置，其特征在于，

所述发送模块，具体用于在确定获得的语音识别结果达到预定的置信度之后，将达到所述预定的置信度的语音识别结果发送给多轮对话服务器。
一种人机语音交互装置，其特征在于，包括：

接收模块，用于在终端对语音识别服务器发送的播报结果进行语音播报的过程中，接收使用所述终端的用户输入的语音；以及在发送模块将所述语音发送给所述语音识别服务器之后，接收所述语音识别服务器发送的播报结果，所述语音识别服务器发送的播报结果是所述多轮对话服务器发送给所述语音识别服务器的；

所述发送模块，用于将所述接收模块接收的语音发送给所述语音识别服务器，以使所述语音识别服务器对所述语音进行识别，并将语音识别结果发送给多轮对话服务器，由所述多轮对话服务器将所述语音识别结果发送给关键词理解服务器进行上下文理解，接收并保存所述关键词理解服务器发送的上下文理解的结果，以及根据保存的上下文理解的结果确定所述用户输入的语音的意图，并根据所述意图生成播报结果；

播报模块，用于播报所述接收模块接收的播报结果。
根据权利要求19所述的装置，其特征在于，

所述接收模块，具体用于在所述终端播报语音识别服务器发送的播报结果的过程中，通过回声消除技术，消除播放的从文本到语音TTS语音的输入，仅接收所述用户输入的语音。
根据权利要求19或20所述的装置，其特征在于，

所述发送模块，具体用于将所述用户输入的预定长度的语音发送给所述语音识别服务器。
根据权利要求19或20所述的装置，其特征在于，

所述发送模块，具体用于通过静音检测技术确定所述用户输入的语音中每句话的起始和结束，只将包含语音的录音发送给所述语音识别服务器。