CN107146623B

CN107146623B - 基于人工智能的语音识别方法、装置和系统

Info

Publication number: CN107146623B
Application number: CN201710223526.XA
Authority: CN
Inventors: 杜念冬; 谢延; 唐海员
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2021-03-16
Anticipated expiration: 2037-04-07
Also published as: CN107146623A; US20180293987A1; US10360913B2

Abstract

本发明提出一种基于人工智能的语音识别方法、装置和系统，其中，方法包括：在语音识别过程中，采集待识别的语音数据；通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据；在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。该方法通过两条并行的数据流，以流式数据传输的方式实现了待识别语音数据的实时上传和语音识别结果的实时下发，解决了现有技术中无法实现数据的实时上传和实时下发的技术问题。

Description

基于人工智能的语音识别方法、装置和系统

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于人工智能的语音识别方法、装置和系统。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

目前语音识别主要是通过多个Http连接发送语音数据到语音服务端，语音服务端将语音数据重新整合后进行识别。

但是，在实现本发明的过程中发明人发现现有技术至少存在以下问题：通过多个Http连接进行语音识别的过程中，语音服务端需要对语音数据重新排序整合，无法实现数据的实时上传和下发，并且每个连接都会额外消耗Http头等结构，消耗流量大。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音识别方法，以实现待识别语音数据的实时上传和语音识别结果的实时下发。

本发明的第二个目的在于提出一种基于人工智能的语音识别方法。

本发明的第三个目的在于提出一种人工智能的语音识别装置。

本发明的第四个目的在于提出一种人工智能的语音识别装置。

本发明的第五个目的在于提出一种客户端。

本发明的第六个目的在于提出一种服务端。

本发明的第七个目的在于提出一种基于人工智能的语音识别系统。

本发明的第八个目的在于提出一种非临时性计算机可读存储介质。

本发明的第九个目的在于提出一种非临时性计算机可读存储介质。

本发明的第十个目的在于提出一种计算机程序产品。

本发明的第十一个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音识别方法，包括：在语音识别过程中，采集待识别的语音数据；通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据；在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。

本发明实施例的基于人工智能的语音识别方法，通过与服务端的上行连接向服务端发送包含待识别的语音数据的上行数据流，并行通过与服务端的下行连接接收包含语音识别的结果的下行数据流，通过两条并行的数据流，以流式数据传输的方式实现待识别语音数据的实时上传和语音识别结果的实时下发，解决了现有技术中无法实现数据的实时上传和实时下发的技术问题。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语音识别方法，包括：通过与客户端的上行连接，接收客户端发送的上行数据流；对上行数据流中的语音数据进行语音识别，得到结果数据；在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

本发明实施例的基于人工智能的语音识别方法，通过与客户端的上行连接接收包含待识别语音数据的上行数据流，对待语音数据进行语音识别，并行通过与客户端的下行连接向客户端发送包含语音识别结果的下行数据流，通过两条并行的数据流，以流式数据传输的方式实现待识别语音数据的实时上传和语音识别结果的实时下发，解决了现有技术中无法实现数据的实时上传和实时下发的技术问题。

为达上述目的，本发明第三方面实施例提出了一种基于人工智能的语音识别装置，包括：采集模块，用于在语音识别过程中，采集待识别的语音数据；发送模块，用于通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据；接收模块，用于在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。

为达上述目的，本发明第四方面实施例提出了一种基于人工智能的语音识别装置，包括：接收模块，用于通过与客户端的上行连接，接收客户端发送的上行数据流；处理模块，用于对上行数据流中的语音数据进行语音识别，得到结果数据；发送模块，用于在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

本发明实施例的基于人工智能的语音识别方法，通过与客户端的上行连接接收客户端发送的包含待识别语音数据的上行数据流，对待语音数据进行语音识别，并行通过与客户端的下行连接向客户端发送包含语音识别结果的下行数据流，通过两条并行的数据流，以流式数据传输的方式实现待识别语音数据的实时上传和语音识别结果的实时下发，解决了现有技术中无法实现数据的实时上传和实时下发的技术问题。

为达上述目的，本发明第五方面实施例提出了一种客户端，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：在语音识别过程中，采集待识别的语音数据；通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括所述语音数据；在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是所述服务端根据语音数据进行语音识别得到的。

为达上述目的，本发明第六方面实施例提出了一种服务端，处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：通过与客户端的上行连接，接收客户端发送的上行数据流；对上行数据流中的语音数据进行语音识别，得到结果数据；在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

为达上述目的，本发明第七方面实施例提出了一种基于人工智能的语音识别系统，包括第五方面实施例的客户端，以及第六方面实施例的服务端；客户端和服务端之间通过上行连接和下行连接进行通信。

为了实现上述目的，本发明第八方面实施例提出了一种非临时性计算机可读存储介质，当存储介质中的指令由客户端处理器被执行时，使得客户端能够执行一种基于人工智能的语音识别方法，方法包括：在语音识别过程中，采集待识别的语音数据；通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据；在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。

为了实现上述目的，本发明第九方面实施例提出了一种非临时性计算机可读存储介质，当存储介质中的指令由服务端处理器被执行时，使得服务端能够执行一种基于人工智能的语音识别方法，方法包括：通过与客户端的上行连接，接收客户端发送的上行数据流；对上行数据流中的语音数据进行语音识别，得到结果数据；在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

为了实现上述目的，本发明第十方面实施例提出了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行一种基于人工智能的语音识别方法，包括：在语音识别过程中，采集待识别的语音数据；通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据；在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。

为了实现上述目的，本发明第十一方面实施例提出了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行一种基于人工智能的语音识别方法，包括：通过与客户端的上行连接，接收客户端发送的上行数据流；对上行数据流中的语音数据进行语音识别，得到结果数据；在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于人工智能的语音识别方法的流程示意图；

图2为本发明实施例所提供的在一次语音识别过程中，移动终端与服务端之间建立的两条Http连接的效果示意图；

图3为本发明实施例所提供的一种数据内容的结构的示意图；

图4为本发明实施例所提供的另一种基于人工智能的语音识别方法的流程示意图；

图5为本发明实施例所提供的一种基于人工智能的语音识别装置的结构示意图；

图6为本发明实施例所提供的另一种基于人工智能的语音识别装置的结构示意图；

图7为本发明实施例所提供的又一种基于人工智能的语音识别装置的结构示意图；

图8为本发明实施例所提供的再一种基于人工智能的语音识别装置的结构示意图；

图9为本发明实施例所提供的一种服务端的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的语音识别方法、装置和系统。

图1为本发明实施例所提供的一种基于人工智能的语音识别方法的流程示意图。

随着语音识别技术的成熟与发展，人们对语音识别的要求也越来越高。比如，需要一种语音识别方法能够支持用户在说话的同时，服务端能够实时接收用户的语音数据，并且实时下发识别结果。

目前语音识别主要是通过多个Http连接发送语音数据到语音服务端，语音服务端将语音数据重新整合后进行识别。但是，现有的语音识别方法中，服务端需要将语音数据重新整合后识别，无法实现语音数据的实时上传和语音识别结果的实时下发。

针对这一问题，本发明实施例提供了一种基于人工智能的语音识别方法，以实现待识别语音数据的实时上传和语音识别结果的实时下发。如图1所示，该基于人工智能的语音识别方法，包括以下步骤：

S101，在语音识别过程中，采集待识别的语音数据。

在本发明的一个实施例中，在语音识别的过程中，可用具有语音识别功能的移动终端例如手机、平板电脑等，采集待识别的语音数据。例如，某用户想通过手机上的浏览器搜索2017年有哪些热门电影，这时用户可打开手机上的百度浏览器，按住语音按钮语音输入“2017热门电影”，以使手机采集待识别的语音数据。

S102，通过与服务端的上行连接，向服务端发送上行数据流。

其中，上行数据流包括语音数据。

在本发明的一个实施例中，移动终端采集到待识别的语音数据后，可向服务端同时发送两条Http连接请求，以使移动终端与服务端之间建立两条连接，分别为上行连接和下行连接，以通过上行连接向服务端发送上行数据流，通过下行连接接收服务端发送的下行数据流。

为了区分同一个语音识别过程中的两条连接，可通过连接的统一资源定位符(Uniform Resource Locator，简称URL)中的up和down来进行区分，连接的URL中包含up的是上行连接，包含down的为下行连接。

为了保证两条Http连接请求是一次语音识别过程，可使上行连接的URL与下行连接的URL包含语音识别过程的会话标识，且会话标识相同，使会话标识与语音识别过程一一对应，以使服务端根据会话标识，确定上行连接与下行连接之间的对应关系。

如图2所示，在一次语音识别过程中，移动终端与服务端建立了两条Http连接，两条连接的URL中会话标识sn相同，值均为123。通过比较两条连接的URL可知，Http://speech.baidu.com/up？sn＝123中包含up，可知该URL为上行连接的URL，Http://speech.baidu.com/down？sn＝123中包含down，该URL为下行连接的URL。

在本发明的一个实施例中，上行连接与下行连接是基于Http协议的，可以利用Http chunked协议实现数据的流式上传，以及识别结果的流式下发，从而实现移动终端与服务端之间全双工通信。

并且，该协议指示了上行数据流和下行数据流中数据内容的结构，其中，数据内容的结构包括：数据类型、数据长度和取值。数据结构如图3所示，Tpye表示数据类型、Length表示当前数据长度、Value为数据内容。其中，数据类型，用于指示数据内容的数据处理方式。

本发明实施例中，由于数据类型可以是多种不同的类型，因此Http协议指定的数据内容的结构，可以方便的进行数据扩展。并且，通过该数据内容的结构和两条Http连接传输数据的方案，与现有的通过多个Http连接传输数据的方案相比，精简了用户流量，节省了语音识别过程中的网络消耗。

移动终端与服务端建立Http连接后，可将语音数据按照上述数据内容结构进行封装后，通过与服务端的上行连接将包含语音数据的上行数据流发送至服务端。

需要说明的是，在语音识别过程中，移动终端发送到服务端的数据除了语音数据外，也可能包含参数数据如移动终端的标识、型号等，以及应用数据如第三方应用数据等。因此，在向服务端发送上行数据流之前，可根据语音数据、参数数据和应用数据对应的数据类型，进行封装，得到符合Http协议的第一数据内容，将第一数据内容添加到上行数据流中，发送到服务端。

S103，在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流。

其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。

在本发明的一个实施例中，移动终端在向服务端发送包括语音数据的上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的包含语音识别结果的下行数据流。

移动终端接收到下行数据流中的第二数据内容后，查询数据类型，根据数据类型所指示的数据处理方式，对第二数据内容进行处理。例如，如果查询到某数据内容的数据类型所指示的数据处理方式是语音识别结果数据，可以将数据结果展示给用户。

上述实施例是从客户端侧描述的基于人工智能的语音识别方法，为了清楚说明上一实施例，下面结合图4从服务端侧描述本发明实施例提出的基于人工智能的语音识别方法。

如图4所示，该基于人工智能的语音识别方法，包括以下步骤：

S401，通过与客户端的上行连接，接收客户端发送的上行数据流。

在本发明的一个实施例中，当用户使用客户端提供的语音识别功能时，服务端根据接收到的客户端发送的建立两条Http连接的请求，与客户端之间建立两条连接，分别为上行连接和下行连接，关于上行连接和下行连接的解释说明参见上述实施例，在此不再赘述。

在语音识别过程中，服务端可通过与客户端的上行连接，接收客户端发送的上行数据流，其中，上行数据流中的第一内容包括待识别的语音数据，除了语音数据外还可包含参数数据、应用数据等。

S402，对上行数据流中的语音数据进行语音识别，得到结果数据。

在本发明的一个实施例中，服务端接收到客户端发送的第一数据内容后，对第一数据内容查询数据内容的结构中的数据类型。对于查询出的数据类型所指示的数据处理方式为语音识别的数据，进行语音识别，得到语音识别的结果数据。

在本发明的一个实施例中，如果查询出数据类型所指示的数据处理方式不为语音识别，例如参数数据、或者第三方应用数据等等，对第一数据内容进行相应的数据处理。例如，对于第一数据内容中包含客户端标识的参数数据，服务端根据参数数据可以确定发送待识别语音数据的客户端的标识；如果是第三方应用数据，服务端可以根据语音识别结果和第三方应用数据去第三方获取相关的资源数据。举例来说，用户在客户端语音输入“今天的天气如何”，服务端根据语音数据识别出用户想查询今天的天气情况，这时服务端可根据语音识别结果和第一数据内容中的第三方应用数据，向第三方天气预报平台获取今天的天气情况。

S403，在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流。

其中，下行数据流包括结果数据。

在本发明的一个实施例中，由于会话标识与语音识别过程一一对应，因此服务端在通过上行连接接收客户端发送的上行数据流的过程中，可根据上行连接的URL中包含的会话标识，查询URL中包含相同会话标识的下行连接，并行通过查询到的下行连接向客户端发送下行数据流。具体而言，服务端可对第一数据内容的数据处理得到的参数数据、结果数据和应用数据，查询对应的数据类型，进行封装，得到符合Http协议的第二数据内容，并将第二数据内容添加到下行数据流中，通过下行连接发送至客户端。

进一步而言，如果第二数据内容中含有第三方应用数据，在第三方资源数据较大的情况下，客户端可根据第三方应用数据与第三方服务进行对接，两者采用上述流式传输协议。第三方服务通过上述流式传输协议将资源数据传输至客户端，可使客户端更快地接收资源数据。对于资源数据较大的情况，客户端可以在接收到部分数据时即进行相关的预处理或者加载操作，从而可以减少用户的等待时间。

可见，本发明实施例提出的流式传输协议，在复杂的语音识别场景中，可以更好的对接第三方资源。

为了实现上述实施例，本发明还提出一种基于人工智能的语音识别装置。

图5为本发明实施例提供的一种基于人工智能的语音识别装置的结构示意图。

如图5所示，该基于人工智能的语音识别装置包括：采集模块510、发送模块520、接收模块530。

采集模块510用于在语音识别过程中，采集待识别的语音数据。

发送模块520用于通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据。

接收模块530用于在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。

基于上述实施例，本发明实施例还提供了一种基于人工智能的语音识别装置的可能的实现方式。如图6所示，该基于人工智能的语音识别装置还可包括：封装模块540、处理模块550。

封装模块540用于根据语音数据、参数数据和/或应用数据对应的数据类型，进行封装，得到符合协议的第一数据内容；将第一数据内容添加到上行数据流中。

处理模块550用于对下行数据流中的第二数据内容，查询数据类型；采用数据类型所指示的数据处理方式，对第二数据内容进行数据处理。

在本发明的一个实施例中，上行连接的URL与下行连接的URL包含语音识别过程的会话标识，以使服务端根据会话标识，确定上行连接与下行连接之间的对应关系。上行连接与下行连接基于Http协议，协议指示了上行数据流和下行数据流中数据内容的结构，数据内容的结构包括：数据类型、数据长度和/或取值。其中，数据类型，用于指示数据内容的数据处理方式。

需要说明的是，前述对基于人工智能的语音识别方法实施例的解释说明也适用于该实施例的基于人工智能的语音识别装置，此处不再赘述。

本发明实施例的基于人工智能的语音识别装置，通过与服务端的上行连接向服务端发送包含待识别的语音数据的上行数据流，并行通过与服务端的下行连接接收包含语音识别的结果的下行数据流，通过两条并行的数据流，以流式数据传输的方式实现待识别语音数据的实时上传和语音识别结果的实时下发，解决了现有技术中无法实现数据的实时上传和实时下发的技术问题。

为达上述目的，本发明还提出了另一种基于人工智能的语音识别装置。

如图7所示，该基于人工智能的语音识别装置包括：接收模块710、处理模块720、发送模块730。

接收模块710用于通过与客户端的上行连接，接收客户端发送的上行数据流。

处理模块720用于对上行数据流中的语音数据进行语音识别，得到结果数据。

处理模块720还用于对上行数据流中的第一数据内容，查询数据类型；查询出数据类型所指示的数据处理方式为语音识别。

发送模块730用于在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

基于上述实施例，本发明实施例还提供了一种基于人工智能的语音识别装置的可能的实现方式，在上一实施例的基础上，如图8所示，该装置还包括：封装模块740。

封装模块740用于若查询出数据类型所指示的数据处理方式不为语音识别，采用数据类型所指示的数据处理方式，对第一数据内容进行数据处理；根据数据处理得到的参数数据、语音数据和/或应用数据，查询对应的数据类型，进行封装，得到符合所述协议的第二数据内容；将第二数据内容添加到下行数据流中。

本发明实施例的基于人工智能的语音识别装置，通过与客户端的上行连接接收包含待识别语音数据的上行数据流，对待语音数据进行语音识别，并行通过与客户端的下行连接向客户端发送包含语音识别结果的下行数据流，通过两条并行的数据流，以流式数据传输的方式实现待识别语音数据的实时上传和语音识别结果的实时下发，解决了现有技术中无法实现数据的实时上传和实时下发的技术问题。

为了实现上述实施例，本发明还提出一种客户端，包括：处理器，以及用于存储处理器可执行指令的存储器。

其中，处理器被配置为：在语音识别过程中，采集待识别的语音数据；通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据；在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是所述服务端根据语音数据进行语音识别得到的。

为了实现上述实施例，本发明还提出一种服务端，包括：处理器，以及用于存储处理器可执行指令的存储器。

其中，处理器被配置为：通过与客户端的上行连接，接收客户端发送的上行数据流；对上行数据流中的语音数据进行语音识别，得到结果数据；在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

为了清楚说明前述的服务端的具体结构，图9示出了适于用来实现本发明实施方式的示例性服务端12的框图。图9显示的服务端12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，服务端12以通用计算设备的形式表现。服务端12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，简称ISA)总线，微通道体系结构(Micro Channel Architecture，简称MAC)总线，增强型ISA总线、视频电子标准(Vedio Electronic Standard Association，简称VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，简称PCI)总线。

服务端12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务端12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，简称RAM)30和/或高速缓存存储器32。服务端12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

服务端12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该服务端12交互的设备通信，和/或与使得该服务端12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，服务端12还可以通过网络适配器20与一个或者多个网络(例如局域网，广域网和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与服务端12的其它模块通信。应当明白，尽管图中未示出，可以结合服务端12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、独立磁盘冗余阵列(Redundant Array of Independent Disks，简称RAID)系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，实现上述基于人工智能的语音识别方法。

为达上述目的，本发明提出了一种基于人工智能的语音识别系统，包括上述实施例的客户端，以及服务端；客户端和服务端之间通过上行连接和下行连接进行通信。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当存储介质中的指令由客户端处理器执行时，使得客户端能够执行一种基于人工智能的语音识别方法，方法包括：在语音识别过程中，采集待识别的语音数据；通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据；在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。

为了实现上述实施例，本发明还提出另一种非临时性计算机可读存储介质，当存储介质中的指令由服务端处理器执行时，使得服务端能够执行一种基于人工智能的语音识别方法，方法包括：通过与客户端的上行连接，接收客户端发送的上行数据流；对上行数据流中的语音数据进行语音识别，得到结果数据；在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行一种基于人工智能的语音识别方法，方法包括：在语音识别过程中，采集待识别的语音数据；通过与服务端的上行连接，向服务端发送上行数据流，其中，上行数据流包括语音数据；在向服务端发送上行数据流的过程中，并行通过与服务端的下行连接，接收服务端发送的下行数据流；其中，下行数据流，包括结果数据，结果数据是服务端根据语音数据进行语音识别得到的。

为了实现上述实施例，本发明还提出另一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行一种基于人工智能的语音识别方法，方法包括：通过与客户端的上行连接，接收客户端发送的上行数据流；对上行数据流中的语音数据进行语音识别，得到结果数据；在接收客户端发送的上行数据流的过程中，并行通过与客户端的下行连接，向客户端发送下行数据流，其中，下行数据流包括结果数据。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音识别方法，其特征在于，包括以下步骤：

在语音识别过程中，采集待识别的语音数据；

通过与服务端的上行连接，向所述服务端发送上行数据流，其中，所述上行数据流包括所述语音数据；

在向所述服务端发送所述上行数据流的过程中，并行通过与所述服务端的下行连接，接收所述服务端发送的下行数据流；其中，所述下行数据流，包括结果数据，所述结果数据是所述服务端根据所述语音数据进行语音识别得到的；

所述上行连接与所述下行连接基于Http协议，所述协议指示了上行数据流和下行数据流中数据内容的结构，所述数据内容的结构包括：数据类型、数据长度和/或取值；

其中，所述数据类型，用于指示所述数据内容的数据处理方式。

2.根据权利要求1所述的语音识别方法，其特征在于，所述上行连接的URL与所述下行连接的URL包含所述语音识别过程的会话标识，以使所述服务端根据所述会话标识，确定所述上行连接与所述下行连接之间的对应关系。

3.根据权利要求1所述的语音识别方法，其特征在于，所述向所述服务端发送上行数据流之前，还包括：

根据语音数据、参数数据和/或应用数据对应的数据类型，进行封装，得到符合所述协议的第一数据内容；

将所述第一数据内容添加到所述上行数据流中。

4.根据权利要求1所述的语音识别方法，其特征在于，所述通过与所述服务端的下行连接，接收所述服务端发送的下行数据流之后，还包括：

对所述下行数据流中的第二数据内容，查询数据类型；

采用所述数据类型所指示的数据处理方式，对所述第二数据内容进行数据处理。

5.一种基于人工智能的语音识别方法，其特征在于，包括以下步骤：

通过与客户端的上行连接，接收所述客户端发送的上行数据流；

对所述上行数据流中的语音数据进行语音识别，得到结果数据；

在接收所述客户端发送的上行数据流的过程中，并行通过与所述客户端的下行连接，向所述客户端发送下行数据流，其中，所述下行数据流包括所述结果数据；

6.根据权利要求5所述的语音识别方法，其特征在于，所述通过与所述客户端的下行连接，向所述客户端发送下行数据流，包括：

根据所述上行连接的URL中包含的会话标识，查询URL中包含相同会话标识的下行连接，其中，所述会话标识与语音识别过程一一对应；

通过所述查询到的下行连接，向所述客户端发送所述下行数据流。

7.根据权利要求5所述的语音识别方法，其特征在于，所述对所述上行数据流中的语音数据进行语音识别，得到结果数据之前，还包括：

对所述上行数据流中的第一数据内容，查询数据类型；

查询出所述数据类型所指示的数据处理方式为语音识别。

8.根据权利要求7所述的语音识别方法，其特征在于，所述查询数据类型之后，还包括：

若查询出所述数据类型所指示的数据处理方式不为语音识别，采用所述数据类型所指示的数据处理方式，对所述第一数据内容进行数据处理；

根据数据处理得到的参数数据、结果数据和/或应用数据，查询对应的数据类型，进行封装，得到符合所述协议的第二数据内容；

将所述第二数据内容添加到所述下行数据流中。

9.一种基于人工智能的语音识别装置，其特征在于，包括：

采集模块，用于在语音识别过程中，采集待识别的语音数据；

发送模块，用于通过与服务端的上行连接，向所述服务端发送上行数据流，其中，所述上行数据流包括所述语音数据；

接收模块，用于在向所述服务端发送所述上行数据流的过程中，并行通过与所述服务端的下行连接，接收所述服务端发送的下行数据流；其中，所述下行数据流，包括结果数据，所述结果数据是所述服务端根据所述语音数据进行语音识别得到的；

10.根据权利要求9所述的语音识别装置，其特征在于，所述上行连接的URL与所述下行连接的URL包含所述语音识别过程的会话标识，以使所述服务端根据所述会话标识，确定所述上行连接与所述下行连接之间的对应关系。

11.根据权利要求9所述的语音识别装置，其特征在于，所述装置，还包括：

封装模块，用于根据语音数据、参数数据和/或应用数据对应的数据类型，进行封装，得到符合所述协议的第一数据内容；将所述第一数据内容添加到所述上行数据流中。

12.根据权利要求9所述的语音识别装置，其特征在于，所述装置，还包括：

处理模块，用于对所述下行数据流中的第二数据内容，查询数据类型；采用所述数据类型所指示的数据处理方式，对所述第二数据内容进行数据处理。

13.一种基于人工智能的语音识别装置，其特征在于，包括：

接收模块，用于通过与客户端的上行连接，接收所述客户端发送的上行数据流；

处理模块，用于对所述上行数据流中的语音数据进行语音识别，得到结果数据；

发送模块，用于在接收所述客户端发送的上行数据流的过程中，并行通过与所述客户端的下行连接，向所述客户端发送下行数据流，其中，所述下行数据流包括所述结果数据；

14.根据权利要求13所述的语音识别装置，其特征在于，所述发送模块，具体用于：

15.根据权利要求13所述的语音识别装置，其特征在于，所述处理模块，还用于：

对所述上行数据流中的第一数据内容，查询数据类型；查询出所述数据类型所指示的数据处理方式为语音识别。

16.根据权利要求15所述的语音识别装置，其特征在于，所述装置，还包括：

封装模块，用于若查询出所述数据类型所指示的数据处理方式不为语音识别，采用所述数据类型所指示的数据处理方式，对所述第一数据内容进行数据处理；根据数据处理得到的参数数据、语音数据和/或应用数据，查询对应的数据类型，进行封装，得到符合所述协议的第二数据内容；将所述第二数据内容添加到所述下行数据流中。

17.一种客户端，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：

在语音识别过程中，采集待识别的语音数据；

18.一种服务端，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：

19.一种基于人工智能的语音识别系统，其特征在于，包括如权利要求17的客户端，以及如权利要求18的服务端；

所述客户端和所述服务端之间通过上行连接和下行连接进行通信。