CN102855875B

CN102855875B - 基于外部开启控制语音输入的网络语音转换控制系统和方法

Info

Publication number: CN102855875B
Application number: CN201210329762.7A
Authority: CN
Inventors: 吴玉胜; 李新岗
Original assignee: SHENZHEN SILICON ELECTRONICS CO Ltd
Current assignee: SHENZHEN SILICON ELECTRONICS CO Ltd
Priority date: 2012-09-07
Filing date: 2012-09-07
Publication date: 2015-05-06
Anticipated expiration: 2032-09-07
Also published as: CN102855875A

Abstract

本发明涉及一种基于外部开启控制语音输入的网络语音转换控制系统和方法，由所述开启模块开启所述网络连接模块，使所述终端与所述网络服务器建立网络连接，由所述语音输入单元输入语音；所述终端接收所述语音输入单元输入的语音并上传到网络服务器；所述终端与所述网络服务器并行对所述语音信息进行识别转换；所述网络服务器和所述终端共同执行或由所述终端传送或单独执行语音识别转换结果。本发明一种基于外部开启控制语音输入的网络语音转换控制系统和方法，通过外部开启终端与所述网络服务器建立网络连接，然后输入语音，通过网络进行转换从而获取语音信息，本发明利用了网络语音转换的功能强大，效果好，同时，采用外部开启控制，通用性强。

Description

基于外部开启控制语音输入的网络语音转换控制系统和方法

技术领域

本发明涉及一种语音转换控制系统和方法，尤其涉及一种基于外部开启控制语音输入的网络语音转换控制系统和方法。

背景技术

随着社会的发展及语音技术的提高，语音控制越来越来广泛应用。现有语音控制大多在设备上设置嵌入语音识别芯片，存储的语音指令及内容，通过语音识别后调用存储的指令和内容，从而进行语音控制。现有技术基于网络进行语音识别，则通常采用与电脑或智能设备直接通过网络连接进行语音输入和识别，并不具备外部开启控制的网络语音转换控制系统和方法。现有技术的语音识别转换适用于专门的电脑或智能设备，不具备通用性，不能充分利用网络语音转换的功能，需要开发专门的语音输入及控制系统。同时，现有语音输入识别多需要标准的语音，对于自然语音则难以准确执行。

发明内容

本发明解决的技术问题是：构建一种基于外部开启控制语音输入的网络语音转换控制系统和方法，克服现有技术语音识别转换不具备通用性及不能充分利用网络语音转换的功能以及不能使用自然语音进行转换执行的技术问题。

本发明的技术方案是：构建一种基于外部开启控制语音输入的网络语音转换控制系统，包括输入语音的语音输入单元、传送语音信息的终端、进行语音识别转换的网络服务器，所述终端包括连接所述网络服务器的网络连接模块、进行语音识别的第一语音转换单元，所述语音输入单元连接所述终端，所述语音输入单元包括开启所述网络连接模块建立网络连接的开启模块，所述网络服务器包括对接收的所述终端传送的语音信息进行识别转换的第二语音转换单元，所述开启模块开启所述终端的所述网络连接模块建立网络连接，所述语音输入单元输入语音，所述终端将语音信息上传到的所述网络服务器，所述网络服务器的第二语音转换单元和所述终端的第一语音转换单元将语音信息并行进行识别转换，该语音识别转换结果由所述网络服务器和所述终端共同执行或由所述终端传送或单独执行。

本发明的进一步技术方案是：所述第二语音转换单元包括还包括语音识别模块和语义识别模块，所述语义识别模块配合所述语音识别模块识别的语音判断出所述语音输入单元输入语音的语义。

本发明的进一步技术方案是：所述网络服务器和所述终端的语音识别转换结果均包括语音识别转换的置信度，所述终端设置语音识别转换结果的置信度阈值，当所述终端语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述终端语音识别转换结果的置信度小于该置信度阈值时，取所述网络服务器语音识别转换结果的置信度和所述终端语音识别转换结果的置信度中较大值的语音识别转换结果。

本发明的进一步技术方案是：所述网络服务器和所述终端均设置或其中任意一个设置存储语音指令及与语音指令相配合的内容的存储单元。

本发明的进一步技术方案是：所述语音输入单元通过USB接口连接所述终端。

本发明的进一步技术方案是：所述终端为电脑、移动通讯终端、电子玩具终端、家用电器中的一种或多种。

本发明的技术方案是：构建一种基于外部开启控制语音输入的网络语音转换控制方法，包括输入语音的语音输入单元、传送语音信息的终端、进行语音识别转换的网络服务器，所述终端包括网络连接模块，所述语音输入单元包括开启所述网络连接模块建立网络连接的开启模块，所述网络语音转换控制方法包括如下步骤：

开启终端并输入语音：由所述开启模块开启所述网络连接模块，使所述终端与所述网络服务器建立网络连接，由所述语音输入单元输入语音；

接收并上传语音：所述终端接收所述语音输入单元输入的语音并上传到网络服务器；

语音识别转换：所述终端与所述网络服务器并行对所述语音信息进行识别转换；

执行识别转换结果：所述网络服务器和所述终端共同执行或由所述终端传送或单独执行语音识别转换结果。

本发明的进一步技术方案是：还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性，在语音识别转换步骤中，还包括进行语义识别转换，具体包括如下步骤：

分词及语义消歧：根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧；

意图分类及参数提取：对分词及语义消歧的结果进行意图分类，并进行参数提取。

本发明的进一步技术方案是：在输入不能识别语音信息或不能执行的语音信息时，通过所述终端输入语音与所述网络服务器进行交互语音，以获取所述网络服务器能执行的语音信息。

本发明的进一步技术方案是：语音识别转换结果包括指令或指令和参数，所述参数包括语音转换的文字内容。

本发明的技术效果是：本发明一种基于外部开启控制语音输入的网络语音转换控制系统和方法，由所述开启模块开启所述网络连接模块，使所述终端与所述网络服务器建立网络连接，由所述语音输入单元输入语音；所述终端接收所述语音输入单元输入的语音并上传到网络服务器；所述终端与所述网络服务器并行对所述语音信息进行识别转换；所述网络服务器和所述终端共同执行或由所述终端传送或单独执行语音识别转换结果。本发明一种基于外部开启控制语音输入的网络语音转换控制系统和方法，通过外部开启终端与所述网络服务器建立网络连接，然后输入语音，通过网络进行转换从而获取语音信息，本发明利用了网络语音转换的功能强大，效果好，同时，采用外部开启控制，通用性强。

附图说明

图1为本发明的结构示意图。

图2为本发明的流程图。

具体实施方式

下面结合具体实施例，对本发明技术方案进一步说明。

如图1所示，本发明的具体实施方式是：构建一种基于外部开启控制语音输入的网络语音转换控制系统，包括输入语音的语音输入单元1、传送语音信息的终端2、进行语音识别转换的网络服务器3，所述终端2包括连接所述网络服务器3的网络连接模块21、进行语音识别的第一语音转换单元24，所述语音输入单元1连接所述终端2，所述语音输入单元1包括开启所述网络连接模块建立网络连接的开启模块11，所述网络服务器3包括对接收的所述终端2传送的语音信息进行识别转换的第二语音转换单元31，所述开启模块11开启所述终端2的所述网络连接模块21建立网络连接，所述语音输入单元1输入语音，所述终端2将语音信息上传到的所述网络服务器3，所述网络服务器3的第二语音转换单元31将上传的语音信息进行识别转换，所述网络服务器3的第二语音转换单元31和所述终端2的第一语音转换单元24将语音信息并行进行识别转换，该语音识别转换结果由所述网络服务器3和所述终端2共同执行或由所述终端2单独执行。

如图1所示，本发明的具体实施过程是：所述语音输入单元1连接所述终端2，所述语音输入单元1输入语音信息，所述开启模块11开启所述终端2的网络连接模块21，所述终端2通过所述网络连接模块21与所述网络服务器3建立连接，所述终端2接收所述语音输入单元1输入的语音信息并传送到所述网络服务器3，所述网络服务器3接收所述终端2传送的语音信息，所述第二语音转换单元31与第一语音转换单元24将语音信息的并行进行识别转换，该识别转换结果包括指令或指令和参数，所述网络服务器3执行所述语音转换结果并将执行结果传送到所述终端2，同所述终端2执行或者将该执行结果再进行传送以完成所述网络服务器3和所述终端2共同执行该语音识别转换结果；所述网络服务器3将所述语音转换结果传送到所述终端2由所述终端2单独执行或者传送出去，具体来说，所述终端2对获取的语音转换结果进行执行实现控制，或者传送到其它设备进行执行实现控制。本发明具体实施例中，所述第二语音转换单元31包括进行语音识别的语音识别模块32，所述语音转换过程包括对接收的语音信息进行语音识别转换。所述语音输入单元1与所述终端2通过USB接口进行连接，所述语音输入单元1具备声卡的功能，将输入的语音信号转换后通过USB接收口传送到所述终端2。所述终端2为电脑、移动通讯终端、电子玩具终端、家用电器中的一种或多种。

如图1所示，本发明的优选实施方式是：所述终端2和所述网络服务器3的语音识别转换结果均包括语音识别转换的置信度。所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度，也就是概率是对个人信念合理性的量度.概率的置信度解释表明，事件本身并没有什么概率，事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。语音识别转换的置信度即对语音识别转换结果真实性的相信程度。所述网络服务器3与所述终端2并行对语音信息进行识别转换时，所述终端2设置语音识别转换结果的置信度阈值，当所述终端2语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述网络服务器语音识别转换结果的置信度小于该置信度阈值时，取所述终端2语音识别转换结果的置信度和所述网络服务器3语音识别转换结果的置信度中较大值的语音识别转换结果。

如图1所示，本发明的优选实施方式是：在输入不能识别语音信息或不能执行的语音信息时，通过所述终端2输入语音进行交互语音，以获取所述网络服务器能执行的语音信息。比如，在输入“开机”语音信息时，若可能由于语音不清楚或者与标准语音差别过大，导致不能识别时，可以调用交互语音信息库进行提示再输入语音。再比如，在输入“现在打开故事吧”，此时，可能网络服务器3不能将该语音指令转换为控制指令，此时，需要补充输入语音信息，比如，调用交互信息库“您是想听故事吗？”这样语音交互提示，完成语音指令信息的补充，实现以自然语音即可控制终端。

如图1所示，本发明的优选实施方式是：所述第二语音转换单元31包括还包括语义识别模块33，所述语义识别模块33配合所述语音识别模块32识别的语音判断出所述语音输入单元1输入语音的语义。比如，所述语音输入单元1输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后根据语音识别结果，进行语义判断，所述语义识别模块33根据语义判断为：播出今天该地的天气情况。具体工作过程如下：所述语义识别模块33具体工作过程如下：构建语义知识库，即：根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性。比如：根据实际过程，设定各种场景，例如，娱乐、天气、体育、人物等，根据识别场景构建相应的语义知识库，构建语义知识库为语义识别的基本条件，对一些字词构建其知识库，定义其语义属性。比如：“刘德华”，其知识库包括：男、香港人、歌手、演员，其语义属性为“娱乐人物”。“下雨”，则为一种天气情况，天气预报，其语义属性为“天气”。分词及语义消歧，即：根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧。具体过程如下：根据字词在知识库中的语义属性，对语音识别结果进行分词或消除歧义，比如：语音识别结果为“明天北京会下雨吗？”根据知识库字词的语义属性分词为“明天”、“北京”、“会”、“下雨”、“吗”, “明天”为时间属性，“北京”为地点属性，“会”为动词，“下雨”为天气属性，“吗”为提问。在某些情况下，需要消除歧义，比如“刘德华的歌”，可能识别为“浏得滑”，但经过知识库对“刘德华”的定义，分析判断为“刘德华”。这属于根据知识库字词的语义属性消除歧义。意图分类及参数提取，即：对分词及语义消歧的结果进行意图分类，并进行参数提取。比如：语音识别结果为“明天北京会下雨吗？”根据分词及语义消歧的结果进行意图分类，其意图类为“查询天气”，提取参数为：地点是北京，时间是明天。这样对“明天北京会下雨吗？”进行了语义转换。

再比如：比如，所述语音输入单元1输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后所述语义识别模块33根据语音识别结果，进行语义判断，根据语义判断为：播出今天该地的天气情况。再比如：语音输入为：“我想听王菲的音乐”，所述语义识别模块33语义识别分析得到用户的意图为“播放歌曲”，参数是“王菲”，然后根据分析结果，调用歌曲播放功能并直接播放王菲的歌曲。因为采用有语义识别，用户并不需要记住固定的语音控制命令，而是可以采用用户自己最习惯的语言表达来与玩具互动。所以对上一条意图，用户也可以说“请帮我找王菲的歌”、“有没有王菲最新的专辑？”、“王菲的执迷不悟”，也就是说，用户可自由表达自己的命令和意图，移动终端上强大的语音识别和语义理解引擎，都可以非常好的识别出用户的真正意图：播放王菲的歌曲，或播放王菲的某一首歌曲。如此，让智能终端和用户的交互更佳自由、有趣，而且也节省直接硬件成本，却实现了高性能的人机交互效果。具体实施例中，所述与语音指令相配合的内容包括音频内容、文字内容中的一种或多种。

如图1所示，具体实施例中，所述网络服务器3和所述终端2均设置或其中任意一个设置存储语音指令及与语音指令相配合的内容的存储单元。所述与语音指令相配合的内容包括音频内容、文字内容中的一种或多种。

如图1、图2所示，本发明的具体实施方式是：提供一种基于外部开启控制语音输入的网络语音转换控制方法，包括输入语音的语音输入单元1、传送语音信息并进行语音识别转换的终端2、进行语音识别转换的网络服务器3，所述终端包括网络连接模块21，所述语音输入单元1包括开启所述网络连接模块21建立网络连接的开启模块11，所述网络语音转换控制方法包括如下步骤：

步骤100：开启终端并输入语音，即：由所述开启模块11开启所述终端2，使所述终端2与所述网络服务器3建立网络连接，由所述语音输入单元1输入语音。

具体实施过程如下：所述语音输入单元1连接所述终端2，所述语音输入单元1输入语音信息，所述开启模块11开启所述终端的网络连接模块21，所述终端2通过所述网络连接模块21与所述网络服务器3建立连接。

步骤200：接收并上传语音，即：所述终端2接收所述语音输入单元1输入的语音并上传到网络服务器3。

步骤300：语音识别转换，即：所述终端2与所述网络服务器3并行对所述语音信息进行识别转换；

步骤400：执行识别转换结果，即：所述网络服务器3和所述终端2共同执行或由所述终端2传送或单独执行语音识别转换结果。

如图1、图2所示，本发明的具体实施过程是：所述语音输入单元1连接所述终端2，所述语音输入单元1输入语音信息，所述开启模块11开启所述终端2的网络连接模块21，所述终端2通过所述网络连接模块21与所述网络服务器3建立连接，所述终端2接收所述语音输入单元1输入的语音信息并传送到所述网络服务器3，所述网络服务器3接收所述终端2传送的语音信息，所述第二语音转换单元31与第一语音转换单元24将语音信息的并行进行识别转换，该识别转换结果包括指令或指令和参数，所述网络服务器3执行所述语音转换结果并将执行结果传送到所述终端2，同所述终端2执行或者将该执行结果再进行传送以完成所述网络服务器3和所述终端2共同执行该语音识别转换结果；所述网络服务器3将所述语音转换结果传送到所述终端2由所述终端2单独执行或者传送出去，具体来说，所述终端2对获取的语音转换结果进行执行实现控制，或者传送到其它设备进行执行实现控制。本发明具体实施例中，所述第二语音转换单元31包括进行语音识别的语音识别模块32，所述语音转换过程包括对接收的语音信息进行语音识别转换。所述语音输入单元1与所述终端2通过USB接口进行连接，所述语音输入单元1具备声卡的功能，将输入的语音信号转换后通过USB接收口传送到所述终端2。所述终端2为电脑、移动通讯终端、电子玩具终端、家用电器中的一种或多种

如图2所示，本发明的优选实施方式是：如图1、图2所示，本发明的优选实施方式是：还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性。比如：根据实际过程，设定各种场景，例如，娱乐、天气、体育、人物等，根据识别场景构建相应的语义知识库，构建语义知识库为语义识别的基本条件，对一些字词构建其知识库，定义其语义属性。比如：“刘德华”，其知识库包括：男、香港人、歌手、演员，其语义属性为“娱乐人物”。“下雨”，则为一种天气情况，天气预报，其语义属性为“天气”。在语音转换步骤中，还包括根据语音转换结果进行语义转换。具体包括：

步骤10:分词及语义消歧，即：根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧。具体过程如下：根据字词在知识库中的语义属性，对语音识别结果进行分词或消除歧义，比如：语音识别结果为“明天北京会下雨吗？”根据知识库字词的语义属性分词为“明天”、“北京”、“会”、“下雨”、“吗”, “明天”为时间属性，“北京”为地点属性，“会”为动词，“下雨”为天气属性，“吗”为提问。在某些情况下，需要消除歧义，比如“刘德华的歌”，可能识别为“浏得滑”，但经过知识库对“刘德华”的定义，分析判断为“刘德华”。这属于根据知识库字词的语义属性消除歧义。

步骤20:意图分类及参数提取，即：对分词及语义消歧的结果进行意图分类，并进行参数提取。比如：语音识别结果为“明天北京会下雨吗？”根据分词及语义消歧的结果进行意图分类，其意图类为“查询天气”，提取参数为：地点是北京，时间是明天。这样对“明天北京会下雨吗？”进行了语义转换。

具体过程如下：比如，输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后根据语音识别结果，进行语义判断，根据语义判断为：播出今天该地的天气情况。再比如：语音输入为：“我想听王菲的音乐”，最终语义识别分析得到用户的意图为“播放歌曲”，参数是“王菲”，然后根据分析结果，调用歌曲播放功能并直接播放王菲的歌曲。因为采用有语义识别，用户并不需要记住固定的语音控制命令，而是可以采用用户自己最习惯的语言表达来与终端互动。所以对上一条意图，用户也可以说“请帮我找王菲的歌”、“有没有王菲最新的专辑？”、“王菲的执迷不悟”，也就是说，用户可自由表达自己的命令和意图，移动终端上强大的语音识别和语义理解引擎，都可以非常好的识别出用户的真正意图：播放王菲的歌曲，或播放王菲的某一首歌曲。

如图1、图2所示，本发明的优选实施方式是：所述网络服务器3和所述终端2均设置或其中任意一个设置存储语音指令及与语音指令相配合的内容的存储单元。在输入不能识别语音信息或不能执行的语音信息时，通过所述终端2输入语音进行交互语音，以获取所述网络服务器3能执行的语音信息。比如，在输入“开机”语音信息时，若可能由于语音不清楚或者与标准语音差别过大，导致不能识别时，可以调用交互语音信息库进行提示再输入语音。再比如，在输入“现在打开故事吧”，此时，可能网络服务器3不能将该语音指令转换为控制指令，此时，需要补充输入语音信息，比如，调用交互信息库“您是想听故事吗？”这样语音交互提示，完成语音指令信息的补充，实现以自然语音即可控制终端。

若语音识别结果包括交互信息，则由所述网络服务器3调用存储的相应交互信息并传输到所述终端2。该相应的交互信息包括存储在所述网络服务器3的交互信息，比如，将一些问题的答案预先存储在所述网络服务器3，在问到相应的语音信息时，调用预先存储对应的信息进行交互。也包括通过所述网络服务器3获取的交互信息，比如，要通过交互语音“有没有王菲的歌”，则所述网络服务器3通过查询，得到查询结果为“有”或“无”，该查询结果“有”或“无”则为相应的交互信息。本发明的具体实施例中，所述终端2还包括进行唤醒所述终端接收输入语音状态的唤醒步骤，所述唤醒步骤中，通过输入语音指令或按按键实现唤醒。

本发明的技术效果是：本发明一种基于外部开启控制语音输入的网络语音转换控制系统和方法，包括输入语音的语音输入单元1、传送语音信息的终端2、进行语音识别转换的网络服务器3，所述终端2包括连接所述网络服务器3的网络连接模块21、进行语音识别的第一语音转换单元24，所述语音输入单元1连接所述终端2，所述语音输入单元1包括开启所述网络连接模块建立网络连接的开启模块11，所述网络服务器3包括对接收的所述终端2传送的语音信息进行识别转换的第二语音转换单元31，所述开启模块11开启所述终端2的所述网络连接模块21建立网络连接，所述语音输入单元1输入语音，所述终端2将语音信息上传到的所述网络服务器3，所述网络服务器3的第二语音转换单元31将上传的语音信息进行识别转换，所述网络服务器3的第二语音转换单元31和所述终端2的第一语音转换单元24将语音信息并行进行识别转换，该语音识别转换结果由所述网络服务器3和所述终端2共同执行或由所述终端2单独执行。本发明一种基于外部开启控制语音输入的网络语音转换控制系统和方法，通过外部开启网络连接模块建立网络连接，然后输入语音，通过网络进行转换从而获取语音信息，本发明利用了网络语音转换的功能强大，效果好，同时，采用外部开启控制，通用性强。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于外部开启控制语音输入的网络语音转换控制系统，其特征在于，包括输入语音的语音输入单元、传送语音信息的终端、进行语音识别转换的网络服务器，所述终端包括连接所述网络服务器的网络连接模块、进行语音识别的第一语音转换单元，所述语音输入单元连接所述终端，所述语音输入单元包括开启所述网络连接模块建立网络连接的开启模块，所述网络服务器包括对接收的所述终端传送的语音信息进行识别转换的第二语音转换单元，所述开启模块开启所述终端的所述网络连接模块建立网络连接，所述语音输入单元输入语音，所述终端将语音信息上传到的所述网络服务器，所述网络服务器的第二语音转换单元和所述终端的第一语音转换单元将语音信息并行进行识别转换，所述网络服务器和所述终端的语音识别转换结果均包括语音识别转换的置信度，所述终端设置语音识别转换结果的置信度阈值，当所述终端语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述终端语音识别转换结果的置信度小于该置信度阈值时，取所述网络服务器语音识别转换结果的置信度和所述终端语音识别转换结果的置信度中较大值的语音识别转换结果；该语音识别转换结果由所述网络服务器和所述终端共同执行或由所述终端传送或单独执行。

2.根据权利要求1所述基于外部开启控制语音输入的网络语音转换控制系统，其特征在于，所述第二语音转换单元包括还包括语音识别模块和语义识别模块，所述语义识别模块配合所述语音识别模块识别的语音判断出所述语音输入单元输入语音的语义。

3.根据权利要求1所述基于外部开启控制语音输入的网络语音转换控制系统，其特征在于，所述网络服务器和所述终端均设置或其中任意一个设置存储语音指令及与语音指令相配合的内容的存储单元。

4.根据权利要求1所述基于外部开启控制语音输入的网络语音转换控制系统，其特征在于，所述语音输入单元通过USB接口连接所述终端。

5.根据权利要求1所述基于外部开启控制语音输入的网络语音转换控制系统，其特征在于，所述终端为电脑、移动通讯终端、电子玩具终端、家用电器中的一种或多种。

6.一种基于外部开启控制语音输入的网络语音转换控制方法，其特征在于，包括输入语音的语音输入单元、传送语音信息并进行语音识别转换的终端、进行语音识别转换的网络服务器，所述终端包括网络连接模块，所述语音输入单元包括开启所述网络连接模块建立网络连接的开启模块，所述网络语音转换控制方法包括如下步骤：

语音识别转换：所述终端与所述网络服务器并行对所述语音信息进行识别转换；所述网络服务器和所述终端的语音识别转换结果均包括语音识别转换的置信度，所述终端设置语音识别转换结果的置信度阈值，当所述终端语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述终端语音识别转换结果的置信度小于该置信度阈值时，取所述网络服务器语音识别转换结果的置信度和所述终端语音识别转换结果的置信度中较大值的语音识别转换结果；

7.根据权利要求6所述基于外部开启控制语音输入的网络语音转换控制方法，其特征在于，还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性，在语音识别转换步骤中，还包括进行语义识别转换，具体包括如下步骤：

8.根据权利要求6所述基于外部开启控制语音输入的网络语音转换控制方法，其特征在于，在输入不能识别语音信息或不能执行的语音信息时，通过所述终端输入语音与所述网络服务器进行交互语音，以获取所述网络服务器能执行的语音信息。

9.根据权利要求6所述基于外部开启控制语音输入的网络语音转换控制方法，其特征在于，语音识别转换结果包括指令或指令和参数，所述参数包括语音转换的文字内容。