CN102831892B

CN102831892B - 基于互联网语音交互的玩具控制方法及系统

Info

Publication number: CN102831892B
Application number: CN201210328348.4A
Authority: CN
Inventors: 吴玉胜; 李新岗
Original assignee: SHENZHEN SILICON ELECTRONICS CO Ltd
Current assignee: SHENZHEN SILICON ELECTRONICS CO Ltd
Priority date: 2012-09-07
Filing date: 2012-09-07
Publication date: 2014-10-22
Anticipated expiration: 2032-09-07
Also published as: CN102831892A

Abstract

本发明涉及一种基于互联网语音交互的玩具控制方法及系统，包括具有语音输入及待控制的玩具、具有语音识别转换的网络服务器，所述玩具与所述网络服务器通过互联网建立通讯连接并输入语音,所述玩具将输入的语音上传到所述网络服务器,所述网络服务器和所述玩具并行对接收的语音进行识别转换，所述网络服务器和所述玩具共同执行或由所述玩具执行该语音识别转换结果。本发明一种基于互联网语音交互的玩具控制方法及系统，利用网络服务器较强的数据处理能力及丰富的内容服务，通过互联网对玩具进行语音控制。本发明一种基于互联网语音交互的玩具控制方法及系统，使玩具的内容更加丰富，功能更加强大，同时，以自然控制语音输入即可，大大提高了语音玩具的智能化，方便了使用，节约了成本。

Description

基于互联网语音交互的玩具控制方法及系统

技术领域

本发明涉及一种玩具语音控制方法及系统，尤其涉及一种基于互联网语音交互的玩具控制方法及系统。

背景技术

随着社会的发展及语音技术的提高，语音玩具越来越来广泛应用。现有语音玩具大多在玩具上设置语音识别芯片，存储简单的语音指令及内容，通过语音识别后调用存储的指令和内容，从而运行语音玩具。就目前而言，现有技术存在以下缺陷：1、通常玩具需要控制成本，低成本的玩具所具有的指令及内容存储容量有限，内容少；2、每个玩具本身需要具备一套语音输入、语音识别芯片及存储组件，这样导致成本高;3、现有语音识别转换，需要以标准语音信息才能进行准确的转换，这大大限制了自然语音控制玩具的使用。

发明内容

本发明解决的技术问题是：构建一种基于互联网语音交互的玩具控制方法及系统，克服现有技术语音玩具存储容量有限导致内容少、成本高以及不能以自然语音进行控制的技术问题。

本发明的技术方案是：提供一种基于互联网语音交互的玩具控制方法，包括具有语音输入的玩具、进行语音识别转换的网络服务器，所述控制方法包括如下步骤：

输入语音：通过所述玩具输入语音；

上传语音：将所述玩具连接互联网,并将输入的语音信息通过互联网上传到所述网络服务器；

语音识别转换：所述网络服务器和所述玩具并行对接收的语音进行识别转换；

执行识别转换结果：所述网络服务器和所述玩具共同执行或由所述玩具执行该语音识别转换结果。

本发明的进一步技术方案是：还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性，在语音识别转换步骤中，将语音识别的结果进行转换包括根据语音识别结果进行语义识别转换，具体包括如下步骤：

分词及语义消歧：根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧；

意图分类及参数提取：对分词及语义消歧的结果进行意图分类，并进行参数提取。

本发明的进一步技术方案是：在语音识别转换步骤中，所述网络服务器和所述玩具的语音识别转换结果均包括语音识别转换的置信度，所述玩具设置语音识别转换结果的置信度阀值，当所述玩具语音识别转换结果的置信度大于等于该置信度阀值时，取该语音识别转换结果，若所述玩具语音识别转换结果的置信度小于该置信度阀值时，取所述网络服务器语音识别转换结果的置信度和所述玩具语音识别转换结果的置信度中较大值的语音识别转换结果。

本发明的进一步技术方案是：所述网络服务器存储与语音指令相应的内容或相应交互信息，所述网络服务器根据语音转换结果调用该与语音指令相应的内容或相应交互信息并传送到所述玩具。

本发明的进一步技术方案是：在输入不能识别的语音信息或不能执行的语音信息时，通过所述玩具输入语音与所述网络服务器进行交互语音，以获取能识别或能执行的语音信息。

本发明的进一步技术方案是：还包括对所述玩具唤醒进行接收输入语音状态的唤醒步骤。

本发明的技术方案是：构建一种基于互联网语音交互的玩具控制系统，包括具有语音输入的玩具、具有语音识别转换的网络服务器，所述玩具包括输入语音的语音输入模块、连接所述网络服务器的网络连接模块、第二语音识别转换单元，所述网络服务器具有进行语音识别转换的第一语音转换单元，所述玩具将所述语音输入模块输入的语音信息上传到所述网络服务器，所述网络服务器的第一语音识别转换单元和所述玩具的第二语音识别转换单元并行对接收的语音进行识别转换，所述网络服务器和所述玩具共同执行或由所述玩具执行该语音识别转换结果。

本发明的进一步技术方案是：所述第一语音转换单元包括语音识别模块和语义识别模块，所述语义识别模块配合所述语音识别模块识别的语音判断出所述语音输入模块输入语音的语义。

本发明的进一步技术方案是：所述网络服务器和所述玩具的语音识别转换结果均包括语音识别转换的置信度，所述玩具设置语音识别转换结果的置信度阀值，当所述玩具语音识别转换结果的置信度大于等于该置信度阀值时，取该语音识别转换结果，若所述玩具语音识别转换结果的置信度小于该置信度阀值时，取所述网络服务器语音识别转换结果的置信度和所述玩具语音识别转换结果的置信度中较大值的语音识别转换结果。

本发明的进一步技术方案是：玩具还包括唤醒玩具进入输入语音的状态的唤醒模块，所述唤醒模块包括语音指令、按键或无线信号中的任一种方式。

本发明的进一步技术方案是：所述网络服务器和所述玩具均设置或其中任意一个设置存储语音指令及与语音指令相配合的内容的存储单元。

本发明的进一步技术方案是：所述存储单元包括进行存储进行语音交互的交互语音库，所述交互语音库存储相应交互信息，所述与语音指令相应的内容或相应交互信息包括音频内容、文字内容中的一种或多种。

本发明的技术效果是：本发明包括具有语音输入的玩具、具有语音识别转换的网络服务器，所述玩具包括输入语音的语音输入模块、连接所述网络服务器的网络连接模块，所述网络服务器具有进行语音识别转换的第一语音转换单元，所述玩具将所述语音输入模块输入的语音信息上传到所述网络服务器，所述网络服务器和所述玩具并行对接收的语音进行识别转换，所述网络服务器和所述玩具共同执行或由所述玩具执行该语音识别转换结果。本发明一种基于互联网语音交互的玩具控制方法及系统，使玩具的内容更加丰富，功能更加强大，同时，以自然控制语音输入即可，大大提高了语音玩具的智能化，方便了使用，节约了成本。

附图说明

图1为本发明的流程图。

图2为本发明的结构示意图。

具体实施方式

下面结合具体实施例，对本发明技术方案进一步说明。

如图1、图2所示，本发明的具体实施方式是：提供一种基于互联网语音交互的玩具控制方法，包括具有语音输入的玩具1、进行语音识别转换的网络服务器2，所述控制方法包括如下步骤：

步骤100：输入语音，即：通过所述玩具1输入语音；

步骤200：上传语音，即：将所述玩具1连接互联网,并将输入的语音信息通过互联网上传到所述网络服务器；

步骤300：语音识别转换，即：所述网络服务器2和所述玩具1并行对接收的语音进行识别转换；

步骤400：执行转换结果，即：所述网络服务器2和所述玩具1共同执行或由所述玩具1执行该语音识别转换结果。

如图1、图2所示，本发明的具体实施过程是：由玩具1的语音输入模块11输入语音，玩具1将输入的语音通过互联网上传到所述网络服务器2，所述网络服务器2和所述玩具1并行将语音进行识别转换，该语音识别转换结果为指令或指令和参数。具体来说，所述网络服务器2将接收的语音进行识别，再将语音识别结果进行转换，所述语音转换结果为指令或指令和参数的形式，同时，所述玩具1将接收的语音进行识别，再将语音识别结果进行转换，所述语音转换结果为指令或指令和参数的形式。所述网络服务器2与所述玩具共同执行该语音识别转换结果，具体举例如下：所述网络服务器2具有存储语音指令及与语音指令相配合的内容以及相应交互信息的存储单元21，所述网络服务器2根据识别转换的指令和参数调用所述存储单元21中存储的相应语音指令及与该语音指令相配合的内容，并将调用结果传输到所述玩具1，所述指令包括对玩具进行控制的控制指令，比如播放音乐、讲故事、起飞、旋转等。所述玩具1根据接收的所述网络服务器2传输的调用结果，执行该调用结果，具体实施例中，所述调用结果为存储单元21中存储的语音指令及与语音指令相配合的内容，所述内容包括音频内容、文字内容中的一种或多种。比如，播放“小燕子”，则“播放”为指令，而“小燕子”音频内容为内容作为参数。对于具体的语音转换结果，包括由所述网络服务器2执行所述语音转换结果，将执行结果传送到所述玩具1。比如，播放“小燕子”歌曲，由网络播放，然后将播放的音频信号通过网络传送到玩具1上。由所述网络服务器2和所述玩具1共同执行所述语音转换结果，还比如：在玩具1上存储“小燕子”歌曲，由所述网络服务器2查找后将播放指令发送到玩具1，由玩具1播放。由玩具执行该语音识别转换结果，由所述网络服务器2将语音识别转换结果传送到所述玩具1，由玩具执行。

如图2所示，本发明的优选实施方式是：所述网络服务器2和所述玩具1的语音识别转换结果均包括语音识别转换的置信度，所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度，也就是概率是对个人信念合理性的量度.概率的置信度解释表明，事件本身并没有什么概率，事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。语音识别转换的置信度即对语音识别转换结果真实性的相信程度。所述玩具1设置语音识别转换结果的置信度阀值，当所述玩具1语音识别转换结果的置信度大于等于该置信度阀值时，取该语音识别转换结果，若所述玩具1语音识别转换结果的置信度小于该置信度阀值时，取所述网络服务器2语音识别转换结果的置信度和所述玩具1语音识别转换结果的置信度中较大值的语音识别转换结果。

如图1、图2所示，本发明的优选实施方式是：在输入不能识别语音信息或不能执行的语音信息时，通过所述玩具输入语音与所述网络服务器2进行交互语音，以获取所述网络服务器2能识别或能执行的语音信息。比如，在输入“开机”语音信息时，若可能由于语音不清楚或者与标准语音差别过大，导致不能识别时，可以调用交互语音信息库进行提示再输入语音。再比如，在输入“现在打开故事吧”，此时，可能网络服务器2不能将该语音指令转换为控制指令，此时，需要补充输入语音信息，比如，调用交互信息库“您是想听故事吗？”这样语音交互提示，完成语音指令信息的补充，实现以自然语音即可控制玩具。

若语音识别结果包括交互信息，则由所述网络服务器2调用存储的相应交互信息并传输到所述玩具1。该相应的交互信息包括存储在所述网络服务器2的交互信息，比如，将一些问题的答案预先存储在所述网络服务器2，在问到相应的语音信息时，调用预先存储对应的信息进行交互。也包括通过所述网络服务器2获取的交互信息，比如，要通过交互语音“有没有王菲的歌”，则所述网络服务器2通过查询，得到查询结果为“有”或“无”，该查询结果“有”或“无”则为相应的交互信息。本发明的具体实施例中，所述玩具1还包括进行唤醒所述玩具接收输入语音状态的唤醒步骤，所述唤醒步骤中，通过输入语音指令或按按键实现唤醒。

如图1、图2所示，本发明的优选实施方式是：还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性。比如：根据实际过程，设定各种场景，例如，娱乐、天气、体育、人物等，根据识别场景构建相应的语义知识库。构建语义知识库为语义识别的基本条件，对一些字词构建其知识库，定义其语义属性。比如：“刘德华”，其知识库包括：男、香港人、歌手、演员，其语义属性为“娱乐人物”。“下雨”，则为一种天气情况，天气预报，其语义属性为“天气”。在语音转换步骤中，还包括根据语音转换结果进行语义转换。具体包括：

步骤10:分词及语义消歧，即：根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧。具体过程如下：根据字词在知识库中的语义属性，对语音识别结果进行分词或消除歧义，比如：语音识别结果为“明天北京会下雨吗？”根据知识库字词的语义属性分词为“明天”、“北京”、“会”、“下雨”、“吗”, “明天”为时间属性，“北京”为地点属性，“会”为动词，“下雨”为天气属性，“吗”为提问。在某些情况下，需要消除歧义，比如“刘德华的歌”，可能识别为“浏得滑”，但经过知识库对“刘德华”的定义，分析判断为“刘德华”。这属于根据知识库字词的语义属性消除歧义。

步骤20:意图分类及参数提取，即：对分词及语义消歧的结果进行意图分类，并进行参数提取。比如：语音识别结果为“明天北京会下雨吗？”根据分词及语义消歧的结果进行意图分类，其意图类为“查询天气”，提取参数为：地点是北京，时间是明天。这样对“明天北京会下雨吗？”进行了语义转换。

具体过程如下：比如，输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后根据语音识别结果，进行语义判断，根据语义判断为：播出今天该地的天气情况。再比如：语音输入为：“我想听王菲的音乐”，最终语义识别分析得到用户的意图为“播放歌曲”，参数是“王菲”，然后根据分析结果，调用歌曲播放功能并直接播放王菲的歌曲。因为采用有语义识别，用户并不需要记住固定的语音控制命令，而是可以采用用户自己最习惯的语言表达来与玩具互动。所以对上一条意图，用户也可以说“请帮我找王菲的歌”、“有没有王菲最新的专辑？”、“王菲的执迷不悟”，也就是说，用户可自由表达自己的命令和意图，移动终端上强大的语音识别和语义理解引擎，都可以非常好的识别出用户的真正意图：播放王菲的歌曲，或播放王菲的某一首歌曲。如此，让智能玩具和用户的交互更佳自由、有趣，而且也没有增加原来玩具终端的直接硬件成本，让玩具厂商可以用比较低的成本，却实现了高性能的人机交互效果。

本发明的技术方案是：构建一种基于互联网语音交互的玩具控制系统，包括具有语音输入及待控制的玩具1、具有语音识别转换的网络服务器2，所述玩具1包括输入语音的语音输入模块11、连接所述网络服务器2的网络连接模块12、第二语音识别转换单元13，所述网络服务器2具有存储语音指令及与该语音指令相应的内容以及交互信息库的存储单元21、对接收的语音信息进行识别转换处理的第一语音转换单元22，所述玩具1将所述语音输入模块11输入的语音信息上传到所述网络服务器2，所述网络服务器2的第一语音识别转换单元22和所述玩具1的第二语音识别转换单元13并行对接收的语音进行识别转换，所述网络服务器2和所述玩具1共同执行或由所述玩具1执行该语音识别转换结果。

如图2所示，本发明的具体实施过程是：由玩具1的语音输入模块11输入语音，玩具1通过网络连接模块12连接所述网络服务器2，玩具1将输入的语音通过互联网上传到所述网络服务器2，所述网络服务器2的第一语音识别转换单元22和所述玩具1的第二语音识别转换单元13并行对接收的语音进行识别转换，该语音识别转换结果为指令或指令和参数。具体来说，所述网络服务器2将接收的语音进行识别，再将语音识别结果进行转换，所述语音转换结果为指令或指令和参数的形式，同时，所述玩具1将接收的语音进行识别，再将语音识别结果进行转换，所述语音转换结果为指令或指令和参数的形式。所述网络服务器2与所述玩具共同执行该语音识别转换结果，具体举例如下：所述网络服务器2具有存储语音指令及与语音指令相配合的内容以及相应交互信息的存储单元21，所述网络服务器2根据识别转换的指令和参数调用所述存储单元21中存储的相应语音指令及与该语音指令相配合的内容，并将调用结果传输到所述玩具1，所述指令包括对玩具进行控制的控制指令，比如播放音乐、讲故事、起飞、旋转等。所述玩具1根据接收的所述网络服务器2传输的调用结果，执行该调用结果，具体实施例中，所述调用结果为存储单元21中存储的语音指令及与语音指令相配合的内容，所述内容包括音频内容、文字内容中的一种或多种。比如，播放“小燕子”，则“播放”为指令，而“小燕子”音频内容为内容作为参数。对于具体的语音转换结果，包括由所述网络服务器2执行所述语音转换结果，将执行结果传送到所述玩具1。比如，播放“小燕子”歌曲，由网络播放，然后将播放的音频信号通过网络传送到玩具1上。由所述网络服务器2和所述玩具1共同执行所述语音转换结果，还比如：在玩具1上存储“小燕子”歌曲，由所述网络服务器2查找后将播放指令发送到玩具1，由玩具1播放。由玩具执行该语音识别转换结果，由所述网络服务器2将语音识别转换结果传送到所述玩具1，由玩具执行。

如图2所示，本发明的优选实施方式是：所述网络服务器2和所述玩具1均设置或其中任意一个设置进行语音交互的交互语音库15。所述交互语音库15存储与语音指令相应的内容或相应交互信息，所述与语音指令相应的内容或相应交互信息包括音频内容、文字内容中的一种或多种。在输入不能识别语音信息或不能执行的语音信息时，通过所述玩具输入语音与所述网络服务器2进行交互语音，以获取所述网络服务器2能执行的语音信息。比如，在输入“开机”语音信息时，若可能由于语音不清楚或者与标准语音差别过大，导致不能识别时，可以调用交互语音信息库进行提示再输入语音。再比如，在输入“现在打开故事吧”，此时，可能网络服务器2不能将该语音指令转换为控制指令，此时，需要补充输入语音信息，比如，调用交互信息库“您是想听故事吗？”这样语音交互提示，完成语音指令信息的补充，实现以自然语音即可控制玩具。本发明的具体实施例中，所述玩具1还包括进行唤醒所述玩具接收输入语音状态的唤醒模块16，所述唤醒模块16通过输入语音指令或按按键实现唤醒玩具进入到接收输入语音的状态。

如图2所示，本发明的优选实施方式是：所述网络服务器2的所述第一语音转换单元22还包括语义识别模块222，所述语义识别模块222配合所述语音识别模块221识别的语音判断出所述玩具1输入语音的语义。比如，所述语音输入模块11输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后根据语音识别结果，进行语义判断，所述语义识别模块222根据语义判断为：播出今天该地的天气情况。具体工作过程如下：所述语义识别模块222具体工作过程如下：构建语义知识库，即：根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性。比如：根据实际过程，设定各种场景，例如，娱乐、天气、体育、人物等，根据识别场景构建相应的语义知识库。构建语义知识库为语义识别的基本条件，对一些字词构建其知识库，定义其语义属性。比如：“刘德华”，其知识库包括：男、香港人、歌手、演员，其语义属性为“娱乐人物”。“下雨”，则为一种天气情况，天气预报，其语义属性为“天气”。分词及语义消歧，即：根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧。具体过程如下：根据字词在知识库中的语义属性，对语音识别结果进行分词或消除歧义，比如：语音识别结果为“明天北京会下雨吗？”根据知识库字词的语义属性分词为“明天”、“北京”、“会”、“下雨”、“吗”, “明天”为时间属性，“北京”为地点属性，“会”为动词，“下雨”为天气属性，“吗”为提问。在某些情况下，需要消除歧义，比如“刘德华的歌”，可能识别为“浏得滑”，但经过知识库对“刘德华”的定义，分析判断为“刘德华”。这属于根据知识库字词的语义属性消除歧义。意图分类及参数提取，即：对分词及语义消歧的结果进行意图分类，并进行参数提取。比如：语音识别结果为“明天北京会下雨吗？”根据分词及语义消歧的结果进行意图分类，其意图类为“查询天气”，提取参数为：地点是北京，时间是明天。这样对“明天北京会下雨吗？”进行了语义转换。

再比如：比如，所述语音输入模块11输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后所述语义识别模块222根据语音识别结果，进行语义判断，根据语义判断为：播出今天该地的天气情况。再比如：语音输入为：“我想听王菲的音乐”，所述语义识别模块222语义识别分析得到用户的意图为“播放歌曲”，参数是“王菲”，然后根据分析结果，调用歌曲播放功能并直接播放王菲的歌曲。因为采用有语义识别，用户并不需要记住固定的语音控制命令，而是可以采用用户自己最习惯的语言表达来与玩具互动。所以对上一条意图，用户也可以说“请帮我找王菲的歌”、“有没有王菲最新的专辑？”、“王菲的执迷不悟”，也就是说，用户可自由表达自己的命令和意图，移动终端上强大的语音识别和语义理解引擎，都可以非常好的识别出用户的真正意图：播放王菲的歌曲，或播放王菲的某一首歌曲。如此，让智能玩具和用户的交互更佳自由、有趣，而且也没有增加原来玩具终端的直接硬件成本，让玩具厂商可以用比较低的成本，却实现了高性能的人机交互效果。具体实施例中，所述与语音指令相配合的内容包括音频内容、文字内容中的一种或多种。

本发明的技术效果是：本发明一种基于互联网语音交互的玩具控制方法及系统，包括具有语音输入及待控制的玩具1、具有语音识别转换的网络服务器2，所述玩具1与所述网络服务器2通过互联网建立通讯连接并输入语音,所述玩具1将输入的语音上传到所述网络服务器2, 所述网络服务器2和所述玩具1并行对接收的语音进行识别转换，所述网络服务器2和所述玩具1共同执行或由所述玩具1执行该语音识别转换结果。本发明一种基于互联网语音交互的玩具控制方法及系统，利用网络服务器2较强的数据处理能力及丰富的内容服务，通过互联网对玩具1进行语音控制。本发明一种基于互联网语音交互的玩具控制方法及系统，使玩具的内容更加丰富，功能更加强大，同时，大大节约了成本。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于互联网语音交互的玩具控制方法，其特征在于，包括具有语音输入的玩具、进行语音识别转换的网络服务器，所述控制方法包括如下步骤：

输入语音：通过所述玩具输入语音；

执行识别转换结果：所述网络服务器和所述玩具共同执行或由所述玩具执行该语音识别转换结果；还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性，在语音识别转换步骤中，将语音识别的结果进行转换包括根据语音识别结果进行语义识别转换，具体包括如下步骤：

意图分类及参数提取：对分词及语义消歧的结果进行意图分类，并进行参数提取；其中，在语音识别转换步骤中，所述网络服务器和所述玩具的语音识别转换结果均包括语音识别转换的置信度，所述玩具设置语音识别转换结果的置信度阀值，当所述玩具语音识别转换结果的置信度大于等于该置信度阀值时，取该语音识别转换结果，若所述玩具语音识别转换结果的置信度小于该置信度阀值时，取所述网络服务器语音识别转换结果的置信度和所述玩具语音识别转换结果的置信度中较大值的语音识别转换结果；在输入不能识别的语音信息或不能执行的语音信息时，通过所述玩具输入语音进行交互语音，以获取能识别或能执行的语音信息。

2.根据权利要求1所述基于互联网语音交互的玩具控制方法，其特征在于，还包括对所述玩具唤醒进行接收输入语音状态的唤醒步骤。

3. 一种基于互联网语音交互的玩具控制系统，其特征在于，包括具有语音输入的玩具、具有语音识别转换的网络服务器，所述玩具包括输入语音的语音输入模块、连接所述网络服务器的网络连接模块、第二语音识别转换单元，所述网络服务器具有进行语音识别转换的第一语音转换单元，所述玩具将所述语音输入模块输入的语音信息上传到所述网络服务器，所述网络服务器的第一语音识别转换单元和所述玩具的第二语音识别转换单元并行对接收的语音进行识别转换，所述网络服务器和所述玩具共同执行或由所述玩具执行该语音识别转换结果；所述第一语音转换单元包括语音识别模块和语义识别模块，所述语义识别模块配合所述语音识别模块识别的语音判断出所述语音输入模块输入语音的语义；所述网络服务器和所述玩具的语音识别转换结果均包括语音识别转换的置信度，所述玩具设置语音识别转换结果的置信度阀值，当所述玩具语音识别转换结果的置信度大于等于该置信度阀值时，取该语音识别转换结果，若所述玩具语音识别转换结果的置信度小于该置信度阀值时，取所述网络服务器语音识别转换结果的置信度和所述玩具语音识别转换结果的置信度中较大值的语音识别转换结果。

4.根据权利要求3所述基于互联网语音交互的玩具控制系统，其特征在于，玩具还包括唤醒玩具进入输入语音的状态的唤醒模块，所述唤醒模块包括语音指令、按键或无线信号中的任一种方式。

5.根据权利要求3所述基于互联网语音交互的玩具控制系统，其特征在于，所述网络服务器和所述玩具均设置或其中任意一个设置存储语音指令及与语音指令相配合的内容的存储单元。