CN102847325B

CN102847325B - 基于移动通讯终端语音交互的玩具控制方法及系统

Info

Publication number: CN102847325B
Application number: CN201210329761.2A
Authority: CN
Inventors: 吴玉胜; 李新岗
Original assignee: SHENZHEN SILICON ELECTRONICS CO Ltd
Current assignee: SHENZHEN SILICON ELECTRONICS CO Ltd
Priority date: 2012-09-07
Filing date: 2012-09-07
Publication date: 2015-05-06
Anticipated expiration: 2032-09-07
Also published as: CN102847325A

Abstract

本发明涉及一种基于移动通讯终端语音交互的玩具控制方法及系统，包括具有通讯连接的玩具、具有语音输入及语音识别转换的移动通讯终端，由所述移动通讯终端输入语音；所述移动通讯终端将输入的语音识别转换为指令或指令和参数；所述移动通讯终端与所述玩具建立无线通讯连接，所述移动通讯终端将识别转换的指令或指令和参数传送到的所述玩具，由所述移动通讯终端或所述玩具共同执行该语音识别转换结果或由所述移动通讯终端或所述玩具中任意一个执行该语音识别转换结果。本发明一种基于移动通讯终端语音交互的玩具控制方法及系统，利用现在移动通讯终端较强的数据处理能力，对玩具进行语音控制。本发明一种基于移动通讯终端语音交互的玩具控制方法及系统，使玩具的内容更加丰富，功能更加强大，同时，大大节约了成本。

Description

基于移动通讯终端语音交互的玩具控制方法及系统

技术领域

本发明涉及一种玩具语音控制方法及系统，尤其涉及一种基于移动通讯终端语音交互的玩具控制方法及系统。

背景技术

随着社会的发展及语音技术的提高，语音玩具越来越来广泛应用。现有语音玩具大多在玩具上设置语音识别芯片，存储简单的语音指令及内容，通过语音识别后调用存储的指令和内容，从而运行语音玩具。就目前而言，现有技术存在以下缺陷：1、通常玩具需要控制成本，低成本的玩具所具有的指令及内容存储容量有限，内容少；2、每个玩具本身需要具备一套语音输入、语音识别芯片及存储组件，这样导致成本高，3、现有语音识别转换，需要以标准语音信息才能进行准确的转换，这大大限制了自然语音控制玩具的使用。

发明内容

本发明解决的技术问题是：构建一种基于移动通讯终端语音交互的玩具控制方法及系统，克服现有技术语音玩具存储容量有限导致内容少、成本高以及不能以自然语音进行控制的技术问题。本发明技术方案受益于移动通讯终端远远强于玩具终端的运算处理能力以及网络通讯能力，使得用户可以借助目前已经在市场上广泛应用发展的移动通讯终端，在其终端平台上，采用智能交互能力更强、识别准度更高的语音识别和自然语言理解系统来最终实现与实体玩具的互动交互，带来远超传统玩具方案的交互体验的用户体验。

本发明的技术方案是：提供一种基于移动通讯终端语音交互的玩具控制方法，包括具有无线通讯连接的玩具、具有语音输入及语音识别转换的移动通讯终端，基于移动通讯终端语音交互的玩具控制方法包括如下步骤：

输入语音：由所述移动通讯终端输入语音；

语音转换：所述移动通讯终端将接收的语音进行识别转换，该语音识别转换结果为指令或指令和参数的形式；

执行识别转换结果：由所述移动通讯终端或所述玩具共同执行该语音识别转换结果或由所述移动通讯终端或所述玩具中任意一个执行该语音识别转换结果。

本发明的进一步技术方案是：还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性，在语音识别转换步骤中，还包括进行语义识别转换，具体包括如下步骤：

分词及语义消歧：根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧；

意图分类及参数提取：对分词及语义消歧的结果进行意图分类，并进行参数提取。

本发明的进一步技术方案是：在语音识别转换步骤中，包括所述玩具对输入的语音进行识别转换，所述玩具执行该语音识别转换结果。

本发明的进一步技术方案是：还包括进行语音识别的网络服务器，所述移动通讯终端通过互联网连接所述网络服务器并上传语音信息，所述网络服务器与所述移动通讯终端并行对语音信息进行识别转换。

本发明的进一步技术方案是：在输入不能识别的语音信息或不能执行的语音信息时，通过所述移动通讯终端或玩具输入语音进行交互语音，以获取能执行的语音信息。

本发明的进一步技术方案是：所述玩具与所述移动通讯终端通过红外通讯组件、高频调制通讯组件、蓝牙通讯组件、2.4G无线通讯组件、RFID射频通讯组件中任一种连接。

本发明的进一步技术方案是：还包括对所述移动通讯终端唤醒进行接收输入语音状态的唤醒步骤。

本发明的技术方案是：构建一种基于移动通讯终端语音交互的玩具控制系统，包括具有通讯连接的玩具、具有语音输入及语音识别转换的移动通讯终端，所述移动通讯终端包括输入语音的语音输入单元、与所述玩具进行无线通讯连接的第一无线通讯模块、将语音识别转换为指令或指令和参数的第一语音转换单元，所述玩具包括连接所述移动通讯终端的第二无线通讯模块，所述语音输入单元输入语音，所述移动通讯终端将输入的语音进行识别转换，该语音识别转换结果为指令或指令和参数的形式，由所述移动通讯终端或所述玩具共同执行该语音识别转换结果或由所述移动通讯终端或所述玩具中任意一个执行该语音识别转换结果。

本发明的进一步技术方案是：所述第一语音转换单元包括进行语音识别转换的语音识别模块、语义识别模块，所述语义识别模块根据所述语音识别模块识别的语音判断出所述语音输入单元输入语音的语义。

本发明的进一步技术方案是：还包括进行语音识别转换的网络服务器，所述移动通讯终端通过互联网连接所述网络服务器并上传语音信息，所述网络服务器与所述移动通讯终端并行对语音信息进行识别转换。

本发明的进一步技术方案是：所述移动通讯终端和所述网络服务器的语音识别转换结果均包括语音识别转换的置信度，所述移动通讯终端设置语音识别转换结果的置信度阈值，当所述移动通讯终端语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述移动通讯终端语音识别转换结果的置信度小于该置信度阈值时，取所述移动通讯终端语音识别转换结果的置信度和所述网络服务器语音识别转换结果的置信度中较大值的语音识别转换结果。

本发明的进一步技术方案是：所述移动通讯终端的第一无线通讯模块为红外信号发射器、蓝牙通讯组件、RFID射频通讯组件及2.4G无线通讯组件中任一种或多种，所述玩具的第二无线通讯模块为红外信号接收器、蓝牙通讯组件、RFID射频通讯组件及2.4G无线通讯组件中一种或多种。

本发明的进一步技术方案是：所述玩具包括进行语音识别转换的第二语音转换单元，所述玩具的第二语音转换单元对语音进行识别转换。

本发明的技术效果是：通过构建一种基于移动通讯终端语音交互的玩具控制方法及系统，包括具有通讯连接的玩具、具有语音输入及语音识别转换的移动通讯终端，所述移动通讯终端包括输入语音的语音输入单元、与所述玩具无线通讯连接的第一无线通讯模块、将语音识别转换为指令或指令和参数的第一语音转换单元，所述玩具包括连接所述移动通讯终端的第二无线通讯模块，所述语音输入单元输入语音，所述移动通讯终端将输入的语音进行识别转换，该语音识别转换结果为指令或指令和参数的形式，由所述移动通讯终端或所述玩具共同执行该语音识别转换结果或由所述移动通讯终端或所述玩具中任意一个执行该语音识别转换结果。本发明一种基于移动通讯终端语音交互的玩具控制方法及系统，受益于移动通讯终端远远强于玩具终端的运算处理能力以及网络通讯能力，使得用户可以借助目前已经在市场上广泛应用发展的移动通讯终端，在其终端平台上，采用智能交互能力更强、识别准度更高的语音识别和自然语言理解系统来最终实现与实体玩具的互动交互，带来远超传统玩具方案的交互体验的用户体验。本发明使玩具的内容更加丰富，功能更加强大，同时，大大节约了成本。

附图说明

图1为本发明的流程图。

图2为本发明的结构示意图。

具体实施方式

下面结合具体实施例，对本发明技术方案进一步说明。

如图1、图2所示，本发明的具体实施方式是：提供一种基于移动通讯终端语音交互的玩具控制方法，包括具有通讯连接的玩具2、具有语音输入及语音识别转换的移动通讯终端1，基于移动通讯终端语音交互的玩具控制方法包括如下步骤：

步骤100：输入语音，即：由所述移动通讯终端1输入语音；

步骤200：语音转换，即：所述移动通讯终端1将接收的语音进行识别转换，该语音识别转换结果为指令或指令和参数的形式；

步骤300：执行处理结果，即：由移动通讯终端1或玩具2共同执行该语音识别转换结果或由所述玩具2执行该语音识别转换结果。

如图1、图2所示，本发明的具体实施过程是：由移动通讯终端1输入语音，移动通讯终端1将输入的语音识别转换为指令或指令和参数。若由所述移动通讯终端1将语音识别转换结果发送到所述玩具2，由所述玩具2执行。若语音识别转换结果包括控制玩具2的指令，则所述移动通讯终端1与所述玩具2建立无线通讯连接，所述移动通讯终端1将语音识别转换结果中控制玩具2的指令或指令和参数传送到玩具2并由所述玩具2执行该语音转换结果，比如播放音乐、讲故事、起飞、旋转等。所述玩具2根据接收的所述移动通讯终端1传输的指令或指令和参数，执行该指令或指令和参数，具体实施例中，所述移动通讯终端1具有存储语音指令及与语音指令相配合的内容的存储单元13，所述内容包括音频内容、文字内容中的一种或多种。比如，播放“小燕子”，则播放为指令，“小燕子”音频内容为内容作为参数。所述移动通讯终端1包括手机、移动平板电脑、移动通讯娱乐设备。若语音识别转换结果包括由所述移动通讯终端1执行的指令或含有交互信息。若由所述移动通讯终端1执行所述语音识别转换结果，然后将执行结果的交互信息发送到所述玩具2，由所述玩具2播放。比如，若语音识别结果包括交互信息，则调用相应的交互信息。该相应的交互信息包括存储在所述移动通讯终端1的交互信息，比如，将一些问题的答案预先存储在所述移动通讯终端1，在问到相应的语音信息时，调用预先存储对应的信息进行交互。也包括通过所述移动通讯终端1获取的交互信息，比如，要通过交互语音“有没有王菲的歌”，则所述移动通讯终端1通过查询，得到查询结果为“有”或“无”，该查询结果“有”或“无”则为相应的交互信息。在输入不能识别语音信息或不能执行的语音信息时，通过与所述移动通讯终端进行交互语音，以获取能执行的语音信息。比如，在输入“开机”语音信息时，若可能由于语音不清楚或者与标准语音差别过大，导致不能识别时，可以调用交互语音信息库进行提示再输入语音。再比如，在输入“现在打开故事吧”，此时，若移动通讯终端不能将该语音指令转换为控制指令，此时，需要补充输入语音信息，比如，调用交互信息库“您是想听故事吗？”这样语音交互提示，完成语音指令信息的补充，实现以自然语音即可控制玩具2。具体实施例中，还包括唤醒所述移动通讯终端1进行语音输入状态的唤醒步骤，所述唤醒步骤唤醒所述移动通讯终端1，使所述移动通讯终端1进入接收语音的状态。

如图2所示，本发明的优选实施方式是：包括所述玩具2对输入的语音进行识别转换，所述玩具2执行该语音识别转换结果。所述玩具2包括进行语音识别转换的第二语音转换单元23，所述玩具2的第二语音转换单元23对语音进行识别转换。同时，所述玩具2设置指令和内容库，对于简单的语音，通过玩具本身进行识别转换，然后由玩具2执行。在移动通讯终端1不能进行语音输入和识别时，由所述玩具2输入语音或者接收移动通讯终端1传送的语音并进行识别转换，该语音识别转换结果由所述玩具2执行。这样就使玩具2具体一定的单独工作能力，克服了玩具2对移动通讯终端的依赖，方便了玩具2的使用。

如图2所示，本发明的优选实施方式是：还包括进行语音识别转换的网络服务器3，所述移动通讯终端1通过互联网连接所述网络服务器3并上传语音信息，所述网络服务器3与所述移动通讯终端1并行对语音信息进行识别转换。所述移动通讯终端和所述网络服务器的语音识别转换结果均包括语音识别转换的置信度。所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度，也就是概率是对个人信念合理性的量度.概率的置信度解释表明，事件本身并没有什么概率，事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。语音识别转换的置信度即对语音识别转换结果真实性的相信程度。所述网络服务器3与所述移动通讯终端1并行对语音信息进行识别转换时，所述移动通讯终端1设置语音识别转换结果的置信度阈值，当所述移动通讯终端1语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述网络服务器语音识别转换结果的置信度小于该置信度阈值时，取所述移动通讯终端1语音识别转换结果的置信度和所述网络服务器3语音识别转换结果的置信度中较大值的语音识别转换结果。

如图2所示，本发明的优选实施方式是：由所述网络服务器3、所述移动通讯终端1、所述玩具2共同执行该语音识别转换结果，或者由所述网络服务器3、所述移动通讯终端1、所述玩具2中任意两个执行该语音识别转换结果，由所述玩具2和所述移动通讯终端1任意一个执行该语音识别转换结果。所述移动通讯终端1将输入的语音上传到所述网络服务器3，所述网络服务器3和所述移动通讯终端1并行对输入语音信息进行识别转换。若所述网络服务器3执行语音识别转换结果，则由所述网络服务器3将执行结果传送到所述移动通讯终端1，然后由所述移动通讯终端1传送到所述玩具2执行。若所述网络服务器3将语音识别转换结果传送到所述移动通讯终端1，由所述移动通讯终端1执行所述语音识别转换结果，然后将执行结果传送到所述玩具2。若所述网络服务器将语音识别转换结果传送到所述移动通讯终端1，由所述移动通讯终端1再将语音识别转换结果传送到所述玩具2，由所述玩具2执行该语音识别转换结果。

如图1、图2所示，本发明的优选实施方式是：还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性。比如：根据实际过程，设定各种场景，例如，娱乐、天气、体育、人物等，根据识别场景构建相应的语义知识库，构建语义知识库为语义识别的基本条件，对一些字词构建其知识库，定义其语义属性。比如：“刘德华”，其知识库包括：男、香港人、歌手、演员，其语义属性为“娱乐人物”。“下雨”，则为一种天气情况，天气预报，其语义属性为“天气”。在语音转换步骤中，还包括根据语音转换结果进行语义转换。具体包括：

步骤10:分词及语义消歧，即：根据知识库字词的语义属性对语音识别结果进行分词并进行语义消歧。具体过程如下：根据字词在知识库中的语义属性，对语音识别结果进行分词或消除歧义，比如：语音识别结果为“明天北京会下雨吗？”根据知识库字词的语义属性分词为“明天”、“北京”、“会”、“下雨”、“吗”, “明天”为时间属性，“北京”为地点属性，“会”为动词，“下雨”为天气属性，“吗”为提问。在某些情况下，需要消除歧义，比如“刘德华的歌”，可能识别为“浏得滑”，但经过知识库对“刘德华”的定义，分析判断为“刘德华”。这属于根据知识库字词的语义属性消除歧义。

步骤20:意图分类及参数提取，即：对分词及语义消歧的结果进行意图分类，并进行参数提取。比如：语音识别结果为“明天北京会下雨吗？”根据分词及语义消歧的结果进行意图分类，其意图类为“查询天气”，提取参数为：地点是北京，时间是明天。这样对“明天北京会下雨吗？”进行了语义转换。

具体过程如下：输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后根据语音识别结果，进行语义判断，根据语义判断为：播出今天该地的天气情况。再比如：语音输入为：“我想听王菲的音乐”，最终语义识别分析得到用户的意图为“播放歌曲”，参数是“王菲”，然后根据分析结果，调用歌曲播放功能并直接播放王菲的歌曲。因为采用有语义识别，用户并不需要记住固定的语音控制命令，而是可以采用用户自己最习惯的语言表达来与玩具互动。所以对上一条意图，用户也可以说“请帮我找王菲的歌”、“有没有王菲最新的专辑？”、“王菲的执迷不悟”，也就是说，用户可自由表达自己的命令和意图，移动终端上强大的语音识别和语义理解引擎，都可以非常好的识别出用户的真正意图：播放王菲的歌曲，或播放王菲的某一首歌曲。如此，让智能玩具和用户的交互更佳自由、有趣，而且也没有增加原来玩具终端的直接硬件成本，让玩具厂商可以用比较低的成本，却实现了高性能的人机交互效果。

本发明的优选实施方式是：所述移动通讯终端1具有存储语音指令及与语音指令相配合的内容的存储单元13。在对玩具2进行操作时，包括操作指令或指令和指令指示的内容，比如，播放“小燕子”，则“播放”为指令，而“小燕子”音频内容为内容作为参数。由于移动通讯终端1具有更大的存储能力，因此，其内容库可以更大，可以在移动通讯终端1中存储更多的语音指令及与语音指令相配合的内容。

如图1、图2所示，本发明的优选实施方式是：在语音识别转换步骤中，

如图1、图2所示，本发明的优选实施方式是：所述玩具2与所述移动通讯终端1通过红外信号、高频调制通讯信号、蓝牙信号、2.4G无线通讯信号、RFID射频信号连接。所述玩具2上设置无线通讯接收器，本专利技术方案中，无线通讯方式包括红外信号、高频调制通讯信号、蓝牙信号、2.4G无线通讯信号、RFID射频信号中一种或多种，所述玩具2上相应设置红外信号接收器、高频调制通讯信号接收器、蓝牙信号接收器、2.4G无线通讯信号接收器、RFID射频信号接收组件中一种或多种，所述移动通讯终端1则具有红外信号发射器、高频调制通讯信号发射器、蓝牙信号发射器、2.4G无线通讯信号发射器、RFID射频信号发射组件中一种或多种，所述移动通讯终端1通过无线通讯信号将转换后的指令或指令和参数发送到玩具2，由所述玩具2执行该指令或指令和参数。

如图2所示，本发明的具体实施方式是：构建一种基于移动通讯终端语音交互的玩具控制系统，包括具有通讯连接的玩具2、具有语音输入及语音识别转换的移动通讯终端1，所述移动通讯终端1包括输入语音的语音输入单元15、与所述玩具2进行无线通讯连接的第一无线通讯模块11、将语音识别转换为指令或指令和参数的第一语音转换单元12，所述玩具2包括连接所述移动通讯终端1的第二无线通讯模块21，所述语音输入单元15输入语音，所述移动通讯终端1将输入的语音进行识别转换，该语音识别转换结果为指令或指令和参数的形式，由移动通讯终端1或玩具2共同执行该语音识别转换结果或由所述玩具2执行该语音识别转换结果。

如图2所示，本发明的具体实施过程是：由移动通讯终端1输入语音，移动通讯终端1具有语音输入单元15，通过第一语音转换单元12中的语音识别模块121将输入的语音识别转换为指令或指令和参数；所述移动通讯终端1的语音识别模块121识别该语音，所述移动通讯终端1的第二无线通讯模块21与所述玩具2的第一无线通讯模块21建立无线通讯连接，若由所述移动通讯终端1将所述语音识别转换结果发送到所述玩具2，由所述玩具2执行。比如播放音乐、讲故事、起飞、旋转等。所述玩具2根据接收的所述移动通讯终端1传输的指令或指令和参数，执行该指令或指令和参数，具体实施例中，所述移动通讯终端1具有存储语音指令及与语音指令相配合的内容的存储单元13，所述内容包括音频内容、文字内容中的一种或多种。比如，播放“小燕子”，则播放为指令，“小燕子”音频内容为内容作为参数。所述移动通讯终端1包括手机、移动平板电脑、移动通讯娱乐设备。若语音识别转换结果包括由所述移动通讯终端1执行的指令或含有交互信息。若由所述移动通讯终端1执行所述语音识别转换结果，然后将执行结果的交互信息发送到所述玩具2，由所述玩具2播放。比如，若语音识别结果包括交互信息，则调用相应的交互信息。该相应的交互信息包括存储在所述移动通讯终端1的交互信息，比如，将一些问题的答案预先存储在所述移动通讯终端1，在问到相应的语音信息时，调用预先存储对应的信息进行交互。也包括通过所述移动通讯终端1获取的交互信息，比如，要通过交互语音“有没有王菲的歌”，则所述移动通讯终端1通过查询，得到查询结果为“有”或“无”，该查询结果“有”或“无”则为相应的交互信息，然后将该交互信息传送到所述玩具2，由所述玩具3播放。在输入不能识别语音信息或不能执行的语音信息时，通过与所述移动通讯终端进行交互语音，以获取能执行的语音信息。比如，在输入“开机”语音信息时，若可能由于语音不清楚或者与标准语音差别过大，导致不能识别时，可以调用交互语音信息库进行提示再输入语音。再比如，在输入“现在打开故事吧”，此时，若移动通讯终端不能将该语音指令转换为控制指令，此时，需要补充输入语音信息，比如，调用交互信息库“您是想听故事吗？”这样语音交互提示，完成语音指令信息的补充，实现以自然语音即可控制玩具。具体实施例中，还包括唤醒所述移动通讯终端1进行语音输入状态的唤醒模块14，所述唤醒模块14唤醒所述移动通讯终端1，使所述移动通讯终端进入接收语音的状态。

如图2所示，本发明的优选实施方式是：还包括进行语音识别转换的网络服务器3，所述移动通讯终端1通过互联网连接所述网络服务器3并上传语音信息，所述网络服务器3与所述移动通讯终端1并行对语音信息进行识别转换。所述移动通讯终端和所述网络服务器的语音识别转换结果均包括语音识别转换的置信度。所谓置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度，也就是概率是对个人信念合理性的量度.概率的置信度解释表明，事件本身并没有什么概率，事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。语音识别转换的置信度即对语音识别转换结果真实性的相信程度。所述网络服务器3与所述移动通讯终端1并行对语音信息进行识别转换时，所述移动通讯终端1设置语音识别转换结果的置信度阈值，当所述移动通讯终端1语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述网络服务器3语音识别转换结果的置信度小于该置信度阈值时，取所述移动通讯终端1语音识别转换结果的置信度和所述网络服务器3语音识别转换结果的置信度中较大值的语音识别转换结果。

如图2所示，本发明的优选实施方式是：所述第一语音转换单元12还包括语义识别模块122，所述语义识别模块122根据所述语音识别模块121识别的语音判断出所述语音输入单元15输入语音的语义。比如，所述语音输入单元15输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后根据语音识别结果，进行语义判断，所述语义识别模块122根据语义判断为：播出今天该地的天气情况。再比如：比如，所述语音输入单元15输入语音为“今天天气好吗？”，首先，进行语音识别，输出识别结果为“今天天气好吗？”然后所述语义识别模块122根据语音识别结果，进行语义判断，根据语义判断为：播出今天该地的天气情况。再比如：语音输入为：“我想听王菲的音乐”，所述语义识别模块122语义识别分析得到用户的意图为“播放歌曲”，参数是“王菲”，然后根据分析结果，调用歌曲播放功能并直接播放王菲的歌曲。因为采用有语义识别，用户并不需要记住固定的语音控制命令，而是可以采用用户自己最习惯的语言表达来与玩具互动。所以对上一条意图，用户也可以说“请帮我找王菲的歌”、“有没有王菲最新的专辑？”、“王菲的执迷不悟”，也就是说，用户可自由表达自己的命令和意图，移动终端上强大的语音识别和语义理解引擎，都可以非常好的识别出用户的真正意图：播放王菲的歌曲，或播放王菲的某一首歌曲。如此，让智能玩具和用户的交互更佳自由、有趣，而且也没有增加原来玩具终端的直接硬件成本，让玩具厂商可以用比较低的成本，却实现了高性能的人机交互效果。

如图2所示，本发明的优选实施方式是：所述玩具2包括进行语音识别的第二语音转换单元23及与语音指令相配合的内容的存储模块。所述玩具的第二语音转换单元23对输入的语音进行转换。具体实施例中，玩具2本身也设置进行语音识别转换的第二语音转换单元23，同时，设置指令和内容库，对于简单的语音，先通过玩具2本身进行识别，若不能识别或识别后不具有该指令和内容库，则再通过进行识别处理。具体实施例中，所述与语音指令相配合的内容包括音频内容、文字内容中的一种或多种。

本发明的优选实施方式是：所述移动通讯终端具有存储语音指令及与语音指令相配合的内容的存储单元。在对玩具2进行操作时，包括操作指令或指令和指令指示的内容，比如，播放“小燕子”，则播放为指令，“小燕子”音频内容为内容作为参数。由于移动通讯终端1具有更大的存储能力，因此，其内容库可以更大，可以在移动通讯终端1中存储更多的语音指令及与语音指令相配合的内容。

如图2所示，本发明的优选实施方式是：所述移动通讯终端1的第一无线通讯模块11为红外信号发射器、蓝牙信号发送组件、RFID射频信号发生器及2.4G无线通讯信号发射组件中任一种或多种，玩具2上的第二无线通讯模块21为红外信号接收器、蓝牙信号接收组件、RFID射频信号阅读器及2.4G无线通讯信号接收组件中一种或多种。本专利技术方案中，无线通讯方式包括红外信号、高频调制通讯信号、蓝牙信号、2.4G无线通讯信号、RFID射频信号通讯中一种或多种，所述玩具2上的第二无线通讯模块21相应设置红外信号接收器、RFID射频信号阅读器及2.4G无线通讯信号接收组件中一种或多种，所述移动通讯终端1第一无线通讯模块12则为红外信号发射器、RFID射频信号发生器及2.4G无线通讯信号发射组件中一种或多种，所述移动通讯终端1通过无线通讯信号将转换后的指令或指令和参数发送到玩具2，由所述玩具2执行该指令或指令和参数。

本发明的技术效果是：通过构建一种基于移动通讯终端语音交互的玩具控制方法及系统，包括具有通讯连接的玩具2、具有语音输入及语音识别转换的移动通讯终端1，所述移动通讯终端1包括输入语音的语音输入单元15、与所述玩具2进行无线通讯连接的第一无线通讯模块11、将语音识别转换为指令或指令和参数的第一语音转换单元12，所述玩具2包括连接所述移动通讯终端1的第二无线通讯模块21，所述语音输入单元15输入语音，所述移动通讯终端1将输入的语音进行识别转换，该语音识别转换结果为指令或指令和参数的形式，由移动通讯终端1或玩具2共同执行该语音识别转换结果或由所述玩具2执行该语音识别转换结果。本发明一种基于移动通讯终端1的玩具语音控制方法及系统，利用现在移动通讯终端1较强的数据处理能力，对玩具2进行语音控制。本发明一种基于移动通讯终端1的玩具语音控制方法及系统，受益于移动通讯终端远远强于玩具终端的运算处理能力以及网络通讯能力，使得用户可以借助目前已经在市场上广泛应用发展的移动通讯终端1，在其终端平台上，采用智能交互能力更强、识别准度更高的语音识别和自然语言理解系统来最终实现与实体玩具的互动交互，带来远超传统玩具方案的交互体验的用户体验，使玩具2的内容更加丰富，功能更加强大，同时，大大节约了成本。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于移动通讯终端语音交互的玩具控制方法，其特征在于，包括具有无线通讯连接的玩具、具有语音输入及语音识别转换的移动通讯终端、进行语音识别的网络服务器，基于移动通讯终端语音交互的玩具控制方法包括如下步骤：

输入语音：由所述移动通讯终端输入语音，所述移动通讯终端通过互联网连接所述网络服务器并上传语音信息；

语音转换：所述移动通讯终端将接收的语音进行识别转换，该语音识别转换结果为指令或指令和参数的形式；所述网络服务器与所述移动通讯终端并行对语音信息进行识别转换，所述移动通讯终端和所述网络服务器的语音识别转换结果均包括语音识别转换的置信度，所述移动通讯终端设置语音识别转换结果的置信度阈值，当所述移动通讯终端语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述移动通讯终端语音识别转换结果的置信度小于该置信度阈值时，取所述移动通讯终端语音识别转换结果的置信度和所述网络服务器语音识别转换结果的置信度中较大值的语音识别转换结果；

执行识别转换结果：由移动通讯终端和所述玩具共同执行该语音识别转换结果或由移动通讯终端或玩具执行该语音识别转换结果。

2.根据权利要求1所述基于移动通讯终端语音交互的玩具控制方法，其特征在于，还包括根据识别场景构建语义知识库，所述语义知识库包括字词的语义属性，在语音识别转换步骤中，还包括进行语义识别转换，具体包括如下步骤：

3.根据权利要求1所述基于移动通讯终端语音交互的玩具控制方法，其特征在于，在语音识别转换步骤中，包括所述玩具对输入的语音进行识别转换，所述玩具执行该语音识别转换结果。

4.根据权利要求1所述基于移动通讯终端语音交互的玩具控制方法，其特征在于，在输入不能识别的语音信息或不能执行的语音信息时，通过所述移动通讯终端或玩具输入语音进行交互语音，以获取能执行的语音信息。

5.根据权利要求1所述基于移动通讯终端语音交互的玩具控制方法，其特征在于，还包括对所述移动通讯终端唤醒进行接收输入语音状态的唤醒步骤。

6.一种基于移动通讯终端语音交互的玩具控制系统，其特征在于，包括具有通讯连接的玩具、具有语音输入及语音识别转换的移动通讯终端、进行语音识别转换的网络服务器，所述移动通讯终端包括输入语音的语音输入单元、与所述玩具进行无线通讯连接的第一无线通讯模块、将语音识别转换为指令或指令和参数的第一语音转换单元，所述玩具包括连接所述移动通讯终端的第二无线通讯模块，所述语音输入单元输入语音，所述移动通讯终端通过互联网连接所述网络服务器并上传语音信息，所述移动通讯终端将输入的语音进行识别转换，所述网络服务器与所述移动通讯终端并行对语音信息进行识别转换，所述移动通讯终端和所述网络服务器的语音识别转换结果均包括语音识别转换的置信度，所述移动通讯终端设置语音识别转换结果的置信度阈值，当所述移动通讯终端语音识别转换结果的置信度大于等于该置信度阈值时，取该语音识别转换结果，若所述移动通讯终端语音识别转换结果的置信度小于该置信度阈值时，取所述移动通讯终端语音识别转换结果的置信度和所述网络服务器语音识别转换结果的置信度中较大值的语音识别转换结果，该语音识别转换结果为指令或指令和参数的形式，由所述移动通讯终端和所述玩具共同执行该语音识别转换结果或由所述移动通讯终端或所述玩具执行该语音识别转换结果。

7.根据权利要求6所述基于移动通讯终端语音交互的玩具控制系统，其特征在于，所述第一语音转换单元包括进行语音识别转换的语音识别模块、语义识别模块，所述语义识别模块根据所述语音识别模块识别的语音判断出所述语音输入单元输入语音的语义。

8.根据权利要求6所述基于移动通讯终端语音交互的玩具控制系统，其特征在于，所述移动通讯终端的第一无线通讯模块为红外信号发射器、蓝牙通讯组件、RFID射频通讯组件及2.4G无线通讯组件中任一种或多种，所述玩具的第二无线通讯模块为红外信号接收器、蓝牙通讯组件、RFID射频通讯组件及2.4G无线通讯组件中一种或多种。

9.根据权利要求6所述基于移动通讯终端语音交互的玩具控制系统，其特征在于，所述玩具包括进行语音识别转换的第二语音转换单元，所述玩具的第二语音转换单元对语音进行识别转换。