CN113593573A - 机器交互方法和装置 - Google Patents
机器交互方法和装置 Download PDFInfo
- Publication number
- CN113593573A CN113593573A CN202110888612.9A CN202110888612A CN113593573A CN 113593573 A CN113593573 A CN 113593573A CN 202110888612 A CN202110888612 A CN 202110888612A CN 113593573 A CN113593573 A CN 113593573A
- Authority
- CN
- China
- Prior art keywords
- natural language
- voice signal
- interaction
- language text
- receiving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000004044 response Effects 0.000 claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 8
- 230000009365 direct transmission Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 11
- 241000282414 Homo sapiens Species 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000006855 networking Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000004378 air conditioning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000010267 cellular communication Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G08—SIGNALLING
- G08C—TRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
- G08C23/00—Non-electrical signal transmission systems, e.g. optical systems
- G08C23/02—Non-electrical signal transmission systems, e.g. optical systems using infrasonic, sonic or ultrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开机器交互方法和装置,其中,一种机器交互方法,用于发送设备包括:响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;将所述自然语言文本转换成语音信号并通过声波发送至接收设备。通过声波传输信息,并基于自然语言编码直接传输自然语言,从而可以实现不同机器之间可以进行灵活的交互,有效的减低设备的成本,进一步地,无需连接网络通过声波就能够交互,大大的提高了设备使用的安全性。
Description
技术领域
本发明属于语音交互技术领域,尤其涉及机器交互方法和装置。
背景技术
随着物联网和人工智能技术的发展和普及,设备数量越来越多,在功能上越来越智能,设备与设备之间的交互需求越来越迫切,比如设备发现、自动联网、设备控制等。设计一种通用、快捷、可扩展能力强、不依赖于公共网络的机器与机器交互的方法具有很高的应用价值。
现有技术包括:通过4G/5G蜂窝通信、wifi通信技术进行交互,通过蓝牙、NFC等点对点通信方式进行交互和通过传统的声波通信进行交互。
其中,上述现有技术的缺陷包括:设备需要具有蜂窝通信、wifi、蓝牙的通信模组或芯片,有一定的成本;设备接入网络的配网(或首次配网)过程需要人来参与,并且配网过程复杂,尤其是对于无屏的设备,有些对于电子设备不熟悉的用户,比如老人,其操作难度增加;使用蜂窝或者wifi通信进行交互的设备,必须接入互联网,通过互联网进行数据交换,在没有网络的场景下不能交互;设备之间要交互的信息和数据报文的格式、编解码方法需要预先设计好,想要让设备之间交互并理解更多的内容,必须靠提前定义好新的功能接口或数据报文格式,缺少普适性;不同厂家的产品之间由于缺少统一的功能接口和应用层数据格式的定义,很难直接进行交互;配置NFC的设备不需要配网可以直接交互,但是其通信距离太近,不适合机器与机器之间的交互;目前已有的声波通信技术可以使设备之间直接进行交互,但是需要提前设计好功能接口和报文格式,不同厂家的产品不能互通。同时,传统的声波通信传输的不是自然语言,是人类不能理解的声音,设备交互过程人类不能得知进行到什么步骤或出现什么异常。
就是说不同设备、不同的应用之间缺少普适性和扩展性强的信息编解码方式,现有的信息传输不利于人类听懂和理解。
发明内容
本发明实施例提供一种机器交互方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种用于发送设备的机器交互方法,包括:响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;将所述自然语言文本转换成语音信号并通过声波发送至接收设备。
第二方面,本发明实施例提供一种用于接收设备的机器交互方法,包括:响应于接收到发送设备发送的语音信号,判断所述语音信号是否是发送给所述接收设备的语音信号;若是,将所述语音信号识别为自然语言文本;对所述自然语言文本进行自然语言解码,并执行自然语言解码结果。
第三方面,本发明实施例提供一种机器交互方法,包括:响应于发送设备生成交互意图,所述发送设备对所述交互意图进行自然语言编码生成自然语言文本;所述发送设备将所述自然语言文本合成为语音信号并通过声波发送至接收设备;所述接收设备接收所述语音信号,所述接收设备将所述语音信号转换为自然语言文本;所述接收设备将所述自然语言文本进行自然语言解码,并基于自然语言解码结果执行所述自然语言解码结果。
第四方面,本发明实施例提供一用于发送设备的种机器交互装置,包括:编码程序模块,配置为响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;转换发送程序模块,配置为将所述自然语言文本转换成语音信号并通过声波发送至接收设备。
第五方面,本发明实施例提供一种用于接收设备的机器交互装置,包括:接收判断程序模块,配置为响应于接收到发送设备发送的语音信号,判断所述语音信号是否是发送给所述接收设备的语音信号;识别程序模块,配置为若是,将所述语音信号识别为自然语言文本;第一解码执行程序模块,配置为对所述自然语言文本进行自然语言解码,并执行自然语言解码结果。
第六方面,本发明实施例提供一种机器交互装置,包括:生成编码程序模块,配置为响应于发送设备生成交互意图,所述发送设备对所述交互意图进行自然语言编码生成自然语言文本;合成发送程序模块,配置为所述发送设备将所述自然语言文本合成为语音信号并通过声波发送至接收设备;接收转换程序模块,配置为所述接收设备接收所述语音信号,所述接收设备将所述语音信号转换为自然语言文本;第二解码执行程序模块,配置为所述接收设备将所述自然语言文本进行自然语言解码,并基于自然语言解码结果执行所述自然语言解码结果。
第七方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的机器交互方法的步骤。
第八方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的机器交互方法的步骤。
本申请的方法和装置通过声波传输信息,并基于自然语言编码直接传输自然语言,从而可以实现不同机器之间可以进行灵活的交互,有效的减低设备的成本和使用难度,进一步地,无需连接网络通过声波就能够交互,大大的提高了设备使用的安全性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种用于发送设备的机器交互方法的流程图;
图2为本发明一实施例提供的另一种机器交互方法的流程图;
图3为本发明一实施例提供的一种用于接收设备的机器交互方法的流程图;
图4为本发明一实施例提供的另一种机器交互方法的流程图;
图5为本发明一实施例提供的一种机器交互方法的流程图;
图6为本发明一实施例提供的机器交互方法的一个具体示例的流程图;
图7为本发明一实施例提供的一种用于发送设备的机器交互装置的框图
图8为本发明一实施例提供的一种用于接收设备的机器交互装置的框图
图9为本发明一实施例提供的一种机器交互装置的框图;
图10是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本发明一实施例提供的一种用于发送设备的机器交互方法的流程图,本实施例的用于发送设备的机器交互方法可以适用于具备拾音和发音功能的设备,如智能音箱、智能手机、平板、电脑等。
如图1所示,在步骤101中,响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;
在步骤102中,将所述自然语言文本转换成语音信号并通过声波发送至接收设备。
在本实施例中,对于步骤101,机器交互装置响应于发送设备的交互意图,基于发送设备的交互意图进行自然语言编码生成自然语言文本,例如,发送设备为智能音箱,当获取到用户的“打开空调”指令,智能音箱基于用户的指令生成“打开空调”的交互意图,或者智能温度计监测到室内温度大于或小于预设温度,向智能音箱发送“打开空调”指令,之后,智能音箱基于获取的指令生成对应的交互意图,进一步地,将交互意图进行自然语言编码,其中,自然语言是一种自然地随文化演化的语言,例如,汉语、英语和日语都是自然语言。
之后,对于步骤102,机器交互装置将自然语言文本转换成语音信号并通过声波发送至接收设备,例如,使用语音合成算法或工具将自然语言文本转换成人类能够听懂的语音并通过声波发送至接收设备,以“打开空调”为例,发送设备发送过程中,用户能够根据自然语言的词法和语法正确的接收和理解其所承载的信息,增加用户的安全感和使用体验。
本实施例的方法通过声波传输信息,并基于自然语言编码直接传输自然语言,从而可以实现不同机器之间可以进行灵活的交互,有效的减低设备的成本,进一步地,无需连接网络通过声波就能够交互,大大的提高了设备使用的安全性。
进一步参考图2,其示出了本申请一实施例提供的另一种机器交互方法的流程图。该流程图主要是对流程图1“基于所述发送设备的交互意图进行自然语言编码生成自然语言文本”的流程进一步限定的步骤的流程图。
如图2所示,在步骤201中,基于所述交互意图,在自然语言的预设词表中获取与所述交互意图对应的词语,其中,所述自然语言具有语法规则;
在步骤202中,基于所述预设词表和所述语法规则将与所述交互意图对应的词语组合为自然语言文本。
在本实施例中,对于步骤201,机器交互装置基于交互意图,在自然语言的预设词表中获取与交互意图对应的词语,其中,自然语言具有语法规则,以中文为例,每一种句子成分都有自己的词表,例如,谓语的词表里包含打开、关闭和调等,宾语的词表里包含灯、空调和电视等,进一步地,还有组成定语和状语的助词的词表包含的、地和得等,其中,每一次词表有一组初始的词表,之后用户可以基于用户自己的需求主动的对词表进行添加或修改,在机器之间的交互中,还可以互相学习由设备自动添加或修改。
之后,对于步骤202,机器交互装置基于预设词表和语法规则将与交互意图对应的词语组合为自然语言文本,以中文为例,基本的句子结构为主语+谓语+宾语,其中,主语在有些情况下可以省略,例如,打开(谓语)空调(宾语),进一步地,主语和宾语前面可以有修饰用的定语,谓语前面可以有修饰用的状语,谓语后面可以有补语,例如,打开(谓语)客厅的(定语)灯、空调(主语)调(谓语)到二十六度(介宾语做补语),
本实施例的方法通过以自然语言进行编码,从而可以实现不同机器之间可以进行自由灵活的交互,进一步地降低机器交互的成本和使用难度。
请参考图3,其示出了本发明一实施例提供的一种用于接收设备的机器交互方法的流程图,
如图3所示,在步骤301中,响应于接收到发送设备发送的语音信号,判断所述语音信号是否是发送给所述接收设备的语音信号;
在步骤302中,若是,将所述语音信号识别为自然语言文本;
在步骤303中,对所述自然语言文本进行自然语言解码,并执行自然语言解码结果。
在本实施例中,对于步骤301,机器交互装置响应于接收到发送设备发送的语音信号,判断语音信号是否是发送给接收设备的语音信号,例如,语音信号中除了作为主体的自然语言文本,还有其他的辅助信息,例如发送设备ID、接收设备ID和校验信息等,这些辅助信息可以使用超声波或者接近超声波的频率进行传输。
之后,对于步骤302,若语音信号是发送给接收设备的语音信号,基于预设词表和语法规则将语音信号识别为自然语言文本。
最后,对于步骤303,机器交互装置对自然语言文本进行自然语言解码,并执行自然语言解码结果,其中,解码结果是各个句子成分以及对应的词语,例如,“打开灯”解码之后“打开”是谓语,“灯”是宾语。
本实施例的方法通过将接收到的语音信号进行自然语言解码并执行解码结果,从而可以实现使用最基础的拾音和发音装备就能够进行数据的传输。
在上述实施例所述的方法中,所述语音信号中至少包含接收设备ID,所述判断所述语音信号是否是发送给所述接收设备的语音信号包括:
判断语音信号中的接收设备ID是否与当前接收设备的接收设备ID匹配,例如,若语音信号中的接收设备ID与当前接收设备的接收设备ID匹配,则对发送给当前设备的语音信号进行响应,若语音信号中的接收设备ID与当前接收设备的接收设备ID不匹配,结束与发送设备的交互。
本实施例的方法通过判断语音信号中的接收设备ID是否与当前接收设备的接收设备ID匹配,从而可以实现在当前接收设备准确的对发送设备进行响应的同时降低其他接收设备的功耗。
在上述实施例所述的方法中,所述对所述自然语言文本进行自然语言解码包括:
基于自然语言的预设词表将自然语言文本进行自然语言解码,其中,所述自然语言具有语法规则,例如,自然语言文本为“密码是一二三”,那么解码后主语是“密码”、谓语是“是”、宾语是“一二三”。
本实施例的方法通过基于自然语言的预设词表将自然语言文本进行自然语言解码,从而可以实现基于自然语言编码以及解码直接传输自然语言。
进一步参考图4,其示出了本申请一实施例提供的另一种机器交互方法的流程图。该流程图主要是对流程图1“对所述自然语言文本进行自然语言解码,并执行自然语言解码结果”之后的流程进一步限定的步骤的流程图。
如图4所示,在步骤401中,判断所述自然语言解码结果是否执行;
在步骤402中,若执行,将执行结果通过声波反馈至所述发送设备并结束与所述发送设备的交互;
在步骤403中,若未执行,将执行结果通过声波反馈至所述发送设备,以经由所述发送设备重新与所述接收设备进行交互。
在本实施例中,对于步骤401,机器交互装置判断自然语言解码结果是否执行;之后,对于步骤402,若执行自然语言解码结果,将执行结果通过声波反馈至发送设备并结束与发送设备的交互;最后,对于步骤403,若未执行自然语言解码结果,将执行结果通过声波反馈至发送设备,以经由发送设备重新与接收设备进行交互;例如,接收设备为空调,自然语言解码结果是“打开空调”,若空调打开则会播报空调已打开,若空调未打开或未响应则会播报空调未打开或空调未响应,发送设备接收到空调已打开的反馈之后结束与接收设备的交互,若发送设备接收到空调未打开的反馈之后,重新生成打开空调的交互意图并与空调重新交互。
本实施例的方法通过判断是否执行完成自然语言解码结果,从而可以实现进一步增加设备的智能性。
请参考图5,其示出了本发明一实施例提供的一种机器交互方法的流程图。
如图5所示,在步骤501中,响应于发送设备生成交互意图,所述发送设备对所述交互意图进行自然语言编码生成自然语言文本;
在步骤502中,所述发送设备将所述自然语言文本合成为语音信号并通过声波发送至接收设备;
在步骤503中,所述接收设备接收所述语音信号,所述接收设备将所述语音信号转换为自然语言文本;
在步骤504中,所述接收设备将所述自然语言文本进行自然语言解码,并基于自然语言解码结果执行所述自然语言解码结果。
在本实施例中,对于步骤501,机器交互装置响应于发送设备生成交互意图,发送设备对交互意图进行自然语言编码生成自然语言文本,例如,例如,发送设备为智能音箱,当获取到用户的“打开客厅灯”指令,智能音箱基于用户的指令生成“打开客厅灯”的交互意图,或者基于用户的设置,到了用户的预设时间自动生成“打开客厅灯”的交互意图,进一步地,在自然语言的预设词表中获取与交互意图对应的词语,并基于预设词表和语法规则将与交互意图对应的词语组合为自然语言文本。
然后,对于步骤502,发送设备将自然语言文本合成为语音信号并通过声波发送至接收设备,以“打开客厅灯”为例,发送设备发送过程中,除接收设备外,用户也能够根据自然语言的词法和语法正确的接收和理解其所承载的信息,增加用户的安全感和使用体验。
之后,对于步骤503,接收设备接收语音信号,接收设备将语音信号基于预设词表和语法规则将语音信号识别为自然语言文本。
最后,对于步骤504,接收设备将自然语言文本进行自然语言解码,并基于自然语言解码结果执行自然语言解码结果,例如,自然语言解码结果为“打开客厅灯”那么就打开客厅灯,若自然语言解码结果为“打开空调”那么空调启动。
本实施例的方法通过声波传输信息,并基于自然语言编码直接传输自然语言,从而可以实现不同机器之间可以进行灵活的交互,有效的减低设备的成本和使用难度。
需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本申请在此没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:
不同设备、不同的应用之间缺少普适性和扩展性强的信息编解码方式和现有的信息传输不利于人类听懂和理解。
发明人还发现,在互联网时代,互联网是绝大多数应用场景的落地载体,技术人员对互联网比较熟悉,思考方案时想要跳出互联网基础设施就变得比较困难;目前而言还没有成熟的基于声波组网的协议,使用声波传输数据仍然面临着挑战;而设计出通用的、可扩展的、人类能够听懂和理解的信息编解码方法有很大的挑战。
本申请的方案主要从以下几个方面入手进行设计和优化:
在家居场景,智能设备越来越多,设备之间互联互通的需求越来越迫切。比如设备联网这个场景,已经联网的设备将联网信息和密码发送给待联网的设备,可以大大降低操作的门槛,提升用户体验。但是不同厂商或者不同生态圈的设备由于协议的不同是不能直接交互的,比如公司1的设备无法将联网信息告诉公司2的设备。如果有一种通用的机器与机器的交互方式,实现设备之间直接交互,将会减少设备互联的难度,降低技术门槛,提高用户体验。
受到人与人之间交互方式的启发:人与人之间的交互是以自然语言为基础的,自然语言在一定的范围内具有通用性和可扩展性,人们能够根据自然语言的词法和语法正确的接收和理解其所承载的信息,从而达到高效交流的目的。
通过设计本申请,机器能够将自己的交互意图通过自然语言编码生成自然语言文本,该文本通过语音合成系统生成语音信号,通过声波传输给其它机器。接收到该声波的机器,通过语音识别系统将该语音信号转化文本,通过本系统解码为交互意图,从而实现机器与机器之间的交互。在这个交互过程中,人类也可以听懂机器之间传输的信息。
具备自然语言编解码系统的设备,根据该语言(比如中文)的语法生成自然语言。以中文为例,基本的句子结构为“主语+谓语+宾语”,其中主语可以省略,比如“打开(谓语)空调(宾语)”,“密码(主语)是(谓语)一二三(宾语)”。其中主语和宾语前面可以有修饰用的定语,谓语前面可以有修饰用的状语,谓语后面可以有补语,比如“打开客厅的灯”,其中“打开”是谓语,“灯”是宾语,“客厅的”是定语;“空调调到二十度”,其中“空调”是主语,“调”是谓语,“到二十度”是介宾短语做补语;“用户名不是user”,“用户名”是主语,“是”是谓语,“user”是宾语,“不”是状语。
每一种句子成分都有自己的词表,比如谓语的词表里包含“打开”、“关闭”、“调”、“是”等,宾语词表里包含“空调”,“窗户”、“灯”等,组成定语和状语的助词词表包含“的”,“地”,“得”等。每一个词表有一组默认或者初始的词语集合或,后期用户可以自主添加或者修改,或者机器之间通过交互可以相互学习,由机器自动添加或修改。
在实际应用过程中,代表机器交互意图的自然语言信息可以使用人类语音发声的频率进行传输。除了这些必要信息以外,还需要有其它的辅助信息,比如发送方的设备ID、接收方的设备ID、校验信息等,这些辅助信息可以使用超声波,或接近超声波的频率进行传输,最终将两种不同频率的声音合并到一起进行传输。
请参考图6,其示出了本发明一实施例提供的机器交互方法的一个具体示例的流程图。
如图6所示,步骤1:有交互需求的设备生成交互的意图,比如“打开空调”。
步骤2:根据生成的交互意图,使用自然语言编码方法生成自然语言文本。该机器从词表中选择符合意图的词语,根据语法规则组合成自然语言文本。比如从谓语词表中选择“打开”,从宾语词表中选择“空调”,根据“谓语+宾语”的语法规则,生成自然语言文本“打开空调”。
步骤3:使用语音合成算法或者工具将自然语言文本生成人类可以听懂的语音。
步骤4:将步骤3生成的语音信号通过声波发送出去。
步骤5:目标机器接收到该声音信号。
步骤6:目标机器通过语音识别算法或者工具将该声音信号转换成自然语言文本。
步骤7:目标机器利用词表和语法规则,将该自然语言文本进行解码,解码结果是各个句子成分以及对应的词语,比如“打开空调”解码为谓语是“打开”,宾语是“空调”。
步骤8:目标机器根据解码结果执行对应的操作。比如目标机器是一个空调,则可以执行打开空调的操作。
步骤9:机器判断交互是否完成,即判断是否有继续交互的意图,若有则重复步骤1,生成下一步交互的意图继续交互;否则结束交互。
发明人在实现本发明的过程中发现达到更深层次的效果:
通过自然语言交互具有很好的通用性,不必事先约定好网络接口和应用协议,不同机器之间可以进行自由灵活的交互,降低了机器交互的成本和使用难度,支持跨设备跨品牌的联动与交互;具有很好的可扩展性以及可学习性,使用者通过扩展语法成分的词库可以很方便的扩展机器交互的功能和能力范围;设备与设备之间也可以互相学习,不断扩充自己的词表,丰富自己的交互能力人类能够感知和理解设备之间交流的内容,增加用户的安全感及用户体验;无须增加额外的设备,只需要使用最基础的拾音及发音装备就能够进行数据的传输,能够有效减低设备的成本;机器之间的交互不依赖于互联网,设备无需联网即可交互。
请参考图7,其示出了本发明一实施例提供的一种用于发送设备的机器交互装置的框图。
如图7所示,用于发送设备的机器交互装置700,包括编码程序模块710和转换发送程序模块720。
其中,编码程序模块710,配置为响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;转换发送程序模块720,配置为将所述自然语言文本转换成语音信号并通过声波发送至接收设备。
请参考图8,其示出了本发明一实施例提供的一种用于接收设备的机器交互装置的框图。
如图8所示,用于接收设备的机器交互装置800,包括接收判断程序模块810、识别程序模块820和第一解码执行程序模块830。
其中,接收判断程序模块810,配置为响应于接收到发送设备发送的语音信号,判断所述语音信号是否是发送给所述接收设备的语音信号;识别程序模块820,配置为若是,将所述语音信号识别为自然语言文本;第一解码执行程序模块830,配置为对所述自然语言文本进行自然语言解码,并执行自然语言解码结果。
请参考图9,其示出了本发明一实施例提供的一种机器交互装置的框图。
如图9所示,机器交互装置900,包括生成编码程序模块910、合成发送程序模块920、接收转换程序模块930和第二解码执行程序模块940。
其中,生成编码程序模块910,配置为响应于发送设备生成交互意图,所述发送设备对所述交互意图进行自然语言编码生成自然语言文本;合成发送程序模块920,配置为所述发送设备将所述自然语言文本合成为语音信号并通过声波发送至接收设备;接收转换程序模块930,配置为所述接收设备接收所述语音信号,所述接收设备将所述语音信号转换为自然语言文本;第二解码执行程序模块940,配置为所述接收设备将所述自然语言文本进行自然语言解码,并基于自然语言解码结果执行所述自然语言解码结果。
应当理解,图7、图8和图9中记载的诸模块与参考图1、图2、图3、图4和图5中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7、图8和图9中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如编码程序模块可以描述为响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如编码程序模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的机器交互方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;
将所述自然语言文本转换成语音信号并通过声波发送至接收设备。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于接收到发送设备发送的语音信号,判断所述语音信号是否是发送给所述接收设备的语音信号;
若是,将所述语音信号识别为自然语言文本;
对所述自然语言文本进行自然语言解码,并执行自然语言解码结果。
作为又一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于发送设备生成交互意图,所述发送设备对所述交互意图进行自然语言编码生成自然语言文本;
所述发送设备将所述自然语言文本合成为语音信号并通过声波发送至接收设备;
所述接收设备接收所述语音信号,所述接收设备将所述语音信号转换为自然语言文本;
所述接收设备将所述自然语言文本进行自然语言解码,并基于自然语言解码结果执行所述自然语言解码结果。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据机器交互装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至机器交互装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项机器交互方法。
图10是本发明实施例提供的电子设备的结构示意图,如图10所示,该设备包括:一个或多个处理器1010以及存储器1020,图10中以一个处理器1010为例。机器交互方法的设备还可以包括:输入装置1030和输出装置1040。处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接,图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例机器交互方法。输入装置1030可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于机器交互装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;
将所述自然语言文本转换成语音信号并通过声波发送至接收设备。
作为另一种实施方式,上述电子设备应用于机器交互装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于接收到发送设备发送的语音信号,判断所述语音信号是否是发送给所述接收设备的语音信号;
若是,将所述语音信号识别为自然语言文本;
对所述自然语言文本进行自然语言解码,并执行自然语言解码结果。
作为又一种实施方式,上述电子设备应用于机器交互装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于发送设备生成交互意图,所述发送设备对所述交互意图进行自然语言编码生成自然语言文本;
所述发送设备将所述自然语言文本合成为语音信号并通过声波发送至接收设备;
所述接收设备接收所述语音信号,所述接收设备将所述语音信号转换为自然语言文本;
所述接收设备将所述自然语言文本进行自然语言解码,并基于自然语言解码结果执行所述自然语言解码结果。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种机器交互方法,用于发送设备,包括:
响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;
将所述自然语言文本转换成语音信号并通过声波发送至接收设备。
2.根据权利要求1所述的方法,其中,所述基于所述发送设备的交互意图进行自然语言编码生成自然语言文本,包括:
基于所述交互意图,在自然语言的预设词表中获取与所述交互意图对应的词语,其中,所述自然语言具有语法规则;
基于所述预设词表和所述语法规则将与所述交互意图对应的词语组合为自然语言文本。
3.一种机器交互方法,用于接收设备,包括:
响应于接收到发送设备发送的语音信号,判断所述语音信号是否是发送给所述接收设备的语音信号;
若是,将所述语音信号识别为自然语言文本;
对所述自然语言文本进行自然语言解码,并执行自然语言解码结果。
4.根据权利要求3所述的方法,其中,所述语音信号中至少包含接收设备ID,所述判断所述语音信号是否是发送给所述接收设备的语音信号包括:
判断所述语音信号中的接收设备ID是否与当前接收设备的接收设备ID匹配。
5.根据权利要求3所述的方法,其中,所述对所述自然语言文本进行自然语言解码包括:
基于自然语言的预设词表将所述自然语言文本进行自然语言解码,其中,所述自然语言具有语法规则。
6.根据权利要求3所述的方法,其中,在所述对所述自然语言文本进行自然语言解码,并执行自然语言解码结果之后,还包括:
判断所述自然语言解码结果是否执行;
若执行,将执行结果通过声波反馈至所述发送设备并结束与所述发送设备的交互;
若未执行,将执行结果通过声波反馈至所述发送设备,以经由所述发送设备重新与所述接收设备进行交互。
7.一种机器交互方法,包括:
响应于发送设备生成交互意图,所述发送设备对所述交互意图进行自然语言编码生成自然语言文本;
所述发送设备将所述自然语言文本合成为语音信号并通过声波发送至接收设备;
所述接收设备接收所述语音信号,所述接收设备将所述语音信号转换为自然语言文本;
所述接收设备将所述自然语言文本进行自然语言解码,并基于自然语言解码结果执行所述自然语言解码结果。
8.一种机器交互装置,用于发送设备,包括:
编码程序模块,配置为响应于所述发送设备的交互意图,基于所述发送设备的交互意图进行自然语言编码生成自然语言文本;
转换发送程序模块,配置为将所述自然语言文本转换成语音信号并通过声波发送至接收设备。
9.一种机器交互装置,用于接收设备,包括:
接收判断程序模块,配置为响应于接收到发送设备发送的语音信号,判断所述语音信号是否是发送给所述接收设备的语音信号;
识别程序模块,配置为若是,将所述语音信号识别为自然语言文本;
第一解码执行程序模块,配置为对所述自然语言文本进行自然语言解码,并执行自然语言解码结果。
10.一种机器交互装置,包括:
生成编码程序模块,配置为响应于发送设备生成交互意图,所述发送设备对所述交互意图进行自然语言编码生成自然语言文本;
合成发送程序模块,配置为所述发送设备将所述自然语言文本合成为语音信号并通过声波发送至接收设备;
接收转换程序模块,配置为所述接收设备接收所述语音信号,所述接收设备将所述语音信号转换为自然语言文本;
第二解码执行程序模块,配置为所述接收设备将所述自然语言文本进行自然语言解码,并基于自然语言解码结果执行所述自然语言解码结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110888612.9A CN113593573B (zh) | 2021-07-30 | 2021-07-30 | 机器交互方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110888612.9A CN113593573B (zh) | 2021-07-30 | 2021-07-30 | 机器交互方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593573A true CN113593573A (zh) | 2021-11-02 |
CN113593573B CN113593573B (zh) | 2024-01-12 |
Family
ID=78254704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110888612.9A Active CN113593573B (zh) | 2021-07-30 | 2021-07-30 | 机器交互方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593573B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677635A (zh) * | 2015-12-29 | 2016-06-15 | 聚熵信息技术(上海)有限公司 | 用于自然语言交互的方法、设备及系统 |
CN107680590A (zh) * | 2017-09-18 | 2018-02-09 | 北京小蓦机器人技术有限公司 | 一种用于处理自然语言命令的方法、设备与存储介质 |
CN108040111A (zh) * | 2017-12-13 | 2018-05-15 | 北京北信源软件股份有限公司 | 一种支持自然语言交互的装置和方法 |
CN109150508A (zh) * | 2017-06-27 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 设备控制和受控方法、装置、计算机设备和存储介质 |
CN111414760A (zh) * | 2018-12-18 | 2020-07-14 | 广东美的白色家电技术创新中心有限公司 | 自然语言处理方法及相关设备、系统和存储装置 |
CN111696534A (zh) * | 2019-03-15 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
WO2021060590A1 (ko) * | 2019-09-27 | 2021-04-01 | 엘지전자 주식회사 | 디스플레이 장치 및 인공 지능 시스템 |
CN112800737A (zh) * | 2019-10-29 | 2021-05-14 | 京东数字科技控股有限公司 | 自然语言文本生成方法和装置以及对话系统 |
-
2021
- 2021-07-30 CN CN202110888612.9A patent/CN113593573B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677635A (zh) * | 2015-12-29 | 2016-06-15 | 聚熵信息技术(上海)有限公司 | 用于自然语言交互的方法、设备及系统 |
CN109150508A (zh) * | 2017-06-27 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 设备控制和受控方法、装置、计算机设备和存储介质 |
CN107680590A (zh) * | 2017-09-18 | 2018-02-09 | 北京小蓦机器人技术有限公司 | 一种用于处理自然语言命令的方法、设备与存储介质 |
CN108040111A (zh) * | 2017-12-13 | 2018-05-15 | 北京北信源软件股份有限公司 | 一种支持自然语言交互的装置和方法 |
CN111414760A (zh) * | 2018-12-18 | 2020-07-14 | 广东美的白色家电技术创新中心有限公司 | 自然语言处理方法及相关设备、系统和存储装置 |
CN111696534A (zh) * | 2019-03-15 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 语音交互设备和系统、设备控制方法、计算设备以及介质 |
WO2021060590A1 (ko) * | 2019-09-27 | 2021-04-01 | 엘지전자 주식회사 | 디스플레이 장치 및 인공 지능 시스템 |
CN112800737A (zh) * | 2019-10-29 | 2021-05-14 | 京东数字科技控股有限公司 | 自然语言文本生成方法和装置以及对话系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113593573B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9479911B2 (en) | Method and system for supporting a translation-based communication service and terminal supporting the service | |
CN106653008B (zh) | 一种语音控制方法、装置及系统 | |
JP6516585B2 (ja) | 制御装置、その方法及びプログラム | |
KR20190075800A (ko) | 지능형 개인 보조 인터페이스 시스템 | |
CN111880645A (zh) | 基于用户的语音输入确定目标设备并控制目标设备的服务器及其操作方法 | |
CN103474068A (zh) | 实现语音命令控制的方法、设备及系统 | |
JP2014089437A (ja) | 音声認識装置及び音声認識方法 | |
JP2002534716A (ja) | 注目期間を有する音声入力装置 | |
CN110932953A (zh) | 智能家居控制方法、装置、计算机设备及存储介质 | |
CN106251873A (zh) | 语音控制方法及语音控制系统 | |
CN104122979A (zh) | 一种语音控制大屏幕的方法及装置 | |
WO2018133656A1 (zh) | 将语音输入转换成文本输入的方法、装置和语音输入设备 | |
CN107085463A (zh) | 一种支持自然语言信息交互的智能设备控制体系和方法 | |
CN110782897B (zh) | 一种基于自然语义编码的语音终端通信方法及系统 | |
CN112767934A (zh) | 按摩设备控制方法、相关装置及计算机存储介质 | |
CN113593573B (zh) | 机器交互方法和装置 | |
WO2018059595A1 (zh) | 车载无线交互方法、控制设备和车载设备 | |
CN110473524B (zh) | 语音识别系统的构建方法和装置 | |
CN111726284A (zh) | 用于车载智能音箱的微信发送方法和装置 | |
KR101953154B1 (ko) | 고속 무선통신을 수행하는 인공지능 스피커 시스템 | |
CN111554291B (zh) | 设备控制方法、语音输入终端、语音平台及存储介质 | |
CN108055655A (zh) | 一种语音设备加好友的方法、装置、设备及存储介质 | |
JP7112487B2 (ja) | 対話装置 | |
CN113593571A (zh) | 声音信息传输方法和装置 | |
CN112002325A (zh) | 多语种语音交互方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |