CN114898746A - 交互方法和装置、存储介质及电子装置 - Google Patents
交互方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN114898746A CN114898746A CN202210379960.8A CN202210379960A CN114898746A CN 114898746 A CN114898746 A CN 114898746A CN 202210379960 A CN202210379960 A CN 202210379960A CN 114898746 A CN114898746 A CN 114898746A
- Authority
- CN
- China
- Prior art keywords
- target
- data stream
- interaction
- terminal
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 230000009471 action Effects 0.000 claims description 39
- 238000003058 natural language processing Methods 0.000 claims description 14
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 5
- 230000002708 enhancing effect Effects 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000004887 air purification Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种交互方法和装置、存储介质及电子装置,涉及智能家居技术领域,该交互方法包括:获取目标终端发送的请求指令,请求指令是由目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,请求指令中包括目标语音的信息;对目标语音进行解析,以获得解析结果,解析结果用于指示目标对象的目标交互意图;基于解析结果所指示的目标交互意图生成目标数据流;通过RTMP推流服务将目标数据流发送至目标终端,以指示目标终端基于目标数据流与目标对象进行交互。可解决相关技术中存在的虚拟交互方式的可扩展性较低的问题,达到增强虚拟交互方式的可扩展性的效果。
Description
技术领域
本申请涉及智能家居技术领域,具体而言,涉及一种交互方法和装置、存储介质及电子装置。
背景技术
近些年来,智能家居行业发展迅速,人们利用智能设备可以实现在屏幕上的各种人机交互,例如,与智能AI的交互,或与虚拟人偶的交互等,相关技术中的虚拟人交互,是根据用户的交互信息,生成相应的动作参数,然后传递给终端展示出对应的表情和肢体动作,即相关技术中的方案是通过云端下发参数,来驱动本地动作,这样需要云端和终端对齐使用的参数,一旦发布版本,就只能通过终端升级的方式来支持更多的动作,可扩展性低。即相关技术中的虚拟交互方式存在可扩展性较低的问题。
针对相关技术中存在的虚拟交互方式的可扩展性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种交互方法和装置、存储介质及电子装置,以至少解决相关技术中存在的虚拟交互方式的可扩展性较低的问题。
根据本申请实施例的一个实施例,提供了一种交互方法,包括:获取目标终端发送的请求指令,其中,所述请求指令是由所述目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,所述请求指令中包括所述目标语音的信息;对所述目标语音进行解析,以获得解析结果,其中,所述解析结果用于指示所述目标对象的目标交互意图;基于所述解析结果所指示的所述目标交互意图生成目标数据流;通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端,以指示所述目标终端基于所述目标数据流与所述目标对象进行交互。
在一个示例性实施例中,对所述目标语音进行解析,以获得解析结果包括:对所述目标语音进行识别,以获得第一目标文本;对所述第一目标文本进行解析,以获得所述目标交互意图;生成用于指示所述目标交互意图的所述解析结果。
在一个示例性实施例中,对所述第一目标文本进行解析,以获得所述目标交互意图包括:通过自然语言处理NLP对所述第一目标文本进行解析,以获得所述目标交互意图。
在一个示例性实施例中,基于所述解析结果所指示的所述目标交互意图生成目标数据流包括:基于所述解析结果所指示的所述目标交互意图,获取目标技能编码,及获取第二目标文本,其中,所述目标技能编码用于表示与所述目标交互意图对应的动作的编码,所述第二目标文本是基于所述目标交互意图获得的文本;基于所述目标技能编码生成第一目标数据流,以及基于所述第二目标文本生成第二目标数据流;基于所述第一目标数据流和所述第二目标数据流生成所述目标数据流。
在一个示例性实施例中,基于所述目标技能编码生成第一目标数据流包括:对所述目标技能编码进行解析,以获得所述目标技能编码所对应的动作数据;基于所述动作数据生成所述第一目标数据流。
在一个示例性实施例中,基于所述解析结果所指示的所述目标交互意图,获取第二目标文本包括:基于所述目标交互意图,确定与所述目标交互意图匹配的目标服务单元;获取由所述目标服务单元查询得到的所述第二目标文本。
在一个示例性实施例中,通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端包括:将所述目标数据流转换成目标统一资源定位URL链接;将所述目标URL链接发送至所述目标终端;在接收到所述目标终端发送的播放指令的情况下,通过所述RTMP推流服务将所述目标数据流发送至所述目标终端。
根据本申请实施例的另一个实施例,还提供了一种交互装置,包括:获取模块,用于获取目标终端发送的请求指令,其中,所述请求指令是由所述目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,所述请求指令中包括所述目标语音的信息;解析模块,用于对所述目标语音进行解析,以获得解析结果,其中,所述解析结果用于指示所述目标对象的目标交互意图;生成模块,用于基于所述解析结果所指示的所述目标交互意图生成目标数据流;发送模块,用于通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端,以指示所述目标终端基于所述目标数据流与所述目标对象进行交互。
根据本申请实施例的又一个实施例,还提供了一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述任一项方法实施例中的步骤。
根据本申请实施例的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项方法实施例中的步骤。
通过本发明,通过获取目标终端发送的请求指令,其中,请求指令是目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,再对目标语音进行解析,以获得解析结果,解析结果用于指示目标对象的目标交互意图,再基于目标交互意图生成目标数据流,然后通过RTMP推流服务将目标数据流发送至目标终端,以指示目标终端基于目标数据流与目标对象进行交互,即通过在云端生成目标数据流并将目标数据流发送至目标终端以实现与目标对象的交互,避免了相关技术中由于通过云端下发参数来驱动终端本地动作的方式进行交互,需要依赖于对终端进行升级才能实现更多交互动作的更新,从而造成对终端的硬件资源要求较高的问题以及更新慢和可扩展性低的问题。通过本发明,解决了相关技术中存在的虚拟交互方式的可扩展性较低的问题,达到了增强虚拟交互方式的可扩展性的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的一种智能家居设备的交互方法的硬件环境示意图;
图2是根据本申请实施例的一种交互方法的流程图;
图3是根据本申请具体实施例的一种虚拟交互方法的流程图;
图4是根据本申请具体实施例的另一种虚拟交互方法的流程图;
图5是根据本申请实施例的RTMP推流服务流程示意图;
图6是根据本申请实施例的一种交互装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种智能家居设备的交互方法。该智能家居设备的交互方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述智能家居设备的交互方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
在本实施例中提供了一种交互方法,图2是根据本申请实施例的一种交互方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取目标终端发送的请求指令,其中,所述请求指令是由所述目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,所述请求指令中包括所述目标语音的信息;
步骤S204,对所述目标语音进行解析,以获得解析结果,其中,所述解析结果用于指示所述目标对象的目标交互意图;
步骤S206,基于所述解析结果所指示的所述目标交互意图生成目标数据流;
步骤S208,通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端,以指示所述目标终端基于所述目标数据流与所述目标对象进行交互。
通过上述步骤,通过获取目标终端发送的请求指令,其中,请求指令是目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,再对目标语音进行解析,以获得解析结果,解析结果用于指示目标对象的目标交互意图,再基于目标交互意图生成目标数据流,然后通过RTMP推流服务将目标数据流发送至目标终端,以指示目标终端基于目标数据流与目标对象进行交互,即通过在云端生成目标数据流并将目标数据流发送至目标终端以实现与目标对象的交互,避免了相关技术中由于通过云端下发参数来驱动终端本地动作的方式进行交互,需要依赖于对终端进行升级才能实现更多交互动作的更新,从而造成对终端的硬件资源要求较高的问题以及更新慢和可扩展性低的问题。通过本发明,解决了相关技术中存在的虚拟交互方式的可扩展性较低的问题,达到了增强虚拟交互方式的可扩展性的效果。
其中,上述步骤的执行主体可以为云端,或服务器,或者为配置在存储设备上的具备人机交互能力的处理器,或者为具备类似处理能力的处理设备或处理单元等,但不限于此。下面以云端执行上述操作为例(仅是一种示例性说明,在实际操作中还可以是其他的设备或模块来执行上述操作)进行说明:
在上述实施例中,云端获取目标终端发送的请求指令,该请求指令是由目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,该请求指令中包括目标语音的信息,例如,当用户(即上述目标对象)向目标终端(如手机,或智能音箱,或其它终端)发出目标语音,如今天的天气怎么样,或今天什么天气等,在目标终端采集到用户发出的目标语音后生成请求指令,并将请求指令发送至云端;云端对目标语音进行解析,以获得解析结果,解析结果用于指示目标对象的目标交互意图,在实际应用中,可通过云端自动语音识别ASR(Automatic Speech Recognition)服务将用户的目标语音转换为文本内容,再将识别后的文本内容送入云端自然语言处理NLP(Natural Language Processing)服务进行解析,以确定用户的交互意图;基于解析结果所指示的目标交互意图生成目标数据流,例如,基于用户的目标交互意图生成相应的动作数据,例如,与上述天气相关的动作数据,目标数据流中还包括基于目标交互意图获得的文本结果,例如,由云端的目标服务单元基于目标交互意图通过第三方查询获得的文本结果,例如,上述今天的实际天气信息,云端可基于文本结果生成实时的口型数据,在实际应用中,云端还可基于生成的口型数据与动作数据最终生成目标数据流文件;然后,将目标数据流发送至目标终端,以指示目标终端基于目标数据流与目标对象进行交互,例如,云端通过实时消息协议RTMP推流服务将目标数据流传送给目标终端进行展示。在本实施例中,通过在云端生成目标数据流并将目标数据流发送至目标终端以实现与目标对象的交互,避免了相关技术中由于通过云端下发参数来驱动终端本地动作的方式进行交互,需要依赖于对终端进行升级才能实现更多交互动作的更新,从而造成对终端的硬件资源要求较高的问题以及更新慢和可扩展性低的问题。通过本发明,解决了相关技术中存在的虚拟交互方式的可扩展性较低的问题,达到了增强虚拟交互方式的可扩展性的效果。
在一个可选的实施例中,对所述目标语音进行解析,以获得解析结果包括:对所述目标语音进行识别,以获得第一目标文本;对所述第一目标文本进行解析,以获得所述目标交互意图;生成用于指示所述目标交互意图的所述解析结果。在本实施例中,通过云端ASR服务对用户的目标语音进行识别,以获得第一目标文本,再对第一目标文本进行解析,例如,通过云端NLP服务对第一目标文本进行解析,以获得用户的目标交互意图,例如,用户的交互意图是查询今天的当地天气,从而生成用于指示目标交互意图的解析结果。通过本实施例,实现了对目标语音进行识别、解析以获得用于指示目标交互意图的解析结果的目的。
在一个可选的实施例中,对所述第一目标文本进行解析,以获得所述目标交互意图包括:通过自然语言处理NLP对所述第一目标文本进行解析,以获得所述目标交互意图。在本实施例中,通过NLP对第一目标文本进行解析,以获得用户的目标交互意图,即获得用户的目标语义,这样云端可基于目标交互意图生成相关的动作及语音数据。通过本实施例,实现了通过NLP对第一目标文本进行解析以获得目标交互意图的目的。
在一个可选的实施例中,基于所述解析结果所指示的所述目标交互意图生成目标数据流包括:基于所述解析结果所指示的所述目标交互意图,获取目标技能编码,及获取第二目标文本,其中,所述目标技能编码用于表示与所述目标交互意图对应的动作的编码,所述第二目标文本是基于所述目标交互意图获得的文本;基于所述目标技能编码生成第一目标数据流,以及基于所述第二目标文本生成第二目标数据流;基于所述第一目标数据流和所述第二目标数据流生成所述目标数据流。在本实施例中,基于目标交互意图获取目标技能编码及获取第二目标文本,例如,根据目标交互意图确定出对应的领域类型,领域类型可包括特定技能,定制技能及其他技能等,而特定技能类型中还可包括新闻领域,天气领域等,定制技能类型中可包括草裙舞,哭泣等,其他技能类型中可包括百科,闲聊等,每种领域有对应的技能,即每种领域类型下又包括一种或多种不同的具体技能,在实际应用中,可对每种领域类型中包括的任一具体领域进行编码,例如特定技能类型下的新闻领域对应的编码为A101,定制技能类型下的草裙舞对应的编码为B101,这样用户的意图就会被映射到每个领域下,有专门的动作编码进行对应,这样即可获得与目标交互意图对应的目标技能编码,在实际应用中,针对用户不同的交互请求,将生成相应的领域中的动作以响应用户的交互请求;基于目标交互意图获取第二目标文本,例如,用户的目标交互意图为查询今天的天气,在实际应用中,云端可基于目标交互意图确定与交互意图匹配的目标服务单元,由目标服务单元通过第三方获取第二目标文本,例如,第二目标文本包括天气结果,如28℃,晴天或其它天气结果等;再基于目标技能编码生成第一目标数据流,即根据不同的目标技能编码生成相应的动作数据,例如,人物动作,或卡通形象动作,以及基于第二目标文本生成第二目标数据流,例如,在实际应用中,可以在第二目标文本(如上述28℃,晴天等)的基础上添加一些其它文本或话语内容进行组合后生成实时的口型数据,即生成第二目标数据流,然后基于第一目标数据流和第二目标数据流生成目标数据流,例如生成多媒体文件;在本实施例中,还可在云端新增或扩展新技能,同时新增新的技能编码,然后上线,通过云端编码的方式可以灵活的对上线后的动作进行调整,如果需要更新动作,只需在云端替换对应编号的动作即可;在实际应用中,云端还可通过RTMP推流服务将目标数据流推送至目标终端以响应目标对象的交互请求。通过本实施例,实现了由云端基于解析结果生成目标数据流的目的。
在一个可选的实施例中,基于所述目标技能编码生成第一目标数据流包括:对所述目标技能编码进行解析,以获得所述目标技能编码所对应的动作数据;基于所述动作数据生成所述第一目标数据流。在本实施例中,通过对目标技能编码(如上述A101,或B101)进行解析,可获得与目标技能编码对应的动作数据,例如,人物动作,或卡通形象动作,再基于动作数据可生成第一目标数据流。通过本实施例,实现了基于目标技能编码生成第一目标数据流的目的。
在一个可选的实施例中,基于所述解析结果所指示的所述目标交互意图,获取第二目标文本包括:基于所述目标交互意图,确定与所述目标交互意图匹配的目标服务单元;获取由所述目标服务单元查询得到的所述第二目标文本。在本实施例中,基于目标交互意图,确定出与目标交互意图匹配的目标服务单元,以目标交互意图为上述查询今天的天气为例,可确定出特定技能类型下的天气领域的服务单元,由该服务单元通过第三方查询获得第二目标文本,例如,第二目标文本为28℃,晴天或其它天气结果等,从而可进一步地生成相应的口型数据。通过本实施例,实现了基于目标交互意图获取第二目标文本的目的。
在一个可选的实施例中,通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端包括:将所述目标数据流转换成目标统一资源定位URL链接;将所述目标URL链接发送至所述目标终端;在接收到所述目标终端发送的播放指令的情况下,通过所述RTMP推流服务将所述目标数据流发送至所述目标终端。在本实施例中,云端将目标数据流转换成目标URL链接,并将目标URL链接发送至目标终端,当接收到目标终端发送的播放指令的情况下,云端通过RTMP推流服务可将目标数据流发送至目标终端,以将云端所生成的动作数据及口型数据等以视频的形式在目标终端进行展示,视频中可包括与前述动作编码对应的动作内容,以响应目标对象的交互请求。通过本实施例,实现了将目标数据流发送至目标终端以进行展示的目的。
在一个可选的实施例中,将所述目标数据流发送至所述目标终端包括:通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端。在本实施例中,云端可通过RTMP推流服务将目标数据流发送至目标终端,例如,通过RTMP推流服务,将目标数据流转换成RTMP视频URL发送到目标终端,在目标终端建立连接后,就可以直接调用本地播放器来播放视频文件了。在实际应用中,在目标终端和服务端(或云端)双方运行之后,终端会向服务端发送握手的请求,服务端收到握手请求后,会依据RTMP协议的要求,完成检测版本号等操作,最后完成握手操作;在完成握手之后,终端会继续向服务端发送连接的请求,服务端的服务层收到此消息后,会对其进行解析,此消息包含与服务端建立一个RTMP连接的请求,服务端按照消息中参数的数据,与终端建立这个连接;在完成RTMP连接之后,终端会继续向服务端发送创建流的请求,流可以传输音视频数据,服务端完成流创建之后,会发送消息给终端,最后,终端向服务端发送播放的命令;当接收到终端发送的停止播放的命令后,云端将停止数据流的推送。通过本实施例,实现了通过RTMP推流服务将目标数据流发送至目标终端的目的。
为了更好的理解上述交互方法的过程,以下再结合可选实施例对上述交互方法的流程进行说明,但不用于限定本申请实施例的技术方案。
在本实施例中提供了一种虚拟交互方法,图3是根据本申请具体实施例的一种虚拟交互方法的流程图,如图3所示,具体如下:
S302,终端(对应于前述目标终端)通过拾音设备(如手机麦克风,或带屏音箱,或带屏冰箱,或电视等设备)获取用户的语音(对应于前述目标语音);
S304,终端通过网络将用户的语音上传到云端;
S306,云端进行音频解码;
S308,通过ASR识别服务将用户音频实时转换为文本内容(对应于前述第一目标文本);
S310,识别后的文本内容,送入云端NLP进行解析,智能判断用户的交互意图;
上述步骤S310包括:按照特定技能、定制技能、其他技能类别进行解析,按照不同的领域类型分别进行编码,如特定技能类别下的新闻领域,对应的编码为A101,定制技能类别下的草裙舞,编码为B101,这样用户的意图,会被映射到每个领域下,有专门的动作编码进行对应;
S312,在对用户的动作(或意图)进行分门别类的编码后,进行编码解析,然后就进入下一个视频流(对应于前述目标数据流)生成环节。在这部分,动作生成引擎,会根据不同的动作编码,选择生成不同的动作(对应于前述第一目标数据流),并根据返回的响应结果中的文本内容(对应于前述第二目标文本),生成实时的口型数据(对应于前述第二目标数据流),再基于生成的口型数据与动作一同生成最终的视频文件(对应于前述目标数据流);
S314,通过RTMP推流服务器将数据传送给终端进行展示处理。
在上述实施例中,通过对用户语音交互内容,进行智能分析,获取用户意图,根据用户不同的意图领域,返回不同的动作,通过在云端进行视频动作生成,并将动作通过视频流方式发送到终端侧进行展示,本实施例中由云端对用户的文本进行解析,获取用户的真正意图,并根据用户意图生成对应的动作编码,以及通过云端进行动作生成的方式和流程,区别于相关技术中通过驱动终端本地动作的方式,增加了方案的可扩展性,降低了对硬件资源的限制,达到了增强交互方式的可扩展性的效果;同时,通过云端编码的方式可以灵活的对上线后的动作进行调整,如果需要更新动作,只需在云端替换对应编号的动作即可,达到了方便对交互方式及交互内容进行更新的效果。
在本实施例中还提供了另一种虚拟交互方法,图4是根据本申请具体实施例的另一种虚拟交互方法的流程图,如图4所示,具体如下:
S402,终端获取用户的语音;
S404,在用户语音交互后,终端将音频传输到识别服务中,如前述ASR识别服务;
S406,通过感知决策分析,获得所属的动作及文本结果,相当于前述用户意图所对应的动作编码,以及基于用户意图生成的第二目标文本;
S408,虚拟人生成服务,根据文本结果生成对应的人物语言数据,根据所属的动作生成人物动作数据,将两部分数据进行融合,输出最终的视频结果;
S410,通过RTMP推流服务,将视频流(对应于前述目标数据流)转换成RTMP视频URL,发送到终端,在终端建立连接后,就可以直接调用本地播放器,播放视频文件;
下面对上述实施例中的RTMP推流过程进行说明,图5是根据本申请实施例的RTMP推流服务流程示意图,该流程包括:
S502,在客户端(或终端)和服务端(或云端)双方运行之后,客户端会向服务端发送握手的请求,服务端收到握手请求后,会依据RTMP协议的要求,完成检测版本号等操作,最后完成握手操作;
S504,在完成握手之后,客户端会继续向服务端发送连接的请求,服务端的服务层收到此消息后,会对其进行解析,此消息包含与服务端建立一个RTMP连接的请求,服务端按照消息中参数的数据,与客户端建立这个连接;
S506,在完成RTMP连接之后,客户端会继续向服务端发送创建流的请求,流可以传输音视频数据;服务端完成流创建之后,会发送消息给客户端;
S508,客户端向服务端发送播放的命令;
S510,客户端接收数据流(对应于前述目标数据流),即服务端将数据流下发至客户端,其中包括设置块大小,数据流头,数据流播放,及音频或视频数据下发;
S512,在接收到终端发送的停止播放指令时,服务端将停止下发数据流。
通过上述实施例,通过云端驱动生成虚拟人视频流,并通过RTMP协议实现视频流的推拉的方案,可扩展性更高,对终端算力的要求更低,能更好地在各个产业落地。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
在本实施例中还提供了一种交互装置,图6是根据本申请实施例的一种交互装置的结构框图,如图6所示,包括:
获取模块602,用于获取目标终端发送的请求指令,其中,所述请求指令是由所述目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,所述请求指令中包括所述目标语音的信息;
解析模块604,用于对所述目标语音进行解析,以获得解析结果,其中,所述解析结果用于指示所述目标对象的目标交互意图;
生成模块606,用于基于所述解析结果所指示的所述目标交互意图生成目标数据流;
发送模块608,用于通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端,以指示所述目标终端基于所述目标数据流与所述目标对象进行交互。
在一个可选的实施例中,上述解析模块604包括:识别单元,用于对所述目标语音进行识别,以获得第一目标文本;解析单元,用于对所述第一目标文本进行解析,以获得所述目标交互意图;第一生成单元,用于生成用于指示所述目标交互意图的所述解析结果。
在一个可选的实施例中,上述解析单元包括:第一解析子单元,用于通过自然语言处理NLP对所述第一目标文本进行解析,以获得所述目标交互意图。
在一个可选的实施例中,上述生成模块606包括:获取单元,用于基于所述解析结果所指示的所述目标交互意图,获取目标技能编码,及获取第二目标文本,其中,所述目标技能编码用于表示与所述目标交互意图对应的动作的编码,所述第二目标文本是基于所述目标交互意图获得的文本;第二生成单元,用于基于所述目标技能编码生成第一目标数据流,以及基于所述第二目标文本生成第二目标数据流;第三生成单元,用于基于所述第一目标数据流和所述第二目标数据流生成所述目标数据流。
在一个可选的实施例中,上述第二生成单元包括:第二解析子单元,用于对所述目标技能编码进行解析,以获得所述目标技能编码所对应的动作数据;生成子单元,用于基于所述动作数据生成所述第一目标数据流。
在一个可选的实施例中,上述获取单元包括:确定子单元,用于基于所述目标交互意图,确定与所述目标交互意图匹配的目标服务单元;获取子单元,用于获取由所述目标服务单元查询得到的所述第二目标文本。
在一个可选的实施例中,上述发送模块608包括:转换单元,用于将所述目标数据流转换成目标统一资源定位URL链接;第一发送单元,用于将所述目标URL链接发送至所述目标终端;第二发送单元,用于在接收到所述目标终端发送的播放指令的情况下,通过所述RTMP推流服务将所述目标数据流发送至所述目标终端。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读的存储介质,该计算机可读的存储介质包括存储的程序,其中,该程序运行时执行上述任一项的方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读的存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种交互方法,其特征在于,包括:
获取目标终端发送的请求指令,其中,所述请求指令是由所述目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,所述请求指令中包括所述目标语音的信息;
对所述目标语音进行解析,以获得解析结果,其中,所述解析结果用于指示所述目标对象的目标交互意图;
基于所述解析结果所指示的所述目标交互意图生成目标数据流;
通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端,以指示所述目标终端基于所述目标数据流与所述目标对象进行交互。
2.根据权利要求1所述的方法,其特征在于,对所述目标语音进行解析,以获得解析结果包括:
对所述目标语音进行识别,以获得第一目标文本;
对所述第一目标文本进行解析,以获得所述目标交互意图;
生成用于指示所述目标交互意图的所述解析结果。
3.根据权利要求2所述的方法,其特征在于,对所述第一目标文本进行解析,以获得所述目标交互意图包括:
通过自然语言处理NLP对所述第一目标文本进行解析,以获得所述目标交互意图。
4.根据权利要求1所述的方法,其特征在于,基于所述解析结果所指示的所述目标交互意图生成目标数据流包括:
基于所述解析结果所指示的所述目标交互意图,获取目标技能编码,及获取第二目标文本,其中,所述目标技能编码用于表示与所述目标交互意图对应的动作的编码,所述第二目标文本是基于所述目标交互意图获得的文本;
基于所述目标技能编码生成第一目标数据流,以及基于所述第二目标文本生成第二目标数据流;
基于所述第一目标数据流和所述第二目标数据流生成所述目标数据流。
5.根据权利要求4所述的方法,其特征在于,基于所述目标技能编码生成第一目标数据流包括:
对所述目标技能编码进行解析,以获得所述目标技能编码所对应的动作数据;
基于所述动作数据生成所述第一目标数据流。
6.根据权利要求4所述的方法,其特征在于,基于所述解析结果所指示的所述目标交互意图,获取第二目标文本包括:
基于所述目标交互意图,确定与所述目标交互意图匹配的目标服务单元;
获取由所述目标服务单元查询得到的所述第二目标文本。
7.根据权利要求1所述的方法,其特征在于,通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端包括:
将所述目标数据流转换成目标统一资源定位URL链接;
将所述目标URL链接发送至所述目标终端;
在接收到所述目标终端发送的播放指令的情况下,通过所述RTMP推流服务将所述目标数据流发送至所述目标终端。
8.一种交互装置,其特征在于,包括:
获取模块,用于获取目标终端发送的请求指令,其中,所述请求指令是由所述目标终端在采集到目标对象发出的请求交互的目标语音之后生成的,所述请求指令中包括所述目标语音的信息;
解析模块,用于对所述目标语音进行解析,以获得解析结果,其中,所述解析结果用于指示所述目标对象的目标交互意图;
生成模块,用于基于所述解析结果所指示的所述目标交互意图生成目标数据流;
发送模块,用于通过实时消息协议RTMP推流服务将所述目标数据流发送至所述目标终端,以指示所述目标终端基于所述目标数据流与所述目标对象进行交互。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至7中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379960.8A CN114898746A (zh) | 2022-04-12 | 2022-04-12 | 交互方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210379960.8A CN114898746A (zh) | 2022-04-12 | 2022-04-12 | 交互方法和装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114898746A true CN114898746A (zh) | 2022-08-12 |
Family
ID=82717793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210379960.8A Pending CN114898746A (zh) | 2022-04-12 | 2022-04-12 | 交互方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898746A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115914366A (zh) * | 2023-01-10 | 2023-04-04 | 北京红棉小冰科技有限公司 | 虚拟人物物语推送方法、系统和电子设备 |
CN117953543A (zh) * | 2024-03-26 | 2024-04-30 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于多元文本的人物交互检测方法、终端及可读存储介质 |
CN117953543B (zh) * | 2024-03-26 | 2024-06-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于多元文本的人物交互检测方法、终端及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108683937A (zh) * | 2018-03-09 | 2018-10-19 | 百度在线网络技术(北京)有限公司 | 智能电视的语音交互反馈方法、系统及计算机可读介质 |
CN109032356A (zh) * | 2018-07-27 | 2018-12-18 | 深圳绿米联创科技有限公司 | 手语控制方法、装置及系统 |
CN109949801A (zh) * | 2019-01-10 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 一种基于耳机的智能家居设备语音控制方法及系统 |
CN110362666A (zh) * | 2019-07-09 | 2019-10-22 | 邬欣霖 | 应用虚拟人物的交互处理方法、装置、存储介质和设备 |
CN110460910A (zh) * | 2019-08-23 | 2019-11-15 | 南京美乐威电子科技有限公司 | 一种rtmp协议到ndi协议的转换方法,转换装置及转换系统 |
CN110555321A (zh) * | 2019-09-11 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 智能家居系统中的数据处理方法、装置及存储介质 |
CN113392201A (zh) * | 2021-06-18 | 2021-09-14 | 中国工商银行股份有限公司 | 信息交互方法、装置、电子设备、介质和程序产品 |
CN113409805A (zh) * | 2020-11-02 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 人机交互方法、装置、存储介质及终端设备 |
CN113593544A (zh) * | 2021-06-11 | 2021-11-02 | 青岛海尔科技有限公司 | 设备的控制方法和装置、存储介质及电子装置 |
CN113919360A (zh) * | 2020-07-09 | 2022-01-11 | 阿里巴巴集团控股有限公司 | 语义理解方法、语音交互方法、装置、设备及存储介质 |
-
2022
- 2022-04-12 CN CN202210379960.8A patent/CN114898746A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108683937A (zh) * | 2018-03-09 | 2018-10-19 | 百度在线网络技术(北京)有限公司 | 智能电视的语音交互反馈方法、系统及计算机可读介质 |
CN109032356A (zh) * | 2018-07-27 | 2018-12-18 | 深圳绿米联创科技有限公司 | 手语控制方法、装置及系统 |
CN109949801A (zh) * | 2019-01-10 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 一种基于耳机的智能家居设备语音控制方法及系统 |
CN110362666A (zh) * | 2019-07-09 | 2019-10-22 | 邬欣霖 | 应用虚拟人物的交互处理方法、装置、存储介质和设备 |
CN110460910A (zh) * | 2019-08-23 | 2019-11-15 | 南京美乐威电子科技有限公司 | 一种rtmp协议到ndi协议的转换方法,转换装置及转换系统 |
CN110555321A (zh) * | 2019-09-11 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 智能家居系统中的数据处理方法、装置及存储介质 |
CN113919360A (zh) * | 2020-07-09 | 2022-01-11 | 阿里巴巴集团控股有限公司 | 语义理解方法、语音交互方法、装置、设备及存储介质 |
CN113409805A (zh) * | 2020-11-02 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 人机交互方法、装置、存储介质及终端设备 |
CN113593544A (zh) * | 2021-06-11 | 2021-11-02 | 青岛海尔科技有限公司 | 设备的控制方法和装置、存储介质及电子装置 |
CN113392201A (zh) * | 2021-06-18 | 2021-09-14 | 中国工商银行股份有限公司 | 信息交互方法、装置、电子设备、介质和程序产品 |
Non-Patent Citations (2)
Title |
---|
刘克成 郑珂 王晓: "Java程序设计简明教程", 31 July 2007, 中国电力出版社, pages: 132 * |
周宇飞 卢阿丽 张建涛: "基于H.265的实时监控系统", 计算机技术应用, no. 15, 3 August 2017 (2017-08-03), pages 156 - 157 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115914366A (zh) * | 2023-01-10 | 2023-04-04 | 北京红棉小冰科技有限公司 | 虚拟人物物语推送方法、系统和电子设备 |
CN115914366B (zh) * | 2023-01-10 | 2023-06-30 | 北京红棉小冰科技有限公司 | 虚拟人物物语推送方法、系统和电子设备 |
CN117953543A (zh) * | 2024-03-26 | 2024-04-30 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于多元文本的人物交互检测方法、终端及可读存储介质 |
CN117953543B (zh) * | 2024-03-26 | 2024-06-25 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于多元文本的人物交互检测方法、终端及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107370649B (zh) | 家电控制方法、系统、控制终端、及存储介质 | |
CN109618202B (zh) | 控制外设的方法、电视及可读存储介质 | |
CN105847099B (zh) | 基于人工智能的物联网实现系统和方法 | |
CN103730116A (zh) | 在智能手表上实现智能家居设备控制的系统及其方法 | |
US20080046944A1 (en) | Ubiquitous home media service apparatus and method based on smmd, and home media service system and method using the same | |
CN108922528B (zh) | 用于处理语音的方法和装置 | |
CN103474068A (zh) | 实现语音命令控制的方法、设备及系统 | |
CN110501918A (zh) | 智能家电控制方法、装置、电子设备和存储介质 | |
CN111048085A (zh) | 基于zigbee无线技术的离线式语音控制方法、系统及存储介质 | |
CN105023575A (zh) | 语音识别方法、装置和系统 | |
CN114067798A (zh) | 一种服务器、智能设备及智能语音控制方法 | |
CN114898746A (zh) | 交互方法和装置、存储介质及电子装置 | |
CN205829977U (zh) | 一种适用于传统音响的无线语音对话和控制装置 | |
CN112752134B (zh) | 视频处理方法和装置、存储介质及电子装置 | |
CN112908326A (zh) | 家居语音控制学习和应用方法及装置 | |
CN109658924B (zh) | 会话消息处理方法、装置及智能设备 | |
KR20060102601A (ko) | 로봇 컨텐츠 제공 서비스 시스템 및 그 방법 | |
US11574621B1 (en) | Stateless third party interactions | |
CN114974230A (zh) | 语音识别方法、装置、系统、电子设备及存储介质 | |
CN113742473A (zh) | 一种数字虚拟人交互系统及其计算传输优化方法 | |
CN109640124B (zh) | 一种互动信息的处理方法、系统和智能机顶盒 | |
CN113407692A (zh) | 基于iptv端的政务咨询方法及系统 | |
CN108108105B (zh) | 一种信息处理设备及信息处理方法 | |
CN112331203A (zh) | 智能家居设备控制方法、装置、电子设备及存储介质 | |
CN212909839U (zh) | 一种基于电视的物联网控制系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |